KR20210111420A - System and Method for Media Processing Based on Deep Learning - Google Patents

System and Method for Media Processing Based on Deep Learning Download PDF

Info

Publication number
KR20210111420A
KR20210111420A KR1020200026303A KR20200026303A KR20210111420A KR 20210111420 A KR20210111420 A KR 20210111420A KR 1020200026303 A KR1020200026303 A KR 1020200026303A KR 20200026303 A KR20200026303 A KR 20200026303A KR 20210111420 A KR20210111420 A KR 20210111420A
Authority
KR
South Korea
Prior art keywords
content
media processing
model
dnn
information
Prior art date
Application number
KR1020200026303A
Other languages
Korean (ko)
Other versions
KR102618646B1 (en
Inventor
나태영
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020200026303A priority Critical patent/KR102618646B1/en
Publication of KR20210111420A publication Critical patent/KR20210111420A/en
Application granted granted Critical
Publication of KR102618646B1 publication Critical patent/KR102618646B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Disclosed are a system and method for processing a media based on deep learning. In providing a media service, a server, in the present embodiment, transmits identification information and a parameter of a deep learning model trained in advance to be optimized for specific content to a terminal together with the specific content. By applying the specific content to the deep learning model, the terminal can generate the content having an optimized media quality.

Description

딥러닝 기반 미디어 처리시스템 및 방법{System and Method for Media Processing Based on Deep Learning}Deep Learning-based media processing system and method {System and Method for Media Processing Based on Deep Learning}

본 발명은 딥러닝 기반 미디어 처리시스템 및 방법 관한 것이다. 더욱 상세하게는, VoD(Video on Demand) 또는 음원 스트리밍(streaming) 서비스에서 제공되는 콘텐츠(content)의 품질을 딥러닝 기반으로 향상시킬 수 있는 미디어 처리시스템 및 방법에 관한 것이다.The present invention relates to a deep learning-based media processing system and method. More specifically, it relates to a media processing system and method capable of improving the quality of content provided in a video on demand (VoD) or sound source streaming service based on deep learning.

이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다. The content described below merely provides background information related to the present invention and does not constitute the prior art.

초해상도(Super Resolution: SR), 잡음제거(de-noising) 등 전통적인 영상처리(image processing) 분야에 딥러닝(deep learning) 기반 기술이 활발하게 적용되고 있다, 음원 서비스(music service) 분야에서도 CNN(Convolutional Neural Network)-Unet 기반으로 저비트율(low bitrate)을 갖는 음원의 고음역대를 효과적으로 복원할 수 있는 방법이 제안되었다(비특허문헌 1 참조). 딥러닝 기반 처리(processing based on deep learning) 기술을 이용하여 압축 및/또는 전송 등의 과정에 의해 미디어 신호, 즉 영상 또는 음원의 손실된 정보가 효과적으로 복원될 수 있음을 보여주는 다양한 사례들이 있다. Deep learning-based technologies are being actively applied to traditional image processing fields such as Super Resolution (SR) and de-noising. (Convolutional Neural Network)-Unet-based method for effectively reconstructing the high-pitched range of a sound source having a low bitrate has been proposed (see Non-Patent Document 1). There are various examples showing that lost information of a media signal, that is, an image or a sound source, can be effectively restored by a process such as compression and/or transmission using a processing based on deep learning technology.

딥러닝 기반 미디어 처리(media processing) 기법은 복잡도 등의 이유로 주로 H/E(Head End, 또는 스토리지 서버(storage server))에서 수행된 후, 개선된 미디어 신호를 단말기로 내려 보내주는 방식이 일반적이다. 그러나, 이러한 방식은 스트리밍(streaming)을 위한 트래픽(traffic) 용량의 급증을 유발하므로 망 인프라(network infra) 운영 측면에서 효과적이지 않을 수 있다. The deep learning-based media processing technique is generally performed in H/E (Head End, or storage server) for reasons of complexity, and then sends the improved media signal down to the terminal. . However, this method may not be effective in terms of network infrastructure operation because it causes a surge in traffic capacity for streaming.

한편, 딥러닝 기반 처리기법은 학습을 위한 DB(Database)를 이용하여 DNN(Deep Neural Network)을 트레이닝하는 트레이닝 단계 및 도출된 파라미터(parameter), 즉 망 계수(network coefficient)를 입력 미디어 콘텐츠(content)에 적용하여 원하는 결과를 얻어내는 추론 단계를 포함한다. 딥러닝 기반 처리는, 트레이닝 단계에서 광범위한 학습용 DB를 이용하여 파라미터를 도출함으로써 추론 단계에서 모든 콘텐츠에 잘 적용되도록 하는 것을 목표로 한다. 반면, 너무 적은 범위의 DB가 트레이닝에 이용되면, 과학습(overfitting) 현상 때문에 다양한 입력에 대해 DNN의 최적 성능을 낼 수 없다는 문제가 있다. On the other hand, the deep learning-based processing technique is a training step of training a deep neural network (DNN) using a database (DB) for learning and inputting a derived parameter, that is, a network coefficient, to the media content. ) to obtain the desired result by applying the reasoning step. Deep learning-based processing aims to apply well to all content in the inference stage by deriving parameters using a wide range of learning DBs in the training stage. On the other hand, if a DB of too small a range is used for training, there is a problem that the optimal performance of the DNN cannot be obtained for various inputs due to overfitting.

따라서, 미디어 콘텐츠에 대한 딥러닝 기반 처리에 있어서, 망 인프라(network infra) 운영 측면의 효율을 증대시키고, 과학습 현상에 대처가 가능한 방법이 요구된다. Therefore, in deep learning-based processing of media content, a method that increases the efficiency of network infrastructure operation and can cope with the scientific learning phenomenon is required.

비특허문헌 1: Kuleshov, Volodymyr, S. Zayd Enam, and Stefano Ermon. "Audio super resolution using neural networks." arXiv preprint arXiv:1708.00853 (2017)Non-Patent Document 1: Kuleshov, Volodymyr, S. Zayd Enam, and Stefano Ermon. "Audio super resolution using neural networks." arXiv preprint arXiv:1708.00853 (2017)

본 개시는, 미디어 서비스(media service)를 제공함에 있어서, 서버는 특정 콘텐츠(content)에 최적화되도록 사전에 트레이닝된 딥러닝(deep learning) 모델의 식별(identification) 정보와 파라미터(parameter)를 특정 콘텐츠와 함께 단말기 측으로 전달한다. 단말기는 특정 콘텐츠를 딥러닝 모델에 적용함으로써, 최적화된 미디어 품질을 갖는 콘텐츠를 생성하는 것이 가능한 미디어 처리시스템 및 방법을 제공하는 데 주된 목적이 있다.In the present disclosure, in providing a media service, the server receives identification information and parameters of a deep learning model trained in advance to be optimized for specific content. is transmitted to the terminal side with The main purpose of the terminal is to provide a media processing system and method capable of generating content with optimized media quality by applying specific content to a deep learning model.

본 발명의 실시예에 따르면, 콘텐츠(content) 및 상기 콘텐츠에 특화되도록 사전에 트레이닝된 DNN(Deep Neural Network) 모델의 정보를 서버로부터 수신하는 송수신부; 및 상기 DNN 모델의 정보를 기반으로 구성되고, 상기 콘텐츠를 입력받아 미디어 처리(media processing) 기법을 수행하는 추론 모델(inference model)을 포함하는 것을 특징으로 하는 미디어 처리장치를 제공한다. According to an embodiment of the present invention, the content and the transceiver for receiving information of a DNN (Deep Neural Network) model trained in advance to be specialized to the content from the server; and an inference model configured based on the information of the DNN model, receiving the content and performing a media processing technique.

본 발명의 다른 실시예에 따르면, 미디어 처리장치가 수행하는 미디어 처리방법에 있어서, 콘텐츠(content) 및 상기 콘텐츠에 특화되도록 사전에 트레이닝된 DNN(Deep Neural Network) 모델의 정보를 서버로부터 수신하는 과정; 상기 DNN 모델의 정보를 이용하여 추론 모델(inference model)을 구성하는 과정; 및 상기 콘텐츠를 상기 추론 모델에 입력하여 미디어 처리(media processing) 기법을 수행하는 과정을 포함하는 것을 특징으로 하는 미디어 처리방법을 제공한다. According to another embodiment of the present invention, in a media processing method performed by a media processing apparatus, the process of receiving content and information of a deep neural network (DNN) model trained in advance to be specialized to the content from a server ; constructing an inference model using the information of the DNN model; and performing a media processing technique by inputting the content into the inference model.

본 발명의 다른 실시예에 따르면, 미디어 처리방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다. According to another embodiment of the present invention, there is provided a computer program stored in a computer-readable recording medium to execute each step included in the media processing method.

이상에서 설명한 바와 같이 본 실시예에 따르면, 미디어 서비스(media service)를 제공함에 있어서, 서버는 특정 콘텐츠(content)에 최적화되도록 사전에 트레이닝된 딥러닝(deep learning) 모델의 식별(identification) 정보와 파라미터(parameter)를 특정 콘텐츠와 함께 단말기 측으로 전달하고, 단말기는 특정 콘텐츠를 딥러닝 모델에 적용하는 미디어 처리시스템 및 방법을 제공함으로써, 최적화된 미디어 품질을 갖는 콘텐츠를 생성하는 것이 가능해지는 효과가 있다.As described above, according to this embodiment, in providing a media service, the server includes identification information of a deep learning model trained in advance to be optimized for specific content and There is an effect that it becomes possible to generate content with optimized media quality by providing a media processing system and method for transmitting a parameter together with a specific content to the terminal side, and for the terminal to apply the specific content to a deep learning model. .

또한 본 실시예에 따르면, 미디어 서비스를 제공함에 있어서, 서버가 특정 콘텐츠에 최적화되도록 사전에 트레이닝된 딥러닝 모델의 식별 정보와 파라미터를 특정 콘텐츠와 함께 단말기 측으로 전달하는 미디어 처리시스템 및 방법을 제공함으로써, 과학습(overfitting) 현상의 효과적인 이용 및 망 인프라(network infra) 운영 측면의 효율 증대가 가능해지는 효과가 있다. In addition, according to this embodiment, in providing a media service, the server by providing a media processing system and method for delivering the identification information and parameters of the deep learning model trained in advance to be optimized for specific content to the terminal side along with the specific content. , effective use of the overfitting phenomenon and increase in efficiency in terms of network infrastructure operation are effective.

도 1은 본 발명의 일 실시예에 따른 미디어 처리시스템의 예시도이다.
도 2는 본 발명의 일 실시예에 따른 단말기의 예시도이다.
도 3은 본 발명의 일 실시예에 따른 미디어 처리방법의 순서도이다.
도 4는 본 발명의 일 실시예로서 VoD 서비스의 예시도이다.
도 5는 본 실시예에 따른 미디어 처리시스템을 SR(Super Resolution) 기능에 특화하여 적용한 예시도이다.
도 6은 음원 스트리밍 서비스의 개념도이다.
도 7은 본 발명의 다른 실시예로서 음원 스트리밍 서비스 중 모델 학습 과정의 예시도이다.
도 8은 본 발명의 다른 실시예로서 음원 스트리밍 서비스의 예시도이다.
1 is an exemplary diagram of a media processing system according to an embodiment of the present invention.
2 is an exemplary diagram of a terminal according to an embodiment of the present invention.
3 is a flowchart of a media processing method according to an embodiment of the present invention.
4 is an exemplary diagram of a VoD service as an embodiment of the present invention.
5 is an exemplary diagram in which the media processing system according to the present embodiment is specially applied to the SR (Super Resolution) function.
6 is a conceptual diagram of a music streaming service.
7 is an exemplary diagram of a model learning process in a sound source streaming service as another embodiment of the present invention.
8 is an exemplary diagram of a music streaming service as another embodiment of the present invention.

이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to exemplary drawings. In adding reference numerals to the components of each drawing, it should be noted that the same components are given the same reference numerals as much as possible even though they are indicated on different drawings. In addition, in describing the present embodiments, if it is determined that a detailed description of a related well-known configuration or function may obscure the gist of the present embodiments, the detailed description thereof will be omitted.

또한, 본 실시예들의 구성요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.In addition, in describing the components of the present embodiments, terms such as first, second, A, B, (a), (b), etc. may be used. These terms are only for distinguishing the elements from other elements, and the essence, order, or order of the elements are not limited by the terms. Throughout the specification, when a part 'includes' or 'includes' a certain component, this means that other components may be further included, rather than excluding other components, unless otherwise stated. . In addition, the '... Terms such as 'unit' and 'module' mean a unit that processes at least one function or operation, which may be implemented as hardware or software or a combination of hardware and software.

첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.DETAILED DESCRIPTION The detailed description set forth below in conjunction with the appended drawings is intended to describe exemplary embodiments of the present invention and is not intended to represent the only embodiments in which the present invention may be practiced.

본 실시예는 딥러닝(deep learning) 기반 미디어 처리시스템 및 방법에 대한 내용을 개시한다. 보다 자세하게는, 미디어 서비스(media service)를 제공함에 있어서, 서버가 특정 콘텐츠(content)에 최적화되도록 사전에 트레이닝된 딥러닝(deep learning) 모델의 식별(identification) 정보와 파라미터(parameter)를 특정 콘텐츠와 함께 단말기 측으로 전달하는 미디어 처리시스템 및 방법을 제공한다.This embodiment discloses the contents of a deep learning-based media processing system and method. More specifically, in providing a media service, the server receives identification information and parameters of a pre-trained deep learning model to be optimized for specific content. To provide a media processing system and method for delivering to the terminal side with

미디어 서비스의 예로는 VoD(Video on Demand) 또는 음원 스트리밍(streaming) 서비스를 들 수 있으나 반드시 이에 한정하는 것은 아니다.Examples of the media service may include, but are not limited to, a Video on Demand (VoD) or a music streaming service.

딥러닝 모델은 인공신경망(artificial neural network)으로 구현될 수 있으므로, 딥러닝 모델과 딥러닝 인공신경망은 동일한 의미로 사용한다.Since a deep learning model can be implemented as an artificial neural network, a deep learning model and a deep learning artificial neural network are used interchangeably.

이하, 도 1 및 도 2를 이용하여 본 실시예에 따른 미디어 처리시스템을 설명한다.Hereinafter, a media processing system according to the present embodiment will be described with reference to FIGS. 1 and 2 .

도 1은 본 발명의 일 실시예에 따른 미디어 처리시스템의 예시도이다.1 is an exemplary diagram of a media processing system according to an embodiment of the present invention.

본 발명의 실시예에 따른 미디어 처리시스템(100)이 미디어 서비스를 제공함에 있어서, 서버는 사용자가 요구하는 콘텐츠에 최적화되도록 사전에 트레이닝된 딥러닝 모델의 정보와 파라미터를 비트스트림(bitstream) 형태의 콘텐츠와 함께 단말기 측으로 전달한다. 단말기는 모델의 정보와 파라미터를 이용하여 추론 모델(inference model)을 구성하고, 콘텐츠를 추론 모델에 입력하여 미디어 처리(media processing) 기법을 적용함으로써, 최적화된 품질을 갖는 콘텐츠를 생성한다. 미디어 처리시스템(100)은 스토리지 서버(storage server, 이하 '서버', 101), 유무선망(wired or wireless network, 110) 및 단말기(terminal, 120)의 전부 또는 일부를 포함한다. When the media processing system 100 according to an embodiment of the present invention provides a media service, the server converts information and parameters of the deep learning model trained in advance to optimize the content requested by the user in the form of a bitstream. It is transmitted to the terminal side along with the content. The terminal constructs an inference model using information and parameters of the model, inputs the content to the inference model, and applies a media processing technique to generate content having optimized quality. The media processing system 100 includes all or part of a storage server (hereinafter, 'server') 101 , a wired or wireless network 110 , and a terminal 120 .

여기서, 딥러닝 모델의 정보는 딥러닝 모델의 형태, 크기 등에 대한 식별(identification) 데이터를 포함할 수 있다. 또한 딥러닝 모델의 파라미터는 딥러닝 모델을 구성하고, 딥러닝 모델의 형태 및 크기에 따라 개수가 결정되며, 트레이닝의 대상이 되는 계수(coefficient)이다.Here, the information of the deep learning model may include identification data about the shape and size of the deep learning model. In addition, the parameters of the deep learning model constitute the deep learning model, the number is determined according to the shape and size of the deep learning model, and is a coefficient to be trained.

본 실시예에 따른 서버(101)는 사용자가 요구하는 콘텐츠에 특화되도록 사전에 트레이닝된 DNN(Deep Neural Network) 모델의 식별 정보와 파라미터를 콘텐츠와 함께 단말기(120) 측으로 전달한다. 서버(101)는 콘텐츠 DB(Database, 102), DNN DB(103) 및 모델 압축부(105)를 포함한다. 여기서, 본 실시예에 따른 서버(101)에 포함되는 구성요소가 반드시 이에 한정되는 것은 아니다. 예컨대, 서버(101) 상에 DNN의 트레이닝을 위한 트레이닝부(미도시) 및 단말기와 데이터를 송수신하기 위한 송수신부(미도시)를 추가로 구비할 수 있다. 또한, DNN 모델(104)의 정보는 모델의 종류 및 구조를 표현하는 식별 데이터일 수 있다. The server 101 according to the present embodiment is a DNN (Deep Neural Network) trained in advance to be specialized in the content requested by the user. The model's identification information and parameters are transmitted to the terminal 120 along with the content. The server 101 includes a content DB (Database) 102 , a DNN DB 103 , and a model compression unit 105 . Here, the components included in the server 101 according to the present embodiment are not necessarily limited thereto. For example, a training unit (not shown) for training the DNN and a transceiver (not shown) for transmitting and receiving data to and from the terminal may be additionally provided on the server 101 . In addition, the information of the DNN model 104 may be identification data representing the type and structure of the model.

콘텐츠 DB(102)는 서버(101)가 사용자에게 제공할 수 있는 미디어 컨텐츠를 포함한다. 예컨대, VoD 서비스의 경우 콘텐츠는 동영상이고, 음원 스트리밍 서비스의 경우 콘텐츠는 음원(music)일 수 있으나, 반드시 이에 한정하는 것은 아니다. The content DB 102 includes media content that the server 101 can provide to a user. For example, in the case of a VoD service, the content may be a video, and in the case of a sound streaming service, the content may be a sound source (music), but the present invention is not limited thereto.

콘텐츠 DB(102)는 딥러닝 모델을 트레이닝시키기 위한 학습용 타겟(target) 콘텐츠를 포함할 수 있다. 예컨대, VoD 서비스의 경우, 콘텐츠는 FHD 동영상이고, 학습용 타겟 콘텐츠는 4K 동영상일 수 있다. 음원 스트리밍 서비스의 경우 콘텐츠는 저비트율 음원이고, 학습용 콘텐츠는 고비트율 음원일 수 있다.The content DB 102 may include target content for learning for training a deep learning model. For example, in the case of a VoD service, the content may be an FHD video, and the target content for learning may be a 4K video. In the case of a music streaming service, the content may be a low bit rate sound source, and the content for learning may be a high bit rate sound source.

DNN DB(103)는 콘텐츠 별로 미디어 처리 기법을 수행하도록 사전에 트레이닝된 DNN 모델(104)의 식별 정보 및 파라미터를 포함한다. 서버(101)는 사용자의 선택 정보에 해당하는 콘텐츠를 콘텐츠 DB(102)로부터 획득하고, DNN 모델(104)의 식별 정보 및 파라미터를 DNN DB(103)로부터 획득하여 단말기(120) 측으로 전달할 수 있다. The DNN DB 103 includes identification information and parameters of the DNN model 104 trained in advance to perform a media processing technique for each content. The server 101 may obtain content corresponding to the user's selection information from the content DB 102 , and obtain identification information and parameters of the DNN model 104 from the DNN DB 103 and deliver it to the terminal 120 side. .

여기서, 미디어 처리 기법은 콘텐츠에 대한 업스케일링(up-scaling) 및/또는 품질 개선 등을 의미하나, 반드시 이에 한정하는 것은 아니다. 예컨대, VoD 서비스의 경우, 미디어 처리 기법은 영상 또는 동영상의 해상도 증가 및/또는 화질 개선 등을 의미하고, 음원 스트리밍 서비스의 경우, 음원의 비트율 증가 및/또는 음질 개선 등을 의미할 수 있다. Here, the media processing technique refers to up-scaling and/or quality improvement of content, but is not limited thereto. For example, in the case of a VoD service, the media processing technique may mean an increase in resolution and/or image quality of an image or video, and in the case of a sound source streaming service, an increase in a bit rate and/or an improvement in sound quality of a sound source.

본 발명의 다른 실시예에 있어서, DNN 모델(104)이 하나로 고정된 경우, 서버(101)는 DNN 모델(104)의 파라미터를 콘텐츠와 함께 단말기(120) 측으로 전달할 수 있다. In another embodiment of the present invention, when the DNN model 104 is fixed to one, the server 101 is a DNN The parameters of the model 104 may be transmitted to the terminal 120 side along with the content.

모델 압축부(105)는 트레이닝된 DNN 모델(104)의 식별 정보 및 파라미터를 압축한다. VoD 서비스의 경우, DNN 모델(104)의 크기는 수십 내지 수백 MB(Megabyte) 정도이므로, 가용 트래픽 인프라의 대역폭(bandwidth)에 큰 부담이 안될 수 있으나, 상황에 따라서는 DNN 모델(104)의 식별 정보 및 파라미터를 압축하여 전송할 수 있다. 예컨대, MPEG-NNR(Moving Picture Expert Group-Neural Network Representation)에서는 이러한 파라미터를 효과적으로 압축할 수 있는 기술에 대한 표준화 연구가 진행되고 있다. DNN의 트레이닝 과정에 대해서는 추후에 설명하기로 한다.The model compression unit 105 compresses identification information and parameters of the trained DNN model 104 . In the case of VoD service, since the size of the DNN model 104 is tens to hundreds of MB (Megabyte), it may not be a big burden on the bandwidth of the available traffic infrastructure, but depending on the situation, the identification of the DNN model 104 is Information and parameters can be compressed and transmitted. For example, in the Moving Picture Expert Group-Neural Network Representation (MPEG-NNR), standardization studies for a technique capable of effectively compressing these parameters are in progress. The training process of the DNN will be described later.

본 실시예에 따른 유무선망(110)은 서버(101)와 단말기(120) 간 데이터의 전송을 위한 통로이다. 여기서 데이터는 사용자의 콘텐츠 선택 정보, 사용자 단말기 정보, 콘텐츠 및/또는 DNN 모델의 식별 정보 및 파라미터의 전부 또는 일부를 포함할 수 있다.The wired/wireless network 110 according to the present embodiment is a path for data transmission between the server 101 and the terminal 120 . Here, the data may include all or part of the user's content selection information, user terminal information, identification information of the content and/or DNN model, and parameters.

도 2는 본 발명의 일 실시예에 따른 단말기의 예시도이다.2 is an exemplary diagram of a terminal according to an embodiment of the present invention.

본 실시예에 따른 단말기(120)는 사용자의 콘텐츠 선택 정보를 서버(101) 측으로 전달하고, 콘텐츠 및 딥러닝 모델의 식별 정보와 파라미터를 서버(101)로부터 획득한다. 단말기(120)는 전달받은 모델의 식별 정보와 파라미터를 이용하여 추론 모델을 구성하고, 콘텐츠를 DNN 모델에 입력하여 미디어 처리 기법을 적용함으로써, 최적화된 품질을 갖는 콘텐츠를 생성한다. 단말기(120)는 단말 송수신부(201), 입력부(202), 추론 모델(203) 및 출력부(204)의 전부 또는 일부를 포함한다. The terminal 120 according to this embodiment transmits the user's content selection information to the server 101 side, and obtains identification information and parameters of the content and the deep learning model from the server 101 . The terminal 120 constructs an inference model using the received model identification information and parameters, inputs the content to the DNN model, and applies a media processing technique, thereby generating content having an optimized quality. The terminal 120 includes all or part of a terminal transceiver unit 201 , an input unit 202 , an inference model 203 , and an output unit 204 .

단말 송수신부(201)는 유무선망(110)을 이용하여 단말기(120)의 정보 및 사용자의 콘텐츠 선택 정보를 서버(101) 측으로 전달한다. 또한 단말 송수신부(201)는 서버(101)로부터 비트스트림 형태의 콘텐츠 및 콘텐츠에 최적화되도록 사전 또는 실시간으로 트레이닝된 딥러닝 모델의 식별 정보와 파라미터를 수신한다. The terminal transceiver 201 transmits the information of the terminal 120 and the user's content selection information to the server 101 using the wired/wireless network 110 . In addition, the terminal transceiver 201 receives from the server 101 identification information and parameters of the deep learning model trained in advance or in real time to be optimized for content and content in the form of a bitstream.

본 발명의 다른 실시예에 있어서, DNN 모델이 하나로 고정된 경우, 단말 송수신부(201)는 서버(101)로부터 콘텐츠 및 딥러닝 모델의 파라미터를 수신할 수 있다. In another embodiment of the present invention, when the DNN model is fixed to one, the terminal transceiver 201 may receive the content and parameters of the deep learning model from the server 101 .

입력부(202)는, DNN 모델(104)의 정보 및 파라미터가 압축된 데이터인 경우, 데이터의 압축을 푸는 기능을 수행할 수 있다. 또한 입력부(202)는 비트스트림 형태의 콘텐츠를 디코딩하여 추론 모델에 입력되기 적합하도록 변환할 수 있다. The input unit 202 is When the information and parameters of the DNN model 104 are compressed data, a function of decompressing the data may be performed. In addition, the input unit 202 may decode the content in the form of a bitstream and convert it to be suitable to be input to the inference model.

추론 모델(203)은 DNN 모델을 이용하여 구현된다. 추론 모델(203)은 서버(101)로부터 전달받은, 재생할 콘텐츠에 최적화된 하나의 딥러닝 모델에 대한 식별 정보와 파라미터를 이용하여 형성될 수 있다. 단말기(120)는 서버(101)로부터 전달받은 콘텐츠를 추론 모델(203)에 입력하여 미디어 처리 기법을 적용함으로써 최적화된 품질을 갖는 콘텐츠를 생성할 수 있다. The inference model 203 is implemented using a DNN model. The inference model 203 may be formed using identification information and parameters for one deep learning model optimized for content to be reproduced, received from the server 101 . The terminal 120 may generate content having an optimized quality by inputting the content received from the server 101 into the inference model 203 and applying a media processing technique.

출력부(204)는 최적화된 콘텐츠를 사용자 인터페이스(interface)에 맞도록 변환하여 사용자에게 제공한다. 예컨대, VoD 서비스의 경우, 출력부(204)는 디스플레이(display) 및 스피커(speaker)를 이용하여 최적화된 콘텐츠를 시각적 및/또는 청각적 형태로 변환하여 사용자에게 제공할 수 있다. 또한 음원 스트리밍 서비스의 경우, 출력부(204)는 스피커(speaker)를 이용하여 콘텐츠를 청각적 형태로 변환하여 사용자에게 제공할 수 있다.The output unit 204 converts the optimized content to fit the user interface and provides it to the user. For example, in the case of a VoD service, the output unit 204 may convert the optimized content into a visual and/or auditory form using a display and a speaker and provide it to the user. In addition, in the case of a sound streaming service, the output unit 204 may convert the content into an auditory form using a speaker and provide it to the user.

이하, 서버(101)의 트레이닝부가 실행하는 DNN 모델(104)의 학습에 대하여 설명한다.Hereinafter, learning of the DNN model 104 executed by the training unit of the server 101 will be described.

서버(101)는 딥러닝 기반의 DNN 모델(104)을 구비하고, 트레이닝부는 구비된 DNN 모델(104)에 대한 트레이닝 과정을 수행할 수 있다. DNN 모델(104)은 미디어 처리 기법의 실행이 가능한 딥러닝 기반의 인공신경망(artificial neural network)이면 어느 것이든 될 수 있다. DNN 모델(104)은 VoD 또는 음원 스트리밍 서비스의 특정 콘텐츠를 기반으로, 특정 콘텐츠에 적합한 미디어 처리 기법의 실행이 가능하도록 사전에 트레이닝된 모델일 수 있다.The server 101 may include a deep learning-based DNN model 104 , and the training unit may perform a training process for the provided DNN model 104 . The DNN model 104 may be any deep learning-based artificial neural network capable of executing media processing techniques. The DNN model 104 may be a pre-trained model to enable execution of a media processing technique suitable for a specific content based on a specific content of a VoD or sound streaming service.

보통의 딥러닝 기반 DNN 모델은, 트레이닝 단계에서 광범위한 학습용 DB를 이용하여 파라미터를 도출함으로써, 추론 단계에서 모든 콘텐츠에 잘 적용되어야 한다. 본 실시예처럼 콘텐츠에 특화되도록 DNN 모델(104)이 트레이닝된다면, 과학습(overfitting) 현상 때문에 다양한 입력에 대해서는 DNN 모델(104)의 최적 성능을 구현할 수 없다. 따라서, 일반적으로는 특정 콘텐츠에 특화되도록 DNN 모델(104)을 학습하는 것은 지양되어야 한다. 그러나 본 실시예는, 특정 콘텐츠에만 최적화되도록 DNN 모델(104)을 트레이닝한 후, DNN 모델의 식별 정보 및 파라미터와 콘텐츠를 함께 제공한다. 이렇게 함으로써, 본 실시예에 따른 미디어 처리시스템(100)은 특정 콘텐츠에 최적화된 미디어 처리 기법을 수행하여 콘텐츠에 대한 탁월한 품질 향상을 성취할 수 있다. A normal deep learning-based DNN model should be well applied to all contents in the inference stage by deriving parameters using a wide learning DB in the training stage. If the DNN model 104 is trained to be specialized for content as in the present embodiment, the optimal performance of the DNN model 104 cannot be implemented for various inputs due to overfitting. Therefore, in general, training the DNN model 104 to be specialized for a particular content should be avoided. However, in the present embodiment, after training the DNN model 104 to be optimized only for specific content, identification information and parameters of the DNN model and content are provided together. By doing this, the media processing system 100 according to the present embodiment can perform a media processing technique optimized for a specific content, thereby achieving excellent quality improvement of the content.

본 실시예에 따른 트레이닝부는 특정 콘텐츠에 대한 DNN 모델(104)의 출력과 학습용 타겟 콘텐츠 간의 거리 메트릭(distance metric)에 기반하는 손실 함수(loss function)를 이용하여 DNN 모델(104)의 파라미터를 업데이트한다. 여기서 거리 메트릭은 크로스 엔트로피(cross entropy), L1 또는 L2 메트릭 등, 두 비교 대상 간의 메트릭 차이를 표현할 수 있는 것이면 어느 것이든 이용이 가능하다.The training unit according to this embodiment updates the parameters of the DNN model 104 by using a loss function based on a distance metric between the output of the DNN model 104 for specific content and the target content for learning. do. Here, as the distance metric, any one capable of expressing a metric difference between two comparison objects, such as cross entropy, L1 or L2 metric, may be used.

단말기(120)의 다양성을 고려하여, 트레이닝부는 형태가 상이한 N(N은 자연수) 개의 DNN 모델(104)에 대하여 트레이닝을 수행할 수 있다. 미디어 처리시스템(100)은 손실 함수가 최소가 되는 DNN 모델(104)의 식별 정보와 파라미터를 콘텐츠와 결합하여 저장한다. 추후 사용자가 콘텐츠를 선택하는 경우, 결합된 정보는 단말기(120) 측으로 제공될 수 있다.In consideration of the diversity of the terminal 120 , the training unit may perform training on N (N is a natural number) DNN models 104 having different shapes. The media processing system 100 stores identification information and parameters of the DNN model 104 for which the loss function is minimized in combination with the content. When the user selects content later, the combined information may be provided to the terminal 120 side.

본 실시예에 따른 트레이닝부는 DNN 모델(104)에 대한 트레이닝을 사전에 실행하여 DNN 모델(104)의 식별 정보 및 파라미터를 생성할 수 있다. The training unit according to the present embodiment may generate identification information and parameters of the DNN model 104 by performing training on the DNN model 104 in advance.

본 발명의 다른 실시예에 있어서, 서버(101)의 연산 능력이 충분한 경우 또는 선택된 콘텐츠에 대한 DNN 모델(104)의 식별 정보 및 파라미터가 준비되어 있지 않은 경우, 트레이닝부는 DNN 모델(104)에 대한 트레이닝을 실시간으로 실행하여 DNN 모델(104)의 식별 정보 및 파라미터를 생성할 수 있다. In another embodiment of the present invention, when the computing power of the server 101 is sufficient or when the identification information and parameters of the DNN model 104 for the selected content are not prepared, the training unit for the DNN model 104 Training may be run in real time to generate identification information and parameters of the DNN model 104 .

도 1 및 도 2의 도시는 본 실시예에 따른 예시적인 구성이며, 서버의 형태, 유무선망의 형태, 단말기의 종류 및 딥러닝 모델의 형태에 따라 다른 구성요소 또는 구성요소 간의 다른 연결을 포함하는 구현이 가능하다. 1 and 2 are exemplary configurations according to the present embodiment, and include other components or other connections between components according to the type of server, the type of wired/wireless network, the type of terminal, and the type of the deep learning model. implementation is possible.

본 실시예에 따른 미디어 처리시스템(100)의 서버(101)는 프로그램가능 시스템에 탑재되는 것으로 가정한다. 서버(101)는 유선 또는 무선 전송방식을 이용하여 사용자가 요구하는 미디어 콘텐츠 및 딥러닝 모델의 정보와 파라미터를 복수의 단말기(120)에 제공하는 것으로 가정한다It is assumed that the server 101 of the media processing system 100 according to the present embodiment is mounted on the programmable system. It is assumed that the server 101 provides the information and parameters of the media content and the deep learning model requested by the user to the plurality of terminals 120 using a wired or wireless transmission method.

본 실시예에 따른 미디어 처리시스템(100)의 단말기(120)는 프로그램가능 컴퓨터일 수 있다. 단말기(120)는 전송대역의 제한을 받는 무선 또는 유선 전송로를 이용하여 미디어 스트리밍 서비스를 제공받을 수 있는 어느 기기든 될 수 있다. The terminal 120 of the media processing system 100 according to the present embodiment may be a programmable computer. The terminal 120 may be any device capable of receiving a media streaming service using a wireless or wired transmission path that is limited by a transmission band.

도 3은 본 발명의 일 실시예에 따른 미디어 처리방법의 순서도이다. 도 3의 (a)는 본 실시예에 따른 미디어 처리시스템(100)의 서버(101)가 실행하는 순서도이고, 도 3의 (b)는 미디어 처리시스템(100)의 단말기(120)가 실행하는 순서도이다.3 is a flowchart of a media processing method according to an embodiment of the present invention. 3 (a) is a flowchart executed by the server 101 of the media processing system 100 according to the present embodiment, and FIG. 3 (b) is a flowchart executed by the terminal 120 of the media processing system 100 It is a flowchart.

본 실시예에 따른 미디어 처리시스템(100)의 서버(101)는 단말기(120)로부터 선택된 콘텐츠(content) 정보 및 사용자 단말기 정보를 수신한다(S301). The server 101 of the media processing system 100 according to the present embodiment receives selected content information and user terminal information from the terminal 120 (S301).

서버(101)는 선택된 콘텐츠 및 DNN 모델의 정보와 파라미터를 단말기 측으로 송신한다(S302). DNN(Deep Neural Network) 모델(104)은 미디어 처리 기법의 실행이 가능한 딥러닝 기반의 신경망(neural network)이면 어느 것이든 될 수 있으며, 선택된 콘텐츠에 특화되도록 사전 또는 실시간으로 트레이닝될 수 있다. DNN 모델(104)의 정보는 모델의 종류 및 구조에 표현하는 식별(identification) 데이터일 수 있다. The server 101 transmits information and parameters of the selected content and DNN model to the terminal (S302). The deep neural network (DNN) model 104 may be any deep learning-based neural network capable of executing media processing techniques, and may be trained in advance or in real time to be specialized to selected content. The information of the DNN model 104 may be identification data expressed in the type and structure of the model.

서버(101)는 DNN 모델(104)의 식별 정보와 파라미터를 압축된 형태로 전송할 수 있다.The server 101 may transmit identification information and parameters of the DNN model 104 in a compressed form.

본 발명의 다른 실시예에 있어서, DNN 모델(104)이 하나로 고정된 경우, 서버(101)는 DNN 모델(104)의 파라미터를 콘텐츠와 함께 단말기(120) 측으로 전달할 수 있다. In another embodiment of the present invention, when the DNN model 104 is fixed to one, the server 101 is a DNN The parameters of the model 104 may be transmitted to the terminal 120 side along with the content.

미디어 처리시스템(100)의 단말기(120)는 선택된 콘텐츠 정보 및 사용자 단말기 정보를 서버 측으로 송신한다(S311). The terminal 120 of the media processing system 100 transmits the selected content information and the user terminal information to the server (S311).

단말기(120)는 선택된 콘텐츠 및 DNN 모델의 정보와 파라미터를 서버로부터 수신한다(S312). 단말기(120)는 서버(101)로부터 비트스트림 형태의 콘텐츠 및 콘텐츠에 특화되도록 사전 또는 실시간으로 트레이닝된 DNN 모델의 식별 정보와 파라미터를 수신한다.The terminal 120 receives the selected content and information and parameters of the DNN model from the server (S312). The terminal 120 receives from the server 101 the identification information and parameters of the DNN model trained in advance or in real time to be specialized to the content and the content in the form of a bitstream.

본 발명의 다른 실시예에 있어서, DNN 모델이 하나로 고정된 경우, 단말기(120)는 서버(101)로부터 콘텐츠 및 딥러닝 모델의 파라미터를 수신할 수 있다. In another embodiment of the present invention, when the DNN model is fixed to one, the terminal 120 may receive the content and parameters of the deep learning model from the server 101 .

단말기(120)는 DNN 모델의 정보와 파라미터를 이용하여 추론 모델을 구성한다(S313).The terminal 120 constructs an inference model using the information and parameters of the DNN model (S313).

단말기(120)는 DNN 모델의 식별 정보 및 파라미터가 압축된 데이터인 경우, 데이터의 압축을 푸는 기능을 수행할 수 있다. 또한, 단말기는 비트스트림 형태의 콘텐츠를 디코딩하여 추론 모델(inference model, 203)에 입력되기 적합하도록 변환할 수 있다.When the identification information and parameters of the DNN model are compressed data, the terminal 120 may perform a function of decompressing the data. In addition, the terminal may decode the content in the form of a bitstream and convert it to be suitable to be input to an inference model (203).

단말기(120)는 콘텐츠를 추론 모델에 입력하여 미디어 처리 기법을 수행한다(S314). 추론 모델(203)은 콘텐츠에 미디어 처리(media processing) 기법을 적용함으로써 최적화된 품질을 갖는 콘텐츠를 생성할 수 있다.The terminal 120 inputs the content to the inference model and performs a media processing technique (S314). The inference model 203 may generate content having an optimized quality by applying a media processing technique to the content.

단말기(120)는 최적화된 콘텐츠를 사용자에게 제공한다(S315). 단말기(120)는 최적화된 콘텐츠를 사용자 인터페이스에 맞도록 시각적 및/또는 청각적 형태로 변환하여 사용자에게 제공할 수 있다.The terminal 120 provides the optimized content to the user (S315). The terminal 120 may convert the optimized content into a visual and/or audible form to fit the user interface and provide it to the user.

이상에서 설명한 바와 같이 본 실시예에 따르면, 미디어 서비스를 제공함에 있어서, 서버는 특정 콘텐츠에 최적화되도록 사전에 트레이닝된 딥러닝 모델의 식별 정보와 파라미터를 특정 콘텐츠와 함께 단말기 측으로 전달하고, 단말기는 특정 콘텐츠를 딥러닝 모델에 적용하는 미디어 처리시스템 및 방법을 제공함으로써, 최적화된 미디어 품질을 갖는 콘텐츠를 생성하는 것이 가능해지는 효과가 있다.As described above, according to this embodiment, in providing a media service, the server transmits identification information and parameters of a deep learning model trained in advance to be optimized for specific content to the terminal side along with the specific content, and the terminal By providing a media processing system and method for applying content to a deep learning model, there is an effect that it becomes possible to generate content having optimized media quality.

이하, 도 4 및 도 5를 이용하여 본 실시예에 따른 미디어 처리시스템(100)이 VoD 서비스에 적용되는 예시를 설명한다.Hereinafter, an example in which the media processing system 100 according to the present embodiment is applied to a VoD service will be described with reference to FIGS. 4 and 5 .

VoD 서비스를 제공함에 있어서, 서비스 수행 주체인 IPTV(Internet Protocol TV) 사업자는 원본 동영상을 CP(content Provider) 사업자로부터 공급받는다. 원본 동영상은 보통 대용량이므로, 망 대역폭을 고려하여 트랜스코딩(transcoding)이 적용되어 IPTV 사업자에게 제공될 수 있다. 여기서 트랜스코딩 과정은 원본 동영상에 대한 디코딩(decoding) 및 인코딩(encoding) 과정을 포함한다. 인코딩 과정은 원본 동영상 대비 손실 압축(lossy compression)이므로, IPTV 사업자의 동영상 콘텐츠는 화질 열화(degradation)를 포함할 수밖에 없다. 따라서, IPTV 사업자는 동영상 콘텐츠 별로, 본 실시예가 제시하는 바와 같은 미디어 처리 기법이 실행이 가능한 딥러닝 모델을 트레이닝시킨 후, 동영상 콘텐츠 및 딥러닝 모델의 정보와 파라미터를 결합하여 사용자에게 제공할 수 있다.In providing a VoD service, an Internet Protocol TV (IPTV) operator that is a service performing entity receives an original video from a CP (content provider) operator. Since the original video is usually of a large capacity, transcoding may be applied in consideration of the network bandwidth and provided to the IPTV service provider. Here, the transcoding process includes decoding and encoding of the original video. Since the encoding process is lossy compression compared to the original video, the video content of the IPTV service provider inevitably includes degradation in quality. Therefore, the IPTV operator can provide the user by combining information and parameters of the video content and the deep learning model after training a deep learning model capable of executing the media processing technique as presented in this embodiment for each video content. .

도 4는 본 발명의 일 실시예로서 VoD 서비스의 예시도이다.4 is an exemplary diagram of a VoD service as an embodiment of the present invention.

VoD 서비스를 제공함에 있어서, 본 실시예에 따른 미디어 처리시스템(100)의 서버(101)는 선택된 콘텐츠 정보에 해당하는 동영상 콘텐츠 및 트레이닝된 DNN 모델 정보와 파라미터를 단말기 측으로 전달한다. VoD 서비스의 단말기인 STB(Settop Box, 120)는 모델 정보 및 파라미터를 이용하여 추론 모델을 구성한 후, 동영상 콘텐츠를 추론 모델에 입력하여 최적화된 품질을 갖는 동영상 콘텐츠를 생성할 수 있다.In providing the VoD service, the server 101 of the media processing system 100 according to the present embodiment transmits video content corresponding to the selected content information and trained DNN model information and parameters to the terminal side. After configuring an inference model using model information and parameters, the VoD service terminal STB (Settop Box) 120 may input video content to the inference model to generate video content having an optimized quality.

VoD 서비스를 제공함에 있어서, 도 5에 도시된 바와 같이 본 실시예에 따른 미디어 처리시스템(100)을 SR(Super Resolution) 기능에 특화하여 적용할 수 있다. 예컨대, 서버(101)의 트레이닝부는 FHD(Full High-Definition) 동영상 콘텐츠를 입력으로 이용하고, 4K 동영상 콘텐츠를 타겟 동영상으로 이용하여, DNN 모델을 트레이닝시킴으로, SR 수준의 미디어 처리 기법을 수행할 수 있는, 트레이닝된 DNN 모델(104)을 생성할 수 있다. IPTV 사업자는 FHD 동영상 콘텐츠 및 DNN 모델 정보와 파라미터를 STB(120)로 전달하고, STB(120)는 FHD 동영상 콘텐츠를 DNN 모델에 입력하여 화질 열화가 최소화된 4K 동영상을 생성할 수 있다. In providing the VoD service, as shown in FIG. 5 , the media processing system 100 according to the present embodiment may be specially applied to the SR (Super Resolution) function. For example, the training unit of the server 101 uses FHD (Full High-Definition) video content as an input, and uses 4K video content as a target video to train a DNN model to perform SR-level media processing techniques. A trained DNN model 104 can be generated. The IPTV operator transmits FHD video content and DNN model information and parameters to the STB 120 , and the STB 120 inputs the FHD video content to the DNN model to generate a 4K video with minimal image quality degradation.

이하, 도 6 내지 도 8을 이용하여 본 실시예에 따른 미디어 처리시스템(100)이 음원 스트리밍 서비스에 적용되는 예시를 설명한다.Hereinafter, an example in which the media processing system 100 according to the present embodiment is applied to a sound source streaming service will be described with reference to FIGS. 6 to 8 .

음원 스트리밍 서비스를 제공함에 있어서, 서비스용 음원은 사전에 서버의 DB에 저장된다. 도 6에 도시된 바와 같이, 스트리밍 서버는 44.1 KHz로 샘플링된 16 비트의 wav 음원을 다양한 비트율(bitrate)로 인코딩하여 서비스용 음원의 DB를 생성하여 저장한 후, 사용자가 선택한 곡을 단말기 측으로 제공한다. 도 6의 도시에서 각 DB 별 동일한 위치의 화살표 하나가 곡 하나를 의미한다.In providing a sound source streaming service, the sound source for the service is stored in the DB of the server in advance. As shown in Figure 6, the streaming server encodes a 16-bit wav sound source sampled at 44.1 KHz at various bit rates, creates and stores a DB of the sound source for the service, and provides the user-selected song to the terminal side do. In the diagram of FIG. 6 , one arrow at the same position for each DB means one song.

도 7은 본 발명의 다른 실시예로서 음원 스트리밍 서비스 중 모델 학습 과정의 예시도이다.7 is an exemplary diagram of a model learning process in a sound source streaming service as another embodiment of the present invention.

본 실시예에 따른 미디어 처리시스템(100)의 서버(101)는, 저비트율(low bitrate)로 인코딩된 음원 별로 고비트율(high bitrate) 음원을 생성할 수 있도록 DNN 모델을 트레이닝한다. 예컨대, 서버(101)의 트레이닝부는 96 Kbps 음원을 입력으로 이용하고, 320 Kbps 음원을 타겟 음원으로 이용하여 DNN 모델에 대한 트레이닝을 수행할 수 있다. 트레이닝된 DNN 모델(104)은 SR 수준의 미디어 처리 기법을 수행할 수 있다. 서버(101)는 음원 DB에 포함된 전 곡에 대하여 사전에 트레이닝된 DNN 모델(104)을 확보할 수 있다.The server 101 of the media processing system 100 according to the present embodiment trains the DNN model to generate a high bitrate sound source for each sound source encoded at a low bitrate. For example, the training unit of the server 101 may use a 96 Kbps sound source as an input and a 320 Kbps sound source as a target sound source to perform training on the DNN model. The trained DNN model 104 may perform SR-level media processing techniques. The server 101 may secure the DNN model 104 trained in advance for all songs included in the sound source DB.

도 8은 본 발명의 다른 실시예로서 음원 스트리밍 서비스의 예시도이다.8 is an exemplary diagram of a music streaming service as another embodiment of the present invention.

음원 스트리밍 서비스를 제공함에 있어서, 본 실시예에 따른 미디어 처리시스템(100)의 서버(101)는 선택된 콘텐츠 정보에 해당하는 저비트율 음원 콘텐츠 및 트레이닝된 DNN 모델(104) 정보와 파라미터를 단말기(120) 측으로 전달한다. 스트리밍 서비스를 제공받는 단말기(120)는 모델 정보 및 파라미터를 이용하여 추론 모델(203)을 구성한 후, 저비트율 콘텐츠를 추론 모델(203)에 입력하여 최적화된 품질을 갖는 고비트율 콘텐츠를 생성할 수 있다.In providing the sound source streaming service, the server 101 of the media processing system 100 according to the present embodiment transmits the low bit rate sound source content corresponding to the selected content information and the trained DNN model 104 information and parameters to the terminal 120 ) to the side. The terminal 120 receiving the streaming service constructs the inference model 203 using model information and parameters, and then inputs the low-bit-rate content to the inference model 203 to generate high-bit-rate content with optimized quality. have.

이상에서 설명한 바와 같이 본 실시예에 따르면, 미디어 서비스를 제공함에 있어서, 서버가 특정 콘텐츠에 최적화되도록 사전에 트레이닝된 딥러닝 모델의 식별 정보와 파라미터를 특정 콘텐츠와 함께 단말기 측으로 전달하는 미디어 처리시스템 및 방법을 제공함으로써, 과학습 현상의 효과적인 이용 및 망 인프라 운영 측면의 효율 증대가 가능해지는 효과가 있다. As described above, according to this embodiment, in providing a media service, a media processing system that delivers identification information and parameters of a deep learning model trained in advance so that the server is optimized for a specific content to the terminal side along with the specific content; By providing the method, it is possible to effectively use the scientific learning phenomenon and to increase the efficiency in terms of network infrastructure operation.

본 실시예에 따른 각 순서도에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 순서도에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.Although it is described that each process is sequentially executed in each flowchart according to the present embodiment, the present invention is not limited thereto. In other words, since it may be applicable to change and execute the processes described in the flowchart or to execute one or more processes in parallel, the flowchart is not limited to a time-series order.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는 기록매체"에 저장된다. Various implementations of the systems and techniques described herein include digital electronic circuitry, integrated circuits, field programmable gate arrays (FPGAs), application specific integrated circuits (ASICs), computer hardware, firmware, software, and/or combination can be realized. These various implementations may include being implemented in one or more computer programs executable on a programmable system. The programmable system includes at least one programmable processor (which may be a special purpose processor) coupled to receive data and instructions from, and transmit data and instructions to, a storage system, at least one input device, and at least one output device. or may be a general-purpose processor). Computer programs (also known as programs, software, software applications or code) contain instructions for a programmable processor and are stored on a "computer-readable recording medium".

컴퓨터가 읽을 수 있는 기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비일시적인(non-transitory) 매체일 수 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송) 및 데이터 전송 매체(data transmission medium)와 같은 일시적인(transitory) 매체를 더 포함할 수도 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.The computer-readable recording medium includes all types of recording devices in which data readable by a computer system is stored. These computer-readable recording media are non-volatile or non-transitory, such as ROM, CD-ROM, magnetic tape, floppy disk, memory card, hard disk, magneto-optical disk, and storage device. media, and may further include transitory media such as carrier waves (eg, transmission over the Internet) and data transmission media. In addition, the computer-readable recording medium is distributed in network-connected computer systems, and computer-readable codes may be stored and executed in a distributed manner.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.Various implementations of the systems and techniques described herein may be implemented by a programmable computer. Here, the computer includes a programmable processor, a data storage system (including volatile memory, non-volatile memory, or other types of storage systems or combinations thereof), and at least one communication interface. For example, a programmable computer may be one of a server, a network appliance, a set-top box, an embedded device, a computer expansion module, a personal computer, a laptop, a Personal Data Assistant (PDA), a cloud computing system, or a mobile device.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of this embodiment, and various modifications and variations will be possible by those skilled in the art to which this embodiment belongs without departing from the essential characteristics of the present embodiment. Accordingly, the present embodiments are intended to explain rather than limit the technical spirit of the present embodiment, and the scope of the technical spirit of the present embodiment is not limited by these embodiments. The protection scope of this embodiment should be interpreted by the following claims, and all technical ideas within the equivalent range should be interpreted as being included in the scope of the present embodiment.

100: 미디어 처리시스템 101: 서버
102: 콘텐츠 DB 103: DNN DB
104: DNN 모델 105: 모델 압축부
110: 유무선망 120: 단말기
201: 단말 송수신부 202: 입력부
203: 추론 모델 204: 출력부
100: media processing system 101: server
102: content DB 103: DNN DB
104: DNN model 105: model compression unit
110: wired/wireless network 120: terminal
201: terminal transceiver unit 202: input unit
203: inference model 204: output

Claims (9)

콘텐츠(content) 및 상기 콘텐츠에 특화되도록 사전에 트레이닝된 DNN(Deep Neural Network) 모델의 정보를 서버로부터 수신하는 송수신부; 및
상기 DNN 모델의 정보를 기반으로 구성되고, 상기 콘텐츠를 입력받아 미디어 처리(media processing) 기법을 수행하는 추론 모델(inference model)
을 포함하는 것을 특징으로 하는 미디어 처리장치.
a transceiver for receiving content and information of a DNN (Deep Neural Network) model trained in advance to be specialized to the content from a server; and
An inference model configured based on the information of the DNN model and receiving the content and performing a media processing technique
Media processing apparatus comprising a.
제1항에 있어서,
상기 송수신부는,
상기 콘텐츠의 정보 및 상기 미디어 처리장치가 탑재되는 단말기 정보를 상기 서버 측으로 송신하는 것을 특징으로 하는 미디어 처리장치.
According to claim 1,
The transceiver unit,
The media processing apparatus according to claim 1, wherein the content information and terminal information on which the media processing apparatus is mounted are transmitted to the server side.
제1항에 있어서,
상기 DNN 모델의 정보는,
상기 DNN 모델의 종류와 크기에 대한 식별(identification) 정보, 및 상기 DNN 모델의 파라미터(parameter)를 포함하는 것을 특징으로 하는 미디어 처리장치.
According to claim 1,
The information of the DNN model is,
Media processing apparatus, characterized in that it includes identification information on the type and size of the DNN model, and parameters of the DNN model.
제1항에 있어서,
상기 DNN 모델은,
상기 콘텐츠 및 학습용 타겟(target) 콘텐츠를 이용하여, 상기 콘텐츠와 상기 타겟 콘텐츠 간을 맵핑(mapping)하는 미디어 처리 기법을 수행하도록 상기 DNN 모델의 파라미터가 업데이트되는 것을 특징으로 하는 미디어 처리장치.
According to claim 1,
The DNN model is
Media processing apparatus, characterized in that the parameter of the DNN model is updated to perform a media processing technique for mapping between the content and the target content by using the content and the target content for learning.
제1항에 있어서,
상기 미디어 처리 기법은,
상기 콘텐츠에 대한 업스케일링(up-scaling) 및/또는 품질 개선(quality enhancement)을 포함하는 것을 특징으로 하는 미디어 처리장치.
According to claim 1,
The media processing technique is
Media processing apparatus comprising up-scaling and/or quality enhancement for the content.
미디어 처리장치가 수행하는 미디어 처리방법에 있어서,
콘텐츠(content) 및 상기 콘텐츠에 특화되도록 사전에 트레이닝된 DNN(Deep Neural Network) 모델의 정보를 서버로부터 수신하는 과정;
상기 DNN 모델의 정보를 이용하여 추론 모델(inference model)을 구성하는 과정; 및
상기 콘텐츠를 상기 추론 모델에 입력하여 미디어 처리(media processing) 기법을 수행하는 과정
을 포함하는 것을 특징으로 하는 미디어 처리방법.
In the media processing method performed by the media processing apparatus,
Receiving content and information of a DNN (Deep Neural Network) model trained in advance to be specialized to the content from a server;
constructing an inference model using the information of the DNN model; and
A process of performing a media processing technique by inputting the content into the inference model
Media processing method comprising a.
제6항에 있어서,
상기 콘텐츠의 정보 및 상기 미디어 처리장치가 탑재되는 단말기 정보를 상기 서버 측으로 송신하는 과정을 더 포함하는 것을 특징으로 하는 미디어 처리방법.
7. The method of claim 6,
The method of claim 1, further comprising the step of transmitting the content information and terminal information on which the media processing apparatus is mounted to the server.
제6항에 있어서,
상기 수신하는 과정은,
상기 DNN 모델의 종류와 크기에 대한 식별(identification) 정보, 및 상기 DNN 모델의 파라미터(parameter)를 수신하는 것을 특징으로 하는 미디어 처리방법.
7. The method of claim 6,
The receiving process is
The media processing method, characterized in that receiving identification information on the type and size of the DNN model, and parameters of the DNN model.
제6항 내지 제8항 중 어느 한 항에 따른 미디어 처리방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.
A computer program stored in a computer-readable recording medium to execute each step included in the media processing method according to any one of claims 6 to 8.
KR1020200026303A 2020-03-03 2020-03-03 System and Method for Media Processing Based on Deep Learning KR102618646B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200026303A KR102618646B1 (en) 2020-03-03 2020-03-03 System and Method for Media Processing Based on Deep Learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200026303A KR102618646B1 (en) 2020-03-03 2020-03-03 System and Method for Media Processing Based on Deep Learning

Publications (2)

Publication Number Publication Date
KR20210111420A true KR20210111420A (en) 2021-09-13
KR102618646B1 KR102618646B1 (en) 2023-12-27

Family

ID=77796656

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200026303A KR102618646B1 (en) 2020-03-03 2020-03-03 System and Method for Media Processing Based on Deep Learning

Country Status (1)

Country Link
KR (1) KR102618646B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101008523B1 (en) * 2001-09-20 2011-01-14 코닌클리케 필립스 일렉트로닉스 엔.브이. Quality adaption for real-time multimedia content delivery based on user attention
WO2016181383A2 (en) * 2015-05-14 2016-11-17 Hola Networks Ltd. System and method for streaming content from multiple servers
KR101885855B1 (en) * 2017-03-30 2018-08-07 단국대학교 산학협력단 transmission of images based on techniques estimating high resolution
WO2020033898A1 (en) * 2018-08-09 2020-02-13 Board Of Trustees Of Michigan State University Systems and methods for providing flexible, multi-capacity models for use of deep neural networks in mobile devices

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101008523B1 (en) * 2001-09-20 2011-01-14 코닌클리케 필립스 일렉트로닉스 엔.브이. Quality adaption for real-time multimedia content delivery based on user attention
WO2016181383A2 (en) * 2015-05-14 2016-11-17 Hola Networks Ltd. System and method for streaming content from multiple servers
KR101885855B1 (en) * 2017-03-30 2018-08-07 단국대학교 산학협력단 transmission of images based on techniques estimating high resolution
WO2020033898A1 (en) * 2018-08-09 2020-02-13 Board Of Trustees Of Michigan State University Systems and methods for providing flexible, multi-capacity models for use of deep neural networks in mobile devices
US20210295174A1 (en) * 2018-08-09 2021-09-23 Board Of Trustees Of Michigan State University Systems and methods for providing flexible, multi-capacity models for use of deep neural networks in mobile devices

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hyunho Yeo et al., "Neural Adaptive Content-aware Internet Video Delivery," 13th USENIX Symposium on Operating Systems Design and Implementation (OSDI ’18) (2018.10.08.)* *
김 진 성, 이재동, "적응화된 콘텐츠를 서비스하기 위한 사용자 단말기 프레임워크 설계 및 구현," 정보처리학회논문지 D 제16-D권 제5호 (2009.10.31.)* *
비특허문헌 1: Kuleshov, Volodymyr, S. Zayd Enam, and Stefano Ermon. "Audio super resolution using neural networks." arXiv preprint arXiv:1708.00853 (2017)

Also Published As

Publication number Publication date
KR102618646B1 (en) 2023-12-27

Similar Documents

Publication Publication Date Title
US11227612B2 (en) Audio frame loss and recovery with redundant frames
CN105393516B (en) The method, apparatus and computer readable storage medium of quality optimization are carried out with buffer and range constraint in adaptive streaming
US20210209474A1 (en) Compression method and system for frequent transmission of deep neural network
US20220303536A1 (en) Method of signalling in a video codec
US9818422B2 (en) Method and apparatus for layered compression of multimedia signals for storage and transmission over heterogeneous networks
CN105611395B (en) A kind of method and system that MP4 format video plays online
KR102313136B1 (en) Method and Apparatus for Accelerating Super-Resolution in Real-time Video Streaming
US10366698B2 (en) Variable length coding of indices and bit scheduling in a pyramid vector quantizer
CN105208440A (en) Online playing method and system for MP4-format video
US20230082784A1 (en) Point cloud encoding and decoding method and apparatus, computer-readable medium, and electronic device
CN1622593B (en) Apparatus and method for processing video for implementing signal to noise ratio scalability
KR102618646B1 (en) System and Method for Media Processing Based on Deep Learning
Benierbah et al. Symbol positions‐based Slepian–Wolf coding with application to distributed video coding
Dong et al. Joint source–channel rate allocation with unequal error protection for space image transmission
EP4336498A1 (en) Audio data encoding method and related apparatus, audio data decoding method and related apparatus, and computer-readable storage medium
Chakareski et al. Live 360◦ Video Streaming to Heterogeneous Clients in 5G Networks
WO2022242534A1 (en) Encoding method and apparatus, decoding method and apparatus, device, storage medium and computer program
CN104702985A (en) Digital TV network-based geographic information service real-time interaction method and system thereof
CN114841370B (en) Processing method and device of federal learning model, electronic equipment and storage medium
WO2022179406A1 (en) Audio transcoding method and apparatus, audio transcoder, device, and storage medium
Chen et al. Unequal error protection for compressed sensing with polar codes
WO2022258036A1 (en) Encoding method and apparatus, decoding method and apparatus, and device, storage medium and computer program
CN115050377A (en) Audio transcoding method and device, audio transcoder, equipment and storage medium
Yahampath Hybrid digital-analog coding with bandwidth expansion for correlated Gaussian sources under Rayleigh fading
Larsen et al. Multiple description trellis-coded quantization of sinusoidal parameters

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant