KR20210111420A - System and Method for Media Processing Based on Deep Learning - Google Patents
System and Method for Media Processing Based on Deep Learning Download PDFInfo
- Publication number
- KR20210111420A KR20210111420A KR1020200026303A KR20200026303A KR20210111420A KR 20210111420 A KR20210111420 A KR 20210111420A KR 1020200026303 A KR1020200026303 A KR 1020200026303A KR 20200026303 A KR20200026303 A KR 20200026303A KR 20210111420 A KR20210111420 A KR 20210111420A
- Authority
- KR
- South Korea
- Prior art keywords
- content
- media processing
- model
- dnn
- information
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013135 deep learning Methods 0.000 title abstract description 16
- 230000008569 process Effects 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000003672 processing method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims 1
- 238000013136 deep learning model Methods 0.000 abstract description 29
- 238000012549 training Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
본 발명은 딥러닝 기반 미디어 처리시스템 및 방법 관한 것이다. 더욱 상세하게는, VoD(Video on Demand) 또는 음원 스트리밍(streaming) 서비스에서 제공되는 콘텐츠(content)의 품질을 딥러닝 기반으로 향상시킬 수 있는 미디어 처리시스템 및 방법에 관한 것이다.The present invention relates to a deep learning-based media processing system and method. More specifically, it relates to a media processing system and method capable of improving the quality of content provided in a video on demand (VoD) or sound source streaming service based on deep learning.
이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다. The content described below merely provides background information related to the present invention and does not constitute the prior art.
초해상도(Super Resolution: SR), 잡음제거(de-noising) 등 전통적인 영상처리(image processing) 분야에 딥러닝(deep learning) 기반 기술이 활발하게 적용되고 있다, 음원 서비스(music service) 분야에서도 CNN(Convolutional Neural Network)-Unet 기반으로 저비트율(low bitrate)을 갖는 음원의 고음역대를 효과적으로 복원할 수 있는 방법이 제안되었다(비특허문헌 1 참조). 딥러닝 기반 처리(processing based on deep learning) 기술을 이용하여 압축 및/또는 전송 등의 과정에 의해 미디어 신호, 즉 영상 또는 음원의 손실된 정보가 효과적으로 복원될 수 있음을 보여주는 다양한 사례들이 있다. Deep learning-based technologies are being actively applied to traditional image processing fields such as Super Resolution (SR) and de-noising. (Convolutional Neural Network)-Unet-based method for effectively reconstructing the high-pitched range of a sound source having a low bitrate has been proposed (see Non-Patent Document 1). There are various examples showing that lost information of a media signal, that is, an image or a sound source, can be effectively restored by a process such as compression and/or transmission using a processing based on deep learning technology.
딥러닝 기반 미디어 처리(media processing) 기법은 복잡도 등의 이유로 주로 H/E(Head End, 또는 스토리지 서버(storage server))에서 수행된 후, 개선된 미디어 신호를 단말기로 내려 보내주는 방식이 일반적이다. 그러나, 이러한 방식은 스트리밍(streaming)을 위한 트래픽(traffic) 용량의 급증을 유발하므로 망 인프라(network infra) 운영 측면에서 효과적이지 않을 수 있다. The deep learning-based media processing technique is generally performed in H/E (Head End, or storage server) for reasons of complexity, and then sends the improved media signal down to the terminal. . However, this method may not be effective in terms of network infrastructure operation because it causes a surge in traffic capacity for streaming.
한편, 딥러닝 기반 처리기법은 학습을 위한 DB(Database)를 이용하여 DNN(Deep Neural Network)을 트레이닝하는 트레이닝 단계 및 도출된 파라미터(parameter), 즉 망 계수(network coefficient)를 입력 미디어 콘텐츠(content)에 적용하여 원하는 결과를 얻어내는 추론 단계를 포함한다. 딥러닝 기반 처리는, 트레이닝 단계에서 광범위한 학습용 DB를 이용하여 파라미터를 도출함으로써 추론 단계에서 모든 콘텐츠에 잘 적용되도록 하는 것을 목표로 한다. 반면, 너무 적은 범위의 DB가 트레이닝에 이용되면, 과학습(overfitting) 현상 때문에 다양한 입력에 대해 DNN의 최적 성능을 낼 수 없다는 문제가 있다. On the other hand, the deep learning-based processing technique is a training step of training a deep neural network (DNN) using a database (DB) for learning and inputting a derived parameter, that is, a network coefficient, to the media content. ) to obtain the desired result by applying the reasoning step. Deep learning-based processing aims to apply well to all content in the inference stage by deriving parameters using a wide range of learning DBs in the training stage. On the other hand, if a DB of too small a range is used for training, there is a problem that the optimal performance of the DNN cannot be obtained for various inputs due to overfitting.
따라서, 미디어 콘텐츠에 대한 딥러닝 기반 처리에 있어서, 망 인프라(network infra) 운영 측면의 효율을 증대시키고, 과학습 현상에 대처가 가능한 방법이 요구된다. Therefore, in deep learning-based processing of media content, a method that increases the efficiency of network infrastructure operation and can cope with the scientific learning phenomenon is required.
본 개시는, 미디어 서비스(media service)를 제공함에 있어서, 서버는 특정 콘텐츠(content)에 최적화되도록 사전에 트레이닝된 딥러닝(deep learning) 모델의 식별(identification) 정보와 파라미터(parameter)를 특정 콘텐츠와 함께 단말기 측으로 전달한다. 단말기는 특정 콘텐츠를 딥러닝 모델에 적용함으로써, 최적화된 미디어 품질을 갖는 콘텐츠를 생성하는 것이 가능한 미디어 처리시스템 및 방법을 제공하는 데 주된 목적이 있다.In the present disclosure, in providing a media service, the server receives identification information and parameters of a deep learning model trained in advance to be optimized for specific content. is transmitted to the terminal side with The main purpose of the terminal is to provide a media processing system and method capable of generating content with optimized media quality by applying specific content to a deep learning model.
본 발명의 실시예에 따르면, 콘텐츠(content) 및 상기 콘텐츠에 특화되도록 사전에 트레이닝된 DNN(Deep Neural Network) 모델의 정보를 서버로부터 수신하는 송수신부; 및 상기 DNN 모델의 정보를 기반으로 구성되고, 상기 콘텐츠를 입력받아 미디어 처리(media processing) 기법을 수행하는 추론 모델(inference model)을 포함하는 것을 특징으로 하는 미디어 처리장치를 제공한다. According to an embodiment of the present invention, the content and the transceiver for receiving information of a DNN (Deep Neural Network) model trained in advance to be specialized to the content from the server; and an inference model configured based on the information of the DNN model, receiving the content and performing a media processing technique.
본 발명의 다른 실시예에 따르면, 미디어 처리장치가 수행하는 미디어 처리방법에 있어서, 콘텐츠(content) 및 상기 콘텐츠에 특화되도록 사전에 트레이닝된 DNN(Deep Neural Network) 모델의 정보를 서버로부터 수신하는 과정; 상기 DNN 모델의 정보를 이용하여 추론 모델(inference model)을 구성하는 과정; 및 상기 콘텐츠를 상기 추론 모델에 입력하여 미디어 처리(media processing) 기법을 수행하는 과정을 포함하는 것을 특징으로 하는 미디어 처리방법을 제공한다. According to another embodiment of the present invention, in a media processing method performed by a media processing apparatus, the process of receiving content and information of a deep neural network (DNN) model trained in advance to be specialized to the content from a server ; constructing an inference model using the information of the DNN model; and performing a media processing technique by inputting the content into the inference model.
본 발명의 다른 실시예에 따르면, 미디어 처리방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다. According to another embodiment of the present invention, there is provided a computer program stored in a computer-readable recording medium to execute each step included in the media processing method.
이상에서 설명한 바와 같이 본 실시예에 따르면, 미디어 서비스(media service)를 제공함에 있어서, 서버는 특정 콘텐츠(content)에 최적화되도록 사전에 트레이닝된 딥러닝(deep learning) 모델의 식별(identification) 정보와 파라미터(parameter)를 특정 콘텐츠와 함께 단말기 측으로 전달하고, 단말기는 특정 콘텐츠를 딥러닝 모델에 적용하는 미디어 처리시스템 및 방법을 제공함으로써, 최적화된 미디어 품질을 갖는 콘텐츠를 생성하는 것이 가능해지는 효과가 있다.As described above, according to this embodiment, in providing a media service, the server includes identification information of a deep learning model trained in advance to be optimized for specific content and There is an effect that it becomes possible to generate content with optimized media quality by providing a media processing system and method for transmitting a parameter together with a specific content to the terminal side, and for the terminal to apply the specific content to a deep learning model. .
또한 본 실시예에 따르면, 미디어 서비스를 제공함에 있어서, 서버가 특정 콘텐츠에 최적화되도록 사전에 트레이닝된 딥러닝 모델의 식별 정보와 파라미터를 특정 콘텐츠와 함께 단말기 측으로 전달하는 미디어 처리시스템 및 방법을 제공함으로써, 과학습(overfitting) 현상의 효과적인 이용 및 망 인프라(network infra) 운영 측면의 효율 증대가 가능해지는 효과가 있다. In addition, according to this embodiment, in providing a media service, the server by providing a media processing system and method for delivering the identification information and parameters of the deep learning model trained in advance to be optimized for specific content to the terminal side along with the specific content. , effective use of the overfitting phenomenon and increase in efficiency in terms of network infrastructure operation are effective.
도 1은 본 발명의 일 실시예에 따른 미디어 처리시스템의 예시도이다.
도 2는 본 발명의 일 실시예에 따른 단말기의 예시도이다.
도 3은 본 발명의 일 실시예에 따른 미디어 처리방법의 순서도이다.
도 4는 본 발명의 일 실시예로서 VoD 서비스의 예시도이다.
도 5는 본 실시예에 따른 미디어 처리시스템을 SR(Super Resolution) 기능에 특화하여 적용한 예시도이다.
도 6은 음원 스트리밍 서비스의 개념도이다.
도 7은 본 발명의 다른 실시예로서 음원 스트리밍 서비스 중 모델 학습 과정의 예시도이다.
도 8은 본 발명의 다른 실시예로서 음원 스트리밍 서비스의 예시도이다.1 is an exemplary diagram of a media processing system according to an embodiment of the present invention.
2 is an exemplary diagram of a terminal according to an embodiment of the present invention.
3 is a flowchart of a media processing method according to an embodiment of the present invention.
4 is an exemplary diagram of a VoD service as an embodiment of the present invention.
5 is an exemplary diagram in which the media processing system according to the present embodiment is specially applied to the SR (Super Resolution) function.
6 is a conceptual diagram of a music streaming service.
7 is an exemplary diagram of a model learning process in a sound source streaming service as another embodiment of the present invention.
8 is an exemplary diagram of a music streaming service as another embodiment of the present invention.
이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to exemplary drawings. In adding reference numerals to the components of each drawing, it should be noted that the same components are given the same reference numerals as much as possible even though they are indicated on different drawings. In addition, in describing the present embodiments, if it is determined that a detailed description of a related well-known configuration or function may obscure the gist of the present embodiments, the detailed description thereof will be omitted.
또한, 본 실시예들의 구성요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.In addition, in describing the components of the present embodiments, terms such as first, second, A, B, (a), (b), etc. may be used. These terms are only for distinguishing the elements from other elements, and the essence, order, or order of the elements are not limited by the terms. Throughout the specification, when a part 'includes' or 'includes' a certain component, this means that other components may be further included, rather than excluding other components, unless otherwise stated. . In addition, the '... Terms such as 'unit' and 'module' mean a unit that processes at least one function or operation, which may be implemented as hardware or software or a combination of hardware and software.
첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.DETAILED DESCRIPTION The detailed description set forth below in conjunction with the appended drawings is intended to describe exemplary embodiments of the present invention and is not intended to represent the only embodiments in which the present invention may be practiced.
본 실시예는 딥러닝(deep learning) 기반 미디어 처리시스템 및 방법에 대한 내용을 개시한다. 보다 자세하게는, 미디어 서비스(media service)를 제공함에 있어서, 서버가 특정 콘텐츠(content)에 최적화되도록 사전에 트레이닝된 딥러닝(deep learning) 모델의 식별(identification) 정보와 파라미터(parameter)를 특정 콘텐츠와 함께 단말기 측으로 전달하는 미디어 처리시스템 및 방법을 제공한다.This embodiment discloses the contents of a deep learning-based media processing system and method. More specifically, in providing a media service, the server receives identification information and parameters of a pre-trained deep learning model to be optimized for specific content. To provide a media processing system and method for delivering to the terminal side with
미디어 서비스의 예로는 VoD(Video on Demand) 또는 음원 스트리밍(streaming) 서비스를 들 수 있으나 반드시 이에 한정하는 것은 아니다.Examples of the media service may include, but are not limited to, a Video on Demand (VoD) or a music streaming service.
딥러닝 모델은 인공신경망(artificial neural network)으로 구현될 수 있으므로, 딥러닝 모델과 딥러닝 인공신경망은 동일한 의미로 사용한다.Since a deep learning model can be implemented as an artificial neural network, a deep learning model and a deep learning artificial neural network are used interchangeably.
이하, 도 1 및 도 2를 이용하여 본 실시예에 따른 미디어 처리시스템을 설명한다.Hereinafter, a media processing system according to the present embodiment will be described with reference to FIGS. 1 and 2 .
도 1은 본 발명의 일 실시예에 따른 미디어 처리시스템의 예시도이다.1 is an exemplary diagram of a media processing system according to an embodiment of the present invention.
본 발명의 실시예에 따른 미디어 처리시스템(100)이 미디어 서비스를 제공함에 있어서, 서버는 사용자가 요구하는 콘텐츠에 최적화되도록 사전에 트레이닝된 딥러닝 모델의 정보와 파라미터를 비트스트림(bitstream) 형태의 콘텐츠와 함께 단말기 측으로 전달한다. 단말기는 모델의 정보와 파라미터를 이용하여 추론 모델(inference model)을 구성하고, 콘텐츠를 추론 모델에 입력하여 미디어 처리(media processing) 기법을 적용함으로써, 최적화된 품질을 갖는 콘텐츠를 생성한다. 미디어 처리시스템(100)은 스토리지 서버(storage server, 이하 '서버', 101), 유무선망(wired or wireless network, 110) 및 단말기(terminal, 120)의 전부 또는 일부를 포함한다. When the
여기서, 딥러닝 모델의 정보는 딥러닝 모델의 형태, 크기 등에 대한 식별(identification) 데이터를 포함할 수 있다. 또한 딥러닝 모델의 파라미터는 딥러닝 모델을 구성하고, 딥러닝 모델의 형태 및 크기에 따라 개수가 결정되며, 트레이닝의 대상이 되는 계수(coefficient)이다.Here, the information of the deep learning model may include identification data about the shape and size of the deep learning model. In addition, the parameters of the deep learning model constitute the deep learning model, the number is determined according to the shape and size of the deep learning model, and is a coefficient to be trained.
본 실시예에 따른 서버(101)는 사용자가 요구하는 콘텐츠에 특화되도록 사전에 트레이닝된 DNN(Deep Neural Network) 모델의 식별 정보와 파라미터를 콘텐츠와 함께 단말기(120) 측으로 전달한다. 서버(101)는 콘텐츠 DB(Database, 102), DNN DB(103) 및 모델 압축부(105)를 포함한다. 여기서, 본 실시예에 따른 서버(101)에 포함되는 구성요소가 반드시 이에 한정되는 것은 아니다. 예컨대, 서버(101) 상에 DNN의 트레이닝을 위한 트레이닝부(미도시) 및 단말기와 데이터를 송수신하기 위한 송수신부(미도시)를 추가로 구비할 수 있다. 또한, DNN 모델(104)의 정보는 모델의 종류 및 구조를 표현하는 식별 데이터일 수 있다. The
콘텐츠 DB(102)는 서버(101)가 사용자에게 제공할 수 있는 미디어 컨텐츠를 포함한다. 예컨대, VoD 서비스의 경우 콘텐츠는 동영상이고, 음원 스트리밍 서비스의 경우 콘텐츠는 음원(music)일 수 있으나, 반드시 이에 한정하는 것은 아니다. The content DB 102 includes media content that the
콘텐츠 DB(102)는 딥러닝 모델을 트레이닝시키기 위한 학습용 타겟(target) 콘텐츠를 포함할 수 있다. 예컨대, VoD 서비스의 경우, 콘텐츠는 FHD 동영상이고, 학습용 타겟 콘텐츠는 4K 동영상일 수 있다. 음원 스트리밍 서비스의 경우 콘텐츠는 저비트율 음원이고, 학습용 콘텐츠는 고비트율 음원일 수 있다.The content DB 102 may include target content for learning for training a deep learning model. For example, in the case of a VoD service, the content may be an FHD video, and the target content for learning may be a 4K video. In the case of a music streaming service, the content may be a low bit rate sound source, and the content for learning may be a high bit rate sound source.
DNN DB(103)는 콘텐츠 별로 미디어 처리 기법을 수행하도록 사전에 트레이닝된 DNN 모델(104)의 식별 정보 및 파라미터를 포함한다. 서버(101)는 사용자의 선택 정보에 해당하는 콘텐츠를 콘텐츠 DB(102)로부터 획득하고, DNN 모델(104)의 식별 정보 및 파라미터를 DNN DB(103)로부터 획득하여 단말기(120) 측으로 전달할 수 있다. The
여기서, 미디어 처리 기법은 콘텐츠에 대한 업스케일링(up-scaling) 및/또는 품질 개선 등을 의미하나, 반드시 이에 한정하는 것은 아니다. 예컨대, VoD 서비스의 경우, 미디어 처리 기법은 영상 또는 동영상의 해상도 증가 및/또는 화질 개선 등을 의미하고, 음원 스트리밍 서비스의 경우, 음원의 비트율 증가 및/또는 음질 개선 등을 의미할 수 있다. Here, the media processing technique refers to up-scaling and/or quality improvement of content, but is not limited thereto. For example, in the case of a VoD service, the media processing technique may mean an increase in resolution and/or image quality of an image or video, and in the case of a sound source streaming service, an increase in a bit rate and/or an improvement in sound quality of a sound source.
본 발명의 다른 실시예에 있어서, DNN 모델(104)이 하나로 고정된 경우, 서버(101)는 DNN 모델(104)의 파라미터를 콘텐츠와 함께 단말기(120) 측으로 전달할 수 있다. In another embodiment of the present invention, when the
모델 압축부(105)는 트레이닝된 DNN 모델(104)의 식별 정보 및 파라미터를 압축한다. VoD 서비스의 경우, DNN 모델(104)의 크기는 수십 내지 수백 MB(Megabyte) 정도이므로, 가용 트래픽 인프라의 대역폭(bandwidth)에 큰 부담이 안될 수 있으나, 상황에 따라서는 DNN 모델(104)의 식별 정보 및 파라미터를 압축하여 전송할 수 있다. 예컨대, MPEG-NNR(Moving Picture Expert Group-Neural Network Representation)에서는 이러한 파라미터를 효과적으로 압축할 수 있는 기술에 대한 표준화 연구가 진행되고 있다. DNN의 트레이닝 과정에 대해서는 추후에 설명하기로 한다.The
본 실시예에 따른 유무선망(110)은 서버(101)와 단말기(120) 간 데이터의 전송을 위한 통로이다. 여기서 데이터는 사용자의 콘텐츠 선택 정보, 사용자 단말기 정보, 콘텐츠 및/또는 DNN 모델의 식별 정보 및 파라미터의 전부 또는 일부를 포함할 수 있다.The wired/
도 2는 본 발명의 일 실시예에 따른 단말기의 예시도이다.2 is an exemplary diagram of a terminal according to an embodiment of the present invention.
본 실시예에 따른 단말기(120)는 사용자의 콘텐츠 선택 정보를 서버(101) 측으로 전달하고, 콘텐츠 및 딥러닝 모델의 식별 정보와 파라미터를 서버(101)로부터 획득한다. 단말기(120)는 전달받은 모델의 식별 정보와 파라미터를 이용하여 추론 모델을 구성하고, 콘텐츠를 DNN 모델에 입력하여 미디어 처리 기법을 적용함으로써, 최적화된 품질을 갖는 콘텐츠를 생성한다. 단말기(120)는 단말 송수신부(201), 입력부(202), 추론 모델(203) 및 출력부(204)의 전부 또는 일부를 포함한다. The terminal 120 according to this embodiment transmits the user's content selection information to the
단말 송수신부(201)는 유무선망(110)을 이용하여 단말기(120)의 정보 및 사용자의 콘텐츠 선택 정보를 서버(101) 측으로 전달한다. 또한 단말 송수신부(201)는 서버(101)로부터 비트스트림 형태의 콘텐츠 및 콘텐츠에 최적화되도록 사전 또는 실시간으로 트레이닝된 딥러닝 모델의 식별 정보와 파라미터를 수신한다. The
본 발명의 다른 실시예에 있어서, DNN 모델이 하나로 고정된 경우, 단말 송수신부(201)는 서버(101)로부터 콘텐츠 및 딥러닝 모델의 파라미터를 수신할 수 있다. In another embodiment of the present invention, when the DNN model is fixed to one, the
입력부(202)는, DNN 모델(104)의 정보 및 파라미터가 압축된 데이터인 경우, 데이터의 압축을 푸는 기능을 수행할 수 있다. 또한 입력부(202)는 비트스트림 형태의 콘텐츠를 디코딩하여 추론 모델에 입력되기 적합하도록 변환할 수 있다. The
추론 모델(203)은 DNN 모델을 이용하여 구현된다. 추론 모델(203)은 서버(101)로부터 전달받은, 재생할 콘텐츠에 최적화된 하나의 딥러닝 모델에 대한 식별 정보와 파라미터를 이용하여 형성될 수 있다. 단말기(120)는 서버(101)로부터 전달받은 콘텐츠를 추론 모델(203)에 입력하여 미디어 처리 기법을 적용함으로써 최적화된 품질을 갖는 콘텐츠를 생성할 수 있다. The
출력부(204)는 최적화된 콘텐츠를 사용자 인터페이스(interface)에 맞도록 변환하여 사용자에게 제공한다. 예컨대, VoD 서비스의 경우, 출력부(204)는 디스플레이(display) 및 스피커(speaker)를 이용하여 최적화된 콘텐츠를 시각적 및/또는 청각적 형태로 변환하여 사용자에게 제공할 수 있다. 또한 음원 스트리밍 서비스의 경우, 출력부(204)는 스피커(speaker)를 이용하여 콘텐츠를 청각적 형태로 변환하여 사용자에게 제공할 수 있다.The
이하, 서버(101)의 트레이닝부가 실행하는 DNN 모델(104)의 학습에 대하여 설명한다.Hereinafter, learning of the
서버(101)는 딥러닝 기반의 DNN 모델(104)을 구비하고, 트레이닝부는 구비된 DNN 모델(104)에 대한 트레이닝 과정을 수행할 수 있다. DNN 모델(104)은 미디어 처리 기법의 실행이 가능한 딥러닝 기반의 인공신경망(artificial neural network)이면 어느 것이든 될 수 있다. DNN 모델(104)은 VoD 또는 음원 스트리밍 서비스의 특정 콘텐츠를 기반으로, 특정 콘텐츠에 적합한 미디어 처리 기법의 실행이 가능하도록 사전에 트레이닝된 모델일 수 있다.The
보통의 딥러닝 기반 DNN 모델은, 트레이닝 단계에서 광범위한 학습용 DB를 이용하여 파라미터를 도출함으로써, 추론 단계에서 모든 콘텐츠에 잘 적용되어야 한다. 본 실시예처럼 콘텐츠에 특화되도록 DNN 모델(104)이 트레이닝된다면, 과학습(overfitting) 현상 때문에 다양한 입력에 대해서는 DNN 모델(104)의 최적 성능을 구현할 수 없다. 따라서, 일반적으로는 특정 콘텐츠에 특화되도록 DNN 모델(104)을 학습하는 것은 지양되어야 한다. 그러나 본 실시예는, 특정 콘텐츠에만 최적화되도록 DNN 모델(104)을 트레이닝한 후, DNN 모델의 식별 정보 및 파라미터와 콘텐츠를 함께 제공한다. 이렇게 함으로써, 본 실시예에 따른 미디어 처리시스템(100)은 특정 콘텐츠에 최적화된 미디어 처리 기법을 수행하여 콘텐츠에 대한 탁월한 품질 향상을 성취할 수 있다. A normal deep learning-based DNN model should be well applied to all contents in the inference stage by deriving parameters using a wide learning DB in the training stage. If the
본 실시예에 따른 트레이닝부는 특정 콘텐츠에 대한 DNN 모델(104)의 출력과 학습용 타겟 콘텐츠 간의 거리 메트릭(distance metric)에 기반하는 손실 함수(loss function)를 이용하여 DNN 모델(104)의 파라미터를 업데이트한다. 여기서 거리 메트릭은 크로스 엔트로피(cross entropy), L1 또는 L2 메트릭 등, 두 비교 대상 간의 메트릭 차이를 표현할 수 있는 것이면 어느 것이든 이용이 가능하다.The training unit according to this embodiment updates the parameters of the
단말기(120)의 다양성을 고려하여, 트레이닝부는 형태가 상이한 N(N은 자연수) 개의 DNN 모델(104)에 대하여 트레이닝을 수행할 수 있다. 미디어 처리시스템(100)은 손실 함수가 최소가 되는 DNN 모델(104)의 식별 정보와 파라미터를 콘텐츠와 결합하여 저장한다. 추후 사용자가 콘텐츠를 선택하는 경우, 결합된 정보는 단말기(120) 측으로 제공될 수 있다.In consideration of the diversity of the terminal 120 , the training unit may perform training on N (N is a natural number)
본 실시예에 따른 트레이닝부는 DNN 모델(104)에 대한 트레이닝을 사전에 실행하여 DNN 모델(104)의 식별 정보 및 파라미터를 생성할 수 있다. The training unit according to the present embodiment may generate identification information and parameters of the
본 발명의 다른 실시예에 있어서, 서버(101)의 연산 능력이 충분한 경우 또는 선택된 콘텐츠에 대한 DNN 모델(104)의 식별 정보 및 파라미터가 준비되어 있지 않은 경우, 트레이닝부는 DNN 모델(104)에 대한 트레이닝을 실시간으로 실행하여 DNN 모델(104)의 식별 정보 및 파라미터를 생성할 수 있다. In another embodiment of the present invention, when the computing power of the
도 1 및 도 2의 도시는 본 실시예에 따른 예시적인 구성이며, 서버의 형태, 유무선망의 형태, 단말기의 종류 및 딥러닝 모델의 형태에 따라 다른 구성요소 또는 구성요소 간의 다른 연결을 포함하는 구현이 가능하다. 1 and 2 are exemplary configurations according to the present embodiment, and include other components or other connections between components according to the type of server, the type of wired/wireless network, the type of terminal, and the type of the deep learning model. implementation is possible.
본 실시예에 따른 미디어 처리시스템(100)의 서버(101)는 프로그램가능 시스템에 탑재되는 것으로 가정한다. 서버(101)는 유선 또는 무선 전송방식을 이용하여 사용자가 요구하는 미디어 콘텐츠 및 딥러닝 모델의 정보와 파라미터를 복수의 단말기(120)에 제공하는 것으로 가정한다It is assumed that the
본 실시예에 따른 미디어 처리시스템(100)의 단말기(120)는 프로그램가능 컴퓨터일 수 있다. 단말기(120)는 전송대역의 제한을 받는 무선 또는 유선 전송로를 이용하여 미디어 스트리밍 서비스를 제공받을 수 있는 어느 기기든 될 수 있다. The
도 3은 본 발명의 일 실시예에 따른 미디어 처리방법의 순서도이다. 도 3의 (a)는 본 실시예에 따른 미디어 처리시스템(100)의 서버(101)가 실행하는 순서도이고, 도 3의 (b)는 미디어 처리시스템(100)의 단말기(120)가 실행하는 순서도이다.3 is a flowchart of a media processing method according to an embodiment of the present invention. 3 (a) is a flowchart executed by the
본 실시예에 따른 미디어 처리시스템(100)의 서버(101)는 단말기(120)로부터 선택된 콘텐츠(content) 정보 및 사용자 단말기 정보를 수신한다(S301). The
서버(101)는 선택된 콘텐츠 및 DNN 모델의 정보와 파라미터를 단말기 측으로 송신한다(S302). DNN(Deep Neural Network) 모델(104)은 미디어 처리 기법의 실행이 가능한 딥러닝 기반의 신경망(neural network)이면 어느 것이든 될 수 있으며, 선택된 콘텐츠에 특화되도록 사전 또는 실시간으로 트레이닝될 수 있다. DNN 모델(104)의 정보는 모델의 종류 및 구조에 표현하는 식별(identification) 데이터일 수 있다. The
서버(101)는 DNN 모델(104)의 식별 정보와 파라미터를 압축된 형태로 전송할 수 있다.The
본 발명의 다른 실시예에 있어서, DNN 모델(104)이 하나로 고정된 경우, 서버(101)는 DNN 모델(104)의 파라미터를 콘텐츠와 함께 단말기(120) 측으로 전달할 수 있다. In another embodiment of the present invention, when the
미디어 처리시스템(100)의 단말기(120)는 선택된 콘텐츠 정보 및 사용자 단말기 정보를 서버 측으로 송신한다(S311). The
단말기(120)는 선택된 콘텐츠 및 DNN 모델의 정보와 파라미터를 서버로부터 수신한다(S312). 단말기(120)는 서버(101)로부터 비트스트림 형태의 콘텐츠 및 콘텐츠에 특화되도록 사전 또는 실시간으로 트레이닝된 DNN 모델의 식별 정보와 파라미터를 수신한다.The terminal 120 receives the selected content and information and parameters of the DNN model from the server (S312). The terminal 120 receives from the
본 발명의 다른 실시예에 있어서, DNN 모델이 하나로 고정된 경우, 단말기(120)는 서버(101)로부터 콘텐츠 및 딥러닝 모델의 파라미터를 수신할 수 있다. In another embodiment of the present invention, when the DNN model is fixed to one, the terminal 120 may receive the content and parameters of the deep learning model from the
단말기(120)는 DNN 모델의 정보와 파라미터를 이용하여 추론 모델을 구성한다(S313).The terminal 120 constructs an inference model using the information and parameters of the DNN model (S313).
단말기(120)는 DNN 모델의 식별 정보 및 파라미터가 압축된 데이터인 경우, 데이터의 압축을 푸는 기능을 수행할 수 있다. 또한, 단말기는 비트스트림 형태의 콘텐츠를 디코딩하여 추론 모델(inference model, 203)에 입력되기 적합하도록 변환할 수 있다.When the identification information and parameters of the DNN model are compressed data, the terminal 120 may perform a function of decompressing the data. In addition, the terminal may decode the content in the form of a bitstream and convert it to be suitable to be input to an inference model (203).
단말기(120)는 콘텐츠를 추론 모델에 입력하여 미디어 처리 기법을 수행한다(S314). 추론 모델(203)은 콘텐츠에 미디어 처리(media processing) 기법을 적용함으로써 최적화된 품질을 갖는 콘텐츠를 생성할 수 있다.The terminal 120 inputs the content to the inference model and performs a media processing technique (S314). The
단말기(120)는 최적화된 콘텐츠를 사용자에게 제공한다(S315). 단말기(120)는 최적화된 콘텐츠를 사용자 인터페이스에 맞도록 시각적 및/또는 청각적 형태로 변환하여 사용자에게 제공할 수 있다.The terminal 120 provides the optimized content to the user (S315). The terminal 120 may convert the optimized content into a visual and/or audible form to fit the user interface and provide it to the user.
이상에서 설명한 바와 같이 본 실시예에 따르면, 미디어 서비스를 제공함에 있어서, 서버는 특정 콘텐츠에 최적화되도록 사전에 트레이닝된 딥러닝 모델의 식별 정보와 파라미터를 특정 콘텐츠와 함께 단말기 측으로 전달하고, 단말기는 특정 콘텐츠를 딥러닝 모델에 적용하는 미디어 처리시스템 및 방법을 제공함으로써, 최적화된 미디어 품질을 갖는 콘텐츠를 생성하는 것이 가능해지는 효과가 있다.As described above, according to this embodiment, in providing a media service, the server transmits identification information and parameters of a deep learning model trained in advance to be optimized for specific content to the terminal side along with the specific content, and the terminal By providing a media processing system and method for applying content to a deep learning model, there is an effect that it becomes possible to generate content having optimized media quality.
이하, 도 4 및 도 5를 이용하여 본 실시예에 따른 미디어 처리시스템(100)이 VoD 서비스에 적용되는 예시를 설명한다.Hereinafter, an example in which the
VoD 서비스를 제공함에 있어서, 서비스 수행 주체인 IPTV(Internet Protocol TV) 사업자는 원본 동영상을 CP(content Provider) 사업자로부터 공급받는다. 원본 동영상은 보통 대용량이므로, 망 대역폭을 고려하여 트랜스코딩(transcoding)이 적용되어 IPTV 사업자에게 제공될 수 있다. 여기서 트랜스코딩 과정은 원본 동영상에 대한 디코딩(decoding) 및 인코딩(encoding) 과정을 포함한다. 인코딩 과정은 원본 동영상 대비 손실 압축(lossy compression)이므로, IPTV 사업자의 동영상 콘텐츠는 화질 열화(degradation)를 포함할 수밖에 없다. 따라서, IPTV 사업자는 동영상 콘텐츠 별로, 본 실시예가 제시하는 바와 같은 미디어 처리 기법이 실행이 가능한 딥러닝 모델을 트레이닝시킨 후, 동영상 콘텐츠 및 딥러닝 모델의 정보와 파라미터를 결합하여 사용자에게 제공할 수 있다.In providing a VoD service, an Internet Protocol TV (IPTV) operator that is a service performing entity receives an original video from a CP (content provider) operator. Since the original video is usually of a large capacity, transcoding may be applied in consideration of the network bandwidth and provided to the IPTV service provider. Here, the transcoding process includes decoding and encoding of the original video. Since the encoding process is lossy compression compared to the original video, the video content of the IPTV service provider inevitably includes degradation in quality. Therefore, the IPTV operator can provide the user by combining information and parameters of the video content and the deep learning model after training a deep learning model capable of executing the media processing technique as presented in this embodiment for each video content. .
도 4는 본 발명의 일 실시예로서 VoD 서비스의 예시도이다.4 is an exemplary diagram of a VoD service as an embodiment of the present invention.
VoD 서비스를 제공함에 있어서, 본 실시예에 따른 미디어 처리시스템(100)의 서버(101)는 선택된 콘텐츠 정보에 해당하는 동영상 콘텐츠 및 트레이닝된 DNN 모델 정보와 파라미터를 단말기 측으로 전달한다. VoD 서비스의 단말기인 STB(Settop Box, 120)는 모델 정보 및 파라미터를 이용하여 추론 모델을 구성한 후, 동영상 콘텐츠를 추론 모델에 입력하여 최적화된 품질을 갖는 동영상 콘텐츠를 생성할 수 있다.In providing the VoD service, the
VoD 서비스를 제공함에 있어서, 도 5에 도시된 바와 같이 본 실시예에 따른 미디어 처리시스템(100)을 SR(Super Resolution) 기능에 특화하여 적용할 수 있다. 예컨대, 서버(101)의 트레이닝부는 FHD(Full High-Definition) 동영상 콘텐츠를 입력으로 이용하고, 4K 동영상 콘텐츠를 타겟 동영상으로 이용하여, DNN 모델을 트레이닝시킴으로, SR 수준의 미디어 처리 기법을 수행할 수 있는, 트레이닝된 DNN 모델(104)을 생성할 수 있다. IPTV 사업자는 FHD 동영상 콘텐츠 및 DNN 모델 정보와 파라미터를 STB(120)로 전달하고, STB(120)는 FHD 동영상 콘텐츠를 DNN 모델에 입력하여 화질 열화가 최소화된 4K 동영상을 생성할 수 있다. In providing the VoD service, as shown in FIG. 5 , the
이하, 도 6 내지 도 8을 이용하여 본 실시예에 따른 미디어 처리시스템(100)이 음원 스트리밍 서비스에 적용되는 예시를 설명한다.Hereinafter, an example in which the
음원 스트리밍 서비스를 제공함에 있어서, 서비스용 음원은 사전에 서버의 DB에 저장된다. 도 6에 도시된 바와 같이, 스트리밍 서버는 44.1 KHz로 샘플링된 16 비트의 wav 음원을 다양한 비트율(bitrate)로 인코딩하여 서비스용 음원의 DB를 생성하여 저장한 후, 사용자가 선택한 곡을 단말기 측으로 제공한다. 도 6의 도시에서 각 DB 별 동일한 위치의 화살표 하나가 곡 하나를 의미한다.In providing a sound source streaming service, the sound source for the service is stored in the DB of the server in advance. As shown in Figure 6, the streaming server encodes a 16-bit wav sound source sampled at 44.1 KHz at various bit rates, creates and stores a DB of the sound source for the service, and provides the user-selected song to the terminal side do. In the diagram of FIG. 6 , one arrow at the same position for each DB means one song.
도 7은 본 발명의 다른 실시예로서 음원 스트리밍 서비스 중 모델 학습 과정의 예시도이다.7 is an exemplary diagram of a model learning process in a sound source streaming service as another embodiment of the present invention.
본 실시예에 따른 미디어 처리시스템(100)의 서버(101)는, 저비트율(low bitrate)로 인코딩된 음원 별로 고비트율(high bitrate) 음원을 생성할 수 있도록 DNN 모델을 트레이닝한다. 예컨대, 서버(101)의 트레이닝부는 96 Kbps 음원을 입력으로 이용하고, 320 Kbps 음원을 타겟 음원으로 이용하여 DNN 모델에 대한 트레이닝을 수행할 수 있다. 트레이닝된 DNN 모델(104)은 SR 수준의 미디어 처리 기법을 수행할 수 있다. 서버(101)는 음원 DB에 포함된 전 곡에 대하여 사전에 트레이닝된 DNN 모델(104)을 확보할 수 있다.The
도 8은 본 발명의 다른 실시예로서 음원 스트리밍 서비스의 예시도이다.8 is an exemplary diagram of a music streaming service as another embodiment of the present invention.
음원 스트리밍 서비스를 제공함에 있어서, 본 실시예에 따른 미디어 처리시스템(100)의 서버(101)는 선택된 콘텐츠 정보에 해당하는 저비트율 음원 콘텐츠 및 트레이닝된 DNN 모델(104) 정보와 파라미터를 단말기(120) 측으로 전달한다. 스트리밍 서비스를 제공받는 단말기(120)는 모델 정보 및 파라미터를 이용하여 추론 모델(203)을 구성한 후, 저비트율 콘텐츠를 추론 모델(203)에 입력하여 최적화된 품질을 갖는 고비트율 콘텐츠를 생성할 수 있다.In providing the sound source streaming service, the
이상에서 설명한 바와 같이 본 실시예에 따르면, 미디어 서비스를 제공함에 있어서, 서버가 특정 콘텐츠에 최적화되도록 사전에 트레이닝된 딥러닝 모델의 식별 정보와 파라미터를 특정 콘텐츠와 함께 단말기 측으로 전달하는 미디어 처리시스템 및 방법을 제공함으로써, 과학습 현상의 효과적인 이용 및 망 인프라 운영 측면의 효율 증대가 가능해지는 효과가 있다. As described above, according to this embodiment, in providing a media service, a media processing system that delivers identification information and parameters of a deep learning model trained in advance so that the server is optimized for a specific content to the terminal side along with the specific content; By providing the method, it is possible to effectively use the scientific learning phenomenon and to increase the efficiency in terms of network infrastructure operation.
본 실시예에 따른 각 순서도에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 순서도에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.Although it is described that each process is sequentially executed in each flowchart according to the present embodiment, the present invention is not limited thereto. In other words, since it may be applicable to change and execute the processes described in the flowchart or to execute one or more processes in parallel, the flowchart is not limited to a time-series order.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는 기록매체"에 저장된다. Various implementations of the systems and techniques described herein include digital electronic circuitry, integrated circuits, field programmable gate arrays (FPGAs), application specific integrated circuits (ASICs), computer hardware, firmware, software, and/or combination can be realized. These various implementations may include being implemented in one or more computer programs executable on a programmable system. The programmable system includes at least one programmable processor (which may be a special purpose processor) coupled to receive data and instructions from, and transmit data and instructions to, a storage system, at least one input device, and at least one output device. or may be a general-purpose processor). Computer programs (also known as programs, software, software applications or code) contain instructions for a programmable processor and are stored on a "computer-readable recording medium".
컴퓨터가 읽을 수 있는 기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비일시적인(non-transitory) 매체일 수 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송) 및 데이터 전송 매체(data transmission medium)와 같은 일시적인(transitory) 매체를 더 포함할 수도 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.The computer-readable recording medium includes all types of recording devices in which data readable by a computer system is stored. These computer-readable recording media are non-volatile or non-transitory, such as ROM, CD-ROM, magnetic tape, floppy disk, memory card, hard disk, magneto-optical disk, and storage device. media, and may further include transitory media such as carrier waves (eg, transmission over the Internet) and data transmission media. In addition, the computer-readable recording medium is distributed in network-connected computer systems, and computer-readable codes may be stored and executed in a distributed manner.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.Various implementations of the systems and techniques described herein may be implemented by a programmable computer. Here, the computer includes a programmable processor, a data storage system (including volatile memory, non-volatile memory, or other types of storage systems or combinations thereof), and at least one communication interface. For example, a programmable computer may be one of a server, a network appliance, a set-top box, an embedded device, a computer expansion module, a personal computer, a laptop, a Personal Data Assistant (PDA), a cloud computing system, or a mobile device.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of this embodiment, and various modifications and variations will be possible by those skilled in the art to which this embodiment belongs without departing from the essential characteristics of the present embodiment. Accordingly, the present embodiments are intended to explain rather than limit the technical spirit of the present embodiment, and the scope of the technical spirit of the present embodiment is not limited by these embodiments. The protection scope of this embodiment should be interpreted by the following claims, and all technical ideas within the equivalent range should be interpreted as being included in the scope of the present embodiment.
100: 미디어 처리시스템
101: 서버
102: 콘텐츠 DB
103: DNN DB
104: DNN 모델
105: 모델 압축부
110: 유무선망
120: 단말기
201: 단말 송수신부
202: 입력부
203: 추론 모델
204: 출력부
100: media processing system 101: server
102: content DB 103: DNN DB
104: DNN model 105: model compression unit
110: wired/wireless network 120: terminal
201: terminal transceiver unit 202: input unit
203: inference model 204: output
Claims (9)
상기 DNN 모델의 정보를 기반으로 구성되고, 상기 콘텐츠를 입력받아 미디어 처리(media processing) 기법을 수행하는 추론 모델(inference model)
을 포함하는 것을 특징으로 하는 미디어 처리장치.a transceiver for receiving content and information of a DNN (Deep Neural Network) model trained in advance to be specialized to the content from a server; and
An inference model configured based on the information of the DNN model and receiving the content and performing a media processing technique
Media processing apparatus comprising a.
상기 송수신부는,
상기 콘텐츠의 정보 및 상기 미디어 처리장치가 탑재되는 단말기 정보를 상기 서버 측으로 송신하는 것을 특징으로 하는 미디어 처리장치.According to claim 1,
The transceiver unit,
The media processing apparatus according to claim 1, wherein the content information and terminal information on which the media processing apparatus is mounted are transmitted to the server side.
상기 DNN 모델의 정보는,
상기 DNN 모델의 종류와 크기에 대한 식별(identification) 정보, 및 상기 DNN 모델의 파라미터(parameter)를 포함하는 것을 특징으로 하는 미디어 처리장치.According to claim 1,
The information of the DNN model is,
Media processing apparatus, characterized in that it includes identification information on the type and size of the DNN model, and parameters of the DNN model.
상기 DNN 모델은,
상기 콘텐츠 및 학습용 타겟(target) 콘텐츠를 이용하여, 상기 콘텐츠와 상기 타겟 콘텐츠 간을 맵핑(mapping)하는 미디어 처리 기법을 수행하도록 상기 DNN 모델의 파라미터가 업데이트되는 것을 특징으로 하는 미디어 처리장치.According to claim 1,
The DNN model is
Media processing apparatus, characterized in that the parameter of the DNN model is updated to perform a media processing technique for mapping between the content and the target content by using the content and the target content for learning.
상기 미디어 처리 기법은,
상기 콘텐츠에 대한 업스케일링(up-scaling) 및/또는 품질 개선(quality enhancement)을 포함하는 것을 특징으로 하는 미디어 처리장치.According to claim 1,
The media processing technique is
Media processing apparatus comprising up-scaling and/or quality enhancement for the content.
콘텐츠(content) 및 상기 콘텐츠에 특화되도록 사전에 트레이닝된 DNN(Deep Neural Network) 모델의 정보를 서버로부터 수신하는 과정;
상기 DNN 모델의 정보를 이용하여 추론 모델(inference model)을 구성하는 과정; 및
상기 콘텐츠를 상기 추론 모델에 입력하여 미디어 처리(media processing) 기법을 수행하는 과정
을 포함하는 것을 특징으로 하는 미디어 처리방법.In the media processing method performed by the media processing apparatus,
Receiving content and information of a DNN (Deep Neural Network) model trained in advance to be specialized to the content from a server;
constructing an inference model using the information of the DNN model; and
A process of performing a media processing technique by inputting the content into the inference model
Media processing method comprising a.
상기 콘텐츠의 정보 및 상기 미디어 처리장치가 탑재되는 단말기 정보를 상기 서버 측으로 송신하는 과정을 더 포함하는 것을 특징으로 하는 미디어 처리방법.7. The method of claim 6,
The method of claim 1, further comprising the step of transmitting the content information and terminal information on which the media processing apparatus is mounted to the server.
상기 수신하는 과정은,
상기 DNN 모델의 종류와 크기에 대한 식별(identification) 정보, 및 상기 DNN 모델의 파라미터(parameter)를 수신하는 것을 특징으로 하는 미디어 처리방법.7. The method of claim 6,
The receiving process is
The media processing method, characterized in that receiving identification information on the type and size of the DNN model, and parameters of the DNN model.
A computer program stored in a computer-readable recording medium to execute each step included in the media processing method according to any one of claims 6 to 8.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200026303A KR102618646B1 (en) | 2020-03-03 | 2020-03-03 | System and Method for Media Processing Based on Deep Learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200026303A KR102618646B1 (en) | 2020-03-03 | 2020-03-03 | System and Method for Media Processing Based on Deep Learning |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210111420A true KR20210111420A (en) | 2021-09-13 |
KR102618646B1 KR102618646B1 (en) | 2023-12-27 |
Family
ID=77796656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200026303A KR102618646B1 (en) | 2020-03-03 | 2020-03-03 | System and Method for Media Processing Based on Deep Learning |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102618646B1 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101008523B1 (en) * | 2001-09-20 | 2011-01-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | Quality adaption for real-time multimedia content delivery based on user attention |
WO2016181383A2 (en) * | 2015-05-14 | 2016-11-17 | Hola Networks Ltd. | System and method for streaming content from multiple servers |
KR101885855B1 (en) * | 2017-03-30 | 2018-08-07 | 단국대학교 산학협력단 | transmission of images based on techniques estimating high resolution |
WO2020033898A1 (en) * | 2018-08-09 | 2020-02-13 | Board Of Trustees Of Michigan State University | Systems and methods for providing flexible, multi-capacity models for use of deep neural networks in mobile devices |
-
2020
- 2020-03-03 KR KR1020200026303A patent/KR102618646B1/en active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101008523B1 (en) * | 2001-09-20 | 2011-01-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | Quality adaption for real-time multimedia content delivery based on user attention |
WO2016181383A2 (en) * | 2015-05-14 | 2016-11-17 | Hola Networks Ltd. | System and method for streaming content from multiple servers |
KR101885855B1 (en) * | 2017-03-30 | 2018-08-07 | 단국대학교 산학협력단 | transmission of images based on techniques estimating high resolution |
WO2020033898A1 (en) * | 2018-08-09 | 2020-02-13 | Board Of Trustees Of Michigan State University | Systems and methods for providing flexible, multi-capacity models for use of deep neural networks in mobile devices |
US20210295174A1 (en) * | 2018-08-09 | 2021-09-23 | Board Of Trustees Of Michigan State University | Systems and methods for providing flexible, multi-capacity models for use of deep neural networks in mobile devices |
Non-Patent Citations (3)
Title |
---|
Hyunho Yeo et al., "Neural Adaptive Content-aware Internet Video Delivery," 13th USENIX Symposium on Operating Systems Design and Implementation (OSDI ’18) (2018.10.08.)* * |
김 진 성, 이재동, "적응화된 콘텐츠를 서비스하기 위한 사용자 단말기 프레임워크 설계 및 구현," 정보처리학회논문지 D 제16-D권 제5호 (2009.10.31.)* * |
비특허문헌 1: Kuleshov, Volodymyr, S. Zayd Enam, and Stefano Ermon. "Audio super resolution using neural networks." arXiv preprint arXiv:1708.00853 (2017) |
Also Published As
Publication number | Publication date |
---|---|
KR102618646B1 (en) | 2023-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11227612B2 (en) | Audio frame loss and recovery with redundant frames | |
CN105393516B (en) | The method, apparatus and computer readable storage medium of quality optimization are carried out with buffer and range constraint in adaptive streaming | |
US20210209474A1 (en) | Compression method and system for frequent transmission of deep neural network | |
US20220303536A1 (en) | Method of signalling in a video codec | |
US9818422B2 (en) | Method and apparatus for layered compression of multimedia signals for storage and transmission over heterogeneous networks | |
CN105611395B (en) | A kind of method and system that MP4 format video plays online | |
KR102313136B1 (en) | Method and Apparatus for Accelerating Super-Resolution in Real-time Video Streaming | |
US10366698B2 (en) | Variable length coding of indices and bit scheduling in a pyramid vector quantizer | |
CN105208440A (en) | Online playing method and system for MP4-format video | |
US20230082784A1 (en) | Point cloud encoding and decoding method and apparatus, computer-readable medium, and electronic device | |
CN1622593B (en) | Apparatus and method for processing video for implementing signal to noise ratio scalability | |
KR102618646B1 (en) | System and Method for Media Processing Based on Deep Learning | |
Benierbah et al. | Symbol positions‐based Slepian–Wolf coding with application to distributed video coding | |
Dong et al. | Joint source–channel rate allocation with unequal error protection for space image transmission | |
EP4336498A1 (en) | Audio data encoding method and related apparatus, audio data decoding method and related apparatus, and computer-readable storage medium | |
Chakareski et al. | Live 360◦ Video Streaming to Heterogeneous Clients in 5G Networks | |
WO2022242534A1 (en) | Encoding method and apparatus, decoding method and apparatus, device, storage medium and computer program | |
CN104702985A (en) | Digital TV network-based geographic information service real-time interaction method and system thereof | |
CN114841370B (en) | Processing method and device of federal learning model, electronic equipment and storage medium | |
WO2022179406A1 (en) | Audio transcoding method and apparatus, audio transcoder, device, and storage medium | |
Chen et al. | Unequal error protection for compressed sensing with polar codes | |
WO2022258036A1 (en) | Encoding method and apparatus, decoding method and apparatus, and device, storage medium and computer program | |
CN115050377A (en) | Audio transcoding method and device, audio transcoder, equipment and storage medium | |
Yahampath | Hybrid digital-analog coding with bandwidth expansion for correlated Gaussian sources under Rayleigh fading | |
Larsen et al. | Multiple description trellis-coded quantization of sinusoidal parameters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |