WO2021033964A1 - 컨텐츠전송방법 및 이를 이용한 컨텐츠 생성 단말 - Google Patents

컨텐츠전송방법 및 이를 이용한 컨텐츠 생성 단말 Download PDF

Info

Publication number
WO2021033964A1
WO2021033964A1 PCT/KR2020/010356 KR2020010356W WO2021033964A1 WO 2021033964 A1 WO2021033964 A1 WO 2021033964A1 KR 2020010356 W KR2020010356 W KR 2020010356W WO 2021033964 A1 WO2021033964 A1 WO 2021033964A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
data
reference data
original content
original
Prior art date
Application number
PCT/KR2020/010356
Other languages
English (en)
French (fr)
Inventor
장준기
김성호
조성택
안재철
이택주
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Publication of WO2021033964A1 publication Critical patent/WO2021033964A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Definitions

  • the present application relates to a content transmission method capable of improving the quality, such as resolution of content provided through streaming, and a content generation terminal using the same.
  • Streaming technology refers to a technology that optimally uses network and CPU resources by transmitting/receiving content such as large-capacity video and audio in real time.
  • the method of receiving content service for example, video content playback service
  • the method of receiving content service requires a long waiting time from the user, but when using streaming technology, before downloading all the content Even though it is possible to provide a content service in real time by downloading only data on the current playback point through a client browser or plug-in.
  • the streaming service has the advantage of being able to receive a content service as soon as a user selects a content.
  • the present application is to provide a content transmission method capable of improving the quality of content limited by a bandwidth or transmission speed of a transmission medium, and a content generation terminal using the same.
  • the present application is intended to provide a content transmission method capable of implementing content quality improvement at a receiving side by allowing a content generation terminal to further transmit reference data together with encoded compressed data, and a content generation terminal using the same.
  • the present application is to provide a content transmission method capable of performing quality improvement of received content using a deep learning-based quality improvement model, and a content generation terminal using the same.
  • a method for transmitting content by a content generating terminal includes the steps of: generating original content by the content generating terminal; Generating compressed data obtained by encoding the original content and reference data obtained by sampling the original content; And transmitting the compressed data and reference data to a distribution server.
  • a method for improving content quality of a distribution server includes: receiving compressed data obtained by encoding original content and reference data by sampling the original content from a content generation terminal; Decoding the compressed data to generate decoded data; And generating output data with improved quality of the decoded data by applying the decoded data and reference data to a quality improvement model.
  • a content generation terminal includes: a content generation unit that generates original content; An encoding unit generating compressed data by encoding the original content; A reference data generator configured to generate reference data by sampling the original content; And a transmission unit for transmitting the compressed data and reference data to a distribution server.
  • the distribution server includes: a receiver configured to receive compressed data obtained by encoding original content and reference data extracted by sampling the original content from a content generation terminal; A decoding unit for generating decoded data by decoding the compressed data; And a quality improvement unit that applies the decoded data and reference data to a quality improvement model to generate output data having improved quality of the decoded data.
  • a method for improving content quality in a client terminal includes the steps of: receiving, from a content server, compressed data obtained by encoding original content and reference data obtained by sampling the original content; Decoding the compressed data to generate decoded data; And generating output data with improved quality of the decoded data by applying the decoded data and reference data to a quality improvement model.
  • a content transmission method of a content server includes: receiving a request for streaming of original content from a client terminal; Setting an encoding quality according to a bit rate of a transmission medium connected to the client terminal, and encoding the original content according to the encoding quality to generate compressed data; Generating reference data for the original content by sampling the original content every preset period or by sampling whenever a scene change occurs in the original content; And transmitting the compressed data and reference data to the client terminal through the transmission medium.
  • the content transmission method and the content generating terminal using the same it is possible to implement quality improvement using reference data sampled of the original content instead of the entire original content.
  • the content transmission method according to the embodiments of the present invention and the effects that can be achieved by the content generating terminal using the same are not limited to those mentioned above, and other effects that are not mentioned are the present invention from the following description. It will be clearly understood by those of ordinary skill in the relevant technical field.
  • FIG. 1 is a schematic diagram showing a content quality improvement system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing a content generation terminal and a distribution server of a content quality improvement system according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a method of transmitting content by a content generating terminal according to an embodiment of the present invention.
  • FIG. 4 is a flow chart showing a method for improving content quality of a distribution server according to an embodiment of the present invention.
  • FIG. 5 is a schematic diagram showing a content quality improvement system according to another embodiment of the present invention.
  • FIG. 6 is a block diagram showing a client terminal and a content server of a content quality improvement system according to another embodiment of the present invention.
  • FIG. 7 is a flow chart showing a method of improving content quality of a client terminal according to another embodiment of the present invention.
  • FIG. 8 is a flow chart showing a content transmission method of a content server according to another embodiment of the present invention.
  • module and “unit” for components used in the following description are given or used interchangeably in consideration of only the ease of preparation of the specification, and do not have meanings or roles that are distinguished from each other by themselves. That is, the term'unit' used in the present invention means a hardware component such as software, FPGA or ASIC, and the'unit' performs certain roles. However,'part' is not limited to software or hardware.
  • The'unit' may be configured to be in an addressable storage medium, or may be configured to reproduce one or more processors.
  • 'unit' refers to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, procedures, Includes subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, database, data structures, tables, arrays and variables.
  • the functions provided in the components and'units' may be combined into a smaller number of components and'units', or may be further divided into additional components and'units'.
  • FIG. 1 is a schematic diagram showing a content quality improvement system according to an embodiment of the present invention.
  • a content quality improvement system may include a content generating terminal 100, a distribution server 200, and a content receiving terminal 300.
  • the content generating terminal 100 may generate original content according to a user's manipulation, and the generated original content may be distributed to a plurality of content receiving terminals 300 through the distribution server 200.
  • a user can directly shoot a video or image using a camera and a microphone provided in the content generation terminal 100, or record sound to create original content.
  • a separate camcorder It is also possible to generate original contents using a camera, a recorder, etc. and then store them in the contents generation terminal 100. Thereafter, the content generation terminal 100 may support editing or modification of the generated original content.
  • the content generation terminal 100 can supply the generated original content to the distribution server 200 through a communication network, and the content generation terminal 100 encodes a multimedia signal such as a video signal and an audio signal corresponding to the original content. It can be converted into a multimedia stream.
  • a multimedia signal such as a video signal and an audio signal corresponding to the original content. It can be converted into a multimedia stream.
  • the encoded multimedia stream is a real-time streaming protocol (Real Time Streaming Protocol: RTSP, regulated in RFC 2326), a real-time transport protocol (RTP), a real-time messaging protocol. : RTMP) or the like can be transmitted to the distribution server 200.
  • RTSP Real Time Streaming Protocol
  • RTP real-time transport protocol
  • RTMP real-time messaging protocol
  • the content generation terminal 100 may include a display unit for visually displaying the generated original contents, an input unit receiving user input, a communication unit for wired/wireless communication with the distribution server 200, and at least one program This may include a memory and a processor to be stored.
  • the content creation terminal 100 includes a mobile phone, a smart phone, a laptop computer, a desktop computer, a digital broadcasting terminal, a personal digital assistants (PDA), a portable multimedia player (PMP), Slate PC, tablet PC, ultrabook, wearable device (e.g., smartwatch, smart glass), head mounted display (HMD) )), etc.
  • PDA personal digital assistants
  • PMP portable multimedia player
  • Slate PC tablet PC
  • ultrabook ultrabook
  • wearable device e.g., smartwatch, smart glass
  • HMD head mounted display
  • the content generation terminal 100 may be connected to the distribution server 200 through a communication network, where the communication network may include a wired network and a wireless network. Specifically, it may include various networks such as a local area network (LAN), a metropolitan area network (MAN), and a wide area network (WAN), and may include a known World Wide Web (WWW: World). Wide Web).
  • LAN local area network
  • MAN metropolitan area network
  • WAN wide area network
  • WWW World Wide Web
  • the communication network according to the present invention is not limited to the networks listed above, and may include a known wireless data network, a known telephone network, a known wired or wireless television network, and the like.
  • the content receiving terminal 300 may display the content provided from the distribution server 200 or the like in a visual or audible manner and provide it to the user.
  • the content receiving terminal 300 may include a display unit for visually displaying contents, an input unit receiving user input, a communication unit for wired/wireless communication with the content server 200, and at least one program stored therein. It may include a memory and a processor.
  • the content receiving terminal 300 may be a smart phone or a tablet PC, and may be a portable device or a fixed device of the same type as the content generation terminal 100 described above.
  • the content receiving terminal 300 may be connected to the distribution server 200 through a communication network, where the communication network may include a wired network and a wireless network.
  • the distribution server 200 may receive content from the content generating terminal 100 and may distribute the received content to a plurality of content receiving terminals 300. Here, the distribution server 200 may perform quality improvement on the content received from the content generation terminal 100 and then distribute it.
  • the content generation terminal 100 when the content generation terminal 100 transmits the original content to the distribution server 200, it may go through a transmission medium such as an optical cable or a coaxial cable in a communication network.
  • the resolution or sound quality of the original contents transmitted from the content generation terminal 100 to the distribution server 200 may be limited by the bandwidth (bandwith) or the transmission rate (bit rate) of the transmission medium. That is, when the content generation terminal 100 encodes the original content, the quality can be adjusted and encoded according to the transmission speed of the transmission medium, and accordingly, the distribution server 200 provides compressed data encoded with different qualities. I can receive it. Accordingly, the distribution server 200 may receive compressed data of low quality from the content generation terminal 100, and may generate decoded data by decoding it. In this case, a content whose resolution is relatively lower than that of the original content or the sound quality of a sound source is deteriorated may be provided.
  • the distribution server 200 needs to provide high-quality content to each of the content receiving terminals 300, it is necessary to improve the quality of the content received from the content generating terminal 100.
  • the content generation terminal 100 additionally provides high-quality reference data along with compressed data to the distribution server 200 to improve the quality of deteriorated content. It is possible to do.
  • FIG. 2 is a block diagram showing a content generation terminal and a distribution server of a content quality improvement system according to an embodiment of the present invention.
  • the content generation terminal 100 includes a content generation unit 110, an encoding unit 120, a reference data generation unit 130, and a transmission unit 140. I can.
  • the content generator 110 may generate original content. That is, the content generation unit 110 may capture a video or an image using a camera or a microphone included in the content generation terminal 100, or record sound to generate original content. For example, a celebrity, such as a celebrity, can create original content in such a way as to photograph their daily life as a video using their smart phone.
  • the encoding unit 120 may generate compressed data by encoding original content.
  • the encoding unit 120 may set the encoding quality according to the bit rate of the transmission medium connected to the distribution server 200, and may encode the original content according to the encoding quality.
  • the encoding unit 120 is a video codec such as MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE, MP3, AC3, AAC, OGG, WMA, FLAC. Audio codecs such as DTS can be used.
  • the reference data generator 130 may generate reference data by sampling the original content. Since the encoding unit 120 generates compressed data by limiting the quality during encoding according to the transmission speed of the transmission medium, the distribution server 200 may receive compressed data of limited quality according to the transmission speed of the transmission medium. In this case, when only the received compressed data is decoded and the content is reproduced, a problem such as a relatively low quality such as a resolution of the content may occur.
  • the reference data generation unit 130 may additionally generate reference data in addition to the compressed data. That is, reference data, which is metadata including information of the original content, may be further provided to the distribution server 200, and quality improvement may be performed by using the reference data thereafter.
  • the reference data may be a high-definition image of the original content or text information generated by voice recognition of the original content.
  • the original content is a video
  • a high-quality image generated by capturing the original content may be used as reference data. That is, since the reference data includes high-definition image information corresponding to a specific frame included in the original content, it is possible to improve the quality of the frames before and after the special frame by utilizing this.
  • text information extracted from the sound source through speech recognition may be used as reference data. That is, when there is a problem with sound quality such as an incorrect voice in the compressed data of a sound source, it can be utilized for quality improvement, such as making the corresponding voice emit a sound corresponding to text information using text information.
  • the reference data generation unit 130 may generate reference data by sampling the original content at every setting period, and according to an embodiment, it is also possible to generate reference data whenever a scene change occurs in the original content.
  • the video may be captured once every N seconds to generate reference data. That is, it is possible to use reference data sampled from the original content, not the entire original content, for quality improvement.
  • the reference data is a high-quality image, the capacity may be relatively large. Therefore, by including the reference data once every N seconds, the transmission capacity can be reduced and the quality can be improved.
  • an image having a resolution of 1920X1080 may be generated as reference data, one image per 10 seconds.
  • the reference data generation unit 130 may generate reference data by further including a time stamp at the time when each reference data is generated.
  • the transmission unit 140 may transmit compressed data and reference data to the distribution server 200.
  • the transmission unit 140 may transmit compressed data and reference data according to a preset network protocol.
  • RTMP Real Time Messaging Protocol
  • HTTP Hypertext Transfer Protocol
  • the distribution server 200 may include a receiving unit 210, a decoding unit 220, and a quality improving unit 230.
  • the receiving unit 210 may receive compressed data obtained by encoding the original content from the content generation terminal 100 and reference data extracted by sampling the original content. That is, the content generation terminal 100 may request content distribution to the distribution server 200 in order to distribute its original content, and in this case, the distribution server 200 may transmit the content generation terminal 100 through the receiving unit 210. ) Transmitted compressed data and reference data can be received. Depending on the embodiment, the content generation terminal 100 may request a live broadcast to the distribution server 200, and the distribution server 200 uses the compressed data and reference data transmitted from the content generation terminal 100 to live live in real time. Streaming can be performed.
  • the decoding unit 220 may generate decoded data by decoding the compressed data.
  • the decoding unit 220 may decode the compressed data using a codec used when encoding the compressed data.
  • the decoding unit 220 is a video codec such as MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE, MP3, AC3, AAC, OGG, WMA, FLAC. Audio codecs such as DTS can be used.
  • the quality improvement unit 230 may apply the decoded data and the reference data to the quality improvement model to generate output data with improved quality of the decoded data.
  • the quality improvement model may be previously learned based on deep learning, and using the quality improvement model, it is possible to estimate the original content corresponding to each of the decoded data from the decoded data and the reference data.
  • reference data sampled from the original content can be used, and the quality improvement model may be trained to generate output data having a quality corresponding to the original content by comparing the reference data and the decoded data. have.
  • the quality improvement unit 230 may generate output data by restoring the resolution of the original content by using the decoded data and reference data, and when the original content is an audio, the sound quality is restored. Data can be created.
  • a super resolution model for restoring resolution as a quality improvement model can be used, and in addition, various models can be used such as image enhancement models and sound quality improvement models.
  • FIG. 3 is a flowchart illustrating a method of transmitting content in a content generating terminal according to an embodiment of the present invention.
  • the content generating terminal may generate original content (S110). That is, a video or image may be captured using a camera or a microphone included in the content generating terminal, or original content may be generated by recording sound or the like.
  • the content generation terminal may generate compressed data by encoding the original content, and generate reference data by sampling the original content (S120). That is, the content generation terminal may generate compressed data and reference data corresponding to the original content in order to transmit the original content to the distribution server.
  • the content generation terminal may set the encoding quality according to the transmission speed of the transmission medium connected to the distribution server, and may generate compressed data by encoding the original content according to the encoding quality.
  • the content creation terminal is a video codec such as MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE, MP3, AC3, AAC, OGG, WMA, FLAC. Audio codecs such as DTS can be used.
  • the content generation terminal may generate reference data for the original content by sampling the original content every setting period or whenever a scene change occurs in the original content. That is, in order to perform quality improvement in the distribution server, reference data including information on the original content may be additionally generated.
  • the reference data may be a high-definition image of the original content or text information generated by voice recognition of the original content.
  • the original content is a video
  • a high-quality image captured from the original content may be used as reference data
  • text information extracted through voice recognition on the corresponding sound source may be used as reference data.
  • the reference data may further include a timestamp of when each reference data is generated.
  • the content server may generate reference data by capturing the video once every N seconds.
  • the reference data corresponds to a high-quality image
  • the capacity may be relatively large. Accordingly, the content server generates reference data once every N seconds, thereby reducing the required capacity and implementing quality improvement. For example, if the original content is a full-frame video of 640X360, the content server may generate an image having a resolution of 1920X1080 as reference data, one per 10 seconds.
  • the content server may generate reference data at this time to enable quality improvement corresponding to the changed scene.
  • the content generation terminal may transmit the generated compressed data and reference data to the distribution server (S130).
  • the content generation terminal may transmit compressed data and reference data according to a preset network protocol, and may utilize, for example, Real Time Messaging Protocol (RTMP) or Hypertext Transfer Protocol (HTTP).
  • RTMP Real Time Messaging Protocol
  • HTTP Hypertext Transfer Protocol
  • FIG. 4 is a flow chart showing a method for improving content quality in a distribution server according to an embodiment of the present invention.
  • the distribution server may receive compressed data encoding original content and reference data sampled original content from a content generation terminal (S210).
  • the content creation terminal can request distribution of the original content to the distribution server, and can transmit compressed data and reference data to be distributed to the distribution server.
  • the reference data includes information on the original content, it is possible to perform quality improvement by using it later.
  • the reference data may be a high-definition image of the original content or text information generated by voice recognition of the original content.
  • the original content is a video
  • a high-resolution image captured of the original content may be used as reference data.
  • text information extracted from the sound source through speech recognition may be used as reference data.
  • the reference data may be generated by sampling the original content at every setting period, and according to embodiments, it may be generated whenever a scene change occurs in the original content.
  • the distribution server may generate decoded data by decoding the compressed data (S220).
  • the distribution server can decode the compressed data by using the codec used when the content generation terminal encodes the compressed data.
  • the distribution server is MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE and other video codecs, MP3, AC3, AAC, OGG, WMA, FLAC. Audio codecs such as DTS can be used.
  • the distribution server may apply the decoded data and the reference data to the quality improvement model to generate output data with improved quality of the decoded data (S230).
  • the quality improvement model is pre-trained based on deep learning, and if the quality improvement model is used, it is possible to estimate the original content corresponding to each decoded data from the decoded data and the reference data. That is, it is possible to generate output data having a quality corresponding to the original content from the decoded data by using the partial reference data sampled from the original content rather than the entire original content.
  • a super resolution model for restoring resolution as a quality improvement model can be used, and in addition, image enhancement models and sound quality improvement models can be used.
  • FIG. 5 is a schematic diagram showing a content quality improvement system according to another embodiment of the present invention.
  • a content quality improvement system may include a client terminal 600 and a content server 700.
  • the client terminal 600 may display the content provided from the content server 700 or the like in a visual or audible manner and provide it to a user.
  • the content provided from the content server 700 may be a video, audio, or image, and according to an embodiment, streaming of a video on-demand (VOD) or live broadcasting provided by the content server 700 Can be printed in a way.
  • VOD video on-demand
  • the client terminal 600 may include a display unit for visually displaying contents, an input unit receiving user input, a communication unit for wired/wireless communication with the content server 700, and a memory in which at least one program is stored. And a processor.
  • the client terminal 600 is a mobile phone, a smart phone, a laptop computer, a desktop computer, a digital broadcasting terminal, a personal digital assistants (PDA), a portable multimedia player (PMP), and a slate.
  • PDA personal digital assistants
  • PMP portable multimedia player
  • slate a slate
  • PC slate PC
  • tablet PC tablet PC
  • ultrabook ultrabook
  • wearable device wearable device, e.g., smartwatch, glass type terminal (smart glass), HMD (head mounted display) ), etc.
  • the client terminal 600 may be connected to the content server 700 through a communication network, where the communication network may include a wired network and a wireless network. Specifically, it may include various networks such as a local area network (LAN), a metropolitan area network (MAN), and a wide area network (WAN), and may include a known World Wide Web (WWW: World). Wide Web).
  • LAN local area network
  • MAN metropolitan area network
  • WAN wide area network
  • WWW World Wide Web
  • the communication network according to the present invention is not limited to the networks listed above, and may include a known wireless data network, a known telephone network, a known wired or wireless television network, and the like.
  • the content server 700 may provide content requested by the client terminal 100, and according to an embodiment, the content server 700 may provide content in real time using streaming or the like.
  • the content server 700 may search for the corresponding content in the content server 700 or the original content database D, and retrieve the searched content through a communication network. It can be provided to the client terminal 600 through.
  • the content server 700 may provide contents such as live broadcasting provided by channels operated by various broadcasting institutions or individuals.
  • the original content database D may store various types of video, such as VOD, and may include various types of content such as sound sources, images, and games in addition to the video.
  • the content server 700 When the content server 700 transmits the original content to the client terminal 600, it may go through a transmission medium such as an optical cable or a coaxial cable of a communication network. At this time, quality such as resolution of contents transmitted to the client terminal 600 may be lowered due to a bandwidth (bandwith) of a transmission medium or a transmission rate (bit rate). For example, when the content server 700 streams a video and transmits the video to the client terminal 600, the content server 700 may encode the original content and generate the compressed data. At this time, since the content server 700 adjusts and encodes the quality of the video according to the transmission speed of the transmission medium, the client terminal 600 may receive compressed data encoded with different qualities according to the transmission speed of the transmission medium. .
  • the client terminal 600 may generate decoded data by decoding it, and in this case, the content of which the resolution is relatively low or the sound quality of the sound source is deteriorated compared to the original Can play.
  • the content server 700 refers to the compressed data together.
  • the quality of deteriorated content may be improved.
  • FIG. 6 is a block diagram showing a client terminal and a content server of a content quality improvement system according to an embodiment of the present invention.
  • a client terminal 600 may include a receiving unit 610, a decoding unit 620, and a quality improving unit 630.
  • the client terminal 600 may request the content server 700 to provide the original content.
  • the receiving unit 610 encodes the original content from the content server 700 and the compressed data from the original content.
  • the extracted reference data can be received.
  • the content server 700 may generate compressed data by limiting the quality when encoding the original content according to the bit rate of the transmission medium, and the receiving unit 610 is limited according to the transmission speed of the transmission medium. You can receive quality compressed data. In this case, when only the received compressed data is decoded and the content is reproduced, a problem such as a relatively low quality such as a resolution of the content may occur.
  • the receiving unit 610 may additionally receive reference data in addition to the compressed data. That is, reference data corresponding to metadata including information on the original content may be further provided from the content server 700, and quality improvement may be performed by using the reference data thereafter.
  • the reference data may be a high-definition image of the original content or text information generated by voice recognition of the original content.
  • the original content is a video
  • a high-quality image generated by capturing the original content may be used as reference data. That is, since the reference data includes high-definition image information corresponding to a specific frame included in the original content, the quality of frames before and after the special frame can be improved by utilizing this.
  • text information extracted from the sound source through speech recognition may be used as reference data. That is, when there is a problem with sound quality such as an incorrect voice in the compressed data of a sound source, it can be utilized for quality improvement, such as making the corresponding voice emit a sound corresponding to text information using text information.
  • the reference data may be generated by sampling the original content at every preset period, and according to embodiments, it may be generated whenever a scene change occurs in the original content.
  • the video may be captured once every N seconds to generate reference data. That is, it is possible to generate reference data by sampling the original content rather than the entire original content.
  • the reference data is a high-quality image, the capacity may be relatively large. Therefore, it is possible to implement quality improvement while reducing the required capacity by including reference data once every N seconds.
  • an image having a resolution of 1920X1080 may be generated as reference data, one image per 10 seconds.
  • the reference data may further include a time stamp at the time when each reference data is generated, along with a high-quality image.
  • the decoding unit 620 may generate decoded data by decoding the compressed data.
  • the decoding unit 620 may decode the compressed data using a codec used when encoding the compressed data.
  • the decoding unit 620 is a video codec such as MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE, MP3, AC3, AAC, OGG, WMA, FLAC. Audio codecs such as DTS can be used.
  • the quality improvement unit 630 may apply the decoded data and the reference data to the quality improvement model, and may generate output data with improved quality of the decoded data from the quality improvement model.
  • the quality improvement model may be previously learned based on deep learning, and using the quality improvement model, it is possible to estimate the original content corresponding to each of the decoded data from the decoded data and the reference data.
  • reference data sampled from the original content can be used, and the quality improvement model can be trained to generate output data having a quality corresponding to the original content by comparing the reference data and the decoded data. .
  • the quality improvement unit 630 may generate output data that restores the resolution of the original content by using the decoded data and reference data when the original content is a video, and when the original content is audio, the sound quality is restored. Data can be created.
  • a super resolution model for restoring resolution as a quality improvement model can be used, and in addition, various models can be used such as image enhancement models and sound quality improvement models.
  • a content server 700 may include an encoding unit 710, a reference data generation unit 720, and a transmission unit 730.
  • the content server 700 may receive a request for streaming of the original content from the client terminal 600, and in this case, the encoding unit 710 may encode the original content in response to the streaming request.
  • the encoding unit 710 may set the encoding quality according to the bit rate of the transmission medium connected to the client terminal 600, and may generate compressed data by encoding the original content according to the encoding quality.
  • the encoding unit 710 is a video codec such as MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE, MP3, AC3, AAC, OGG, WMA, FLAC. Audio codecs such as DTS can be used.
  • the reference data generator 720 may sample the original content at every preset period or sample whenever a scene change occurs in the original content to generate reference data for the original content.
  • the reference data may be a high-definition image of the original content or text information generated by voice recognition of the original content.
  • the original content is a video
  • a high-quality image captured of the original content may be used as reference data
  • text information extracted through voice recognition on the corresponding sound source may be used as reference data.
  • the reference data may further include a timestamp of a time point at which each reference data is generated, along with a high-quality image acquired through sampling.
  • the reference data generator 720 may generate reference data by capturing the video once every N seconds. For example, when the original content is a full-frame video of 640X360, the reference data generator 720 may generate an image having a resolution of 1920X1080 as reference data one by one every 10 seconds.
  • the reference data generator 720 may generate reference data each time a scene is changed to enable quality improvement corresponding to the changed scene.
  • the transmission unit 730 may transmit compressed data and reference data to the client terminal 600 through a transmission medium.
  • the transmission unit 730 may transmit compressed data and reference data according to a preset network protocol.
  • RTMP Real Time Messaging Protocol
  • HTTP Hypertext Transfer Protocol
  • FIG. 7 is a flow chart showing a method for improving content quality in a client terminal according to an embodiment of the present invention.
  • the client terminal may receive compressed data obtained by encoding original content from a content server and reference data extracted from the original content (S710).
  • the client terminal may request the content server to provide original content, and in this case, may receive compressed data and reference data from the content server.
  • the reference data includes information on the original content, it is possible to perform quality improvement by using it later.
  • the reference data may be a high-definition image of the original content or text information generated by voice recognition of the original content.
  • the original content is a video
  • a high-resolution image captured of the original content may be used as reference data.
  • text information extracted from the sound source through speech recognition may be used as reference data.
  • the reference data may be generated by sampling the original content at every preset period, and according to embodiments, it may be generated whenever a scene change occurs in the original content.
  • the client terminal may generate decoded data by decoding the compressed data (S720).
  • the client terminal may decode the compressed data using a codec used when the content server encodes the compressed data.
  • the client terminal is a video codec such as MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE, or MP3, AC3, AAC, OGG, WMA, FLAC. Audio codecs such as DTS can be used.
  • the client terminal may apply the decoded data and the reference data to the quality improvement model to generate output data with improved quality of the decoded data (S730).
  • the quality improvement model is pre-trained based on deep learning, and if the quality improvement model is used, it is possible to estimate the original content corresponding to each decoded data from the decoded data and the reference data. That is, it is possible to generate output data having a quality corresponding to the original content from the decoded data using the reference data sampled from the original content rather than the entire original content.
  • a super resolution model for restoring resolution as a quality improvement model can be used, and in addition, image enhancement models and sound quality improvement models can be used.
  • FIG. 8 is a flowchart illustrating a method of transmitting content in a content server according to an embodiment of the present invention.
  • the content server may receive a request for streaming of original content from a client terminal (S810).
  • the content server may search for the original content from the content server or the original content database.
  • the content server may set the encoding quality according to the bit rate of the transmission medium connected to the client terminal, and may generate compressed data by encoding the original content according to the encoding quality.
  • the encoding quality may be set according to the transmission speed of the transmission medium connected to the client terminal, and compressed data may be generated by encoding the original content according to the encoding quality.
  • the content server is a video codec such as MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE, MP3, AC3, AAC, OGG, WMA , FLAC. Audio codecs such as DTS can be used.
  • the content server may generate reference data for the original content by sampling the original content at every preset period or whenever a scene change occurs in the original content (S830). That is, the content server may additionally generate reference data including information on the original content so that the client terminal can perform quality improvement.
  • the reference data may be a high-definition image captured of the original content or text information generated by voice recognition of the original content.
  • the original content is a video
  • a high-quality image captured of the original content may be used as reference data
  • text information extracted through voice recognition on the corresponding sound source may be used as reference data.
  • the reference data may further include a timestamp of a time point at which each reference data is generated, along with a high-quality image obtained through sampling.
  • the content server may generate reference data by capturing the video once every N seconds.
  • the reference data corresponds to a high-quality image
  • the capacity may be relatively large. Accordingly, the content server generates reference data once every N seconds, thereby reducing the required capacity and implementing quality improvement. For example, if the original content is a full-frame video of 640X360, the content server may generate an image having a resolution of 1920X1080 as reference data, one per 10 seconds.
  • the content server may generate reference data at this time to enable quality improvement corresponding to the changed scene.
  • the content server may transmit the generated compressed data and reference data to the client terminal through a transmission medium (S840).
  • the content server may transmit compressed data and reference data according to a preset network protocol, and may utilize, for example, Real Time Messaging Protocol (RTMP) or Hypertext Transfer Protocol (HTTP).
  • RTMP Real Time Messaging Protocol
  • HTTP Hypertext Transfer Protocol
  • the above-described present invention can be implemented as a computer-readable code on a medium on which a program is recorded.
  • the computer-readable medium may be one that continuously stores a program executable by a computer, or temporarily stores a program for execution or download.
  • the medium may be a variety of recording means or storage means in a form in which a single piece of hardware or several pieces of hardware are combined.
  • the medium is not limited to a medium directly connected to a computer system, but may be distributed on a network.
  • Examples of media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical recording media such as CD-ROMs and DVDs, magnetic-optical media such as floptical disks, and And a ROM, RAM, flash memory, and the like, and may be configured to store program instructions.
  • examples of other media include an app store that distributes applications, a site that supplies or distributes various software, and a recording medium or storage medium managed by a server. Therefore, the detailed description above should not be construed as restrictive in all respects and should be considered as illustrative. The scope of the present invention should be determined by reasonable interpretation of the appended claims, and all changes within the equivalent scope of the present invention are included in the scope of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 출원은 컨텐츠전송방법 및 이를 이용한 컨텐츠 생성 단말에 관한 것으로서, 본 발명의 일 실시예에 의한 컨텐츠 생성단말의 컨텐츠 전송방법은, 상기 컨텐츠 생성단말이 원본 컨텐츠를 생성하는 단계; 상기 원본 컨텐츠를 인코딩(encoding)한 압축데이터와, 상기 원본 컨텐츠를 샘플링(sampling)한 참조데이터를 생성하는 단계; 및 상기 압축데이터 및 참조데이터를 배포서버로 전송하는 단계를 포함할 수 있다.

Description

컨텐츠전송방법 및 이를 이용한 컨텐츠 생성 단말
본 출원은 스트리밍을 통하여 제공받은 컨텐츠의 해상도 등 품질을 향상시킬 수 있는 컨텐츠전송방법 및 이를 이용한 컨텐츠 생성 단말에 관한 것이다.
스트리밍(streaming) 기술은 대용량의 비디오, 오디오 등과 같은 컨텐츠를 실시간으로 송신/수신하여 네트워크와 CPU 자원을 최적으로 사용하는 기술을 의미한다.
스트리밍 기술은 인터넷의 성장과 함께 더욱 더 중요해지고 있는데, 그 이유는 대부분의 사용자가 대용량 멀티미디어 파일들을 즉시 다운로드할 만큼 빠른 접속회선을 가지고 있지 못하기 때문이다.
일반적으로 컨텐츠 전체를 수신측에서 모두 다운로드 받은 후 컨텐츠 서비스(일례로, 비디오 컨텐츠의 재생 서비스)를 제공받는 방법은 사용자에게 긴 대기시간을 요구하지만, 스트리밍 기술을 이용하는 경우 컨텐츠 전체를 모두 다운로드 받기 전이라도 클라이언트 브라우저 또는 플러그인을 통해 현재의 재생 지점에 대한 데이터만을 다운로드 하여 컨텐츠 서비스를 실시간으로 제공할 수 있게 된다. 이와 같이, 스트리밍 서비스는 사용자가 컨텐츠를 선택하는 즉시 컨텐츠 서비스를 받을 수 있는 장점을 가진다.
본 출원은, 전송매체의 대역폭이나 전송속도 등에 의하여 제한되는 컨텐츠의 품질을 향상시킬 수 있는 컨텐츠전송방법 및 이를 이용한 컨텐츠 생성 단말을 제공하고자 한다.
본 출원은, 컨텐츠 생성단말이 인코딩된 압축데이터와 함께 참조데이터를 더 전송하도록 하여, 수신측에서의 컨텐츠 품질개선을 구현할 수 있는 컨텐츠전송방법 및 이를 이용한 컨텐츠 생성 단말을 제공하고자 한다.
본 출원은, 딥러닝 기반의 품질개선 모델을 이용하여 수신한 컨텐츠의 품질개선을 수행할 수 있는 컨텐츠전송방법 및 이를 이용한 컨텐츠 생성 단말을 제공하고자 한다.
본 발명의 일 실시예에 의한 컨텐츠 생성단말의 컨텐츠 전송방법은, 상기 컨텐츠 생성단말이 원본 컨텐츠를 생성하는 단계; 상기 원본 컨텐츠를 인코딩(encoding)한 압축데이터와, 상기 원본 컨텐츠를 샘플링(sampling)한 참조데이터를 생성하는 단계; 및 상기 압축데이터 및 참조데이터를 배포서버로 전송하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 의한 배포 서버의 컨텐츠품질개선방법은, 컨텐츠 생성단말로부터, 원본 컨텐츠를 인코딩(encoding)한 압축데이터와 상기 원본 컨텐츠를 샘플링(sampling)한 참조데이터를 수신하는 단계; 상기 압축데이터를 디코딩(decoding)하여 복호데이터를 생성하는 단계; 및 상기 복호데이터 및 참조데이터를 품질개선모델에 적용하여, 상기 복호데이터의 품질을 개선한 출력데이터를 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 의한 컨텐츠 생성단말은, 원본 컨텐츠를 생성하는 컨텐츠 생성부; 상기 원본 컨텐츠를 인코딩(encoding)하여 압축 데이터를 생성하는 인코딩부; 상기 원본 컨텐츠를 샘플링(sampling)하여 참조데이터를 생성하는 참조데이터생성부; 및 상기 압축데이터 및 참조데이터를 배포서버로 전송하는 전송부를 포함할 수 있다.
본 발명의 일 실시예에 의한 배포서버는, 컨텐츠 생성단말로부터, 원본 컨텐츠를 인코딩(encoding)한 압축데이터와 상기 원본 컨텐츠를 샘플링(sampling)하여 추출한 참조데이터를 수신하는 수신부; 상기 압축데이터를 디코딩(decoding)하여 복호데이터를 생성하는 디코딩부; 및 상기 복호데이터 및 참조데이터를 품질개선모델에 적용하여, 상기 복호데이터의 품질을 개선한 출력데이터를 생성하는 품질개선부를 포함할 수 있다.
본 발명의 다른 실시예에 의한 클라이언트 단말에서의 컨텐츠품질개선방법은, 컨텐츠 서버로부터, 원본 컨텐츠를 인코딩(encoding)한 압축데이터와 상기 원본 컨텐츠를 샘플링(sampling)한 참조데이터를 수신하는 단계; 상기 압축데이터를 디코딩(decoding)하여 복호데이터를 생성하는 단계; 및 상기 복호데이터 및 참조데이터를 품질개선모델에 적용하여, 상기 복호데이터의 품질을 개선한 출력데이터를 생성하는 단계를 포함할 수 있다.
본 발명의 다른 실시예에 의한 컨텐츠 서버의 컨텐츠 전송방법은, 클라이언트 단말로부터 원본 컨텐츠에 대한 스트리밍(streaming)을 요청받는 단계; 상기 클라이언트 단말과 연결된 전송매체의 전송속도(bit rate)에 따라 인코딩 품질을 설정하고, 상기 인코딩 품질에 따라 상기 원본 컨텐츠를 인코딩하여 압축데이터를 생성하는 단계; 상기 원본 컨텐츠를 기 설정된 주기마다 샘플링하거나, 상기 원본 컨텐츠 내의 장면변화(scene change)가 발생할 때마다 샘플링하여, 상기 원본 컨텐츠에 대한 참조데이터를 생성하는 단계; 및 상기 압축데이터 및 참조데이터를 상기 전송매체를 통하여 상기 클라이언트 단말로 전송하는 단계를 포함할 수 있다.
덧붙여 상기한 과제의 해결수단은, 본 발명의 특징을 모두 열거한 것이 아니다. 본 발명의 다양한 특징과 그에 따른 장점과 효과는 아래의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 의한 컨텐츠전송방법 및 이를 이용한 컨텐츠 생성 단말에 의하면, 컨텐츠 생성단말로부터 제한된 품질의 컨텐츠를 수신하는 경우에도, 배포서버 측에서 품질개선을 수행할 수 있으므로, 고품질의 컨텐츠를 사용자에게 제공하는 것이 가능하다.
본 발명의 일 실시예에 의한 컨텐츠전송방법 및 이를 이용한 컨텐츠 생성 단말에 의하면, 전체 원본 컨텐츠 대신에 원본 컨텐츠를 샘플링한 참조데이터를 이용하여 품질개선을 구현하는 것이 가능하다.
다만, 본 발명의 실시예들에 따른 컨텐츠전송방법 및 이를 이용한 컨텐츠 생성 단말이 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도1은 본 발명의 일 실시예에 의한 컨텐츠품질개선 시스템을 나타내는 개략도이다.
도2는 본 발명의 일 실시예에 의한 컨텐츠품질개선 시스템의 컨텐츠 생성단말 및 배포서버를 나타내는 블록도이다.
도3은 본 발명의 일 실시예에 의한 컨텐츠 생성단말의 컨텐츠전송방법을 나타내는 순서도이다.
도4는 본 발명의 일 실시예에 의한 배포서버의 컨텐츠품질개선방법을 나타내는 순서도이다.
도5는 본 발명의 다른 실시예에 의한 컨텐츠품질개선 시스템을 나타내는 개략도이다.
도6은 본 발명의 다른 실시예에 의한 컨텐츠품질개선 시스템의 클라이언트 단말 및 컨텐츠 서버를 나타내는 블록도이다.
도7은 본 발명의 다른 실시예에 의한 클라이언트 단말의 컨텐츠품질개선방법을 나타내는 순서도이다.
도8은 본 발명의 다른 실시예에 의한 컨텐츠 서버의 컨텐츠전송방법을 나타내는 순서도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 즉, 본 발명에서 사용되는 '부'라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '부'는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부'들로 결합되거나 추가적인 구성요소들과 '부'들로 더 분리될 수 있다.
또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
도1은 본 발명의 일 실시예에 의한 컨텐츠품질개선시스템을 나타내는 개략도이다.
도1을 참조하면 본 발명의 일 실시예에 의한 컨텐츠품질개선시스템은, 컨텐츠 생성단말(100), 배포서버(200) 및 컨텐츠 수신단말(300)를 포함할 수 있다.
이하 도1을 참조하여 본 발명의 일 실시예에 의한 컨텐츠품질개선시스템을 설명한다.
컨텐츠 생성단말(100)은 사용자의 조작에 따라 원본 컨텐츠를 생성할 수 있으며, 생성한 원본 컨텐츠들은 배포서버(200)를 통하여 복수의 컨텐츠 수신단말(300)들로 배포할 수 있다.
예를들어, 사용자는 컨텐츠 생성단말(100)에 구비된 카메라 및 마이크를 이용하여 직접 동영상, 이미지를 촬영하거나, 음향 등을 녹음하여 원본 컨텐츠를 생성할 수 있으며, 실시예에 따라서는 별도의 캠코더나 카메라, 녹음기 등을 활용하여 원본 컨텐츠들을 생성한 후, 컨텐츠 생성단말(100) 내에 저장하는 것도 가능하다. 이후 컨텐츠 생성단말(100)은 생성한 원본 컨텐츠에 대한 편집이나 수정 등을 지원할 수 있다.
컨텐츠 생성단말(100)은 생성한 원본 컨텐츠를 통신 네트워크를 통하여 배포서버(200)로 공급할 수 있으며, 이때 컨텐츠 생성단말(100)은 원본 컨텐츠에 대응하는 비디오 신호, 오디오 신호 등의 멀티미디어 신호를 인코딩하여 멀티미디어 스트림으로 변환시킬 수 있다.
여기서, 인코딩된 멀티미디어 스트림은 표준 영상 전송 프로토콜인 실시간 스트리밍 프로토콜(Real Time Streaming Protocol: RTSP, RFC 2326에 규약됨), 실시간 전송 프로토콜(Realtime Transport Protocol: RTP), 리얼 타임 메시징 프로토콜(Real Time Messaging Protocol: RTMP) 등을 통하여 배포 서버(200)로 전송될 수 있다.
컨텐츠 생성단말(100)은 생성한 원본 컨텐츠들을 시각적으로 표시하기 위한 디스플레이부를 포함할 수 있으며, 사용자의 입력을 인가받는 입력부, 배포 서버(200)와의 유/무선 통신을 위한 통신부, 적어도 하나의 프로그램이 저장되는 메모리 및 프로세서를 포함할 수 있다.
또한, 컨텐츠 생성단말(100)은 휴대폰, 스마트 폰(Smart phone), 노트북 컴퓨터(laptop computer), 데스크탑 컴퓨터(desktop computer), 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 단말기(smartwatch), 글래스형 단말기 (smart glass), HMD(head mounted display)) 등일 수 있다.
컨텐츠 생성단말(100)은 배포서버(200)와 통신 네트워크를 통하여 연결될 수 있으며, 여기서 통신 네트워크는 유선 네트워크와 무선 네트워크를 포함할 수 있다. 구체적으로, 근거리 네트워크(LAN: Local Area Network), 도시권 네트워크(MAN: Metropolitan Area Network), 광역 네트워크(WAN: Wide Area Network) 등 다양한 네트워크를 포함할 수 있으며, 공지의 월드와이드웹(WWW: World Wide Web)을 포함할 수도 있다. 다만, 본 발명에 따른 통신 네트워크는 상기 열거된 네트워크에 국한되지 않으며, 공지의 무선 데이터 네트워크, 공지의 전화 네트워크, 공지의 유선 또는 무선 텔레비전 네트워크 등을 포함할 수 있다.
컨텐츠 수신단말(300)은 배포서버(200) 등으로부터 제공받은 컨텐츠를 시각이나 청각 등으로 표시하여 사용자에게 제공할 수 있다. 컨텐츠 수신단말(300)은 컨텐츠들을 시각적으로 표시하기 위한 디스플레이부를 포함할 수 있으며, 사용자의 입력을 인가받는 입력부, 컨텐츠 서버(200)와의 유/무선 통신을 위한 통신부, 적어도 하나의 프로그램이 저장되는 메모리 및 프로세서를 포함할 수 있다. 예를들어, 컨텐츠 수신단말(300)은 스마트 폰이나 태블릿 PC 등일 수 있으며, 상술한 컨텐츠 생성단말(100)과 같은 종류의 휴대용 기기 또는 고정형 기기일 수 있다. 또한, 컨텐츠 수신단말(300)은 배포서버(200)와 통신 네트워크를 통하여 연결될 수 있으며, 여기서 통신 네트워크는 유선 네트워크와 무선 네트워크를 포함할 수 있다.
배포서버(200)는 컨텐츠 생성단말(100)로부터 컨텐츠를 수신할 수 있으며, 수신한 컨텐츠를 복수의 컨텐츠 수신단말(300)들에게 배포할 수 있다. 여기서, 배포서버(200)는 컨텐츠 생성단말(100)로부터 수신한 컨텐츠에 대한 품질개선을 수행한 후 배포할 수 있다.
구체적으로, 컨텐츠 생성단말(100)이 원본 컨텐츠를 배포서버(200)로 전송하는 경우, 통신 네트워크 내의 광케이블이나 동축케이블 등 전송매체를 거칠 수 있다. 이때, 전송매체의 대역폭(bandwith)이나 전송속도(bit rate) 등에 의하여, 컨텐츠 생성단말(100)이 배포서버(200)로 전송하는 원본 컨텐츠들의 해상도나 음질 등이 제한될 수 있다. 즉, 컨텐츠 생성단말(100)은 원본 컨텐츠를 인코딩할 때, 전송매체의 전송속도 등에 따라 품질을 조절하여 인코딩할 수 있으며, 이에 따라 배포서버(200)는 각각 다른 품질로 인코딩된 압축데이터를 제공받을 수 있다. 따라서, 배포서버(200)는 컨텐츠 생성단말(100)로부터 낮은 품질의 압축데이터를 수신할 수 있으며, 이를 디코딩하여 복호데이터를 생성할 수 있다. 이 경우 원본컨텐츠와 비교하여 상대적으로 해상도가 떨어지거나 음원의 음질이 열화된 컨텐츠를 제공받을 수 있다.
다만, 배포서버(200)는 각각의 컨텐츠 수신단말(300)들에게 고품질의 컨텐츠를 제공할 필요가 있으므로, 컨텐츠 생성단말(100)로부터 수신한 컨텐츠의 품질을 향상시킬 필요가 있다. 여기서, 본 발명의 일 실시예에 의한 컨텐츠품질개선시스템에 의하면, 컨텐츠 생성단말(100)이 압축데이터와 함께 고품질의 참조데이터를 추가로 배포 서버(200)로 제공함으로써 열화된 컨텐츠의 품질을 개선하도록 하는 것이 가능하다.
이하 본 발명의 일 실시예에 의한 컨텐츠 생성단말(100) 및 배포 서버(200)에 대해 구체적으로 설명한다.
도2는 본 발명의 일 실시예에 의한 컨텐츠품질개선 시스템의 컨텐츠 생성 단말 및 배포 서버를 나타내는 블록도이다.
도2를 참조하면, 본 발명의 일 실시예에 의한 컨텐츠 생성단말(100)은 컨텐츠생성부(110), 인코딩부(120), 참조데이터생성부(130) 및 전송부(140)를 포함할 수 있다.
컨텐츠 생성부(110)는 원본 컨텐츠를 생성할 수 있다. 즉, 컨텐츠 생성부(110)는 컨텐츠 생성단말(100) 내에 포함된 카메라, 마이크 등을 이용하여 동영상이나 이미지를 촬영하거나, 음향 등을 녹음하여 원본 컨텐츠를 생성할 수 있다. 예를들어, 연예인 등 유명인이 자신의 스마트 폰 등을 이용하여 자신의 일상을 동영상으로 촬영하는 등의 방식으로 원본 컨텐츠를 생성할 수 있다.
인코딩부(120)는 원본 컨텐츠를 인코딩하여 압축데이터를 생성할 수 있다. 여기서, 인코딩부(120)는 배포서버(200)와 연결된 전송매체의 전송속도(bit rate)에 따라 인코딩 품질을 설정할 수 있으며, 인코딩 품질에 따라 원본 컨텐츠를 인코딩할 수 있다. 여기서, 인코딩부(120)는 MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE 등의 동영상 코덱(codec)이나, MP3, AC3, AAC, OGG, WMA, FLAC. DTS 등의 오디오 코덱 등을 활용할 수 있다.
참조데이터생성부(130)는 원본 컨텐츠를 샘플링하여 참조데이터를 생성할 수 있다. 인코딩부(120)는 전송매체의 전송속도에 따라 인코딩시 품질을 제한하여 압축데이터를 생성하므로, 배포서버(200)는 전송매체의 전송속도에 따라 제한된 품질의 압축데이터를 수신할 수 있다. 이 경우, 수신한 압축데이터만을 복호화하여 컨텐츠를 재생하면 컨텐츠의 해상도 등 품질이 상대적으로 낮아지는 등의 문제가 발생할 수 있다.
이를 해결하기 위하여, 참조데이터생성부(130)는 압축데이터 이외에 참조데이터를 추가로 생성할 수 있다. 즉, 원본 컨텐츠의 정보를 포함하는 메타데이터인 참조데이터를 배포서버(200)로 더 제공할 수 있으며, 이후 참조데이터를 활용하여 품질개선을 수행하도록 할 수 있다.
구체적으로, 참조데이터는 원본 컨텐츠를 캡쳐한 고화질의 이미지이거나, 원본 컨텐츠를 음성인식하여 생성한 텍스트정보일 수 있다. 먼저, 원본 컨텐츠가 동영상인 경우에는, 원본 컨텐츠를 캡처하여 생성한 고화질의 이미지를 참조데이터로 활용할 수 있다. 즉, 참조데이터에는 원본 컨텐츠에 포함된 특정 프레임에 대응하는 고화질 이미지 정보가 포함되므로, 이를 활용하여 특 프레임의 전후 프레임들의 품질을 개선하는 것이 가능하다.
또한, 원본 컨텐츠가 음원 등인 경우에는 해당 음원에 음성인식을 통해 추출한 텍스트정보를 참조데이터로 활용할 수 있다. 즉, 음원의 압축데이터에서 음성이 부정확하게 등 음질에 문제가 있는 경우에는, 텍스트 정보를 이용하여 해당 음성이 텍스트 정보에 대응하는 소리를 내도록 하는 등 품질개선을 위해 활용할 수 있다.
한편, 참조데이터생성부(130)는 원본 컨텐츠를 설정주기마다 샘플링하여 참조데이터를 생성할 수 있으며, 실시예에 따라서는 원본 컨텐츠 내의 장면변화(scene change)가 발생할 때마다 생성하는 것도 가능하다.
예를들어, 원본 컨텐츠가 동영상인 경우, 동영상을 N 초마다 한번씩 캡쳐하여 참조데이터를 생성하도록 할 수 있다. 즉, 원본 컨텐츠 전체가 아니라 원본 컨텐츠를 샘플링한 참조데이터를 품질개선에 활용하도록 할 수 있다. 여기서, 참조데이터는 고화질의 이미지이므로 상대적으로 용량이 클 수 있다. 따라서, 참조데이터를 N초마다 한번씩 포함하도록 하여, 전송하는 용량은 줄이면서도 품질개선이 가능하도록 구현할 수 있다. 실시예에 따라서는, 640X360의 풀프레임 동영상에 대해, 10초에 1장씩 1920X1080 해상도의 이미지를 참조데이터로 생성할 수 있다.
또한, 동영상인 원본 컨텐츠의 경우, 동영상 내의 유사한 장면이 일정시간 동안 유지된 후 장면이 전환되는 경우가 다수 존재할 수 있다. 여기서, 장면전환시 급격한 변화가 발생하므로, 이때 참조데이터를 생성하여 전환된 장면에 대응한 품질개선이 가능하도록 할 수 있다.
추가적으로, 참조데이터생성부(130)는 각각의 참조데이터를 생성한 시점의 타임스탬프(time stamp)를 더 포함하여 참조데이터를 생성할 수 있다.
전송부(140)는 압축데이터 및 참조데이터를 배포서버(200)로 전송할 수 있다. 여기서, 전송부(140)는 미리 설정된 네트워크 프로토콜에 따라 압축데이터 및 참조데이터를 전송할 수 있다. 예를들어, RTMP(Real Time Messaging Protocol), HTTP(Hypertext Transfer Protocol) 등을 활용할 수 있다.
한편, 도2를 참조하면, 본 발명의 일 실시예에 의한 배포서버(200)는 수신부(210), 디코딩부(220) 및 품질개선부(230)를 포함할 수 있다.
수신부(210)는 컨텐츠 생성단말(100)로부터 원본 컨텐츠를 인코딩한 압축데이터와, 원본 컨텐츠를 샘플링하여 추출한 참조데이터를 수신할 수 있다. 즉, 컨텐츠 생성단말(100)은 자신의 원본 컨텐츠를 배포하기 위하여, 배포서버(200)로 컨텐츠 배포를 요청할 수 있으며, 이 경우 배포서버(200)는 수신부(210)를 통하여 컨텐츠 생성단말(100)이 전송하는 압축데이터 및 참조데이터를 수신할 수 있다. 실시예에 따라서는 컨텐츠 생성단말(100)이 배포서버(200)로 라이브 방송을 요청할 수 있으며, 배포서버(200)는 컨텐츠 생성단말(100)이 전송하는 압축데이터 및 참조데이터를 이용하여 실시간 라이브 스트리밍을 수행할 수 있다.
디코딩부(220)는 압축데이터를 디코딩하여 복호데이터를 생성할 수 있다. 디코딩부(220)는 압축데이터의 인코딩시 활용한 코덱을 이용하여 압축데이터를 디코딩할 수 있다. 여기서 디코팅부(220)는 MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE 등의 동영상 코덱(codec)이나, MP3, AC3, AAC, OGG, WMA, FLAC. DTS 등의 오디오 코덱 등을 활용할 수 있다.
품질개선부(230)는 복호데이터 및 참조데이터를 품질개선모델에 적용하여, 복호데이터의 품질을 개선한 출력데이터를 생성할 수 있다. 여기서 품질개선모델은 딥러닝(deep learning)을 기반으로 미리 학습된 것일 수 있으며, 품질개선모델을 이용하면 복호데이터와 참조데이터로부터 각각의 복호데이터에 대응하는 원본 컨텐츠의 추정하는 것이 가능하다.
즉, 전체 원본 컨텐츠를 대신하여, 원본 컨텐츠에서 샘플링한 참조데이터를 활용할 수 있으며, 품질개선모델은 참조데이터와 복호데이터를 비교하여 원본 컨텐츠에 대응하는 품질을 가지는 출력데이터를 생성하도록 학습되어 있을 수 있다.
여기서, 품질개선부(230)는 원본 컨텐츠가 동영상인 경우 복호데이터와 참조데이터를 이용하여 원본 컨텐츠의 해상도를 복원한 출력데이터를 생성할 수 있으며, 원본 컨텐츠가 오디오인 경우에는 음질을 복원한 출력데이터를 생성할 수 있다.
실시예에 따라서는, 품질개선모델로 해상도 복원을 위한 초해상도 영상복원 모델(super resolution model), 동영상의 동작범위(dynamic range) 확장을 위한 SDR-HDR(Standard Dynamic Range-High Dynamic Range) 영상 변환 모델을 활용할 수 있으며, 이외에도, 영상개선(Image enhancement) 모델, 음질개선모델 등을 다양한 모델들을 활용할 수 있다.
도3은 본 발명의 일 실시예에 의한 컨텐츠 생성 단말에서의 컨텐츠전송방법을 나타내는 순서도이다.
도3을 참조하면, 컨텐츠 생성단말은 원본 컨텐츠를 생성할 수 있다(S110). 즉, 컨텐츠 생성단말 내에 포함된 카메라, 마이크 등을 이용하여 동영상이나 이미지를 촬영하거나, 음향 등을 녹음하여 원본 컨텐츠를 생성할 수 있다.
이후, 컨텐츠 생성단말은 원본 컨텐츠를 인코딩하여 압축데이터를 생성하고, 원본 컨텐츠를 샘플링하여 참조데이터를 생성할 수 있다(S120). 즉, 컨텐츠 생성단말은 배포서버로 원본 컨텐츠를 전송하기 위하여, 원본 컨텐츠에 대응하는 압축데이터와 참조데이터를 생성할 수 있다.
여기서, 컨텐츠 생성단말은 배포서버와 연결된 전송매체의 전송속도에 따라 인코딩 품질을 설정할 수 있으며, 인코딩 품질에 따라 원본 컨텐츠를 인코딩하여 압축데이터를 생성할 수 있다. 여기서, 컨텐츠 생성단말은 MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE 등의 동영상 코덱(codec)이나, MP3, AC3, AAC, OGG, WMA, FLAC. DTS 등의 오디오 코덱 등을 활용할 수 있다.
또한, 컨텐츠 생성단말은 원본 컨텐츠를 설정주기마다 샘플링하거나, 원본 컨텐츠 내의 장면변화가 발생할 때마다 샘플링하여, 원본 컨텐츠에 대한 참조데이터를 생성할 수 있다. 즉, 배포서버에서 품질개선을 수행할 수 있도록, 원본 컨텐츠에 대한 정보를 포함하는 참조데이터를 추가로 생성할 수 있다.
구체적으로, 참조데이터는 원본 컨텐츠를 캡쳐한 고화질의 이미지이거나, 원본 컨텐츠를 음성인식하여 생성한 텍스트정보일 수 있다. 여기서, 원본 컨텐츠가 동영상인 경우에는 원본 컨텐츠를 캡처한 고화질의 이미지를 참조데이터로 활용하고, 원본 컨텐츠가 음원 등인 경우에는 해당 음원에 음성인식을 통해 추출한 텍스트정보를 참조데이터로 활용할 수 있다. 이때, 참조데이터는 각각의 참조데이터를 생성한 시점의 타임스탬프를 더 포함할 수 있다.
한편, 원본 컨텐츠가 동영상인 경우, 컨텐츠 서버는 동영상을 N 초마다 한번씩 캡쳐하여 참조데이터를 생성할 수 있다. 이때 참조데이터는 고화질의 이미지에 해당하므로 상대적으로 용량이 많을 수 있다. 따라서, 컨텐츠 서버는 참조데이터를 N초마다 한번씩 생성하여, 필요한 용량은 줄이면서도 품질개선을 구현하도록 할 수 있다. 예를들어, 원본 컨텐츠가 640X360의 풀프레임 동영상인 경우, 컨텐츠 서버는 10초에 1장씩 1920X1080 해상도의 이미지를 참조데이터로 생성하도록 할 수 있다.
또한, 동영상 내에는 유사한 장면이 일정시간 동안 유지된 후, 장면이 전환되는 등의 경우가 다수 존재할 수 있다. 여기서, 장면전환시 급격한 변화가 발생하므로, 컨텐츠 서버는 이때 참조데이터를 생성하여 전환된 장면에 대응한 품질개선이 가능하도록 할 수 있다.
이후, 컨텐츠 생성단말은 생성한 압축데이터 및 참조데이터를 배포서버로 전송할 수 있다(S130). 여기서, 컨텐츠 생성단말은 미리 설정된 네트워크 프로토콜에 따라 압축데이터 및 참조데이터를 전송할 수 있으며, 예를들어, RTMP(Real Time Messaging Protocol), HTTP(Hypertext Transfer Protocol) 등을 활용할 수 있다.
도4는 본 발명의 일 실시예에 의한 배포서버에서의 컨텐츠품질개선방법을 나타내는 순서도이다.
도4를 참조하면, 배포서버는 컨텐츠 생성단말로부터 원본 컨텐츠를 인코딩한 압축데이터와 원본 컨텐츠를 샘플링한 참조데이터를 수신할 수 있다(S210). 컨텐츠 생성단말은 배포서버로 원본 컨텐츠의 배포를 요청할 수 있으며, 배포하고자 하는 압축데이터와 참조데이터를 배포서버로 전송할 수 있다. 여기서, 참조데이터는 원본 컨텐츠의 정보를 포함하므로, 이후 이를 활용하여 품질개선을 수행하는 것이 가능하다.
구체적으로, 참조데이터는 원본 컨텐츠를 캡쳐한 고화질의 이미지이거나, 원본 컨텐츠를 음성인식하여 생성한 텍스트정보일 수 있다. 원본 컨텐츠가 동영상인 경우에는, 원본 컨텐츠의 캡처한 고화질의 이미지를 참조데이터로 활용할 수 있다. 또한, 원본 컨텐츠가 음원 등인 경우에는 해당 음원에 음성인식을 통해 추출한 텍스트정보를 참조데이터로 활용할 수 있다.
한편, 참조데이터는 원본 컨텐츠를 설정주기마다 샘플링하여 생성한 것일 수 있으며, 실시예에 따라서는 원본 컨텐츠 내의 장면변화(scene change)가 발생할 때마다 생성하는 것도 가능하다.
이후, 배포서버는 압축데이터를 디코딩(decoding)하여 복호데이터를 생성할 수 있다(S220). 배포서버는 컨텐츠 생성단말이 압축데이터를 인코딩할 때 활용한 코덱을 이용하여, 압축데이터를 디코딩할 수 있다. 여기서 배포서버는 MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE 등의 동영상 코덱이나, MP3, AC3, AAC, OGG, WMA, FLAC. DTS 등의 오디오 코덱 등을 활용할 수 있다.
디코딩이 완료되면, 배포서버는 복호데이터 및 참조데이터를 품질개선모델에 적용하여, 복호데이터의 품질을 개선한 출력데이터를 생성할 수 있다(S230). 여기서 품질개선모델은 딥러닝(deep learning)을 기반으로 미리 학습된 것으로, 품질개선모델을 이용하면, 복호데이터와 참조데이터로부터 각각의 복호데이터에 대응하는 원본 컨텐츠의 추정하는 것이 가능하다. 즉, 전체 원본 컨텐츠가 아니라 원본 컨텐츠에서 샘플링한 일부 참조데이터를 이용하여, 복호데이터로부터 원본 컨텐츠에 대응하는 품질을 가지는 출력데이터를 생성할 수 있다.
실시예에 따라서는, 품질개선모델로 해상도 복원을 위한 초해상도 영상복원 모델(super resolution model), 동영상의 동작범위(dynamic range) 확장을 위한 SDR-HDR(Standard Dynamic Range-High Dynamic Range) 영상 변환 모델 등을 활용할 수 있으며, 이외에도 영상개선(Image enhancement) 모델, 음질개선모델 등을 활용할 수 있다.
도5는 본 발명의 다른 실시예에 의한 컨텐츠품질개선시스템을 나타내는 개략도이다.
도5를 참조하면 본 발명의 다른 실시예에 의한 컨텐츠품질개선시스템은, 클라이언트 단말(600) 및 컨텐츠서버(700)를 포함할 수 있다.
이하 도5를 참조하여 본 발명의 일 실시예에 의한 컨텐츠품질개선시스템을 설명한다.
클라이언트 단말(600)은 컨텐츠 서버(700) 등으로부터 제공받은 컨텐츠를 시각이나 청각 등으로 표시하여 사용자에게 제공할 수 있다. 여기서, 컨텐츠 서버(700)로부터 제공받는 컨텐츠는 동영상이나 오디오, 이미지 등일 수 있으며, 실시예에 따라서는 컨텐츠 서버(700)가 제공하는 VOD(Video On-demand)나 라이브 방송 등을 스트리밍(streaming) 방식으로 출력할 수 있다.
클라이언트 단말(600)은 컨텐츠들을 시각적으로 표시하기 위한 디스플레이부를 포함할 수 있으며, 사용자의 입력을 인가받는 입력부, 컨텐츠 서버(700)와의 유/무선 통신을 위한 통신부, 적어도 하나의 프로그램이 저장되는 메모리 및 프로세서를 포함할 수 있다.
여기서, 클라이언트 단말(600)은 휴대폰, 스마트 폰(Smart phone), 노트북 컴퓨터(laptop computer), 데스크탑 컴퓨터(desktop computer), 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 단말기(smartwatch), 글래스형 단말기 (smart glass), HMD(head mounted display)) 등일 수 있다.
클라이언트 단말(600)은 컨텐츠 서버(700)와 통신 네트워크를 통하여 연결될 수 있으며, 여기서 통신 네트워크는 유선 네트워크와 무선 네트워크를 포함할 수 있다. 구체적으로, 근거리 네트워크(LAN: Local Area Network), 도시권 네트워크(MAN: Metropolitan Area Network), 광역 네트워크(WAN: Wide Area Network) 등 다양한 네트워크를 포함할 수 있으며, 공지의 월드와이드웹(WWW: World Wide Web)을 포함할 수도 있다. 다만, 본 발명에 따른 통신 네트워크는 상기 열거된 네트워크에 국한되지 않으며, 공지의 무선 데이터 네트워크, 공지의 전화 네트워크, 공지의 유선 또는 무선 텔레비전 네트워크 등을 포함할 수 있다.
컨텐츠서버(700)는 클라이언트 단말(100)이 요청하는 컨텐츠를 제공할 수 있으며, 실시예에 따라서는 스트리밍(streaming) 등을 이용하여 컨텐츠를 실시간으로 제공할 수 있다.
컨텐츠 서버(700)는, 클라이언트 단말(600)로부터 특정한 컨텐츠에 대한 요청이 입력되면, 해당하는 컨텐츠를 컨텐츠 서버(700) 또는 원본 컨텐츠 데이터베이스(D)에서 검색할 수 있으며, 검색된 컨텐츠를 통신 네트워크를 통하여 클라이언트 단말(600)에 제공할 수 있다. 여기서, 컨텐츠 서버(700)가 다양한 방송기관이나 개인 등이 운영하는 채널에서 제공하는 라이브 방송 등의 컨텐츠를 제공하는 것도 가능하다.
원본 컨텐츠 데이터베이스(D)에는 다양한 종류의 VOD 등 동영상이 저장되어 있을 수 있으며, 동영상 이외에 음원이나 이미지, 게임 등 다양한 종류의 컨텐츠들도 포함할 수 있다.
컨텐츠서버(700)가 원본 컨텐츠를 클라이언트 단말(600)로 전송하는 경우, 통신 네트워크의 광케이블이나 동축케이블 등의 전송매체를 거칠 수 있다. 이때, 전송매체의 대역폭(bandwith)이나 전송속도(bit rate) 등에 의하여 클라이언트 단말(600)로 전송되는 컨텐츠들의 해상도 등 품질은 낮아질 수 있다. 예를들어, 컨텐츠서버(700)가 동영상을 스트리밍하여 클라이언트 단말(600)로 전송하는 경우, 컨텐츠서버(700)는 원본 컨텐츠를 인코딩하여 압축데이터 형태로 생성할 수 있다. 이때, 컨텐츠서버(700)는 전송매체의 전송속도에 따라 동영상의 품질을 조절하여 인코딩하므로, 클라이언트 단말(600)은 전송매체의 전송속도 등에 따라 각각 다른 품질로 인코딩된 압축데이터를 제공받을 수 있다.
즉, 클라이언트 단말(600)은 낮은 품질의 압축데이터를 수신한 후, 이를 디코딩하여 복호데이터를 생성할 수 있으며, 이 경우 원본컨텐츠와 비교하여 상대적으로 해상도가 떨어지거나 음원의 음질이 열화된 컨텐츠를 재생할 수 있다.
여기서, 클라이언트 단말(600)에서 실행하는 컨텐츠의 품질을 향상하기 위한 다양한 방안들이 제시되고 있으며, 본 발명의 일 실시예에 의한 컨텐츠품질개선시스템에 의하면, 컨텐츠서버(700)가 압축데이터와 함께 참조데이터를 추가로 클라이언트 단말(600)에게 제공함으로써 열화된 컨텐츠의 품질을 개선하도록 할 수 있다. 이하, 본 발명의 일 실시예에 의한 클라이언트 단말(600) 및 컨텐츠 서버(700)를 각각 설명한다.
도6은 본 발명의 일 실시예에 의한 컨텐츠품질개선 시스템의 클라이언트 단말 및 컨텐츠 서버를 나타내는 블록도이다.
도6을 참조하면, 본 발명의 일 실시예에 의한 클라이언트 단말(600)은 수신부(610), 디코딩부(620) 및 품질개선부(630)를 포함할 수 있다.
클라이언트 단말(600)은 컨텐츠 서버(700)로 원본 컨텐츠에 대한 제공을 요청할 수 있으며, 이 경우 수신부(610)는 컨텐츠 서버(700)로부터 원본 컨텐츠를 인코딩(encoding)한 압축데이터와, 원본 컨텐츠로부터 추출한 참조데이터를 수신할 수 있다.
여기서, 컨텐츠 서버(700)는 전송매체의 전송속도(bit rate)에 따라 원본 컨텐츠에 대한 인코딩시 품질을 제한하여 압축데이터를 생성할 수 있으며, 수신부(610)는 전송매체의 전송속도에 따라 제한된 품질의 압축데이터를 수신할 수 있다. 이 경우, 수신한 압축데이터만을 복호화하여 컨텐츠를 재생하면 컨텐츠의 해상도 등 품질이 상대적으로 낮아지는 등의 문제가 발생할 수 있다.
이를 해결하기 위하여, 수신부(610)는 압축데이터 이외에 참조데이터를 추가로 수신할 수 있다. 즉, 원본 컨텐츠의 정보를 포함하는 메타데이터에 해당하는 참조데이터를 컨텐츠서버(700)로부터 더 제공받을 수 있으며, 이후 참조데이터를 활용하여 품질개선을 수행할 수 있다.
구체적으로, 참조데이터는 원본 컨텐츠를 캡쳐한 고화질의 이미지이거나, 원본 컨텐츠를 음성인식하여 생성한 텍스트정보일 수 있다. 먼저, 원본 컨텐츠가 동영상인 경우에는, 원본 컨텐츠를 캡처하여 생성한 고화질의 이미지를 참조데이터로 활용할 수 있다. 즉, 참조데이터에는 원본 컨텐츠에 포함된 특정 프레임에 대응하는 고화질 이미지 정보가 포함되므로, 이를 활용하여 특 프레임의 전후 프레임들의 품질을 개선하도록 할 수 있다.
또한, 원본 컨텐츠가 음원 등인 경우에는 해당 음원에 음성인식을 통해 추출한 텍스트정보를 참조데이터로 활용할 수 있다. 즉, 음원의 압축데이터에서 음성이 부정확하게 등 음질에 문제가 있는 경우에는, 텍스트 정보를 이용하여 해당 음성이 텍스트 정보에 대응하는 소리를 내도록 하는 등 품질개선을 위해 활용할 수 있다.
한편, 참조데이터는 원본 컨텐츠를 기 설정된 주기마다 샘플링하여 생성한 것일 수 있으며, 실시예에 따라서는 원본 컨텐츠 내의 장면변화(scene change)가 발생할 때마다 생성하는 것도 가능하다.
예를들어, 원본 컨텐츠가 동영상인 경우, 동영상을 N 초마다 한번씩 캡쳐하여 참조데이터를 생성하도록 할 수 있다. 즉, 원본 컨텐츠 전체가 아니라 원본 컨텐츠를 샘플링하여 참조데이터를 생성할 수 있다. 여기서, 참조데이터는 고화질의 이미지이므로 상대적으로 용량이 클 수 있다. 따라서, 참조데이터를 N초마다 한번씩 포함하여 필요한 용량은 줄이면서도 품질개선을 구현하도록 할 수 있다. 실시예에 따라서는, 640X360의 풀프레임 동영상에 대해, 10초에 1장씩 1920X1080 해상도의 이미지를 참조데이터로 생성하도록 할 수 있다.
또한, 동영상인 원본 컨텐츠의 경우, 동영상 내의 유사한 장면이 일정시간 동안 유지된 후 장면이 전환되는 경우가 다수 존재할 수 있다. 여기서, 장면전환시 급격한 변화가 발생하므로, 이때 참조데이터를 생성하여 전환된 장면에 대응한 품질개선이 가능하도록 할 수 있다.
추가적으로, 참조데이터에는 고화질의 이미지 등과 함께, 각각의 참조데이터를 생성한 시점의 타임스탬프(time stamp)가 더 포함될 수 있다.
디코딩부(620)는 압축데이터를 디코딩(decoding)하여 복호데이터를 생성할 수 있다. 디코딩부(620)는 압축데이터의 인코딩시 활용한 코덱을 이용하여 압축데이터를 디코딩할 수 있다. 여기서 디코팅부(620)는 MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE 등의 동영상 코덱(codec)이나, MP3, AC3, AAC, OGG, WMA, FLAC. DTS 등의 오디오 코덱 등을 활용할 수 있다.
품질개선부(630)는 복호데이터 및 참조데이터를 품질개선모델에 적용할 수 있으며, 품질개선모델로부터 복호데이터의 품질을 개선한 출력데이터를 생성할 수 있다. 여기서 품질개선모델은 딥러닝(deep learning)을 기반으로 미리 학습된 것일 수 있으며, 품질개선모델을 이용하면 복호데이터와 참조데이터로부터 각각의 복호데이터에 대응하는 원본 컨텐츠의 추정하는 것이 가능하다.
즉, 전체 원본 컨텐츠를 대신하여, 원본 컨텐츠에서 샘플링한 참조데이터를 활용할 수 있으며, 품질개선모델이 참조데이터와 복호데이터를 비교하여 원본 컨텐츠에 대응하는 품질을 가지는 출력데이터를 생성하도록 학습시킬 수 있다.
여기서, 품질개선부(630)는 원본 컨텐츠가 동영상인 경우 복호데이터와 참조데이터를 이용하여 원본 컨텐츠의 해상도를 복원한 출력데이터를 생성할 수 있으며, 원본 컨텐츠가 오디오인 경우에는 음질을 복원한 출력데이터를 생성할 수 있다.
실시예에 따라서는, 품질개선모델로 해상도 복원을 위한 초해상도 영상복원 모델(super resolution model), 동영상의 동작범위(dynamic range) 확장을 위한 SDR-HDR(Standard Dynamic Range-High Dynamic Range) 영상 변환 모델을 활용할 수 있으며, 이외에도, 영상개선(Image enhancement) 모델, 음질개선모델 등을 다양한 모델들을 활용할 수 있다.
한편, 도6을 참조하면, 본 발명의 일 실시예에 의한 컨텐츠 서버(700)는 인코딩부(710), 참조데이터생성부(720) 및 전송부(730)를 포함할 수 있다.
컨텐츠 서버(700)는 클라이언트 단말(600)로부터 원본 컨텐츠에 대한 스트리밍(streaming)을 요청받을 수 있으며, 이 경우 인코딩부(710)는 스트리밍 요청에 대응하여 원본 콘텐츠를 인코딩할 수 있다.
구체적으로, 인코딩부(710)는 클라이언트 단말(600)과 연결된 전송매체의 전송속도(bit rate)에 따라 인코딩 품질을 설정할 수 있으며, 인코딩 품질에 따라 원본 컨텐츠를 인코딩하여 압축데이터를 생성할 수 있다. 여기서, 인코딩부(710)는 MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE 등의 동영상 코덱(codec)이나, MP3, AC3, AAC, OGG, WMA, FLAC. DTS 등의 오디오 코덱 등을 활용할 수 있다.
또한, 참조데이터생성부(720)는 원본 컨텐츠를 기 설정된 주기마다 샘플링하거나, 원본 컨텐츠 내의 장면변화(scene change)가 발생할 때마다 샘플링하여, 원본 컨텐츠에 대한 참조데이터를 생성할 수 있다.
구체적으로, 참조데이터는 원본 컨텐츠를 캡쳐한 고화질의 이미지이거나, 원본 컨텐츠를 음성인식하여 생성한 텍스트정보일 수 있다. 여기서, 원본 컨텐츠가 동영상인 경우에는 원본 컨텐츠의 캡처한 고화질의 이미지를 참조데이터로 활용하고, 원본 컨텐츠가 음원 등인 경우에는 해당 음원에 음성인식을 통해 추출한 텍스트정보를 참조데이터로 활용할 수 있다. 또한, 참조데이터는 샘플링을 통해 획득한 고화질의 이미지 등과 함께, 각각의 참조데이터를 생성한 시점의 타임스탬프를 더 포함할 수 있다.
한편, 원본 컨텐츠가 동영상인 경우, 참조데이터생성부(720)는 동영상을 N 초마다 한번씩 캡쳐하여 참조데이터를 생성할 수 있다. 예를들어, 원본 컨텐츠가 640X360의 풀프레임 동영상인 경우, 참조데이터생성부(720)는 10초에 1장씩 1920X1080 해상도의 이미지를 참조데이터로 생성하도록 할 수 있다.
또한, 동영상 내에는 유사한 장면이 일정시간 동안 유지된 후, 장면이 전환되는 등의 경우가 다수 존재할 수 있다. 여기서, 장면전환시 급격한 변화가 발생하므로, 참조데이터생성부(720)는 장면전환시마다 참조데이터를 생성하여 전환된 장면에 대응한 품질개선이 가능하도록 할 수 있다.
전송부(730)는 압축데이터 및 참조데이터를 전송매체를 통하여 클라이언트 단말(600)로 전송할 수 있다. 여기서, 전송부(730)는 미리 설정된 네트워크 프로토콜에 따라 압축데이터 및 참조데이터를 전송할 수 있다. 예를들어, RTMP(Real Time Messaging Protocol), HTTP(Hypertext Transfer Protocol) 등을 활용할 수 있다.
도7은 본 발명의 일 실시예에 의한 클라이언트 단말에서의 컨텐츠품질개선방법을 나타내는 순서도이다.
도7을 참조하면, 클라이언트 단말은 컨텐츠 서버로부터 원본 컨텐츠를 인코딩(encoding)한 압축데이터와, 원본 컨텐츠로부터 추출한 참조데이터를 수신할 수 있다(S710). 클라이언트 단말은 컨텐츠 서버로 원본 컨텐츠에 대한 제공을 요청할 수 있으며, 이 경우 압축데이터와 참조데이터를 컨텐츠 서버로부터 수신할 수 있다. 여기서, 참조데이터는 원본 컨텐츠의 정보를 포함하므로, 이후 이를 활용하여 품질개선을 수행하는 것이 가능하다.
구체적으로, 참조데이터는 원본 컨텐츠를 캡쳐한 고화질의 이미지이거나, 원본 컨텐츠를 음성인식하여 생성한 텍스트정보일 수 있다. 원본 컨텐츠가 동영상인 경우에는, 원본 컨텐츠의 캡처한 고화질의 이미지를 참조데이터로 활용할 수 있다. 또한, 원본 컨텐츠가 음원 등인 경우에는 해당 음원에 음성인식을 통해 추출한 텍스트정보를 참조데이터로 활용할 수 있다.
한편, 참조데이터는 원본 컨텐츠를 기 설정된 주기마다 샘플링하여 생성한 것일 수 있으며, 실시예에 따라서는 원본 컨텐츠 내의 장면변화(scene change)가 발생할 때마다 생성하는 것도 가능하다.
이후, 클라이언트 단말은 압축데이터를 디코딩(decoding)하여 복호데이터를 생성할 수 있다(S720). 클라이언트 단말은 컨텐츠 서버가 압축데이터를 인코딩할 때 활용한 코덱을 이용하여, 압축데이터를 디코딩할 수 있다. 여기서 클라이언트 단말은 MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE 등의 동영상 코덱이나, MP3, AC3, AAC, OGG, WMA, FLAC. DTS 등의 오디오 코덱 등을 활용할 수 있다.
디코딩이 완료되면, 클라이언트 단말은 복호데이터 및 참조데이터를 품질개선모델에 적용하여, 복호데이터의 품질을 개선한 출력데이터를 생성할 수 있다(S730). 여기서 품질개선모델은 딥러닝(deep learning)을 기반으로 미리 학습된 것으로, 품질개선모델을 이용하면, 복호데이터와 참조데이터로부터 각각의 복호데이터에 대응하는 원본 컨텐츠의 추정하는 것이 가능하다. 즉, 전체 원본 컨텐츠가 아니라 원본 컨텐츠에서 샘플링한 참조데이터를 이용하여, 복호데이터로부터 원본 컨텐츠에 대응하는 품질을 가지는 출력데이터를 생성할 수 있다.
실시예에 따라서는, 품질개선모델로 해상도 복원을 위한 초해상도 영상복원 모델(super resolution model), 동영상의 동작범위(dynamic range) 확장을 위한 SDR-HDR(Standard Dynamic Range-High Dynamic Range) 영상 변환 모델 등을 활용할 수 있으며, 이외에도 영상개선(Image enhancement) 모델, 음질개선모델 등을 활용할 수 있다.
도8은 본 발명의 일 실시예에 의한 컨텐츠서버에서의 컨텐츠전송방법을 나타내는 순서도이다.
도8을 참조하면, 컨텐츠 서버는 클라이언트 단말로부터 원본 컨텐츠에 대한 스트리밍(streaming)을 요청받을 수 있다(S810). 이 경우 컨텐츠 서버는 원본 컨텐츠를 컨텐츠 서버 또는 원본 컨텐츠 데이터베이스에서 검색할 수 있다.
이후, 요청받은 원본 컨텐츠가 검색되면, 컨텐츠 서버는 클라이언트 단말과 연결된 전송매체의 전송속도(bit rate)에 따라 인코딩 품질을 설정하고, 인코딩 품질에 따라 원본 컨텐츠를 인코딩하여 압축데이터를 생성할 수 있다(S820). 구체적으로, 클라이언트 단말과 연결된 전송매체의 전송속도에 따라 인코딩 품질을 설정할 수 있으며, 인코딩 품질에 따라 원본 컨텐츠를 인코딩하여 압축데이터를 생성할 수 있다. 여기서, 컨텐츠서버는 MPEG, Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak, MOV, ASF, RA, XDM, RLE 등의 동영상 코덱(codec)이나, MP3, AC3, AAC, OGG, WMA, FLAC. DTS 등의 오디오 코덱 등을 활용할 수 있다.
또한, 컨텐츠 서버는, 원본 컨텐츠를 기 설정된 주기마다 샘플링하거나, 원본 컨텐츠 내의 장면변화(scene change)가 발생할 때마다 샘플링하여, 원본 컨텐츠에 대한 참조데이터를 생성할 수 있다(S830). 즉, 클라이언트 단말에서 품질개선을 수행할 수 있도록, 컨텐츠 서버는 원본 컨텐츠에 대한 정보를 포함하는 참조데이터를 추가로 생성할 수 있다.
구체적으로, 참조데이터는 원본 컨텐츠를 캡쳐한 고화질의 이미지이거나, 원본 컨텐츠를 음성인식하여 생성한 텍스트정보일 수 있다. 여기서, 원본 컨텐츠가 동영상인 경우에는 원본 컨텐츠의 캡처한 고화질의 이미지를 참조데이터로 활용하고, 원본 컨텐츠가 음원 등인 경우에는 해당 음원에 음성인식을 통해 추출한 텍스트정보를 참조데이터로 활용할 수 있다. 이때, 참조데이터는 샘플링을 통해 획득한 고화질의 이미지 등과 함께, 각각의 참조데이터를 생성한 시점의 타임스탬프를 더 포함할 수 있다.
한편, 원본 컨텐츠가 동영상인 경우, 컨텐츠 서버는 동영상을 N 초마다 한번씩 캡쳐하여 참조데이터를 생성할 수 있다. 이때 참조데이터는 고화질의 이미지에 해당하므로 상대적으로 용량이 많을 수 있다. 따라서, 컨텐츠 서버는 참조데이터를 N초마다 한번씩 생성하여, 필요한 용량은 줄이면서도 품질개선을 구현하도록 할 수 있다. 예를들어, 원본 컨텐츠가 640X360의 풀프레임 동영상인 경우, 컨텐츠 서버는 10초에 1장씩 1920X1080 해상도의 이미지를 참조데이터로 생성하도록 할 수 있다.
또한, 동영상 내에는 유사한 장면이 일정시간 동안 유지된 후, 장면이 전환되는 등의 경우가 다수 존재할 수 있다. 여기서, 장면전환시 급격한 변화가 발생하므로, 컨텐츠 서버는 이때 참조데이터를 생성하여 전환된 장면에 대응한 품질개선이 가능하도록 할 수 있다.
이후, 컨텐츠 서버는 생성한 압축데이터 및 참조데이터를 전송매체를 통하여 클라이언트 단말로 전송할 수 있다(S840). 여기서, 컨텐츠 서버는 미리 설정된 네트워크 프로토콜에 따라 압축데이터 및 참조데이터를 전송할 수 있으며, 예를들어, RTMP(Real Time Messaging Protocol), HTTP(Hypertext Transfer Protocol) 등을 활용할 수 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명에 따른 구성요소를 치환, 변형 및 변경할 수 있다는 것이 명백할 것이다.

Claims (12)

  1. 컨텐츠 생성단말의 컨텐츠 전송방법에 있어서,
    상기 컨텐츠 생성단말이 원본 컨텐츠를 생성하는 단계;
    상기 원본 컨텐츠를 인코딩(encoding)한 압축데이터와, 상기 원본 컨텐츠를 샘플링(sampling)한 참조데이터를 생성하는 단계; 및
    상기 압축데이터 및 참조데이터를 배포서버로 전송하는 단계를 포함하는 컨텐츠전송방법.
  2. 제1항에 있어서, 상기 원본 컨텐츠는
    상기 컨텐츠 생성단말이 실시간으로 생성하는 라이브 방송 컨텐츠 또는 상기 컨텐츠 생성단말 내에 저장된 녹화 방송 컨텐츠를 포함하는 것을 특징으로 하는 컨텐츠전송방법.
  3. 제1항에 있어서, 상기 생성하는 단계는
    상기 컨텐츠 생성단말과 상기 배포서버 사이의 전송매체의 전송속도(bit rate)에 따라, 제한된 품질의 압축데이터를 생성하는 것을 특징으로 하는 컨텐츠전송방법.
  4. 제1항에 있어서, 상기 참조데이터는
    상기 원본 컨텐츠를 캡쳐(capture)하여 생성한 원본 해상도의 참조 이미지 또는 상기 원본 컨텐츠를 음성인식하여 생성한 참조 텍스트인 것을 특징으로 하는 컨텐츠전송방법.
  5. 제1항에 있어서, 상기 참조데이터는
    상기 원본 컨텐츠를 설정주기마다 샘플링하여 생성하거나, 상기 원본 컨텐츠 내의 장면변화(scene change)가 발생할 때마다 생성하는 것을 특징으로 하는 컨텐츠전송방법.
  6. 배포 서버의 컨텐츠품질개선방법에 있어서,
    컨텐츠 생성단말로부터, 원본 컨텐츠를 인코딩(encoding)한 압축데이터와 상기 원본 컨텐츠를 샘플링(sampling)한 참조데이터를 수신하는 단계;
    상기 압축데이터를 디코딩(decoding)하여 복호데이터를 생성하는 단계; 및
    상기 복호데이터 및 참조데이터를 품질개선모델에 적용하여, 상기 복호데이터의 품질을 개선한 출력데이터를 생성하는 단계를 포함하는 컨텐츠품질개선방법.
  7. 제6항에 있어서, 상기 품질개선모델은
    딥러닝(deep learning)을 기반으로 학습된 것으로, 상기 참조데이터를 이용하여 상기 복호데이터를 상기 원본 컨텐츠의 해상도 또는 음질을 가지는 출력데이터로 복원하는 것을 특징으로 하는 컨텐츠품질개선방법.
  8. 제6항에 있어서, 상기 품질개선모델은
    초해상도 영상복원 모델(super resolution model), SDR-HDR(Standard Dynamic Range-High Dynamic Range) 영상 변환 모델, 영상개선(Image enhancement) 모델 및 음질개선모델 중 어느 하나인 것을 특징으로 하는 컨텐츠품질개선방법.
  9. 원본 컨텐츠를 생성하는 컨텐츠 생성부;
    상기 원본 컨텐츠를 인코딩(encoding)하여 압축 데이터를 생성하는 인코딩부;
    상기 원본 컨텐츠를 샘플링(sampling)하여 참조데이터를 생성하는 참조데이터생성부; 및
    상기 압축데이터 및 참조데이터를 배포서버로 전송하는 전송부를 포함하는 컨텐츠 생성단말.
  10. 컨텐츠 생성단말로부터, 원본 컨텐츠를 인코딩(encoding)한 압축데이터와 상기 원본 컨텐츠를 샘플링(sampling)하여 추출한 참조데이터를 수신하는 수신부;
    상기 압축데이터를 디코딩(decoding)하여 복호데이터를 생성하는 디코딩부; 및
    상기 복호데이터 및 참조데이터를 품질개선모델에 적용하여, 상기 복호데이터의 품질을 개선한 출력데이터를 생성하는 품질개선부를 포함하는 배포서버.
  11. 클라이언트 단말에서의 컨텐츠품질개선방법에 있어서,
    컨텐츠 서버로부터, 원본 컨텐츠를 인코딩(encoding)한 압축데이터와 상기 원본 컨텐츠를 샘플링(sampling)한 참조데이터를 수신하는 단계;
    상기 압축데이터를 디코딩(decoding)하여 복호데이터를 생성하는 단계; 및
    상기 복호데이터 및 참조데이터를 품질개선모델에 적용하여, 상기 복호데이터의 품질을 개선한 출력데이터를 생성하는 단계를 포함하는 컨텐츠품질개선방법.
  12. 컨텐츠 서버의 컨텐츠 전송방법에 있어서,
    클라이언트 단말로부터 원본 컨텐츠에 대한 스트리밍(streaming)을 요청받는 단계;
    상기 클라이언트 단말과 연결된 전송매체의 전송속도(bit rate)에 따라 인코딩 품질을 설정하고, 상기 인코딩 품질에 따라 상기 원본 컨텐츠를 인코딩하여 압축데이터를 생성하는 단계;
    상기 원본 컨텐츠를 기 설정된 주기마다 샘플링하거나, 상기 원본 컨텐츠 내의 장면변화(scene change)가 발생할 때마다 샘플링하여, 상기 원본 컨텐츠에 대한 참조데이터를 생성하는 단계; 및
    상기 압축데이터 및 참조데이터를 상기 전송매체를 통하여 상기 클라이언트 단말로 전송하는 단계를 포함하는 컨텐츠 서버의 컨텐츠전송방법.
PCT/KR2020/010356 2019-08-19 2020-08-05 컨텐츠전송방법 및 이를 이용한 컨텐츠 생성 단말 WO2021033964A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0100758 2019-08-19
KR1020190100758A KR102248097B1 (ko) 2019-08-19 2019-08-19 컨텐츠전송방법 및 이를 이용한 컨텐츠 생성 단말

Publications (1)

Publication Number Publication Date
WO2021033964A1 true WO2021033964A1 (ko) 2021-02-25

Family

ID=74660316

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/010356 WO2021033964A1 (ko) 2019-08-19 2020-08-05 컨텐츠전송방법 및 이를 이용한 컨텐츠 생성 단말

Country Status (2)

Country Link
KR (1) KR102248097B1 (ko)
WO (1) WO2021033964A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11606605B1 (en) * 2021-09-30 2023-03-14 Samsung Electronics Co., Ltd. Standard dynamic range (SDR) / hybrid log-gamma (HLG) with high dynamic range (HDR) 10+
KR102573201B1 (ko) * 2022-08-19 2023-09-01 (주)에이아이매틱스 이미지 재건 기술 기반 영상 통신 비용 절감 시스템 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7792190B2 (en) * 2004-09-09 2010-09-07 Media Tek Singapore Pte Ltd. Inserting a high resolution still image into a lower resolution video stream
JP2010259025A (ja) * 2009-04-28 2010-11-11 Fujitsu Ltd 画像符号化装置、画像符号化方法および画像符号化プログラム
JP2012235407A (ja) * 2011-05-09 2012-11-29 Sony Corp 画像処理装置および画像処理方法
KR20130089029A (ko) * 2012-02-01 2013-08-09 김남리 이중 영상압축 이미지 추적 장치
US20170347061A1 (en) * 2015-02-19 2017-11-30 Magic Pony Technology Limited Machine Learning for Visual Processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7792190B2 (en) * 2004-09-09 2010-09-07 Media Tek Singapore Pte Ltd. Inserting a high resolution still image into a lower resolution video stream
JP2010259025A (ja) * 2009-04-28 2010-11-11 Fujitsu Ltd 画像符号化装置、画像符号化方法および画像符号化プログラム
JP2012235407A (ja) * 2011-05-09 2012-11-29 Sony Corp 画像処理装置および画像処理方法
KR20130089029A (ko) * 2012-02-01 2013-08-09 김남리 이중 영상압축 이미지 추적 장치
US20170347061A1 (en) * 2015-02-19 2017-11-30 Magic Pony Technology Limited Machine Learning for Visual Processing

Also Published As

Publication number Publication date
KR20210021630A (ko) 2021-03-02
KR102248097B1 (ko) 2021-05-06

Similar Documents

Publication Publication Date Title
US20170311006A1 (en) Method, system and server for live streaming audio-video file
WO2021033964A1 (ko) 컨텐츠전송방법 및 이를 이용한 컨텐츠 생성 단말
WO2011059274A2 (en) Adaptive streaming method and apparatus
EP2666288A2 (en) Apparatus and method for storing and playing content in a multimedia streaming system
US9282291B2 (en) Audio video recording device
WO2013077525A1 (ko) 제어 방법 및 그를 이용한 장치
WO2016010229A1 (ko) 스트리밍 서비스를 위한 클라이언트 및 서버의 동작 방법
WO2012138183A2 (en) Apparatus and method for providing content using a network condition-based adaptive data streaming service
EP2543192A2 (en) Apparatus and method for recording and playing a media file, and a recording medium therefor
WO2013172636A1 (en) Display apparatus, server, and controlling method thereof
WO2016129981A1 (ko) 미디어 데이터를 송수신하는 방법 및 장치
WO2018131806A1 (en) Electronic apparatus and method of operating the same
KR20080086262A (ko) 디지털 콘텐츠 공유를 위한 방법 및 장치, 그리고 디지털콘텐츠 공유 시스템
WO2012176979A1 (ko) 고화질 비디오 스트리밍 서비스 방법 및 시스템
WO2018088784A1 (en) Electronic apparatus and operating method thereof
WO2016056804A1 (en) Content processing apparatus and content processing method thereof
WO2016061887A1 (zh) 一种视频转换方法、装置、播放系统及终端
WO2015046724A1 (en) Image display apparatus, server for synchronizing contents, and method for operating the server
WO2012144795A2 (en) Apparatus for outputting broadcast recorded by schedule recording and control method thereof
WO2020149607A1 (en) Display apparatus and control method thereof
WO2022055198A1 (ko) 다중 라이브 송출 환경에서의 채널 간 고속 전환 모드를 구현하는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
WO2022012521A1 (zh) 一种增加字幕和/或音频的方法及系统
WO2019004498A1 (ko) 다채널 영상 생성 방법, 다채널 영상 재생 방법 및 다채널 영상 재생 프로그램
WO2018155910A1 (ko) 중계 방송을 지원하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체
WO2017092670A1 (zh) 一种录制多媒体异地同步播放的方法及相关装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20854608

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20854608

Country of ref document: EP

Kind code of ref document: A1