WO2024010208A1 - Ai 부호화/복호화를 이용하여 영상을 처리하는 전자 장치 및 그 제어 방법 - Google Patents

Ai 부호화/복호화를 이용하여 영상을 처리하는 전자 장치 및 그 제어 방법 Download PDF

Info

Publication number
WO2024010208A1
WO2024010208A1 PCT/KR2023/006654 KR2023006654W WO2024010208A1 WO 2024010208 A1 WO2024010208 A1 WO 2024010208A1 KR 2023006654 W KR2023006654 W KR 2023006654W WO 2024010208 A1 WO2024010208 A1 WO 2024010208A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
information
residual
neural network
network model
Prior art date
Application number
PCT/KR2023/006654
Other languages
English (en)
French (fr)
Inventor
유기원
지금란
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2024010208A1 publication Critical patent/WO2024010208A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component

Definitions

  • This disclosure relates to an electronic device and a control method thereof, and more specifically, to an electronic device that processes images using AI encoding/decoding and a control method thereof.
  • the streaming method is a method in which the server transmits media in real time and the terminal receives the media and plays it in real time.
  • the quality of the media is adaptively changed and transmitted based on the network connection status between the server and the terminal and the terminal specifications. For example, when the network connection becomes unstable and the available bandwidth becomes low, the quality is lowered, and when the connection becomes stable and sufficient bandwidth is guaranteed, the video quality is increased to perform the service.
  • an AI system is a computer system that implements human-level intelligence, and unlike existing rule-based systems, machines can learn and make decisions on their own to improve their capabilities.
  • AI systems based on deep neural networks (DNN) are spreading across all fields, greatly overwhelming the performance of existing rule-based systems.
  • DNN deep neural networks
  • An electronic device that processes an image using AI encoding according to an embodiment to achieve the above object is based on a memory storing a learned first neural network model, a communication interface, and a first image including pixel information.
  • Obtain a second image including luminance information input the second image into the first neural network model to obtain a first residual image including luminance residual information, and obtain pixel residual information based on the first residual image.
  • Obtaining a second residual image including, obtaining an AI-encoded image based on the first image and the second residual image, and encoding the AI-encoded image to obtain a compressed image to an external device through the communication interface
  • It may include one or more processors that transmit to .
  • the one or more processors identify operation setting information of the first neural network model based on at least one of image size information, network state information, and codec type information of the second image, and the identified The second image may be input to the first neural network model to which motion setting information is applied.
  • the operation setting information may include at least one of information on the number of layers of the first neural network model, information on the number of channels for each layer, filter size information, stride information, pooling information, or parameter information. .
  • the one or more processors identify operation setting information of the first neural network model based on image size information of the second image, network status information, codec type information, and AI decoding information of the external device. can do.
  • the AI decoding information of the external device may include operation setting information of a second neural network model used for AI decoding in the external device.
  • the first neural network model may be learned in connection with operation setting information of the second neural network model.
  • the one or more processors acquire a third image by downscaling the first image, and obtain the AI encoded image based on the third image and the second residual image. You can.
  • the first neural network model is a model learned to perform downsampling of an image through AI encoding
  • the one or more processors input the second image to the first neural network model.
  • the AI encoded image can be obtained by adding the pixel value and the pixel value included in the second residual image.
  • An electronic device that processes an image using AI decoding includes a memory storing a learned second neural network model, a communication interface, and receiving compressed video and AI encoding information through the communication interface, and receiving the compressed video and AI encoding information.
  • a fourth image including pixel information is obtained by decoding, a fifth image including luminance information is obtained based on the fourth image, and the fifth image is converted into a second image identified based on the AI encoding information.
  • the one or more processors identify operation setting information of the second neural network model based on the AI encoding information, and transmit the fifth image to the second neural network model to which the identified operation setting information is applied. You can enter .
  • the operation setting information may include at least one of information on the number of layers of the second neural network model, information on the number of channels for each layer, filter size information, stride information, pooling information, or parameter information.
  • the one or more processors acquire a sixth image by upscaling the fourth image, and obtain the AI decoded image based on the sixth image and the fourth residual image. You can.
  • the second neural network model may be a model learned to perform upsampling of an image through AI decoding.
  • the one or more processors input the fifth image into the second neural network model, obtain the upsampled third residual image through AI decoding, and generate pixel residual information based on the third residual image.
  • the AI-encoded image may be obtained by acquiring the fourth residual image including the pixel value and adding the pixel value included in the fourth residual image to the pixel value included in the sixth image.
  • a method of controlling an electronic device that processes an image using AI encoding includes obtaining a second image including luminance information based on a first image including pixel information, the second image inputting to the learned first neural network model to obtain a first residual image including luminance residual information, obtaining a second residual image including pixel residual information based on the first residual image, It includes obtaining an AI-encoded image based on the first image and the second residual image, and transmitting the compressed image obtained by encoding the AI-encoded image to an external device.
  • a method of controlling an electronic device that processes an image using AI decoding includes receiving a compressed image and AI encoding information, decoding the compressed image to obtain a fourth image including pixel information.
  • a non-transitory computer-readable medium storing computer instructions that, when executed by a processor of an electronic device, cause the electronic device to perform an operation
  • the operation may include: Obtaining a second image including luminance information based on, Inputting the second image into a learned first neural network model to obtain a first residual image including luminance residual information, The first residual image Obtaining a second residual image including pixel residual information based on, Obtaining an AI encoded image based on the first image and the second residual image, and Compression obtained by encoding the AI encoded image It includes transmitting the video to an external device.
  • a non-transitory computer-readable medium storing computer instructions that, when executed by a processor of an electronic device, cause the electronic device to perform an operation, wherein the operation includes receiving compressed video and AI-encoded information.
  • a step of decoding the compressed image to obtain a fourth image including pixel information, obtaining a fifth image including luminance information based on the fourth image, AI encoding the fifth image Obtaining a third residual image including luminance residual information by inputting it to a second neural network model identified based on the information, obtaining a fourth residual image including pixel residual information based on the third residual image. And, it includes obtaining an AI decoded image based on the fourth image and the fourth residual image.
  • Figure 1 is a diagram for explaining an image processing method according to AI encoding/decoding according to an embodiment.
  • Figure 2 is a block diagram showing the configuration of an electronic device according to an embodiment.
  • Figure 3 shows an example of operation setting information of an AI codec DNN according to an embodiment.
  • FIG. 4 is a flowchart for explaining the operation of a first electronic device according to an embodiment.
  • FIG. 5 is a flowchart for explaining the operation of a first electronic device according to an embodiment.
  • Figures 6 and 7 are diagrams for explaining in detail a method of generating an AI encoded image according to an embodiment.
  • Figure 8 is a block diagram showing the configuration of an electronic device according to an embodiment.
  • FIG. 9 is a flowchart for explaining the operation of a second electronic device according to an embodiment.
  • FIG. 10 is a flowchart explaining the operation of a second electronic device according to an embodiment.
  • Figure 11 is a diagram for explaining in detail a method of generating an AI encoded image according to an embodiment.
  • a “module” or “unit” performs at least one function or operation, and may be implemented as hardware or software, or as a combination of hardware and software. Additionally, a plurality of “modules” or a plurality of “units” may be integrated into at least one module and implemented with one or more processors (not shown), except for “modules” or “units” that need to be implemented with specific hardware. You can.
  • Figure 1 is a diagram for explaining an image processing method according to AI encoding/decoding according to an embodiment.
  • video coding technology and Up/Down Scaling technology that can reduce network required bandwidth are important.
  • standard codecs such as H.264/265, VP8/9, and AV1 are widely used, and OTT companies compress and service 4K video up to about 15 Mbps based on H.265.
  • video resolution and transmission rates must be compressed in various combinations.
  • the technology used in this case is Up/Down Scaling technology.
  • the transmitting terminal 100 AI-codes the video 10 (e.g., down-scaling the resolution to 4K) to produce the AI-encoded video 20.
  • the AI encoded image 20 can be video encoded.
  • the transmitting terminal 100 can transmit the compressed video and AI encoding information compressed through video encoding to the receiving terminal 200 through the communication unit.
  • the receiving terminal 200 video encodes the compressed video to obtain a restored image 30, and AI decodes the restored video 30 (for example, the resolution is set to 8K). Up-scaling) can be used to obtain the AI decoded image (40).
  • up/down scaling a simple interpolation method such as Bi-Linear or Bi-Cubic is sometimes used, but recently, the quality of experience for consumers has been further improved by up/down scaling using a neural network model. In particular, this method has the advantage of being easily compatible with any compression codec used, and can be easily extended by applying to the currently widely used H.265/VP9 standard codec.
  • the neural network model used for AI encoding and decoding for example, the DNN model, is determined based on video resolution, network status, and codec type, and at this time, both the server and TV process AI calculations using high-performance processors or hardware acceleration. It can support maximum performance and can use external power, so power consumption is not a big problem.
  • the neural network model used for AI encoding and decoding has a processing structure for images in a color gamut separated into luminance/chrominance channels such as YUV.
  • a DNN model is applied to all channels, performance may be good, but there is a problem in that it is not cost-effective.
  • a DNN model when applying a DNN model to a specific color channel (e.g., G), only that channel is emphasized, which may cause side effects and reduce the overall enhancement effect.
  • a specific color channel e.g., G
  • Figure 2 is a block diagram showing the configuration of an electronic device according to an embodiment.
  • the electronic device 100 includes a memory 110, a communication interface 120, and a processor 130.
  • the electronic device 100 (hereinafter referred to as the first electronic device) includes a TV, a smart phone, a tablet PC, a laptop PC, a console, a set-top, a monitor, a PC, a camera, and a camcorder.
  • the first electronic device 100 functions as the transmitting terminal 100 of FIG. 1 and can AI-encode an image and transmit it to an external device, that is, the receiving terminal 200 of FIG. 2.
  • the memory 110 is electrically connected to the processor 130 and can store data necessary for various embodiments of the present disclosure.
  • the memory 110 may be implemented as a memory embedded in the first electronic device 100 or as a memory detachable from the first electronic device 100, depending on the data storage purpose. For example, in the case of data for driving the first electronic device 100, it is stored in the memory embedded in the first electronic device 100, and in the case of data for the extended function of the first electronic device 100, it is stored in the first electronic device 100. It may be stored in a memory that is removable from the electronic device 100.
  • volatile memory e.g., dynamic RAM (DRAM), static RAM (SRAM), or synchronous dynamic RAM (SDRAM), etc.
  • non-volatile memory e.g. one time programmable ROM (OTPROM), programmable ROM (PROM), erasable and programmable ROM (EPROM), electrically erasable and programmable ROM (EEPROM), mask ROM, flash ROM, flash memory (e.g. NAND flash or NOR flash, etc.), a hard drive, or a solid state drive (SSD).
  • OTPROM one time programmable ROM
  • PROM programmable ROM
  • EPROM erasable and programmable ROM
  • EEPROM electrically erasable and programmable ROM
  • mask ROM e.g. NAND flash or NOR flash, etc.
  • flash memory e.g. NAND flash or NOR flash, etc.
  • hard drive e.g. NAND flash or NOR flash, etc.
  • SSD solid state drive
  • a memory card e.g., CF (compact flash), SD (secure digital), Micro-SD (micro secure digital), Mini-SD (mini secure digital), xD (extreme digital), MMC (multi-media card), etc.
  • CF compact flash
  • SD secure digital
  • Micro-SD micro secure digital
  • Mini-SD mini secure digital
  • xD extreme digital
  • MMC multi-media card
  • USB port It may be implemented in the form of external memory (for example, USB memory), etc.
  • the memory 110 may store a computer program including at least one instruction or instructions for controlling the first electronic device 100.
  • the memory 110 stores images received from an external device (e.g., a source device), an external storage medium (e.g., USB), an external server (e.g., a web hard drive), that is, an input image. You can save it.
  • the memory 110 may store an image acquired through a camera (not shown) provided in the first electronic device 100.
  • the memory 110 may store information about a neural network model (or neural network model) including a plurality of layers.
  • storing information about the neural network model means various information related to the operation of the neural network model, such as information about a plurality of layers included in the neural network model, parameters used in each of the plurality of layers (e.g., filter coefficients , bias, etc.) may be stored.
  • the memory 110 may store information about a first neural network model learned to perform AI encoding according to one embodiment.
  • the first neural network model is, for example, Deep Neural Network (DNN), Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), and Bidirectional Neural Network (BRDNN). It may be implemented as a Recurrent Deep Neural Network or Deep Q-Networks, but is not limited to this.
  • learning a neural network model means that a basic neural network model (for example, an artificial intelligence model including arbitrary parameters) is learned using a plurality of training data by a learning algorithm to obtain the desired characteristics (or purpose). This means that a predefined operation rule or neural network model set to perform is created. This learning may be conducted through a separate server and/or system, but is not limited to this and may also occur on an electronic device. Examples of learning algorithms include supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, but are not limited to the examples described above.
  • the memory 110 includes various information required for image quality processing, such as information for performing at least one of Noise Reduction, Detail Enhancement, Tone Mapping, Contrast Enhancement, Color Enhancement, or Frame Rate Conversion, algorithms, and image quality parameters. etc. can be saved. Additionally, the memory 110 may store the final output image generated through image processing.
  • the memory 110 may be implemented as a single memory that stores data generated in various operations according to the present disclosure. However, according to one embodiment, the memory 110 may be implemented to include a plurality of memories each storing different types of data or data generated at different stages.
  • the communication interface 120 may be a component that communicates with an external device 200 (hereinafter referred to as a second electronic device).
  • the communication interface 120 includes AP-based Wi-Fi (Wireless LAN network), Bluetooth, Zigbee, wired/wireless LAN (Local Area Network), WAN (Wide Area Network), Ethernet, IEEE 1394, HDMI (High-Definition Multimedia Interface), USB (Universal Serial Bus), MHL (Mobile High-Definition Link), AES/EBU (Audio Engineering Society/ European Broadcasting Union), Optical Streaming or downloading from an external device (e.g., source device), external storage medium (e.g., USB memory), external server (e.g., web hard), etc. through communication methods such as coaxial, etc. You can transmit or receive video signals.
  • One or more processors 130 are electrically connected to the memory 110 and control the overall operation of the first electronic device 100.
  • One or more processors 130 may be comprised of one or multiple processors.
  • one or more processors may be implemented with at least one software, at least one hardware, or a combination of at least one software and at least one hardware.
  • software or hardware logic corresponding to one or more processors may be implemented in one chip.
  • software or hardware logic corresponding to some of the plurality of processors may be implemented in one chip, and software or hardware logic corresponding to the remainder may be implemented in another chip.
  • the processor 130 may perform the operation of the first electronic device 100 according to various embodiments of the present disclosure by executing at least one instruction stored in the memory 110.
  • the processor 130 includes a digital signal processor (DSP), a microprocessor, a graphics processing unit (GPU), an artificial intelligence (AI) processor, and a neural processor (NPU) that process digital image signals.
  • DSP digital signal processor
  • GPU graphics processing unit
  • AI artificial intelligence
  • NPU neural processor
  • Processing Unit TCON (Time controller).
  • CPU central processing unit
  • MCU Micro Controller Unit
  • MPU micro processing unit
  • controller It may include one or more of a (controller), an application processor (AP), a communication processor (CP), or an ARM processor, or may be defined by the corresponding term.
  • the processor 130 may be implemented as a System on Chip (SoC) with a built-in processing algorithm, large scale integration (LSI), or in the form of an application specific integrated circuit (ASIC) or a Field Programmable Gate Array (FPGA).
  • SoC System on Chip
  • LSI large scale integration
  • ASIC application specific integrated circuit
  • FPGA Field Programmable Gate Array
  • the processor 130 for executing a neural network model may be a general-purpose processor such as a CPU, AP, or DSP (Digital Signal Processor), a graphics-specific processor such as a GPU, a VPU (Vision Processing Unit), or an NPU (Neural Processor). It can be implemented through a combination of an artificial intelligence-specific processor and software, such as a Processing Unit).
  • the processor 130 may control input data to be processed according to predefined operation rules or neural network models stored in the memory 110.
  • the processor 130 is a dedicated processor (or an artificial intelligence dedicated processor), it may be designed with a hardware structure specialized for processing a specific neural network model.
  • hardware specialized for processing a specific neural network model can be designed as a hardware chip such as ASIC or FPGA.
  • the processor 130 When the processor 130 is implemented as a dedicated processor, it may be implemented to include a memory for implementing an embodiment of the present disclosure, or may be implemented to include a memory processing function for using an external memory.
  • the processor 130 acquires an AI-encoded image using a first neural network model learned from an image (e.g., an input image), and encodes the AI-encoded image (or performs first encoding or video encoding).
  • a compressed video or encoded video
  • the first neural network model may be implemented as a first DNN according to an example, but is not limited thereto. However, hereinafter, for convenience of explanation, it is assumed that the first neural network model is implemented as a first DNN.
  • the encoding (or first encoding or video encoding) process is a process of predicting the compressed image to generate prediction data, a process of generating residual data corresponding to the difference between the compressed image and the prediction data, and converting the residual data, which is a spatial domain component, into the frequency It may include a process of transformation into domain components, a process of quantization of residual data converted to frequency domain components, and a process of entropy encoding of the quantized residual data.
  • This encoding process uses frequency conversion, such as MPEG-2, H.264 AVC (Advanced Video Coding), MPEG-4, HEVC (High Efficiency Video Coding), VC-1, VP8, VP9, and AV1 (AOMedia Video 1). It can be implemented through one of the video compression methods.
  • the processor 130 may transmit AI encoding information related to the compressed image and the first neural network model to the second electronic device 200, for example, an AI decoding device, through the communication interface 120.
  • AI encoding information can be transmitted together with the video data of the compressed video.
  • AI encoding information may be transmitted separately from the video data in the form of a frame or packet.
  • Video data and AI encoding information may be transmitted through the same network or different networks.
  • the AI encoding information may include information on whether AI encoding is processed and operation setting information related to AI encoding (hereinafter, AI encoding operation setting information or first DNN operation setting information).
  • AI encoding operation setting information may be information on the number of layers of the first neural network model (or first DNN), information on the number of channels for each layer, filter size information, stride information, pooling information, or parameter information. It can contain at least one.
  • the first neural network model for example, the first DNN
  • the first DNN may be learned based on the image size, network status, codec type, etc. in the transmitting/receiving terminal.
  • the first DNN can be learned in connection with not only the encoding process but also the decoding process of the second neural network model used in the AI decoding device. For example, they can be learned in conjunction with each other to minimize data loss and visual perception deterioration that may occur during downscaling/upscaling and compression/restoration during the encoding and decoding processes.
  • Figure 3 shows an example of operation setting information of an AI codec DNN according to an embodiment.
  • 2160P_DNN operation setting information may be used for AI encoding and HEVC may be used for video encoding/decoding.
  • HEVC high-power video encoding
  • 720P_DNN operation setting information can be used for AI coding and H.264 can be used for video coding/decoding.
  • FIG. 4 is a flowchart for explaining the operation of a first electronic device according to an embodiment.
  • the processor 130 may obtain a second image including luminance information based on the first image including pixel information (S410).
  • pixel information may be R/G/B information
  • the first image may be implemented as an RGB image.
  • the luminance information may include a Y value
  • the second image may be implemented as various images including the Y value.
  • the second image may be an RGB-Y image, but is not necessarily limited thereto.
  • the processor 130 may input the second image into the first neural network model to obtain a first residual image including luminance residual information (S420).
  • the first neural network model may be a model learned to output a corresponding luminance residual image when an image including luminance information is input.
  • the first neural network model may be a model learned to output a luminance residual image by downsampling an image through AI encoding.
  • a luminance residual image may refer to an image that includes only luminance residual information.
  • the luminance residual information may include information based on the luminance difference between the input image (eg, the second image) and the reference image.
  • the luminance residual information may include YUV (luminance Y and chrominance U/V) residual information.
  • the processor 130 may identify operation setting information of the first neural network model based on at least one of image size information, network status information, and codec type information of the second image (or/and the first image). there is.
  • operation setting information of the first neural network model may be identified based on image size information of the second image, network status information, codec type information, and AI decoding information of an external device, that is, the second electronic device 200.
  • the AI decoding information of the second electronic device 200 may include operation setting information of the second neural network model used for AI decoding in the second electronic device 200.
  • the first neural network model may be learned in connection with the operation setting information of the second neural network model.
  • the processor 130 may identify the first neural network model to which the identified operation setting information is applied.
  • the operation setting information may include at least one of information on the number of layers of the first neural network model, information on the number of channels for each layer, filter size information, stride information, pooling information, or parameter information.
  • the processor 130 may obtain a second residual image including pixel residual information based on the first residual image (S430).
  • the processor 120 may obtain a second residual image by converting luminance residual information included in the first residual image into pixel residual information.
  • luminance residual information may include YUV residual information.
  • the processor 130 obtains an R value, a G value, and a B value by applying a conversion gain to the Y value, U value, and V value included in the first residual image, and the obtained R value, G value, and The B value can be obtained as pixel residual information.
  • the processor 130 may obtain an AI-encoded image based on the first image and the second residual image (S440).
  • the processor 130 may obtain a compressed image by encoding the AI-encoded image (S450).
  • the processor 130 may obtain a compressed image by converting an AI-encoded image into a compressed image in a binary data format.
  • video compression may be performed according to a typical video compression method, such as H.264, HEVC, VP9, AV1, VVC, etc.
  • MPEG Motion Picture Experts Group
  • HEVC High Efficiency Video Codec
  • VC-1 VP8, VP9
  • AV1 AOMedia Video 1
  • VC-1 VC-1, VP8, VP9
  • AV1 AOMedia Video 1
  • the processor 130 may transmit the obtained compressed image to the second electronic device 200 (S460).
  • the processor 130 may transmit compressed video and AI encoding information to the second electronic device 200.
  • AI encoding information can be transmitted together with the video data of the compressed video.
  • AI encoding information may be transmitted separately from the video data in the form of a frame or packet.
  • Video data and AI encoding information may be transmitted through the same network or different networks.
  • the AI encoding information may include information on whether AI encoding is processed and operation setting information related to AI encoding (hereinafter, AI encoding operation setting information or first DNN operation setting information).
  • the AI encoding operation setting information may be information on the number of layers of the first neural network model (or first DNN), information on the number of channels for each layer, filter size information, stride information, pooling information, or parameter information. It can contain at least one.
  • FIG. 5 is a flowchart for explaining the operation of a first electronic device according to an embodiment.
  • the processor 130 may acquire a third image by downscaling the first image including pixel information (S510).
  • the processor 130 may determine the downscaling rate of the first image based on the downsampling rate of the first neural network model.
  • a downscaling method for example, at least one interpolation technique among bilinear interpolation, nearest neighbor interpolation, bicubic interpolation, deconvolution interpolation, subpixel convolution interpolation, polyphase interpolation, trilinear interpolation, and linear interpolation may be used.
  • the processor 130 may obtain a second image including luminance information based on the first image (S515). Since step S515 is the same as step S410 shown in FIG. 4, detailed description will be omitted.
  • the processor 130 may input the second image into the first neural network model to obtain a first residual image including luminance residual information (S520).
  • the processor 130 may input the second image into the first neural network model and obtain the first residual image downsampled through AI encoding.
  • the first residual image may be an image downsampled at the same rate as the downscaling rate in step S510.
  • the processor 130 may obtain a second residual image including pixel residual information based on the first residual image (S530). Since step S530 is the same as step S430 shown in FIG. 4, detailed description will be omitted.
  • the processor 130 may acquire an AI encoded image based on the third image and the second residual image acquired in step S510 (S540).
  • the processor 130 may obtain an AI-encoded image by adding the pixel value included in the third image and the pixel value included in the second residual image.
  • the processor 130 adds each of the pixel values included in the third image and the corresponding pixel values included in the second residual image to obtain an AI encoded image that is the same size as the third image and the second residual image. You can.
  • the processor 130 may obtain a compressed image by encoding the AI-encoded image (S550). Since step S550 is the same as step S450 shown in FIG. 4, detailed description will be omitted.
  • the processor 130 may transmit the obtained compressed image to the second electronic device 200 (S560). Since step S560 is the same as step S460 shown in FIG. 4, detailed description will be omitted.
  • Figures 6 and 7 are diagrams for explaining in detail a method of generating an AI encoded image according to an embodiment.
  • the processor 130 downscales an input image, for example, an RGB image 50 (the first image), using a normal downscaler 610 to produce the downscaled RGB image (the third image). It can be obtained. Additionally, the processor 130 can convert the input image, that is, the RGB image 50 (first image), into an RGB-Y image (second image) including luminance information using the RGB2Y converter 620. .
  • the RGB2Y converter 620 can obtain luminance information for a plurality of color channels including RGB.
  • the processor 130 may input the RGB-Y converted image (second image) into the first neural network model 630 for AI encoding to obtain an AI encoded Y residual image (first residual image).
  • the AI encoded Y residual image may be an AI encoded residual image for luminance.
  • the first neural network model 630 outputs an AI-encoded Y residual image (first residual image) through AI encoding. It may be a learned model.
  • the first neural network model 630 may be a ResNet-based deep neural network structure for processing AI encoding.
  • each layer can generate an AI-encoded residual image through serial CNN processing using 8 channels and a 5x5 filter, but is not limited to this.
  • the processor 130 may obtain a Y-RGB correction image (second residual image) from the AI-encoded Y residual image (first residual image) using the Y-RGB correction value acquisition unit 640.
  • the Y-RGB correction value acquisition unit 640 may obtain a Y-RGB correction image by applying a predefined equation, algorithm, etc. to the pixel values included in the input RGB image.
  • the Y-RGB correction image may be an image that includes a correction value corresponding to the contribution of the luminance signal when converting the AI-encoded Y residual image to the original color gamut.
  • the Y-RGB correction value acquisition unit 640 provides a The correction ratio for is 1:1:1 and the Y residual image can be scaled.
  • the processor 130 may obtain the AI encoded image 60 (RGB image) by adding the pixel values of the downscaled RGB image (third image) and the Y-RGB correction image (second residual image).
  • the first neural network model may be learned in conjunction with a second neural network model provided in the second electronic device 200, that is, a model that performs AI upscaling. That is, the first neural network model can be learned in connection with the operation setting information of the second neural network model. This is because if the neural network model for AI downscaling and the neural network model for AI upscaling are trained separately, the difference between the AI encoding target image and the image restored through AI decoding in the second electronic device 200 may increase. .
  • AI decoding information and AI encoding information may be used. Therefore, the AI encoding information obtained through the AI encoding process includes upscale target information, and in the AI decoding process, the image can be upscaled according to the upscale target information confirmed based on the AI encoding information.
  • the AI encoding information may include whether the image has been AI encoded and the target upscale resolution.
  • a neural network model for AI downscaling and a neural network model for AI upscaling may be implemented as a deep neural network (DNN).
  • DNN deep neural network
  • the first electronic device 100 that is, the AI encoding device
  • the second electronic device 200 that is, the AI decoding device
  • the external device that is, the AI decoding device
  • AI can be upscaled by resolution.
  • the first electronic device 100 includes components such as a display (not shown), a user interface (not shown), a speaker (not shown), and a camera (not shown) depending on the implementation type. Of course, more can be included.
  • Figure 8 is a block diagram showing the configuration of an electronic device according to an embodiment.
  • the electronic device 200 includes a memory 210, a communication interface 220, and a processor 230.
  • the electronic device 200 may be implemented as a TV, but is not limited to this and may be implemented as a smart phone, tablet PC, laptop PC, console, or set-top. top), devices with image processing and/or display functions such as monitors, PCs, cameras, camcorders, LFDs (large format displays), Digital Signage, DIDs (Digital Information Displays), video walls, etc. It is applicable without limitation.
  • the second electronic device 200 functions as a receiving device and can AI-decode the AI-encoded image received from the first electronic device 100 shown in FIG. 2 and display it.
  • the memory 210 may store information about a neural network model (or neural network model) including a plurality of layers.
  • storing information about the neural network model means various information related to the operation of the neural network model, such as information about a plurality of layers included in the neural network model, parameters used in each of the plurality of layers (e.g., filter coefficients , bias, etc.) may be stored.
  • the memory 210 may store information about a second neural network model learned to perform AI decoding according to one embodiment.
  • the second neural network model is, for example, Deep Neural Network (DNN), Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), and Bidirectional Neural Network (BRDNN). It may be implemented as a Recurrent Deep Neural Network or Deep Q-Networks, but is not limited to this.
  • the memory 210 includes various information required for image quality processing, such as information for performing at least one of Noise Reduction, Detail Enhancement, Tone Mapping, Contrast Enhancement, Color Enhancement, or Frame rate Conversion, algorithm, and image quality. Parameters, etc. can be saved. Additionally, the memory 210 may store the AI-encoded image received from the first electronic device 100 and/or the final output image generated by image processing.
  • the processor 230 processes the input image to obtain an output image.
  • the input image or output image may include a still image, a plurality of consecutive still images (or frames), or video.
  • Image processing includes at least one of image enhancement, image restoration, image transformation, image analysis, image understanding, or image compression. It can be digital image processing.
  • the processor 230 may decode and AI decode the compressed image, decompress it, and then process the image.
  • the processor 120 may image-process an input image using a neural network model.
  • the processor 120 may load and use information related to the neural network model stored in the memory 210, for example, an external memory such as DRAM.
  • FIG. 9 is a flowchart for explaining the operation of a second electronic device according to an embodiment.
  • the processor 230 may receive compressed video and AI encoding information through the communication interface 220 (S910).
  • the processor 230 may receive compressed video and AI encoding information from the first electronic device 100 shown in FIG. 2.
  • the processor 230 may decode (or first decode or video decode) the compressed image to obtain a decompressed image (or decoded image) (hereinafter referred to as the fourth image) (S920).
  • the fourth image may be an image including pixel information, for example, an RGB image.
  • the decoding (or first decoding or video decoding) process includes entropy decoding the image data to generate quantized residual data, dequantizing the quantized residual data, and converting the residual data of the frequency domain component to the spatial domain component.
  • the process may include a process of generating prediction data and a process of restoring a decompressed image using prediction data and residual data.
  • This decoding process includes MPEG-2, H.264, MPEG-4, HEVC, VC-1, and VP8 used in the encoding process (or first encoding) of the external first electronic device 100. , it can be implemented through an image restoration method corresponding to one of the image compression methods using frequency conversion, such as VP9 and AV1.
  • the processor 230 may obtain a fifth image including luminance information based on the fourth image including pixel information (S930).
  • pixel information may be R/G/B information, and accordingly, the fourth image may be implemented as an RGB image.
  • the luminance information may include a Y value, and accordingly, the fifth image may be implemented as various images including the Y value.
  • the fifth image may be an RGB-Y image, but is not necessarily limited thereto.
  • the processor 230 identifies a second neural network model based on the AI encoding information, inputs the fifth image into the second neural network model, and generates a luminance residual image (hereinafter referred to as a third residual image) including luminance residual information.
  • the AI encoding information may include operation setting information of the first neural network model used for AI encoding in the first electronic device 100.
  • the second neural network model may be a model learned to output a corresponding luminance residual image when an image including luminance information is input.
  • the second neural network model may be a model learned to upsample an image through AI decoding and output a luminance residual image.
  • a luminance residual image may refer to an image that includes only luminance residual information.
  • luminance residual information may include YUV residual information.
  • the processor 130 may identify operation setting information of the first neural network model based on at least one of image size information, network status information, and codec type information of the fifth image (or/and fourth image). there is.
  • operation setting information of the second neural network model may be identified based on image size information of the fifth image, network status information, codec type information, and AI encoding information of the first electronic device 100.
  • the processor 230 may obtain a fourth residual image including pixel residual information based on the third residual image (S950).
  • the processor 120 may obtain the fourth residual image by converting the luminance residual information included in the third residual image into pixel residual information.
  • luminance residual information may include YUV residual information.
  • the processor 230 obtains an R value, a G value, and a B value by applying a conversion gain to the Y value, U value, and V value included in the third residual image, and the obtained R value, G value, and The B value can be obtained as pixel residual information.
  • the processor 130 may obtain an AI decoded image based on the fourth image and the fourth residual image (S960).
  • FIG. 10 is a flowchart explaining the operation of a second electronic device according to an embodiment.
  • the processor 230 can receive compressed video and AI encoding information through the communication interface 220 (S1010).
  • the processor 230 may receive compressed video and AI encoding information from the first electronic device 100 shown in FIG. 2.
  • the processor 230 may decode (or first decode or video decode) the compressed image to obtain a decompressed image (or decoded image) (hereinafter referred to as the fourth image) (S1020).
  • the fourth image may be an image including pixel information, for example, an RGB image.
  • the processor 230 may obtain a fifth image including luminance information based on the fourth image including pixel information, and obtain a sixth image by upscaling the fourth image (S1030).
  • pixel information may be R/G/B information, and accordingly, the fourth image may be implemented as an RGB image.
  • the luminance information may include a Y value, and accordingly, the fifth image may be implemented as various images including the Y value.
  • the fifth image may be an RGB-Y image, but is not necessarily limited thereto.
  • the processor 130 may determine the upscaling rate of the fourth image based on the upsampling rate of the second neural network model.
  • the processor 230 identifies a second neural network model based on the AI encoding information, inputs the fifth image into the second neural network model, and generates a luminance residual image (hereinafter referred to as a third residual image) including luminance residual information. Can be obtained (S1040).
  • the second neural network model may be a model learned to perform upsampling of the image through AI decoding. Accordingly, the processor 230 can input the fifth image into the second neural network model and obtain the upsampled third residual image through AI decoding.
  • the processor 230 may obtain a fourth residual image including pixel residual information based on the third residual image (S1050). Since step S1050 is the same as step S950, detailed description will be omitted.
  • the processor 130 may obtain an AI decoded image based on the sixth image and the fourth residual image (S1060).
  • the processor 230 may obtain an AI decoded image by adding the pixel value included in the sixth image and the pixel value included in the fourth residual image.
  • the processor 130 adds each of the pixel values included in the sixth image and the corresponding pixel values included in the fourth residual image to obtain an AI decoded image that is the same size as the sixth image and the fourth residual image. You can.
  • Figure 11 is a diagram for explaining in detail a method of generating an AI encoded image according to an embodiment.
  • the processor 130 can obtain an upscaled RGB image (sixth image) by upscaling the restored image 70 using the normal upscaler 1110.
  • the restored image 70 may be a decompressed image (or decoded image) (fourth image) obtained by decoding (or first decoding or video decoding) the compressed image received from the first electronic device 100.
  • the processor 130 can convert the input image, that is, the original image 70 (fourth image), into an RGB-Y image (fifth image) including luminance information using the RGB2Y converter 1120.
  • the RGB2Y converter 1120 can obtain luminance information for a plurality of color channels including RGB.
  • the processor 130 may input the RGB-Y converted image (fifth image) into the second neural network model 1130 for AI decoding to obtain an AI encoded Y residual image (third residual image).
  • the AI encoded Y residual image may be an AI encoded residual image for luminance.
  • the second neural network model 1130 may be a model learned to output an AI-encoded Y residual image (third residual image) through AI encoding when an RGB-Y converted image (fifth image) is input.
  • the second neural network model 1130 may have a structure similar to the first neural network model shown in FIG. 7.
  • the processor 130 may acquire a Y-RGB correction image (fourth residual image) from the AI-encoded Y residual image (third residual image) using the Y-RGB correction value acquisition unit 1140.
  • the Y-RGB correction value acquisition unit 1140 may obtain a Y-RGB correction image by applying a predefined equation, algorithm, etc. to the pixel values included in the input RGB image.
  • the Y-RGB correction image may be an image that includes a correction value corresponding to the contribution of the luminance signal when converting the AI-encoded Y residual image to the original color gamut.
  • the Y-RGB correction value acquisition unit 1140 is configured to obtain a value for each R/G/B channel of the AI-encoded Y residual image (third residual image).
  • the correction ratio for is 1:1:1 and the Y residual image can be scaled.
  • the processor 130 may obtain the AI decoded image 80 (RGB image) by adding the pixel values of the upscaled RGB image (sixth image) and the Y-RGB correction image (fourth residual image).
  • the second electronic device 200 includes components such as a display (not shown), a user interface (not shown), a speaker (not shown), and a camera (not shown) depending on the implementation type. Of course, more can be included.
  • the methods according to various embodiments of the present disclosure described above may be implemented in the form of applications that can be installed on existing electronic devices.
  • at least some of the methods according to various embodiments of the present disclosure described above may be performed using a deep learning-based artificial intelligence model, that is, a learning network model.
  • the various embodiments described above may be implemented as software including instructions stored in a machine-readable storage media (e.g., a computer).
  • the device is a device capable of calling instructions stored from a storage medium and operating according to the called instructions, and may include an electronic device (eg, electronic device A) according to the disclosed embodiments.
  • the processor may perform the function corresponding to the instruction directly or using other components under the control of the processor.
  • Instructions may contain code generated or executed by a compiler or interpreter.
  • a storage medium that can be read by a device may be provided in the form of a non-transitory storage medium.
  • 'non-transitory' only means that the storage medium does not contain signals and is tangible, and does not distinguish whether the data is stored semi-permanently or temporarily in the storage medium.
  • the method according to the various embodiments described above may be included and provided in a computer program product.
  • Computer program products are commodities and can be traded between sellers and buyers.
  • the computer program product may be distributed on a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or online through an application store (e.g. Play StoreTM).
  • an application store e.g. Play StoreTM
  • at least a portion of the computer program product may be at least temporarily stored or created temporarily in a storage medium such as the memory of a manufacturer's server, an application store's server, or a relay server.
  • each component e.g., module or program
  • each component may be composed of a single or multiple entities, and some of the sub-components described above may be omitted, or other sub-components may be omitted. Additional components may be included in various embodiments. Alternatively or additionally, some components (e.g., modules or programs) may be integrated into a single entity and perform the same or similar functions performed by each corresponding component prior to integration. According to various embodiments, operations performed by a module, program, or other component may be executed sequentially, in parallel, iteratively, or heuristically, or at least some operations may be executed in a different order, omitted, or other operations may be added. You can.

Abstract

AI 부호화를 이용하여 영상을 처리하는 전자 장치가 개시된다. 전자 장치는, 학습된 제1 신경망 모델이 저장된 메모리, 통신 인터페이스 및 픽셀 정보를 포함하는 제1 영상에 기초하여 휘도 정보를 포함하는 제2 영상을 획득하고, 제2 영상을 제1 신경망 모델에 입력하여 휘도 잔차 정보를 포함하는 제1 잔차 영상을 획득하고, 제1 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 제2 잔차 영상을 획득하고, 제1 영상 및 제2 잔차 영상에 기초하여 AI 부호화 영상을 획득하고, AI 부호화 영상을 인코딩하여 획득된 압축 영상을 통신 인터페이스를 통해 외부 장치로 전송하는 하나 이상의 프로세서를 포함한다.

Description

AI 부호화/복호화를 이용하여 영상을 처리하는 전자 장치 및 그 제어 방법
본 개시는 전자 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 AI 부호화/복호화를 이용하여 영상을 처리하는 전자 장치 및 그 제어 방법에 관한 것이다.
스트리밍 방식은 서버가 미디어를 실시간 전송하고 단말은 미디어를 수신하고 실시간으로 재생하는 방식으로, 서버-단말간 네트워크 연결 상태 및 단말 사양에 기초하여 미디어의 품질을 적응적으로 변경하며 전송한다. 예를 들어 네트워크 연결이 불안정해지고 이용 가능한 대역이 낮아지면 품질을 낮추고 다시 연결이 안정화되고 충분한 대역이 보장되면 영상 품질을 높여 서비스 수행하게 된다.
한편, AI 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로, 기존의 규칙 기반의 시스템과 달리 기계가 스스로 학습하고 판단하면서 능력을 향상시킬 수 있다. 최근 심층 신경망(DNN)에 기초한 AI 시스템은 기존의 규칙 기반 시스템의 성능을 크게 압도하며 전 분야에 이용 확산되고 있다. AI 시스템에 대한 관심이 높아짐에 따라, 영상 스트리밍에서 서비스 품질을 개선하기 위한 연구들이 활발히 진행되고 있다.
이상과 같은 목적을 달성하기 위한 일 실시 예에 따른 AI 부호화를 이용하여 영상을 처리하는 전자 장치는, 학습된 제1 신경망 모델이 저장된 메모리, 통신 인터페이스, 픽셀 정보를 포함하는 제1 영상에 기초하여 휘도 정보를 포함하는 제2 영상을 획득하고, 상기 제2 영상을 상기 제1 신경망 모델에 입력하여 휘도 잔차 정보를 포함하는 제1 잔차 영상을 획득하고, 상기 제1 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 제2 잔차 영상을 획득하고, 상기 제1 영상 및 상기 제2 잔차 영상에 기초하여 AI 부호화 영상을 획득하고, 상기 AI 부호화 영상을 인코딩하여 획득된 압축 영상을 상기 통신 인터페이스를 통해 외부 장치로 전송하는 하나 이상의 프로세서를 포함할 수 있다.
일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 상기 제2 영상의 영상 크기 정보, 네트워크 상태 정보 및 코덱 타입 정보 중 적어도 하나에 기초하여 상기 제1 신경망 모델의 동작 설정 정보를 식별하고, 상기 식별된 동작 설정 정보가 적용된 상기 제1 신경망 모델에 상기 제2 영상을 입력할 수 있다. 여기서, 상기 동작 설정 정보는, 상기 제1 신경망 모델의 레이어 개수 정보, 레이어 별 채널 개수 정보, 필터 크기 정보, 스트라이드(Stride) 정보, 풀링(puliing) 정보 또는 파라미터 정보 중 적어도 하나를 포함할 수 있다.
일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 상기 제2 영상의 영상 크기 정보, 네트워크 상태 정보, 코덱 타입 정보 및 상기 외부 장치의 AI 복호화 정보에 기초하여 상기 제1 신경망 모델의 동작 설정 정보를 식별할 수 있다. 여기서, 상기 외부 장치의 AI 복호화 정보는, 상기 외부 장치에서 AI 복호화에 이용되는 제2 신경망 모델의 동작 설정 정보를 포함할 수 있다. 상기 제1 신경망 모델은, 상기 제2 신경망 모델의 동작 설정 정보와 연계되어 학습될 수 있다.
일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 상기 제1 영상을 다운스케일링(downscaling)하여 제3 영상을 획득하고, 상기 제3 영상 및 상기 제2 잔차 영상에 기초하여 상기 AI 부호화 영상을 획득할 수 있다.
일 실시 예에 따르면, 상기 제1 신경망 모델은, AI 부호화를 통해 영상을 다운샘플링(downsampling)을 수행하도록 학습된 모델이며, 상기 하나 이상의 프로세서는, 상기 제2 영상을 상기 제1 신경망 모델에 입력하여 AI 부호화를 통해 다운 샘플링(downsampling)된 상기 제1 잔차 영상을 획득하고, 상기 제1 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 상기 제2 잔차 영상을 획득하고, 상기 제3 영상에 포함된 픽셀 값 및 상기 제2 잔차 영상에 포함된 픽셀 값을 더하여 상기 AI 부호화 영상을 획득할 수 있다.
일 실시 예에 따른 AI 복호화를 이용하여 영상을 처리하는 전자 장치는, 학습된 제2 신경망 모델이 저장된 메모리, 통신 인터페이스 및, 상기 통신 인터페이스를 통해 압축 영상 및 AI 부호화 정보를 수신하고, 상기 압축 영상을 디코딩하여 픽셀 정보를 포함하는 제4 영상을 획득하고, 상기 제4 영상에 기초하여 휘도 정보를 포함하는 제5 영상을 획득하고, 상기 제5 영상을 상기 AI 부호화 정보에 기초하여 식별된 제2 신경망 모델에 입력하여 휘도 잔차 정보를 포함하는 제3 잔차 영상을 획득하고, 상기 제3 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 제4 잔차 영상을 획득하고, 상기 제4 영상 및 상기 제4 잔차 영상에 기초하여 AI 복호화 영상을 획득하는 하나 이상의 프로세서를 포함한다.
일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 상기 AI 부호화 정보에 기초하여 상기 제2 신경망 모델의 동작 설정 정보를 식별하고, 상기 식별된 동작 설정 정보가 적용된 상기 제2 신경망 모델에 상기 제5 영상을 입력할 수 있다. 상기 동작 설정 정보는, 상기 제2 신경망 모델의 레이어 개수 정보, 레이어 별 채널 개수 정보, 필터 크기 정보, 스트라이드(Stride) 정보, 풀링(puliing) 정보 또는 파라미터 정보 중 적어도 하나를 포함할 수 있다.
일 실시 예에 따르면, 상기 하나 이상의 프로세서는, 상기 제4 영상을 업스케일링(upscaling)하여 제6 영상을 획득하고, 상기 제6 영상 및 상기 제4 잔차 영상에 기초하여 상기 AI 복호화 영상을 획득할 수 있다.
일 실시 예에 따르면, 상기 제2 신경망 모델은, AI 복호화를 통해 영상을 업샘플링(upsampling)을 수행하도록 학습된 모델일 수 있다. 상기 하나 이상의 프로세서는, 상기 제5 영상을 상기 제2 신경망 모델에 입력하여 AI 복호화를 통해 업샘플링(upsampling)된 상기 제3 잔차 영상을 획득하고, 상기 제3 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 상기 제4 잔차 영상을 획득하고, 상기 제6 영상에 포함된 픽셀 값 및 상기 제4 잔차 영상에 포함된 픽셀 값을 더하여 상기 AI 부호화 영상을 획득할 수 있다.
일 실시 예에 따른, AI 부호화를 이용하여 영상을 처리하는 전자 장치의 제어 방법은, 픽셀 정보를 포함하는 제1 영상에 기초하여 휘도 정보를 포함하는 제2 영상을 획득하는 단계, 상기 제2 영상을 학습된 제1 신경망 모델에 입력하여 휘도 잔차 정보를 포함하는 제1 잔차 영상을 획득하는 단계, 상기 제1 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 제2 잔차 영상을 획득하는 단계, 상기 제1 영상 및 상기 제2 잔차 영상에 기초하여 AI 부호화 영상을 획득하는 단계 및, 상기 AI 부호화 영상을 인코딩하여 획득된 압축 영상을 외부 장치로 전송하는 단계를 포함한다.
일 실시 예에 따른, AI 복호화를 이용하여 영상을 처리하는 전자 장치의 제어 방법은, 압축 영상 및 AI 부호화 정보를 수신하는 단계, 상기 압축 영상을 디코딩하여 픽셀 정보를 포함하는 제4 영상을 획득하는 단계, 상기 제4 영상에 기초하여 휘도 정보를 포함하는 제5 영상을 획득하는 단계, 상기 제5 영상을 상기 AI 부호화 정보에 기초하여 식별된 제2 신경망 모델에 입력하여 휘도 잔차 정보를 포함하는 제3 잔차 영상을 획득하는 단계, 상기 제3 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 제4 잔차 영상을 획득하는 단계 및, 상기 제4 영상 및 상기 제4 잔차 영상에 기초하여 AI 복호화 영상을 획득하는 단계를 포함한다.
일 실시 예에 따른, 전자 장치의 프로세서에 의해 실행되는 경우 상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 동작은, 픽셀 정보를 포함하는 제1 영상에 기초하여 휘도 정보를 포함하는 제2 영상을 획득하는 단계, 상기 제2 영상을 학습된 제1 신경망 모델에 입력하여 휘도 잔차 정보를 포함하는 제1 잔차 영상을 획득하는 단계, 상기 제1 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 제2 잔차 영상을 획득하는 단계, 상기 제1 영상 및 상기 제2 잔차 영상에 기초하여 AI 부호화 영상을 획득하는 단계 및, 상기 AI 부호화 영상을 인코딩하여 획득된 압축 영상을 외부 장치로 전송하는 단계를 포함한다.
일 실시 예에 따른, 전자 장치의 프로세서에 의해 실행되는 경우 상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 동작은, 압축 영상 및 AI 부호화 정보를 수신하는 단계, 상기 압축 영상을 디코딩하여 픽셀 정보를 포함하는 제4 영상을 획득하는 단계, 상기 제4 영상에 기초하여 휘도 정보를 포함하는 제5 영상을 획득하는 단계, 상기 제5 영상을 상기 AI 부호화 정보에 기초하여 식별된 제2 신경망 모델에 입력하여 휘도 잔차 정보를 포함하는 제3 잔차 영상을 획득하는 단계, 상기 제3 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 제4 잔차 영상을 획득하는 단계 및, 상기 제4 영상 및 상기 제4 잔차 영상에 기초하여 AI 복호화 영상을 획득하는 단계를 포함한다.
도 1은 일 실시 예에 따른 AI 부호화/복호화에 따른 영상 처리 방법을 설명하기 위한 도면이다.
도 2는 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.
도 3은 일 실시 예에 따른 AI 코덱 DNN의 동작 설정 정보의 예시를 나타낸다.
도 4는 일 실시 예에 따른 제1 전자 장치의 동작을 설명하기 위한 흐름도이다.
도 5는 일 실시 예에 따른 제1 전자 장치의 동작을 설명하기 위한 흐름도이다.
도 6 및 도 7은 일 실시 예에 따른 AI 부호화 영상을 생성 방법을 자세히 설명하기 위한 도면들이다.
도 8은 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.
도 9는 일 실시 예에 따른 제2 전자 장치의 동작을 설명하기 위한 흐름도이다.
도 10은 일 실시 예에 따른 제2 전자 장치의 동작을 설명하기 위한 흐름도이다.
도 11은 일 실시 예에 따른 AI 부호화 영상을 생성 방법을 자세히 설명하기 위한 도면들이다.
이하에서는 첨부 도면을 참조하여 본 개시를 상세히 설명한다.
본 개시의 이용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 이용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 이용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 이용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이용된다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
A 또는 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.
본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 하나 이상의 프로세서(미도시)로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 일 실시 예에 따른 AI 부호화/복호화에 따른 영상 처리 방법을 설명하기 위한 도면이다.
4K, 8K 등의 고화질/고해상도 영상을 네트워크를 통해 스트리밍하기 위해서는, 네트워크 요구 대역폭을 줄일 수 있는 영상 부호화 기술과 Up/Down Scaling 기술이 중요하다. 영상 부호화 기술은 H.264/265, VP8/9, AV1 과 같은 표준 코덱이 널리 사용되고 있으며, OTT 업체의 경우 4K 영상을 H.265 기준 약 15 Mbps 까지 압축하여 서비스하고 있다. 사용자마다 서로 다른 네트워크 환경에 맞게 서비스를 하려면, 여러 조합의 영상 해상도와 전송률로 압축해야 하는데 이 때 사용되는 기술이 Up/Down Scaling 기술이다. 예를 들어 8K 영상을 약 15 Mbps 수준으로 전송하고자 할 때, 송신 단말(100)은 영상(10)을 AI 부호화(예를 들어, 해상도를 4K로 Down-Scaling)하여 AI 부호화 영상(20)을 획득하고, AI 부호화 영상(20)을 비디오 부호화할 수 있다. 이 후, 송신 단말(100)은 비디오 부호화를 통해 압축된 압축 영상 및 AI 부호화 정보를 통신부를 통해 수신 단말(200)로 전송할 수 있다.
수신 단말(200)은 압축 영상 및 AI 부호화 정보가 통신부를 통해 수신되면, 압축 영상을 비디오 부호화하여 복원 영상(30)을 획득하고, 복원 영상(30)을 AI 복호화(예를 들어, 해상도를 8K로 Up-Scaling)하여 AI 복호화 영상(40)을 획득할 수 있다. Up/Down Scaling 시 Bi-Linear 또는 Bi-Cubic 과 같은 간단한 Interpolation 방식을 사용하기도 하지만, 최근에는 신경망 모델을 이용하여 Up/Down Scaling 을 함으로써 소비자의 체감 품질을 더욱 개선할 수 있게 되었다. 특히 이 방법은 어떤 압축 코덱을 사용하더라도 쉽게 호환되는 장점이 있어, 현재 널리 사용되는 H.265/VP9 표준 코덱에도 적용하여 쉽게 확장될 수 있다.
한편, AI 부호화 및 복호화에 이용되는 신경망 모델, 예를 들어, DNN 모델은 영상 해상도와 네트워크 상태, 코덱 종류에 기초하여 결정하고, 이때 서버와 TV는 모두 고성능 프로세서나 하드웨어 가속을 이용한 AI 연산 처리로 최대 성능을 지원할 수 있고, 외부 전원을 이용할 수 있어서 소비 전력이 큰 문제가 되지 않는다.
일반적으로, AI 부호화 및 복호화에 이용되는 신경망 모델은 YUV와 같은 휘도/색차 채널로 분리된 색역의 영상을 위한 처리 구조를 가지고 있다. 하지만, 이는 일반 방송/OTT/웹영상 등의 시청 컨텐츠에 적합하고 컴퓨터/콘솔과 같은 그래픽/합성의 RGB 영상에 적합하지 않다는 문제가 있다. 일 예로, 모든 채널에 DNN 모델을 적용하는 경우 성능은 좋을 수 있으나 비용이 효율적이지 않다는 문제가 있다. 다른 예로, 특정 색 채널 (예: G)에 DNN 모델을 적용하는 경우, 해당 채널만 강조되어 부작용이 발생할 수 있고 전체 향상 효과도 저감된다는 문제가 있다. 다른 예로, YUV 색 영역 변환 후 처리하는 경우, 색 영역 변환 과정의 데이터 소실로 인한 열화가 발생한다는 문제가 있다.
이에 따라 이하에서는, 다양한 삼차원 색 좌표에 대응할 수 있는 AI 부호화/복호화 방법에 대한 다양한 실시 예에 대해 설명하도록 한다.
도 2는 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.
도 2에 따르면, 전자 장치(100)는 메모리(110), 통신 인터페이스(120) 및 프로세서(130)를 포함한다.
일 실시 예에 따르면, 전자 장치(100)(이하, 제1 전자 장치)는 TV, 스마트 폰, 태블릿 PC, 노트북 PC, 콘솔(consol), 셋탑(set-top), 모니터, PC, 카메라, 캠코더, LFD(large format display), Digital Signage(디지털 간판), DID(Digital Information Display), 비디오 월(video wall) 등과 같이 영상 처리 및/또는 디스플레이 기능을 갖춘 장치라면 한정되지 않고 적용 가능하다. 일 예에 따라 제1 전자 장치(100)는 도 1의 송신 단말(100)로 기능하며 영상을 AI 부호화하여 외부 장치, 즉 도 2의 수신 단말(200)로 전송할 수 있다.
메모리(110)는 프로세서(130)와 전기적으로 연결되며, 본 개시의 다양한 실시 예를 위해 필요한 데이터를 저장할 수 있다. 메모리(110)는 데이터 저장 용도에 따라 제1 전자 장치(100)에 임베디드된 메모리 형태로 구현되거나, 제1 전자 장치(100)에 탈부착이 가능한 메모리 형태로 구현될 수도 있다. 예를 들어, 제1 전자 장치(100)의 구동을 위한 데이터의 경우 제1 전자 장치(100)에 임베디드된 메모리에 저장되고, 제1 전자 장치(100)의 확장 기능을 위한 데이터의 경우 제1 전자 장치(100)에 탈부착이 가능한 메모리에 저장될 수 있다. 한편, 제1 전자 장치(100)에 임베디드된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나로 구현될 수 있다. 또한, 제1 전자 장치(100)에 탈부착이 가능한 메모리의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결가능한 외부 메모리(예를 들어, USB 메모리) 등과 같은 형태로 구현될 수 있다.
일 예에 따라 메모리(110)는 제1 전자 장치(100)를 제어하기 위한 적어도 하나의 인스트럭션(instruction) 또는 인스트럭션들을 포함하는 컴퓨터 프로그램을 저장할 수 있다.
일 예에 따라 메모리(110)는 외부 장치(예를 들어, 소스 장치), 외부 저장 매체(예를 들어, USB), 외부 서버(예를 들어 웹 하드) 등으로부터 수신된 영상, 즉 입력 영상을 저장할 수 있다. 또는 메모리(110)는 제1 전자 장치(100)에 구비된 카메라(미도시)를 통해 획득된 영상을 저장할 수 있다.
일 예에 따라 메모리(110)는 복수의 레이어를 포함하는 신경망 모델(또는 신경망 모델)에 관한 정보를 저장할 수 있다. 여기서, 신경망 모델에 관한 정보를 저장한다는 것은 신경망 모델의 동작과 관련된 다양한 정보, 예를 들어 신경망 모델에 포함된 복수의 레이어에 대한 정보, 복수의 레이어 각각에서 이용되는 파라미터(예를 들어, 필터 계수, 바이어스 등)에 대한 정보 등을 저장한다는 것을 의미할 수 있다. 예를 들어, 메모리(110)는 일 실시 예에 따라 AI 부호화를 수행하도록 학습된 제1 신경망 모델에 대한 정보를 저장할 수 있다. 여기서, 제1 신경망 모델은, 예를 들어, DNN(Deep Neural Network), CNN (Convolutional Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등으로 구현될 수 있으나, 이에 한정되지 않는다. 여기서, 신경망 모델이 학습된다는 것은, 기본 신경망 모델(예를 들어 임의의 랜덤한 파라미터를 포함하는 인공 지능 모델)이 학습 알고리즘에 의하여 다수의 훈련 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 신경망 모델이 만들어짐을 의미한다. 이러한 학습은 별도의 서버 및/또는 시스템을 통해 이루어질 수 있으나, 이에 한정되는 것은 아니며 전자 장치에서 이루어질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
일 예에 따라 메모리(110)는 화질 처리에 필요한 다양한 정보, 예를 들어 Noise Reduction, Detail Enhancement, Tone Mapping, Contrast Enhancement, Color Enhancement 또는 Frame rate Conversion 중 적어도 하나를 수행하기 위한 정보, 알고리즘, 화질 파라미터 등을 저장할 수 있다. 또한, 메모리(110)는 영상 처리에 의해 생성된 최종 출력 영상을 저장할 수도 있다.
일 실시 예에 따르면, 메모리(110)는 본 개시에 따른 다양한 동작들에서 생성되는 데이터를 저장하는 단일 메모리로 구현될 수 있다. 다만, 일 실시 예에 따르면, 메모리(110)는 상이한 타입의 데이터를 각각 저장하거나, 상이한 단계에서 생성되는 데이터를 각각 저장하는 복수의 메모리를 포함하도록 구현될 수도 있다.
통신 인터페이스(120)는 외부 장치(200)(이하, 제2 전자 장치)와 통신을 수행하는 구성 요소일 수 있다. 예를 들어 통신 인터페이스(120)는 AP 기반의 Wi-Fi(와이파이, Wireless LAN 네트워크), 블루투스(Bluetooth), 지그비(Zigbee), 유/무선 LAN(Local Area Network), WAN(Wide Area Network), 이더넷(Ethernet), IEEE 1394, HDMI(High-Definition Multimedia Interface), USB(Universal Serial Bus), MHL(Mobile High-Definition Link), AES/EBU(Audio Engineering Society/ European Broadcasting Union), 옵티컬(Optical), 코액셜(Coaxial) 등과 같은 통신 방식을 통해 외부 장치(예를 들어, 소스 장치), 외부 저장 매체(예를 들어, USB 메모리), 외부 서버(예를 들어 웹 하드) 등으로부터 스트리밍 또는 다운로드 방식으로 영상 신호를 전송하거나 수신할 수 있다.
상술한 실시 예에서는 다양한 데이터가 프로세서(130)의 외부 메모리(110)에 저장되는 것으로 설명하였으나, 상술한 데이터 중 적어도 일부는 제1 전자 장치(100) 또는 프로세서(130) 중 적어도 하나의 구현 예에 따라 프로세서(130) 내부 메모리에 저장될 수도 있다.
하나 이상의 프로세서(130)(이하, 프로세서)는 메모리(110)와 전기적으로 연결되어 제1 전자 장치(100)의 전반적인 동작을 제어한다. 하나 이상의 프로세서(130)는 하나 또는 복수의 프로세서로 구성될 수 있다. 여기서, 하나 또는 복수의 프로세서는 적어도 하나의 소프트웨어 또는 적어도 하나의 하드웨어 또는, 적어도 하나의 소프트웨어 및 적어도 하나의 하드웨어의 조합으로 구현될 수 있다. 일 예에 따라 하나 이상의 프로세서에 해당하는 소프트웨어 또는 하드웨어 로직이 하나의 칩 내에 구현될 수 있다. 일 예에 따라 복수의 프로세서 중 일부에 해당하는 소프트웨어 또는 하드웨어 로직은 하나의 칩 내에, 나머지에 해당하는 소프트웨어 또는 하드웨어 로직은 다른 칩 내에 구현될 수 있다.
구체적으로, 프로세서(130)는 메모리(110)에 저장된 적어도 하나의 인스트럭션(instruction)을 실행함으로써, 본 개시의 다양한 실시 예에 따른 제1 전자 장치(100)의 동작을 수행할 수 있다.
일 실시 예에 따라 프로세서(130)는 디지털 영상 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), GPU(Graphics Processing Unit), AI(Artificial Intelligence) 프로세서, NPU (Neural Processing Unit), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(130)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, ASIC(application specific integrated circuit), FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.
또한, 일 실시 예에 따른 신경망 모델을 실행하기 위한 프로세서(130)는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU(Neural Processing Unit)와 같은 인공 지능 전용 프로세서과 소프트웨어의 조합을 통해 구현될 수 있다. 프로세서(130)는, 메모리(110)에 저장된 기 정의된 동작 규칙 또는 신경망 모델에 따라, 입력 데이터를 처리하도록 제어할 수 있다. 또는, 프로세서(130)가 전용 프로세서(또는 인공 지능 전용 프로세서)인 경우, 특정 신경망 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다. 예를 들어, 특정 신경망 모델의 처리에 특화된 하드웨어는 ASIC, FPGA 등의 하드웨어 칩으로 설계될 수 있다. 프로세서(130)가 전용 프로세서로 구현되는 경우, 본 개시의 실시 예를 구현하기 위한 메모리를 포함하도록 구현되거나, 외부 메모리를 이용하기 위한 메모리 처리 기능을 포함하도록 구현될 수 있다.
일 실시 예에 따르면 프로세서(130)는 영상(예를 들어, 입력 영상)을 학습된 제1 신경망 모델을 이용하여 AI 부호화 영상을 획득하고, AI 부호화 영상을 인코딩(또는 제1 부호화 또는 비디오 부호화)하여 압축 영상(또는 인코딩 영상)을 획득할 수 있다. 여기서, 제1 신경망 모델은 일 예에 따라 제1 DNN으로 구현될 수 있으나, 이에 한정되는 것은 아니다. 다만, 이하에서는 설명의 편의를 위하여 제1 신경망 모델이 제1 DNN으로 구현되는 경우를 상정하도록 한다.
인코딩(또는 제1 부호화 또는 비디오 부호화) 과정은 압축 영상을 예측하여 예측 데이터를 생성하는 과정, 압축 영상과 예측 데이터 사이의 차이에 해당하는 잔차 데이터를 생성하는 과정, 공간 영역 성분인 잔차 데이터를 주파수 영역 성분으로 변환(transformation)하는 과정, 주파수 영역 성분으로 변환된 잔차 데이터를 양자화(quantization)하는 과정 및 양자화된 잔차 데이터를 엔트로피 부호화하는 과정 등을 포함할 수 있다. 이와 같은 인코딩 과정은 MPEG-2, H.264 AVC(Advanced Video Coding), MPEG-4, HEVC(High Efficiency Video Coding), VC-1, VP8, VP9 및 AV1(AOMedia Video 1) 등 주파수 변환을 이용한 영상 압축 방법 중의 하나를 통해 구현될 수 있다.
이어서, 프로세서(130)는 압축 영상 및 제1 신경망 모델과 관련된 AI 부호화 정보를 통신 인터페이스(120)를 통해 제2 전자 장치(200), 예를 들어, AI 복호화 장치로 전송할 수 있다. AI 부호화 정보는 압축 영상의 영상 데이터와 함께 전송될 수 있다. 또는, 구현 예에 따라 AI 부호화 정보는 프레임이나 패킷 형태로 영상 데이터와 구분되어 전송될 수도 있다. 영상 데이터 및 AI 부호화 정보는 동일한 네트워크 또는 서로 상이한 네트워크를 통해 전송될 수 있다.
여기서, AI 부호화 정보는, AI 부호화 처리 여부에 대한 정보 및 AI 부호화와 관련된 동작 설정 정보(이하, AI 부호화 동작 설정 정보 또는 제1 DNN 동작 설정 정보)를 포함할 수 있다. 예를 들어, AI 부호화 동작 설정 정보는 제1 신경망 모델(또는 제1 DNN)의 레이어 개수 정보, 레이어 별 채널 개수 정보, 필터 크기 정보, 스트라이드(Stride) 정보, 풀링(puliing) 정보 또는 파라미터 정보 중 적어도 하나를 포함할 수 있다.
일 예에 따라 제1 신경망 모델, 예를 들어, 제1 DNN은 송/수신 단말에서의 영상 크기, 네트워크 상태, 코덱 종류 등에 기초하여 학습될 수 있다. 또한, 제1 DNN은 부호화 과정 뿐 아니라, AI 복호화 장치에서 이용되는 제2 신경망 모델의 복호화 과정과 연계되어 학습될 수 있다. 예를 들어, 부호화 과정 및 복호화 과정에서의 다운스케일/업스케일 및 압축/복원에서 발생 가능한 데이터 소실, 및 시각적 인지 열화 등을 최소화하도록 상호 연계되어 학습될 수 있다. 도 3은 일 실시 예에 따른 AI 코덱 DNN의 동작 설정 정보의 예시를 나타낸다. 예를 들어, 입력 영상이 UHD이고 비트율이 15Mbps이면, AI 부호화에는 2160P_DNN 동작 설정 정보가 이용되고 비디오 부호화/복호화에는 HEVC가 이용될 수 있다. 또는, 영상이 HD이고 비트율이 3Mbps이면 AI 부호화에는 720P_DNN 동작 설정 정보가 이용되고 비디오 부호화/복호화에는 H.264가 이용될 수 있다.
도 4는 일 실시 예에 따른 제1 전자 장치의 동작을 설명하기 위한 흐름도이다.
도 4에 따르면, 프로세서(130)는 픽셀 정보를 포함하는 제1 영상에 기초하여 휘도 정보를 포함하는 제2 영상을 획득할 수 있다(S410). 예를 들어, 픽셀 정보는 R/G/B 정보일 수 있으며, 이에 따라 제1 영상은 RGB 영상으로 구현될 수 있다. 휘도 정보는 Y 값을 포함할 수 있으며, 이에 따라 제2 영상은 Y 값을 포함하는 다양한 영상으로 구현될 수 있다. 예를 들어, 제2 영상은 RGB-Y 영상일 수 있으나, 반드시 이에 한정되는 것은 아니다.
이어서, 프로세서(130)는 제2 영상을 제1 신경망 모델에 입력하여 휘도 잔차 정보를 포함하는 제1 잔차 영상을 획득할 수 있다(S420). 여기서, 제1 신경망 모델은 휘도 정보를 포함하는 포함하는 영상이 입력되면 대응되는 휘도 잔차 영상을 출력하도록 학습된 모델일 수 있다. 예를 들어, 제1 신경망 모델은 AI 부호화를 통해 영상을 다운샘플링(downsampling)하여 휘도 잔차 영상을 출력하도록 학습된 모델일 수 있다. 휘도 잔차 영상(residual image)은 휘도 잔차 정보 만을 포함하는 영상을 의미할 수 있다. 여기서, 휘도 잔차 정보는 입력 영상(예를 들어, 제2 영상)과 기준 영상의 휘도 차이에 따른 정보를 포함할 수 있다. 예를 들어, 휘도 잔차 정보는 YUV(휘도 Y와 색차 U/V) 잔차 정보를 포함할 수 있다.
일 예에 따라 프로세서(130)는 제2 영상(또는/및 제1 영상)의 영상 크기 정보, 네트워크 상태 정보 및 코덱 타입 정보 중 적어도 하나에 기초하여 제1 신경망 모델의 동작 설정 정보를 식별할 수 있다. 일 예에 따라 제2 영상의 영상 크기 정보, 네트워크 상태 정보, 코덱 타입 정보 및 외부 장치 즉, 제2 전자 장치(200)의 AI 복호화 정보에 기초하여 제1 신경망 모델의 동작 설정 정보를 식별할 수 있다. 여기서, 제2 전자 장치(200)의 AI 복호화 정보는 제2 전자 장치(200)에서 AI 복호화에 이용되는 제2 신경망 모델의 동작 설정 정보를 포함할 수 있다. 한편, 제1 신경망 모델은 제2 신경망 모델의 동작 설정 정보와 연계되어 학습될 수 있다.
이어서, 프로세서(130)는 식별된 동작 설정 정보가 적용된 제1 신경망 모델을 식별할 수 있다. 여기서, 동작 설정 정보는, 제1 신경망 모델의 레이어 개수 정보, 레이어 별 채널 개수 정보, 필터 크기 정보, 스트라이드(Stride) 정보, 풀링(puliing) 정보 또는 파라미터 정보 중 적어도 하나를 포함할 수 있다.
이어서, 프로세서(130)는 제1 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 제2 잔차 영상을 획득할 수 있다(S430). 예를 들어, 프로세서(120)는 제1 잔차 영상에 포함된 휘도 잔차 정보를 픽셀 잔차 정보로 변환하여 제2 잔차 영상을 획득할 수 있다. 예를 들어, 휘도 잔차 정보는 YUV 잔차 정보를 포함할 수 있다. 일 예에 따라 프로세서(130)는 제1 잔차 영상에 포함된 Y 값, U 값 및 V 값에 변환 게인을 적용하여 R 값, G 값 및 B 값을 획득하고, 획득된 R 값, G 값 및 B 값을 픽셀 잔차 정보로 획득할 수 있다.
이어서, 프로세서(130)는 제1 영상 및 제2 잔차 영상에 기초하여 AI 부호화 영상을 획득할 수 있다(S440).
이어서, 프로세서(130)는 AI 부호화 영상을 인코딩하여 압축 영상을 획득할 수 있다(S450). 예를 들어, 프로세서(130)는 AI 부호화 영상을 이진 데이터 형식의 압축 영상으로 변환하여 압축 영상을 획득할 수 있다. 예를 들어, 영상의 압축은 통상의 비디오 압축 방식, 예를 들어, H.264, HEVC, VP9, AV1, VVC 등에 따라 이루어질 수 있다. 다만, 이에 한정되는 것은 아니며 MPEG(Moving Picture Experts Group)(예를 들어, MP2, MP4, MP7 등), JPEG(joint photographic coding experts group), AVC(Advanced Video Coding), H.264, H.265, HEVC(High Efficiency Video Codec)), VC-1, VP8, VP9 및 AV1(AOMedia Video 1), VC-1, VP8, VP9 및 AV1(AOMedia Video 1) 등의 다양한 압축 방법 중 하나를 통해 AI 부호화 영상에 대한 인코딩이 이루어질 수 있다.
이 후, 프로세서(130)는 획득된 압축 영상을 제2 전자 장치(200)로 전송할 수 있다(S460). 일 예에 따라 프로세서(130)는 압축 영상 및 AI 부호화 정보를 제2 전자 장치(200)로 전송할 수 있다. AI 부호화 정보는 압축 영상의 영상 데이터와 함께 전송될 수 있다. 또는, 구현 예에 따라 AI 부호화 정보는 프레임이나 패킷 형태로 영상 데이터와 구분되어 전송될 수도 있다. 영상 데이터 및 AI 부호화 정보는 동일한 네트워크 또는 서로 상이한 네트워크를 통해 전송될 수 있다. 여기서, AI 부호화 정보는, AI 부호화 처리 여부에 대한 정보 및 AI 부호화와 관련된 동작 설정 정보(이하, AI 부호화 동작 설정 정보 또는 제1 DNN 동작 설정 정보)를 포함할 수 있다. 예를 들어, AI 부호화 동작 설정 정보는 제1 신경망 모델(또는 제1 DNN)의 레이어 개수 정보, 레이어 별 채널 개수 정보, 필터 크기 정보, 스트라이드(Stride) 정보, 풀링(puliing) 정보 또는 파라미터 정보 중 적어도 하나를 포함할 수 있다.
도 5는 일 실시 예에 따른 제1 전자 장치의 동작을 설명하기 위한 흐름도이다.
도 5에 따르면, 프로세서(130)는 픽셀 정보를 포함하는 제1 영상을 다운스케일링하여 제3 영상을 획득할 수 있다(S510). 일 예에 따라 프로세서(130)는 제1 신경망 모델의 다운 샘플링 비율에 기초하여 제1 영상의 다운스케일링 비율을 결정할 수 있다. 여기서, 다운스케일링 방식으로는, 예를 들어 bilinear interpolation, nearest neighbor interpolation, bicubic interpolation, deconvolution interpolation, subpixel convolution interpolation, polyphase interpolation, trilinear interpolation, linear interpolation 중 적어도 하나의 보간 기법이 이용될 수 있다.
프로세서(130)는 제1 영상에 기초하여 휘도 정보를 포함하는 제2 영상을 획득할 수 있다(S515). S515 단계는 도 4에 도시된 S410 단계와 동일하므로 자세한 설명은 생략하도록 한다.
프로세서(130)는 제2 영상을 제1 신경망 모델에 입력하여 휘도 잔차 정보를 포함하는 제1 잔차 영상을 획득할 수 있다(S520). 일 예에 따라 프로세서(130)는 제2 영상을 제1 신경망 모델에 입력하여 AI 부호화를 통해 다운 샘플링(downsampling)된 제1 잔차 영상을 획득할 수 있다. 예를 들어, 제1 잔차 영상은 S510 단계의 다운스케일링 비율과 동일한 비율로 다운샘플링된 영상일 수 있다.
프로세서(130)는 제1 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 제2 잔차 영상을 획득할 수 있다(S530). S530 단계는 도 4에 도시된 S430 단계와 동일하므로 자세한 설명은 생략하도록 한다.
프로세서(130)는 S510 단계에서 획득된 제3 영상 및 제2 잔차 영상에 기초하여 AI 부호화 영상을 획득할 수 있다(S540). 일 예로, 프로세서(130)는 제3 영상에 포함된 픽셀 값 및 제2 잔차 영상에 포함된 픽셀 값을 더하여 AI 부호화 영상을 획득할 수 있다. 예를 들어, 프로세서(130)는 제3 영상에 포함된 픽셀 값 및 제2 잔차 영상에 포함된 대응되는 픽셀 값 각각을 더하여 제3 영상 및 제2 잔차 영상의 크기와 동일한 AI 부호화 영상을 획득할 수 있다.
프로세서(130)는 AI 부호화 영상을 인코딩하여 압축 영상을 획득할 수 있다(S550). S550 단계는 도 4에 도시된 S450 단계와 동일하므로 자세한 설명은 생략하도록 한다.
이 후, 프로세서(130)는 획득된 압축 영상을 제2 전자 장치(200)로 전송할 수 있다(S560). S560 단계는 도 4에 도시된 S460 단계와 동일하므로 자세한 설명은 생략하도록 한다.
도 6 및 도 7은 일 실시 예에 따른 AI 부호화 영상을 생성 방법을 자세히 설명하기 위한 도면들이다.
도 6에 따르면, 프로세서(130)는 입력 영상, 예를 들어, RGB 영상(50)(제1 영상)을 Normal downscaler(610)를 이용하여 다운스케일링하여 다운스케일링된 RGB 영상(제3 영상)을 획득할 수 있다. 또한, 프로세서(130)는 RGB2Y 변환부(620)를 이용하여 입력 영상 즉, RGB 영상(50)(제1 영상)을 휘도 정보를 포함하는 RGB-Y 영상(제2 영상)으로 변환할 수 있다. RGB2Y 변환부(620)는 RGB를 포함한 복수 개의 색 채널에 대한 휘도 정보를 획득할 수 있다.
프로세서(130)는 RGB-Y 변환 영상(제2 영상)을 AI 부호화를 위한 제1 신경망 모델(630)에 입력하여 AI 부호화 Y 잔차 영상(제1 잔차 영상)을 획득할 수 있다. 여기서, AI 부호화 Y 잔차 영상은 휘도에 대한 AI 부호화 잔차 영상일 수 있다. 예를 들어, 제1 신경망 모델(630)은 도 7에 도시된 바와 같이 RGB-Y 변환 영상(제2 영상)이 입력되면 AI 부호화를 통해 AI 부호화 Y 잔차 영상(제1 잔차 영상)를 출력하도록 학습된 모델일 수 있다. 예를 들어, 제1 신경망 모델(630)은 AI 부호화를 처리하기 위한 ResNet 기반의 심층 신경망 구조일 수 있다. 복수 개의 평행한 레이어들로 구성된 네트워크와 xReLu 활성 함수로 배열되고, 이전 레이어의 CNN 결과가 다음 레이어의 입력으로 더해지고 레이어의 크기는 확장될 수 있다. 도시된 바와 같이 각 레이어는 8개 채널, 5x5 필터를 이용하여 연쇄적인 CNN 처리를 통해 AI 부호화 잔차 영상을 생성할 수 있으나, 이에 한정되는 것은 아니다.
프로세서(130)는 Y-RGB 보정값 획득부(640)를 이용하여 AI 부호화 Y 잔차 영상(제1 잔차 영상)으로부터 Y-RGB 보정 영상(제2 잔차 영상)을 획득할 수 있다. 예를 들어, Y-RGB 보정값 획득부(640)는 입력 RGB 영상에 포함된 픽셀 값에 대해 기 정의된 수학식, 알고리즘 등을 적용하여 Y-RGB 보정 영상을 획득할 수 있다. Y-RGB 보정 영상은 AI 부호화 Y 잔차 영상을 원 색역으로 변환할 때의 휘도 신호의 기여분에 해당하는 보정 값을 포함하는 영상일 수 있다.
일 예에 따라 하기 수학식 1과 같은 BT.709의 변환식을 이용하는 경우, Y-RGB 보정값 획득부(640)는 AI 부호화 Y 잔차 영상(제1 잔차 영상)의 각 R/G/B 채널에 대한 보정 비율은 1:1:1이고 Y 잔차 영상은 스케일링될 수 있게 된다.
Figure PCTKR2023006654-appb-img-000001
프로세서(130)는 다운스케일링된 RGB 영상(제3 영상) 및 Y-RGB 보정 영상(제2 잔차 영상)의 픽셀 값을 더하여 AI 부호화 영상(60)(RGB 영상)을 획득할 수 있다.
일 실시 예에 따르면, 제1 신경망 모델은 제2 전자 장치(200)에 구비된 제2 신경망 모델 즉, AI 업스케일링을 수행하는 모델과 연계하여 학습될 수 있다. 즉, 제1 신경망 모델은, 제2 신경망 모델의 동작 설정 정보와 연계되어 학습될 수 있다. 이는 AI 다운스케일을 위한 신경망 모델과 AI 업스케일링을 위한 신경망 모델이 분리 학습되는 경우, AI 부호화 대상 영상과 제2 전자 장치(200)에서 AI 복호화를 통해 복원된 영상 간 차이가 커질 수 있기 때문이다.
일 실시 예에 따르면, 제1 전자 장치(100)의 AI 부호화 과정 및 제2 전자 장치(200)의 AI 복호화 과정에서 이러한 연계 관계를 유지하기 위해, AI 복호화 정보 및 AI 부호화 정보를 이용할 수 있다. 따라서, AI 부호화 과정을 통해 획득된 AI 부호화 정보는 업스케일 타겟 정보를 포함하고, AI 복호화 과정에서는 AI 부호화 정보에 기초하여 확인되는 업스케일 타겟 정보에 따라 영상을 업스케일링할 수 있다. 여기서, AI 부호화 정보는 영상의 AI 부호화 처리 여부, 타겟 업스케일 해상도를 포함할 수 있다.
일 예에 따라 AI 다운스케일링을 위한 신경망 모델 및 AI 업스케일링을 위한 신경망 모델은 DNN(deep neural network)으로 구현될 수 있다. 예를 들어, AI 다운스케일을 위한 제1 DNN 및 AI 업스케일을 위한 제2 DNN은 소정 타겟 하에 손실 정보의 공유를 통해 연계 학습되므로, 제1 전자 장치(100) 즉, AI 부호화 장치는 제1 DNN 및 제2 DNN이 연계 훈련할 때 이용된 타겟 정보를 제2 전자 장치(200), 즉, AI 복호화 장치로 제공하고, 외부 장치 즉, AI 복호화 장치는 제공받은 타겟 정보에 기초하여 영상을 타겟해상도로 AI 업스케일링할 수 있다.
한편, 도 2에는 도시되지 않았지만, 제1 전자 장치(100)는 구현 형태에 따라 디스플레이(미도시), 사용자 인터페이스(미도시), 스피커(미도시), 카메라(미도시) 등의 구성요소를 더 포함할 수 있음은 물론이다.
도 8은 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.
도 8에 따르면, 전자 장치(200)는 메모리(210), 통신 인터페이스(220) 및 프로세서(230)를 포함한다.
일 실시 예에 따르면, 전자 장치(200)(이하, 제2 전자 장치)는 TV 로 구현될 수 있으나, 이에 한정되는 것은 아니며 스마트 폰, 태블릿 PC, 노트북 PC, 콘솔(consol), 셋탑(set-top), 모니터, PC, 카메라, 캠코더, LFD(large format display), Digital Signage(디지털 간판), DID(Digital Information Display), 비디오 월(video wall)등과 같이 영상 처리 및/또는 디스플레이 기능을 갖춘 장치라면 한정되지 않고 적용 가능하다. 일 예에 따라 제2 전자 장치(200)는 수신 장치로 기능하며 도 2에 도시된 제1 전자 장치(100)로부터 수신된 AI 부호화 영상을 AI 복호화하여 표시할 수 있다.
메모리(210), 통신 인터페이스(220) 및 프로세서(230)의 구현 형태는 도 2에 도시된 구현 형태와 동일/유사하므로 자세한 설명은 생략하도록 한다.
일 예에 따라, 메모리(210)는 복수의 레이어를 포함하는 신경망 모델(또는 신경망 모델)에 관한 정보를 저장할 수 있다. 여기서, 신경망 모델에 관한 정보를 저장한다는 것은 신경망 모델의 동작과 관련된 다양한 정보, 예를 들어 신경망 모델에 포함된 복수의 레이어에 대한 정보, 복수의 레이어 각각에서 이용되는 파라미터(예를 들어, 필터 계수, 바이어스 등)에 대한 정보 등을 저장한다는 것을 의미할 수 있다. 예를 들어, 메모리(210)는 일 실시 예에 따라 AI 복호화를 수행하도록 학습된 제2 신경망 모델에 대한 정보를 저장할 수 있다. 여기서, 제2 신경망 모델은, 예를 들어, DNN(Deep Neural Network), CNN (Convolutional Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등으로 구현될 수 있으나, 이에 한정되지 않는다.
일 예에 따라, 메모리(210)는 화질 처리에 필요한 다양한 정보, 예를 들어 Noise Reduction, Detail Enhancement, Tone Mapping, Contrast Enhancement, Color Enhancement 또는 Frame rate Conversion 중 적어도 하나를 수행하기 위한 정보, 알고리즘, 화질 파라미터 등을 저장할 수 있다. 또한, 메모리(210)는 제1 전자 장치(100)로부터 수신된 AI 부호화 영상 또는/및 영상 처리에 의해 생성된 최종 출력 영상을 저장할 수도 있다.
프로세서(230)는 입력 영상을 영상 처리하여 출력 영상을 획득한다. 여기서, 입력 영상 또는 출력 영상은 정지 영상, 복수의 연속된 정지 영상(또는 프레임), 또는 비디오를 포함할 수 있다. 영상 처리는 영상 개선(image enhancement), 영상 복원(image restoration), 영상 변환(image transformation), 영상 분석(image analysis), 영상 인식(image understanding) 또는 영상 압축(image compression) 중 적어도 하나를 포함하는 디지털 영상 처리가 될 수 있다. 일 예에 따라 입력 영상이 AI 부호화 처리된 압축 영상인 경우 프로세서(230)는 압축 영상을 디코딩 및 AI 복호화하여 압축 해제한 후 영상 처리할 수 있다. 일 실시 예에 따라, 프로세서(120)는 신경망 모델을 이용하여 입력 영상을 영상 처리할 수 있다. 예를 들어, 프로세서(120)는 신경망 모델을 이용하기 위하여, 메모리(210), 예를 들어 DRAM과 같은 외부 메모리에 저장된 신경망 모델 관련 정보를 로딩하여 이용할 수 있다.
도 9는 일 실시 예에 따른 제2 전자 장치의 동작을 설명하기 위한 흐름도이다.
프로세서(230)는 통신 인터페이스(220)를 통해 압축 영상 및 AI 부호화 정보를 수신할 수 있다(S910). 예를 들어, 프로세서(230)는 도 2에 도시된 제1 전자 장치(100)로부터 압축 영상 및 AI 부호화 정보를 수신할 수 있다.
이어서, 프로세서(230)는 압축 영상을 디코딩(또는 제1 복호화 또는 비디오 복호화)하여 압축 해제 영상(또는 디코딩 영상)(이하, 제4 영상)을 획득할 수 있다(S920). 여기서, 제4 영상을 픽셀 정보를 포함하는 영상, 예를 들어 RGB 영상일 수 있다.
디코딩(또는 제1 복호화 또는 비디오 복호화) 과정은 영상 데이터를 엔트로피 복호화하여 양자화된 잔차 데이터를 생성하는 과정, 양자화된 잔차 데이터를 역양자화하는 과정, 주파수 영역 성분의 잔차 데이터를 공간 영역 성분으로 변환하는 과정, 예측 데이터를 생성하는 과정 및 예측 데이터와 잔차 데이터를 이용하여 압축 해제 영상을 복원하는 과정 등을 포함할 수 있다. 이와 같은 디코딩 과정(또는 제1 복호화)은 외부 제1 전자 장치(100)의 인코딩 과정(또는 제1 부호화)에서 사용된 MPEG-2, H.264, MPEG-4, HEVC, VC-1, VP8, VP9 및 AV1 등 주파수 변환을 이용한 영상 압축 방법 중의 하나에 대응되는 영상 복원 방법을 통해 구현될 수 있다.
이어서, 프로세서(230)는 픽셀 정보를 포함하는 제4 영상에 기초하여 휘도 정보를 포함하는 제5 영상을 획득할 수 있다(S930). 예를 들어, 픽셀 정보는 R/G/B 정보일 수 있으며, 이에 따라 제4 영상은 RGB 영상으로 구현될 수 있다. 휘도 정보는 Y 값을 포함할 수 있으며, 이에 따라 제5 영상은 Y 값을 포함하는 다양한 영상으로 구현될 수 있다. 예를 들어, 제5 영상은 RGB-Y 영상일 수 있으나, 반드시 이에 한정되는 것은 아니다.
이어서, 프로세서(230)는 AI 부호화 정보에 기초하여 제2 신경망 모델을 식별하고, 제5 영상을 제2 신경망 모델에 입력하여 휘도 잔차 정보를 포함하는 휘도 잔차 영상(이하, 제3 잔차 영상)을 획득할 수 있다(S940). 여기서, AI 부호화 정보는 제1 전자 장치(100)에서 AI 부호화에 이용되는 제1 신경망 모델의 동작 설정 정보를 포함할 수 있다. 제2 신경망 모델은 휘도 정보를 포함하는 포함하는 영상이 입력되면 대응되는 휘도 잔차 영상을 출력하도록 학습된 모델일 수 있다. 예를 들어, 제2 신경망 모델은 AI 복호화를 통해 영상을 업샘플링(downsampling)하여 휘도 잔차 영상을 출력하도록 학습된 모델일 수 있다. 휘도 잔차 영상(residual image)은 휘도 잔차 정보 만을 포함하는 영상을 의미할 수 있다. 예를 들어, 휘도 잔차 정보는 YUV 잔차 정보를 포함할 수 있다. 일 예에 따라 프로세서(130)는 제5 영상(또는/및 제4 영상)의 영상 크기 정보, 네트워크 상태 정보 및 코덱 타입 정보 중 적어도 하나에 기초하여 제1 신경망 모델의 동작 설정 정보를 식별할 수 있다. 일 예에 따라 제5 영상의 영상 크기 정보, 네트워크 상태 정보, 코덱 타입 정보 및 제1 전자 장치(100)의 AI 부호화 정보에 기초하여 제2 신경망 모델의 동작 설정 정보를 식별할 수 있다.
이어서, 프로세서(230)는 제3 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 제4 잔차 영상을 획득할 수 있다(S950). 예를 들어, 프로세서(120)는 제3 잔차 영상에 포함된 휘도 잔차 정보를 픽셀 잔차 정보로 변환하여 제4 잔차 영상을 획득할 수 있다. 예를 들어, 휘도 잔차 정보는 YUV 잔차 정보를 포함할 수 있다. 일 예에 따라 프로세서(230)는 제3 잔차 영상에 포함된 Y 값, U 값 및 V 값에 변환 게인을 적용하여 R 값, G 값 및 B 값을 획득하고, 획득된 R 값, G 값 및 B 값을 픽셀 잔차 정보로 획득할 수 있다.
이 후, 프로세서(130)는 제4 영상 및 제4 잔차 영상에 기초하여 AI 복호화 영상을 획득할 수 있다(S960).
도 10은 일 실시 예에 따른 제2 전자 장치의 동작을 설명하기 위한 흐름도이다.
도 10에 따르면, 프로세서(230)는 통신 인터페이스(220)를 통해 압축 영상 및 AI 부호화 정보를 수신할 수 있다(S1010). 예를 들어, 프로세서(230)는 도 2에 도시된 제1 전자 장치(100)로부터 압축 영상 및 AI 부호화 정보를 수신할 수 있다.
이어서, 프로세서(230)는 압축 영상을 디코딩(또는 제1 복호화 또는 비디오 복호화)하여 압축 해제 영상(또는 디코딩 영상)(이하, 제4 영상)을 획득할 수 있다(S1020). 여기서, 제4 영상을 픽셀 정보를 포함하는 영상, 예를 들어 RGB 영상일 수 있다.
이어서, 프로세서(230)는 픽셀 정보를 포함하는 제4 영상에 기초하여 휘도 정보를 포함하는 제5 영상을 획득하고, 제4 영상을 업스케일링하여 제6 영상을 획득할 수 있다(S1030). 예를 들어, 픽셀 정보는 R/G/B 정보일 수 있으며, 이에 따라 제4 영상은 RGB 영상으로 구현될 수 있다. 휘도 정보는 Y 값을 포함할 수 있으며, 이에 따라 제5 영상은 Y 값을 포함하는 다양한 영상으로 구현될 수 있다. 예를 들어, 제5 영상은 RGB-Y 영상일 수 있으나, 반드시 이에 한정되는 것은 아니다. 일 예에 따라 프로세서(130)는 제2 신경망 모델의 업샘플링 비율에 기초하여 제4 영상의 업스케일링 비율을 결정할 수 있다.
이어서, 프로세서(230)는 AI 부호화 정보에 기초하여 제2 신경망 모델을 식별하고, 제5 영상을 제2 신경망 모델에 입력하여 휘도 잔차 정보를 포함하는 휘도 잔차 영상(이하, 제3 잔차 영상)을 획득할 수 있다(S1040). 여기서, 제2 신경망 모델은, AI 복호화를 통해 영상을 업샘플링(upsampling)을 수행하도록 학습된 모델일 수 있다. 이에 따라 프로세서(230)는 제5 영상을 제2 신경망 모델에 입력하여 AI 복호화를 통해 업샘플링(upsampling)된 제3 잔차 영상을 획득할 수 있다.
이어서, 프로세서(230)는 제3 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 제4 잔차 영상을 획득할 수 있다(S1050). S1050 단계는 S950 단계와 동일하므로 자세한 설명을 생략하도록 한다.
이 후, 프로세서(130)는 제6 영상 및 제4 잔차 영상에 기초하여 AI 복호화 영상을 획득할 수 있다(S1060). 일 예로, 프로세서(230)는 제6 영상에 포함된 픽셀 값 및 제4 잔차 영상에 포함된 픽셀 값을 더하여 AI 복호화 영상을 획득할 수 있다. 예를 들어, 프로세서(130)는 제6 영상에 포함된 픽셀 값 및 제4 잔차 영상에 포함된 대응되는 픽셀 값 각각을 더하여 제6 영상 및 제4 잔차 영상의 크기와 동일한 AI 복호화 영상을 획득할 수 있다.
도 11은 일 실시 예에 따른 AI 부호화 영상을 생성 방법을 자세히 설명하기 위한 도면들이다.
도 11에 따르면, 프로세서(130)는 복원 영상(70)을 Normal upscaler(1110)를 이용하여 업스케일링하여 업스케일링된 RGB 영상(제6 영상)을 획득할 수 있다.. 여기서, 복원 영상(70)은 제1 전자 장치(100)로부터 수신된 압축 영상을 디코딩(또는 제1 복호화 또는 비디오 복호화)하여 획득된 압축 해제 영상(또는 디코딩 영상)(제4 영상)일 수 있다.
또한, 프로세서(130)는 RGB2Y 변환부(1120)를 이용하여 입력 영상 즉, 본원 영상(70)(제4 영상)을 휘도 정보를 포함하는 RGB-Y 영상(제5 영상)으로 변환할 수 있다. RGB2Y 변환부(1120)는 RGB를 포함한 복수 개의 색 채널에 대한 휘도 정보를 획득할 수 있다.
프로세서(130)는 RGB-Y 변환 영상(제5 영상)을 AI 복호화를 위한 제2 신경망 모델(1130)에 입력하여 AI 부호화 Y 잔차 영상(제3 잔차 영상)을 획득할 수 있다. 여기서, AI 부호화 Y 잔차 영상은 휘도에 대한 AI 부호화 잔차 영상일 수 있다. 예를 들어, 제2 신경망 모델(1130)은 RGB-Y 변환 영상(제5 영상)이 입력되면 AI 부호화를 통해 AI 부호화 Y 잔차 영상(제3 잔차 영상)를 출력하도록 학습된 모델일 수 있다. 제2 신경망 모델(1130)은 도 7에 도시된 제1 신경망 모델과 유사한 구조일 수 있다.
프로세서(130)는 Y-RGB 보정값 획득부(1140)를 이용하여 AI 부호화 Y 잔차 영상(제3 잔차 영상)으로부터 Y-RGB 보정 영상(제4 잔차 영상)을 획득할 수 있다. 예를 들어, Y-RGB 보정값 획득부(1140)는 입력 RGB 영상에 포함된 픽셀 값에 대해 기 정의된 수학식, 알고리즘 등을 적용하여 Y-RGB 보정 영상을 획득할 수 있다. Y-RGB 보정 영상은 AI 부호화 Y 잔차 영상을 원 색역으로 변환할 때의 휘도 신호의 기여분에 해당하는 보정 값을 포함하는 영상일 수 있다.
일 예에 따라 상기 수학식 1과 같은 BT.709의 변환식을 이용하는 경우, Y-RGB 보정값 획득부(1140)는 AI 부호화 Y 잔차 영상(제3 잔차 영상)의 각 R/G/B 채널에 대한 보정 비율은 1:1:1이고 Y 잔차 영상은 스케일링될 수 있게 된다.
프로세서(130)는 업스케일링된 RGB 영상(제6 영상) 및 Y-RGB 보정 영상(제4 잔차 영상)의 픽셀 값을 더하여 AI 복호화 영상(80)(RGB 영상)을 획득할 수 있다.
한편, 도 8에는 도시되지 않았지만, 제2 전자 장치(200)는 구현 형태에 따라 디스플레이(미도시), 사용자 인터페이스(미도시), 스피커(미도시), 카메라(미도시) 등의 구성요소를 더 포함할 수 있음은 물론이다.
상술한 다양한 실시 예들에 따르면, 다양한 삼차원 색 좌표에 대응할 수 있는 AI 부호화/복호화 방법을 제공하고 처리량을 감소시으로써 부호화 및 복호화 효율을 향상시킬 수 있게 된다. 구체적으로, 휘도 변환이 가능한 다양한 삼차원 색 좌표계에 대응 가능하면서 YUV 영상에 대한 종래 처리 과정은 유지할 수 있게 된다. 또한, 신경망 모델 파라미터는 색역에 구분없이 공통적으로 이용할 수 있어 처리 복잡도는 증가하지 않게 된다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 설치 가능한 어플리케이션 형태로 구현될 수 있다. 또는 상술한 본 개시의 다양한 실시 예들에 따른 방법들 중 적어도 일부는 딥 러닝 기반의 인공 지능 모델 즉, 학습 네트워크 모델을 이용하여 수행될 수 있다.
또한, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다.
또한, 상술한 본 개시의 다양한 실시 예들은 전자 장치에 구비된 임베디드 서버, 또는 전자 장치의 외부 서버를 통해 수행되는 것도 가능하다.
한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치(예: 전자 장치(A))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 본 개시의 일 실시 예에 따르면, 이상에서 설명된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
또한, 상술한 다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (15)

  1. AI 부호화를 이용하여 영상을 처리하는 전자 장치에 있어서,
    학습된 제1 신경망 모델이 저장된 메모리;
    통신 인터페이스; 및
    픽셀 정보를 포함하는 제1 영상에 기초하여 휘도 정보를 포함하는 제2 영상을 획득하고,
    상기 제2 영상을 상기 제1 신경망 모델에 입력하여 휘도 잔차 정보를 포함하는 제1 잔차 영상을 획득하고,
    상기 제1 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 제2 잔차 영상을 획득하고,
    상기 제1 영상 및 상기 제2 잔차 영상에 기초하여 AI 부호화 영상을 획득하고,
    상기 AI 부호화 영상을 인코딩하여 획득된 압축 영상을 상기 통신 인터페이스를 통해 외부 장치로 전송하는 하나 이상의 프로세서;를 포함하는, 전자 장치.
  2. 제1항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 제2 영상의 영상 크기 정보, 네트워크 상태 정보 및 코덱 타입 정보 중 적어도 하나에 기초하여 상기 제1 신경망 모델의 동작 설정 정보를 식별하고,
    상기 식별된 동작 설정 정보가 적용된 상기 제1 신경망 모델에 상기 제2 영상을 입력하며,
    상기 동작 설정 정보는,
    상기 제1 신경망 모델의 레이어 개수 정보, 레이어 별 채널 개수 정보, 필터 크기 정보, 스트라이드(Stride) 정보, 풀링(puliing) 정보 또는 파라미터 정보 중 적어도 하나를 포함하는, 전자 장치.
  3. 제2항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 제2 영상의 영상 크기 정보, 네트워크 상태 정보, 코덱 타입 정보 및 상기 외부 장치의 AI 복호화 정보에 기초하여 상기 제1 신경망 모델의 동작 설정 정보를 식별하며,
    상기 외부 장치의 AI 복호화 정보는,
    상기 외부 장치에서 AI 복호화에 이용되는 제2 신경망 모델의 동작 설정 정보를 포함하고,
    상기 제1 신경망 모델은,
    상기 제2 신경망 모델의 동작 설정 정보와 연계되어 학습되는, 전자 장치.
  4. 제1항 또는 제2항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 제1 영상을 다운스케일링(downscaling)하여 제3 영상을 획득하고,
    상기 제3 영상 및 상기 제2 잔차 영상에 기초하여 상기 AI 부호화 영상을 획득하는, 전자 장치.
  5. 제4항에 있어서,
    상기 제1 신경망 모델은,
    AI 부호화를 통해 영상을 다운샘플링(downsampling)을 수행하도록 학습된 모델이며,
    상기 하나 이상의 프로세서는,
    상기 제2 영상을 상기 제1 신경망 모델에 입력하여 AI 부호화를 통해 다운 샘플링(downsampling)된 상기 제1 잔차 영상을 획득하고,
    상기 제1 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 상기 제2 잔차 영상을 획득하고,
    상기 제3 영상에 포함된 픽셀 값 및 상기 제2 잔차 영상에 포함된 픽셀 값을 더하여 상기 AI 부호화 영상을 획득하는, 전자 장치.
  6. 제1항 또는 제2항에 있어서,
    상기 휘도 잔차 정보는 YUV 잔차 정보를 포함하며,
    상기 하나 이상의 프로세서는,
    상기 제1 잔차 영상에 포함된 Y 값, U 값 및 V 값에 변환 게인을 적용하여 R 값, G 값 및 B 값을 획득하고,
    상기 획득된 R 값, G 값 및 B 값을 상기 픽셀 잔차 정보로 획득하는, 전자 장치.
  7. AI 복호화를 이용하여 영상을 처리하는 전자 장치에 있어서,
    학습된 제2 신경망 모델이 저장된 메모리;
    통신 인터페이스; 및
    상기 통신 인터페이스를 통해 압축 영상 및 AI 부호화 정보를 수신하고,
    상기 압축 영상을 디코딩하여 픽셀 정보를 포함하는 제4 영상을 획득하고,
    상기 제4 영상에 기초하여 휘도 정보를 포함하는 제5 영상을 획득하고,
    상기 제5 영상을 상기 AI 부호화 정보에 기초하여 식별된 제2 신경망 모델에 입력하여 휘도 잔차 정보를 포함하는 제3 잔차 영상을 획득하고,
    상기 제3 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 제4 잔차 영상을 획득하고,
    상기 제4 영상 및 상기 제4 잔차 영상에 기초하여 AI 복호화 영상을 획득하는 하나 이상의 프로세서;를 포함하는 전자 장치.
  8. 제7항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 AI 부호화 정보에 기초하여 상기 제2 신경망 모델의 동작 설정 정보를 식별하고,
    상기 식별된 동작 설정 정보가 적용된 상기 제2 신경망 모델에 상기 제5 영상을 입력하며,
    상기 동작 설정 정보는,
    상기 제2 신경망 모델의 레이어 개수 정보, 레이어 별 채널 개수 정보, 필터 크기 정보, 스트라이드(Stride) 정보, 풀링(puliing) 정보 또는 파라미터 정보 중 적어도 하나를 포함하는, 전자 장치.
  9. 제7항 또는 제8항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 제4 영상을 업스케일링(upscaling)하여 제6 영상을 획득하고,
    상기 제6 영상 및 상기 제4 잔차 영상에 기초하여 상기 AI 복호화 영상을 획득하는, 전자 장치.
  10. 제9항에 있어서,
    상기 제2 신경망 모델은,
    AI 복호화를 통해 영상을 업샘플링(upsampling)을 수행하도록 학습된 모델이며,
    상기 하나 이상의 프로세서는,
    상기 제5 영상을 상기 제2 신경망 모델에 입력하여 AI 복호화를 통해 업샘플링(upsampling)된 상기 제3 잔차 영상을 획득하고,
    상기 제3 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 상기 제4 잔차 영상을 획득하고,
    상기 제6 영상에 포함된 픽셀 값 및 상기 제4 잔차 영상에 포함된 픽셀 값을 더하여 상기 AI 부호화 영상을 획득하는, 전자 장치.
  11. 제7항 또는 제8항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 휘도 잔차 정보는 YUV 잔차 정보를 포함하며,
    상기 제3 잔차 영상에 포함된 Y 값, U 값 및 V 값에 변환 게인을 적용하여 R 값, G 값 및 B 값을 획득하고,
    상기 획득된 R 값, G 값 및 B 값을 상기 픽셀 잔차 정보로 획득하는, 전자 장치.
  12. AI 부호화를 이용하여 영상을 처리하는 전자 장치의 제어 방법에 있어서,
    픽셀 정보를 포함하는 제1 영상에 기초하여 휘도 정보를 포함하는 제2 영상을 획득하는 단계;
    상기 제2 영상을 학습된 제1 신경망 모델에 입력하여 휘도 잔차 정보를 포함하는 제1 잔차 영상을 획득하는 단계;
    상기 제1 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 제2 잔차 영상을 획득하는 단계;
    상기 제1 영상 및 상기 제2 잔차 영상에 기초하여 AI 부호화 영상을 획득하는 단계; 및
    상기 AI 부호화 영상을 인코딩하여 획득된 압축 영상을 외부 장치로 전송하는 단계;를 포함하는 제어 방법.
  13. 제12항에 있어서,
    상기 제1 잔차 영상을 획득하는 단계는,
    상기 제2 영상의 영상 크기 정보, 네트워크 상태 정보 및 코덱 타입 정보 중 적어도 하나에 기초하여 상기 제1 신경망 모델의 동작 설정 정보를 식별하는 단계; 및
    상기 식별된 동작 설정 정보가 적용된 상기 제1 신경망 모델에 상기 제2 영상을 입력하는 단계;를 포함하며,
    상기 동작 설정 정보는,
    상기 제1 신경망 모델의 레이어 개수 정보, 레이어 별 채널 개수 정보, 필터 크기 정보, 스트라이드(Stride) 정보, 풀링(puliing) 정보 또는 파라미터 정보 중 적어도 하나를 포함하는, 제어 방법.
  14. 제13항에 있어서,
    상기 상기 제1 신경망 모델의 동작 설정 정보를 식별하는 단계는,
    상기 제2 영상의 영상 크기 정보, 네트워크 상태 정보, 코덱 타입 정보 및 상기 외부 장치의 AI 복호화 정보에 기초하여 상기 제1 신경망 모델의 동작 설정 정보를 식별하며,
    상기 외부 장치의 AI 복호화 정보는,
    상기 외부 장치에서 AI 복호화에 이용되는 제2 신경망 모델의 동작 설정 정보를 포함하고,
    상기 제1 신경망 모델은,
    상기 제2 신경망 모델의 동작 설정 정보와 연계되어 학습되는, 제어 방법.
  15. AI 복호화를 이용하여 영상을 처리하는 전자 장치의 제어 방법에 있어서,
    압축 영상 및 AI 부호화 정보를 수신하는 단계;
    상기 압축 영상을 디코딩하여 픽셀 정보를 포함하는 제4 영상을 획득하는 단계;
    상기 제4 영상에 기초하여 휘도 정보를 포함하는 제5 영상을 획득하는 단계;
    상기 제5 영상을 상기 AI 부호화 정보에 기초하여 식별된 제2 신경망 모델에 입력하여 휘도 잔차 정보를 포함하는 제3 잔차 영상을 획득하는 단계;
    상기 제3 잔차 영상에 기초하여 픽셀 잔차 정보를 포함하는 제4 잔차 영상을 획득하는 단계; 및
    상기 제4 영상 및 상기 제4 잔차 영상에 기초하여 AI 복호화 영상을 획득하는 단계;를 포함하는 제어 방법.
PCT/KR2023/006654 2022-07-05 2023-05-17 Ai 부호화/복호화를 이용하여 영상을 처리하는 전자 장치 및 그 제어 방법 WO2024010208A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0082646 2022-07-05
KR1020220082646A KR20240005485A (ko) 2022-07-05 2022-07-05 Ai 부호화/복호화를 이용하여 영상을 처리하는 전자 장치 및 그 제어 방법

Publications (1)

Publication Number Publication Date
WO2024010208A1 true WO2024010208A1 (ko) 2024-01-11

Family

ID=89453658

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/006654 WO2024010208A1 (ko) 2022-07-05 2023-05-17 Ai 부호화/복호화를 이용하여 영상을 처리하는 전자 장치 및 그 제어 방법

Country Status (2)

Country Link
KR (1) KR20240005485A (ko)
WO (1) WO2024010208A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190096281A (ko) * 2018-02-08 2019-08-19 한국전자통신연구원 신경망에 기반하는 비디오 부호화 및 비디오 복호화를 위한 방법 및 장치
US20200014603A1 (en) * 2018-07-03 2020-01-09 Kabushiki Kaisha Ubitus Method for enhancing quality of media transmitted via network
KR102269034B1 (ko) * 2019-11-20 2021-06-24 삼성전자주식회사 화질 관련 ai 메타 데이터를 이용하는 장치 및 방법
KR102285737B1 (ko) * 2017-07-06 2021-08-05 삼성전자주식회사 영상을 부호화/복호화 하는 방법 및 그 장치
KR102287947B1 (ko) * 2019-10-28 2021-08-09 삼성전자주식회사 영상의 ai 부호화 및 ai 복호화 방법, 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102285737B1 (ko) * 2017-07-06 2021-08-05 삼성전자주식회사 영상을 부호화/복호화 하는 방법 및 그 장치
KR20190096281A (ko) * 2018-02-08 2019-08-19 한국전자통신연구원 신경망에 기반하는 비디오 부호화 및 비디오 복호화를 위한 방법 및 장치
US20200014603A1 (en) * 2018-07-03 2020-01-09 Kabushiki Kaisha Ubitus Method for enhancing quality of media transmitted via network
KR102287947B1 (ko) * 2019-10-28 2021-08-09 삼성전자주식회사 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
KR102269034B1 (ko) * 2019-11-20 2021-06-24 삼성전자주식회사 화질 관련 ai 메타 데이터를 이용하는 장치 및 방법

Also Published As

Publication number Publication date
KR20240005485A (ko) 2024-01-12

Similar Documents

Publication Publication Date Title
CN111263208B (zh) 一种画面合成方法、装置、电子设备及存储介质
US7876360B2 (en) Image data transfer processor and surveillance camera system
US20140362096A1 (en) Display controller, screen transfer device, and screen transfer method
US20220188976A1 (en) Image processing method and apparatus
US20070230586A1 (en) Encoding, decoding and transcoding of audio/video signals using combined parallel and serial processing techniques
WO2021006484A1 (en) Artificial intelligence processor and method of performing neural network operation thereof
CN111801943B (zh) 色度块预测方法、用于编解码视频数据的设备以及编解码设备
US6256350B1 (en) Method and apparatus for low cost line-based video compression of digital video stream data
US11538136B2 (en) System and method to process images of a video stream
JP2023175868A (ja) 画像処理方法および装置
US8948529B1 (en) Multi-pass encoding
CN111738951B (zh) 图像处理方法及装置
US20230067541A1 (en) Patch based video coding for machines
CN107580228B (zh) 一种监控视频处理方法、装置及设备
WO2024010208A1 (ko) Ai 부호화/복호화를 이용하여 영상을 처리하는 전자 장치 및 그 제어 방법
JP2005101720A (ja) 部分画像符号化装置
US7227554B2 (en) Method and system for providing accelerated video processing in a communication device
WO2021172744A1 (ko) 전자 장치 및 그 제어 방법
WO2024005347A1 (ko) Ai 부호화/복호화를 이용하여 영상을 처리하는 전자 장치 및 그 제어 방법
WO2021100985A1 (en) Electronic apparatus and control method thereof
CN114827620A (zh) 图像处理方法、装置、设备与介质
CN108933945B (zh) 一种gif图片的压缩方法、装置及存储介质
US10104373B2 (en) Content based video encoding for wireless display
KR20000052205A (ko) 디지털 신호처리장치에서의 동화상 처리방법
US10554986B2 (en) Encoding method and encoding device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23835677

Country of ref document: EP

Kind code of ref document: A1