WO2023163494A1 - 전자 장치 및 그 제어 방법 - Google Patents

전자 장치 및 그 제어 방법 Download PDF

Info

Publication number
WO2023163494A1
WO2023163494A1 PCT/KR2023/002496 KR2023002496W WO2023163494A1 WO 2023163494 A1 WO2023163494 A1 WO 2023163494A1 KR 2023002496 W KR2023002496 W KR 2023002496W WO 2023163494 A1 WO2023163494 A1 WO 2023163494A1
Authority
WO
WIPO (PCT)
Prior art keywords
neural network
pixel
input image
module
score
Prior art date
Application number
PCT/KR2023/002496
Other languages
English (en)
French (fr)
Inventor
김욱형
함철희
김남욱
바이잘아난트
구자윤
조일현
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220068461A external-priority patent/KR20230126621A/ko
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2023163494A1 publication Critical patent/WO2023163494A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/02Diagnosis, testing or measuring for television systems or their details for colour television signals

Definitions

  • the present disclosure relates to an electronic device and a method for controlling the same, and more particularly, to an electronic device for evaluating the quality of an image using a learned neural network model and a method for controlling the same.
  • artificial intelligence-based image/video quality evaluation methods are also being developed.
  • these artificial intelligence-based quality evaluation techniques only perform quality evaluation in units of images or video frames, and pixels in images or videos are evaluated. Since pixel-by-pixel quality evaluation is not performed, there is a problem that it is difficult to be used in various applications (eg, Super-Resolution, Denoise, Deblur) that improve image quality per pixel.
  • An electronic device for achieving the above object is provided by inputting a memory and an input image to the learned neural network model to store a learned neural network model, a quality score of the input image, and a quality score included in the input image.
  • a processor that obtains a quality score for each pixel and a region of interest (ROI) score for each pixel, wherein the trained neural network model includes a first neural network module that obtains first feature information for each pixel included in the input image;
  • a second neural network module that obtains second feature information for each pixel included in the input image, and quality for each pixel included in the input image based on third feature information obtained by combining the first feature information and the second feature information.
  • a calculation module for obtaining a quality score of the input image based on the ROI score for each pixel may be included.
  • the first feature information includes at least one of edge information and noise information included in the input image
  • the second feature information includes information about an object included in the input image
  • the calculation module obtains a first value by multiplying a first quality score corresponding to a first pixel included in the input image and a first ROI score corresponding to the first pixel, and obtaining a first quality score included in the input image.
  • a second quality score corresponding to a second pixel is multiplied by a second ROI score corresponding to the second pixel to obtain a second value, and the quality of the input image is obtained based on the average value of the first value and the second value. score can be obtained.
  • the learned neural network model separates the quality score output from the learned neural network model into a quality score for each pixel and a ROI score for each pixel according to input of a training image and a quality score of the training image, and the quality score for each pixel Unsupervised learning may be performed by feeding back the score and the ROI score for each pixel to the third neural network module and the fourth neural network module.
  • the learned neural network model divides the quality score output through the calculation module into a quality score per pixel and an ROI score per pixel, and the third quality score is based on the quality score per pixel and the ROI score per pixel.
  • Unsupervised learning may be performed by updating at least one of weights corresponding to a plurality of neural network layers included in the neural network module and weights corresponding to a plurality of neural network layers included in the fourth neural network module.
  • the first neural network module outputs first feature data having the same size as the size of the input image
  • the second neural network module outputs second feature data having a smaller size than the size of the input image.
  • the learned neural network model includes a first compression module for compressing the second feature data according to a first compression method, an upscaling module for upscaling the second feature data to the same size as the first feature data, and and a combining module combining the first feature data and the up-scaled second feature data, wherein the third neural network module is included in the input image based on the third feature information output from the combining module. A quality score for each pixel may be obtained.
  • the learned neural network model includes a second compression module for compressing the second feature data according to a second compression method, an upscaling module for upscaling the second feature data to the same size as the first feature data, and and a combining module combining the first feature data and the up-scaled second feature data, wherein the fourth neural network module is included in the input image based on the fourth feature information output from the combining module.
  • An ROI score for each pixel may be obtained.
  • each of the first to fourth neural network modules includes a plurality of neural network layers, and the first feature information output from the output layer of the first neural network module and the output layer of the second neural network module are output.
  • the third feature information obtained by combining the second feature information is input to the input layer of the third neural network module, and the first feature information and the second neural network module output from the output layer of the first neural network module.
  • the fourth feature information combined with the second feature information output from the output layer of may be input to the input layer of the fourth neural network module.
  • an input image is input into a trained neural network model, and the quality score of the input image, the quality score for each pixel included in the input image, and the ROI (for each pixel) Region of Interst) score
  • the learned neural network model includes a first neural network model, a second neural network model, a third neural network model, a fourth neural network model, and a computation module
  • the acquiring step Acquiring, by the first neural network module, first feature information for each pixel included in the input image; obtaining, by the second neural network module, second feature information for each pixel included in the input image; obtaining, by the third neural network module, a quality score for each pixel included in the input image based on third feature information obtained by combining the first feature information and the second feature information; obtaining, by a module, the ROI score for each pixel based on fourth feature information obtained by combining the first feature information and the second feature information; and by the calculation module, the quality score for each
  • the first feature information includes at least one of edge information and noise information included in the input image
  • the second feature information includes information about an object included in the input image
  • the obtaining of the quality score of the input image may include obtaining a first value by multiplying a first quality score corresponding to a first pixel included in the input image and a first ROI score corresponding to the first pixel. obtaining a second value by multiplying a second quality score corresponding to a second pixel included in the input image and a second ROI score corresponding to the second pixel;
  • the method may include obtaining a quality score of the input image based on an average value.
  • the learned neural network model separates the quality score output from the learned neural network model into a quality score for each pixel and a ROI score for each pixel according to input of a training image and a quality score of the training image, and the quality score for each pixel Unsupervised learning may be performed by feeding back the score and the ROI score for each pixel to the third neural network module and the fourth neural network module.
  • the learned neural network model divides the quality score output through the operation module into a quality score per pixel and an ROI score per pixel, and the size of the quality score per pixel and the ROI score per pixel.
  • Unsupervised learning may be performed by updating the weights of the third neural network module and the fourth neural network module based on .
  • the obtaining of the first feature information may include obtaining first feature data of the same size as the size of the input image, and the acquiring of the second feature information may include a size reduced from the size of the input image.
  • Second characteristic data may be obtained.
  • the obtaining may include compressing the second feature data according to a first compression method by a first compression module, and converting the second feature data to the same as the first feature data by an upscaling module. Further comprising upscaling to a size and combining the first feature data and the upscaled second feature data by a combining module, wherein the acquiring of the quality score for each pixel comprises: A quality score for each pixel included in the input image may be obtained based on the outputted third characteristic information.
  • the acquiring may include compressing the second feature data according to a second compression method by a second compression module, and converting the second feature data to the same as the first feature data by an upscaling module. Further comprising upscaling to a size and combining the first feature data and the upscaled second feature data by a combining module, wherein the obtaining of the ROI score for each pixel comprises: An ROI score for each pixel included in the input image may be obtained based on the output fourth characteristic information.
  • each of the first to fourth neural network modules includes a plurality of neural network layers, and the first feature information output from the output layer of the first neural network module and the output layer of the second neural network module are output.
  • the third feature information obtained by combining the second feature information is input to the input layer of the third neural network module, and the first feature information and the second neural network module output from the output layer of the first neural network module.
  • the fourth feature information combined with the second feature information output from the output layer of may be input to an input layer of the fourth neural network module.
  • a non-transitory computer-readable recording medium storing computer instructions that cause the electronic device to perform an operation when executed by a processor of an electronic device
  • the operation comprises inputting an input image to a learned neural network model to perform the operation.
  • the trained neural network model includes a first neural network model and a second neural network A model, a third neural network model, a fourth neural network model, and an arithmetic module
  • the obtaining may include obtaining, by the first neural network module, first feature information for each pixel included in the input image; Acquiring, by a second neural network module, second feature information for each pixel included in the input image, and third feature information obtained by combining the first feature information and the second feature information, by the third neural network module.
  • the method may include obtaining an ROI score and obtaining, by the calculation module, a quality score of the input image based on the quality score per pixel and the ROI score per pixel.
  • FIG. 1 is a diagram schematically illustrating a method of obtaining a quality score of an input image according to an exemplary embodiment.
  • FIG. 2 is a block diagram illustrating a configuration of an electronic device according to an exemplary embodiment.
  • 3A is a diagram for explaining a method of acquiring a quality score of an input image using a trained neural network model.
  • 3B is a diagram for explaining a detailed configuration of a plurality of modules present in a trained neural network model according to an example.
  • FIG. 4 is a diagram for explaining a method of obtaining a quality score for each pixel according to an exemplary embodiment.
  • FIG. 5 is a diagram for explaining a method of obtaining a ROI score for each pixel according to an exemplary embodiment.
  • 6A and 6B are diagrams for explaining a method of acquiring a quality score of an input image according to an exemplary embodiment.
  • FIGS. 7A to 7D are diagrams for explaining a method of learning a neural network model according to an embodiment.
  • FIG. 8 is a diagram for explaining a detailed configuration of an electronic device according to an exemplary embodiment.
  • FIG. 9 is a flowchart illustrating a method of obtaining a quality score of an input image according to an exemplary embodiment.
  • expressions such as “has,” “can have,” “includes,” or “can include” indicate the existence of a corresponding feature (eg, numerical value, function, operation, or component such as a part). , which does not preclude the existence of additional features.
  • a component e.g., a first component
  • another component e.g., a second component
  • connection to it should be understood that an element may be directly connected to another element, or may be connected through another element (eg, a third element).
  • a “module” or “unit” performs at least one function or operation, and may be implemented in hardware or software or a combination of hardware and software.
  • a plurality of “modules” or a plurality of “units” are integrated into at least one module and implemented by at least one processor (not shown), except for “modules” or “units” that need to be implemented with specific hardware. It can be.
  • 'DNN deep neural network
  • 'DNN deep neural network
  • a 'parameter' is a value used in the calculation process of each layer constituting the neural network, and may include, for example, a weight used when an input value is applied to a predetermined calculation expression. Also, parameters may be expressed in a matrix form. A parameter is a value set as a result of training and can be updated through separate training data as needed.
  • FIG. 1 is a diagram schematically illustrating a method of obtaining a quality score of an input image according to an exemplary embodiment.
  • An electronic device may be implemented to obtain a quality score of an input image (or image frame) using a learned neural network model (or artificial neural network).
  • the quality score 50 of the input image may be a Mean Opinion Score (MOS) representing the overall quality of the entire image.
  • MOS Mean Opinion Score
  • the quality score is a relative quality evaluation score corresponding to each image, and may have a normalized value, for example, a value between 0 and 5, but is not limited thereto.
  • the learned neural network model may be composed of a plurality of neural network layers.
  • Each of the plurality of neural network layers includes a plurality of parameters (or a plurality of weight values), and a neural network operation may be performed through an operation between the operation result of a previous layer and the plurality of parameters.
  • Parameters included in the plurality of neural network layers may be optimized according to a learning result of the learned neural network model. For example, parameters (or weights) may be updated so that a loss value or a cost value obtained from a trained neural network model is reduced or minimized during a learning process.
  • the artificial neural network may include a deep neural network (DNN), for example, a Convolutional Neural Network (CNN), a Recurrent Neural Network (RNN), a Restricted Boltzmann Machine (RBM), a Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN) or Deep Q-Networks, but is not limited to the above examples.
  • DNN deep neural network
  • CNN Convolutional Neural Network
  • RNN Recurrent Neural Network
  • RBM Restricted Boltzmann Machine
  • DNN Deep Belief Network
  • BDN Bidirectional Recurrent Deep Neural Network
  • Deep Q-Networks Deep Q-Networks
  • the electronic device when an image 10 is input, the electronic device according to an embodiment inputs the image 10 to a trained neural network model, and then a pixel-by-pixel quality score 20 of the input image 10, or pixel-by-pixel (pMOS). pixel-Mean-Opinion-Score) and a Region-of-Interest (ROI) score 30 for each pixel may be obtained.
  • pMOS pixel-by-pixel quality score 20 of the input image 10
  • pMOS pixel-by-pixel
  • ROI Region-of-Interest
  • the quality score 20 for each pixel is a quality evaluation score corresponding to each pixel of the input image
  • the ROI score 30 for each pixel corresponds to the probability value that each pixel in the input image corresponds to the region of interest (ROI).
  • ROI region of interest
  • the quality score 20 for each pixel and the ROI score 30 for each pixel may be relative values, but are not necessarily limited thereto.
  • the output of the trained neural network model as shown in FIG. 1 may be obtained as image information including an image representing a quality score 20 for each pixel and an ROI score 30 for each pixel.
  • the quality score size and the ROI score size may be proportional to the brightness of a pixel, eg, a gray scale value.
  • the higher the brightness, the higher the quality score and the ROI score may be, but are not limited thereto.
  • the quality score and the ROI score corresponding to the position of each pixel may be obtained in the form of numbers.
  • the electronic device determines the quality of the input image based on the result of calculation through the calculation module 40 in the neural network model in which the quality score 20 per pixel and the ROI score 30 per pixel are learned. Score 50 can be obtained.
  • FIG. 2 is a block diagram illustrating a configuration of an electronic device according to an exemplary embodiment.
  • the electronic device 100 includes a memory 110 and a processor 120 .
  • the electronic device 100 may be implemented as various types of devices capable of providing content, such as a server, eg, a content providing server and a PC.
  • the electronic device 100 may be a system in which a cloud computing environment is built.
  • the electronic device 100 includes a TV, a set-top box, a tablet personal computer (PC), a mobile phone, a desktop personal computer (PC), and a laptop PC.
  • image processing devices such as a laptop personal computer and a netbook computer that receive and process images.
  • the electronic device 100 may receive various compressed images or images of various resolutions.
  • the electronic device 100 may include Moving Picture Experts Group (MPEG) (eg, MP2, MP4, MP7, etc.), joint photographic coding experts group (JPEG), Advanced Video Coding (AVC), H.264, Video may be received in a compressed form such as H.265, High Efficiency Video Codec (HEVC), and the like.
  • MPEG Moving Picture Experts Group
  • JPEG joint photographic coding experts group
  • AVC Advanced Video Coding
  • H.264 Video
  • Video may be received in a compressed form such as H.265, High Efficiency Video Codec (HEVC), and the like.
  • the electronic device 100 may receive any one of SD (Standard Definition), HD (High Definition), Full HD, and Ultra HD images.
  • the memory 110 may store data required for various embodiments of the present disclosure.
  • the memory 110 may be implemented in the form of a memory embedded in the electronic device 100 or in the form of a removable memory in the electronic device 100 according to a data storage purpose. For example, data for driving the electronic device 100 is stored in a memory embedded in the electronic device 100, and data for an extended function of the electronic device 100 is detachable from the electronic device 100. It can be stored in available memory.
  • volatile memory eg, DRAM (dynamic RAM), SRAM (static RAM), SDRAM (synchronous dynamic RAM), etc.
  • non-volatile memory non-volatile memory
  • OTPROM one time programmable ROM
  • PROM programmable ROM
  • EPROM erasable and programmable ROM
  • EEPROM electrically erasable and programmable ROM
  • mask ROM flash ROM, flash memory (such as NAND flash or NOR flash, etc.)
  • flash memory such as NAND flash or NOR flash, etc.
  • SSD solid state drive
  • a memory card eg, a compact flash drive (CF)
  • SD secure digital
  • Micro-SD micro secure digital
  • Mini-SD mini secure digital
  • xD extreme digital
  • MMC multi-media card
  • the memory 110 may store at least one instruction or a computer program including instructions for controlling the electronic device 100.
  • the memory 110 may store information about a learned neural network model including a plurality of layers.
  • storing information about the neural network model means various information related to the operation of the neural network model, such as information about a plurality of layers included in the neural network model, information about parameters used in each of the plurality of layers, bias, etc. It can mean save.
  • information about the neural network model may be stored in the internal memory of the processor 120 according to the implementation form of the processor 120 described later. For example, when the processor 120 is implemented as dedicated hardware, information about the neural network model may be stored in an internal memory of the processor 120 .
  • the memory 110 may include an image (or, image) can be saved.
  • the video may be a digital video, but is not limited thereto.
  • At least one processor 120 (hereinafter referred to as a processor) is electrically connected to the memory 110 to control the overall operation of the electronic device 100 .
  • Processor 120 may be composed of one or a plurality of processors. Specifically, the processor 120 may perform the operation of the electronic device 100 according to various embodiments of the present disclosure by executing at least one instruction stored in the memory 110 .
  • the processor 120 may include a digital signal processor (DSP), a microprocessor, a graphics processing unit (GPU), an artificial intelligence (AI) processor, and a neural processing unit (NPU) for processing digital image signals.
  • DSP digital signal processor
  • GPU graphics processing unit
  • AI artificial intelligence
  • NPU neural processing unit
  • Processing Unit time controller
  • CPU central processing unit
  • MCU micro controller unit
  • MPU micro processing unit
  • controller controller
  • application processor AP
  • communication processor communication processor
  • CP communication processor
  • the processor 140 may be implemented in the form of a system on chip (SoC) with a built-in processing algorithm, large scale integration (LSI), application specific integrated circuit (ASIC), or field programmable gate array (FPGA).
  • SoC system on chip
  • LSI large scale integration
  • ASIC application specific integrated circuit
  • FPGA field programmable gate array
  • the processor 120 may be implemented as a digital signal processor (DSP), a microprocessor, or a time controller (TCON). However, it is not limited thereto, and the central processing unit ( central processing unit (CPU)), micro controller unit (MCU), micro processing unit (MPU), controller, application processor (AP), or communication processor (CP), ARM processor
  • the processor 120 may be implemented as a System on Chip (SoC) having a built-in processing algorithm, a large scale integration (LSI), or an FPGA ( It may be implemented in the form of a field programmable gate array).
  • SoC System on Chip
  • the processor 120 for executing the artificial intelligence model is a general-purpose processor such as a CPU, AP, digital signal processor (DSP), etc., GPU, vision processing unit (VPU), etc. It can be implemented through a combination of a graphics-only processor or an artificial intelligence-only processor such as an NPU and software.
  • the processor 120 may control input data to be processed according to a predefined operation rule or a neural network model stored in the memory 110 .
  • the processor 130 may be a dedicated processor (or artificial intelligence dedicated processor), it may be designed as a hardware structure specialized for processing a specific artificial intelligence model.
  • hardware specialized for the processing of a specific artificial intelligence model may be designed as a hardware chip such as an ASIC or FPGA.
  • the processor 130 is implemented as a dedicated processor, it may be implemented to include a memory for implementing an embodiment of the present disclosure or to include a memory processing function for using an external memory.
  • the processor 120 inputs an input image (or image) to a trained neural network model to obtain a quality score of the input image, a quality score for each pixel included in the input image, and a region of interstitial ROI (ROI) for each pixel. score can be obtained. This will be described in detail with reference to FIGS. 3A and 3B below.
  • 3A is a diagram for explaining a method of acquiring a quality score of an input image using a trained neural network model.
  • the trained neural network model 200 includes a first neural network module (or first module 210), a second neural network module (or second module 220), and a third neural network module. 230 (or the third module 230), the fourth neural network module (or the fourth module 240), and the calculation module 290.
  • Each of the first to fourth neural network modules and the calculation module 290 may include a plurality of neural network layers.
  • each of the plurality of neural network layers included in each neural network module includes a plurality of parameters, and the learned neural network model may perform neural network calculation through calculation between the calculation result of the previous layer and the plurality of parameters.
  • the first neural network module 210 when the image 10 is input to the input layer of the first neural network module 210, the first neural network module 210 outputs first feature information for each pixel included in the input image 10. can do.
  • the first neural network module 210 is a module that extracts local features of the input image 10, for example, noise such as edges or points present in the image.
  • the first feature information may include at least one of edge information and noise information included in the input image 10 .
  • the second neural network module 220 converts second feature information for each pixel included in the input image 10 to can be printed out.
  • the second neural network module 220 is a module that extracts high-level features of the input image 10 .
  • the second feature information may include feature information such as category (or type) information of an object identified in the input image and appearance information of the object. That is, the first neural network module 210 extracts local features such as outlines and dots of the input image 10, and the second neural network module 220 is capable of identifying object categories existing in the input image 10 and objects. High-level features that are relatively meaningful, such as appearance information, can be output.
  • the second neural network module 220 may be a neural network model in which some layers are changed from InceptionResNetV2.
  • InceptionResNetV2 is a trained neural network model that classifies objects present in the input image 10, for example, about 1000 objects, including keyboards, mice, pencils, and animals, into a specific category. It is possible to extract features such as a category of the object and an identifiable appearance of the object.
  • the second neural network module 220 will be described in detail with reference to FIG. 4 .
  • the third feature information obtained by combining the first feature information output from the output layer of the first neural network module 210 and the second feature information output from the output layer of the second neural network module 220 is combined. , may be input to the input layer of the third neural network module 230. Thereafter, the third neural network module 230 may obtain a quality score for each pixel included in the input image 10 based on the input third feature information.
  • the third neural network module 230 is a neural network module that outputs a quality evaluation score corresponding to each pixel in the input image 10 by using the extracted feature information of the input image 10 .
  • the third characteristic information is information in which the first characteristic information and the second characteristic information are continuously combined, and may be combined through a combining module (not shown) existing in the learned neural network model. This will be described in detail with reference to FIG. 4 .
  • fourth feature information obtained by combining first feature information output from the output layer of the first neural network module 210 and second feature information output from the output layer of the second neural network module 220 is , may be input to the input layer of the fourth neural network module 240. Thereafter, the fourth neural network module 240 may obtain an ROI score for each pixel included in the input image 10 based on the input fourth feature information.
  • the fourth neural network module 240 extracts a region of interest (ROI) of the input image 10 using the feature information of the extracted input image 10, and pixel by pixel based on the extracted region of interest (ROI). This module extracts the ROI score.
  • ROI region of interest
  • the fourth characteristic information is information in which the first characteristic information and the second characteristic information are continuously combined, and may be combined through a combining module (not shown) present in the learned neural network model. This will be described in detail with reference to FIG. 4 .
  • the calculation module 290 determines the quality of the input image based on the quality score for each pixel obtained from the third neural network module 230 and the ROI score for each pixel obtained from the fourth neural network module 240. score can be obtained.
  • the calculation module 290 obtains a first value by multiplying a quality score and an ROI score corresponding to each pixel in the image, and obtains a representative value of each first value (eg, average value, maximum value, minimum value, etc.) can be output as the quality score of the input image.
  • the processor 120 can obtain a quality score for each pixel of the input image, an ROI score for each pixel, and a quality score for the input image.
  • 3B is a diagram for explaining a detailed configuration of a learned neural network model according to an example.
  • the trained neural network model 200 includes a plurality of neural network modules 210 to 280, and each of a plurality of neural network layers included in each of the plurality of neural network modules includes a plurality of parameters.
  • Each neural network module may perform a neural network operation through an operation between an operation result of a previous layer and a plurality of parameters.
  • the learned neural network model for example, CNN-based VDSR technology (Jiwon Kim, et al., Accurate Image Super-Resolution Using Very Deep Convolutional Networks, CVPR 2016), EDSR (Enhanced Deep Residual Networks for Single Image Super- Resolution), DRCN (Deeply-Recursive Convolutional Network for Image Super-Resolution.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.), MDSR (Multi-scale deep super-resolution system), etc. may be used, but , but is not limited thereto.
  • the plurality of neural network modules 210 to 280 may perform neural network calculation processing through an arbitrary layer included in each neural network module.
  • each convolution layer included in a convolutional neural network (CNN) may apply one or more filters (or kernels) to input data.
  • filters or kernels
  • output data may have n channels.
  • the filter may be in the form of n*n.
  • the number of channels of output data may be 16.
  • n in conv(n) of FIG. 3B may mean the number of output channels.
  • each neural network module may output operation data output through an activation function, for example, a Rectified Linear Unit (ReLU) operation after applying a convolution filter in an arbitrary layer.
  • the operation data output from the layer is multi-channel data, and for example, 16 feature map (or activation map) data may be output and provided to the next layer.
  • feature map data may be stored in a memory (internal buffer or external memory) and then provided to the next layer, but the corresponding configuration is omitted in FIG. 3B.
  • the parameter may have the same meaning as the weight (or coefficient) of the filter.
  • a layer of the first neural network module 210 may have a local feature and a narrow receptive field in order to extract features for each pixel in the input image 10 .
  • the first neural network module 210 is composed of a total of 7 layers.
  • the first neural network module 210 performs a convolution operation (eg, a convolution operation having 3*3 filters and 16 channels), a batch normalization operation, or a ReLU operation through each layer included in the module. may be performed, and the output data output from each layer may be provided to the next layer.
  • a convolution operation eg, a convolution operation having 3*3 filters and 16 channels
  • a batch normalization operation e.g., a batch normalization operation having 3*3 filters and 16 channels
  • ReLU operation e.g., a ReLU operation through each layer included in the module.
  • batch normalization and ReLU operation may not be performed.
  • the third neural network module 230 may include a total of three layers. As shown in FIG. 3B, the third neural network module 230 performs convolution operation (1*1 or 3*3 filter), batch normalization operation, ReLU operation or dropout through each layer included in the module. (Dropout) operation can be performed. In this case, output data output from each layer may be provided to the next layer.
  • the dropout operation refers to an operation to prevent overfitting by disabling some units of a hidden layer when a result is excessively overfitted by experimental data.
  • the fourth neural network module 240 may include a total of three layers. As shown in FIG. 3B, the fourth neural network module 240 may perform a convolution operation (1*1 or 3*3 filter), batch normalization operation, or ReLU operation through each layer included in the module. can In this case, output data output from each layer may be provided to the next layer. That is, the fourth neural network module has the same structure as the module in which the dropout operation is removed from the third neural network module.
  • a normalization operation is performed in the last layer.
  • the normalization process may be performed by linear normalization rather than softmax normalization, which is generally widely used. Equation 1 below is an equation representing linear normalization according to an example.
  • x is the set of unnormalized ROI predictions
  • r is the set of linear normalized ROI predictions
  • the first compression module 250 may include a total of four layers.
  • the first compression module 250 performs a convolution operation (eg, a convolution filter having 2048 channels with a 1*1 filter or a convolution having 256 channels with a 1*1 filter) through each layer included in the module. filter), batch normalization operation, or ReLU operation may be performed, and output data output from each layer may be provided to the next layer.
  • Batch normalization is an operation that normalizes input data batch by batch. Meanwhile, as shown in FIG. 3B , in the case of the last layer, batch normalization and ReLU operation may not be performed.
  • the second compression module 280 may include a total of four layers. As shown in FIG. 3B, the second compression module 280 may perform a convolution operation (3*3 filter) or an element-wise addition operation (or element-wise operation) through each layer included in the module. .
  • output data output from a plurality of layers performing the convolution operation may be input to a layer performing element-wise addition, and operations for each element of data may be performed in the layer.
  • the second compression module 280 may be a Dilated Inception Module (DIM).
  • DIM has low computational complexity, and its receptive field (the image area that one filter can cover for each stage's input image) is relatively wide compared to other neural network modules. In this case, since the receptive field has a high rate of covering the input image, there is an implicit learning effect in the presence of center-bias.
  • FIG. 4 is a diagram for explaining a method of obtaining a quality score for each pixel according to an exemplary embodiment.
  • the processor 120 may first input an image 10 to the trained neural network model 200 .
  • the first neural network module 210 may obtain first feature data (or first feature information) for each pixel included in the input image.
  • the second neural network module 220 may obtain second feature data (or second feature information) for each pixel included in the input image.
  • the second neural network module 220 may be a neural network model in which some layers are changed from InceptionResNetV2.
  • the second neural network module 220 may be a neural network module in which a layer with a kernel size of 3 and padding of 0 in InceptionResNetV2 is changed to a layer with a kernel size of 3 and padding of 1. According to this, the resolution of output data is not reduced, so that loss of spatial information can be reduced.
  • the size of the first feature data extracted from the first neural network module 210 is the same as the size of the input image 10, and the size of the first feature data extracted from the second neural network module 220 is the input image ( 10) may be reduced in size.
  • the size of the input image 10 is (w, h)
  • the size of the first feature data is (w, h)
  • the second feature The size of data may be (w/32, h/32). This is a phenomenon that occurs when padding is added to a place without paddindg to maintain resolution among a plurality of layers existing in the second neural network module 220 .
  • the first compression module compresses the input second feature data according to the first compression method to obtain compressed second feature data.
  • the number of channels of the second feature data output from the second neural network module 220 is relatively larger than that of the first feature data, so that the size of the data is reduced and the processing speed is increased.
  • the upscaling module 260 upscales the compressed second feature data to the same size as the first feature data. can do.
  • the second feature data when the size of the second feature data is (w/32, h/32) and the size of the first feature data is (w, h), the second feature data output from the upscaling module 260 The size of is the same size (w, h) as the first feature data.
  • the combining module 270 may output third feature data by combining the first feature data and the upscaled second feature data.
  • concatenation means concatenation of data without changing each data value. Accordingly, in this case, when the first characteristic data and the second characteristic data are combined, the data value does not change, and the plurality of channels corresponding to the first characteristic data and the plurality of channels corresponding to the second characteristic data are continuously joined. (Concatenation). For example, when the number of channels of the first characteristic data is 64 and the number of channels of the second characteristic data is 256, the number of channels of the third characteristic data is 320.
  • the third neural network module 230 can obtain a quality score for each pixel included in the input image based on the third feature data output from the combining module 270 .
  • FIG. 5 is a diagram for explaining a method of obtaining a ROI score for each pixel according to an exemplary embodiment.
  • the processor 120 may first input an image 10 to the trained neural network model 200 .
  • the first neural network module 210 may obtain first feature data (or first feature information) for each pixel included in the input image.
  • the second neural network module 220 may obtain second feature data (or second feature information) for each pixel included in the input image.
  • the size of the first feature data extracted from the first neural network module 210 is the same as the size of the input image 10, and the size of the first feature data extracted from the second neural network module 220 is the input image ( 10) may be reduced in size.
  • the first compression module compresses the input second feature data according to the first compression method to obtain compressed second feature data.
  • the upscaling module 260 upscales the compressed second feature data to the same size as the first feature data. can do.
  • the second feature data when the size of the second feature data is (w/32, h/32) and the size of the first feature data is (w, h), the second feature data output from the upscaling module 260 The size of is the same size (w, h) as the first feature data.
  • the combining module 270 may output fourth feature data by combining the first feature data and the upscaled second feature data.
  • concatenation means concatenation of data without changing each data value. Accordingly, when the first characteristic data and the second characteristic data are combined, the data value does not change, and the plurality of channels corresponding to the first characteristic data and the plurality of channels corresponding to the second characteristic data are continuously concatenated. )do. For example, when the number of channels of the first characteristic data is 64 and the number of channels of the second characteristic data is 256, the number of channels of the fourth characteristic data is 320.
  • the fourth neural network module 240 can obtain ROI scores for each pixel included in the input image based on the fourth feature data output from the combining module 270 .
  • 6A and 6B are diagrams for explaining a method of acquiring a quality score of an input image according to an exemplary embodiment.
  • the calculation module 290 may output a quality score of the input image 10 based on the quality score for each pixel and the ROI score for each pixel.
  • the calculation module 290 obtains a first value by multiplying a first quality score corresponding to a first pixel included in the input image 10 and a first ROI score corresponding to the first pixel, and inputting A second value is obtained by multiplying a second quality score corresponding to a second pixel included in the image and a second ROI score corresponding to the second pixel, and an average value of the obtained first value and the second value is calculated as an average value of the input image.
  • a quality score can be obtained.
  • the quality score 610 for each pixel and the ROI score 620 for each pixel may have a score corresponding to each pixel.
  • the calculation module 290 may obtain a value 530 obtained by multiplying the score corresponding to each pixel, and output an average value of the obtained first and second values as the overall quality score 540. .
  • the calculation module 290 obtains a first value by multiplying the first quality score corresponding to the first pixel by the first ROI score corresponding to the first pixel, and the second pixel included in the input image A second value is obtained by multiplying the corresponding second quality score and the second ROI score corresponding to the second pixel, and the median of the obtained first and second values is output as the quality score of the input image.
  • the calculation module 290 may obtain a quality score of the input image by normalizing the first value and the second value and multiplying the normalized first value and the second value.
  • FIGS. 7A and 7B are diagrams for explaining a method of learning a neural network model according to an embodiment.
  • the neural network model stored in the memory 110 may be created through learning.
  • being made through learning means that a basic neural network model is learned using a plurality of learning data by a learning algorithm, so that a predefined action rule or neural network model set to perform a desired characteristic (or purpose) is created. do.
  • Such learning may be performed through a separate server and/or system according to the present disclosure, but is not limited thereto and may also be performed in the electronic device 100.
  • Examples of the learning algorithm include unsupervised learning, semi-supervised learning, or reinforcement learning, but are not limited to the above examples.
  • the trained neural network model 200 converts the quality score output from the trained neural network model to the quality per pixel according to input of the training image 710 and the quality score 720 of the training image. It is separated into scores and ROI scores for each pixel, and the quality score for each pixel and the ROI score for each pixel are fed back to the third neural network module 230 and the fourth neural network module 240 to perform unsupervised learning.
  • the trained neural network model 200 separates the quality score 710 output through the calculation module 290 into a quality score 730 for each pixel and an ROI score 740 for each pixel. weights corresponding to the plurality of neural network layers included in the third neural network module 230 and the fourth neural network module 240 based on the quality score 730 for each pixel and the ROI score 740 for each pixel. Unsupervised learning may be performed by updating at least one of weights corresponding to a plurality of neural network layers included in .
  • the neural network module 200 identifies pixels whose ROI score size is greater than or equal to a threshold value, and the ROI score size
  • the weight of the neural network layer may be updated so that the quality score of a pixel having a value greater than or equal to a threshold value has a value greater than the previous value. Accordingly, the output quality score 710 has a larger value than before, and becomes closer to the size of the quality score 720 of the training image.
  • the weight of the neural network layer is adjusted so that the quality score of a pixel having a size of an ROI score less than a threshold value has a smaller value than before. can be updated Accordingly, the output quality score 710 has a smaller value than before, and becomes closer to the size of the quality score 720 of the training image.
  • a loss function may be used in the above-described learned neural network module 200 .
  • the loss function of Equation 2 below may be used.
  • ROI can perform unsupervised learning without ground-truth quality score per pixel and without ROI score per ground-truth pixel.
  • the neural network model 200 when the neural network model 200 is learned to output ROI scores for each pixel according to Equation 2, p becomes a learning weight. Accordingly, the neural network module that outputs the ROI has a high learning weight when the MOS is high, and a low learning weight when the MOS is low. For example, when the MOS size range is 1 to 5, the learning rate of the neural network module that outputs the ROI is about 5 times greater than when the MOS size range is outside the range 1 to 5. . Accordingly, there is a need to calibrate the learning weights.
  • FIGS. 7c and 7d are MOS distribution tables of KonIQ-10k and LIVE Challenge datasets of input images, respectively.
  • the horizontal axis represents the size range of MOS
  • the vertical axis represents the number of samples.
  • MOS has more information at both ends ([3.42, 10.12] or [90.52, 97.22]) than at the center.
  • the neural network model 200 changes the mean value (mean) of p to 0 during learning, the learning weight decreases in the center of the MOS and increases toward both ends, so in a place with a lot of information
  • the loss function can be changed as shown in Equation 3 below.
  • Equation 3 is an output MOS value in a state in which the average value is shifted (Mean-shifted) compared to Equation 2.
  • performance evaluation of the trained neural network model 200 was performed using Pearson's Linear Correlation Coefficient (PLCC) and Spearman's Rank Order Correlation Coefficient (SRCC).
  • PLCC measures the accuracy of the prediction
  • SRCC measures the monotonicity of the prediction. Each value ranges from -1 to 1, and the higher the number, the better the performance.
  • the neural network model trained through Table 1 was compared with IQA (Image-Quality-Assessment) methods and performance comparison.
  • the trained neural network model of the present application has the highest PLCC and SRCC results compared to other methods (eg, GraphIQA, HyperIQA, TRIQ, and TranSLA) in both the KonIQ dataset and the LIVEC dataset.
  • the RMSE in the KonIQ dataset decreased by more than 6% compared to the existing method.
  • FIG. 8 is a diagram for explaining a detailed configuration of an electronic device according to an exemplary embodiment.
  • an electronic device 100' may include a memory 110, a processor 120, a communication interface 130, a user interface 140, a display 150, and an output unit 160.
  • a memory 110 may include a central processing unit 110, a central processing unit 110, a graphics processing unit 110, a graphics processing unit 110, and a display 110.
  • the communication interface 130 may perform communication with an external device.
  • the communication interface 130 is AP-based Wi-Fi (Wi-Fi, Wireless LAN network), Bluetooth (Bluetooth), Zigbee (Zigbee), wired / wireless LAN (Local Area Network), WAN (Wide Area Network), Ethernet, IEEE 1394, HDMI (High-Definition Multimedia Interface), USB (Universal Serial Bus), MHL (Mobile High-Definition Link), AES/EBU (Audio Engineering Society/ European Broadcasting Union), Optical In a streaming or download method from an external device (eg, source device), an external storage medium (eg, USB memory), or an external server (eg, web hard) through a communication method such as coaxial, etc.
  • An image signal may be received
  • the processor 120 may receive an image from an external device (not shown) through the communication interface 130 .
  • the user interface 140 may be implemented with devices such as buttons, a touch pad, a mouse, and a keyboard, or may be implemented with a touch screen capable of performing the aforementioned display function and manipulation input function, or a remote control transceiver.
  • the remote control transmitting/receiving unit may receive a remote control signal from an external remote control device or transmit a remote control signal through at least one of infrared communication, Bluetooth communication, and Wi-Fi communication.
  • the display 150 may be implemented as a display including a self-light emitting element or a display including a non-light emitting element and a backlight.
  • LCD Liquid Crystal Display
  • OLED Organic Light Emitting Diodes
  • LED Light Emitting Diodes
  • micro LED micro LED
  • Mini LED PDP (Plasma Display Panel)
  • QD Quantantum dot
  • QLED Quadantum dot light-emitting diodes
  • the display 150 may also include a driving circuit, a backlight unit, and the like, which may be implemented in the form of an a-si TFT, a low temperature poly silicon (LTPS) TFT, or an organic TFT (OTFT). Meanwhile, the display 150 is implemented as a touch screen combined with a touch sensor, a flexible display, a rollable display, a 3D display, a display in which a plurality of display modules are physically connected, and the like. It can be.
  • a driving circuit a backlight unit, and the like, which may be implemented in the form of an a-si TFT, a low temperature poly silicon (LTPS) TFT, or an organic TFT (OTFT).
  • LTPS low temperature poly silicon
  • OFT organic TFT
  • the output unit 160 outputs a sound signal.
  • the output unit 160 may convert a digital sound signal processed by the processor 120 into an analog sound signal, amplify it, and output the amplified sound signal.
  • the output unit 160 may include at least one speaker unit, a D/A converter, an audio amplifier, and the like capable of outputting at least one channel.
  • the output unit 160 may be implemented to output various multi-channel sound signals.
  • the processor 120 may control the output unit 160 to enhance and output the input sound signal to correspond to the enhancement process of the input image.
  • FIG. 9 is a flowchart illustrating a method of obtaining a quality score of an input image according to an exemplary embodiment.
  • the neural network model 200 trained according to an embodiment includes a first neural network module 210, a second neural network module 220, a third neural network module 230, and a fourth neural network module 240. and an arithmetic module 290 .
  • the first neural network module 210 may obtain first feature information for each pixel included in the input image (S910).
  • the second neural network module 220 may acquire second feature information for each pixel included in the input image (S915).
  • the first neural network module 210 may transmit the acquired first characteristic information to the third neural network module 230 (S920) and transmit the acquired first characteristic information to the fourth neural network module 240. (S935).
  • the second neural network module 220 may transmit the acquired second feature information to the third neural network module 230 (S925) and transmit the acquired second feature information to the fourth neural network module 240. (S940).
  • the third neural network module 230 transmits the transmitted A quality score for each pixel included in the input image may be obtained using the third feature information obtained by combining the first feature information and the second feature information (S930).
  • the first feature information and the second feature information may be combined through a combining module existing in the learned neural network model 200, but is not limited thereto.
  • the fourth neural network module 240 transmits the transmitted first feature information (S925).
  • a quality score for each pixel included in the input image may be obtained using the third feature information obtained by combining the first feature information and the second feature information (S930).
  • the first feature information and the second feature information may be combined through a combining module existing in the learned neural network model 200, but is not limited thereto.
  • the fourth neural network module 240 inputs information based on fourth characteristic information obtained by combining the first characteristic information obtained from the first neural network module 210 and the second characteristic information obtained from the second neural network module 220.
  • An ROI score (S945) for each pixel included in the image may be obtained.
  • the first feature information and the second feature information may be combined through a combining module existing in the learned neural network model.
  • the third neural network module 230 may transmit the obtained quality score for each pixel to the calculation module 290 (S950).
  • the fourth neural network module 240 may transmit the obtained ROI score for each pixel to the calculation module 290 (S955).
  • the calculation module 290 may obtain a quality score of the input image based on the quality score per pixel obtained from the third neural network module 230 and the ROI score per pixel obtained from the fourth neural network module 240. Yes (S960).
  • the quality evaluation score for each pixel of the input image and information on the region of interest can be obtained.
  • the overall quality evaluation score of the input image can be obtained.
  • time and cost required to obtain quality evaluation scores for each pixel in the image and information on the region of interest are saved.
  • the methods according to various embodiments of the present disclosure described above may be implemented in the form of an application that can be installed in an existing electronic device.
  • the above-described methods according to various embodiments of the present disclosure may be performed using a deep learning-based learned neural network (or deep learned neural network), that is, a learning network model.
  • the methods according to various embodiments of the present disclosure described above may be implemented only by upgrading software or hardware of an existing electronic device.
  • various embodiments of the present disclosure described above may be performed through an embedded server included in the electronic device or an external server of the electronic device.
  • a device is a device capable of calling a stored command from a storage medium and operating according to the called command, and may include a display device (eg, the display device A) according to the disclosed embodiments.
  • the processor may perform a function corresponding to the command directly or by using other components under the control of the processor.
  • An instruction may include code generated or executed by a compiler or interpreter.
  • the device-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-temporary' only means that the storage medium does not contain a signal and is tangible, but does not distinguish whether data is stored semi-permanently or temporarily in the storage medium.
  • the method according to various embodiments described above may be included and provided in a computer program product.
  • Computer program products may be traded between sellers and buyers as commodities.
  • the computer program product may be distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)) or online through an application store (eg Play StoreTM).
  • an application store eg Play StoreTM
  • at least part of the computer program product may be temporarily stored or temporarily created in a storage medium such as a manufacturer's server, an application store server, or a relay server's memory.
  • each of the components may be composed of a single object or a plurality of entities, and some sub-components among the aforementioned sub-components may be omitted, or other sub-components may be used. Components may be further included in various embodiments. Alternatively or additionally, some components (eg, modules or programs) may be integrated into one entity and perform the same or similar functions performed by each corresponding component prior to integration. According to various embodiments, operations performed by modules, programs, or other components may be executed sequentially, in parallel, repetitively, or heuristically, or at least some operations may be executed in a different order, may be omitted, or other operations may be added. can

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

전자 장치가 개시된다. 전자 장치는, 학습된 신경망 모델을 저장하는 메모리 및 입력 영상을 학습된 신경망 모델에 입력하여 입력 영상의 품질 스코어, 입력 영상에 포함된 픽셀 별 품질 스코어 및 픽셀 별 ROI(Region of Interst) 스코어를 획득하는 프로세서를 포함하며, 학습된 신경망 모델은, 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득하는 제1 신경망 모듈, 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득하는 제2 신경망 모듈, 제1 특징 정보 및 제2 특징 정보가 결합된 제3 특징 정보에 기초하여 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는 제3 신경망 모듈, 제1 특징 정보 및 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 픽셀 별 ROI 스코어를 획득하는 제4 신경망 모듈 및 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어에 기초하여 입력 영상의 품질 스코어를 획득하는 연산 모듈을 포함한다.

Description

전자 장치 및 그 제어 방법
본 개시는 전자 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 학습된 신경망 모델을 이용하여 영상의 품질 평가를 수행하는 전자 장치 및 그 제어 방법에 관한 것이다.
전자 기술의 발달에 힘입어 다양한 유형의 전자 기기가 개발 및 보급되고 있다. 특히, 이미지/비디오의 품질을 향상시키기 위하여 이미지/비디오의 품질을 평가하는 방법이 개발되고 있다. 일반적으로 이러한 품질 평가는 전문가를 통해 수행하는 것이 가장 정확하지만, 시간 및 비용이 많이 필요하다는 문제가 있다.
이러한 문제를 극복하기 위하여 인공 지능 기반의 이미지/비디오 품질 평가 방법 역시 발전하고 있으나, 이러한 인공 지능 기반의 품질 평가 기술은 이미지 또는 비디오 프레임(frame) 단위로만 품질 평가가 진행되고, 이미지 또는 비디오 내 픽셀 별(pixel-by-pixel) 품질 평가가 진행되지 않기 때문에 픽셀 별로 화질을 개선하는 다양한 어플리케이션들(예를 들어, Super-Resolution, Denoise, Deblur)에 활용되기 어렵다는 문제가 있다.
또한, 픽셀 별 품질 평가를 수행할 수 있는 인공 지능 모델을 학습시키기 위하여 각 이미지 프레임 내 픽셀 별 품질을 평가한 데이터 셋(data set)이 필요하나, 이러한 데이터 셋을 확보하기 위하여 많은 시간 및 비용이 필요하다는 문제가 있다.
이상과 같은 목적을 달성하기 위한 일 실시 예에 따른 전자 장치는, 학습된 신경망 모델을 저장하는 메모리 및 입력 영상을 상기 학습된 신경망 모델에 입력하여 상기 입력 영상의 품질 스코어, 상기 입력 영상에 포함된 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI(Region of Interst) 스코어를 획득하는 프로세서를 포함하며, 상기 학습된 신경망 모델은, 상기 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득하는 제1 신경망 모듈, 상기 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득하는 제2 신경망 모듈, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는 제3 신경망 모듈, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 상기 픽셀 별 ROI 스코어를 획득하는 제4 신경망 모듈 및 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 연산 모듈을 포함할 수 있다.
여기서, 상기 제1 특징 정보는, 상기 입력 영상에 포함된 에지(Edge) 정보 및 노이즈(Noise) 정보 중 적어도 하나를 포함하며, 상기 제2 특징 정보는, 상기 입력 영상에 포함된 오브젝트에 대한 정보를 포함할 수 있다.
여기서, 상기 연산 모듈은, 상기 입력 영상에 포함된 제1 픽셀에 대응되는 제1 품질 스코어 및 상기 제1 픽셀에 대응되는 제1 ROI 스코어를 곱하여 제1 값을 획득하고, 상기 입력 영상에 포함된 제2 픽셀에 대응되는 제2 품질 스코어 및 상기 제2 픽셀에 대응되는 제2 ROI 스코어를 곱하여 제2 값을 획득하고, 상기 제1 값 및 제2 값의 평균 값에 기초하여 상기 입력 영상의 품질 스코어를 획득할 수 있다.
또한, 상기 학습된 신경망 모델은, 학습 이미지 및 상기 학습 이미지의 품질 스코어가 입력됨에 따라 상기 학습된 신경망 모델로부터 출력되는 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고, 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어를 상기 제3 신경망 모듈 및 상기 제4 신경망 모듈로 피드백하여 비지도 학습될 수 있다.
여기서, 상기 학습된 신경망 모델은, 상기 연산 모듈을 통해 상기 출력된 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고, 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 제3 신경망 모듈에 포함된 복수의 신경망 레이어에 대응되는 가중치 및 상기 제4 신경망 모듈에 포함된 복수의 신경망 레이어에 대응되는 가중치 중 적어도 하나를 업데이트하여 비지도 학습될 수 있다.
또한, 상기 제1 신경망 모듈은, 상기 입력 영상의 사이즈와 동일한 사이즈의 제1 특징 데이터를 출력하고, 상기 제2 신경망 모듈은, 상기 입력 영상의 사이즈보다 축소된 사이즈의 제2 특징 데이터를 출력할 수 있다.
또한, 상기 학습된 신경망 모델은, 상기 제2 특징 데이터를 제1 압축 방식에 따라 압축하는 제1 압축 모듈, 상기 제2 특징 데이터를 상기 제1 특징 데이터와 동일한 사이즈로 업스케일링하는 업스케일링 모듈 및 상기 제1 특징 데이터 및 상기 업스케일링된 제2 특징 데이터를 결합하는 결합 모듈을 포함하며, 상기 제3 신경망 모듈은, 상기 결합 모듈로부터 출력되는 상기 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득할 수 있다.
여기서, 상기 학습된 신경망 모델은, 상기 제2 특징 데이터를 제2 압축 방식에 따라 압축하는 제2 압축 모듈, 상기 제2 특징 데이터를 상기 제1 특징 데이터와 동일한 사이즈로 업스케일링하는 업스케일링 모듈 및 상기 제1 특징 데이터 및 상기 업스케일링된 제2 특징 데이터를 결합하는 결합 모듈을 포함하며, 상기 제4 신경망 모듈은, 상기 결합 모듈로부터 출력되는 상기 제4 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 ROI 스코어를 획득할 수 있다.
또한, 상기 제1 신경망 모듈 내지 제4 신경망 모듈 각각은, 복수의 신경망 레이어를 포함하며, 상기 제1 신경망 모듈의 출력 레이어로부터 출력되는 상기 제1 특징 정보 및 상기 제2 신경망 모듈의 출력 레이어로부터 출력되는 상기 제2 특징 정보가 결합된 상기 제3 특징 정보는, 상기 제3 신경망 모듈의 입력 레이어로 입력되고, 상기 제1 신경망 모듈의 출력 레이어로부터 출력되는 상기 제1 특징 정보 및 상기 제2 신경망 모듈의 출력 레이어로부터 출력되는 상기 제2 특징 정보가 결합된 상기 제4 특징 정보는, 상기 제4 신경망 모듈의 입력 레이어로 입력될 수 있다.
한편, 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 입력 영상을 학습된 신경망 모델에 입력하여 상기 입력 영상의 품질 스코어, 상기 입력 영상에 포함된 픽셀 별 품질 스코어, 상기 픽셀 별 ROI(Region of Interst) 스코어를 획득하는 단계를 포함하며, 상기 학습된 신경망 모델은, 제1 신경망 모델, 제2 신경망 모델, 제3 신경망 모델, 제4 신경망 모델 및 연산 모듈을 포함하며, 상기 획득하는 단계는, 상기 제1 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득하는 단계, 상기 제2 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득하는 단계, 상기 제3 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는 단계, 상기 제4 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 상기 픽셀 별 ROI 스코어를 획득하는 단계 및 상기 연산 모듈에 의해, 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 단계를 포함할 수 있다.
여기서, 상기 제1 특징 정보는, 상기 입력 영상에 포함된 에지(Edge) 정보 및 노이즈(Noise) 정보 중 적어도 하나를 포함하며, 상기 제2 특징 정보는, 상기 입력 영상에 포함된 오브젝트에 대한 정보를 포함할 수 있다.
여기서, 상기 입력 영상의 품질 스코어를 획득하는 단계는, 상기 입력 영상에 포함된 제1 픽셀에 대응되는 제1 품질 스코어 및 상기 제1 픽셀에 대응되는 제1 ROI 스코어를 곱하여 제1 값을 획득하는 단계, 상기 입력 영상에 포함된 제2 픽셀에 대응되는 제2 품질 스코어 및 상기 제2 픽셀에 대응되는 제2 ROI 스코어를 곱하여 제2 값을 획득하는 단계 및 상기 제1 값 및 상기 제2 값의 평균 값에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 단계를 포함할 수 있다.
여기서, 상기 학습된 신경망 모델은, 학습 이미지 및 상기 학습 이미지의 품질 스코어가 입력됨에 따라 상기 학습된 신경망 모델로부터 출력되는 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고, 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어를 상기 제3 신경망 모듈 및 상기 제4 신경망 모듈로 피드백하여 비지도 학습될 수 있다.
여기서, 상기 학습된 신경망 모델은, 상기 연산 모듈을 통해 상기 출력된 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고, 상기 분리된 픽셀 별 품질 스코어 및 상기 분리된 픽셀 별 ROI 스코어의 크기에 기초하여 상기 제3 신경망 모듈 및 상기 제4 신경망 모듈의 가중치를 업데이트하여 비지도 학습될 수 있다.
또한, 상기 제1 특징 정보를 획득하는 단계는, 상기 입력 영상의 사이즈와 동일한 사이즈의 제1 특징 데이터를 획득하고, 상기 2 특징 정보를 획득하는 단계는, 상기 입력 영상의 사이즈보다 축소된 사이즈의 제2 특징 데이터를 획득할 수 있다.
여기서, 상기 획득하는 단계는, 제1 압축 모듈에 의해, 상기 제2 특징 데이터를 제1 압축 방식에 따라 압축하는 단계, 업스케일링 모듈에 의해, 상기 제2 특징 데이터를 상기 제1 특징 데이터와 동일한 사이즈로 업스케일링하는 단계 및 결합 모듈에 의해, 상기 제1 특징 데이터 및 상기 업스케일링된 제2 특징 데이터를 결합하는 단계를 더 포함하며, 상기 픽셀 별 품질 스코어를 획득하는 단계는, 상기 결합 모듈로부터 출력되는 상기 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득할 수 있다.
여기서, 상기 획득하는 단계는, 제2 압축 모듈에 의해, 상기 제2 특징 데이터를 제2 압축 방식에 따라 압축하는 단계, 업스케일링 모듈에 의해, 상기 제2 특징 데이터를 상기 제1 특징 데이터와 동일한 사이즈로 업스케일링하는 단계 및 결합 모듈에 의해, 상기 제1 특징 데이터 및 상기 업스케일링된 제2 특징 데이터를 결합하는 단계를 더 포함하며, 상기 픽셀 별 ROI 스코어를 획득하는 단계는, 상기 결합 모듈로부터 출력되는 상기 제4 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 ROI 스코어를 획득할 수 있다.
또한, 상기 제1 신경망 모듈 내지 제4 신경망 모듈 각각은, 복수의 신경망 레이어를 포함하며, 상기 제1 신경망 모듈의 출력 레이어로부터 출력되는 상기 제1 특징 정보 및 상기 제2 신경망 모듈의 출력 레이어로부터 출력되는 상기 제2 특징 정보가 결합된 상기 제3 특징 정보는, 상기 제3 신경망 모듈의 입력 레이어로 입력되고, 상기 제1 신경망 모듈의 출력 레이어로부터 출력되는 상기 제1 특징 정보 및 상기 제2 신경망 모듈의 출력 레이어로부터 출력되는 상기 제2 특징 정보가 결합된 상기 제4 특징 정보는, 상기 제4 신경망 모듈의 입력 레이어로 입력될 수 있다.
한편, 전자 장치의 프로세서에 의해 실행되는 경우 상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서, 상기 동작은, 입력 영상을 학습된 신경망 모델에 입력하여 상기 입력 영상의 품질 스코어, 상기 입력 영상에 포함된 픽셀 별 품질 스코어, 상기 픽셀 별 ROI(Region of Interst) 스코어를 획득하는 단계를 포함하며, 상기 학습된 신경망 모델은, 제1 신경망 모델, 제2 신경망 모델, 제3 신경망 모델, 제4 신경망 모델 및 연산 모듈을 포함하며, 상기 획득하는 단계는, 상기 제1 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득하는 단계, 상기 제2 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득하는 단계, 상기 제3 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는 단계, 상기 제4 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 상기 픽셀 별 ROI 스코어를 획득하는 단계 및 상기 연산 모듈에 의해, 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 단계를 포함할 수 있다.
도 1은 일 실시 예에 따른 입력 영상의 품질 스코어를 획득하는 방법을 개략적으로 설명하기 위한 도면이다.
도 2는 일 실시 예에 따른 전자 장치의 구성을 나타내는 블록도이다.
도 3a는 학습된 신경망 모델을 이용하여 입력 영상의 품질 스코어를 획득하는 방법을 설명하기 위한 도면이다.
도 3b는 일 예에 따른 학습된 신경망 모델 내 존재하는 복수의 모듈의 세부 구성을 설명하기 위한 도면이다.
도 4는 일 실시 예에 따른 픽셀 별 품질 스코어를 획득하는 방법을 설명하기 위한 도면이다.
도 5는 일 실시 예에 따른 픽셀 별 ROI 스코어를 획득하는 방법을 설명하기 위한 도면이다.
도 6a 및 6b는 일 실시 예에 따른 입력 영상의 품질 스코어를 획득하는 방법을 설명하기 위한 도면이다.
도 7a 내지 7d는 일 실시 예에 따른 신경망 모델을 학습시키는 방법을 설명하기 위한 도면이다.
도 8은 일 실시 예에 따른 전자 장치의 세부 구성을 설명하기 위한 도면이다.
도 9는 일 실시 예에 따른 입력 영상의 품질 스코어를 획득하는 방법을 설명하기 위한 흐름도이다.
이하에서는 첨부 도면을 참조하여 본 개시를 상세히 설명한다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.
본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
A 또는/및 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.
본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
또한, 본 명세서에서 'DNN(deep neural network)'은 뇌 신경을 모사한 인공신경망 모델의 대표적인 예시로써, 특정 알고리즘을 사용한 인공신경망 모델로 한정되지 않는다.
또한, 본 명세서에서 '파라미터'는 뉴럴 네트워크를 이루는 각 레이어의 연산 과정에서 이용되는 값으로서 예를 들어, 입력 값을 소정 연산식에 적용할 때 이용되는 가중치를 포함할 수 있다. 또한, 파라미터는 매트릭스 형태로 표현될 수 있다. 파라미터는 훈련의 결과로 설정되는 값으로서, 필요에 따라 별도의 훈련 데이터(training data)를 통해 갱신될 수 있다.
이하 첨부된 도면들을 참조하여 본 개시의 일 실시 예를 보다 상세하게 설명한다.
도 1은 일 실시 예에 따른 입력 영상의 품질 스코어를 획득하는 방법을 개략적으로 설명하기 위한 도면이다.
본 개시의 일 실시 예에 따른 전자 장치는 학습된 신경망 모델(또는, 인공 신경망)을 이용하여 입력 영상(또는, 이미지 프레임)의 품질 스코어를 획득하도록 구현될 수 있다. 예를 들어, 입력 영상의 품질 스코어(50)는 영상 전체의 전반적인 질을 나타내는 MOS(Mean Opinion Score, MOS)일 수 있다. 일 예에 따라, 품질 스코어는 영상 각각에 대응되는 상대적인 품질 평가 점수로, 정규화된 값, 예를 들어 0~5 사이의 값을 가질 수 있으나 이에 한정되는 것은 아니다.
한편, 학습된 신경망 모델은 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 파라미터(parameters)(또는 복수의 가중치(weight values))를 포함하며, 이전(previous) 레이어의 연산 결과와 복수의 파라미터들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 복수의 신경망 레이어들에 포함된 파라미터들은 학습된 신경망 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 학습된 신경망 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 파라미터(또는, 가중치)들이 갱신될 수 있다.
인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
도 1에 따르면, 일 실시 예에 따른 전자 장치는 영상(10)이 입력되면, 이를 학습된 신경망 모델에 입력하여 입력된 영상(10)의 픽셀 별 품질 스코어(20, 또는 pMOS(pixel-by-pixel-Mean-Opinion-Score)) 및 픽셀 별 ROI(Region-of-Interest, 또는 관심 영역) 스코어(30)을 획득할 수 있다.
여기서, 픽셀 별 품질 스코어(20)는 입력된 영상의 픽셀 각각에 대응되는 품질 평가 점수이고, 픽셀 별 ROI 스코어(30)는 입력된 영상 내 픽셀 각각이 관심 영역(ROI)에 해당할 확률 값에 대한 정보일 수 있다. 예를 들어, 픽셀 별 품질 스코어(20) 및 픽셀 별 ROI 스코어(30)는 상대적인 값일 수 있으나, 반드시 이에 한정되는 것은 아니다.
한편, 일 예에 따라 도 1에 도시된 바와 같이 학습된 신경망 모델의 출력은 픽셀 별 품질 스코어(20) 및 픽셀 별 ROI 스코어(30)를 나타내는 이미지를 포함하는 이미지 정보로서 획득될 수도 있다. 예를 들어, 품질 스코어 크기 및 ROI 스코어 크기는 픽셀의 밝기 예를 들어, 그레이 스케일 값에 비례할 수 있다. 예를 들어, 밝기가 클수록 품질 스코어 및 ROI 스코어가 상대적으로 클 수 있으나, 이에 한정되는 것은 아니다. 다만, 다른 예에 따라 각 픽셀 별 위치에 대응되는 품질 스코어 및 ROI 스코어가 숫자 형태로 획득될 수 있음은 물론이다.
이 후, 일 실시 예에 따라, 전자 장치는 픽셀 별 품질 스코어(20) 및 픽셀 별 ROI 스코어(30)가 학습된 신경망 모델 내 연산 모듈(40)을 통해 연산된 결과에 기초하여 입력 영상의 품질 스코어(50)을 획득할 수 있다.
이하에서는, 신경망 모델의 학습 방법 및 학습된 신경망 모델을 이용하여 입력 영상의 픽셀 별 품질 스코어, 픽셀 별 ROI 스코어 및 입력 영상의 품질 스코어를 획득하는 구체적인 방법을 포함하는 다양한 실시 예에 대해 설명하도록 한다.
도 2는 일 실시 예에 따른 전자 장치의 구성을 나타내는 블록도이다.
도 2에 따르면, 전자 장치(100)는 메모리(110) 및 프로세서(120)를 포함한다.
전자 장치(100)는 서버, 예를 들어, 컨텐츠 제공 서버, PC 등 컨텐츠를 제공할 수 있는 다양한 타입의 장치로 구현될 수 있다. 또는 전자 장치(100)는 클라우딩 컴퓨팅 환경이 구축된 시스템 자체일 수도 있다. 다만, 이에 한정되는 것은 아니며, 전자 장치(100)는 TV, 셋톱 박스(Set-top box), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer) 등 영상을 입력받아 처리하는 다양한 유형의 영상 처리 장치로 구현될 수도 있음은 물론이다.
일 예에 따라 전자 장치(100)는 다양한 압축 영상 또는 다양한 해상도의 영상을 수신할 수 있다. 예를 들어, 전자 장치(100)는 MPEG(Moving Picture Experts Group)(예를 들어, MP2, MP4, MP7 등), JPEG(joint photographic coding experts group), AVC(Advanced Video Coding), H.264, H.265, HEVC(High Efficiency Video Codec) 등으로 압축된 형태로 영상을 수신할 수 있다. 또는 전자 장치(100))는 SD(Standard Definition), HD(High Definition), Full HD, Ultra HD 영상 중 어느 하나의 영상을 수신할 수 있다.
메모리(110)는 본 개시의 다양한 실시 예를 위해 필요한 데이터를 저장할 수 있다. 메모리(110)는 데이터 저장 용도에 따라 전자 장치(100)에 임베디드된 메모리 형태로 구현되거나, 전자 장치(100)에 탈부착이 가능한 메모리 형태로 구현될 수도 있다. 예를 들어, 전자 장치(100)의 구동을 위한 데이터의 경우 전자 장치(100)에 임베디드된 메모리에 저장되고, 전자 장치(100)의 확장 기능을 위한 데이터의 경우 전자 장치(100)에 탈부착이 가능한 메모리에 저장될 수 있다. 한편, 전자 장치(100)에 임베디드된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나로 구현될 수 있다. 또한, 전자 장치(100)에 탈부착이 가능한 메모리의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결 가능한 외부 메모리(예를 들어, USB 메모리) 등과 같은 형태로 구현될 수 있다.
일 예에 따라, 메모리(110)는 전자 장치(100)를 제어하기 위한 적어도 하나의 인스트럭션(instruction) 또는 인스트럭션들을 포함하는 컴퓨터 프로그램을 저장할 수 있다
다른 예에 따라, 메모리(110)는 복수의 레이어를 포함하는 학습된 신경망 모델에 관한 정보를 저장할 수 있다. 여기서, 신경망 모델에 관한 정보를 저장한다는 것은 신경망 모델의 동작과 관련된 다양한 정보, 예를 들어 신경망 모델에 포함된 복수의 레이어에 대한 정보, 복수의 레이어 각각에서 이용되는 파라미터, 바이어스 등에 대한 정보 등을 저장한다는 것을 의미할 수 있다. 다만, 후술하는 프로세서(120)의 구현 형태에 따라 신경망 모델에 관한 정보가 프로세서(120)의 내부 메모리에 저장될 수 있음은 물론이다. 예를 들어, 프로세서(120)가 전용 하드웨어로 구현되는 경우, 신경망 모델에 관한 정보는 프로세서(120) 내부 메모리에 저장될 수도 있다.
또 다른 예에 따라, 메모리(110)는 외부 장치(예를 들어, 소스 장치), 외부 저장 매체(예를 들어, USB), 외부 서버(예를 들어 웹 하드) 등으로부터 수신된 영상(또는, 이미지)을 저장할 수 있다. 여기서, 영상은 디지털 동영상이 될 수 있으나 이에 한정되는 것은 아니다.
적어도 하나의 프로세서(120)(이하, 프로세서)는 메모리(110)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작을 제어한다. 프로세서(120)는 하나 또는 복수의 프로세서로 구성될 수 있다. 구체적으로, 프로세서(120)는 메모리(110)에 저장된 적어도 하나의 인스트럭션을 실행함으로써, 본 개시의 다양한 실시 예에 따른 전자 장치(100)의 동작을 수행할 수 있다.
일 실시 예에 따라 프로세서(120)는 디지털 영상 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), GPU(Graphics Processing Unit), AI(Artificial Intelligence) 프로세서, NPU (Neural Processing Unit), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(140)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, ASIC(application specific integrated circuit), FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.
일 실시 예에 따라 프로세서(120)는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(120)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.
또한, 일 실시 예에 따른 인공 지능 모델(또는, 신경망 모델)을 실행하기 위한 프로세서(120)는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공 지능 전용 프로세서와 소프트웨어의 조합을 통해 구현될 수 있다.
프로세서(120)는, 메모리(110)에 저장된 기 정의된 동작 규칙 또는 신경망 모델에 따라, 입력 데이터를 처리하도록 제어할 수 있다. 또는, 프로세서(130)가 전용 프로세서(또는 인공 지능 전용 프로세서)인 경우, 특정 인공 지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다. 예를 들어, 특정 인공 지능 모델의 처리에 특화된 하드웨어는 ASIC, FPGA 등의 하드웨어 칩으로 설계될 수 있다. 프로세서(130)가 전용 프로세서로 구현되는 경우, 본 개시의 실시 예를 구현하기 위한 메모리를 포함하도록 구현되거나, 외부 메모리를 이용하기 위한 메모리 처리 기능을 포함하도록 구현될 수 있다.
일 실시 예에 따라, 프로세서(120)는 입력 영상(또는, 이미지)을 학습된 신경망 모델에 입력하여 입력 영상의 품질 스코어, 입력 영상에 포함된 픽셀 별 품질 스코어 및 픽셀 별 ROI(Region of Interst) 스코어를 획득할 수 있다. 이에 대하여는 하기의 도 3a 및 3b를 통해 자세히 설명하도록 한다.
도 3a는 학습된 신경망 모델을 이용하여 입력 영상의 품질 스코어를 획득하는 방법을 설명하기 위한 도면이다.
도 3a에 따르면, 일 실시 예에 따른 학습된 신경망 모델(200)은 제1 신경망 모듈(또는, 제1 모듈, 210), 제2 신경망 모듈(또는, 제2 모듈, 220), 제3 신경망 모듈(230)(또는, 제3 모듈, 230), 제4 신경망 모듈(또는, 제4 모듈, 240) 및 연산 모듈(290)을 포함할 수 있다. 제1 신경망 모듈 내지 제4 신경망 모듈 및 연산 모듈(290) 각각은 복수의 신경망 레이어를 포함할 수 있다. 여기서, 각 신경망 모듈 내에 포함된 복수의 신경망 레이어들 각각은 복수의 파라미터를 포함하며, 학습된 신경망 모델은 이전 레이어의 연산 결과와 복수의 파라미터들 간의 연산을 통해 신경망 연산을 수행할 수 있다.
먼저, 일 실시 예에 따라 제1 신경망 모듈(210)의 입력 레이어로 영상(10)이 입력되면, 제1 신경망 모듈(210)은 입력 영상(10)에 포함된 픽셀 별 제1 특징 정보를 출력할 수 있다. 여기서, 제1 신경망 모듈(210)은 입력 영상(10)의 로컬 피쳐(local feature), 예를 들어 영상 내에 존재하는 에지(edge) 또는 포인트(point)과 같은 노이즈(noise)를 추출하는 모듈이다. 일 예에 따라, 제1 특징 정보는 입력 영상(10)에 포함된 에지(Edge) 정보 및 노이즈(Noise) 정보 중 적어도 하나를 포함할 수 있다.
한편, 일 실시 예에 따라, 제2 신경망 모듈(220)의 입력 레이어로 영상(10)이 입력되면, 제2 신경망 모듈(220)은 입력 영상(10)에 포함된 픽셀 별 제2 특징 정보를 출력할 수 있다. 여기서, 제2 신경망 모듈(220)은 입력 영상(10)의 하이 레벨 피쳐(high-level feature)를 추출하는 모듈이다. 일 예에 따라, 제2 특징 정보는, 입력 영상 내에 식별된 오브젝트의 카테고리(또는 타입) 정보 및 오브젝트의 외형 정보 등의 특징 정보를 포함할 수 있다. 즉, 제1 신경망 모듈(210)은 입력 영상(10)의 윤곽선, 점과 같은 로컬 특징을 추출하고, 제2 신경망 모듈(220)은 입력 영상(10) 내에 존재하는 오브젝트 카테고리 및 오브젝트의 식별 가능한 외형 정보 등과 같이 상대적으로 의미가 있는 하이 레벨 특징을 출력할 수 있다.
일 예에 따라 제2 신경망 모듈(220)은 InceptionResNetV2에서 일부 레이어가 변경된 신경망 모델이 될 수 있다. InceptionResNetV2은 입력 영상(10) 내에 존재하는 오브젝트, 예를 들어 키보드, 마우스, 연필 및 동물을 포함하는 1000여가지 사물을 특정 범주로 분류(classify)하는 학습된 신경망 모델로서, 입력 영상 내에 존재하는 오브젝트의 카테고리 및 오브젝트의 식별 가능한 외형 등의 특징을 추출할 수 있다. 제2 신경망 모듈(220)에 대하여는 도 4를 통해 자세히 기술하도록 한다.
한편, 일 실시 예에 따라 제1 신경망 모듈(210)의 출력 레이어로부터 출력되는 제1 특징 정보 및 제2 신경망 모듈(220)의 출력 레이어로부터 출력되는 제2 특징 정보가 결합된 제3 특징 정보는, 제3 신경망 모듈(230)의 입력 레이어로 입력될 수 있다. 이 후 제3 신경망 모듈(230)은 입력된 제3 특징 정보에 기초하여 입력 영상(10)에 포함된 픽셀 별 품질 스코어를 획득할 수 있다. 여기서, 제3 신경망 모듈(230)은 추출된 입력 영상(10)의 특징 정보를 이용하여 입력 영상(10) 내 픽셀 각각에 대응되는 품질 평가 점수를 출력하는 신경망 모듈이다. 한편, 일 예에 따라 제3 특징 정보는 제1 특징 정보와 제2 특징 정보가 연속적으로 결합된 정보로서, 학습된 신경망 모델 내 존재하는 결합 모듈(미도시)을 통해 결합될 수 있다. 이에 대하여는 도 4를 통해 자세히 설명하도록 한다.
한편, 일 실시 예에 따라 제1 신경망 모듈(210)의 출력 레이어로부터 출력되는 제1 특징 정보 및 제2 신경망 모듈(220)의 출력 레이어로부터 출력되는 제2 특징 정보가 결합된 제4 특징 정보는, 제4 신경망 모듈(240)의 입력 레이어로 입력될 수 있다. 이 후 제4 신경망 모듈(240)은 입력된 제4 특징 정보에 기초하여 입력 영상(10)에 포함된 픽셀 별 ROI 스코어를 획득할 수 있다. 여기서, 제4 신경망 모듈(240)은 추출된 입력 영상(10)의 특징 정보를 이용하여 입력 영상(10)의 관심 영역(ROI)를 추출하고, 추출된 관심 영역(ROI)에 기초하여 픽셀 별 ROI 스코어를 추출하는 모듈이다. 한편, 일 예에 따라 제4 특징 정보는 제1 특징 정보와 제2 특징 정보가 연속적으로 결합된 정보로서, 학습된 신경망 모델 내 존재하는 결합 모듈(미도시)을 통해 결합될 수 있다. 이에 대하여는 도 4를 통해 자세히 설명하도록 한다.
이 후, 일 실시 예에 따라 연산 모듈(290)은 제3 신경망 모듈(230)로부터 획득된 픽셀 별 품질 스코어 및 제4 신경망 모듈(240)로부터 획득된 픽셀 별 ROI 스코어에 기초하여 입력 영상의 품질 스코어를 획득할 수 있다. 일 예에 따라, 연산 모듈(290)은 영상 내 픽셀 각각에 대응되는 품질 스코어 및 ROI 스코어를 곱하여 제1 값을 획득하고, 획득된 영상 내 픽셀 각각의 제1 값의 대표 값(예를 들어, 평균 값, 최대 값, 최소 값 등)을 입력 이미지의 품질 스코어로 출력할 수 있다. 이에 따라 프로세서(120)는 입력 영상의 픽셀 별 품질 스코어, 픽셀 별 ROI 스코어 및 입력 영상의 품질 스코어를 획득할 수 있게 된다.
도 3b는 일 예에 따른 학습된 신경망 모델의 세부 구성을 설명하기 위한 도면이다.
학습된 신경망 모델(200)은 복수의 신경망 모듈(210 내지 280)을 포함하며, 복수의 신경망 모듈 각각에 포함된 복수의 신경망 레이어들 각각은 복수의 파라미터를 포함한다. 각각의 신경망 모듈은 이전 레이어의 연산 결과와 복수의 파라미터들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 한편, 학습된 신경망 모델은 예를 들어, CNN 기반의 VDSR 기술(Jiwon Kim, et al., Accurate Image Super-Resolution Using Very Deep Convolutional Networks, CVPR 2016), EDSR(Enhanced Deep Residual Networks for Single Image Super-Resolution), DRCN(Deeply-Recursive Convolutional Network for Image Super-Resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.), MDSR(Multi-scale deep super-resolution system) 등이 이용될 수 있으나, 이에 한정되는 것은 아니다.
본 개시의 일 실시 예에 따르면, 복수의 신경망 모듈(210 내지 280)은 각 신경망 모듈 내 포함된 임의의 레이어를 통해 신경망 연산 처리를 수행할 수 있다. 예를 들어, CNN (Convolutional Neural Network)에 포함된 각 컨벌루션 레이어(Convolution Layer)는 입력 데이터에 대해 한 개 이상의 필터(또는 커널)를 적용할 수 있다. 만약 임의의 컨벌루션 레이어에서 n 개의 필터가 적용된다면 출력 데이터는 n 개의 채널을 가질 수 있다. 여기서, 필터는 n*n 형태가 될 수 있다. 예를 들어 도 3b에 도시된 바와 같이 특정 컨벌루션 레이어에서 3*3 형태의 필터가 16개 적용되는 경우, 출력 데이터의 채널 개수는 16개가 될 수 있다. 한편, 일 예에 따라 도 3b의 conv(n)에서 n은 출력되는 채널의 개수를 의미할 수 있다.
일 예에 따라, 각각의 신경망 모듈은 임의의 레이어에서 컨벌루션 필터 적용 후 활성화 함수, 예를 들어 ReLU(Rectified Linear Unit) 연산을 통해 출력되는 연산 데이터가 출력될 수 있다. 이 경우, 레이어에서 출력되는 연산 데이터는 다채널 데이터로서, 예를 들어, 16 개의 피쳐 맵(또는 액티베이션 맵) 데이터가 출력되어 다음 레이어로 제공될 수 있다. 다만, 일 예에 따라 피쳐 맵 데이터가 메모리(내부 버퍼, 또는 외부 메모리)에 저장된 후 다음 레이어로 제공될 수 있으나, 도 3b에서는 해당 구성은 생략하였다. 여기서, 파라미터는 필터의 가중치(또는 계수)와 동일한 의미일 수 있다.
먼저, 일 실시 예에 따라 입력 영상(10) 내에서 픽셀 별 특징을 추출하기 위하여 제1 신경망 모듈(210)의 레이어는 로컬 특징 및 좁은 연산 필드(narrow receptive field)를 가질 수 있다. 일 예에 따라, 제1 신경망 모듈(210)은 총 7개의 레이어로 구성된다. 제1 신경망 모듈(210)은 모듈 내 포함된 각각의 레이어를 통해 컨벌루션 연산(예를 들어, 3*3 필터를 갖고 16개의 채널을 갖는 컨벌루션 연산), 배치 정규화(Batch normalization) 연산 또는 ReLU 연산을 수행할 수 있으며, 각각의 레이어로부터 출력된 출력 데이터는 다음 레이어로 제공될 수 있다. 다만 도 3b에 도시된 바와 같이 마지막 레이어의 경우 배치 정규화(Batch normalization) 및 ReLU 연산이 수행되지 않을 수 있다.
일 실시 예에 따라, 제3 신경망 모듈(230)은 총 3개의 레이어로 구성될 수 있다. 도 3b에 도시된 바와 같이 제3 신경망 모듈(230)은 모듈 내 포함된 각각의 레이어를 통해 컨벌루션 연산(1*1 또는 3*3 필터), 배치 정규화(Batch normalization) 연산, ReLU 연산 또는 드롭 아웃(Dropout) 연산을 수행할 수 있다. 이 경우, 각각의 레이어로부터 출력된 출력 데이터는 다음 레이어로 제공될 수 있다. 여기서, Dropout 연산은 실험 데이터에 의해 결과가 지나치게 오버-피팅(overfitting)된 경우 은닉층(hidden layer)의 일부 유닛이 동작하지 않게 하여 오버-피팅을 막는 연산을 의미한다.
한편, 일 실시 예에 따라 제4 신경망 모듈(240)은 총 3개의 레이어로 구성될 수 있다. 도 3b에 도시된 바와 같이 제4 신경망 모듈(240)은 모듈 내 포함된 각각의 레이어를 통해 컨벌루션 연산(1*1 또는 3*3 필터), 배치 정규화(Batch normalization) 연산 또는 ReLU 연산을 수행할 수 있다. 이 경우, 각각의 레이어로부터 출력된 출력 데이터는 다음 레이어로 제공될 수 있다. 즉, 제4 신경망 모듈은 제3 신경망 모듈에서 드롭 아웃 연산이 제거된 모듈과 동일한 구조를 갖게 된다.
한편, 일 예에 따라 제4 신경망 모델(240)은 마지막 레이어에서 정규화(normalization) 연산이 수행된다. 이 경우, 정규화 과정은 일반적으로 널리 이용되는 softmax 정규화가 아닌, 선형 정규화(linear normalization)가 수행될 수 있다. 하기 수학식 1은 일 예에 따른 선형 정규화를 나타내는 수식이다.
Figure PCTKR2023002496-appb-img-000001
여기서, x =
Figure PCTKR2023002496-appb-img-000002
는 비 정규화된 ROI 예측 값 세트(the set of unnormalizaed ROI prediction)이고, r =
Figure PCTKR2023002496-appb-img-000003
은 선형 정규화된 ROI 예측 값 세트(the set of linear normalizaed ROI prediction)이다.
또한, 일 실시 예에 따라 제1 압축 모듈(250)은 총 4개의 레이어로 구성될 수 있다. 제1 압축 모듈(250)은 모듈 내 포함된 각각의 레이어를 통해 컨벌루션 연산(예를 들어, 1*1 필터를 갖고 2048개의 채널을 갖는 컨벌루션 필터 또는 1*1 필터를 갖고 256개의 채널을 갖는 컨벌루션 필터), 배치 정규화(Batch normalization)연산 또는 ReLU 연산을 수행할 수 있으며, 각각의 레이어로부터 출력된 출력 데이터는 다음 레이어로 제공될 수 있다. 배치 정규화는 입력 데이터를 배치(Batch) 별로 정규화(Normalization)하는 연산이다. 한편, 도 3b에 도시된 바와 같이 마지막 레이어의 경우 배치 정규화(Batch normalization) 및 ReLU 연산이 수행되지 않을 수 있다.
또한, 일 실시 예에 따라 제2 압축 모듈(280)은 총 4개의 레이어로 구성될 수 있다. 도 3b에 도시된 바와 같이 제2 압축 모듈(280)은 모듈 내 포함된 각각의 레이어를 통해 컨벌루션 연산(3*3 필터) 또는 Element- wise addition 연산(또는, 요소 별 연산)을 수행할 수 있다. 여기서, 컨벌루션 연산을 수행하는 복수의 레이어로부터 출력되는 출력 데이터는 Element- wise addition을 수행하는 레이어로 입력되고, 상기 레이어에서 각 데이터의 요소 별 연산이 수행될 수 있다.
한편, 일 예에 따라, 제2 압축 모듈(280)는 DIM(Dilated inception module)일 수 있다. DIM은 낮은 계산 복잡성(low computational complexity)를 가지며, receptive field(각 단계의 입력 이미지에 대해 하나의 필터가 커버할 수 있는 이미지 영역)가 다른 신경망 모듈에 비해 상대적으로 넓다. 이 경우, receptive field가 입력 영상을 cover하는 비율이 높으므로, center-bias가 있는 경우 함축적으로 학습되는 효과가 있다.
한편 상술한 실시 예에서 각 모듈에 포함된 레이어의 개수 및 구현 형태는 일 예일 뿐이며, 반드시 이에 한정되지 않음은 물론이다.
도 4는 일 실시 예에 따른 픽셀 별 품질 스코어를 획득하는 방법을 설명하기 위한 도면이다.
도 4에 따르면, 일 실시 예에 따라 먼저 프로세서(120)는 학습된 신경망 모델(200)에 이미지(10)를 입력할 수 있다. 학습된 신경망 모델(200)에 이미지(10)가 입력되면, 제1 신경망 모듈(210)은 입력 영상에 포함된 픽셀 별 제1 특징 데이터(또는, 제1 특징 정보)를 획득할 수 있다.
한편, 제2 신경망 모듈(220)은 영상이 입력되면, 입력 영상에 포함된 픽셀 별 제2 특징 데이터(또는, 제2 특징 정보)를 획득할 수 있다. 일 예에 따라 제2 신경망 모듈(220)은 InceptionResNetV2에서 일부 레이어가 변경된 신경망 모델이 될 수 있다. 예를 들어, 제2 신경망 모듈(220)은 InceptionResNetV2 내 커널 사이즈가 3이고 padding이 0인 레이어가 커널 사이즈가 3이고 padding이 1인 레이어로 변경된 신경망 모듈일 수 있다. 이에 따르면 출력 데이터의 해상도(resolution)가 줄어들지 않아 spatial 정보의 손실을 줄일 수 있게 된다.
여기서, 제1 신경망 모듈(210)로부터 추출되는 제1 특징 데이터의 사이즈는 입력 영상(10)의 사이즈와 동일하고, 제2 신경망 모듈(220)로부터 추출되는 제1 특징 데이터의 사이즈는 입력 영상(10)의 사이즈보다 축소된 사이즈일 수 있다. 예를 들어, 입력 영상(10)의 사이즈가 (w, h), 즉 가로 크기 w픽셀, 세로 h픽셀의 사이즈를 갖는 경우, 제1 특징 데이터의 사이즈는 (w, h)이고, 제2 특징 데이터의 사이즈는 (w/32, h/32)가 될 수 있다. 이는 제2 신경망 모듈(220) 내 존재하는 복수의 레이어 중 resolution(해상도)를 유지하기 위해 paddindg이 없는 곳에 padding을 추가함에 따라 발생하는 현상이다.
한편, 제1 압축 모듈(250)의 입력 레이어로 제2 특징 데이터가 입력되면, 제1 압축 모듈은 입력된 제2 특징 데이터를 제1 압축 방식에 따라 압축하여 압축된 제2 특징 데이터를 획득할 수 있다. 이는 제2 신경망 모듈(220)로부터 출력된 제2 특징 데이터의 채널 수가 제1 특징 데이터에 비하여 상대적으로 크기 때문에, 데이터의 크기를 줄여 연산 처리 속도를 빠르게 하기 위함이다.
이 후, 업스케일링 모듈(Upscaling module, 260)의 입력 레이어로 압축된 제2 특징 데이터가 입력되면, 업스케일링 모듈(260)은 압축된 제2 특징 데이터를 제1 특징 데이터와 동일한 사이즈로 업스케일링할 수 있다. 상술한 예에서 제2 특징 데이터의 사이즈가 (w/32, h/32)이고, 제1 특징 데이터의 사이즈가 (w, h)인 경우, 업스케일링 모듈(260)로부터 출력된 제2 특징 데이터의 사이즈는 제1 특징 데이터와 같은 사이즈(w, h)가 된다.
이 후, 결합 모듈(270)은 제1 특징 데이터 및 업스케일링된 제2 특징 데이터를 결합하여 제3 특징 데이터를 출력할 수 있다. 여기서, 결합이란 각 데이터 값의 변화 없이 데이터들이 접합(Concatenation)되는 것을 의미한다. 이에 따라 이 경우, 제1 특징 데이터와 제2 특징 데이터의 결합시 데이터 값의 변화는 일어나지 않으며, 제1 특징 데이터에 대응되는 복수의 채널과 제2 특징 데이터에 대응되는 복수의 채널은 연속적으로 접합(Concatenation)된다. 예를 들어, 제1 특징 데이터의 채널 개수가 64이고, 제2 특징 데이터의 채널 개수가 256인 경우, 제3 특징 데이터의 채널 개수는 320이 된다.
이 후, 제3 신경망 모듈(230)은 결합 모듈(270)로부터 출력된 제3 특징 데이터에 기초하여 입력 영상에 포함된 픽셀 별 품질 스코어를 획득할 수 있게 된다.
도 5는 일 실시 예에 따른 픽셀 별 ROI 스코어를 획득하는 방법을 설명하기 위한 도면이다.
도 5에 따르면, 일 실시 예에 따라 먼저 프로세서(120)는 학습된 신경망 모델(200)에 이미지(10)를 입력할 수 있다. 학습된 신경망 모델(200)에 이미지(10)가 입력되면, 제1 신경망 모듈(210)은 입력 영상에 포함된 픽셀 별 제1 특징 데이터(또는, 제1 특징 정보)를 획득할 수 있다. 한편, 제2 신경망 모듈(220)은 영상이 입력되면, 입력 영상에 포함된 픽셀 별 제2 특징 데이터(또는, 제2 특징 정보)를 획득할 수 있다.
여기서, 제1 신경망 모듈(210)로부터 추출되는 제1 특징 데이터의 사이즈는 입력 영상(10)의 사이즈와 동일하고, 제2 신경망 모듈(220)로부터 추출되는 제1 특징 데이터의 사이즈는 입력 영상(10)의 사이즈보다 축소된 사이즈일 수 있다.
한편, 제2 압축 모듈(250)의 입력 레이어로 제2 특징 데이터가 입력되면, 제1 압축 모듈은 입력된 제2 특징 데이터를 제1 압축 방식에 따라 압축하여 압축된 제2 특징 데이터를 획득할 수 있다.
이 후, 업스케일링 모듈(Upscaling module, 260)의 입력 레이어로 압축된 제2 특징 데이터가 입력되면, 업스케일링 모듈(260)은 압축된 제2 특징 데이터를 제1 특징 데이터와 동일한 사이즈로 업스케일링할 수 있다. 상술한 예에서 제2 특징 데이터의 사이즈가 (w/32, h/32)이고, 제1 특징 데이터의 사이즈가 (w, h)인 경우, 업스케일링 모듈(260)로부터 출력된 제2 특징 데이터의 사이즈는 제1 특징 데이터와 같은 사이즈(w, h)가 된다.
이 후, 결합 모듈(270)은 제1 특징 데이터 및 업스케일링된 제2 특징 데이터를 결합하여 제4 특징 데이터를 출력할 수 있다. 여기서, 결합이란 각 데이터 값의 변화 없이 데이터들이 접합(Concatenation)되는 것을 의미한다. 이에 따라, 제1 특징 데이터와 제2 특징 데이터의 결합시 데이터 값의 변화는 일어나지 않으며, 제1 특징 데이터에 대응되는 복수의 채널과 제2 특징 데이터에 대응되는 복수의 채널은 연속적으로 접합(Concatenation)된다. 예를 들어, 제1 특징 데이터의 채널 개수가 64이고, 제2 특징 데이터의 채널 개수가 256인 경우, 제4 특징 데이터의 채널 개수는 320이 된다.
이 후, 제4 신경망 모듈(240)은 결합 모듈(270)로부터 출력된 제4 특징 데이터에 기초하여 입력 영상에 포함된 픽셀 별 ROI 스코어를 획득할 수 있게 된다.
도 6a 및 6b는 일 실시 예에 따른 입력 영상의 품질 스코어를 획득하는 방법을 설명하기 위한 도면이다.
도 6a에 따르면, 일 실시 예에 따라 연산 모듈(290)의 입력 레이어로 제3 신경망 모듈(230)로부터 픽셀 별 품질 스코어가 입력되고, 제4 신경망 모듈(240)로부터 픽셀 별 ROI 스코어가 입력되면, 연산 모듈(290)은 입력된 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어에 기초하여 입력 영상(10)의 품질 스코어를 출력할 수 있다.
일 예에 따라, 연산 모듈(290)은 입력 영상(10)에 포함된 제1 픽셀에 대응되는 제1 품질 스코어 및 제1 픽셀에 대응되는 제1 ROI 스코어를 곱하여 제1 값을 획득하고, 입력 영상에 포함된 제2 픽셀에 대응되는 제2 품질 스코어 및 제2 픽셀에 대응되는 제2 ROI 스코어를 곱하여 제2 값을 획득하고, 획득된 제1 값 및 제2 값의 평균 값을 입력 영상의 품질 스코어를 획득할 수 있다. 예를 들어, 도 6b에 도시된 바와 같이 픽셀 별 품질 스코어(610)와 픽셀 별 ROI 스코어(620)는 각 픽셀에 대응되는 스코어를 가질 수 있다. 이 경우, 연산 모듈(290)은 각 픽셀에 대응되는 스코어를 곱한 값(530)을 획득할 수 있으며, 획득된 제1 값 및 제2 값의 평균값을 전체 품질 스코어(540)으로 출력할 수 있다.
다른 예에 따라, 연산 모듈(290)은 제1 픽셀에 대응되는 제1 품질 스코어 및 제1 픽셀에 대응되는 제1 ROI 스코어를 곱하여 제1 값을 획득하고, 입력 영상에 포함된 제2 픽셀에 대응되는 제2 품질 스코어 및 제2 픽셀에 대응되는 제2 ROI 스코어를 곱하여 제2 값을 획득하고, 획득된 제1 값 및 제2 값의 중앙 값(median)을 입력 영상의 품질 스코어로 출력할 수도 있다.
또는, 연산 모듈(290)은 제1 값 및 제2 값을 각각 정규화(normalization)하여, 정규화된 제1 값 및 제2 값을 곱하여 입력 영상의 품질 스코어를 획득할 수도 있다.
도 7a 및 7b는 일 실시 예에 따른 신경망 모델을 학습시키는 방법을 설명하기 위한 도면이다.
일 실시 예에 따라, 메모리(110)에 저장된 신경망 모델은 학습을 통해 만들어진 것일 수 있다. 여기서, 학습을 통해 만들어진다는 것은, 기본 신경망 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 신경망 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 별도의 서버 및/또는 시스템을 통해 이루어질 수 있으나, 이에 한정되는 것은 아니며 전자 장치(100)에서 이루어질 수도 있다. 학습 알고리즘의 예로는 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
도 7a에 따르면, 일 실시 예에 따라, 학습된 신경망 모델(200)은 학습 이미지(710) 및 학습 이미지의 품질 스코어(720)가 입력됨에 따라 학습된 신경망 모델로부터 출력되는 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고, 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어를 제3 신경망 모듈(230) 및 제4 신경망 모듈(240)로 피드백하여 비지도 학습(Unsupervised learning)될 수 있다.
도 7b에 따르면, 일 예에 따라 학습된 신경망 모델(200)은, 연산 모듈(290)을 통해 출력된 품질 스코어(710)를 픽셀 별 품질 스코어(730) 및 픽셀 별 ROI 스코어(740)로 분리하고, 분리된 픽셀 별 품질 스코어(730) 및 분리된 픽셀 별 ROI 스코어(740)에 기초하여 제3 신경망 모듈(230)에 포함된 복수의 신경망 레이어에 대응되는 가중치 및 제4 신경망 모듈(240)에 포함된 복수의 신경망 레이어에 대응되는 가중치 중 적어도 하나를 업데이트하여 비지도 학습될 수 있다.
예를 들어, 출력된 품질 스코어(710)가 학습 이미지의 품질 스코어(720)보다 상대적으로 작은 경우, 신경망 모듈(200)은, ROI 스코어의 크기가 임계 값 이상인 픽셀을 식별하고, ROI 스코어의 크기가 임계 값 이상인 픽셀의 품질 스코어가 이전보다 큰 값을 가지도록 신경망 레이어의 가중치를 업데이트할 수 있다. 이에 따라 출력된 품질 스코어(710)는 이전보다 더 큰 값을 가지게 되고, 학습 이미지의 품질 스코어(720)의 크기에 더욱 가까워지게 된다.
다른 예로, 출력된 품질 스코어(710)가 학습 이미지의 품질 스코어(720)보다 상대적으로 큰 경우, ROI 스코어의 크기가 임계 값 미만인 픽셀의 품질 스코어가 이전보다 작은 값을 가지도록 신경망 레이어의 가중치를 업데이트할 수 있다. 이에 따라 출력된 품질 스코어(710)는 이전보다 더 작은 값을 가지게 되고, 학습 이미지의 품질 스코어(720)의 크기에 더욱 가까워지게 된다.
한편, 일 예에 따라 상술한 학습된 신경망 모듈(200)에는 Loss Function이 사용될 수 있다. 예를 들어, 하기와 같은 수학식 2의 Loss Function이 사용될 수 있다.
Figure PCTKR2023002496-appb-img-000004
여기서, P 와 G는 각각 MOS 예상 값 및 Ground-truth MOS 예상 값을 의미하며, p =
Figure PCTKR2023002496-appb-img-000005
은 pMOS(픽셀 별 품질 스코어)의 예측치의 세트(set)를 의미한다.수학식 2에 따라 ROI는 Ground-truth 픽셀별 품질 스코어 및 Ground-truth 픽셀별 ROI 스코어 없이 비지도 학습이 가능하게 된다.
한편, 수학식 2에 따라 픽셀 별 ROI 스코어가 출력되도록 신경망 모델(200)이 학습될 때, p가 learning weight가 된다. 이에 따라, ROI를 출력하는 신경망 모듈은 MOS가 높은 곳에서 높은 learning weight를 갖고, MOS가 낮은 곳에서 낮은 learning weight를 갖게 된다. 예를 들어, MOS 크기의 범위가 1 내지 5인 경우 ROI를 출력하는 신경망 모듈의 학습 속도는 MOS 크기의 범위가 1 내지 5를 벗어나는 경우에 비해 학습 속도가 약 5배 정도의 차이가 발생하게 된다. 이에 따라, learning weight를 보정할 필요성이 존재한다.
한편, 도 7c 및 도 7d는 각각 입력 영상의 KonIQ-10k 및 LIVE Challenge dataset의 MOS 분포표이다. 도시된 그래프에서 가로축은 MOS의 크기 범위를 나타내고, 세로 축은 샘플의 개수를 의미한다.
도 7c 및 도 7d에 따르면, 상대적으로 MOS 크기가 중앙(예를 들어, [57.02, 63.72])에 가까울수록 개수가 증가하여 이에 해당할 확률이 높아지며, 반대의 경우 이에 해당하는 MOS의 크기가 상대적으로 감소하여 이에 해당할 확률 역시 상대적으로 감소하게 된다. 이에 따라, 엔트로피의 관점으로 보면 MOS 중앙보다 양 끝단([3.42, 10.12] 또는 [90.52, 97.22])에서 더 많은 정보를 가지고 있다. 이에 기초하여, 신경망 모델(200)이 학습시 p의 평균 값(mean)을 0으로 변경하면 MOS의 중앙 부분에서는 learning weight가 낮아지고, 양 끝단으로 갈수록 learning weight가 높아지게 되므로, 정보가 많은 곳에서 learning weight를 높이기 위하여 Loss Function을 하기 수학식 3과 같이 변경할 수 있다.
Figure PCTKR2023002496-appb-img-000006
Figure PCTKR2023002496-appb-img-000007
여기서, P 와 G는 각각 MOS 예상 값 및 Ground-truth MOS 예상 값을 의미하며, p =
Figure PCTKR2023002496-appb-img-000008
은 pMOS(픽셀 별 품질 스코어)의 예측치의 세트(set)를 의미한다. 수학식 3은, 수학식 2에 비해 평균값이 변경된(Mean- shifted) 상태에서의 출력 MOS 값이다.
일 실시 예에 따르면, 학습된 신경망 모델(200)의 성능 평가는 Pearson's Linear Correlation Coefficient (PLCC) and Spearman's Rank Order Correlation Coefficient (SRCC)으로 수행되었다. PLCC는 prediction의 정확도(accuracy)를 측정하고 SRCC는 prediction의 단조(monotonicity)를 측정한다. 각 수치의 범위는 -1에서 1까지이며 높을수록 좋은 성능을 의미한다.
한편, 표 1을 통해 학습된 신경망 모델을 IQA(Image-Quality-Assessment, 이미지 품질 평가) 방법들과 성능 비교를 수행했다. 표 1에서 따르면, 본원의 학습된 신경망 모델은 KonIQ dataset 및 LIVEC dataset 모두에서 다른 방법(예를 들어, GraphIQA, HyperIQA, TRIQ 및 TranSLA)에 비하여 PLCC 및 SRCC가 가장 높은 결과를 가진다. 한편, 표 1에 따르면 KonIQ dataset에서 RMSE이는 기존 기법 대비 6%이상 감소하였다.
Figure PCTKR2023002496-appb-img-000009
또한, 본원의 학습된 신경망 모델의 성능을 조사하기 위해 절제 연구(ablation study)를 진행했다. 표 2는 제안하는 모듈들을 단계적으로 추가시킨 결과를 보여준다. Local IQA(본원의 제1 신경망 모듈에 대응)만으로 구성된 네트워크는 모든 위치에서 동일 한 weight를 가지도록 MOS를 학습했으므로 성능이 좋지 않다. ROI prediction(본원의 제3 신경망 모듈)을 추가했을 경우 IQA에서 중요한 부분이 포커싱될 수 있도록 함으로써 이전에 비하여 성능이 크게 향상됨을 볼 수 있다. 마지막으로 high-level feature embedding(본원의 제2 신경망 모듈)을 수행하면서 local IQA(제1 신경망 모듈)에서 수행되지 못했던 부분이 cover되며, 이에 따라 이전에 비하여 성능 향상이 한번 더 일어나게 된다.
Figure PCTKR2023002496-appb-img-000010
도 8은 일 실시 예에 따른 전자 장치의 세부 구성을 설명하기 위한 도면이다.
도 8에 따르면, 전자 장치(100')는 메모리(110), 프로세서(120), 통신 인터페이스(130), 사용자 인터페이스(140), 디스플레이(150) 및 출력부(160)를 포함할 수 있다. 도 8에 도시된 구성 중 도 2에 도시된 구성과 중복되는 구성에 대하여는 자세한 설명을 생략하도록 한다.
통신 인터페이스(130)는 외부 장치와 통신을 수행할 수 있다. 예를 들어 통신 인터페이스(130)는 AP 기반의 Wi-Fi(와이파이, Wireless LAN 네트워크), 블루투스(Bluetooth), 지그비(Zigbee), 유/무선 LAN(Local Area Network), WAN(Wide Area Network), 이더넷(Ethernet), IEEE 1394, HDMI(High-Definition Multimedia Interface), USB(Universal Serial Bus), MHL(Mobile High-Definition Link), AES/EBU(Audio Engineering Society/ European Broadcasting Union), 옵티컬(Optical), 코액셜(Coaxial 등과 같은 통신 방식을 통해 외부 장치(예를 들어, 소스 장치), 외부 저장 매체(예를 들어, USB 메모리), 외부 서버(예를 들어 웹 하드) 등으로부터 스트리밍 또는 다운로드 방식으로 영상 신호를 입력받을 수 있다. 일 실시 예에 따라, 프로세서(120)는 통신 인터페이스(130)를 통해 외부 장치(미도시)로부터 영상을 수신할 수 있다.
사용자 인터페이스(140)는 버튼, 터치 패드, 마우스 및 키보드와 같은 장치로 구현되거나, 상술한 디스플레이 기능 및 조작 입력 기능도 함께 수행 가능한 터치 스크린, 리모콘 송수신부 등으로 구현될 수 있다. 리모콘 송수신부는 적외선 통신, 블루투스 통신 또는 와이파이 통신 중 적어도 하나의 통신 방식을 통해 외부 원격 제어 장치로부터 리모콘 신호를 수신하거나, 리모콘 신호를 송신할 수 있다.
디스플레이(150)는 자발광 소자를 포함하는 디스플레이 또는, 비자발광 소자 및 백라이트를 포함하는 디스플레이로 구현될 수 있다. 예를 들어, LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, LED(Light Emitting Diodes), 마이크로 LED(micro LED), Mini LED, PDP(Plasma Display Panel), QD(Quantum dot) 디스플레이, QLED(Quantum dot light-emitting diodes) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(150) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(150)는 터치 센서와 결합된 터치 스크린, 플렉시블 디스플레이(flexible display), 롤러블 디스플레이(rollable display), 3차원 디스플레이(3D display), 복수의 디스플레이 모듈이 물리적으로 연결된 디스플레이 등으로 구현될 수 있다.
출력부(160)는 음향 신호를 출력한다. 예를 들어, 출력부(160)는 프로세서(120)에서 처리된 디지털 음향 신호를 아날로그 음향 신호로 변환하고 증폭하여 출력할 수 있다. 예를 들어, 출력부(160)는 적어도 하나의 채널을 출력할 수 있는, 적어도 하나의 스피커 유닛, D/A 컨버터, 오디오 앰프(audio amplifier) 등을 포함할 수 있다. 일 예에 따라 출력부(160)는 다양한 멀티 채널 음향 신호를 출력하도록 구현될 수 있다. 이 경우, 프로세서(120)는 입력 영상의 인핸스 처리에 대응되도록 입력된 음향 신호를 인핸스 처리하여 출력하도록 출력부(160)를 제어할 수 있다.
도 9는 일 실시 예에 따른 입력 영상의 품질 스코어를 획득하는 방법을 설명하기 위한 흐름도이다.
도 9에 따르면, 먼저 일 실시 예에 따라 학습된 신경망 모델(200)은 제1 신경망 모듈(210), 제2 신경망 모듈(220), 제3 신경망 모듈(230), 제4 신경망 모듈(240) 및 연산 모듈(290)을 포함할 수 있다.
먼저, 일 실시 예에 따라 제1 신경망 모듈(210)은 영상이 입력되면, 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득할 수 있다(S910).
한편, 제2 신경망 모듈(220)은 영상이 입력되면, 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득할 수 있다(S915).
이 후, 제1 신경망 모듈(210)은 획득된 제1 특징 정보를 제3 신경망 모듈(230)로 전송하고(S920), 획득된 제1 특징 정보를 제4 신경망 모듈(240)로 전송할 수 있다(S935).
이 후, 제2 신경망 모듈(220)은 획득된 제2 특징 정보를 제3 신경망 모듈(230)로 전송하고(S925), 획득된 제2 특징 정보를 제4 신경망 모듈(240)로 전송할 수 있다(S940).
이 후, 제3 신경망 모듈(230)은 제1 신경망 모듈(210)로부터 제1 특징 정보가 전송(S920)되고 제2 신경망 모듈(220)로부터 제2 특징 정보가 전송(S925)되면, 전송된 제1 특징 정보 및 제2 특징 정보가 결합된 제3 특징 정보를 이용하여 입력 영상에 포함된 픽셀 별 품질 스코어를 획득할 수 있다(S930). 이 경우, 일 예에 따라 제1 특징 정보 및 제2 특징 정보는 학습된 신경망 모델(200) 내에 존재하는 결합 모듈을 통해 결합될 수 있으나 이에 한정되는 것은 아니다.
한편, 제4 신경망 모듈(240)은 제1 신경망 모듈(210)로부터 제1 특징 정보가 전송(S920)되고 제2 신경망 모듈(220)로부터 제2 특징 정보가 전송(S925)되면, 전송된 제1 특징 정보 및 제2 특징 정보가 결합된 제3 특징 정보를 이용하여 입력 영상에 포함된 픽셀 별 품질 스코어를 획득할 수 있다(S930). 이 경우, 일 예에 따라 제1 특징 정보 및 제2 특징 정보는 학습된 신경망 모델(200) 내에 존재하는 결합 모듈을 통해 결합될 수 있으나 이에 한정되는 것은 아니다.
한편, 제4 신경망 모듈(240)은 제1 신경망 모듈(210)로부터 획득된 제1 특징 정보 및 제2 신경망 모듈(220)로부터 획득된 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 입력 영상에 포함된 픽셀 별 ROI 스코어(S945)를 획득할 수 있다. 이 경우, 일 예에 따라 제1 특징 정보 및 제2 특징 정보는 학습된 신경망 모델 내에 존재하는 결합 모듈을 통해 결합될 수 있다.
이 후, 제3 신경망 모듈(230)은 픽셀 별 품질 스코어가 획득되면(S930), 획득된 픽셀 별 품질 스코어를 연산 모듈(290)로 전송할 수 있다(S950). 또한, 제4 신경망 모듈(240)은 픽셀 별 ROI 스코어가 획득되면(S945), 획득된 픽셀 별 ROI 스코어를 연산 모듈(290)로 전송할 수 있다(S955).
이 후, 연산 모듈(290)은 제3 신경망 모듈(230)로부터 획득된 픽셀 별 품질 스코어 및 제4 신경망 모듈(240)로부터 획득된 픽셀 별 ROI 스코어에 기초하여 입력 영상의 품질 스코어를 획득할 수 있다(S960).
상술한 다양한 실시 예에 따르면, 학습된 신경망 모델에 이미지만 입력하여도 입력 이미지의 픽셀 별 품질 평가 점수 및 관심 영역에 대한 정보를 획득할 수 있게 되며, 이에 기초하여 입력된 영상의 전체 품질 평가 점수를 획득할 수 있게 된다. 이에 따라 이미지 내 픽셀 별 품질 평가 점수 및 관심 영역에 대한 정보를 획득하는데 필요한 시간 및 비용이 절약된다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 설치 가능한 어플리케이션 형태로 구현될 수 있다. 또는 상술한 본 개시의 다양한 실시 예들에 따른 방법들은 딥 러닝 기반의 학습된 신경망(또는 심층 학습된 신경망) 즉, 학습 네트워크 모델을 이용하여 수행될 수 있다. 또한, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다. 또한, 상술한 본 개시의 다양한 실시 예들은 전자 장치에 구비된 임베디드 서버, 또는 전자 장치의 외부 서버를 통해 수행되는 것도 가능하다.
한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 디스플레이 장치(예: 디스플레이 장치(A))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 일 실시 예에 따르면, 이상에서 설명된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
또한, 상술한 다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (15)

  1. 학습된 신경망 모델을 저장하는 메모리; 및
    입력 영상을 상기 학습된 신경망 모델에 입력하여 상기 입력 영상의 품질 스코어, 상기 입력 영상에 포함된 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI(Region of Interst) 스코어를 획득하는 프로세서;를 포함하며,
    상기 학습된 신경망 모델은,
    상기 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득하는 제1 신경망 모듈;
    상기 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득하는 제2 신경망 모듈;
    상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는 제3 신경망 모듈;
    상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 상기 픽셀 별 ROI 스코어를 획득하는 제4 신경망 모듈; 및
    상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 연산 모듈;을 포함하는 전자 장치.
  2. 제 1항에 있어서,
    상기 제1 특징 정보는, 상기 입력 영상에 포함된 에지(Edge) 정보 및 노이즈(Noise) 정보 중 적어도 하나를 포함하며,
    상기 제2 특징 정보는, 상기 입력 영상에 포함된 오브젝트에 대한 정보를 포함하는, 전자 장치.
  3. 제1항에 있어서,
    상기 연산 모듈은,
    상기 입력 영상에 포함된 제1 픽셀에 대응되는 제1 품질 스코어 및 상기 제1 픽셀에 대응되는 제1 ROI 스코어를 곱하여 제1 값을 획득하고,
    상기 입력 영상에 포함된 제2 픽셀에 대응되는 제2 품질 스코어 및 상기 제2 픽셀에 대응되는 제2 ROI 스코어를 곱하여 제2 값을 획득하고,
    상기 제1 값 및 제2 값의 평균 값에 기초하여 상기 입력 영상의 품질 스코어를 획득하는, 전자 장치.
  4. 제1항에 있어서,
    상기 학습된 신경망 모델은,
    학습 이미지 및 상기 학습 이미지의 품질 스코어가 입력됨에 따라 상기 학습된 신경망 모델로부터 출력되는 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고,
    상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어를 상기 제3 신경망 모듈 및 상기 제4 신경망 모듈로 피드백하여 비지도 학습되는, 전자 장치.
  5. 제4항에 있어서,
    상기 학습된 신경망 모델은,
    상기 연산 모듈을 통해 상기 출력된 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고,
    상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 제3 신경망 모듈에 포함된 복수의 신경망 레이어에 대응되는 가중치 및 상기 제4 신경망 모듈에 포함된 복수의 신경망 레이어에 대응되는 가중치 중 적어도 하나를 업데이트하여 비지도 학습되는, 전자 장치.
  6. 제1항에 있어서,
    상기 제1 신경망 모듈은,
    상기 입력 영상의 사이즈와 동일한 사이즈의 제1 특징 데이터를 출력하고,
    상기 제2 신경망 모듈은,
    상기 입력 영상의 사이즈보다 축소된 사이즈의 제2 특징 데이터를 출력하는, 전자 장치.
  7. 제6항에 있어서,
    상기 학습된 신경망 모델은,
    상기 제2 특징 데이터를 제1 압축 방식에 따라 압축하는 제1 압축 모듈;
    상기 제2 특징 데이터를 상기 제1 특징 데이터와 동일한 사이즈로 업스케일링하는 업스케일링 모듈; 및
    상기 제1 특징 데이터 및 상기 업스케일링된 제2 특징 데이터를 결합하는 결합 모듈;을 포함하며,
    상기 제3 신경망 모듈은,
    상기 결합 모듈로부터 출력되는 상기 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는, 전자 장치.
  8. 제6항에 있어서,
    상기 학습된 신경망 모델은,
    상기 제2 특징 데이터를 제2 압축 방식에 따라 압축하는 제2 압축 모듈;
    상기 제2 특징 데이터를 상기 제1 특징 데이터와 동일한 사이즈로 업스케일링하는 업스케일링 모듈; 및
    상기 제1 특징 데이터 및 상기 업스케일링된 제2 특징 데이터를 결합하는 결합 모듈; 을 포함하며,
    상기 제4 신경망 모듈은,
    상기 결합 모듈로부터 출력되는 상기 제4 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 ROI 스코어를 획득하는, 전자 장치.
  9. 제1항에 있어서,
    상기 제1 신경망 모듈 내지 제4 신경망 모듈 각각은, 복수의 신경망 레이어를 포함하며,
    상기 제1 신경망 모듈의 출력 레이어로부터 출력되는 상기 제1 특징 정보 및 상기 제2 신경망 모듈의 출력 레이어로부터 출력되는 상기 제2 특징 정보가 결합된 상기 제3 특징 정보는, 상기 제3 신경망 모듈의 입력 레이어로 입력되고,
    상기 제1 신경망 모듈의 출력 레이어로부터 출력되는 상기 제1 특징 정보 및 상기 제2 신경망 모듈의 출력 레이어로부터 출력되는 상기 제2 특징 정보가 결합된 상기 제4 특징 정보는, 상기 제4 신경망 모듈의 입력 레이어로 입력되는, 전자 장치.
  10. 전자 장치의 제어 방법에 있어서,
    입력 영상을 학습된 신경망 모델에 입력하여 상기 입력 영상의 품질 스코어, 상기 입력 영상에 포함된 픽셀 별 품질 스코어, 상기 픽셀 별 ROI(Region of Interst) 스코어를 획득하는 단계;를 포함하며,
    상기 학습된 신경망 모델은,
    제1 신경망 모델, 제2 신경망 모델, 제3 신경망 모델, 제4 신경망 모델 및 연산 모듈을 포함하며,
    상기 획득하는 단계는,
    상기 제1 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득하는 단계;
    상기 제2 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득하는 단계;
    상기 제3 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는 단계;
    상기 제4 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 상기 픽셀 별 ROI 스코어를 획득하는 단계; 및
    상기 연산 모듈에 의해, 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 단계;를 포함하는, 제어 방법.
  11. 제 10항에 있어서,
    상기 제1 특징 정보는, 상기 입력 영상에 포함된 에지(Edge) 정보 및 노이즈(Noise) 정보 중 적어도 하나를 포함하며,
    상기 제2 특징 정보는, 상기 입력 영상에 포함된 오브젝트에 대한 정보를 포함하는, 제어 방법.
  12. 제10항에 있어서,
    상기 입력 영상의 품질 스코어를 획득하는 단계는,
    상기 입력 영상에 포함된 제1 픽셀에 대응되는 제1 품질 스코어 및 상기 제1 픽셀에 대응되는 제1 ROI 스코어를 곱하여 제1 값을 획득하는 단계;
    상기 입력 영상에 포함된 제2 픽셀에 대응되는 제2 품질 스코어 및 상기 제2 픽셀에 대응되는 제2 ROI 스코어를 곱하여 제2 값을 획득하는 단계; 및
    상기 제1 값 및 상기 제2 값의 평균 값에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 단계;를 포함하는, 제어 방법.
  13. 제10항에 있어서,
    상기 학습된 신경망 모델은,
    학습 이미지 및 상기 학습 이미지의 품질 스코어가 입력됨에 따라 상기 학습된 신경망 모델로부터 출력되는 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고,
    상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어를 상기 제3 신경망 모듈 및 상기 제4 신경망 모듈로 피드백하여 비지도 학습되는, 제어 방법.
  14. 제13항에 있어서,
    상기 학습된 신경망 모델은,
    상기 연산 모듈을 통해 상기 출력된 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고,
    상기 분리된 픽셀 별 품질 스코어 및 상기 분리된 픽셀 별 ROI 스코어의 크기에 기초하여 상기 제3 신경망 모듈 및 상기 제4 신경망 모듈의 가중치를 업데이트하여 비지도 학습되는, 제어 방법.
  15. 전자 장치의 프로세서에 의해 실행되는 경우 상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서, 상기 동작은,
    입력 영상을 학습된 신경망 모델에 입력하여 상기 입력 영상의 품질 스코어, 상기 입력 영상에 포함된 픽셀 별 품질 스코어, 상기 픽셀 별 ROI(Region of Interst) 스코어를 획득하는 단계;를 포함하며,
    상기 학습된 신경망 모델은,
    제1 신경망 모델, 제2 신경망 모델, 제3 신경망 모델, 제4 신경망 모델 및 연산 모듈을 포함하며,
    상기 획득하는 단계는,
    상기 제1 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득하는 단계;
    상기 제2 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득하는 단계;
    상기 제3 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는 단계;
    상기 제4 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 상기 픽셀 별 ROI 스코어를 획득하는 단계; 및
    상기 연산 모듈에 의해, 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 단계;를 포함하는, 컴퓨터 판독 가능 기록 매체.
PCT/KR2023/002496 2022-02-23 2023-02-22 전자 장치 및 그 제어 방법 WO2023163494A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20220023892 2022-02-23
KR10-2022-0023892 2022-02-23
KR1020220068461A KR20230126621A (ko) 2022-02-23 2022-06-03 전자 장치 및 그 제어 방법
KR10-2022-0068461 2022-06-03

Publications (1)

Publication Number Publication Date
WO2023163494A1 true WO2023163494A1 (ko) 2023-08-31

Family

ID=87766418

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/002496 WO2023163494A1 (ko) 2022-02-23 2023-02-22 전자 장치 및 그 제어 방법

Country Status (1)

Country Link
WO (1) WO2023163494A1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110599468A (zh) * 2019-08-30 2019-12-20 中国信息通信研究院 无参考视频质量评估方法及装置
US10755413B1 (en) * 2020-02-24 2020-08-25 Qure.Ai Technologies Private Limited Method and system for medical imaging evaluation
KR20200116973A (ko) * 2018-02-07 2020-10-13 넷플릭스, 인크. 상보적 지각 품질 모델들에 기반하여 지각 비디오 품질을 예측하기 위한 기술들
KR102284096B1 (ko) * 2017-12-22 2021-07-29 한국전기연구원 중요도 맵을 이용한 지능형 주관적 화질 평가 시스템, 방법, 및 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 기록 매체
KR102295652B1 (ko) * 2020-07-30 2021-08-30 국방과학연구소 딥러닝 기반 비디오 품질 측정 장치 및 방법
KR102313662B1 (ko) * 2020-12-30 2021-10-19 뉴로핏 주식회사 이미지 품질 판단 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102284096B1 (ko) * 2017-12-22 2021-07-29 한국전기연구원 중요도 맵을 이용한 지능형 주관적 화질 평가 시스템, 방법, 및 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 기록 매체
KR20200116973A (ko) * 2018-02-07 2020-10-13 넷플릭스, 인크. 상보적 지각 품질 모델들에 기반하여 지각 비디오 품질을 예측하기 위한 기술들
CN110599468A (zh) * 2019-08-30 2019-12-20 中国信息通信研究院 无参考视频质量评估方法及装置
US10755413B1 (en) * 2020-02-24 2020-08-25 Qure.Ai Technologies Private Limited Method and system for medical imaging evaluation
KR102295652B1 (ko) * 2020-07-30 2021-08-30 국방과학연구소 딥러닝 기반 비디오 품질 측정 장치 및 방법
KR102313662B1 (ko) * 2020-12-30 2021-10-19 뉴로핏 주식회사 이미지 품질 판단 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KIM ET AL.: "Accurate Image Super-Resolution Using Very Deep Convolutional Networks", CVPR, 2016
WOOK-HYUNG KIM; CHEUL-HEE HAHM; ANANT BAIJAL; NAMUK KIM; ILHYUN CHO; JAYOON KOO: "Pixel-by-pixel Mean Opinion Score (pMOS) for No-Reference Image Quality Assessment", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 14 June 2022 (2022-06-14), 201 Olin Library Cornell University Ithaca, NY 14853, XP091246960 *

Similar Documents

Publication Publication Date Title
WO2019164232A1 (ko) 전자 장치, 이의 영상 처리 방법 및 컴퓨터 판독가능 기록 매체
WO2020138680A1 (en) Image processing apparatus and image processing method thereof
WO2020235860A1 (en) Image processing apparatus and image processing method thereof
WO2021101087A1 (en) Electronic apparatus and controlling method thereof
WO2020197018A1 (en) Image processing apparatus and image processing method thereof
WO2020222382A1 (en) Electronic apparatus and image processing method thereof
WO2020017875A1 (en) Electronic apparatus, method for processing image and computer-readable recording medium
WO2018131875A1 (en) Display apparatus and method for providing service thereof
WO2021101134A1 (en) Electronic apparatus and control method thereof
WO2021029505A1 (en) Electronic apparatus and control method thereof
WO2020027519A1 (ko) 영상 처리 장치 및 그 동작방법
WO2021107291A1 (en) Electronic apparatus and control method thereof
WO2020204277A1 (en) Image processing apparatus and image processing method thereof
WO2020149601A1 (ko) 3d cnn을 이용한 고속 영상 인식 방법 및 장치
WO2021071155A1 (en) Electronic apparatus and control method thereof
WO2024014706A1 (ko) 화질 개선을 수행하는 신경망 모델을 학습시키는 전자 장치 및 그 제어 방법
WO2022108008A1 (en) Electronic apparatus and controlling method thereof
WO2023163494A1 (ko) 전자 장치 및 그 제어 방법
WO2021100985A1 (en) Electronic apparatus and control method thereof
WO2021172744A1 (ko) 전자 장치 및 그 제어 방법
WO2021256702A1 (ko) 전자 장치 및 이의 제어 방법
WO2024154925A1 (ko) 전자 장치 및 그 영상 처리 방법
KR20230126621A (ko) 전자 장치 및 그 제어 방법
WO2023229185A1 (ko) 전자 장치 및 그 영상 처리 방법
WO2020204287A1 (en) Display apparatus and image processing method thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23760368

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023760368

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2023760368

Country of ref document: EP

Effective date: 20240716