WO2022177211A1 - 오디오의 존재 및 비존재에 따른 비디오 품질 평가 방법 및 장치 - Google Patents

오디오의 존재 및 비존재에 따른 비디오 품질 평가 방법 및 장치 Download PDF

Info

Publication number
WO2022177211A1
WO2022177211A1 PCT/KR2022/001795 KR2022001795W WO2022177211A1 WO 2022177211 A1 WO2022177211 A1 WO 2022177211A1 KR 2022001795 W KR2022001795 W KR 2022001795W WO 2022177211 A1 WO2022177211 A1 WO 2022177211A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
video
video frame
quality score
quality
Prior art date
Application number
PCT/KR2022/001795
Other languages
English (en)
French (fr)
Inventor
바이잘아난트
함철희
구자윤
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2022177211A1 publication Critical patent/WO2022177211A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/02Diagnosis, testing or measuring for television systems or their details for colour television signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4854End-user interface for client configuration for modifying image parameters, e.g. image brightness, contrast

Definitions

  • Various disclosed embodiments relate to a method and apparatus for evaluating video quality according to the presence and absence of audio, and more particularly, to determine the quality of a video based on each quality score when audio is considered and when audio is not considered. It relates to a method and apparatus for evaluating video quality according to the presence and absence of audio.
  • Video images are subject to distortion in the process of creation, compression, storage, transmission, reproduction, and the like. Distorted images should be reproduced within a range that can be perceived by humans. Therefore, before the image is reproduced, it is necessary to measure and evaluate the image quality in order to understand how such distortion affects the image quality perceived by humans.
  • Image quality assessment technology can be divided into a subjective quality assessment method and an objective quality assessment method.
  • the subjective image quality evaluation method is a method in which an evaluator directly views a video and evaluates the image quality, and it can reflect the image quality perception characteristics of a person well.
  • the subjective image quality evaluation method has disadvantages in that it is difficult to evaluate the image quality in real time each time, as well as the evaluation value is different for each individual and it takes a lot of time and money.
  • the objective image quality evaluation method implements an algorithm for measuring the perceived quality by the human optic nerve and evaluates the degree of deterioration of the image quality of the compressed image by using the algorithm.
  • the objective image quality evaluation method is a full-reference quality assessment method using a reference image that can be compared with a distorted image, and some information about the reference image rather than the reference image itself, for example, A reduced reference quality assessment method that performs quality evaluation using watermarking or an auxiliary channel, and the image quality using only a distorted image without using any information on the reference image It can be divided into a no-reference quality assessment method that performs estimation.
  • the reference-free image quality evaluation method does not require reference image information, it has an advantage that it can be used in any application requiring image quality measurement.
  • the image quality evaluation method is performed using only visual information.
  • the audio output together with the video is also used.
  • An apparatus for evaluating video quality includes a memory storing one or more instructions and a processor executing the one or more instructions stored in the memory, wherein the processor executes the one or more instructions, thereby generating a video frame and the video frame. obtaining a first quality score for the video frame based on an audio frame output together with A final quality score for the video frame may be obtained from the quality score and the second quality score.
  • FIG. 1 is a diagram for explaining that a user display apparatus 110 obtains a quality score of a video image and outputs an image having a processed image quality to a screen according to an exemplary embodiment.
  • FIG. 2 is an internal block diagram of an apparatus 200 for evaluating video quality according to an embodiment.
  • FIG. 3 is an internal block diagram of the processor 210 of FIG. 2 according to an embodiment.
  • FIG. 4 is an internal block diagram of the first quality score acquisition unit 211 of FIG. 3 according to an embodiment.
  • FIG. 5 is an internal block diagram of the final quality score acquisition unit 215 of FIG. 3 according to an embodiment.
  • FIG. 6 is a diagram for explaining obtaining a first weight from an audio-based saliency map according to an embodiment.
  • FIG. 7 is an internal block diagram of a user display apparatus 700 according to an embodiment.
  • FIG. 8 is a diagram for explaining screen model mapping information according to an embodiment.
  • FIG. 9 is a diagram for explaining screen setting mapping information according to an embodiment.
  • FIG. 10 is a diagram for explaining a screen size among screen model mapping information according to an embodiment.
  • FIG. 11 is a diagram for describing environment information according to an embodiment.
  • FIG. 12 is a diagram for describing environment information according to an embodiment.
  • FIG. 13 is a flowchart illustrating a video quality evaluation method according to an embodiment.
  • FIG. 14 is a flowchart illustrating a process of acquiring an audio-based saliency map, according to an embodiment.
  • 15 is a flowchart illustrating a process of obtaining a weight according to an embodiment.
  • the processor executes the one or more instructions, based on the video frame and the audio frame, an audio-based saliency map representing a saliency region that draws a viewer's attention in the video frame. and obtains the first quality score from the video frame and the audio-based saliency map.
  • the processor generates, by executing the one or more instructions, a visual saliency map representing a saliency region that draws a viewer's attention in the video frame, based on the video frame without the audio frame. and obtain the audio-based saliency map from the audio frame and the visual saliency map.
  • the processor executes the one or more instructions and uses a neural network that learns a difference between a saliency region when an audio signal is considered and when it does not consider the audio frame and the visual saliency.
  • the audio-based saliency map may be obtained from the map.
  • the neural network is a neural network that has learned a saliency region that varies according to audio signal characteristics
  • the processor executes the one or more instructions, so that the audio signal characteristics are obtained from the audio frame using the neural network. and acquire the audio-based saliency map in consideration of the acquired audio signal characteristics, and the audio signal characteristics include an audio genre, a theme, a volume, a resolution, and an amount of information.
  • (entropy), sharpness (sharpness), dynamics (dynamics), tonal balance (tonal balance), tone color (tone color), phase (phase), sound image (sound image), sound field (sound staging), presence (presence) at least may contain one.
  • the processor obtains a final weight based on at least one of the audio-based saliency map and display device characteristic information by executing the one or more instructions, and uses the final weight to obtain the first quality score and a weighted sum of the second quality scores.
  • the processor obtains a first weight from statistical characteristics of a saliency region obtained from the audio-based saliency map, and a second weight from the display device characteristic information. may be obtained, and the final weight may be obtained based on at least one of the first weight and the second weight.
  • the statistical characteristics of the saliency region include a proportion in which the saliency region included in the audio-based saliency map is included in the video frame, and a spread of the saliency region. ) or a central tendency.
  • the processor extracts and obtains the display device characteristic information from a mapping table pre-stored in the video quality evaluation device by executing the one or more instructions, and the display device characteristic information includes: screen model mapping information, screen It may include at least one of setting mapping information and environment information.
  • the screen model mapping information may include a score relationship according to a difference between a screen model of the evaluator display device and a screen model of the user display device, and the screen model difference may be a difference of at least one of a screen size and a screen resolution. have.
  • the screen setting mapping information represents a score relationship according to a difference between a default setting value for the screen of the user display apparatus and a setting value selected by the user, and the setting value is the brightness (brightness) of the screen, contrast ( contrast), gamma, backlight brightness, sharpness, color, and tint may include values for at least one.
  • the environment information includes at least one of ambient brightness information and viewing location information
  • the ambient brightness information includes a relationship between ambient brightness of the user display device and ambient brightness of the evaluator display device
  • the viewing location information includes: and a relationship between the user's viewing position and the evaluator's viewing position
  • the viewing position may include at least one of a distance from the display device, an azimuth, and an elevation angle.
  • the video quality evaluation method performed by the video quality evaluation apparatus includes: obtaining a first quality score for the video frame based on a video frame and an audio frame output together with the video frame; based on the video frame, obtaining a second quality score for the video frame and obtaining a final quality score for the video frame from the first quality score and the second quality score .
  • the computer-readable recording medium may include: based on a video frame and an audio frame output together with the video frame, obtaining a first quality score for the video frame; based on the video frame without the audio frame , obtaining a second quality score for the video frame and obtaining a final quality score for the video frame from the first quality score and the second quality score. It may be a computer-readable recording medium in which a program for implementing a video quality evaluation method is recorded.
  • phrases such as “in some embodiments” or “in one embodiment” appearing in various places in this specification are not necessarily all referring to the same embodiment.
  • Some embodiments of the present disclosure may be represented by functional block configurations and various processing steps. Some or all of these functional blocks may be implemented in various numbers of hardware and/or software configurations that perform specific functions.
  • the functional blocks of the present disclosure may be implemented by one or more microprocessors, or by circuit configurations for a given function.
  • the functional blocks of the present disclosure may be implemented in various programming or scripting languages.
  • the functional blocks may be implemented as an algorithm running on one or more processors.
  • the present disclosure may employ prior art for electronic configuration, signal processing, and/or data processing, and the like. Terms such as “mechanism”, “element”, “means” and “configuration” may be used broadly and are not limited to mechanical and physical configurations.
  • connecting lines or connecting members between the components shown in the drawings only exemplify functional connections and/or physical or circuit connections.
  • a connection between components may be represented by various functional connections, physical connections, or circuit connections that are replaceable or added.
  • ...unit and “module” described in the specification mean a unit that processes at least one function or operation, which may be implemented as hardware or software, or a combination of hardware and software. .
  • the term “user” means a person who controls the function or operation of the video quality evaluation device by using the video quality evaluation device, and may include an evaluator, a viewer, a consumer, an administrator, or an installer.
  • FIG. 1 is a diagram for explaining that a user display apparatus 110 obtains a quality score of a video image and outputs an image having a processed image quality to a screen according to an exemplary embodiment.
  • the user display device 110 may be an electronic device capable of processing and outputting an image.
  • the user display device 110 may be a fixed type or a mobile type, and may be a digital TV capable of receiving digital broadcasting, but is not limited thereto, and may be implemented as various types of electronic devices including a display.
  • a user display device is referred to as, but is not limited to, a “user” display device to distinguish it from an evaluator display device used by an evaluator for video quality evaluation, described below.
  • the user display device may also be referred to as a display device or an electronic device.
  • the user display device 110 includes a desktop, a smart phone, a tablet personal computer, a mobile phone, a video phone, an e-book reader, and a laptop personal computer. , netbook computer, digital camera, PDA (Personal Digital Assistants), PMP (Portable Multimedia Player), camcorder, navigation, wearable device, smart watch, home network system, security system, at least one of the medical devices.
  • PDA Personal Digital Assistants
  • PMP Portable Multimedia Player
  • camcorder navigation, wearable device, smart watch, home network system, security system, at least one of the medical devices.
  • the user display device 110 may be implemented not only as a flat display device, but also as a curved display device that is a screen having a curvature or a flexible display device with an adjustable curvature.
  • the output resolution of the user display device 110 may include, for example, a resolution higher than that of High Definition (HD), Full HD, Ultra HD, or Ultra HD.
  • the user display apparatus 110 may output a video.
  • a video may consist of a plurality of frames.
  • the video may include items such as television programs provided by content providers or various movies or dramas through VOD services.
  • the content provider may mean a terrestrial broadcasting station or cable broadcasting station, an OTT service provider, or an IPTV service provider that provides various contents including video to consumers.
  • Image distortion occurs as information is lost due to limitations in the physical characteristics of the device used to capture the video and limited bandwidth. Distorted video can be degraded.
  • the user display device 110 may include a video quality evaluation device.
  • the video quality evaluation apparatus may objectively evaluate the video quality using a non-standard quality evaluation method.
  • the video quality evaluation apparatus may be manufactured in the form of at least one hardware chip or an electronic device, and may be included in the user display apparatus 110 .
  • the video quality evaluation apparatus may be implemented as a software module in the user display apparatus 110 .
  • the user display apparatus 110 including the video quality evaluation apparatus may perform a video quality evaluation method.
  • the user display apparatus 110 may receive the input video 120 and first perform quality evaluation on the video before outputting it through the screen.
  • the user display apparatus 110 may obtain a score for each of a plurality of frames included in the video.
  • the quality score may be different from each other. This is because, when watching a video, the area that a person sees on the screen may vary depending on the presence or absence of audio. That is, when the rater or user watches only the video without audio, and when the rater or user watches the video with audio synchronized to the video, the rater or user's area of interest may change, and the quality score for the video may also change accordingly. have.
  • the user display apparatus 110 may obtain a quality score for a video frame in consideration of audio.
  • the user display apparatus 110 may use a saliency map.
  • the saliency map may refer to a map expressing the saliency region by distinguishing it from other regions.
  • the saliency region may refer to an area attracting a user's attention in a video frame, that is, an area having a high visual concentration.
  • the user display device 110 is the difference between the saliency region attracting the user's attention when the user watches the video without audio and the saliency region attracting the user's attention when the user watches the video while listening to the audio can be taken into account to obtain a quality score for the video.
  • the user display apparatus 110 may acquire a visual saliency map indicating a saliency region that draws the viewer's attention in the video frame based on only the video frame without the audio frame.
  • the user display device 110 considers the visual saliency map and the audio frame together, indicating the saliency region that attracts the user's attention when the user listens to audio and watches a video, audio-based salience You can get a city map.
  • the user display device 110 may obtain the first quality score from the video frame and the audio-based saliency map.
  • the user display apparatus 110 may obtain the second quality score for the video frame based on only the video frame without considering the audio frame.
  • the user display apparatus 110 may obtain the final quality score for the video frame by considering the first quality score and the second quality score together. More specifically, the user display apparatus 110 may obtain a final quality score by applying a weight to the first quality score and the second quality score.
  • the user display device 110 may acquire the final weight based on at least one of an audio-based saliency map and display device characteristic information.
  • the user display apparatus 110 may obtain a final quality score by applying a final weight to the first and second quality scores.
  • the user display apparatus 110 may acquire a final video quality score for a video including a plurality of frames by accumulating the final quality score obtained for each video frame for a predetermined time.
  • the user display apparatus 110 may perform image quality processing on frames included in the video according to the final video quality score.
  • the user display device 110 may enhance the input video 120 as the output video 130 based on the final video quality score.
  • the user display apparatus 110 may output the output video 130 with improved quality through the display.
  • the video quality evaluation apparatus may not be included in the user display apparatus 110 and may be implemented as a separate apparatus from the user display apparatus 110 . That is, the user display apparatus 110 may communicate with the video quality evaluation apparatus through a communication network (not shown). In this case, the user display apparatus 110 may transmit a video to an external video quality evaluation apparatus through a communication network. An external video quality evaluation apparatus may receive a video including a plurality of frames from the user display apparatus 110 and obtain a quality score for each frame.
  • the video quality evaluation apparatus may receive display device characteristic information included in the user display device 110 from the user display device 110 .
  • the video quality evaluation apparatus may obtain a weight from the display device characteristic information and the audio-based saliency map, and apply it to the quality score to obtain a final quality score for the frame.
  • the video quality evaluation apparatus may acquire a final video quality score for the entire video by accumulating time series data for a plurality of frames, and transmit it to the user display apparatus 110 through a communication network.
  • the user display apparatus 110 may process and output the video quality based on the score received from the video quality evaluation apparatus.
  • the video quality evaluation apparatus may directly process the video quality based on the obtained score and then transmit it to the user display apparatus 110 .
  • the user display apparatus 110 may output the improved video quality received from the video quality evaluation apparatus.
  • the video quality evaluation apparatus may obtain a quality score for a video frame by using only video without considering audio, and also obtain a quality score for a video frame by considering both video and audio. have.
  • the video quality evaluation apparatus may obtain a final quality score by applying a weight to a quality score obtained without considering audio and a quality score obtained by considering audio.
  • the video quality evaluation apparatus may consider the difference in quality scores according to the presence or absence of audio.
  • the video quality evaluation apparatus may allow the audio-based saliency map and display device characteristic information when considering audio to be reflected in the final quality score.
  • FIG. 2 is an internal block diagram of an apparatus 200 for evaluating video quality according to an embodiment.
  • the video quality estimation apparatus 200 may include a processor 210 and a memory 220 .
  • the video quality evaluation apparatus 200 of FIG. 2 may be included in the user display apparatus 110 illustrated in FIG. 1 or may be connected to the user display apparatus 110 through a communication network.
  • the video quality evaluation apparatus 200 may obtain a video quality score using artificial intelligence (AI).
  • AI artificial intelligence
  • the video quality evaluation apparatus 200 may obtain a model-based quality score using at least one neural network for each of a plurality of frames included in the input video.
  • AI technology can be composed of machine learning (deep learning) and element technologies using machine learning. AI technology can be implemented using algorithms.
  • an algorithm or a set of algorithms for implementing AI technology is called a neural network.
  • the neural network may receive input data, perform an operation for analysis and classification, and output result data.
  • a neural network may have a plurality of internal layers for performing an operation.
  • the neural network may obtain different feature maps from each layer.
  • the video quality estimation apparatus 200 may use a plurality of neural networks to evaluate video quality.
  • the neural network used by the video quality evaluation apparatus 200 may be a pre-trained model for video quality evaluation.
  • the memory 220 may store at least one instruction.
  • the memory 220 may store at least one program executed by the processor 210 .
  • At least one neural network and/or a predefined operation rule or AI model may be stored in the memory 220 .
  • the memory 220 may store data input to or output from the video quality estimation apparatus 200 .
  • the memory 220 may include a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (eg, SD or XD memory), and a RAM.
  • RAM Random Access Memory
  • SRAM Static Random Access Memory
  • ROM Read-Only Memory
  • EEPROM Electrically Erasable Programmable Read-Only Memory
  • PROM Programmable Read-Only Memory
  • magnetic memory magnetic disk
  • magnetic disk may include at least one type of storage medium among optical disks.
  • the display apparatus characteristic information may be stored in the memory 220 .
  • the display device characteristic information is information for compensating for a difference between the user display device 110 and the display device of the evaluator, and may include at least one of screen model mapping information, screen setting mapping information, and environment information.
  • the manufacturer may acquire display device characteristic information for the user display device 110 and store it in advance in the memory of the user display device 110 in the form of a mapping table, a mapping function, a lookup table, or the like.
  • the user display device 110 may download the display device characteristic information from a server operated by the manufacturer and store it in the memory 220 .
  • the video quality evaluation device 200 When the video quality evaluation device 200 is not included in the user display device 110, the video quality evaluation device 200 is transmitted from the user display device 110 to the user display device 110 through a communication network (not shown).
  • the stored display device characteristic information may be received and stored in the memory 220 .
  • the video quality evaluation apparatus 200 may download display device characteristic information about the user display device 110 from an external server and store it in the memory 220 .
  • the display device characteristic information may include at least one of screen model mapping information, screen setting mapping information, and environment information.
  • the screen model mapping information may include a score relationship according to a difference between the screen model of the evaluator display apparatus and the screen model of the user display apparatus 110 .
  • the screen model difference may be a difference in at least one of a screen size and a resolution.
  • the screen setting mapping information may include a score relationship according to a difference between a default setting value for the screen of the user display apparatus 110 and a setting value selected by the user.
  • the setting value is a value for at least one of brightness, contrast, gamma, backlight brightness, sharpness, color, and tint for the screen of the user's display device. may include
  • the environment information may include a score relationship according to a difference between the brightness around the evaluator display device and the brightness around the user display device 110 .
  • the environment information may include a different score relationship between the position of the evaluator when the evaluator performs the evaluation using the evaluator display device and the position of the user viewing the user display device 110 .
  • the processor 210 controls the overall operation of the video quality estimation apparatus 200 .
  • the processor 210 may control the video quality evaluation apparatus 200 to function by executing one or more instructions stored in the memory 220 .
  • the processor 210 may perform quality evaluation on a video including a plurality of frames. In an embodiment, the processor 210 may obtain a model-based quality score for a video frame by using at least one neural network.
  • the neural network included in the video quality evaluation apparatus 200 may be a model in which a saliency region obtained by tracking an evaluator's gaze is previously learned.
  • the neural network included in the video quality evaluation apparatus 200 does not consider audio and, when only video is considered, a saliency map obtained by tracking the gaze of a video viewer, and audio and video together Considering that, it may be a neural network that has previously learned a saliency map according to the gaze of a video viewer.
  • the neural network included in the video quality evaluation apparatus 200 learns the saliency map obtained by tracking a person's gaze when audio is not considered and when audio is considered for the same video, respectively, It may also be a neural network that has learned the difference between two maps.
  • the neural network included in the video quality evaluation apparatus 200 may be a neural network that has learned a mean opinion score (MOS) obtained from an input video frame.
  • MOS is obtained through subjective evaluation of a person, and may mean an average score obtained by synthesizing individual parameters for video quality evaluated by multiple raters.
  • the processor 210 may obtain a first quality score reflecting the saliency region when audio is considered by using a neural network. More specifically, the processor 210 generates an audio-based saliency map indicating a saliency region that attracts the viewer's attention in the video frame, in consideration of the video frame and the audio frame that is output in synchronization with the video frame. can be obtained. In an embodiment, the processor 210 may obtain a first quality score for a video frame by considering an audio-based saliency map using a neural network.
  • the processor 210 may obtain the second quality score for the video frame by considering only the video without considering the audio by using the neural network.
  • the processor 210 may obtain a weight based on at least one of an audio-based saliency map and display device characteristic information.
  • the processor 210 may acquire statistical characteristics of the saliency region from an audio-based saliency map obtained when video and audio are considered together in order to acquire a weight. In an embodiment, the processor 210 may obtain the first weight from the statistical characteristic of the saliency region.
  • the statistical characteristic of the saliency region may be at least one of a spread and a central tendency of the saliency region obtained from the audio-based saliency map.
  • the processor 210 may obtain the second weight from the display device characteristic information.
  • the display device characteristic information may refer to information for compensating for a difference between the user display device 110 and the display device of the evaluator depending on different screen specifications, screen parameter setting values, and surrounding environments.
  • the display device characteristic information may include at least one of mapping information according to a screen model, mapping information according to screen settings, and environment information.
  • the processor 210 may obtain the second weight from the display device characteristic information.
  • the processor 210 may obtain the final weight by using at least one of the first weight and the second weight.
  • the processor 210 may apply a final weight to the first quality score and the second quality score.
  • the processor 210 may obtain the final quality score for the video frame by obtaining a weighted sum of the first quality score and the second quality score using the final weight.
  • the video quality evaluation apparatus 200 obtains a first quality score and a second quality score according to the presence or absence of audio for the same video frame, respectively, using a neural network, and obtains a final quality score therefrom. can be obtained
  • the video quality evaluation apparatus 200 obtains a final weight and applies them to the first quality score and the second quality score to obtain a final quality score for the video frame, so that the video frame according to the presence or absence of audio can be considered together with the quality score of
  • the video quality evaluation apparatus 200 may be configured such that the statistical characteristics of the audio-based saliency map and the final weight obtained through the display device characteristic information are reflected in the first quality score and the second quality score. By doing so, a final quality score can be obtained.
  • FIG. 3 is an internal block diagram of the processor 210 of FIG. 2 according to an embodiment.
  • the processor 210 may include a first quality score acquirer 211 , a second quality score acquirer 213 , and a final quality score acquirer 215 .
  • the first quality score acquisition unit 211 may acquire a first quality score with respect to a video frame.
  • the first quality score may be a quality score obtained when a video frame and an audio frame output in synchronization with the video frame are considered together. More specifically, the first quality score may be a quality score for a video frame obtained by reflecting an audio-based saliency region that attracts a user's attention when the video frame and the audio frame are considered together.
  • the first quality score acquisition unit 211 acquires a visual saliency map indicating a saliency region that attracts the viewer's attention in a video frame when only a video frame is considered without considering the audio frame. can do. More specifically, the first quality score acquisition unit 211 may acquire various features from a video frame using the first neural network and acquire a visual saliency map based thereon.
  • the visual saliency map may mean a saliency map obtained by viewing only a video frame without considering audio.
  • the first quality score acquisition unit 211 may acquire the audio-based saliency map from the audio frame and the visual saliency map.
  • the first quality score acquisition unit 211 receives an audio frame and a visual saliency map acquired by the first neural network using the second neural network, and generates an audio-based saliency map therefrom.
  • the audio-based saliency map may refer to a saliency map that represents an area of interest to a viewer when video and audio are considered together.
  • the second neural network used by the first quality score acquisition unit 211 may be a neural network that has learned the difference between the saliency region when the audio signal is considered and the audio signal is not considered. Also, the second neural network may be a neural network that has learned a saliency region that varies depending on the characteristics of the audio signal when considering the audio signal. The second neural network may obtain a characteristic of an audio signal from an audio frame and obtain an audio-based saliency map in consideration of the acquired characteristic of the audio signal.
  • characteristics of an audio signal include audio genre, theme, volume, resolution, entropy, sharpness, dynamics, and band balance. balance), a tone color, a phase, a sound image, a sound staging, and a sense of presence may be included.
  • the first quality score acquisition unit 211 may receive an audio-based saliency map and a video frame by using a third neural network, and acquire a first quality score therefrom.
  • the third neural network may be a neural network that acquires a feature vector from a video frame and an audio-based saliency map, and has previously learned a correlation between the feature vector and a mean opinion score (MOS).
  • MOS mean opinion score
  • the second quality score acquisition unit 213 may acquire a second quality score for the video frame by using the fourth neural network.
  • the second quality score acquisition unit 213 may perform quality evaluation of the entire video frame without considering audio and without considering the saliency map. Accordingly, the quality score obtained by the second quality score obtaining unit 213 for the video frame by using the fourth neural network may be distinguished from the first quality score obtained by considering the audio.
  • the fourth neural network may be a neural network that has previously learned a correlation between a feature vector for a video and an average opinion score.
  • the feature vector obtained by the fourth neural network from the video is at least one of a blur-related feature, a motion-related feature, a content-related feature, a deep feature, a statistical feature, a conceptual feature, a spatial feature, and a transformed domain feature.
  • the fourth neural network may obtain one or more information related to factors that may affect the quality score from the video frame.
  • the factors that may affect the quality score include information about whether an object included in a video frame is foreground or background, information about a genre of a video, semantic information of an object, It may include at least one of object location information and content information.
  • a person tends to watch a video in consideration of semantic information of an object included in a frame. This means that the degree of recognizing distortion of an object may vary depending on what object is included in the video frame, that is, the meaning of the object in the frame.
  • the second quality score acquisition unit 213 acquires one or more pieces of information related to factors that may affect the quality score for each sub-region using the fourth neural network, and from this, a model for the entire video frame The base quality score may be obtained as the second quality score.
  • the final quality score obtaining unit 215 is based on the first quality score obtained by the first quality score obtaining unit 211 and the second quality score obtained by the second quality point obtaining unit 213 .
  • a final quality score can be obtained.
  • the final quality score acquisition unit 215 may acquire the final quality score for the video frame by assigning weights to the first quality score and the second quality score.
  • FIG. 4 is an internal block diagram of the first quality score acquisition unit 211 of FIG. 3 according to an embodiment.
  • the first quality score acquirer 211 may acquire the first quality score for the video frame 411 in consideration of the audio-based saliency map.
  • the first quality score acquisition unit 211 may include a visual saliency map acquisition unit 410 , an audio-based saliency map acquisition unit 420 , and a quality score acquisition unit 430 . have.
  • the visual saliency map acquisition unit 410 may receive a video frame 411 .
  • the visual saliency map acquisition unit 410 may acquire various features from the video frame 411 using the first neural network, and acquire the visual saliency map 413 based thereon. .
  • the first neural network included in the visual saliency map acquisition unit 410 analyzes and classifies input data to extract a saliency map indicating a saliency region that draws the viewer's attention from the input data. It may be a model trained to do so.
  • the first neural network may be a neural network trained to obtain a saliency map from an input video frame.
  • the first neural network may include a color change or distribution, edges, spatial frequency, structure, distribution, histogram, and texture of each pixel included in the input video frame or a pixel group including a plurality of pixels having similar characteristics. It may be a neural network trained to obtain a saliency map for an input video frame in consideration of (texture) and the like.
  • the first neural network tracks the user's gaze on the video frame to learn where the visual saliency region attracts the user's attention in advance. It may be a network.
  • the first neural network may be an algorithm for extracting features from the input video frame 411 or a set of algorithms, software for executing the set of algorithms, and/or hardware for executing a set of algorithms.
  • the first neural network may acquire the visual saliency map 413 based on features acquired from the input video frame 411 .
  • the visual saliency map 413 may be expressed in white and black.
  • the visual saliency map 413 of FIG. 4 is an example, and when the user views the video frame 411, the region that draws the user's attention is expressed in white color, and the remaining region that does not attract the user's attention is black. shown in color.
  • the visual saliency map 413 of FIG. 4 As shown in the visual saliency map 413 of FIG. 4 , when only the video frame 411 is considered, without considering the audio frame 415 , the user's gaze is It can be seen that the main focus is on people.
  • the audio-based saliency map acquisition unit 420 may acquire an audio-based saliency map by using the second neural network.
  • the second neural network may also be a model trained to analyze and classify input data like the first neural network to extract a saliency map representing a saliency region that draws the viewer's attention from the input data. .
  • the second neural network receives a video frame and an audio frame together and analyzes and classifies the characteristics of the input video frame and audio frame, unlike the first neural network, in the learning phase, so that the user for the video frame It may be a neural network that has learned where the audio-based saliency area that catches the user's attention is by tracking the eyes of the user.
  • the second neural network may learn in advance the difference between the saliency map obtained with respect to the video frame when there is an audio frame and when there is no audio frame. That is, the second neural network may be a neural network that has previously learned the difference between the visual saliency map and the audio-based saliency map.
  • the second neural network receives the visual saliency map 413 received from the visual saliency map acquisition unit 410 and the audio frame 415 that is output in synchronization with the video frame 411, From there, when the audio frame 415 is output together with the video frame 411 , an audio-based saliency map 417 in consideration of the user's ROI may be obtained.
  • FIG. 4 as an embodiment, it is assumed that an audio frame 415 output together with a video frame 411 includes an explosion sound.
  • the audio-based saliency map 417 is different from the visual saliency map 413 , not only the two people in the video frame 411 , but also the explosion scene behind the two people is expressed in white. .
  • the second neural network may acquire the audio-based saliency map 417 by modifying the visual saliency map 413 using the audio frame 415 .
  • the second neural network when an audio frame is input, analyzes and classifies the audio frame to extract an audio characteristic, or a set of algorithms, software and/or algorithm for executing the set of algorithms. It may be the hardware that implements the aggregation.
  • the second neural network may modify the visual saliency map into an audio-based saliency map in consideration of the characteristics of the audio frame obtained from the audio frame.
  • characteristics of an audio signal include audio genre, volume, resolution, entropy, sharpness, dynamics, tone balance, and tone. color), a phase, a sound image, a sound staging, and a sense of presence may be included.
  • Audio genre is information that classifies audio into orchestra, piano, jazz, vocal, etc. according to the characteristics of audio, or audio is classified as classical, hip-hop, jazz, rock, speech ), animal sounds, machine sounds, musical instrument sounds, storm or earthquake sounds, explosion sounds, and the like.
  • the user's area of interest may vary depending on the audio genre. For example, when a dog and a person are included in the video frame, the user's interest area watching the video may vary depending on whether the audio is a background sound, a human voice, or a dog barking sound.
  • the audio volume may indicate the loudness of the sound.
  • the user's ROI may be different while watching the video. For example, in the video frame 411 shown in FIG. 4 , as the size of the explosion sound increases, the user's ROI includes more explosion scenes.
  • audio characteristics may include a variety of factors.
  • audio resolution may mean how clearly a fine sound is expressed.
  • the audio resolution may vary according to the degree of distribution of the frequency band of the sound.
  • the amount of audio information may mean how much data the source has. The greater the amount of audio information, the richer and more natural the sound can be expressed.
  • Audio clarity is closely related to audio resolution, and may mean a degree of clarity of sound. Sharpness is information that expresses the characteristics of a sound in detail. Excessive sharpness makes the sound sharp, and low clarity can make it difficult to distinguish sound quality.
  • Audio dynamics may refer to the ability to smoothly reproduce sound dynamics in a short time. Great audio dynamics enhances the realism of the instrument.
  • Audio band balance may refer to a balance between divided bands when the speaker divides and reproduces the audible frequency band.
  • Audio tones can express characteristics such as darkness, lightness, and resonance of the overall sound of the audio.
  • the audio phase may refer to an index related to the time for sound to reach the ear.
  • the audio sound image may mean whether the audio is a mono signal, a stereo signal, or a stereoscopic sound having a 3D effect.
  • the audio sound field may mean the size and shape of a three-dimensional space drawn by audio.
  • Audio presence may refer to an element that feels like a real concert hall.
  • the second neural network may be a neural network in which the user's ROI that varies according to various audio characteristics, such as the above-described audio genre, volume, and tone tone, has been previously learned. After the learning is finished, the second neural network may obtain various characteristics of the audio signal from the input audio signal, obtain a saliency region related to the characteristics, and obtain an audio-based saliency map.
  • the quality score acquisition unit 430 may receive the audio-based saliency map 417 and the video frame 411 using a third neural network, and acquire a first quality score therefrom.
  • the third neural network may be an algorithm for extracting features from video frames and audio-based saliency maps, or a set of algorithms, software executing the set of algorithms, and/or hardware executing a set of algorithms. have.
  • the third neural network may be a neural network in which a feature vector is obtained from a video frame and an audio-based saliency map, and a correlation between the feature vector and the average opinion score is learned in advance.
  • the third neural network may obtain a first quality score for the video frame 411 based on features obtained from the input video frame 411 and the audio-based saliency map 417 .
  • FIG. 5 is an internal block diagram of the final quality score acquisition unit 215 of FIG. 3 according to an embodiment.
  • the final quality score obtaining unit 215 includes a first weight obtaining unit 510 , a second weight obtaining unit 520 , a final weight obtaining unit 530 , and a final weighting unit 540 . can do.
  • the first weight obtaining unit 510 may obtain a first weight indicating an effect of the quality score for the saliency region attracting the viewer's attention on the final quality score when considering audio.
  • the first weight obtaining unit 510 may obtain the first weight from the audio-based saliency map using a function or a neural network.
  • the evaluator may evaluate a video frame including distortion only in the audio-based saliency map region and a video frame including distortion not only in the audio-based saliency map region but also in other regions, respectively.
  • the first weight obtaining unit 510 in order for the first weight obtaining unit 510 to obtain the first weight, the content of preparing the learning data through a predetermined experiment will be described.
  • FIG. 6 is a diagram for explaining obtaining a first weight from an audio-based saliency map according to an embodiment.
  • a first video frame 610 shows a clear video frame without distortion.
  • Reference numeral 620 denotes an audio-based saliency map 620 obtained from the first video frame 610 .
  • the audio-based saliency map 620 may be obtained using a neural network.
  • the audio-based saliency map 620 considers audio frames in addition to video frames, analyzes and categorizes video frames and audio frames, and tracks the user's gaze on the video frame to attract the user's attention. It can be obtained using a neural network that has learned where the region is.
  • the audio-based saliency map 620 is obtained using a neural network that receives a visual saliency map and an audio frame and learns a change in the user's ROI when the audio frame is output together therefrom.
  • the animal's beak, eyes, apron, and part of leaves are white and the rest are black. This may mean that the areas that catch the user's attention when viewing video in consideration of audio are the animal's beak, eyes, apron, and the like.
  • the evaluator may evaluate the video frame including distortion only in the audio-based saliency map region by considering both the audio frame and the video frame.
  • a second video frame 630 shows a frame in which distortion is added only to the audio-based saliency region in the first video frame 610 .
  • the second video frame 630 is distorted only from the audio-based saliency map 620 , which is the audio-based saliency region that attracts the user's attention, such as the animal's beak, eyes, apron, and leaves. It can be seen that it contains The evaluator may evaluate the second video frame 630 including distortion only in the audio-based saliency region by considering the audio frame and the second video frame 630 together.
  • the evaluator may evaluate the video frame including distortion in the entire frame by considering only the video frame without considering the audio frame.
  • a third video frame 640 illustrates a case in which distortion is included in the entire first video frame 610 .
  • the third video frame 640 may be obtained by applying distortion to the entire first video frame 610 without considering the audio-based saliency region.
  • the evaluator may evaluate the third video frame 640 by considering only the third video frame 640 without considering the audio frame.
  • the evaluation score evaluated by a plurality of evaluators for the second video frame 630 including distortion only in the audio-based saliency map area was calculated for the first MOS and the third video frame 640 including distortion in the entire area. If the evaluation score is the second MOS, the first MOS and the second MOS may not be the same. This is because the saliency area that attracts the evaluator's attention is different when considering the audio frame and not considering the audio frame. That is, when an audio frame is considered and distortion is included in the audio-based saliency map area where the eye of the evaluator is located, the evaluator recognizes the distortion included in the area to be greater than the distortion included in other areas.
  • the first weight obtaining unit 510 calculates the correlation between the MOS values when distortion is included in the entire video frame and when distortion is included only in the audio-based saliency map region. Taking this into account, a weight function can be created.
  • the first weight acquirer 510 is a neural network that has learned the correlation between each MOS value and the two MOS values when distortion is included in the entire video frame and when distortion is included only in the audio-based saliency map region. is available.
  • the first weight acquisition unit 510 indicates the effect of the quality score for the saliency region attracting the viewer's attention on the final quality score when considering audio from the audio-based saliency map using a weight function or a neural network.
  • a first weight may be obtained.
  • the evaluation score of the evaluator may vary according to statistical characteristics of the audio-based saliency map. For example, when the area of the audio-based saliency map occupies 80% and 20% of the entire video frame, the degree of the evaluator's distortion perception of the distortion included in the audio-based saliency map area may be different. In addition, the evaluation score of the evaluator may vary according to the distribution of the area of the audio-based saliency map.
  • the rater The distortion contained in that particular location is perceived to be greater.
  • the first weight acquirer 510 may generate a weight function based on the audio-based saliency map.
  • the weight function may be a function that calculates a weight according to a correlation between each MOS value when distortion is included in the entire video frame and when distortion is included only in the audio-based saliency map region.
  • the weight function may be a function in consideration of the statistical characteristics of the saliency region based on the audio-based saliency map. Statistical characteristics of the saliency region are among the proportion of the saliency region included in the audio-based saliency map included in the video frame, the spread of the saliency region, and the central tendency. There may be at least one.
  • the weight function may be a function that considers what percentage of a video frame is a saliency area.
  • the weight function may be a function in consideration of concentration, central tendency, or spread of an audio-based saliency region included in a video frame.
  • concentration or central tendency value of the saliency region indicates how concentrated the saliency region is, and may be expressed as at least one of an average value, a mode value, and a median value.
  • the scatter plot of the saliency region indicates how and/or how spread the saliency region is, and may be expressed as at least one of a range, an interquartile range, a variance, a standard deviation, and an absolute deviation.
  • the weight function may be a statistical curve fitting function that obtains a weight based on a relationship between one or more of these features or statistics extracted from the audio-based saliency map and the MOS values of the raters.
  • the first weight acquisition unit 510 may acquire the first weight by using a neural network instead of a weight function.
  • the neural network used by the first weight acquisition unit 510 pre-prescribes the MOS values of the evaluators for the video frame including distortion only in the audio-based saliency map region and the video frame including distortion in the entire video frame. can learn The neural network can be trained to learn the difference in MOS values when distortion is included in the entire video frame and when distortion is included only in the audio-based saliency map region, and to obtain weights in consideration of the difference in MOS values.
  • the neural network used by the first weight acquisition unit 510 may acquire various features of the audio-based saliency map from the audio-based saliency map and learn to acquire a first weight from these features.
  • the first weight acquirer 510 may acquire the first weight from the audio-based saliency map by using a weight function or a neural network.
  • the first weight obtainer 510 may divide the video frame into sub-regions and obtain a first weight for each sub-region.
  • the first weight acquirer 510 may transmit the first weight acquired for each sub-region to the final weight acquirer 530 .
  • the second weight acquirer 520 may acquire the second weight based on the display device characteristic information.
  • the second weight acquirer 520 may extract display device characteristic information pre-stored in the video quality estimation apparatus 200 and acquire a second weight based thereon.
  • the characteristic information of the display device may include at least one of screen model mapping information, screen setting mapping information, and environment information.
  • the video quality evaluation apparatus 200 may acquire a first quality score and a second quality score by evaluating a video using a plurality of neural networks.
  • the neural network used by the video quality estimation apparatus 200 may be a pre-trained model to acquire a MOS from input data for video quality evaluation.
  • the MOS learned by the neural network may be obtained using an evaluator display device having a screen of a specific model in a specific environment.
  • the user display apparatus 110 used by an actual user may have different specifications from the evaluator display apparatus.
  • the second weight acquirer 520 may generate a second weight to compensate for a difference in characteristic information between the evaluator display apparatus and the user display apparatus 110 used by an actual user.
  • the second weight obtaining unit 520 may determine a screen size or resolution difference according to the screen models of the evaluator display apparatus and the user display apparatus 110 , a difference in screen setting values of the user display apparatus 110 , and a change in the surrounding environment.
  • the second weight may be obtained in consideration of the difference and the like.
  • the second weight acquirer 520 may divide the video frame into a plurality of sub-regions and obtain a second weight for each sub-region.
  • the final weight acquisition unit 530 may acquire the final weight by using the first weight and the second weight obtained by the first weight acquisition unit 510 and the second weight acquisition unit 520 , respectively. .
  • the final weight acquirer 530 multiplies the first weight for each sub-region obtained by the first weight acquirer 510 and the second weight for each sub-region acquired by the second weight acquirer 520 to each sub-region.
  • the final weight of each star can be obtained.
  • the final weight obtaining unit 530 may obtain the final weight for the entire video frame by correcting the final weight for each sub-region with reference to the final weights of neighboring sub-regions, or obtaining an average value of the final weights of all sub-regions. can In an embodiment, the final weight may have a value greater than or equal to 0 and less than or equal to 1.
  • the final weight application unit 540 may obtain the final score by applying the final weight for each video frame obtained by the final weight acquisition unit 530 to the quality score. For example, the final weight application unit 540 multiplies the first quality score obtained by the first quality score acquisition unit 211 by the final weight, and adds 1 to the second quality score obtained by the second quality score acquisition unit 214 After multiplying the difference of the final weights, the weighted sum can be obtained by adding the two weighted quality scores.
  • the final weighting unit 540 multiplies the first quality score by 0.7, multiplies the second quality score by 0.3, which is the difference between 1 and 0.7, and then multiplies the first quality by 0.7
  • a final quality score may be obtained by adding the score and the second quality score multiplied by 0.3.
  • FIG. 7 is an internal block diagram of a user display apparatus 700 according to an embodiment.
  • the user display apparatus 700 of FIG. 7 may include components of the video quality evaluation apparatus 200 of FIG. 2 .
  • the user display device 700 includes a tuner unit 710 , a communication unit 720 , a detection unit 730 , an input/output unit 740 , and a video in addition to the processor 210 and the memory 220 . It may include a processing unit 750 , a display 755 , an audio processing unit 760 , an audio output unit 770 , and a user interface 780 .
  • the tuner unit 710 amplifies, mixes, and resonates broadcast content received by wire or wirelessly, among many radio wave components, the frequency of a channel desired to be received by the user display device 700 . You can select only by tuning.
  • the content received through the tuner unit 710 is decoded and separated into audio, video and/or additional information.
  • the separated audio, video, and/or additional information may be stored in the memory 220 under the control of the processor 210 .
  • the communication unit 720 may connect the user display apparatus 700 with an external device or a server under the control of the processor 210 .
  • the user display apparatus 700 may download a program or an application required by the user display apparatus 700 from an external device or server through the communication unit 720 or perform web browsing.
  • the communication unit 720 may receive content from an external device.
  • the communication unit 720 may include at least one of a wireless LAN 721 , a Bluetooth 722 , and a wired Ethernet 723 corresponding to the performance and structure of the user display device 700 .
  • the communication unit 720 may receive a control signal through a control device (not shown) such as a remote control under the control of the processor 210 .
  • the control signal may be implemented as a Bluetooth type, an RF signal type, or a Wi-Fi type.
  • the communication unit 720 may further include other short-range communication (eg, near field communication (NFC), Bluetooth low energy (BLE)) other than the Bluetooth 722 .
  • the communication unit 720 may transmit/receive a connection signal to and from an external device through short-range communication such as Bluetooth 722 or BLE.
  • the communication unit 720 may determine the location of the user using various communication modules.
  • the communication unit 720 may include a UWB module.
  • the UWB module may acquire a user's biosignal by using a plurality of antennas, and may determine the user's location and the like through this.
  • the sensing unit 730 detects a user's voice, a user's image, or a user's interaction, and may include a microphone 731 , a camera unit 732 , and a light receiving unit 733 .
  • the microphone 731 may receive a user's uttered voice, convert the received voice into an electrical signal, and output the received voice to the processor 210 .
  • the camera unit 732 includes a sensor (not shown) and a lens (not shown), and may capture an image formed on the screen.
  • the light receiver 733 may receive an optical signal (including a control signal).
  • the camera unit 732 may obtain information about the user's location, the user's viewing angle, and the like from the user image.
  • the light receiver 733 may receive an optical signal corresponding to a user input (eg, touch, press, touch gesture, voice, or motion) from a control device (not shown) such as a remote control or a mobile phone.
  • a control signal may be extracted from the received optical signal under the control of the processor 210 .
  • the user display apparatus 700 may further include an illuminance sensor.
  • the illuminance sensor may detect brightness, etc. around the user display device 700 .
  • the input/output unit 740 receives video (eg, a moving image signal or a still image signal) and audio (eg, an audio signal) from a device external to the user display device 700 under the control of the processor 210 . I, music signal, etc.) and additional information such as metadata can be received.
  • the metadata may include HDR information about the content, a description or content title for the content, a content storage location, and the like.
  • the input/output unit 740 is one of an HDMI port (High-Definition Multimedia Interface port, 741), a component jack (component jack, 742), a PC port (PC port, 743), and a USB port (USB port, 744). may include.
  • the input/output unit 740 may include a combination of an HDMI port 741 , a component jack 742 , a PC port 743 , and a USB port 744 .
  • the video processing unit 750 processes image data to be displayed by the display 755 and performs various image processing operations such as decoding, rendering, scaling, noise filtering, frame rate conversion, and resolution conversion on the image data.
  • the video processing unit 750 may also perform a picture quality processing function. That is, the video processing unit 750 may improve the quality of a video and/or a frame based on the frame-by-frame score or the final quality score of the entire video obtained by the processor 210 .
  • the video processing unit 750 may select a quality processing model from among a plurality of neural network models according to a quality score, and may improve frame/video quality accordingly.
  • the video processing unit 750 may improve the quality of the frame/video by determining the number of times of applying the image quality processing model according to the score, and repeatedly applying the image quality processing model to the frame by the determined number of times.
  • the video processing unit 750 may improve the quality of the frame/video by designing a filter according to the score and applying it to the frame/video.
  • the video processing unit 750 may correct a hyperparameter value according to a score, and may improve frame quality by using a neural network having the corrected hyperparameter value.
  • the display 755 may output content received from a broadcasting station or received from an external server or an external storage medium on the screen.
  • the content is a media signal, and may include a video signal, an image, a text signal, and the like. Also, the display 755 may display a video signal or image received through the HDMI port 741 on the screen.
  • the display 755 may output the video or frame of the improved quality.
  • the display 755 When the display 755 is implemented as a touch screen, the display 755 may be used as an input device other than an output device. Also, depending on the implementation form of the user display apparatus 700 , the user display apparatus 700 may include two or more displays 755 .
  • the audio processing unit 760 processes audio data.
  • the audio processing unit 760 may perform various processes such as decoding, amplification, and noise filtering on audio data.
  • the audio output unit 770 includes audio included in the content received through the tuner unit 710 under the control of the processor 210, audio input through the communication unit 720 or the input/output unit 740, and memory ( 220) can output the stored audio.
  • the audio output unit 770 may include at least one of a speaker 771 , a headphone output terminal 772 , and a Sony/Philips Digital Interface (S/PDIF) output terminal 773 .
  • S/PDIF Sony/Philips Digital Interface
  • the user interface 780 may receive a user input for controlling the user display apparatus 700 .
  • the user may select a screen setting parameter of the display 755 and change the selected setting parameter value through the user interface 780 .
  • the user interface 780 includes a touch panel for sensing a user's touch, a button for receiving a user's push operation, a wheel for receiving a user's rotation operation, a keyboard (key board), and a dome switch, and voice recognition.
  • Various types of user input devices including, but not limited to, a microphone for sensing a motion, a motion detection sensor for sensing a motion, and the like may be included.
  • the user interface 780 may receive a control signal received from the remote controller.
  • 8 to 12 are diagrams for explaining display characteristic information according to an embodiment.
  • FIG. 8 is a diagram for explaining screen model mapping information according to an embodiment.
  • the appraiser display device 810 is shown on the left side, and the user display device 820 is shown on the right side.
  • the plurality of raters 811 may use the rater display device 810 to watch a video and evaluate video quality.
  • the scores evaluated by the plurality of evaluators 811 may be converted into MOS and used as learning data of the neural network.
  • the user display device 820 may obtain a model-based quality score for the video by using the neural network that has learned the MOS.
  • the screens included in the evaluator display device 810 and the user display device 820 may be different models. Since the screen size or resolution is different for each model, the screen included in the evaluator display device 810 and the screen included in the user display device 820 may have different sizes and/or resolutions.
  • the evaluation score may be different even if the same video is viewed. This is because, in general, the larger the screen size, the more visible the distortion included in the image, and the smaller the screen size, the less the distortion is recognized.
  • the evaluation score may be different. This is because, as the resolution increases, the number of pixels included in the screen increases and the image appears clearer, so the human eye perceives distortion more sensitively.
  • the quality score of the frame acquired by the neural network trained using the score acquired using the evaluator display device 810 as learning data is evaluated by the user display device 820 having a different screen size and/or resolution. It may be different from the quality score.
  • the user display device 820 may store in advance a relationship between the quality evaluation score generated by the model of the evaluator display device 810 being different from the model of the user display device 820 . That is, a manufacturer that manufactures the user display device 820 allows a plurality of evaluators to calculate a video quality score using the evaluator display device 810, and a user display device of a model different from that of the evaluator display device 810 ( After calculating the quality score of the video using 820 , screen model mapping information that maps the relationship between the quality score in the evaluator display device 810 and the quality score in the user display device 820 may be generated. .
  • the average opinion score is A
  • the plurality of raters 811 have a different model from the rater display device 810 .
  • the manufacturer determines the score relationship between the rater display device 810 and the user display device 820 , that is, the correlation between A and B. It may be stored in the user display device 820 as screen model mapping information.
  • the manufacturer performs the same method for each user display device model, generates screen model mapping information correlating the evaluation score of the evaluator display device 810 and the user display device for each model, and stores it in the display device of each model.
  • the screen model mapping information indicates a correlation between average opinion scores according to the screen model, and may be in the form of a lookup table, a mapping table, or a mapping function.
  • the user display apparatus 820 may compensate for the difference in quality evaluation according to the difference in screen models by obtaining weights using the screen model mapping information and applying the weights to the model-based quality score.
  • FIG. 9 is a diagram for explaining screen setting mapping information according to an embodiment.
  • quality scores obtained by using the two devices may be the same.
  • the frame obtained by the neural network trained using the score obtained using the evaluator display device as training data The quality score may be different from the quality score evaluated by the user display device.
  • the manufacturer acquires a video quality score by using the user display device to generate screen model mapping information.
  • the manufacturer may obtain the video quality score while setting the screen setting value of the user display device as a default value. Thereafter, when the user changes the screen setting value of the user display device to a value other than the default value and uses it, the quality score evaluated by the user display device having the default value screen setting parameter value may be different.
  • OSD On Screen Display
  • the user may change the screen setting parameter value using the OSD menu 910 .
  • the user may select a desired parameter from among a plurality of screen setting parameters and change the value of the selected parameter to a desired value.
  • the screen setting parameter may include at least one of brightness, contrast, gamma, backlight brightness, sharpness, color, and tint for the screen of the user display device.
  • the image quality of the video viewed by the user may be changed.
  • the quality score evaluated using the screen having the changed setting parameter value may be different from the quality score obtained when the setting parameter is a default value.
  • the video evaluation score at this time is calculated when the brightness value is the default value because distortion is not easily seen in the video output through the dark screen. may be higher than the video evaluation score of
  • the manufacturer may allow evaluators to evaluate the quality while the screen setting parameter is fixed to a default value when evaluating the video quality using a user display device having the same model.
  • the manufacturer may set the screen setting parameter to have a value other than the default value, and allow the evaluator to evaluate the quality in each case.
  • the manufacturer may store the difference in quality evaluation score according to the difference in these parameter values in the form of a mapping function, a mapping table, or a lookup table.
  • the manufacturer obtains a quality score for each parameter and for each set value of the parameter even in the same parameter, and creates screen setting mapping information correlating the difference between the evaluation score according to the default value and other setting values from the default value and uses it It can be stored on the display device.
  • FIG. 10 is a diagram for explaining a screen size among screen model mapping information according to an embodiment.
  • the screen model mapping information may include information about a screen size and a score for each sub-region according to the screen size.
  • the user display device may have various screen sizes.
  • three screens are shown, and the sizes of the first screen 1010 , the second screen 1020 , and the third screen 1030 decrease in order.
  • the degree to which distortion included in the video is perceived may vary depending on the position of the screen. People usually tend to see more of the center part of the screen than the edge part. Therefore, even if the degree of distortion is the same, when there is distortion at the center of the screen and when there is distortion at the edge of the screen, people perceive the degree of distortion differently.
  • the manufacturer when storing screen information in the user display apparatus 110 , may further include a score for each sub-region in the screen information for a screen having a screen size greater than or equal to a predetermined size.
  • the manufacturer may output distorted videos for each sub-region of the frame. That is, the manufacturer provides the evaluator with a video containing distortion only in each of a plurality of sub-regions included in a frame or screen, such as a video containing distortion only in the lower part of the frame and a video containing distortion only in the left part of the frame. You can show it and earn points accordingly.
  • the second screen 1020 is divided into nine sub-regions, each distorting only one sub-region. These included videos can be output to evaluators and evaluated.
  • the evaluation score obtained from the raters for a video with distortion only in the central region 1021 is 1, and for a video with the same distortion only in the left central region 1023, the evaluation score is obtained from the raters. Assume that the evaluation score obtained is 4 points. This may mean that the raters view the middle middle region 1021 more than the middle left region 1023 .
  • the manufacturer gives a sub-region score of 0.2 to the left middle region 1023 and a sub-region score of 0.8 to the middle central region 1021, so that each sub-region of the screen affects the video quality evaluation. degree can be obtained.
  • the manufacturer may generate a score for each sub-region indicating the degree to which each sub-region affects video quality evaluation, and store the score by including it in screen information.
  • the manufacturer may not separately include the score for each sub-region included in the screen in the screen information. That is, in an embodiment, the screen information may further include a score for each sub-region in the screen information only when the screen size is equal to or greater than a predetermined size. For example, when the screen size is smaller than a predetermined size, such as a screen of a tablet or a mobile phone, the manufacturer may include only one score for the entire screen in the screen information, but may not include a score for each sub-area.
  • FIG. 11 is a diagram for describing environment information according to an embodiment.
  • the environment information may include viewing location information of the user.
  • the position of the rater when evaluating the video may or may not be the same as the position of the user when viewing the actual user display device 1120 .
  • the viewing angle of the evaluator when viewing the evaluator display device 1110 and/or the distance between the evaluator and the evaluator display device 1110 is determined by the user viewing the display device 1120 .
  • the user's viewing angle and/or the distance between the user and the user's display device 1120 may vary. In this case, the areas that the rater and the user view as important on the screen are different from each other, which affects the quality score for the same video.
  • the viewing angle is, for example, based on a virtual line connecting the center of the appraiser and the appraiser display device 1110, at least one of an azimuth and an elevation angle formed between the appraiser and the appraiser display device 1110 may include
  • information indicating the relationship between the evaluation position when the evaluator evaluates the video and the quality evaluation score according to the position difference when the user actually watches the user display unit 1120 is stored in the user display device 1120 in advance.
  • manufacturers can allow raters to rate the video from various locations as they rate it. For example, as shown in FIG. 11 , the manufacturer may have the raters watch the same video at the first location 1111 , the second location 1112 , and the third location 1113 respectively and rate the video quality. However, this is for convenience of explanation, and the manufacturer evaluates the video quality even at a location further away or closer to the evaluator display device 1110 or higher or lower than the evaluator display device 1110 by the evaluator. can make it
  • the manufacturer may obtain a video evaluation score for each evaluation position of the raters.
  • the manufacturer may generate a lookup table or mapping function indicating the relationship between the evaluation location and the evaluation score, and store it in the user display device 1120 in advance.
  • the user display apparatus 1120 may obtain information about the user's location.
  • the user display device 1120 may include a sensor 1125 for sensing the user's location.
  • the sensor 1125 may use a camera to acquire an image of the user in real time to determine the location of the user.
  • the sensor 1125 may acquire a user's bio-signals through a plurality of antennas using an ultra-wideband (UWB) module, etc., and determine the user's location therefrom.
  • UWB ultra-wideband
  • the senor 1125 may detect the user's iris movement and the like in various ways, and through this, the user's viewing angle may be detected.
  • the user display apparatus 1120 may determine which position of the user is closest to which of the evaluation positions of the raters previously stored in the lookup table. For example, in FIG. 11 , the user display apparatus 1120 may determine that the user's current location 1121 is similar to the second location 1112 of the evaluators' evaluation locations. The user display device 1120 may compensate for the difference in quality evaluation according to the difference in the evaluation position by obtaining a weight in consideration of the evaluation score stored in response to the second position 1112 and applying it to the model-based quality score.
  • FIG. 12 is a diagram for describing environment information according to an embodiment.
  • the environment information may include ambient brightness information of the user's display device.
  • the brightness around it may or may not be the same as the brightness around the user when the actual user watches the screen.
  • the ambient brightness 1211 at the location where the evaluator display device 1210 is located may be different from the brightness 1221 around the user at the location where the user display device 1220 is located.
  • the quality score recognized by the appraiser and the user may be different.
  • the evaluator when an evaluator evaluates a video in a dark environment such as a movie theater and assigns a quality score, the evaluator may also better recognize distortion of the video through a screen that is perceived to be relatively brighter compared to a dark surrounding environment. In this case, the quality score evaluated by the rater may not be the same as the quality score felt by a user watching the video in a bright environment.
  • the manufacturer may change the ambient brightness step by step when the raters rate the video.
  • the manufacturer may allow evaluators to evaluate each video under various ambient brightnesses, and obtain video evaluation scores for each ambient brightness.
  • the manufacturer may generate a lookup table or mapping function indicating the relevance of the quality score according to the ambient brightness and store it in the user display device 1220 in advance.
  • the user display device 1220 may acquire information about the brightness 1221 around the user.
  • the sensor 1225 for sensing the brightness 1221 around the user may be used in the user display device 1220 .
  • the sensor 1225 may be, for example, an illuminance sensor.
  • the user display device 1220 may detect the brightness 1221 around the user using an illuminance sensor.
  • the illuminance sensor is a sensor that measures the amount of ambient light and measures brightness according to the amount of light, and may include an illuminance sensor (RGB), a photoresistor, or the like.
  • the user display device 1220 may identify a brightness closest to the brightness 1221 around the user in the lookup table.
  • the user display device 1220 obtains a weight in consideration of the evaluation score stored in response to the brightness 1221 and the closest brightness to the user's surroundings and applies it to the model-based quality score, thereby determining the difference in quality evaluation according to the difference in ambient brightness. can be compensated
  • FIG. 13 is a flowchart illustrating a video quality evaluation method according to an embodiment.
  • the video quality evaluation apparatus may obtain an audio-based saliency map in consideration of a video frame and an audio frame (step 1310). That is, the video quality evaluation apparatus may identify an area that attracts the viewer's attention in the video frame in consideration of the audio frame that is synchronized with the video frame and output together.
  • the video quality evaluation apparatus may obtain a first quality score for the video frame in consideration of the audio-based saliency map (step 1320).
  • the first quality score may be a quality score for a video frame obtained by reflecting an audio-based saliency region that attracts a user's attention when the video frame and the audio frame are considered together.
  • the video quality evaluation apparatus may obtain a quality score in consideration of the audio-based saliency region by considering not only the video frame but also the audio-based saliency map when acquiring the quality evaluation score for the video frame.
  • the video quality evaluation apparatus may obtain a second quality score for the video frame without considering the audio frame (operation 1330 ).
  • the second quality score may be obtained through quality evaluation of the entire video frame without considering the audio or the user's ROI.
  • the video quality evaluation apparatus may obtain a final quality score based on the first quality score and the second quality score (step 1340).
  • FIG. 14 is a flowchart illustrating a process of acquiring an audio-based saliency map, according to an embodiment.
  • the video quality evaluation apparatus may first acquire a visual saliency map (step 1410).
  • the video quality evaluation apparatus may acquire a visual saliency map indicating a saliency region that attracts the viewer's attention in the video frame based on only the video frame without the audio frame.
  • the visual saliency map may mean a saliency map obtained by viewing only a video frame without considering audio.
  • the apparatus for evaluating video quality may acquire various features from a video frame using the first neural network and acquire a visual saliency map based thereon.
  • the video quality evaluation apparatus may obtain the audio-based saliency map by considering the visual saliency map and the audio frame together (step 1420).
  • the video quality evaluation apparatus receives an audio frame and a visual saliency map obtained by the first neural network using the second neural network, and determines an area that attracts the viewer's attention when video and audio are considered together therefrom. It may mean an audio-based saliency map that is expressed.
  • the second neural network used by the video quality estimation apparatus may be a neural network that has previously learned the difference between the saliency region for the same video when considering the audio signal and when not considering the audio signal.
  • the second neural network may be a neural network that has learned an audio-based saliency region that varies according to characteristics of an audio signal.
  • 15 is a flowchart illustrating a process of obtaining a weight according to an embodiment.
  • the apparatus for evaluating video quality may obtain a first weight from the statistical characteristics of the audio-based saliency map (step 1510).
  • Statistical characteristics of the audio-based saliency map are the characteristics of the saliency region included in the audio-based saliency map. , may include at least one of the central tendency values of the saliency region.
  • the video quality evaluation apparatus may obtain the second weight from the characteristic information of the display apparatus (operation 1520).
  • the characteristic information of the display device may include at least one of screen model mapping information, screen setting mapping information, and environment information.
  • the screen model mapping information may include a score relationship according to a difference between the screen model of the evaluator display apparatus and the screen model of the user's display apparatus, and the screen model difference may mean a difference in at least one of a screen size and a screen resolution.
  • the screen setting mapping information represents a score relationship according to a difference between a default setting value for the screen of the user display device and a setting value selected by the user, and the setting values are brightness, contrast, and gamma of the screen. , backlight brightness, sharpness, color, and tint.
  • the environment information may include at least one of ambient brightness information and viewing location information.
  • the ambient brightness information may include a relationship between the user's display device ambient brightness and the evaluator's display device ambient brightness
  • the viewing location information may include a relationship between the user's viewing position and the evaluator's viewing position.
  • the viewing position may include at least one of a distance from the display device, an azimuth, and an elevation angle.
  • the video quality estimation apparatus may obtain a final weight from the first weight and the second weight (operation 1530). For example, the video quality estimation apparatus may obtain a final weight by multiplying the first weight by the second weight.
  • the video quality evaluation apparatus may obtain the final quality score for the video frame by applying the final weight to the first quality score and the second quality score.
  • the method and apparatus for evaluating video quality according to the presence and absence of audio may also be implemented in the form of a recording medium including instructions executable by a computer, such as a program module executed by a computer.
  • Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and non-volatile media, removable and non-removable media.
  • Computer-readable media may include both computer storage media and communication media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Communication media typically includes computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transport mechanism, and includes any information delivery media.
  • unit may be a hardware component such as a processor or circuit, and/or a software component executed by a hardware component such as a processor.
  • the method and apparatus for evaluating video quality according to the presence and absence of audio based on a video frame and an audio frame output together with the video frame, provide a first quality for the video frame. obtaining a score, based on the video frame without the audio frame, obtaining a second quality score for the video frame and a final quality for the video frame from the first quality score and the second quality score
  • It may be implemented as a computer program product including a computer-readable recording medium in which a program for implementing a video quality evaluation method performed by a video quality evaluation apparatus, including obtaining a score, is recorded.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Analysis (AREA)

Abstract

비디오 품질 평가 장치가 개시된다. 비디오 품질 평가 장치는, 하나 이상의 인스트럭션을 저장하는 메모리 및 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 프로세서는 하나 이상의 인스트럭션을 실행함으로써, 비디오 프레임 및 비디오 프레임과 함께 출력되는 오디오 프레임을 기반으로, 비디오 프레임에 대한 제1 품질 점수를 획득하고, 오디오 프레임 없이 비디오 프레임을 기반으로, 비디오 프레임에 대한 제2 품질 점수를 획득하고, 제1 품질 점수 및 제2 품질 점수로부터 비디오 프레임에 대한 최종 품질 점수를 획득할 수 있다.

Description

오디오의 존재 및 비존재에 따른 비디오 품질 평가 방법 및 장치
개시된 다양한 실시 예들은 오디오의 존재 및 비존재에 따른 비디오 품질 평가 방법 및 장치에 관한 것으로, 보다 상세하게는 오디오를 고려할 때와 오디오를 고려하지 않을 때의 각각의 품질 점수를 기반으로 비디오의 품질을 평가하는, 오디오의 존재 및 비존재에 따른 비디오 품질 평가 방법 및 장치에 관한 것이다.
비디오 영상은 생성, 압축, 저장, 전송, 재생산 등의 과정에서 왜곡을 수반하게 된다. 왜곡된 영상은 사람이 지각할 수 있는 범위 내에서 재생 되어야 한다. 따라서, 영상이 재생되기 전에, 이러한 왜곡이 사람이 지각하는 화질에 어떠한 영향을 미치는지를 이해하기 위해 화질을 측정하고 평가할 필요가 있다.
영상 화질 평가(Quality Assessment) 기술은 주관적 화질 평가(subjective quality assessment) 방법과 객관적 화질 평가(objective quality assessment) 방법으로 나눌 수 있다. 주관적 화질 평가 방법은 평가자가 직접 비디오를 보고 화질을 평가하는 방법으로서 사람의 화질 인지 특성을 잘 반영할 수 있다. 그러나 주관적 화질 평가 방법은 개인별로 평가 치가 다르고 시간과 비용이 많이 소요될 뿐 아니라, 실시간으로 매번 영상의 화질을 평가하기 어렵다는 단점이 있다.
객관적 화질 평가 방법은 사람의 시신경으로 지각된 화질(perceived quality)을 측정하는 알고리즘을 구현하고 이를 이용하여 압축 영상의 화질 열화 정도를 평가하는 방법이다.
객관적 화질 평가 방법은 왜곡된 영상과 비교할 수 있는 기준 영상(reference image)을 이용하는 전 기준 화질 평가(Full-Reference Quality Assessment)방식과, 기준 영상 자체가 아닌 기준 영상에 관한 일부 정보, 예를 들면, 워터 마킹(watermarking)이나 보조 채널(auxiliary channel) 등을 이용하여 화질 평가를 수행하는 감소 기준 화질 평가(Reduced Reference Quality Assessment) 방식, 및 기준 영상의 어떠한 정보도 이용하지 않고 왜곡된 영상만을 이용하여 화질 추정을 수행하는 무 기준 화질 평가(No-Reference Quality Assessment)방식으로 나뉠 수 있다.
무 기준 화질 평가 방식은 기준 영상 정보를 필요로 하지 않기 때문에, 화질 측정이 요구되는 어떠한 응용에도 이용될 수 있다는 장점이 있다.
일반적으로 화질 평가 방법은 시각적인 정보만을 사용하여 수행된다. 그러나, 실제로 사용자는 비디오를 시청할 때 비디오와 함께 출력되는 오디오 또한 함께 이용하게 된다.
실시 예에 따른 비디오 품질 평가 장치는 하나 이상의 인스트럭션을 저장하는 메모리 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 비디오 프레임 및 상기 비디오 프레임과 함께 출력되는 오디오 프레임을 기반으로, 상기 비디오 프레임에 대한 제1 품질 점수를 획득하고, 상기 오디오 프레임 없이 상기 비디오 프레임을 기반으로, 상기 비디오 프레임에 대한 제2 품질 점수를 획득하고, 상기 제1 품질 점수 및 상기 제2 품질 점수로부터 상기 비디오 프레임에 대한 최종 품질 점수를 획득할 수 있다.
도 1은 실시 예에 따라, 사용자 디스플레이 장치(110)가 비디오 영상의 품질 점수를 획득하고, 이에 따라 처리된 화질을 갖는 영상을 화면에 출력하는 것을 설명하기 위한 도면이다.
도 2는 실시 예에 따른 비디오 품질 평가 장치(200)의 내부 블록도이다.
도 3은 실시 예에 따른, 도2의 프로세서(210)의 내부 블록도이다.
도 4는 실시 예에 따른, 도 3의 제1 품질 점수 획득부(211)의 내부 블록도이다.
도 5는 실시 예에 따른, 도 3의 최종 품질 점수 획득부(215)의 내부 블록도이다.
도 6은 실시 예에 따라 오디오 기반 세일리언시 맵으로부터 제1 가중치를 획득하는 것을 설명하기 위한 도면이다.
도 7은 실시 예에 따른 사용자 디스플레이 장치(700)의 내부 블록도이다.
도 8은 실시 예에 따른 스크린 모델 매핑 정보를 설명하기 위한 도면이다.
도 9는 실시 예에 따른 스크린 설정 매핑 정보를 설명하기 위한 도면이다.
도 10은 실시 예에 따른 스크린 모델 매핑 정보 중 스크린 사이즈를 설명하기 위한 도면이다.
도 11은 실시 예에 따른 환경 정보를 설명하기 위한 도면이다.
도 12는 실시 예에 따른 환경 정보를 설명하기 위한 도면이다.
도 13은 실시 예에 따른 비디오 품질 평가 방법을 도시한 순서도이다.
도 14는 실시 예에 따라, 오디오 기반 세일리언시 맵을 획득하는 과정을 도시한 순서도이다.
도 15는 실시 예에 따라, 가중치를 획득하는 과정을 도시한 순서도이다.
실시 예에서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 비디오 프레임 및 상기 오디오 프레임을 기반으로, 상기 비디오 프레임에서 시청자의 주의를 끄는 세일리언시(saliency) 영역을 나타내는 오디오 기반 세일리언시 맵을 획득하고, 상기 비디오 프레임 및 상기 오디오 기반 세일리언시 맵으로부터 상기 제1 품질 점수를 획득할 수 있다.
실시 예에서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 오디오 프레임 없이 상기 비디오 프레임을 기반으로, 상기 비디오 프레임에서 시청자의 주의를 끄는 세일리언시 영역을 나타내는 비주얼(visual) 세일리언시 맵을 획득하고, 상기 오디오 프레임 및 상기 비주얼 세일리언시 맵으로부터 상기 오디오 기반 세일리언시 맵을 획득할 수 있다.
실시 예에서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 오디오 신호를 고려할 때와 고려하지 않을 때의 세일리언시 영역의 차이를 학습한 뉴럴 네트워크를 이용하여, 상기 오디오 프레임 및 상기 비주얼 세일리언시 맵으로부터 상기 오디오 기반 세일리언시 맵을 획득할 수 있다.
실시 예에서, 상기 뉴럴 네트워크는 오디오 신호 특성에 따라 달라지는 세일리언시 영역을 학습한 뉴럴 네트워크이고, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 뉴럴 네트워크를 이용하여 상기 오디오 프레임으로부터 오디오 신호 특성을 획득하고, 상기 획득한 오디오 신호 특성을 고려하여 상기 오디오 기반 세일리언시 맵을 획득하고, 상기 오디오 신호 특성은 오디오 장르(genre), 주제(theme), 볼륨(volume), 해상도(resolution), 정보량(entropy), 선명도(sharpness), 다이나믹스(dynamics), 대역 밸런스(tonal balance), 음색(tone color), 위상(phase), 음상(sound image), 음장(sound staging), 임장감(presence) 중 적어도 하나를 포함할 수 있다.
실시 예에서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 오디오 기반 세일리언시 맵 및 디스플레이 장치 특성 정보 중 적어도 하나에 기반하여 최종 가중치를 획득하고, 상기 최종 가중치를 이용하여 상기 제1 품질 점수 및 상기 제2 품질 점수의 가중합(weighted sum)을 획득할 수 있다.
실시 예에서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 오디오 기반 세일리언시 맵으로부터 획득한 세일리언시 영역의 통계학적 특성으로부터 제1 가중치를 획득하고, 상기 디스플레이 장치 특성 정보로부터 제2 가중치를 획득하고, 상기 제1 가중치 및 상기 제2 가중치 중 적어도 하나를 기반으로 상기 최종 가중치를 획득할 수 있다.
실시 예에서, 상기 세일리언시 영역의 통계학적 특성은 상기 오디오 기반 세일리언시 맵에 포함된 상기 세일리언시 영역이 상기 비디오 프레임에 포함된 비율(proportion), 상기 세일리언시 영역의 산포도(spread) 또는 중심 경향치(central tendency) 중 적어도 하나일 수 있다.
실시 예에서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 디스플레이 장치 특성 정보를 상기 비디오 품질 평가 장치에 기 저장된 매핑 테이블로부터 추출하여 획득하고, 상기 디스플레이 장치 특성 정보는, 스크린 모델 매핑 정보, 스크린 설정 매핑 정보, 및 환경 정보 중 적어도 하나를 포함할 수 있다.
실시 예에서, 상기 스크린 모델 매핑 정보는 평가자 디스플레이 장치의 스크린 모델과 상기 사용자 디스플레이 장치의 스크린 모델 차이에 따른 점수 관계를 포함하고, 상기 스크린 모델 차이는 스크린 사이즈 및 스크린 해상도 중 적어도 하나의 차이일 수 있다.
실시 예에서, 상기 스크린 설정 매핑 정보는 상기 사용자 디스플레이 장치의 스크린에 대한 디폴트 설정 값과 사용자로부터 선택된 설정 값의 차이에 따른 점수 관계를 나타내고, 상기 설정 값은 스크린의 밝기(brightness), 대조도(contrast), 감마(gamma), 백라이트 밝기, 선명도(sharpness), 색상(Color), 색조(tint) 중 적어도 하나에 대한 값을 포함할 수 있다.
실시 예에서, 상기 환경 정보는 주변 밝기 정보 및 시청 위치 정보 중 적어도 하나를 포함하고, 상기 주변 밝기 정보는 상기 사용자 디스플레이 장치 주변 밝기와 평가자 디스플레이 장치 주변 밝기 간의 관계를 포함하고, 상기 시청 위치 정보는 상기 사용자의 시청 위치 및 평가자의 시청 위치 간의 관계를 포함하고, 상기 시청 위치는 디스플레이 장치와의 거리, 방위각, 및 고도각 중 적어도 하나를 포함할 수 있다.
실시 예에 따른 비디오 품질 평가 장치에서 수행하는 비디오 품질 평가 방법은 비디오 프레임 및 상기 비디오 프레임과 함께 출력되는 오디오 프레임을 기반으로, 상기 비디오 프레임에 대한 제1 품질 점수를 획득하는 단계, 상기 오디오 프레임 없이 상기 비디오 프레임을 기반으로, 상기 비디오 프레임에 대한 제2 품질 점수를 획득하는 단계 및 상기 제1 품질 점수 및 상기 제2 품질 점수로부터 상기 비디오 프레임에 대한 최종 품질 점수를 획득하는 단계를 포함할 수 있다.
실시 예에 따른 컴퓨터로 판독 가능한 기록 매체는 비디오 프레임 및 상기 비디오 프레임과 함께 출력되는 오디오 프레임을 기반으로, 상기 비디오 프레임에 대한 제1 품질 점수를 획득하는 단계, 상기 오디오 프레임 없이 상기 비디오 프레임을 기반으로, 상기 비디오 프레임에 대한 제2 품질 점수를 획득하는 단계 및 상기 제1 품질 점수 및 상기 제2 품질 점수로부터 상기 비디오 프레임에 대한 최종 품질 점수를 획득하는 단계를 포함하는, 비디오 품질 평가 장치에서 수행하는 비디오 품질 평가 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체일 수 있다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시 예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 개시에서 사용되는 용어는, 본 개시에서 언급되는 기능을 고려하여 현재 사용되는 일반적인 용어로 기재되었으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 다양한 다른 용어를 의미할 수 있다. 따라서 본 개시에서 사용되는 용어는 용어의 명칭만으로 해석되어서는 안되며, 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 해석되어야 한다.
또한, 본 개시에서 사용된 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것이며, 본 개시를 한정하려는 의도로 사용되는 것이 아니다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
본 명세서, 특히, 특허 청구 범위에서 사용된 “상기” 및 이와 유사한 지시어는 단수 및 복수 모두를 지시하는 것일 수 있다. 또한, 본 개시에 따른 방법을 설명하는 단계들의 순서를 명백하게 지정하는 기재가 없다면, 기재된 단계들은 적당한 순서로 행해질 수 있다. 기재된 단계들의 기재 순서에 따라 본 개시가 한정되는 것은 아니다.
본 명세서에서 다양한 곳에 등장하는 "일부 실시 예에서" 또는 "일 실시 예에서" 등의 어구는 반드시 모두 동일한 실시 예를 가리키는 것은 아니다.
본 개시의 일부 실시 예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단” 및 “구성”등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
또한, 명세서에서 “사용자”라는 용어는 비디오 품질 평가 장치를 이용하여 비디오 품질 평가 장치의 기능 또는 동작을 제어하는 사람을 의미하며, 평가자, 시청자, 소비자, 관리자 또는 설치 기사를 포함할 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 실시 예에 따라, 사용자 디스플레이 장치(110)가 비디오 영상의 품질 점수를 획득하고, 이에 따라 처리된 화질을 갖는 영상을 화면에 출력하는 것을 설명하기 위한 도면이다.
도 1을 참조하면, 사용자 디스플레이 장치(110)는 영상을 처리하여 출력할 수 있는 전자 장치일 수 있다. 사용자 디스플레이 장치(110)는 고정형 또는 이동형일 수 있으며, 디지털 방송 수신이 가능한 디지털 TV일 수 있으나, 이에 한정되지 않으며, 디스플레이를 포함하는 다양한 형태의 전자 장치로 구현될 수 있다.
실시예들에서, 사용자 디스플레이 장치는, 이하에서 설명되는, 평가자가 비디오 품질 평가를 위해 이용하는 평가자 디스플레이 장치와 구분하기 위해 “사용자” 디스플레이 장치로 언급되지만, 이에 한정되는 것은 아니다. 사용자 디스플레이 장치는 디스플레이 장치 또는 전자 장치로 언급될 수도 있다.
사용자 디스플레이 장치(110)는 데스크톱, 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 화상 전화기, 전자 북 리더기(e-book reader), 랩톱 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), 디지털 카메라, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 캠코더, 네비게이션, 웨어러블 장치(wearable device), 스마트 와치(smart watch), 홈 네트워크 시스템, 보안 시스템, 의료 장치 중 적어도 하나를 포함할 수 있다.
사용자 디스플레이 장치(110)는 평면(flat) 디스플레이 장치뿐만 아니라, 곡률을 가지는 화면인 곡면(curved) 디스플레이 장치 또는 곡률을 조정 가능한 가변형(flexible) 디스플레이 장치로 구현될 수 있다. 사용자 디스플레이 장치(110)의 출력 해상도는 예를 들어, HD(High Definition), Full HD, Ultra HD, 또는 Ultra HD 보다 더 선명한 해상도를 포함할 수 있다.
사용자 디스플레이 장치(110)는 비디오를 출력할 수 있다. 비디오는 복수의 프레임들로 구성될 수 있다. 비디오는, 콘텐츠 프로바이더들(contents providers)이 제공하는 텔레비전 프로그램이나 VOD 서비스를 통한 각종 영화나 드라마 등의 아이템을 포함할 수 있다. 콘텐츠 프로바이더는 소비자에게 비디오를 포함한 각종 콘텐츠를 제공하는 지상파 방송국이나 케이블 방송국, 또는 OTT 서비스 제공자, IPTV 서비스 제공자를 의미할 수 있다.
비디오는 캡쳐 된 후 압축되어 사용자 디스플레이 장치(110)로 전송되고, 사용자 디스플레이 장치(110)에 의해서 복원되어 출력된다. 비디오를 캡처하는데 사용되는 기기의 물리적 특성의 한계와 제한된 대역폭 등으로 인해 정보가 손실되면서 영상의 왜곡이 발생하게 된다. 왜곡된 비디오는 품질이 저하될 수 있다.
실시 예에서, 사용자 디스플레이 장치(110)는 비디오 품질 평가 장치를 포함할 수 있다. 비디오 품질 평가 장치는 무 기준 화질 평가 방식으로 비디오의 화질을 객관적으로 평가할 수 있다. 비디오 품질 평가 장치는 적어도 하나의 하드웨어 칩 형태나 전자 장치 형태로 제작되어 사용자 디스플레이 장치(110)에 포함될 수 있다. 또는 비디오 품질 평가 장치는 사용자 디스플레이 장치(110)에서 소프트웨어 모듈로 구현될 수도 있다.
실시 예에 따라, 비디오 품질 평가 장치를 포함하는 사용자 디스플레이 장치(110)는 비디오 품질 평가 방법을 수행할 수 있다.
사용자 디스플레이 장치(110)는 입력 비디오(120)를 수신하고 이를 화면을 통해 출력하기 전에 먼저 비디오에 대한 품질 평가를 수행할 수 있다. 사용자 디스플레이 장치(110)는 비디오에 포함된 복수의 프레임들 각각에 대해 점수를 획득할 수 있다.
일반적으로, 비디오 품질을 평가할 때, 복수의 평가자들은 오디오에 대한 고려 없이, 비디오만을 이용하여 비디오의 품질을 평가하게 된다. 그러나, 실제 사용자는 비디오를 시청할 때, 비디오뿐 아니라 오디오도 함께 이용한다.
오디오를 고려하지 않고 비디오만을 고려하여 비디오의 품질을 평가한 경우와, 오디오와 비디오를 함께 고려하여 비디오의 품질을 평가한 경우, 그 품질 점수는 서로 다를 수 있다. 이는 비디오를 볼 때, 오디오의 유무에 따라 사람이 화면에서 보는 영역이 달라질 수 있기 때문이다. 즉, 평가자, 또는 사용자가 오디오 없이 비디오만을 볼 때와, 비디오에 동기화된 오디오를 청취하며 비디오를 볼 때, 평가자 또는 사용자의 관심 영역은 변경될 수 있고, 그에 따라 비디오에 대한 품질 점수 또한 달라질 수 있다.
실시 예에서, 사용자 디스플레이 장치(110)는 오디오를 고려하여 비디오 프레임에 대한 품질 점수를 획득할 수 있다. 이를 위해, 사용자 디스플레이 장치(110)는 세일리언시 맵(saliency map)을 이용할 수 있다. 세일리언시 맵은 세일리언시 영역을 다른 영역과 구별하여 표현하는 맵을 의미할 수 있다. 세일리언시 영역은 비디오 프레임에서 사용자의 관심을 끄는 영역, 즉, 시각적 집중도가 높은 영역을 의미할 수 있다.
실시 예에서, 사용자 디스플레이 장치(110)는 사용자가 오디오 없이 비디오를 시청할 때 사용자의 관심을 끄는 세일리언시 영역과, 사용자가 오디오를 들으며 비디오를 시청할 때 사용자의 관심을 끄는 세일리언시 영역의 차이를 고려하여 비디오에 대한 품질 점수를 획득할 수 있다.
실시 예에서, 사용자 디스플레이 장치(110)는 오디오 프레임 없이 비디오 프레임만을 기반으로, 비디오 프레임에서 시청자의 주의를 끄는 세일리언시 영역을 나타내는 비주얼(visual) 세일리언시 맵을 획득할 수 있다.
실시 예에서, 사용자 디스플레이 장치(110)는 비주얼 세일리언시 맵과, 오디오 프레임을 함께 고려하여, 사용자가 오디오를 들으며 비디오를 시청할 때 사용자의 주의를 끄는 세일리언시 영역을 나타내는, 오디오 기반 세일리언시 맵을 획득할 수 있다.
실시 예에서, 사용자 디스플레이 장치(110)는 비디오 프레임 및 오디오 기반 세일리언시 맵으로부터 제1 품질 점수를 획득할 수 있다.
또한, 실시 예에서, 사용자 디스플레이 장치(110)는 오디오 프레임에 대한 고려 없이, 비디오 프레임만을 기반으로, 비디오 프레임에 대한 제2 품질 점수를 획득할 수 있다.
실시 예에서, 사용자 디스플레이 장치(110)는 제1 품질 점수 및 제2 품질 점수를 함께 고려하여 비디오 프레임에 대한 최종 품질 점수를 획득할 수 있다. 보다 구체적으로, 사용자 디스플레이 장치(110)는 제1 품질 점수 및 제2 품질 점수에 가중치를 적용하여 최종 품질 점수를 획득할 수 있다.
실시 예에서, 사용자 디스플레이 장치(110)는 오디오 기반 세일리언시 맵 및 디스플레이 장치 특성 정보 중 적어도 하나에 기반하여 최종 가중치를 획득할 수 있다.
사용자 디스플레이 장치(110)는 제1 품질 점수 및 제2 품질 점수에 최종 가중치를 적용하여 최종 품질 점수를 획득할 수 있다.
실시 예에서, 사용자 디스플레이 장치(110)는 각 비디오 프레임 별로 획득한 최종 품질 점수를 소정 시간 동안 누적하여 복수의 프레임들을 포함하는 비디오에 대한 최종 비디오 품질 점수를 획득할 수 있다.
실시 예에서, 사용자 디스플레이 장치(110)는 최종 비디오 품질 점수에 따라 비디오에 포함된 프레임들에 대해 화질 처리를 수행할 수 있다. 도 1에서, 사용자 디스플레이 장치(110)는 최종 비디오 품질 점수를 기반으로, 입력 비디오(120)를 출력 비디오(130)와 같이 향상시킬 수 있다. 사용자 디스플레이 장치(110)는 디스플레이를 통해 품질이 향상된 출력 비디오(130)를 출력할 수 있다.
다른 실시 예에서, 비디오 품질 평가 장치는 사용자 디스플레이 장치(110)에 포함되지 않고, 사용자 디스플레이 장치(110)와 별개의 장치로 구현될 수도 있다. 즉, 사용자 디스플레이 장치(110)는 통신망(미도시)를 통해 비디오 품질 평가 장치와 통신할 수 있다. 이 경우, 사용자 디스플레이 장치(110)는 통신망을 통해 비디오를 외부의 비디오 품질 평가 장치로 전송할 수 있다. 외부의 비디오 품질 평가 장치는 사용자 디스플레이 장치(110)로부터 복수의 프레임들을 포함하는 비디오를 수신하고, 프레임 별로 품질 점수를 획득할 수 있다.
또한, 비디오 품질 평가 장치는 사용자 디스플레이 장치(110)로부터 사용자 디스플레이 장치(110)에 포함된 디스플레이 장치 특성 정보를 수신할 수 있다. 비디오 품질 평가 장치는 디스플레이 장치 특성 정보와, 오디오 기반 세일리언시 맵으로부터 가중치를 획득하고, 이를 품질 점수에 적용하여 프레임에 대한 최종 품질 점수를 획득할 수 있다.
비디오 품질 평가 장치는 복수의 프레임들에 대한 시계열 데이터를 누적하여 전체 비디오에 대한 최종 비디오 품질 점수를 획득하고, 이를 통신망을 통해 사용자 디스플레이 장치(110)로 전송할 수 있다. 사용자 디스플레이 장치(110)는 비디오 품질 평가 장치로부터 수신한 점수에 기반하여, 비디오의 화질을 처리하여 출력할 수 있다.
또는 비디오 품질 평가 장치는 획득한 점수를 기반으로 비디오의 화질을 직접 처리한 후 이를 사용자 디스플레이 장치(110)로 전송할 수도 있다. 사용자 디스플레이 장치(110)는 비디오 품질 평가 장치로부터 수신한 개선된 화질의 비디오를 출력할 수 있다.
이와 같이, 실시 예에 의하면, 비디오 품질 평가 장치는 오디오 고려 없이 비디오만을 이용하여 비디오 프레임에 대한 품질 점수를 획득하고, 또한, 비디오와 오디오를 함께 고려하여 비디오 프레임에 대한 품질 점수를 각각 획득할 수 있다.
또한, 실시 예에 의하면, 비디오 품질 평가 장치는 오디오 고려 없이 획득한 품질 점수와 오디오를 고려하여 획득한 품질 점수에 가중치를 적용하여 최종 품질 점수를 획득할 수 있다.
따라서, 비디오 품질 평가 장치는 오디오의 유무에 따른 품질 점수의 차이를 고려할 수 있다. 또한, 비디오 품질 평가 장치는 오디오를 고려할 때의 오디오 기반 세일리언시 맵 및 디스플레이 장치 특성 정보가 최종 품질 점수에 반영되도록 할 수 있다.
도 2는 실시 예에 따른 비디오 품질 평가 장치(200)의 내부 블록도이다.
도 2를 참조하면, 비디오 품질 평가 장치(200)는 프로세서(210) 및 메모리(220)를 포함할 수 있다. 도 2의 비디오 품질 평가 장치(200)는 도 1에 도시된 사용자 디스플레이 장치(110)에 포함되거나, 또는 사용자 디스플레이 장치(110)와 통신망을 통해 연결될 수 있다.
실시 예에서, 비디오 품질 평가 장치(200)는 인공지능 기술(Artificial Intelligence, AI)을 이용하여 비디오의 품질 점수를 획득할 수 있다. 비디오 품질 평가 장치(200)는 입력 비디오에 포함된 복수의 프레임들 각각에 대해 적어도 하나의 뉴럴 네트워크를 이용하여 모델 기반 품질 점수를 획득할 수 있다.
AI 기술은 기계학습(딥 러닝) 및 기계 학습을 활용한 요소 기술들로 구성될 수 있다. AI 기술은 알고리즘을 활용하여 구현될 수 있다. 여기서, AI 기술을 구현하기 위한 알고리즘 또는 알고리즘의 집합을 신경망(Neural Network, 뉴럴 네트워크)이라 한다. 신경망은 입력 데이터를 입력 받고, 분석 및 분류를 위한 연산을 수행하여, 결과 데이터를 출력할 수 있다.
뉴럴 네트워크는 연산을 수행하는 내부의 계층이 복수 개일 수 있다. 뉴럴 네트워크는 각 계층들로부터 서로 다른 특징 맵(feature map)을 획득할 수 있다.
실시 예에서, 비디오 품질 평가 장치(200)는 비디오 품질 평가를 위해 복수개의 뉴럴 네트워크를 이용할 수 있다. 실시 예에서, 비디오 품질 평가 장치(200)가 이용하는 뉴럴 네트워크는 비디오 품질 평가를 위해 사전 훈련 된 모델일 수 있다.
실시 예에 따른 메모리(220)는, 적어도 하나의 인스트럭션을 저장할 수 있다. 메모리(220)는 프로세서(210)가 실행하는 적어도 하나의 프로그램을 저장하고 있을 수 있다.
실시 예에서, 메모리(220)에는 적어도 하나의 뉴럴 네트워크 및/또는 기 정의된 동작 규칙이나 AI 모델이 저장될 수 있다. 또한 메모리(220)는 비디오 품질 평가 장치(200)로 입력되거나 비디오 품질 평가 장치(200)로부터 출력되는 데이터를 저장할 수 있다.
메모리(220)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
실시 예에서, 비디오 품질 평가 장치(200)가 사용자 디스플레이 장치(110)에 포함되어 있는 경우, 메모리(220)에는 디스플레이 장치 특성 정보가 저장될 수 있다. 디스플레이 장치 특성 정보는, 사용자 디스플레이 장치(110)와 평가자의 디스플레이 장치 간의 차이를 보상하기 위한 정보로, 스크린 모델 매핑 정보, 스크린 설정 매핑 정보, 및 환경 정보 중 적어도 하나를 포함할 수 있다.
제조사는 사용자 디스플레이 장치(110)에 대한 디스플레이 장치 특성 정보를 획득하고 이를 사용자 디스플레이 장치(110)의 메모리에 매핑 테이블이나 매핑 함수, 룩업 테이블 형태 등으로 미리 저장할 수 있다. 또는 사용자 디스플레이 장치(110)는 제조사가 운영하는 서버 등으로부터 디스플레이 장치 특성 정보를 다운로드하여 이를 메모리(220)에 저장할 수도 있다.
비디오 품질 평가 장치(200)가 사용자 디스플레이 장치(110)에 포함되어 있지 않은 경우, 비디오 품질 평가 장치(200)는 통신망(미도시)을 통해 사용자 디스플레이 장치(110)로부터 사용자 디스플레이 장치(110)에 저장되어 있는 디스플레이 장치 특성 정보를 수신하고 이를 메모리(220)에 저장할 수 있다. 또는 비디오 품질 평가 장치(200)는 사용자 디스플레이 장치(110)에 대한 디스플레이 장치 특성 정보를 외부 서버 등으로부터 다운로드하여 이를 메모리(220)에 저장할 수도 있다.
디스플레이 장치 특성 정보는 스크린 모델 매핑 정보, 스크린 설정 매핑 정보 및 환경 정보 중 적어도 하나를 포함할 수 있다.
스크린 모델 매핑 정보는 평가자 디스플레이 장치의 스크린 모델과 사용자 디스플레이 장치(110)의 스크린 모델 차이에 따른 점수 관계를 포함할 수 있다. 스크린 모델 차이는 스크린의 사이즈 및 해상도 중 적어도 하나의 차이일 수 있다.
스크린 설정 매핑 정보는 사용자 디스플레이 장치(110)의 스크린에 대한 디폴트 설정 값과 사용자로부터 선택된 설정 값의 차이에 따른 점수 관계를 포함할 수 있다. 설정 값은 사용자 디스플레이 장치의 스크린에 대한 밝기(brightness), 대조도(contrast), 감마(gamma), 백라이트 밝기, 선명도(sharpness), 색상(Color), 색조(tint) 중 적어도 하나에 대한 값을 포함할 수 있다.
환경 정보는 평가자 디스플레이 장치 주변의 밝기와 사용자 디스플레이 장치(110) 주변의 밝기의 차이에 따른 점수 관계를 포함할 수 있다. 환경 정보는 평가자 디스플레이 장치를 이용하여 평가자가 평가를 수행할 때의 평가자의 위치와 사용자 디스플레이 장치(110)를 시청하는 사용자의 위치의 차이에 다른 점수 관계를 포함할 수 있다.
프로세서(210)는 비디오 품질 평가 장치(200)의 전반적인 동작을 제어한다. 프로세서(210)는 메모리(220)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 비디오 품질 평가 장치(200)가 기능하도록 제어할 수 있다.
실시 예에서, 프로세서(210)는 복수의 프레임을 포함하는 비디오에 대해 품질 평가를 수행할 수 있다. 실시 예에서, 프로세서(210)는 적어도 하나의 뉴럴 네트워크를 이용하여 비디오 프레임에 대한 모델 기반 품질 점수를 획득할 수 있다.
실시 예에서, 비디오 품질 평가 장치(200)에 포함된 뉴럴 네트워크는 평가자의 시선을 추적하여 얻어진 세일리언시 영역을 미리 학습한 모델일 수 있다.
실시 예에서, 비디오 품질 평가 장치(200)에 포함된 뉴럴 네트워크는 오디오를 고려하지 않고, 비디오만을 고려할 때 비디오를 바라보는 사람의 시선을 추적하여 획득한 세일리언시 맵과, 오디오와 비디오를 함께 고려할 때 비디오를 바라보는 사람의 시선에 따른 세일리언시 맵을 미리 학습한 뉴럴 네트워크일 수 있다.
실시 예에서, 비디오 품질 평가 장치(200)에 포함된 뉴럴 네트워크는 동일한 비디오에 대해, 오디오를 고려하지 않을 때와 오디오를 고려할 때 사람의 시선을 추적하여 획득한 세일리언시 맵을 각각 학습하고, 또한 두 맵 간의 차이를 학습한 뉴럴 네트워크일 수 있다.
실시 예에서, 비디오 품질 평가 장치(200)에 포함된 뉴럴 네트워크는 입력된 비디오 프레임으로부터 획득되는 평균 의견 점수(Mean Opinion Score, MOS)를 학습한 뉴럴 네트워크일 수 있다. MOS는 사람의 주관적 평가를 통해 획득되는 것으로, 다수의 평가자들이 평가한 비디오 품질에 대한 개별 매개 변수를 종합하여 획득한 평균 점수를 의미할 수 있다.
실시 예에서, 프로세서(210)는 뉴럴 네트워크를 이용하여, 오디오를 고려했을 때의 세일리언시 영역을 반영한 제1 품질 점수를 획득할 수 있다. 보다 구체적으로, 프로세서(210)는 비디오 프레임 및 비디오 프레임과 동기화되어 함께 출력되는 오디오 프레임을 고려하여, 비디오 프레임에서 시청자의 주의를 끄는 세일리언시(saliency) 영역을 나타내는 오디오 기반 세일리언시 맵을 획득할 수 있다. 실시 예에서, 프로세서(210)는 뉴럴 네트워크를 이용하여 오디오 기반 세일리언시 맵을 고려하여, 비디오 프레임에 대한 제1 품질 점수를 획득할 수 있다.
또한, 실시 예에서, 프로세서(210)는 뉴럴 네트워크를 이용하여, 오디오를 고려하지 않고, 비디오만을 고려하여 비디오 프레임에 대한 제2 품질 점수를 획득할 수 있다.
실시 예에서, 프로세서(210)는 오디오 기반 세일리언시 맵 및 디스플레이 장치 특성 정보 중 적어도 하나에 기반하여 가중치를 획득할 수 있다.
실시 예에서, 프로세서(210)는 가중치를 획득하기 위해, 비디오와 오디오를 함께 고려할 때 획득되는 오디오 기반 세일리언시 맵으로부터 세일리언시 영역의 통계학적 특성을 획득할 수 있다. 실시 예에서, 프로세서(210)는 세일리언시 영역의 통계학적 특성으로부터 제1 가중치를 획득할 수 있다. 세일리언시 영역의 통계학적 특성은 오디오 기반 세일리언시 맵으로부터 획득한 세일리언시 영역의 산포도(spread) 및 중심경향치(central tendency) 중 적어도 하나일 수 있다.
실시 예에서, 프로세서(210)는 디스플레이 장치 특성 정보로부터 제2 가중치를 획득할 수 있다. 디스플레이 장치 특성 정보는, 사용자 디스플레이 장치(110)와 평가자의 디스플레이 장치 간의 서로 다른 스크린 사양이나 스크린 파라미터 설정 값, 주변 환경 등에 따른 차이를 보상하기 위한 정보를 의미할 수 있다. 디스플레이 장치 특성 정보는 스크린 모델에 따른 매핑 정보, 스크린 설정에 따른 매핑 정보, 환경 정보 중 적어도 하나를 포함할 수 있다.
실시 예에서, 프로세서(210)는 디스플레이 장치 특성 정보로부터 제2 가중치를 획득할 수 있다. 프로세서(210)는 제1 가중치 및 제2 가중치 중 적어도 하나를 이용하여 최종 가중치를 획득할 수 있다.
실시 예에서, 프로세서(210)는 제1 품질 점수 및 제2 품질 점수에 최종 가중치를 적용할 수 있다. 예컨대, 프로세서(210)는 최종 가중치를 이용하여 제1 품질 점수와 제2 품질 점수의 가중합을 획득함으로써 비디오 프레임에 대한 최종 품질 점수를 획득할 수 있다.
이와 같이, 실시 예에 따르면, 비디오 품질 평가 장치(200)는 뉴럴 네트워크를 이용하여 동일한 비디오 프레임에 대해 오디오 유무에 따른 제1 품질 점수 및 제2 품질 점수를 각각 획득하고, 이로부터 최종 품질 점수를 획득할 수 있다.
또한, 실시 예에 따르면, 비디오 품질 평가 장치(200)는 최종 가중치를 구하고 이를 제1 품질 점수 및 제2 품질 점수에 적용하여, 비디오 프레임에 대한 최종 품질 점수를 획득함으로써, 오디오 유무에 따른 비디오 프레임의 품질 점수를 함께 고려할 수 있다.
또한, 실시 예에 의하면, 비디오 품질 평가 장치(200)는 오디오 기반 세일리언시 맵의 통계학적 특성과, 디스플레이 장치 특성 정보를 통해 획득한 최종 가중치가 제1 품질 점수 및 제2 품질 점수에 반영되도록 함으로써 최종 품질 점수를 획득할 수 있다.
도 3은 실시 예에 따른, 도2의 프로세서(210)의 내부 블록도이다.
도 3을 참조하면, 프로세서(210)는 제1 품질 점수 획득부(211), 제2 품질 점수 획득부(213) 및 최종 품질 점수 획득부(215)를 포함할 수 있다.
실시 예에서, 제1 품질 점수 획득부(211)는 비디오 프레임에 대해 제1 품질 점수를 획득할 수 있다. 제1 품질 점수는 비디오 프레임 및 비디오 프레임과 함께 동기화되어 출력되는 오디오 프레임을 함께 고려할 때 획득되는 품질 점수일 수 있다. 보다 구체적으로, 제1 품질 점수는, 비디오 프레임과 오디오 프레임이 함께 고려될 때 사용자의 주의를 끄는 오디오 기반 세일리언시 영역을 반영하여 획득되는 비디오 프레임에 대한 품질 점수일 수 있다.
실시 예에서, 제1 품질 점수 획득부(211)는 오디오 프레임에 대한 고려 없이, 비디오 프레임만 고려할 때 비디오 프레임에서 시청자의 주의를 끄는 세일리언시 영역을 나타내는 비주얼(visual) 세일리언시 맵을 획득할 수 있다. 보다 구체적으로, 제1 품질 점수 획득부(211)는 제1 뉴럴 네트워크를 이용하여, 비디오 프레임으로부터 다양한 특징들을 획득하고 이를 기반으로 비주얼 세일리언시 맵을 획득할 수 있다. 비주얼 세일리언시 맵은, 오디오에 대한 고려 없이, 비디오 프레임만을 보고 획득된 세일리언시 맵을 의미할 수 있다.
실시 예에서, 제1 품질 점수 획득부(211)는 오디오 프레임 및 비주얼 세일리언시 맵으로부터 오디오 기반 세일리언시 맵을 획득할 수 있다. 제1 품질 점수 획득부(211)는 제2 뉴럴 네트워크를 이용하여, 오디오 프레임 및 제1 뉴럴 네트워크가 획득한 비주얼 세일리언시 맵을 입력 받고, 그로부터 오디오 기반(audio-based) 세일리언시 맵을 획득할 수 있다. 오디오 기반 세일리언시 맵은 비디오와 오디오를 함께 고려할 때의 시청자의 관심을 끄는 영역을 표현하는 세일리언시 맵을 의미할 수 있다.
실시 예에서, 제1 품질 점수 획득부(211)가 이용하는 제2 뉴럴 네트워크는 오디오 신호를 고려할 때와 오디오 신호를 고려하지 않을 때의 세일리언시 영역의 차이를 학습한 뉴럴 네트워크일 수 있다. 또한, 제2 뉴럴 네트워크는 오디오 신호를 고려할 때, 오디오 신호의 특성에 따라 달라지는 세일리언시 영역을 학습한 뉴럴 네트워크일 수 있다. 제2 뉴럴 네트워크는 오디오 프레임으로부터 오디오 신호의 특성을 획득하고, 획득한 오디오 신호의 특성을 고려하여 오디오 기반 세일리언시 맵을 획득할 수 있다.
실시 예에서, 오디오 신호의 특성은 오디오의 장르(genre), 주제(theme), 볼륨(volume), 해상도(resolution), 정보량(entropy), 선명도(sharpness), 다이나믹스(dynamics), 대역 밸런스(tonal balance), 음색(tone color), 위상(phase), 음상(sound image), 음장(sound staging), 임장감(presence) 중 적어도 하나를 포함할 수 있다.
실시 예에서, 제1 품질 점수 획득부(211)는 제3 뉴럴 네트워크를 이용하여, 오디오 기반 세일리언시 맵과, 비디오 프레임을 입력 받고, 그로부터 제1 품질 점수를 획득할 수 있다. 제3 뉴럴 네트워크는 비디오 프레임 및 오디오 기반 세일리언시 맵으로부터 특징 벡터를 획득하고, 특징 벡터와 평균 의견 점수(Mean Opinion Score, MOS)간의 상관 관계를 미리 학습한 뉴럴 네트워크일 수 있다.
실시 예에서, 제2 품질 점수 획득부(213)는 제4 뉴럴 네트워크를 이용하여, 비디오 프레임에 대한 제2 품질 점수를 획득할 수 있다. 제2 품질 점수 획득부(213)는 오디오에 대한 고려 없이, 또한, 세일리언시 맵 고려 없이, 비디오 프레임 전체에 대한 품질 평가를 수행할 수 있다. 따라서, 제2 품질 점수 획득부(213)가 제4 뉴럴 네트워크를 이용하여 비디오 프레임에 대해 획득하는 품질 점수는 오디오를 고려하여 획득되는 제1 품질 점수와 구별될 수 있다.
실시 예에서, 제4 뉴럴 네트워크는 비디오에 대한 특징 벡터와 평균 의견 점수 간의 상관 관계를 미리 학습한 뉴럴 네트워크일 수 있다. 실시 예에서, 제4 뉴럴 네트워크가 비디오로부터 획득하는 특징 벡터는 블러 관련 특징, 모션 관련 특징, 컨텐트 관련 특징, 딥 특징, 통계적인 특징, 개념적인 특징, 공간적인 특징, 변형된 도메인 특징 중 적어도 하나를 포함할 수 있다.
실시 예에서, 제4 뉴럴 네트워크는 비디오 프레임으로부터 품질 점수에 영향을 줄 수 있는 요인과 관련된 하나 이상의 정보를 획득할 수 있다. 실시 예에서, 품질 점수에 영향을 줄 수 있는 요인은 비디오 프레임에 포함된 오브젝트가 전경(foreground)인지 배경(background)인지에 대한 정보, 비디오의 장르에 대한 정보, 오브젝트의 시맨틱(semantic) 정보, 오브젝트의 위치 정보, 컨텐트 정보 중 적어도 하나를 포함할 수 있다.
사람은 전경에 있는 오브젝트의 왜곡 정도를 후경에 있는 오브젝트의 왜곡 정도보다 크게 인식하는 경향이 있다. 또한, 사람은 비디오 프레임이 속한 장르가 무엇인지에 따라 왜곡의 정도를 다르게 인식하는 경향이 있다. 예컨대, 사람은 움직임이 많고 그 움직임에 집중을 요하는 스포츠 경기와 정적인 화면에 동일한 왜곡이 포함되어 있어도, 스포츠 경기에 포함된 왜곡을 더 크게 인식하는 경향이 있다. 사람의 이러한 인식은 품질 점수에 영향을 줄 수 있다.
또한, 사람은 비디오를 볼 때 화면의 중앙 부분을 가장자리 부분보다 더 많이 보는 경향이 있으므로, 중앙 부분에 왜곡이 있는 비디오 프레임과 가장자리 부분에 왜곡이 있는 프레임에서 왜곡의 정도를 다르게 인식하게 된다.
또한, 사람은 프레임에 포함된 오브젝트의 시맨틱(semantic) 정보를 고려하여 비디오를 보는 경향이 있다. 이는 해당 비디오 프레임에 포함된 오브젝트가 무엇인지에 따라, 즉, 그 오브젝트가 프레임에서 갖는 의미에 따라 오브젝트의 왜곡을 인식하는 정도가 달라질 수 있음을 의미한다.
실시 예에서, 제2 품질 점수 획득부(213)는 제4 뉴럴 네트워크를 이용하여 품질 점수에 영향을 줄 수 있는 요인과 관련된 하나 이상의 정보를 서브 영역 별로 획득하고, 이로부터 비디오 프레임 전체에 대한 모델 기반 품질 점수를 제2 품질 점수로 획득할 수 있다.
실시 예에서, 최종 품질 점수 획득부(215)는 제1 품질 점수 획득부(211)가 획득한 제1 품질 점수와, 제2 품질 점수 획득부(213)가 획득한 제2 품질 점수를 기반으로 최종 품질 점수를 획득할 수 있다. 실시 예에서, 최종 품질 점수 획득부(215)는 제1 품질 점수와 제2 품질 점수에 가중치를 부여함으로써, 비디오 프레임에 대한 최종 품질 점수를 획득할 수 있다.
도 4는 실시 예에 따른, 도 3의 제1 품질 점수 획득부(211)의 내부 블록도이다.
실시 예에서, 제1 품질 점수 획득부(211)는 오디오 기반 세일리언시 맵을 고려하여 비디오 프레임(411)에 대한 제1 품질 점수를 획득할 수 있다.
도 4를 참조하면, 제1 품질 점수 획득부(211)는 비주얼 세일리언시 맵 획득부(410), 오디오 기반 세일리언시 맵 획득부(420) 및 품질 점수 획득부(430)를 포함할 수 있다.
비주얼 세일리언시 맵 획득부(410)는 비디오 프레임(411)을 입력 받을 수 있다. 실시 예에서, 비주얼 세일리언시 맵 획득부(410)는 제1 뉴럴 네트워크를 이용하여, 비디오 프레임(411)으로부터 다양한 특징들을 획득하고 이를 기반으로 비주얼 세일리언시 맵(413)을 획득할 수 있다.
실시 예에서, 비주얼 세일리언시 맵 획득부(410)에 포함된 제1 뉴럴 네트워크는 입력 데이터를 분석 및 분류하여 입력된 데이터로부터 시청자의 주의를 끄는 세일리언시 영역을 나타내는 세일리언시 맵을 추출하도록 학습된 모델일 수 있다.
실시 예에서, 제1 뉴럴 네트워크는 입력된 비디오 프레임으로부터 세일리언시 맵을 획득하도록 학습된 뉴럴 네트워크일 수 있다. 예컨대, 제1 뉴럴 네트워크는 입력된 비디오 프레임에 포함된 픽셀들 각각 또는 유사한 특징을 갖는 복수 픽셀들을 포함하는 픽셀 그룹의 색 변화나 분포, 엣지(edges), 공간 주파수, 구조, 분포, 히스토그램, 텍스쳐(texture) 등을 고려하여 입력된 비디오 프레임에 대한 세일리언시 맵을 획득하도록 학습된 뉴럴 네트워크일 수 있다.
또한, 실시 예에서, 제1 뉴럴 네트워크는 오디오 프레임 고려 없이, 비디오 프레임만을 고려할 때, 비디오 프레임에 대한 사용자의 시선을 추적하여 사용자의 주의를 끄는 비주얼 세일리언시 영역이 어디인가를 미리 학습한 뉴럴 네트워크일 수 있다.
제1 뉴럴 네트워크는 입력된 비디오 프레임(411)에서 특징을 추출하는 알고리즘, 또는 알고리즘의 집합, 알고리즘의 집합을 실행하는 소프트웨어 및/또는 알고리집의 집합을 실행하는 하드웨어일 수 있다. 제1 뉴럴 네트워크는 입력된 비디오 프레임(411)으로부터 획득한 특징들을 기반으로, 비주얼 세일리언시 맵(413)을 획득할 수 있다.
도 4에 도시된 바와 같이, 실시 예에서, 비주얼 세일리언시 맵(413)은 하얀색과 검정색으로 표현될 수 있다. 도 4의 비주얼 세일리언시 맵(413)은 하나의 실시 예로, 사용자가 비디오 프레임(411)을 볼 때 사용자의 시선을 끄는 영역은 하얀 색으로 표현되고, 사용자의 시선을 끌지 않는 나머지 영역은 검정 색으로 표현된 것을 도시한다.
도 4의 비주얼 세일리언시 맵(413)에 도시된 바와 같이, 오디오 프레임(415)를 고려하지 않고, 비디오 프레임(411)만을 고려했을 때, 사용자의 시선은 비디오 프레임(411) 내에 포함된 두 사람을 주로 향하고 있음을 알 수 있다.
실시 예에서, 오디오 기반 세일리언시 맵 획득부(420)는 제2 뉴럴 네트워크를 이용하여, 오디오 기반(audio-based) 세일리언시 맵을 획득할 수 있다.
실시 예에서, 제2 뉴럴 네트워크 또한 제1 뉴럴 네트워크와 마찬가지로 입력 데이터를 분석 및 분류하여 입력된 데이터로부터 시청자의 주의를 끄는 세일리언시 영역을 나타내는 세일리언시 맵을 추출하도록 학습된 모델일 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 학습 단계에서, 제1 뉴럴 네트워크와는 달리, 비디오 프레임과 오디오 프레임을 함께 입력 받고 입력된 비디오 프레임과 오디오 프레임의 특징을 분석 및 분류하여, 비디오 프레임에 대한 사용자의 시선을 추적하여 사용자의 주의를 끄는 오디오 기반 세일리언시 영역이 어디인가를 학습한 뉴럴 네트워크일 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 동일한 비디오 프레임에 대해, 오디오 프레임이 있을 때와 오디오 프레임이 없을 때, 비디오 프레임에 대해 획득되는 세일리언시 맵의 차이를 미리 학습할 수 있다. 즉, 제2 뉴럴 네트워크는 비주얼 세일리언시 맵과 오디오 기반 세일리언시 맵의 차이를 미리 학습한 뉴럴 네트워크일 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 비주얼 세일리언시 맵 획득부(410)로부터 받은 비주얼 세일리언시 맵(413)과, 비디오 프레임(411)과 동기화되어 출력되는 오디오 프레임(415)을 입력 받고, 그로부터 오디오 프레임(415)이 비디오 프레임(411)과 함께 출력될 때 사용자의 관심 영역을 고려한 오디오 기반 세일리언시 맵(417)을 획득할 수 있다.
도 4에서, 하나의 실시 예로, 비디오 프레임(411)과 함께 출력되는 오디오 프레임(415)이 폭발음을 포함하는 경우를 가정한다. 도 4에서, 오디오 기반 세일리언시 맵(417)은 비주얼 세일리언시 맵(413)과 달리, 비디오 프레임(411) 내의 두 사람뿐 아니라, 두 사람 뒤의 폭발 장면 또한 하얗게 표현된 것을 알 수 있다. 이는, 사용자가 폭발음을 포함하는 오디오 프레임(415)을 들으면서 비디오 프레임(411)을 보는 경우, 비디오 프레임(411)에 포함된 두 명의 사람만을 보지 않고, 두 사람 뒤의 폭발 장면까지 함께 보는 것을 의미할 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 오디오 프레임(415)을 이용하여 비주얼 세일리언시 맵(413)을 수정함으로써 오디오 기반 세일리언시 맵(417)을 획득할 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 오디오 프레임이 입력 될 때, 오디오 프레임을 분석 및 분류하여, 오디오의 특성을 추출하는 알고리즘, 또는 알고리즘의 집합, 알고리즘의 집합을 실행하는 소프트웨어 및/또는 알고리집의 집합을 실행하는 하드웨어일 수 있다. 제2 뉴럴 네트워크는 오디오 프레임으로부터 획득한 오디오 프레임의 특성을 고려하여, 비주얼 세일리언시 맵을 오디오 기반 세일리언시 맵으로 수정할 수 있다.
실시 예에서, 오디오 신호의 특성은 오디오 장르(genre), 볼륨(volume), 해상도(resolution), 정보량(entropy), 선명도(sharpness), 다이나믹스(dynamics), 대역 밸런스(tonal balance), 음색(tone color), 위상(phase), 음상(sound image), 음장(sound staging), 임장감(presence) 중 적어도 하나를 포함할 수 있다.
오디오 장르는 오디오의 특색에 따라 오디오를 오케스트라, 피아노, 재즈, 보컬 등으로 구분하는 정보이거나, 또는 오디오를 클래식(classic), 힙팝(hiphop), 재즈(jazz), 락(rock), 음성(speech), 동물소리, 기계소리, 악기소리, 폭풍우나 지진 소리, 폭발음 소리, 등으로 구분하는 정보일 수 있다. 오디오 장르가 무엇인지에 따라 사용자의 관심 영역은 달라질 수 있다. 예컨대, 비디오 프레임에 강아지와 사람이 함께 포함되어 있는 경우, 오디오가 배경음인지, 사람의 음성인지, 또는 강아지가 짖는 소리인지 등에 따라 비디오를 시청하는 사용자의 관심 영역은 달라질 수 있다.
오디오 볼륨은 소리의 크기를 나타낼 수 있다. 소리의 크기에 따라 비디오를 시청하는 사용자의 관심 영역은 달라질 수 있다. 예컨대, 도 4에 도시된 비디오 프레임(411)에서 폭발음의 크기가 클수록 사용자의 관심 영역을 폭발 장면을 더 많이 포함하게 된다.
유사하게, 오디오 특성은 다양한 요인들을 포함할 수 있다.
오디오 특성 중, 오디오 해상도는 미세한 소리를 얼마나 선명히 표현하는지를 의미할 수 있다. 오디오 해상도는 소리의 주파수 대역의 분포 정도에 따라 달라질 수 있다.
오디오 정보량은 소스가 얼마나 많은 데이터를 가지고 있는지를 의미할 수 있다. 오디오 정보량이 많을수록 소리가 풍부하고 자연스럽게 표현될 수 있다.
오디오 선명도는 오디오 해상도와 밀접한 관계를 가지며, 소리가 또렷한 정도를 의미할 수 있다. 선명도는 소리의 특성을 자세히 표현하는 정보로, 선명도가 지나치면 소리가 날카로워지고, 선명도가 낮으면 음질을 구분하기 힘들어질 수 있다.
오디오 다이나믹스는 짧은 시간에 음의 강약을 원활하게 재생하는 능력을 의미할 수 있다. 오디오 다이나믹스가 뛰어나면 악기의 실재감이 커지게 된다.
오디오 대역 밸런스는 스피커가 가청 주파수 대역을 나누어 재생할 때, 나누는 대역간의 밸런스를 의미할 수 있다.
오디오 음색은 오디오의 전체적인 소리의 어두움이나 가벼움, 울림 등의 특징을 표현할 수 있다.
오디오 위상은 소리가 귀에 도달하는 시간과 관련된 지표를 의미할 수 있다.
오디오 음상은 오디오가 모노 신호인지, 스테레오 신호인지, 또는 3차원 효과를 갖는 입체음인지 등을 의미할 수 있다.
오디오 음장은 오디오가 그려내는 입체적인 가장 공간의 크기와 모양을 의미할 수 있다.
오디오 임장감은 실제 공연장과 같은 느낌을 주는 요소를 의미할 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 상술한, 오디오 장르나 볼륨, 소리 음색 등과 같이 다양한 오디오 특성에 따라 달라지는 사용자의 관심 영역을 미리 학습한 뉴럴 네트워크일 수 있다. 학습이 끝난 후, 제2 뉴럴 네트워크는 입력된 오디오 신호로부터 오디오 신호의 다양한 특성들을 획득하고, 특성들과 관련된 세일리언시 영역을 획득하여, 오디오 기반 세일리언시 맵을 획득할 수 있다.
실시 예에서, 품질 점수 획득부(430)는 제3 뉴럴 네트워크를 이용하여, 오디오 기반 세일리언시 맵(417)와 비디오 프레임(411)을 입력 받고, 그로부터 제1 품질 점수를 획득할 수 있다.
실시 예에서, 제3 뉴럴 네트워크는 비디오 프레임 및 오디오 기반 세일리언시 맵에서 특징을 추출하는 알고리즘, 또는 알고리즘의 집합, 알고리즘의 집합을 실행하는 소프트웨어 및/또는 알고리집의 집합을 실행하는 하드웨어일 수 있다. 제3 뉴럴 네트워크는 비디오 프레임 및 오디오 기반 세일리언시 맵으로부터 특징 벡터를 획득하고, 특징 벡터와 평균 의견 점수간의 상관 관계를 미리 학습한 뉴럴 네트워크일 수 있다.
제3 뉴럴 네트워크는 입력된 비디오 프레임(411) 및 오디오 기반 세일리언시 맵(417)으로부터 획득한 특징들을 기반으로, 비디오 프레임(411)에 대한 제1 품질 점수를 획득할 수 있다.
도 5는 실시 예에 따른, 도 3의 최종 품질 점수 획득부(215)의 내부 블록도이다.
도 5를 참조하면, 최종 품질 점수 획득부(215)는 제1 가중치 획득부(510), 제2 가중치 획득부(520), 최종 가중치 획득부(530) 및 최종 가중치 적용부(540)를 포함할 수 있다.
실시 예에서, 제1 가중치 획득부(510)는 오디오를 고려할 때 시청자의 관심을 끄는 세일리언시 영역에 대한 품질 점수가 최종 품질 점수에 미치는 영향을 나타내는 제1 가중치를 획득할 수 있다.
실시 예에서, 제1 가중치 획득부(510)는 펑션(function)을 이용하거나, 또는 뉴럴 네트워크를 이용하여, 오디오 기반 세일리언시 맵으로부터 제1 가중치를 획득할 수 있다.
오디오를 고려할 때의 세일리언시 영역에 대한 품질 점수와 최종 품질 점수 간의 관련성을 알기 위해서는 소정의 실험을 통해 미리 데이터를 준비하는 과정이 선행되어야 한다. 이를 위해, 평가자는 오디오 기반 세일리언시 맵 영역에만 왜곡이 포함된 비디오 프레임과, 오디오 기반 세일리언시 맵 영역뿐 아니라 다른 영역에도 왜곡이 포함된 비디오 프레임을 각각 평가할 수 있다.
이하, 도 6을 참조하여, 제1 가중치 획득부(510)가 제1 가중치를 획득하기 위해, 소정의 실험을 통해 학습 데이터를 준비하는 내용을 설명하기로 한다.
도 6은 실시 예에 따라 오디오 기반 세일리언시 맵으로부터 제1 가중치를 획득하는 것을 설명하기 위한 도면이다.
도 6에서, 제1 비디오 프레임(610)은 왜곡이 없는 깨끗한 비디오 프레임을 도시한다. 참조 부호 620은 제1 비디오 프레임(610)으로부터 획득한 오디오 기반 세일리언시 맵(620)을 도시한다.
전술한 바와 같이, 실시 예에서, 오디오 기반 세일리언시 맵(620)은 뉴럴 네트워크를 이용하여 획득될 수 있다. 오디오 기반 세일리언시 맵(620)은 비디오 프레임 외에 오디오 프레임도 고려하여, 비디오 프레임과 오디오 프레임을 분석 및 분류하여, 비디오 프레임에 대한 사용자의 시선을 추적하여 사용자의 주의를 끄는 오디오 기반 세일리언시 영역이 어디인가를 학습한 뉴럴 네트워크를 이용하여 획득될 수 있다.
실시 예에서, 오디오 기반 세일리언시 맵(620)은 비주얼 세일리언시 맵과, 오디오 프레임을 입력 받고, 그로부터 오디오 프레임이 함께 출력될 때 사용자의 관심 영역의 변화를 학습한 뉴럴 네트워크를 이용하여 획득될 수 있다.
도 6에서, 오디오 기반 세일리언시 맵(620)은 동물의 부리와 눈, 앞치마, 나뭇잎 일부 등은 하얀색이고 나머지는 검정색인 것을 알 수 있다. 이는 오디오를 고려하여 비디오를 볼 때 사용자의 시선을 끄는 영역이 동물의 부리와 눈, 앞치마 등이라는 것을 의미할 수 있다.
소정 실험에서, 평가자는 오디오 프레임과 비디오 프레임을 함께 고려하여, 오디오 기반 세일리언시 맵 영역에만 왜곡이 포함된 비디오 프레임에 대해 평가할 수 있다.
도 6에서, 제2 비디오 프레임(630)은 제1 비디오 프레임(610)에서, 오디오 기반 세일리언시 영역에만 왜곡이 추가된 프레임을 도시한다. 도 6에 도시된 바와 같이, 제2 비디오 프레임(630)은 오디오 기반 세일리언시 맵(620)으로부터 사용자의 관심을 끄는 오디오 기반 세일리언시 영역인 동물의 부리, 눈, 앞치마, 나뭇잎 등에만 왜곡을 포함하고 있음을 알 수 있다. 평가자는 오디오 프레임과 제2 비디오 프레임(630)을 함께 고려하여, 오디오 기반 세일리언시 영역에만 왜곡이 포함된 제2 비디오 프레임(630)에 대해 평가할 수 있다.
또한, 평가자는 오디오 프레임을 고려하지 않고 비디오 프레임만을 고려하여, 전체 프레임에 왜곡이 포함된 비디오 프레임을 평가할 수 있다.
도 6에서, 제3 비디오 프레임(640)은 제1 비디오 프레임(610) 전체에 왜곡이 포함된 경우를 도시한다. 제3 비디오 프레임(640)은 오디오 기반 세일리언시 영역에 대한 고려 없이, 제1 비디오 프레임(610) 전체에 왜곡을 가하여 획득될 수 있다.
평가자는 오디오 프레임에 대한 고려 없이, 제3 비디오 프레임(640) 만을 고려하여, 제3 비디오 프레임(640)에 대해 평가할 수 있다.
복수의 평가자들이 오디오 기반 세일리언시 맵 영역에만 왜곡이 포함된 제2 비디오 프레임(630)에 대해 평가한 평가 점수를 제1 MOS, 전체 영역에 왜곡이 포함된 제3 비디오 프레임(640)에 대한 평가 점수를 제2 MOS라고 하면, 제1 MOS와 제2 MOS는 동일하지 않을 수 있다. 이는 오디오 프레임을 고려할 때와 오디오 프레임을 고려하지 않을 때 평가자의 시선을 끄는 세일리언시 영역이 달라지게 되기 때문이다. 즉, 오디오 프레임을 고려할 때 평가자의 시선이 위치하는 오디오 기반 세일리언시 맵 영역에 왜곡이 포함된 경우, 평가자가 그 영역에 포함된 왜곡을 다른 영역에 포함된 왜곡보다 더 크게 인식하게 된다.
다시, 도 5로 돌아와서, 실시 예에서, 제1 가중치 획득부(510)는 전체 비디오 프레임에 왜곡이 포함된 경우와 오디오 기반 세일리언시 맵 영역에만 왜곡이 포함된 경우의 MOS 값 간의 상관 관계를 고려하여 가중치 펑션을 생성할 수 있다. 또는 제1 가중치 획득부(510)는 전체 비디오 프레임에 왜곡이 포함된 경우와 오디오 기반 세일리언시 맵 영역에만 왜곡이 포함된 경우의 각각의 MOS 값 및 두 MOS 값 간의 상관 관계를 학습한 뉴럴 네트워크를 이용할 수 있다.
제1 가중치 획득부(510)는 가중치 펑션이나 뉴럴 네트워크를 이용하여 오디오 기반 세일리언시 맵으로부터 오디오를 고려할 때 시청자의 관심을 끄는 세일리언시 영역에 대한 품질 점수가 최종 품질 점수에 미치는 영향을 나타내는 제1 가중치를 획득할 수 있다.
또한, 오디오 기반 세일리언시 맵의 영역에만 왜곡이 포함된 경우에도, 오디오 기반 세일리언시 맵의 통계적 특성에 따라 평가자의 평가 점수는 달라질 수 있다. 예컨대, 오디오 기반 세일리언시 맵의 영역이 전체 비디오 프레임에서 80 퍼센트를 차지하는 경우와 20퍼센트를 차지하는 경우, 오디오 기반 세일리언시 맵 영역에 포함된 왜곡에 대한 평가자의 왜곡 인식 정도는 달라질 수 있다. 또한, 오디오 기반 세일리언시 맵의 영역의 분포에 따라 평가자의 평가 점수는 달라질 수 있다. 예컨대, 오디오 기반 세일리언시 맵의 영역이 프레임 전반에 걸쳐 흩어져 있을 때 평가자가 프레임 전반에 걸쳐 흩어져 있는 왜곡을 인식하는 정도보다 오디오 기반 세일리언시 맵의 영역이 특정 위치에 집중되어 있는 경우 평가자는 그 특정 위치에 포함된 왜곡을 더 크게 인식하게 된다.
제1 가중치 획득부(510)는 오디오 기반 세일리언시 맵을 기반으로 가중치 펑션을 생성할 수 있다. 가중치 펑션은 전체 비디오 프레임에 왜곡이 포함된 경우와 오디오 기반 세일리언시 맵 영역에만 왜곡이 포함된 경우의 각각의 MOS 값 간의 상관 관계에 따라 가중치를 구하는 함수일 수 있다.
가중치 펑션은 오디오 기반 세일리언시 맵을 기반으로 세일리언시 영역의 통계학적 특성을 고려한 함수일 수 있다. 세일리언시 영역의 통계학적 특성은 오디오 기반 세일리언시 맵에 포함된 세일리언시 영역이 비디오 프레임에 포함된 비율(proportion), 세일리언시 영역의 산포도(spread) 및 중심 경향치(central tendency) 중 적어도 하나일 수 있다.
예컨대, 가중치 펑션은 비디오 프레임의 몇 퍼센트가 세일리언시 영역인지를 고려한 함수일 수 있다. 가중치 펑션은 비디오 프레임 내에 포함된 오디오 기반 세일리언시 영역의 집중도(concentration)나 중심 경향치(central tendency), 또는 산포도(spread) 등을 고려한 함수일 수 있다. 세일리언시 영역의 집중도 내지 중심 경향치는 세일리언시 영역이 얼마나 집중되어 있는지를 나타낸 것으로, 평균 값, 최빈값, 중앙값 중 적어도 하나로 표현될 수 있다. 세일리언시 영역의 산포도는 세일리언시 영역이 얼마나, 및/또는 어떻게 퍼져있는지를 나타낸 것으로, 범위, 사분위간 범위(interquartile range), 분산, 표준 편차, 절대 편차 중 적어도 하나로 표현될 수 있다.
가중치 펑션은 오디오 기반 세일리언시 맵으로부터 추출된 하나 이상의 이러한 특징 또는 통계와 평가자들의 MOS 값 간의 관계를 기반으로 가중치를 구하는, 통계적 곡선 피팅 함수(statistical curve fitting function)일 수 있다.
실시 예에서, 제1 가중치 획득부(510)는 가중치 펑션 대신 뉴럴 네트워크를 이용하여 제1 가중치를 획득할 수도 있다. 이 경우, 제1 가중치 획득부(510)가 이용하는 뉴럴 네트워크는 오디오 기반 세일리언시 맵 영역에만 왜곡이 포함된 비디오 프레임과, 전체 비디오 프레임에 왜곡이 포함된 비디오 프레임에 대한 평가자들의 MOS 값을 미리 학습할 수 있다. 뉴럴 네트워크는 전체 비디오 프레임에 왜곡이 포함된 경우와 오디오 기반 세일리언시 맵 영역에만 왜곡이 포함된 경우의 MOS 값의 차이를 학습하고, MOS 값의 차이를 고려하여 가중치를 획득하도록 학습될 수 있다. 또한, 제1 가중치 획득부(510)가 이용하는 뉴럴 네트워크는 오디오 기반 세일리언시 맵으로부터 오디오 기반 세일리언시 맵의 여러 특징들을 획득하고, 이러한 특징들로부터 제1 가중치를 획득하도록 학습될 수 있다.
실시 예에서, 제1 가중치 획득부(510)는 가중치 펑션 또는 뉴럴 네트워크를 이용하여, 오디오 기반 세일리언시 맵으로부터 제1 가중치를 획득할 수 있다.
실시 예에서, 제1 가중치 획득부(510)는 비디오 프레임을 서브 영역들로 나누고, 각 서브 영역 별로 제1 가중치를 획득할 수 있다. 제1 가중치 획득부(510)는 서브 영역 별로 획득한 제1 가중치를 최종 가중치 획득부(530)로 전송할 수 있다.
실시 예에서, 제2 가중치 획득부(520)는 디스플레이 장치 특성 정보를 기반으로 제2 가중치를 획득할 수 있다. 제2 가중치 획득부(520)는 비디오 품질 평가 장치(200)에 기 저장되어 있는 디스플레이 장치 특성 정보를 추출하고, 이를 기반으로 제2 가중치를 획득할 수 있다. 디스플레이 장치의 특성 정보는 스크린 모델 매핑 정보, 스크린 설정 매핑 정보, 및 환경 정보 중 적어도 하나를 포함할 수 있다.
전술한 바와 같이, 비디오 품질 평가 장치(200)는 복수개의 뉴럴 네트워크를 이용하여 비디오를 평가함으로써 제1 품질 점수 및 제2 품질 점수를 획득할 수 있다. 이 때, 비디오 품질 평가 장치(200)가 이용하는 뉴럴 네트워크는 비디오 품질 평가를 위해 입력된 데이터로부터 MOS를 획득하도록 사전 훈련 된 모델일 수 있다. 이 때 뉴럴 네트워크가 학습한 MOS는 특정 환경에서, 특정한 모델의 스크린을 갖는 평가자 디스플레이 장치를 이용하여 획득된 것일 수 있다. 그러나, 실제 사용자가 이용하는 사용자 디스플레이 장치(110)는 평가자 디스플레이 장치와는 여러 사양이 다를 수 있다.
실시 예에서, 제2 가중치 획득부(520)는 평가자 디스플레이 장치와 실제 사용자가 이용하는 사용자 디스플레이 장치(110)의 특성 정보 차이를 보상하기 위해 제2 가중치를 생성할 수 있다.
실시 예에서, 제2 가중치 획득부(520)는 평가자 디스플레이 장치와 사용자 디스플레이 장치(110)의 스크린 모델에 따른 화면 사이즈나 해상도 차이, 사용자 디스플레이 장치(110)의 스크린 설정 값의 차이, 주변 환경의 차이 등을 고려하여 제2 가중치를 획득할 수 있다.
실시 예에서, 제2 가중치 획득부(520)는 비디오 프레임을 복수의 서브 영역들로 나누고, 각 서브 영역 별로 제2 가중치를 획득할 수 있다.
실시 예에서, 최종 가중치 획득부(530)는 제1 가중치 획득부(510) 및 제2 가중치 획득부(520)가 각각 획득한 제1 가중치 및 제2 가중치를 이용하여 최종 가중치를 획득할 수 있다. 예컨대, 최종 가중치 획득부(530)는 제1 가중치 획득부(510)가 획득한 서브 영역 별 제1 가중치와 제2 가중치 획득부(520)가 획득한 서브 영역 별 제2 가중치를 각각 곱하여 서브 영역 별 최종 가중치를 획득할 수 있다. 최종 가중치 획득부(530)는 서브 영역 별 최종 가중치를 주변 서브 영역들의 최종 가중치를 참조하여 수정하거나, 또는 전체 서브 영역 들의 최종 가중치의 평균 값 등을 구하여, 비디오 프레임 전체에 대한 최종 가중치를 획득할 수 있다. 실시 예에서, 최종 가중치는 0보다 크거가 같고 1보다 작거나 같은 값을 가질 수 있다.
실시 예에서, 최종 가중치 적용부(540)는 최종 가중치 획득부(530)가 획득한, 비디오 프레임 별 최종 가중치를 품질 점수에 적용하여 최종 점수를 획득할 수 있다. 예컨대, 최종 가중치 적용부(540)는 제1 품질 점수 획득부(211)가 획득한 제1 품질 점수에 최종 가중치를 곱하고, 제2 품질 점수 획득부(214)가 구한 제2 품질 점수에 1과 최종 가중치의 차이를 곱한 후, 가중치가 적용된 두 품질 점수를 더하여 가중합을 구할 수 있다. 예컨대, 최종 가중치 값이 0.7인 경우, 최종 가중치 적용부(540)는 제1 품질 점수에 0.7을 곱하고, 제2 품질 점수에 1과 0.7의 차이인 0.3을 곱한 후, 0.7이 곱해진 제1 품질 점수와 0.3이 곱해진 제2 품질 점수를 더하여 최종 품질 점수를 획득할 수 있다.
도 7은 실시 예에 따른 사용자 디스플레이 장치(700)의 내부 블록도이다.
도 7의 사용자 디스플레이 장치(700)는 도 2의 비디오 품질 평가 장치(200)의 구성 요소를 포함할 수 있다.
도 7을 참조하면, 사용자 디스플레이 장치(700)는 프로세서(210) 및 메모리(220) 외에, 튜너부(710), 통신부(720), 감지부(730), 입/출력부(740), 비디오 처리부(750), 디스플레이(755), 오디오 처리부(760), 오디오 출력부(770), 및 사용자 인터페이스(780)를 포함할 수 있다.
튜너부(710)는 유선 또는 무선으로 수신되는 방송 콘텐츠 등을 증폭(amplification), 혼합(mixing), 공진(resonance)등을 통하여 많은 전파 성분 중에서 사용자 디스플레이 장치(700)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 튜너부(710)를 통해 수신된 콘텐츠는 디코딩되어 오디오, 비디오 및/또는 부가 정보로 분리된다. 분리된 오디오, 비디오 및/또는 부가 정보는 프로세서(210)의 제어에 의해 메모리(220)에 저장될 수 있다.
통신부(720)는 프로세서(210)의 제어에 의해 사용자 디스플레이 장치(700)를 외부 장치나 서버와 연결할 수 있다. 사용자 디스플레이 장치(700)는 통신부(720)를 통해 외부 장치나 서버 등으로부터 사용자 디스플레이 장치(700)가 필요로 하는 프로그램이나 어플리케이션(application)을 다운로드하거나 또는 웹 브라우징을 할 수 있다. 또한, 통신부(720)는 외부 장치로부터 콘텐츠를 수신할 수 있다.
통신부(720)는 사용자 디스플레이 장치(700)의 성능 및 구조에 대응하여 무선 랜(721), 블루투스(722), 및 유선 이더넷(Ethernet)(723) 중 적어도 하나를 포함할 수 있다. 통신부(720)는 프로세서(210)의 제어에 의해 리모컨 등과 같은 제어 장치(미도시)를 통한 제어 신호를 수신할 수 있다. 제어 신호는 블루투스 타입, RF 신호 타입 또는 와이파이 타입으로 구현될 수 있다. 통신부(720)는 블루투스(722) 외에 다른 근거리 통신(예를 들어, NFC(near field communication, 미도시), BLE(bluetooth low energy, 미도시))를 더 포함할 수 있다. 실시 예에 따라, 통신부(720)는 블루투스(722)나 BLE와 같은 근거리 통신을 통하여 외부 장치 등과 연결 신호를 송수신할 수도 있다.
실시 예에서, 통신부(720)는 다양한 통신 모듈을 이용하여 사용자의 위치 등을 파악할 수 있다. 또한, 도 7에는 도시하지 않았으나, 통신부(720)는 UWB 모듈이 포함될 수 있다. UWB 모듈은 복수개의 안테나를 이용하여, 사용자의 생체 신호를 획득하고, 이를 통해 사용자의 위치 등을 파악할 수 있다.
감지부(730)는 사용자의 음성, 사용자의 영상, 또는 사용자의 인터랙션을 감지하며, 마이크(731), 카메라부(732), 및 광 수신부(733)를 포함할 수 있다. 마이크(731)는 사용자의 발화(utterance)된 음성을 수신할 수 있고 수신된 음성을 전기 신호로 변환하여 프로세서(210)로 출력할 수 있다.
카메라부(732)는 센서(미도시) 및 렌즈(미도시)를 포함하고, 화면에 맺힌 이미지를 촬영할 수 있다. 광 수신부(733)는, 광 신호(제어 신호를 포함)를 수신할 수 있다. 실시 예에서, 카메라부(732)는 사용자 이미지로부터 사용자의 위치나, 사용자의 시청 각도 등에 대한 정보를 획득할 수 있다.
광 수신부(733)는 리모컨이나 핸드폰 등과 같은 제어 장치(미도시)로부터 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호를 수신할 수 있다. 수신된 광 신호로부터 프로세서(210)의 제어에 의해 제어 신호가 추출될 수 있다.
또한, 도 7에는 도시하지 않았으나, 사용자 디스플레이 장치(700)는 조도 센서를 더 포함할 수 있다. 조도 센서는 사용자 디스플레이 장치(700) 주변의 밝기 등을 감지할 수 있다.
입/출력부(740)는 프로세서(210)의 제어에 의해 사용자 디스플레이 장치(700) 외부의 기기 등으로부터 비디오(예를 들어, 동영상 신호나 정지 영상 신호 등), 오디오(예를 들어, 음성 신호나, 음악 신호 등) 및 메타데이터 등의 부가 정보를 수신할 수 있다. 메타데이터는, 콘텐츠에 대한 HDR 정보, 콘텐츠에 대한 설명이나 콘텐츠 타이틀, 콘텐츠 저장 위치 등을 포함할 수 있다. 입/출력부(740)는 HDMI 포트(High-Definition Multimedia Interface port, 741), 컴포넌트 잭(component jack, 742), PC 포트(PC port, 743), 및 USB 포트(USB port, 744) 중 하나를 포함할 수 있다. 입/출력부(740)는 HDMI 포트(741), 컴포넌트 잭(742), PC 포트(743), 및 USB 포트(744)의 조합을 포함할 수 있다.
비디오 처리부(750)는, 디스플레이(755)에 의해 표시될 영상 데이터를 처리하며, 영상 데이터에 대한 디코딩, 렌더링, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 및 해상도 변환 등과 같은 다양한 영상 처리 동작을 수행할 수 있다.
실시 예에서, 비디오 처리부(750)는, 화질 처리 기능도 수행할 수 있다. 즉, 비디오 처리부(750)는 프로세서(210)가 획득한 프레임 별 점수 또는 전체 비디오의 최종 품질 점수에 기반하여 비디오 및/또는 프레임의 품질을 향상시킬 수 있다. 비디오 처리부(750)는 복수의 뉴럴 네트워크 모델들 중, 품질 점수에 따라 화질 처리 모델을 선택하고 이에 따라 프레임/비디오의 품질을 향상시킬 수 있다.
또는 비디오 처리부(750)는 점수에 따라 화질 처리 모델 적용 횟수를 결정하고, 결정된 횟수만큼 프레임에 화질 처리 모델을 반복하여 적용함으로써 프레임/비디오의 품질을 향상시킬 수 있다.
또는 비디오 처리부(750)는 점수에 따라 필터를 설계하고, 이를 프레임/비디오에 적용하여 프레임/비디오의 품질을 향상시킬 수 있다.
또는 비디오 처리부(750)는 점수에 따라 하이퍼파라미터 값을 수정하고, 수정된 하이퍼파라미터 값을 갖는 뉴럴 네트워크를 이용하여 프레임의 품질을 향상시킬 수 있다.
디스플레이(755)는 방송국으로부터 수신하거나 외부 서버, 또는 외부 저장 매체 등으로부터 수신한 콘텐츠를 화면에 출력할 수 있다. 콘텐츠는 미디어 신호로, 비디오 신호, 이미지, 텍스트 신호 등을 포함할 수 있다. 또한 디스플레이(755)는 HDMI 포트(741)를 통해 수신한 비디오 신호나 이미지를 화면에 표시할 수 있다.
실시 예에서, 디스플레이(755)는 비디오 처리부(750)가 비디오나 프레임의 품질을 향상시킨 경우, 향상된 품질의 비디오나 프레임을 출력할 수 있다.
디스플레이(755)가 터치 스크린으로 구현되는 경우, 디스플레이(755)는 출력 장치 이외에 입력 장치로 사용될 수 있다. 그리고, 사용자 디스플레이 장치(700)의 구현 형태에 따라, 사용자 디스플레이 장치(700)는 디스플레이(755)를 2개 이상 포함할 수 있다.
오디오 처리부(760)는 오디오 데이터에 대한 처리를 수행한다. 오디오 처리부(760)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다.
오디오 출력부(770)는 프로세서(210)의 제어에 의해 튜너부(710)를 통해 수신된 콘텐츠에 포함된 오디오, 통신부(720) 또는 입/출력부(740)를 통해 입력되는 오디오, 메모리(220)에 저장된 오디오를 출력할 수 있다. 오디오 출력부(770)는 스피커(771), 헤드폰 출력 단자(772) 또는 S/PDIF(Sony/Philips Digital Interface) 출력 단자(773) 중 적어도 하나를 포함할 수 있다.
사용자 인터페이스(780)는 사용자 디스플레이 장치(700)를 제어하기 위한 사용자 입력을 수신할 수 있다.
실시 예에서, 사용자는 사용자 인터페이스(780)를 통하여, 디스플레이(755)의 스크린 설정 파라미터를 선택하고, 선택된 설정 파라미터 값을 변경할 수 있다.
사용자 인터페이스(780)는 사용자의 터치를 감지하는 터치 패널, 사용자의 푸시 조작을 수신하는 버튼, 사용자의 회전 조작을 수신하는 휠, 키보드(key board), 및 돔 스위치 (dome switch), 음성 인식을 위한 마이크, 모션을 센싱하는 모션 감지 센서 등을 포함하는 다양한 형태의 사용자 입력 디바이스를 포함할 수 있으나 이에 제한되지 않는다. 또한, 사용자 디스플레이 장치(700)가 원격 제어 장치(remote controller)(미도시)에 의해서 조작되는 경우, 사용자 인터페이스(780)는 원격 제어 장치로부터 수신되는 제어 신호를 수신할 수도 있을 것이다.
도 8 내지 12는 실시 예에 따른 디스플레이 특성 정보를 설명하기 위한 도면이다.
도 8은 실시 예에 따른 스크린 모델 매핑 정보를 설명하기 위한 도면이다.
도 8을 참조하면, 좌측에는 평가자 디스플레이 장치(810)가 도시되어 있고, 우측에는 사용자 디스플레이 장치(820)가 도시되어 있다.
복수의 평가자들(811)은 평가자 디스플레이 장치(810)를 이용하여 비디오를 시청하고 비디오 품질을 평가할 수 있다. 복수의 평가자들(811)이 평가한 점수는 MOS로 환산되어 뉴럴 네트워크의 학습 데이터로 이용될 수 있다.
사용자 디스플레이 장치(820)는 MOS를 학습한 뉴럴 네트워크를 이용하여, 비디오에 대해 모델 기반 품질 점수를 획득할 수 있다.
평가자 디스플레이 장치(810)와 사용자 디스플레이 장치(820)에 포함된 스크린은 서로 다른 모델일 수 있다. 스크린은 모델 별로 화면 사이즈 또는 해상도가 다르므로, 평가자 디스플레이 장치(810)에 포함된 스크린과 사용자 디스플레이 장치(820)에 포함된 스크린은 사이즈 및/또는 해상도가 서로 다를 수 있다.
사용자 디스플레이 장치(820)와 평가자 디스플레이 장치(810)의 스크린 사이즈가 다른 경우 동일한 비디오를 시청하더라도 그에 대한 평가 점수는 달라질 수 있다. 일반적으로 화면 사이즈가 클수록 영상에 포함된 왜곡이 더 잘 보이게 되고, 화면 사이즈가 작을수록 왜곡이 덜 인식되기 때문이다.
또한, 동일한 스크린 사이즈를 통해 비디오를 시청하더라도 사용자 디스플레이 장치(820)와 평가자 디스플레이 장치(810)의 스크린 해상도가 다른 경우 평가 점수는 달라질 수 있다. 해상도가 클수록 스크린에 포함된 픽셀 수가 많아져 영상이 더 깨끗하게 보이게 되므로, 사람 눈이 왜곡을 더 민감하게 인식하기 때문이다.
따라서, 평가자 디스플레이 장치(810)를 이용하여 획득한 점수를 학습 데이터로 이용하여 훈련한 뉴럴 네트워크가 획득한 프레임의 품질 점수는 스크린의 사이즈 및/또는 해상도가 다른 사용자 디스플레이 장치(820)에서 평가하는 품질 점수와 다를 수 있다.
실시 예에서, 사용자 디스플레이 장치(820)에는 평가자 디스플레이 장치(810)의 모델과 사용자 디스플레이 장치(820)의 모델이 달라 발생하는 품질 평가 점수의 관계가 미리 저장되어 있을 수 있다. 즉, 사용자 디스플레이 장치(820)를 제조하는 제조사는, 복수의 평가자들이 평가자 디스플레이 장치(810)를 이용하여 비디오 품질 점수를 산출하도록 하고, 또한 평가자 디스플레이 장치(810)와는 다른 모델의 사용자 디스플레이 장치(820)를 이용하여 비디오의 품질 점수를 산출하도록 한 후, 평가자 디스플레이 장치(810)에서의 품질 점수와 사용자 디스플레이 장치(820)에서의 품질 점수 간의 관계를 매핑하는 스크린 모델 매핑 정보를 생성할 수 있다.
예컨대, 복수의 평가자들(811)이 평가자 디스플레이 장치(810)를 이용하여 비디오를 평가할 때의 평균 의견 점수가 A이고, 복수의 평가자들(811)이 평가자 디스플레이 장치(810)와는 다른 모델을 갖는 사용자 디스플레이 장치(820)를 이용하여 동일한 비디오를 평가할 때의 평균 의견 점수가 B인 경우, 제조사는 평가자 디스플레이 장치(810)와 사용자 디스플레이 장치(820) 간의 점수 관계, 즉, A와 B 간의 관련성을 스크린 모델 매핑 정보로 사용자 디스플레이 장치(820)에 저장할 수 있다.
제조사는 각각의 사용자 디스플레이 장치 모델 별로 동일한 방법을 수행하여, 평가자 디스플레이 장치(810)와 각 모델 별 사용자 디스플레이 장치에서의 평가 점수를 연관 짓는 스크린 모델 매핑 정보를 생성하고 이를 각 모델의 디스플레이 장치에 저장할 수 있다.
스크린 모델 매핑 정보는, 스크린 모델에 따른 평균 의견 점수 간 관련성을 나타낸 것으로, 룩업 테이블, 매핑 테이블이거나 또는 매핑 함수 형태일 수 있다.
사용자 디스플레이 장치(820)는 스크린 모델 매핑 정보를 이용하여 가중치를 획득하고 이를 모델 기반 품질 점수에 적용함으로써 스크린 모델의 차이에 따른 품질 평가의 차이를 보상할 수 있다.
도 9는 실시 예에 따른 스크린 설정 매핑 정보를 설명하기 위한 도면이다.
사용자 디스플레이 장치와 평가자 디스플레이 장치의 스크린이 서로 같은 사양을 갖는 경우, 두 장치를 이용하여 획득되는 품질 점수는 같을 수 있다. 그러나, 평가자 디스플레이 장치의 스크린 설정 파라미터 값과 사용자 디스플레이 장치의 스크린 설정 파라미터 값이 다른 값을 갖는 경우, 평가자 디스플레이 장치를 이용하여 획득된 점수를 학습 데이터로 이용하여 훈련한 뉴럴 네트워크가 획득한 프레임의 품질 점수는 사용자 디스플레이 장치에서 평가하는 품질 점수와 다를 수 있다.
또한, 전술한 바와 같이 사용자 디스플레이 장치와 평가자 디스플레이 장치의 스크린이 서로 다른 사양을 갖는 경우, 제조사는 스크린 모델 매핑 정보를 생성하기 위해 사용자 디스플레이 장치를 이용하여 비디오 품질 점수를 획득하게 된다. 제조사는 사용자 디스플레이 장치의 스크린 설정 값을 디폴트 값으로 설정한 상태로 비디오 품질 점수를 획득할 수 있다. 이후, 사용자가 사용자 디스플레이 장치의 스크린 설정 값을 디폴트 값이 아닌 다른 값으로 변경하여 이용하는 경우, 디폴트 값이 스크린 설정 파라미터 값을 갖는 사용자 디스플레이 장치에서 평가하는 품질 점수는 다를 수 있다.
도 9에는 사용자 디스플레이 장치의 스크린에 출력되는 OSD(On Screen Display) 메뉴(910)가 도시되어 있다. 사용자는 OSD 메뉴(910)를 이용하여 스크린 설정 파라미터 값을 변경할 수 있다. 사용자는 복수의 스크린 설정 파라미터들 중 원하는 파라미터를 선택하고, 선택된 파라미터의 값을 원하는 값으로 변경할 수 있다.
스크린 설정 파라미터는 사용자 디스플레이 장치의 스크린에 대한 밝기(brightness), 대조도(contrast), 감마(gamma), 백라이트 밝기, 선명도(sharpness), 색상(color), 색조(tint) 중 적어도 하나를 포함할 수 있다.
스크린 설정 파라미터 값이 바뀌는 경우, 사용자가 보는 비디오는 화질 느낌이 달라질 수 있다. 이 경우, 변경된 설정 파라미터 값을 갖는 스크린을 이용하여 평가한 품질 점수는, 설정 파라미터가 디폴트 값일 때 획득한 품질 점수와 서로 다를 수 있다. 예컨대, 사용자가 스크린 설정 파라미터 중 밝기의 값을 디폴트 값보다 더 어두운 값으로 설정한 경우, 어두운 스크린을 통해 출력되는 비디오에서는 왜곡이 잘 보이지 않기 때문에 이 때의 비디오 평가 점수는 밝기 값이 디폴트 값일 때의 비디오 평가 점수보다 더 높아질 수 있다.
실시 예에서, 제조사는 평가자들이 동일한 모델을 갖는 사용자 디스플레이 장치를 이용하여 비디오 품질을 평가할 때, 스크린 설정 파라미터가 디폴트 값으로 고정된 상태에서 품질을 평가하도록 할 수 있다. 또한, 제조사는 스크린 설정 파라미터가 디폴트 값이 아닌 다른 값을 갖도록 설정하고, 각각의 경우에 평가자가 품질을 평가하도록 할 수 있다. 제조사는 이러한 파라미터 값의 차이에 따른 품질 평가 점수 차이를 매핑 함수나 매핑 테이블, 룩업 테이블 형태로 저장할 수 있다.
제조사는 각 파라미터 별로, 또한 동일한 파라미터에서도 그 파라미터의 설정 값들 별로, 각각 품질 점수를 획득하고, 이로부터 디폴트 값과 다른 설정 값에 따른 평가 점수의 차이를 관련 짓는 스크린 설정 매핑 정보를 생성하여 이를 사용자 디스플레이 장치에 저장할 수 있다.
도 10은 실시 예에 따른 스크린 모델 매핑 정보 중 스크린 사이즈를 설명하기 위한 도면이다.
스크린 모델 매핑 정보는 스크린 사이즈 및 스크린 사이즈에 따른 서브 영역 별 점수에 대한 정보를 포함할 수 있다.
도 10을 참조하면, 사용자 디스플레이 장치는 다양한 스크린 사이즈를 가질 수 있다. 도 10에는 세 개의 스크린이 도시되어 있으며 제1 스크린(1010)부터 제2 스크린(1020) 및 제3 스크린(1030) 순서대로 사이즈가 작아진다.
일반적으로, 사람이 비디오를 볼 때 비디오에 포함된 왜곡을 인식하는 정도는 화면의 위치에 따라 달라질 수 있다. 사람은 보통 화면의 중앙 부분을 가장자리 부분보다 더 많이 보는 경향이 있다. 따라서, 왜곡의 정도가 같더라도 스크린의 중앙에 왜곡이 있는 경우와 스크린의 가장자리 부분에 왜곡이 있는 경우, 사람은 왜곡의 정도를 다르게 인식하게 된다.
또한, 사람은 화면의 사이즈가 소정 크기 이상 큰 경우에는 중앙 부분을 위주로 보나, 화면의 사이즈가 크지 않은 경우에는 전체 영역을 한꺼번에 보는 경향이 있다.
실시 예에서, 제조사는 사용자 디스플레이 장치(110)에 스크린 정보를 저장할 때, 스크린 사이즈가 소정 크기 이상인 스크린에 대해서는 스크린 정보에 서브 영역 별 점수를 더 포함시킬 수 있다.
이를 위해, 제조사는 복수의 평가자들이 사용자 디스플레이 장치를 이용하여 비디오의 품질 점수를 산출할 때, 프레임의 각 서브 영역 별로 왜곡이 있는 비디오들을 출력할 수 있다. 즉, 제조사는 프레임의 아래 부분만 왜곡이 포함된 비디오와 프레임의 왼쪽 부분만 왜곡이 포함된 비디오 등과 같이, 프레임, 또는, 스크린에 포함된 복수의 서브 영역 각각에서만 왜곡이 포함된 비디오를 평가자에게 보여주고, 그에 따른 점수를 획득할 수 있다.
예컨대, 제조사는 도 10에 도시된 스크린 중 제2 스크린(1020)을 이용하여 비디오의 품질 점수를 산출할 때, 제2 스크린(1020)을 아홉 개의 서브 영역으로 나누고, 각각 하나의 서브 영역에만 왜곡이 포함된 비디오들을 평가자들에게 출력하고 이를 평가하도록 할 수 있다.
예를 들어, 아홉 개의 서브 영역 중 정 가운데 영역(1021)에서만 왜곡이 있는 비디오에 대해 평가자들로부터 획득한 평가 점수가 1점이고, 왼쪽 가운데 영역(1023)에서만 동일한 왜곡이 있는 비디오에 대해 평가자들로부터 획득한 평가 점수가 4점이라고 가정한다. 이는 평가자들이 왼쪽 가운데 영역(1023)보다는 정 가운데 영역(1021)을 더 많이 본다는 것을 의미할 수 있다. 제조사는 이를 고려하여, 왼쪽 가운데 영역(1023)에 대해서는 서브 영역 점수 0.2를 부여하고, 정 가운데 영역(1021)에는 서브 영역 점수 0.8를 부여하여, 스크린의 각 서브 영역이 비디오 품질 평가에 영향을 주는 정도를 구할 수 있다. 제조사는 스크린의 서브 영역 각각에 대해 각 영역이 비디오 품질 평가에 영향을 주는 정도를 나타내는 서브 영역 별 점수를 생성하고 이를 스크린 정보에 포함시켜 저장할 수 있다.
화면 사이즈가 큰 경우와 달리, 화면 사이즈가 소정 크기보다 작은 경우, 예컨대, 도 10에 도시된 스크린 중 태블릿 크기의 화면을 갖는 제3 스크린(1030)의 경우, 사용자는 화면 전체의 영역에 대해 거의 비슷한 정도로 왜곡을 인식하게 된다. 이 경우, 제조사는 스크린 정보에 스크린에 포함된 서브 영역 별 점수를 별도로 포함시키지 않을 수 있다. 즉, 실시 예에서, 스크린 정보는 스크린 사이즈가 소정 크기 이상인 경우에만 스크린 정보에 서브 영역 별 점수를 더 포함할 수 있다. 예컨대, 제조사는 태블릿이나 핸드폰의 스크린과 같이, 스크린 사이즈가 소정 크기보다 작은 경우, 스크린 정보에, 화면 전체에 대한 하나의 점수만을 포함시키고, 서브 영역 별 점수를 포함시키지 않을 수 있다.
도 11은 실시 예에 따른 환경 정보를 설명하기 위한 도면이다.
실시 예에서, 환경 정보는 사용자의 시청 위치 정보를 포함할 수 있다.
비디오를 평가할 때의 평가자 위치는 실제 사용자 디스플레이 장치(1120)를 시청할 때의 사용자의 위치와 동일할 수도 있지만 동일하지 않을 수도 있다.
평가자의 위치와 사용자의 위치가 다른 경우, 평가자 디스플레이 장치(1110)를 시청 할 때의 평가자의 시청 앵글 및/또는 평가자와 평가자 디스플레이 장치(1110) 간의 거리 등은, 사용자 디스플레이 장치(1120)를 시청 할 때의 사용자의 시청 앵글 및/또는 사용자와 사용자 디스플레이 장치(1120) 간의 거리 등과 달라지게 된다. 이 경우, 평가자와 사용자가 화면에서 중요하게 보는 영역이 서로 달라지게 되어 동일 비디오에 대한 품질 점수에 영향을 미치게 된다. 시청 앵글은, 예컨대, 평가자와 평가자 디스플레이 장치(1110)의 중심을 잇는 가상의 선을 기준으로, 평가자와 평가자 디스플레이 장치(1110)가 이루는 방위각(azimuth)이나 고도각(elevation angle) 중 적어도 하나를 포함할 수 있다.
실시 예에서, 사용자 디스플레이 장치(1120)에는 평가자가 비디오를 평가할 때의 평가 위치와 사용자가 실제 사용자 디스플레이 장치(1120)를 시청할 때의 위치 차이에 따른 품질 평가 점수의 관계를 나타내는 정보가 미리 저장되어 있을 수 있다. 이를 위해, 제조사는 평가자들이 비디오를 평가할 때, 다양한 위치에서 비디오를 평가하도록 할 수 있다. 예컨대, 도 11에 도시된 바와 같이, 제조사는 평가자들이 각각 제1 위치(1111), 제2 위치(1112), 제3 위치(1113)에서 동일한 비디오를 시청하고 비디오 품질을 평가하도록 할 수 있다. 다만, 이는 설명의 편의를 위한 것으로, 제조사는 평가자들이 평가자 디스플레이 장치(1110)로부터 더 멀리 떨어진 위치나 더 가까운 위치, 평가자 디스플레이 장치(1110)보다 더 높은 위치나 더 낮은 위치 등에서도 비디오 품질을 평가하도록 할 수 있다.
제조사는 평가자들의 평가 위치 별로 비디오 평가 점수를 획득할 수 있다. 제조사는 평가 위치와 평가 점수 간의 관련성을 나타내는 룩업 테이블이나 매핑 함수 등을 생성하고, 이를 사용자 디스플레이 장치(1120)에 미리 저장할 수 있다.
실시 예에서, 사용자 디스플레이 장치(1120)는 사용자의 위치에 대한 정보를 획득할 수 있다. 실시 예에서, 사용자 디스플레이 장치(1120)에는 사용자의 위치를 센싱하는 센서(1125)를 포함할 수 있다. 센서(1125)는 카메라를 이용하여 사용자의 이미지를 실시간으로 획득하여 사용자의 위치를 파악할 수 있다.
센서(1125)는 UWB(Ultra-wideband) 모듈 등을 이용하여 복수의 안테나로 사용자의 생체 신호를 획득하고 이로부터 사용자의 위치를 파악할 수 있다.
기타, 센서(1125)는 다양한 방법으로 사용자의 홍채 움직임 등을 파악하고, 이를 통해 사용자의 시청 각도 등을 감지할 수 있다.
실시 예에서, 사용자 디스플레이 장치(1120)는 사용자의 위치가 룩업 테이블에 기 저장되어 있는 평가자들의 평가 위치 중 어느 위치와 가장 근접한지를 판단할 수 있다. 예컨대, 도 11에서, 사용자 디스플레이 장치(1120)는 사용자의 현재 위치(1121)가 평가자들의 평가 위치 중 제2 위치(1112)와 유사하다고 판단할 수 있다. 사용자 디스플레이 장치(1120)는 제2 위치(1112)에 대응하여 저장된 평가 점수를 고려하여 가중치를 획득하고 이를 모델 기반 품질 점수에 적용함으로써 평가 위치의 차이에 따른 품질 평가의 차이를 보상할 수 있다.
도 12는 실시 예에 따른 환경 정보를 설명하기 위한 도면이다.
실시 예에서, 환경 정보는 사용자 디스플레이 장치 주변 밝기 정보를 포함할 수 있다.
평가자가 비디오를 평가할 때 그 주변의 밝기는 실제 사용자가 화면을 시청할 때의 사용자 주변의 밝기와 동일할 수도 있지만 동일하지 않을 수도 있다.
도 12에 도시된 바와 같이, 평가자 디스플레이 장치(1210)가 위치하는 곳의 주변 밝기(1211)는 사용자 디스플레이 장치(1220)가 위치하는 곳의 사용자 주변의 밝기(1221)와 다를 수 있다. 평가자 주변의 밝기(1211)와 사용자 주변의 밝기(1221)가 다른 경우, 평가자와 사용자가 인식하는 품질 점수는 달라질 수 있다.
예컨대, 평가자가 영화관과 같이 어두운 환경에서 비디오를 평가하여 품질 점수를 매긴 경우, 평가자는 어두운 주변 환경에 비해 상대적으로 더 밝게 인식되는 스크린을 통해 비디오의 왜곡 또한 더 잘 인식할 수 있다. 이 경우, 평가자가 평가한 품질 점수는 밝은 환경에서 비디오를 시청하는 사용자가 느끼는 품질 점수와 동일하지 않을 수 있다.
실시 예에서, 제조사는 평가자들이 비디오를 평가할 때 주변의 밝기를 단계 별로 변경할 수 있다. 제조사는 다양한 주변 밝기 하에서 평가자들이 각각 비디오를 평가하도록 하고, 주변 밝기 별로 비디오 평가 점수를 획득할 수 있다. 제조사는 주변 밝기에 따른 품질 점수의 관련성을 나타내는 룩업 테이블이나 매핑 함수 등을 생성하고 이를 사용자 디스플레이 장치(1220)에 미리 저장시킬 수 있다.
실시 예에서, 사용자 디스플레이 장치(1220)는 사용자 주변의 밝기(1221)에 대한 정보를 획득할 수 있다. 실시 예에서, 사용자 디스플레이 장치(1220)에는 사용자 주변의 밝기(1221)를 센싱하는 센서(1225)를 이용할 수 있다.
센서(1225)는 예컨대 조도 센서일 수 있다. 사용자 디스플레이 장치(1220)는 조도 센서를 이용하여 사용자 주변의 밝기(1221)를 감지할 수 있다. 조도 센서는 주변의 빛의 양을 측정하여 빛의 양에 따라 밝기를 측정하는 센서로, RGB 센서(illuminance sensor)나 포토 센서(Photo Resistor) 등을 포함할 수 있다.
실시 예에서, 사용자 디스플레이 장치(1220)는 룩업 테이블에서 사용자 주변의 밝기(1221)와 가장 근접한 밝기를 식별할 수 있다. 사용자 디스플레이 장치(1220)는 사용자 주변의 밝기(1221)와 가장 근접한 밝기에 대응하여 저장된 평가 점수를 고려하여 가중치를 획득하고 이를 모델 기반 품질 점수에 적용함으로써 주변 밝기의 차이에 따른 품질 평가의 차이를 보상할 수 있다.
도 13은 실시 예에 따른 비디오 품질 평가 방법을 도시한 순서도이다.
도 13을 참조하면, 비디오 품질 평가 장치는 비디오 프레임 및 오디오 프레임을 고려하여, 오디오 기반 세일리언시 맵을 획득할 수 있다(단계 1310). 즉, 비디오 품질 평가 장치는 비디오 프레임과 동기화되어 함께 출력되는 오디오 프레임을 고려하여, 비디오 프레임에서 시청자의 관심을 끄는 영역이 어디인가를 파악할 수 있다.
비디오 품질 평가 장치는 오디오 기반 세일리언시 맵을 고려하여, 비디오 프레임에 대한 제1 품질 점수를 획득할 수 있다(단계 1320).
제1 품질 점수는 비디오 프레임과 오디오 프레임이 함께 고려될 때 사용자의 주의를 끄는 오디오 기반 세일리언시 영역을 반영하여 획득되는 비디오 프레임에 대한 품질 점수일 수 있다. 비디오 품질 평가 장치는 비디오 프레임에 대해 품질 평가 점수를 획득할 때, 비디오 프레임뿐 아니라 오디오 기반 세일리언시 맵을 함께 고려함으로써 오디오 기반 세일리언시 영역을 고려한 품질 점수를 획득할 수 있다.
또한, 비디오 품질 평가 장치는 오디오 프레임 고려 없이, 비디오 프레임에 대한 제2 품질 점수를 획득할 수 있다(단계 1330).
제2 품질 점수는 오디오에 대한 고려나, 사용자의 관심 영역에 대한 고려 없이, 비디오 프레임 전체에 대한 품질 평가를 통해 획득될 수 있다.
비디오 품질 평가 장치는 제1 품질 점수 및 제2 품질 점수에 기반하여, 최종 품질 점수를 획득할 수 있다(단계 1340).
도 14는 실시 예에 따라, 오디오 기반 세일리언시 맵을 획득하는 과정을 도시한 순서도이다.
도 14를 참조하면, 비디오 품질 평가 장치는 비주얼 세일리언시 맵을 먼저 획득할 수 있다(단계 1410).
비디오 품질 평가 장치는 오디오 프레임 없이 비디오 프레임만을 기반으로, 비디오 프레임에서 시청자의 주의를 끄는 세일리언시 영역을 나타내는 비주얼 세일리언시 맵을 획득할 수 있다. 비주얼 세일리언시 맵은, 오디오에 대한 고려 없이, 비디오 프레임만을 보고 획득된 세일리언시 맵을 의미할 수 있다.
예컨대, 비디오 품질 평가 장치는 제1 뉴럴 네트워크를 이용하여, 비디오 프레임으로부터 다양한 특징들을 획득하고 이를 기반으로 비주얼 세일리언시 맵을 획득할 수 있다.
비디오 품질 평가 장치는 비주얼 세일리언시 맵과 오디오 프레임을 함께 고려하여, 오디오 기반 세일리언시 맵을 획득할 수 있다(단계 1420).
예컨대, 비디오 품질 평가 장치는 제2 뉴럴 네트워크를 이용하여, 오디오 프레임 및 제1 뉴럴 네트워크가 획득한 비주얼 세일리언시 맵을 입력 받고, 그로부터 비디오와 오디오를 함께 고려할 때의 시청자의 관심을 끄는 영역을 표현하는 오디오 기반 세일리언시 맵을 의미할 수 있다.
실시 예에서, 비디오 품질 평가 장치가 이용하는 제2 뉴럴 네트워크는 오디오 신호를 고려할 때와 오디오 신호를 고려하지 않을 때 동일한 비디오에 대한 세일리언시 영역의 차이를 미리 학습한 뉴럴 네트워크일 수 있다. 또한, 제2 뉴럴 네트워크는 오디오 신호의 특성에 따라 달라지는 오디오 기반 세일리언시 영역을 학습한 뉴럴 네트워크일 수 있다.
도 15는 실시 예에 따라, 가중치를 획득하는 과정을 도시한 순서도이다.
도 15를 참조하면, 비디오 품질 평가 장치는 오디오 기반 세일리언시 맵의 통계학적 특성으로부터 제1 가중치를 획득할 수 있다(단계 1510).
오디오 기반 세일리언시 맵의 통계학적 특성은 오디오 기반 세일리언시 맵에 포함된 세일리언시 영역에 대한 특성으로, 오디오 기반 세일리언시 영역이 전체 비디오 프레임에 포함된 비율, 세일리언시 영역의 산포도, 세일리언시 영역의 중심 경향치 중 적어도 하나를 포함할 수 있다.
비디오 품질 평가 장치는 디스플레이 장치의 특성 정보로부터 제2 가중치를 획득할 수 있다(단계 1520). 디스플레이 장치의 특성 정보는, 스크린 모델 매핑 정보, 스크린 설정 매핑 정보, 및 환경 정보 중 적어도 하나를 포함할 수 있다.
스크린 모델 매핑 정보는 평가자 디스플레이 장치의 스크린 모델과 사용자 디스플레이 장치의 스크린 모델 차이에 따른 점수 관계를 포함하고, 스크린 모델 차이는 스크린 사이즈 및 스크린 해상도 중 적어도 하나의 차이를 의미할 수 있다.
스크린 설정 매핑 정보는 사용자 디스플레이 장치의 스크린에 대한 디폴트 설정 값과 사용자로부터 선택된 설정 값의 차이에 따른 점수 관계를 나타내고, 설정 값은 스크린의 밝기(brightness), 대조도(contrast), 감마(gamma), 백라이트 밝기, 선명도(sharpness), 색상(Color), 색조(tint) 중 적어도 하나에 대한 값을 포함할 수 있다.
환경 정보는 주변 밝기 정보 및 시청 위치 정보 중 적어도 하나를 포함할 수 있다. 주변 밝기 정보는 사용자 디스플레이 장치 주변 밝기와 평가자 디스플레이 장치 주변 밝기 간의 관계를 포함하고, 시청 위치 정보는 사용자의 시청 위치 및 평가자의 시청 위치 간의 관계를 포함할 수 있다. 시청 위치는 디스플레이 장치와의 거리, 방위각, 및 고도각 중 적어도 하나를 포함할 수 있다.
비디오 품질 평가 장치는 제1 가중치 및 제2 가중치로부터 최종 가중치를 획득할 수 있다(단계 1530). 예컨대, 비디오 품질 평가 장치는 제1 가중치와 제2 가중치를 곱하여, 최종 가중치를 획득할 수 있다.
비디오 품질 평가 장치는 최종 가중치를 제1 품질 점수와 제2 품질 점수에 적용함으로써, 비디오 프레임에 대한 최종 품질 점수를 획득할 수 있다.
일부 실시 예에 따른 오디오의 존재 및 비존재에 따른 비디오 품질 평가 방법 및 장치는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비 휘발성 매체, 분리형 및 비 분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비 휘발성, 분리형 및 비 분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
또한, 전술한 본 개시의 실시 예에 따른 오디오의 존재 및 비존재에 따른 비디오 품질 평가 방법 및 장치는 비디오 프레임 및 상기 비디오 프레임과 함께 출력되는 오디오 프레임을 기반으로, 상기 비디오 프레임에 대한 제1 품질 점수를 획득하는 단계, 상기 오디오 프레임 없이 상기 비디오 프레임을 기반으로, 상기 비디오 프레임에 대한 제2 품질 점수를 획득하는 단계 및 상기 제1 품질 점수 및 상기 제2 품질 점수로부터 상기 비디오 프레임에 대한 최종 품질 점수를 획득하는 단계를 포함하는, 비디오 품질 평가 장치에서 수행하는 비디오 품질 평가 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체를 포함하는 컴퓨터 프로그램 제품으로 구현될 수 있다.
전술한 설명은 예시를 위한 것이며, 발명이 속하는 기술분야의 통상의 지식을 가진 자는 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일 형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

Claims (15)

  1. 비디오 품질 평가 장치에 있어서,
    하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    비디오 프레임 및 상기 비디오 프레임과 함께 출력되는 오디오 프레임을 기반으로, 상기 비디오 프레임에 대한 제1 품질 점수를 획득하고,
    상기 오디오 프레임 없이 상기 비디오 프레임을 기반으로, 상기 비디오 프레임에 대한 제2 품질 점수를 획득하고,
    상기 제1 품질 점수 및 상기 제2 품질 점수로부터 상기 비디오 프레임에 대한 최종 품질 점수를 획득하는, 비디오 품질 평가 장치.
  2. 제1 항에 있어서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 비디오 프레임 및 상기 오디오 프레임을 기반으로, 상기 비디오 프레임에서 시청자의 주의를 끄는 세일리언시(saliency) 영역을 나타내는 오디오 기반 세일리언시 맵을 획득하고,
    상기 비디오 프레임 및 상기 오디오 기반 세일리언시 맵으로부터 상기 제1 품질 점수를 획득하는, 비디오 품질 평가 장치.
  3. 제2 항에 있어서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 오디오 프레임 없이 상기 비디오 프레임을 기반으로, 상기 비디오 프레임에서 시청자의 주의를 끄는 세일리언시 영역을 나타내는 비주얼(visual) 세일리언시 맵을 획득하고,
    상기 오디오 프레임 및 상기 비주얼 세일리언시 맵으로부터 상기 오디오 기반 세일리언시 맵을 획득하는, 비디오 품질 평가 장치.
  4. 제3 항에 있어서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    오디오 신호를 고려할 때와 고려하지 않을 때의 세일리언시 영역의 차이를 학습한 뉴럴 네트워크를 이용하여, 상기 오디오 프레임 및 상기 비주얼 세일리언시 맵으로부터 상기 오디오 기반 세일리언시 맵을 획득하는, 비디오 품질 평가 장치.
  5. 제4 항에 있어서, 상기 뉴럴 네트워크는 오디오 신호 특성에 따라 달라지는 세일리언시 영역을 학습한 뉴럴 네트워크이고,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 뉴럴 네트워크를 이용하여 상기 오디오 프레임으로부터 오디오 신호 특성을 획득하고, 상기 획득한 오디오 신호 특성을 고려하여 상기 오디오 기반 세일리언시 맵을 획득하고,
    상기 오디오 신호 특성은 오디오 장르(genre), 주제(theme), 볼륨(volume), 해상도(resolution), 정보량(entropy), 선명도(sharpness), 다이나믹스(dynamics), 대역 밸런스(tonal balance), 음색(tone color), 위상(phase), 음상(sound image), 음장(sound staging), 임장감(presence) 중 적어도 하나를 포함하는, 비디오 품질 평가 장치.
  6. 제2 항에 있어서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 오디오 기반 세일리언시 맵 및 디스플레이 장치 특성 정보 중 적어도 하나에 기반하여 최종 가중치를 획득하고,
    상기 최종 가중치를 이용하여 상기 제1 품질 점수 및 상기 제2 품질 점수의 가중합(weighted sum)을 획득하는, 비디오 품질 평가 장치.
  7. 제6 항에 있어서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 오디오 기반 세일리언시 맵으로부터 획득한 세일리언시 영역의 통계학적 특성으로부터 제1 가중치를 획득하고,
    상기 디스플레이 장치 특성 정보로부터 제2 가중치를 획득하고,
    상기 제1 가중치 및 상기 제2 가중치 중 적어도 하나를 기반으로 상기 최종 가중치를 획득하는, 비디오 품질 평가 장치.
  8. 제7 항에 있어서, 상기 세일리언시 영역의 통계학적 특성은 상기 오디오 기반 세일리언시 맵에 포함된 상기 세일리언시 영역이 상기 비디오 프레임에 포함된 비율(proportion), 상기 세일리언시 영역의 산포도(spread) 또는 중심 경향치(central tendency) 중 적어도 하나인, 비디오 품질 평가 장치.
  9. 제6 항에 있어서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 디스플레이 장치 특성 정보를 상기 비디오 품질 평가 장치에 기 저장된 매핑 테이블로부터 추출하여 획득하고,
    상기 디스플레이 장치 특성 정보는, 스크린 모델 매핑 정보, 스크린 설정 매핑 정보, 및 환경 정보 중 적어도 하나를 포함하는, 비디오 품질 평가 장치.
  10. 제9 항에 있어서, 상기 스크린 모델 매핑 정보는 평가자 디스플레이 장치의 스크린 모델과 상기 사용자 디스플레이 장치의 스크린 모델 차이에 따른 점수 관계를 포함하고, 상기 스크린 모델 차이는 스크린 사이즈 및 스크린 해상도 중 적어도 하나의 차이인, 비디오 품질 평가 장치.
  11. 제9 항에 있어서, 상기 스크린 설정 매핑 정보는 상기 사용자 디스플레이 장치의 스크린에 대한 디폴트 설정 값과 사용자로부터 선택된 설정 값의 차이에 따른 점수 관계를 나타내고, 상기 설정 값은 스크린의 밝기(brightness), 대조도(contrast), 감마(gamma), 백라이트 밝기, 선명도(sharpness), 색상(Color), 색조(tint) 중 적어도 하나에 대한 값을 포함하는, 비디오 품질 평가 장치.
  12. 제9 항에 있어서, 상기 환경 정보는 주변 밝기 정보 및 시청 위치 정보 중 적어도 하나를 포함하고,
    상기 주변 밝기 정보는 상기 사용자 디스플레이 장치 주변 밝기와 평가자 디스플레이 장치 주변 밝기 간의 관계를 포함하고,
    상기 시청 위치 정보는 상기 사용자의 시청 위치 및 평가자의 시청 위치 간의 관계를 포함하고, 상기 시청 위치는 디스플레이 장치와의 거리, 방위각, 및 고도각 중 적어도 하나를 포함하는, 비디오 품질 평가 장치.
  13. 비디오 품질 평가 장치에서 수행하는 비디오 품질 평가 방법에 있어서,
    비디오 프레임 및 상기 비디오 프레임과 함께 출력되는 오디오 프레임을 기반으로, 상기 비디오 프레임에 대한 제1 품질 점수를 획득하는 단계;
    상기 오디오 프레임 없이 상기 비디오 프레임을 기반으로, 상기 비디오 프레임에 대한 제2 품질 점수를 획득하는 단계; 및
    상기 제1 품질 점수 및 상기 제2 품질 점수로부터 상기 비디오 프레임에 대한 최종 품질 점수를 획득하는 단계를 포함하는, 비디오 품질 평가 장치에서 수행하는 비디오 품질 평가 방법.
  14. 제13 항에 있어서, 상기 제1 품질 점수를 획득하는 단계는
    상기 비디오 프레임 및 상기 오디오 프레임을 기반으로, 상기 비디오 프레임에서 시청자의 주의를 끄는 세일리언시(saliency) 영역을 나타내는 오디오 기반 세일리언시 맵을 획득하는 단계; 및
    상기 비디오 프레임 및 상기 오디오 기반 세일리언시 맵으로부터 상기 제1 품질 점수를 획득하는 단계를 포함하는, 비디오 품질 평가 장치에서 수행하는 비디오 품질 평가 방법.
  15. 비디오 프레임 및 상기 비디오 프레임과 함께 출력되는 오디오 프레임을 기반으로, 상기 비디오 프레임에 대한 제1 품질 점수를 획득하는 단계;
    상기 오디오 프레임 없이 상기 비디오 프레임을 기반으로, 상기 비디오 프레임에 대한 제2 품질 점수를 획득하는 단계; 및
    상기 제1 품질 점수 및 상기 제2 품질 점수로부터 상기 비디오 프레임에 대한 최종 품질 점수를 획득하는 단계를 포함하는, 비디오 품질 평가 장치에서 수행하는 비디오 품질 평가 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
PCT/KR2022/001795 2021-02-16 2022-02-07 오디오의 존재 및 비존재에 따른 비디오 품질 평가 방법 및 장치 WO2022177211A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0020690 2021-02-16
KR1020210020690A KR20220117057A (ko) 2021-02-16 2021-02-16 오디오의 존재 및 비존재에 따른 비디오 품질 평가 방법 및 장치

Publications (1)

Publication Number Publication Date
WO2022177211A1 true WO2022177211A1 (ko) 2022-08-25

Family

ID=82930929

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/001795 WO2022177211A1 (ko) 2021-02-16 2022-02-07 오디오의 존재 및 비존재에 따른 비디오 품질 평가 방법 및 장치

Country Status (2)

Country Link
KR (1) KR20220117057A (ko)
WO (1) WO2022177211A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117012228A (zh) * 2023-07-28 2023-11-07 支付宝(杭州)信息技术有限公司 训练评估模型、评估视频质量的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2075758A1 (en) * 2007-12-20 2009-07-01 THOMSON Licensing Method and device for calculating the silence of an audio video document
US20120242900A1 (en) * 2011-03-22 2012-09-27 Futurewei Technologies, Inc. Media Processing Devices For Detecting and Ranking Insertion Points In Media, And Methods Thereof
KR20190010659A (ko) * 2016-06-29 2019-01-30 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) 적응형 멀티미디어 스트리밍의 품질 추정
WO2019117866A1 (en) * 2017-12-12 2019-06-20 Google Llc Bitrate optimizations for immersive multimedia streaming
CN111479109A (zh) * 2020-03-12 2020-07-31 上海交通大学 基于视听联合注意的视频质量评价方法、系统及终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2075758A1 (en) * 2007-12-20 2009-07-01 THOMSON Licensing Method and device for calculating the silence of an audio video document
US20120242900A1 (en) * 2011-03-22 2012-09-27 Futurewei Technologies, Inc. Media Processing Devices For Detecting and Ranking Insertion Points In Media, And Methods Thereof
KR20190010659A (ko) * 2016-06-29 2019-01-30 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) 적응형 멀티미디어 스트리밍의 품질 추정
WO2019117866A1 (en) * 2017-12-12 2019-06-20 Google Llc Bitrate optimizations for immersive multimedia streaming
CN111479109A (zh) * 2020-03-12 2020-07-31 上海交通大学 基于视听联合注意的视频质量评价方法、系统及终端

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117012228A (zh) * 2023-07-28 2023-11-07 支付宝(杭州)信息技术有限公司 训练评估模型、评估视频质量的方法及装置

Also Published As

Publication number Publication date
KR20220117057A (ko) 2022-08-23

Similar Documents

Publication Publication Date Title
WO2021261830A1 (en) Video quality assessment method and apparatus
WO2017164716A1 (en) Method and device for processing multimedia information
WO2022025423A1 (en) Video quality assessing method and apparatus
WO2016117836A1 (en) Apparatus and method for editing content
WO2022071647A1 (en) Video quality assessment method and apparatus
WO2015111833A1 (ko) 가상 광고 제공 장치 및 방법
WO2020235852A1 (ko) 특정 순간에 관한 사진 또는 동영상을 자동으로 촬영하는 디바이스 및 그 동작 방법
WO2020204472A1 (ko) 영상표시장치
WO2022250388A1 (ko) 비디오 품질을 평가하는 전자 장치 및 그 동작 방법
WO2021141359A1 (en) Image display apparatus and image displaying method
WO2019031676A1 (ko) 이미지 처리 방법 및 그에 따른 장치
WO2022177211A1 (ko) 오디오의 존재 및 비존재에 따른 비디오 품질 평가 방법 및 장치
WO2019203421A1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
WO2022050785A1 (ko) 디스플레이 기기 및 그의 동작 방법
WO2019088627A1 (en) Electronic apparatus and controlling method thereof
WO2021010562A1 (en) Electronic apparatus and controlling method thereof
WO2020050593A1 (en) Electronic device and operation method thereof
WO2019112182A1 (ko) 디스플레이 장치 및 음향 출력 방법
WO2020067645A1 (en) Electronic apparatus and control method thereof
WO2021141300A1 (en) Electronic device and method of operating the same
WO2022163949A1 (ko) 이미지에 내재된 코드를 이용한 컨텐츠 확장 장치
WO2022181865A1 (ko) 디스플레이 장치 및 그 동작방법
WO2023282703A1 (ko) 영상 처리 장치 및 그 동작 방법
WO2024039004A1 (ko) 전자 장치 및 그 동작 방법
WO2016080583A1 (ko) 영상 표시 장치 및 그 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22756412

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22756412

Country of ref document: EP

Kind code of ref document: A1