WO2017104416A1 - オーディオビジュアル品質推定装置、オーディオビジュアル品質推定方法、及びプログラム - Google Patents

オーディオビジュアル品質推定装置、オーディオビジュアル品質推定方法、及びプログラム Download PDF

Info

Publication number
WO2017104416A1
WO2017104416A1 PCT/JP2016/085553 JP2016085553W WO2017104416A1 WO 2017104416 A1 WO2017104416 A1 WO 2017104416A1 JP 2016085553 W JP2016085553 W JP 2016085553W WO 2017104416 A1 WO2017104416 A1 WO 2017104416A1
Authority
WO
WIPO (PCT)
Prior art keywords
quality
audiovisual
content
audio
video
Prior art date
Application number
PCT/JP2016/085553
Other languages
English (en)
French (fr)
Inventor
和久 山岸
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US15/776,425 priority Critical patent/US10869072B2/en
Priority to KR1020187011969A priority patent/KR102000590B1/ko
Priority to JP2017555964A priority patent/JP6662905B2/ja
Priority to RU2018118746A priority patent/RU2693027C1/ru
Priority to EP16875400.0A priority patent/EP3393125B1/en
Priority to CN201680073259.6A priority patent/CN108476317B/zh
Publication of WO2017104416A1 publication Critical patent/WO2017104416A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2407Monitoring of transmitted content, e.g. distribution time, number of downloads
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/02Diagnosis, testing or measuring for television systems or their details for colour television signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44209Monitoring of downstream path of the transmission network originating from a server, e.g. bandwidth variations of a wireless network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64723Monitoring of network processes or resources, e.g. monitoring of network load
    • H04N21/64738Monitoring network characteristics, e.g. bandwidth, congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Definitions

  • the present invention relates to an audiovisual quality estimation device, an audiovisual quality estimation method, and a program.
  • Video communication services that transfer video media including video and audio (hereinafter also including audio) between terminals or between a server and a terminal via the Internet have become widespread.
  • the Internet is a network whose communication quality is not always guaranteed. Therefore, when communicating using audio media or video media, the bit rate is lowered and the line is congested due to the narrow line bandwidth of the viewer terminal and the network. As a result, packet loss, packet transfer delay, and packet retransmission occur, and the quality perceived by the viewer for audio media, video media, and the like deteriorates.
  • the original video is encoded because the video cannot be distributed at an excessive bit rate via the network, but when the original video is encoded, the video signal in the frame is converted into a block unit. Deterioration due to the above processing occurs, or high-frequency components of the video signal are lost, so that the fineness of the entire video is lowered.
  • the delivery bit rate cannot be secured, the resolution of the video is lowered, the sense of detail is lowered, and the continuity of the video cannot be secured by reducing the frame rate, resulting in a discontinuous video.
  • encoded video data is transmitted as a packet to the viewer terminal via the network, if packet loss or discard occurs, the frame will deteriorate, the throughput will decrease, and the packet will be played back until the playback timing.
  • the video buffer stops at the viewer terminal due to insufficient data buffer capacity at the viewer terminal.
  • the original sound is encoded.
  • the high frequency component of the sound is lost. Sound intelligibility is lost.
  • video when encoded audio data is transmitted as a packet to the viewer terminal via the network, if packet loss or discard occurs, the audio is distorted, the throughput is reduced, and the packet is reproduced.
  • the audio buffer does not reach by the timing of the above, and the data buffer amount at the viewer terminal is insufficient, so that the sound reproduction stops.
  • the audio visual quality experienced by the viewer is measured during the service provision, and On the other hand, it is important to be able to monitor the high quality of the audiovisual provided.
  • methods for evaluating audio visual quality include a subjective quality evaluation method (for example, see Non-Patent Document 1) and an objective quality evaluation method (for example, Non-Patent Document 2).
  • a plurality of viewers actually watch a video and experience the quality experienced by a quality scale (very good, normal, bad, Very bad) and disturbance scale (no degradation is observed at all, degradation is observed but not bothered, slightly concerned about degradation, concerned about degradation, very anxious about degradation), etc.
  • Average the quality evaluation values of each video for example, video with a packet loss rate of 0% and a bit rate of 2 Mbps
  • MOS Mean Opinion Score
  • DMOS Degradation Mean Opinion Score
  • an objective quality evaluation method that outputs an audiovisual quality evaluation value by using feature quantities (for example, bit rate, packet loss information, etc.) that affect video quality and audio quality.
  • feature quantities for example, bit rate, packet loss information, etc.
  • One of the conventional objective quality evaluation methods is to input the transmitted packets and setting values obtained from service providers, etc., and consider how much degradation propagates due to loss of video frames caused by packet loss.
  • the conventional objective quality evaluation method estimates the audio visual quality evaluation value in a short time using a packet as described above.
  • Non-Patent Document 2 is based on the assumption that the quality of audiovisual quality is about 10 seconds, for example, and is intended for video communication services distributed at a constant bit rate. It is difficult to apply to quality estimation of services (for example, HLS (HTTP Live Streaming) and MPEG-DASH) in which audio visual quality varies with time. Specifically, in Non-Patent Document 2, since audio visual quality in a short time is estimated, it is not assumed that the quality greatly fluctuates with time as shown in FIG. It is difficult to estimate the audiovisual quality of the image (Problem 1).
  • HLS HTTP Live Streaming
  • MPEG-DASH MPEG-DASH
  • Non-Patent Document 2 aims to estimate audio visual quality in a short time, and therefore, long-time content (for example, several minutes of video, 30 minutes of scale) at the time when the viewer finally finishes viewing. It is difficult to apply to the estimation of audio visual quality of an animation of 2 hours and a movie. Specifically, when the viewer views the content for a long time, the impression of the first part of the content tends to fade, and conversely, the impression of the last part tends to remain (forgetting effect / familiarity effect). However, Non-Patent Document 2 does not take into consideration that the temporal weight for quality increases with time (Problem 2).
  • Non-Patent Document 2 it is not considered that the state where the audio visual quality is low has a stronger influence on the final audio visual quality than the state where the audio visual quality is high (Problem 3).
  • the audiovisual quality is estimated in consideration of encoding degradation of audiovisual content, the number of playback stops of the audiovisual content, the playback stop time, and the playback stop interval. Since it is based on fluctuations, the relationship between the audio visual content time length and playback stop time cannot be considered. For example, even if the playback stop time is 10 seconds, an audio visual content of 10 seconds and an audio visual content of 1 hour have an effect on audio visual quality (the former is 10 seconds when the content length is 10 seconds). Audio visual quality is very low due to the playback stop of the video, while the audio visual quality remains high because the latter has a 10 second pause in audio visual content. ) Is very different, but this effect has not been taken into account. Similarly, regarding the number of playback stops and the playback stop interval, the content length cannot be taken into consideration (Problem 4).
  • the present invention has been made in view of the above points, and an object of the present invention is to enable quality evaluation even when the quality of audiovisual changes with time.
  • the audio visual quality estimation device estimates the sound quality per unit time from the start of the reproduction of the content based on the parameters affecting the sound quality among the parameters related to the audio visual content.
  • An audio quality estimation unit a video quality estimation unit that estimates video quality per unit time based on a parameter that affects video quality among parameters relating to the content, and the audio quality and the video quality Unit time quality estimation unit that estimates audio visual quality per unit time by integrating every unit time, and audio visual quality per unit time are integrated into one, and temporal quality fluctuations are added.
  • Estimate audiovisual coding quality against coding degradation And Goka quality estimation unit based on said audio-visual encoding quality, having an audio-visual quality estimation unit the viewer after the end of the content to estimate the felt audiovisual quality.
  • ⁇ Quality evaluation can be performed even when the quality of audiovisual changes over time.
  • FIG. 2 is a diagram illustrating a hardware configuration example of the audiovisual quality estimation apparatus according to the embodiment of the present invention.
  • the audio visual quality estimation apparatus 10 in FIG. 2 includes a drive device 100, an auxiliary storage device 102, a memory device 103, a CPU 104, an interface device 105, and the like that are mutually connected by a bus B.
  • a program that realizes processing in the audiovisual quality estimation apparatus 10 is provided by a recording medium 101 such as a flexible disk or a CD-ROM.
  • a recording medium 101 such as a flexible disk or a CD-ROM.
  • the program is installed from the recording medium 101 to the auxiliary storage device 102 via the drive device 100.
  • the program need not be installed from the recording medium 101 and may be downloaded from another computer via a network.
  • the program may be installed as a part of another program.
  • the auxiliary storage device 102 stores the installed program and also stores necessary files and data.
  • the memory device 103 reads the program from the auxiliary storage device 102 and stores it when there is an instruction to start the program.
  • the CPU 104 executes functions related to the audiovisual quality estimation device 10 according to a program stored in the memory device 103.
  • the interface device 105 is used as an interface for connecting to a network.
  • FIG. 3 is a diagram illustrating a functional configuration example of the audiovisual quality estimation apparatus according to the embodiment of the present invention.
  • the audio visual quality estimation device 10 is configured to estimate the audio visual quality finally felt by the viewer for audio visual content (hereinafter simply referred to as “content”). It includes a video quality estimation unit 12, a unit time quality estimation unit 13, an encoding quality estimation unit 14, an audio visual quality estimation unit 15, and the like. Each of these units is realized by processing that one or more programs installed in the audio visual quality estimation apparatus 10 cause the CPU 104 to execute. That is, these units are realized by cooperation of hardware resources of the audiovisual quality estimation apparatus 10 and a program (software) installed in the audiovisual quality estimation apparatus 10.
  • the sound quality estimation unit 11 estimates the sound quality per unit time for the content based on the sound parameters (for example, sound bit rate, sampling rate, etc.) that affect the sound quality of the content among the parameters related to the content. (Hereinafter simply referred to as “acoustic quality”).
  • the unit time is a relatively short time with respect to the content length (content time length) such as 1 second, 5 seconds, or 10 seconds.
  • the video quality estimation unit 12 determines the video quality per unit time for the content based on video parameters (for example, video bit rate, resolution, frame rate, etc.) that affect the video quality of the content among the parameters related to the content.
  • An estimated value (hereinafter simply referred to as “video quality”) is calculated.
  • the unit time quality estimator 13 performs unit time on content based on the sound quality per unit time output from the sound quality estimator 11 and the video quality per unit time output from the video quality estimator 12. Calculate an estimate of the audiovisual quality for each.
  • the encoding quality estimator 14 determines the audio visual encoding quality of the content against encoding degradation taking into account temporal quality fluctuations. An estimated value (hereinafter simply referred to as “audio visual coding quality”) is calculated.
  • the audio visual quality estimation unit 15 and the audio visual encoding quality output from the encoding quality estimation unit 14 and buffering parameters related to audio visual playback stop (for example, the total time of playback stop time, the number of playback stops, and the playback stop)
  • the average value of the audio visual quality that the viewer finally feels (hereinafter simply referred to as “audio visual quality”) is calculated.
  • the reproduction stop is not an intentional reproduction stop by the viewer but a reproduction stop that occurs based on deterioration of the quality of the content.
  • the audio visual quality estimation unit 15 may further calculate the audio visual quality based on the time length of the audio visual content (however, the pure content length not including the stop time).
  • input parameters such as audio parameters, video parameters, and buffering parameters shown in FIG. 3 are automatically generated from, for example, a packet when content is transferred over a network or a viewer terminal (terminal used for viewing content). Or may be extracted from information other than the packet.
  • FIG. 4 is a diagram showing an example of a functional configuration when input parameters are extracted from a content packet or the like. 4, the same parts as those in FIG. 3 are denoted by the same reference numerals, and the description thereof is omitted.
  • the parameter extraction unit 20 may be realized by the audiovisual quality estimation apparatus 10 or may be realized by an apparatus (computer) other than the audiovisual quality estimation apparatus 10. In any case, the parameter extraction unit 20 is realized by a process in which a program installed in a computer (the audiovisual quality estimation apparatus 10 or another apparatus) is executed by a CPU of an installation destination apparatus.
  • the parameter extraction unit 20 uses media parameters (acoustic parameters and video parameters) and buffering using information that can be extracted from any of the information provided by the service provider providing the video communication service, the packet for transferring the content, and the viewer terminal. Extract parameters.
  • the parameter extraction unit 20 includes a media parameter extraction unit 21 and a buffering parameter extraction unit 22.
  • the media parameter extraction unit 21 extracts an audio bit rate as an audio parameter, and extracts a video bit rate, a resolution, and a frame rate as video parameters.
  • the media parameter may be extracted from Segmentation formats or MPD received by the viewer terminal, or the media parameter is extracted from the bit stream in which the encoding information is described. Also good.
  • FIG. 5 is a diagram for explaining a method of extracting media parameters for each unit time from MPD.
  • (1) in FIG. 5 shows that the length of the chunk of content (Chunk) is 5 seconds. From the MPD attached to each chunk, the audio bit rate abr, video bit rate vbr, resolution rs, and It indicates that the frame rate fr and the like can be extracted.
  • the media parameter of the first chunk (Chunk1) can be assigned to each second up to the 5th second.
  • the media parameters of the second chunk (Chunk 2) can be assigned to each second from the 6th to the 10th second.
  • the media parameters extracted for the chunk corresponding to each second can be assigned.
  • audio parameters such as audio bit rate, video bit rate, resolution, and frame rate can be considered as media parameters that affect audio quality and video quality.
  • the service provider sets these values and encodes content. Therefore, the audio visual quality estimation apparatus 10 may directly use these set values.
  • the buffering parameter extraction unit 22 extracts the total playback stop time, the number of playback stops, and the average value of the playback stop time intervals as buffering parameters.
  • FIG. 6 is a diagram for explaining buffering parameters.
  • a rectangle indicating the time required for reproducing the content A is shown. According to the lower rectangle, when 10 seconds have passed since the start of playback (when the content A is played back at the 10th second), when 5 seconds of playback stop (b1) has occurred and 25 seconds have passed since the start of playback.
  • a playback stop (b2) of 10 seconds occurs, and when 65 seconds have elapsed from the start of the playback (at the playback of the 50th second of the content A), It is shown that the reproduction stop (b3) has occurred.
  • the buffering parameter may be calculated by detecting the time when the content is actually stopped by the player. Since the player is playing while grasping the playback time, for example, the information of PTS (Presentation time stamp) can be obtained and the current time can be matched to obtain the playback stop start time and the playback stop time length. .
  • PTS Presentation time stamp
  • FIG. 7 is a flowchart for explaining an example of a processing procedure executed by the audiovisual quality estimation apparatus.
  • target content When information such as packets (for example, all packets used for transferring the target content) related to the quality evaluation target content (hereinafter referred to as “target content”) is input to the parameter extraction unit 20, media parameter extraction is performed.
  • the unit 21 calculates an audio parameter (audio bit rate) that affects the audio quality and an image parameter (video bit rate, resolution, frame rate) that affects the video quality, and extracts buffering parameters.
  • the unit 22 calculates buffering parameters relating to buffering (the number of playback stops, the total playback stop time, and the average value of playback stop intervals) (S101).
  • the audio parameters are output to the audio quality estimation unit 11
  • the video parameters are output to the video quality estimation unit 12
  • the buffering parameters are output to the audio visual quality estimation unit 15.
  • the acoustic quality estimation unit 11 calculates the acoustic quality per unit time for the target content based on the input acoustic parameters, and outputs the calculated acoustic quality to the unit time quality estimation unit 13 ( S102).
  • the acoustic quality estimation unit 11 calculates the acoustic quality AQ (t) per unit time from the acoustic bit rate abr (t) per unit time of the target content. Specifically, it is calculated using the following formula (1) in consideration of the characteristic that the acoustic quality AQ (t) decreases with a decrease in the acoustic bit rate abr (t).
  • the acoustic quality estimation unit 11 may calculate the acoustic quality AQ (t) using a mathematical formula different from the mathematical formula (1).
  • the video quality estimation unit 12 calculates the video quality per unit time for the target content based on the input video parameters, and outputs the calculated video quality to the unit time quality estimation unit 13 ( S103).
  • the video quality estimation unit 12 calculates the video quality VQ (t) per unit time from the video bit rate vbr (t), resolution rs (t), and frame rate fr (t) per unit time of the target content. .
  • the theoretical maximum / maximum video quality X (t) determined for each set of resolution and frame rate is considered, and the maximum / maximum video quality X (t) is determined by the resolution rs (t) or Considering a characteristic that decreases with a decrease in the frame rate fr (t), a characteristic that the video quality VQ (t) decreases with a decrease in the video bit rate vbr (t) with respect to the maximum / maximum video quality X (t). Is calculated using the following formulas (2) and (3).
  • vbr (t) is obtained from the video bit rate t seconds after the start of content reproduction
  • rs (t) is obtained from the number of lines in the vertical and horizontal directions and the number of pixels t seconds after the start of content reproduction.
  • the resolution, fr (t) is the frame rate after t seconds from the start of content reproduction, and the values calculated by the media parameter extraction unit 21 and the coefficients v 1 , v 2 ,..., V 7 are set in advance. Constant.
  • the video quality estimation unit 12 may calculate the video quality VQ (t) using a mathematical formula different from the mathematical formulas (2) and (3).
  • the unit time quality estimation unit 13 integrates the input audio quality AQ (t) and video quality VQ (t) for each unit time, and calculates the audio visual quality for each unit time.
  • the audio visual quality for each unit time is output to the encoding quality estimation unit 14 (S104).
  • the unit time quality estimation unit 13 assigns the audio visual quality TAVQ (t) for each unit time to the weight of the influence of the sound quality AQ (t) and the video quality VQ (t) for each unit time. It is calculated using the following mathematical formula (4).
  • av 1, av 2, av 3, av 4 is a preset constant.
  • the encoding quality estimation unit 14 integrates the input audiovisual quality TAVQ (t) for each unit time, calculates the audiovisual encoding quality considering only encoding degradation, and calculates The audio-visual coding quality thus output is output to the audio-visual quality estimation unit 15 (S105).
  • the encoding quality estimation unit 14 calculates the audiovisual encoding quality CAVQ using the following formula (5).
  • duration is the time length (seconds) of the audiovisual content (however, a pure content length not including the playback stop time), and may be set in advance, for example.
  • the audio visual quality TAVQ (t) for each unit time from the start to the end of the content is increased in weight toward the end of the content (relatively close to the end of the content).
  • the audio visual coding quality CAVQ is derived by calculating the weighted average (by increasing the weight of the audio visual quality TAVQ per unit time).
  • the weighted average is calculated by increasing the influence when the audio visual quality TAVQ (t) per unit time is small (that is, when the quality is low) as a weight, so that the audio visual coding quality CAVQ is derived. Is done.
  • w 1 (u) is expressed by an exponential function, but w 1 (u) is an audiovisual quality related to a unit time that is relatively close to the end of the content, such as a linear function or a quadratic function. What is necessary is just to formulate with the function whose weight becomes large as TAVQ. Therefore, w 1 (u) is not limited to an exponential function.
  • w 2 (TAVQ (t)) is expressed by a linear function, but w 2 (TAVQ (t)) is formulated by a function that increases weight when quality is low, such as an exponential function. That's fine. Therefore, w 2 (TAVQ (t)) is not limited to a linear function.
  • the audio visual quality estimation unit 15 calculates the audio visual quality based on the input buffering parameters and the audio visual encoding quality CAVQ (S106).
  • the audio visual quality estimation unit 15 performs the audio visual coding quality CAVQ, the total length of the playback stop time, which is a buffering parameter, the number of playback stop times, and the average value of the playback stop time intervals, the audio visual content Based on the time length (however, the pure content length not including the stop time), the audio visual quality AVQ finally experienced by the viewer is calculated using the following formula (6).
  • duration is the time length of audio-visual content (however, pure content length not including stop time)
  • numofBuff is the number of playback stops
  • totalBuffLen is the total length of playback stop time
  • avgBuffInterval is the average of playback stop time intervals
  • the parameters related to playback stop are divided by the time length of the content.
  • an exponential function is applied to the buffering parameters, and the degree of influence is formulated.
  • the number of playback stops (numofBuff)
  • the totalBuffLen the total length of playback stop times
  • avgBuffInterval the average value of playback stop time intervals
  • the number of playback stops (numofBuff), the total length of playback stop time (totalBuffLen), and the average value of playback stop time intervals (avgBuffInterval) are all formulated. You may formulate using. Furthermore, in this embodiment, the number of playback stops (numofBuff), the total length of playback stop times (totalBuffLen), and the average value of playback stop time intervals (avgBuffInterval) are used as buffering parameters.
  • Average playback stop time (avgBuffLen) obtained by dividing the total length of time (totalBuffLen) by the number of playback stops (numofBuff), variance of playback stop time (varBuffLen), maximum / minimum value of playback stop time (maxBuffLen / minBuffLen), playback stop
  • the maximum / minimum value / variance (maxBuffInterval / minBuffInterval / varBuffInterval) of the time interval is calculated, and the audio video that the viewer finally experiences is calculated. Yuaru quality AVQ may be calculated.
  • the present embodiment it is possible to evaluate the quality even when the quality of the audiovisual changes with time based on the media parameter and the buffering parameter obtained from the information such as the packet. Or the accuracy of the evaluation can be improved.
  • Each coefficient (a 1 , a 2 , a 3 , v 1 ,..., V 7 , av 1 ,..., Av 4 , t 1 ,..., T 5 , s 1 , s 2 , s 3 ) can be derived, for example, by performing a subjective quality evaluation experiment, using the obtained quality evaluation value, and using an optimization method such as a least square method.
  • the audio visual quality value for each unit time is estimated from the sound quality and the video quality for each unit time (for example, a short time such as 1 second, 5 seconds, and 10 seconds), and the unit time.
  • Each audiovisual quality value is weighted and integrated to estimate the audiovisual quality for a long time (for example, several minutes to several hours).
  • the quality weight at the end of playback is made higher than the quality at the start of content playback.
  • weighting is performed so that the low quality strongly influences the final quality.
  • the audio visual quality can be estimated by taking into consideration the influence of the time length of the audiovisual content on the reproduction stop and the influence of the time length of the audiovisual content on the reproduction stop time.
  • the audio visual quality value (that is, the audio visual quality AVQ output from the audio visual quality estimation apparatus 10) of the video communication service actually viewed by the viewer is monitored and provided. It is possible to easily determine whether or not the service inside is maintaining a certain level of quality for the viewer, and it is possible to grasp and manage the actual quality of the service being provided in real time.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

オーディオビジュアルのコンテンツに関するパラメータのうち、音響品質に影響を与えるパラメータに基づいて、コンテンツの再生開始時から単位時間ごとの音響品質を推定し、コンテンツに関するパラメータのうち、映像品質に影響を与えるパラメータに基づいて、単位時間ごとの映像品質を推定し、音響品質及び映像品質を単位時間ごとに統合して、単位時間ごとのオーディオビジュアル品質を推定し、単位時間ごとのオーディオビジュアル品質を一つに統合して、時間的な品質変動を加味した、符号化劣化に対するオーディオビジュアル符号化品質を推定し、オーディオビジュアル符号化品質に基づいて、コンテンツの終了後に視聴者が体感するオーディオビジュアル品質を推定することで、オーディオビジュアルの品質が時間的に変化する場合であっても品質評価を可能とする。

Description

オーディオビジュアル品質推定装置、オーディオビジュアル品質推定方法、及びプログラム
 本発明は、オーディオビジュアル品質推定装置、オーディオビジュアル品質推定方法、及びプログラムに関する。
 インターネットを介して映像や音響(以下、音声も含む)を含む映像メディアを端末間あるいはサーバと端末との間で転送する映像通信サービスが普及している。
 インターネットは、必ずしも通信品質が保証されていないネットワークであるため、音声メディアや映像メディアなどを用いて通信を行う場合、視聴者端末とネットワークの回線帯域が狭いことによるビットレートの低下、回線が輻輳することによるパケット損失、パケット転送遅延、パケットの再送が発生し、音声メディアや映像メディアなどに対して視聴者が知覚する品質が劣化してしまう。
 具体的には、ネットワークを介して過剰なビットレートで映像を配信することができないために原映像について符号化が行われるが、原映像を符号化する際に、フレーム内の映像信号にブロック単位の処理による劣化が生じたり、映像信号の高周波成分が失われることにより、映像全体の精細感が低くなったりする。また、配信ビットレートを確保できないために、映像の解像度を低下させ、精細感が低くなったり、フレームレートを低下させることで映像の連続性が確保できず、不連続な映像になったりする。また、符号化された映像データをパケットとしてネットワークを介して視聴者端末に送信する際、パケット損失や廃棄が発生すると、フレーム内に劣化が生じたり、スループット等が低下しパケットが再生のタイミングまでに届かず、視聴者端末でのデータバッファ量が不足して映像の再生が停止したりする。
 同様に、音響においても、ネットワークを介して過剰なビットレートで音響を配信することができないために原音響について符号化が行われるが、原音響を符号化する際に、音響の高周波成分が失われ、音響の明瞭度が失われる。また、映像同様に、符号化された音響データをパケットとしてネットワークを介して視聴者端末に送信する際、パケット損失や廃棄が発生すると、音響に歪が生じたり、スループット等が低下しパケットが再生のタイミングまでに届かず、視聴者端末でのデータバッファ量が不足して音響の再生が停止したりする。
 結果として、視聴者は、映像劣化、音響劣化を知覚し、オーディオビジュアル品質の低下を知覚する。
 サービス提供者が、上記のような映像通信サービスを良好な品質で提供していることを確認するためには、サービス提供中に、視聴者が体感するオーディオビジュアルの品質を測定し、視聴者に対して提供されるオーディオビジュアルの品質が高いことを監視できることが重要となる。
 したがって、視聴者が体感するオーディオビジュアル品質を適切に表現することができるオーディオビジュアル品質推定技術が必要とされている。
 従来、オーディオビジュアル品質を評価する手法として、主観品質評価法(例えば、非特許文献1参照)や、客観品質評価法(例えば、非特許文献2参照)がある。
 主観品質評価法では、複数の視聴者が実際に映像を視聴し、体感した品質を、5段階(9段階や11段階の場合もある)の品質尺度(非常に良い、良い、ふつう、悪い、非常に悪い)や妨害尺度(劣化が全く認められない、劣化が認められるが気にならない、劣化がわずかに気になる、劣化が気になる、劣化が非常に気になる)などにより評価し、全視聴者数で各映像(例えば、パケット損失率0%でビットレートが2Mbpsの映像)の品質評価値を平均し、その値をMOS(Mean Opinion Score)値やDMOS(Degradation Mean Opinion Score)値として定義している。
 しかしながら、主観品質評価は、特別な専用機材(モニタなど)や評価環境(室内照度や室内騒音など)を必要とするだけではなく、多数の視聴者が実際に映像や音響を評価する必要がある。そのため、視聴者が実際に評価を完了するまでに時間がかかってしまい、品質をリアルタイムに評価したい場合には不向きである。
 そこで、映像品質や音響品質に影響を与える特徴量(例えば、ビットレート、パケット損失情報など)を利用し、オーディオビジュアル品質評価値を出力する客観品質評価法の開発が望まれている。
 従来の客観品質評価法の1つに、送信されたパケットとサービス提供者などから得た設定値を入力とし、パケット損失により発生した映像フレームの損失により、どの程度、劣化が伝搬するかを考慮し、実コンテンツの尺長(例えば、30分、1時間、2時間など)に対し、短時間(例えば、10秒程度)のオーディオビジュアル品質評価値を導出する技術がある(例えば、非特許文献2参照)。
 従来の客観品質評価法は、上記のように、パケットを用いて短時間におけるオーディオビジュアル品質評価値を推定するものであった。
Subjective video quality assessment methods for multimedia applications,ITU-T P.910 Parametric non-intrusive assessment of audiovisual media streaming quality,ITU-T P.1201
 しかしながら、非特許文献2の技術は、例えば、10秒程度のオーディオビジュアルの品質の推定を前提としており、一定のビットレートで配信される映像通信サービスを対象としているため、ビットレートが時間的に変動し、オーディオビジュアル品質が時間的に変動するようなサービス(例えば、HLS(HTTP Live Streaming)やMPEG-DASH)の品質推定には適用が困難である。具体的には、非特許文献2では、短時間のオーディオビジュアル品質を推定することから、図1に示すように、時間的に品質が大きく変動することが想定されていないため、このような状況のオーディオビジュアル品質を推定するのが困難である(課題1)。
 また、非特許文献2は、短時間のオーディオビジュアル品質の推定を目的としているため、最終的に視聴者が視聴し終わった時点の長時間のコンテンツ(例えば、数分尺の映像、30分尺のアニメ、2時間尺の映画など)のオーディオビジュアル品質の推定には適用が困難である。具体的には、視聴者が長時間のコンテンツを視聴した際は、コンテンツの最初の方の印象が薄れ、逆に、最後の方の印象が残る傾向がある(忘却効果/親近効果)。しかし、非特許文献2では、品質に対する時間的な重みが時間の経過とともに大きくなる点が考慮されていない(課題2)。
 また、非特許文献2では、オーディオビジュアル品質が低い状態は、オーディオビジュアル品質が高い状態より、最終的なオーディオビジュアル品質に与える影響が強いことが考慮されていない(課題3)。
 また、非特許文献2では、オーディオビジュアルコンテンツの符号化劣化、オーディオビジュアルコンテンツの再生停止回数、再生停止時間、再生停止間隔を考慮して、オーディオビジュアル品質を推定しているが、短時間の時間変動を前提としているため、オーディオビジュアルコンテンツの時間長と再生停止時間の関係を考慮できていない。例えば、再生停止時間が10秒であっても、10秒のオーディオビジュアルコンテンツと、1時間のオーディオビジュアルコンテンツとでは、オーディオビジュアル品質に与える影響(前者はコンテンツ長が10秒尺のものに10秒の再生停止が発生しているためオーディオビジュアル品質は非常に低い。一方で、後者は1時間尺のオーディオビジュアルコンテンツに10秒の再生停止が発生しているため、オーディオビジュアル品質は高い品質を維持している。)は大きく異なるが、このような影響を加味できていない。再生停止回数や再生停止間隔についても同様に、コンテンツ長を加味できていない(課題4)。
 本発明は、上記の点に鑑みてなされたものであって、オーディオビジュアルの品質が時間的に変化する場合であっても品質評価を可能とすることを目的とする。
 そこで上記課題を解決するため、オーディオビジュアル品質推定装置は、オーディオビジュアルのコンテンツに関するパラメータのうち、音響品質に影響を与えるパラメータに基づいて、前記コンテンツの再生開始時から単位時間ごとの音響品質を推定する音響品質推定部と、前記コンテンツに関するパラメータのうち、映像品質に影響を与えるパラメータに基づいて、前記単位時間ごとの映像品質を推定する映像品質推定部と、前記音響品質及び前記映像品質を前記単位時間ごとに統合して、前記単位時間ごとのオーディオビジュアル品質を推定する単位時間品質推定部と、前記単位時間ごとのオーディオビジュアル品質を一つに統合して、時間的な品質変動を加味した、符号化劣化に対するオーディオビジュアル符号化品質を推定する符号化品質推定部と、前記オーディオビジュアル符号化品質に基づいて、前記コンテンツの終了後に視聴者が体感するオーディオビジュアル品質を推定するオーディオビジュアル品質推定部と、を有する。
 オーディオビジュアルの品質が時間的に変化する場合であっても品質評価を可能とすることができる。
オーディオビジュアル品質の時間的な変動を説明する図である。 本発明の実施の形態におけるオーディオビジュアル品質推定装置のハードウェア構成例を示す図である。 本発明の実施の形態におけるオーディオビジュアル品質推定装置の機能構成例を示す図である。 入力パラメータがコンテンツのパケット等から抽出される場合の機能構成例を示す図である。 MPDから単位時間ごとのメディアパラメータを抽出する方法を説明するための図である。 バッファリングパラメータを説明するための図である。 オーディオビジュアル品質推定装置が実行する処理手順の一例を説明するためのフローチャートである。
 以下、図面に基づいて本発明の実施の形態を説明する。図2は、本発明の実施の形態におけるオーディオビジュアル品質推定装置のハードウェア構成例を示す図である。図2のオーディオビジュアル品質推定装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
 オーディオビジュアル品質推定装置10での処理を実現するプログラムは、フレキシブルディスク又はCD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。また、当該プログラムは、他のプログラムの一部としてインストールされるようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従ってオーディオビジュアル品質推定装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
 図3は、本発明の実施の形態におけるオーディオビジュアル品質推定装置の機能構成例を示す図である。図3において、オーディオビジュアル品質推定装置10は、オーディオビジュアルコンテンツ(以下、単に「コンテンツ」という。)について、視聴者が最終的に感じたオーディオビジュアル品質を推定するために、音響品質推定部11、映像品質推定部12、単位時間品質推定部13、符号化品質推定部14、及びオーディオビジュアル品質推定部15等を有する。これら各部は、オーディオビジュアル品質推定装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。すなわち、これら各部は、オーディオビジュアル品質推定装置10のハードウェア資源と、オーディオビジュアル品質推定装置10にインストールされたプログラム(ソフトウェア)との協働によって実現される。
 音響品質推定部11は、コンテンツに関するパラメータのうち、コンテンツの音響品質に影響を与える音響パラメータ(例えば、音響ビットレート、サンプリングレート等)に基づいて、コンテンツについて、単位時間ごとの音響品質の推定値(以下、単に「音響品質」という。)を算出する。単位時間は、例えば、1秒、5秒、又は10秒等、コンテンツ長(コンテンツの時間長)に対して相対的に短い時間である。
 映像品質推定部12は、コンテンツに関するパラメータのうち、コンテンツの映像品質に影響を与える映像パラメータ(例えば、映像ビットレート、解像度、フレームレート等)に基づいて、コンテンツについて、単位時間ごとの映像品質の推定値(以下、単に「映像品質」という。)を算出する。
 単位時間品質推定部13は、音響品質推定部11から出力される単位時間ごとの音響品質と、映像品質推定部12から出力される単位時間ごとの映像品質とに基づいて、コンテンツについて、単位時間ごとのオーディオビジュアル品質の推定値を算出する。
 符号化品質推定部14は、単位時間品質推定部13から出力される単位時間ごとのオーディオビジュアル品質に基づいて、コンテンツについて、時間的な品質変動を加味した符号化劣化に対するオーディオビジュアル符号化品質の推定値(以下、単に「オーディオビジュアル符号化品質」という。)を算出する。
 オーディオビジュアル品質推定部15は、符号化品質推定部14から出力されるオーディオビジュアル符号化品質と、オーディオビジュアルの再生停止に関するバッファリングパラメータ(例えば、再生停止時間の総時間、再生停止回数、再生停止間隔の平均値)とに基づいて、視聴者が最終的に(コンテンツの視聴終了後に)感じるオーディオビジュアル品質の推定値(以下、単に「オーディオビジュアル品質」という。)を算出する。なお、再生停止とは、視聴者による意図的な再生の停止ではなく、コンテンツの品質の劣化に基づいて発生する再生の停止をいう。なお、オーディオビジュアル品質推定部15は、更に、オーディオビジュアルコンテンツの時間長(但し、停止時間を含まない純粋なコンテンツ長)に基づいてオーディオビジュアル品質を算出してもよい。
 なお、図3に示される音響パラメータ、映像パラメータ、及びバッファリングパラメータ等の入力パラメータは、例えば、コンテンツがネットワーク転送される際のパケットや視聴者端末(コンテンツの閲覧に利用される端末)から自動的に抽出されてもよいし、パケット以外の情報から抽出されてもよい。
 図4は、入力パラメータがコンテンツのパケット等から抽出される場合の機能構成例を示す図である。図4中、図3と同一部分には同一符号を付し、その説明は省略する。
 図4では、図3に対して、パラメータ抽出部20が追加されている。パラメータ抽出部20は、オーディオビジュアル品質推定装置10によって実現されてもよいし、オーディオビジュアル品質推定装置10以外の装置(コンピュータ)によって実現されてもよい。いずれの場合であっても、パラメータ抽出部20は、コンピュータ(オーディオビジュアル品質推定装置10又は他の装置)にインストールされたプログラムが、インストール先の装置のCPUに実行させる処理により実現される。
 パラメータ抽出部20は、映像通信サービスを提供するサービス提供者が有する情報、コンテンツを転送するパケット、視聴者端末のいずれかから抽出できるパラメータを用いてメディアパラメータ(音響パラメータ及び映像パラメータ)及びバッファリングパラメータを抽出する。図4において、パラメータ抽出部20は、メディアパラメータ抽出部21及びバッファリングパラメータ抽出部22を含む。
 メディアパラメータ抽出部21は、音響パラメータとして音響ビットレートを抽出し、映像パラメータとして映像ビットレート、解像度、及びフレームレートを抽出する。
 ネットワーク内で(ネットワークを流れるパケットから)メディアパラメータを抽出する方法としては、Segmentation formatsやMPD(Media presentation description)からメディアパラメータを抽出する方法が挙げられる。視聴者端末でメディアパラメータを抽出する方法としては、視聴者端末が受信したSegmentation formatsやMPDからメディアパラメータが抽出されても良いし、符号化情報が記載されたビットストリームからメディアパラメータが抽出されてもよい。
 図5は、MPDから単位時間ごとのメディアパラメータを抽出する方法を説明するための図である。
 図5の(1)は、コンテンツのチャンク(Chunk)の長さが5秒であり、各チャンクに付随しているMPDから、当該チャンクに関する音響ビットレートabr、映像ビットレートvbr、解像度rs、及びフレームレートfr等を抽出可能であることを示す。
 (2)では、(1)に示されるような状況において、単位時間が1秒である場合、5秒目までの各秒には、1番目のチャンク(Chunk1)のメディアパラメータを割り当てることができ、6~10秒目までの各秒には、2番目のチャンク(Chunk2)のメディアパラメータを割り当てることができることを示す。以降の各秒についても、同様に、各秒に対応するチャンクについて抽出されたメディアパラメータを割り当てることができる。
 なお、例えば、音響品質及び映像品質に影響を与えるメディアパラメータとして、音響ビットレート、映像ビットレート、解像度、フレームレートが考えられるが、サービス提供者は、これらの値を設定してコンテンツを符号化しているため、オーディオビジュアル品質推定装置10は、これらの設定値を直接利用しても良い。
 バッファリングパラメータ抽出部22は、コンテンツの再生停止の総時間、再生停止回数、及び再生停止時間間隔の平均値を、バッファリングパラメータとして抽出する。
 図6は、バッファリングパラメータを説明するための図である。図6の上段には、コンテンツAのコンテンツ長(T=60秒)を示す矩形が示されている。図6の下段には、コンテンツAの再生に要した時間を示す矩形が示されている。下段の矩形によれば、再生開始から10秒が経過した時点(コンテンツAの10秒目の再生時)において、5秒間の再生停止(b1)が発生し、再生開始から25秒が経過した時点(コンテンツAの20秒目の再生時)において、10秒間の再生停止(b2)が発生し、再生開始から65秒が経過した時点(コンテンツAの50秒目の再生時)において、5秒間の再生停止(b3)が発生したことが示されている。この場合、コンテンツの再生停止の総時間は、5+10+5=20秒(b1+b2+b3)であり、再生停止回数は、3回である。また、最初の再生停止の開始時と、2番目の再生停止の開始時との間隔は、10秒であり、2番目の再生停止の開始時と、3番目の再生停止の開始時との間隔は、30秒である。したがって、この場合、再生停止時間間隔の平均値は、(10+30)÷2=20秒である。すなわち、再生停止時間間隔とは、或る再生停止について、その開始時から次の再生停止の開始時までの時間をいう。但し、再生停止回数が0もしくは1回の場合は、再生停止時間間隔の平均値は0とする。
 このようなバッファリングパラメータ(再生停止時間の総時間、再生停止回数、再生停止間隔の平均値)を、ネットワーク内で抽出する際には、視聴者端末のバッファ量が一定であることを仮定し、視聴者端末の受信バッファ量から算出することができる。具体的には、受信バッファでデータが枯渇した際に再生停止が発生するため、データの枯渇した回数を再生停止回数として推定することができ、ビットレートと受信バッファ量からコンテンツの停止開始時期と停止時間長とを推定することができる。視聴者端末内でバッファリングパラメータを抽出する際には、実際にコンテンツが停止している時間をプレイヤーで検知してバッファリングパラメータを算出しても良い。プレイヤーで再生時間を把握しながら再生をしているため、例えば、PTS(Presentation time stamp)の情報を取得し、現在時刻と突合することで、再生停止開始時期と再生停止時間長とを把握できる。
 以下、オーディオビジュアル品質推定装置10が実行する処理手順について説明する。図7は、オーディオビジュアル品質推定装置が実行する処理手順の一例を説明するためのフローチャートである。
 品質の評価対象のコンテンツ(以下、「対象コンテンツ」という。)に関するパケット等の情報(例えば、対象コンテンツの転送に利用された全てのパケット)がパラメータ抽出部20に入力されると、メディアパラメータ抽出部21が、音響品質に影響を与える音響パラメータ(音響ビットレート)と、映像品質に影響を与える映像パラメータ(映像ビットレート、解像度、フレームレート)とを単位時間ごとに算出し、バッファリングパラメータ抽出部22が、バッファリングに関するバッファリングパラメータ(再生停止回数、再生停止の総時間、再生停止間隔の平均値)を算出する(S101)。音響パラメータは、音響品質推定部11へ出力され、映像パラメータは、映像品質推定部12へ出力され、バッファリングパラメータは、オーディオビジュアル品質推定部15へ出力される。
 続いて、音響品質推定部11は、入力された音響パラメータに基づいて、対象コンテンツについて、単位時間ごとの音響品質を算出し、算出された音響品質を、単位時間品質推定部13に出力する(S102)。
 音響品質推定部11は、対象コンテンツの単位時間ごとの音響ビットレートabr(t)から、単位時間ごとの音響品質AQ(t)を算出する。具体的には、音響ビットレートabr(t)の低下に対し音響品質AQ(t)が低下する特性を考慮し、以下の数式(1)を利用して算出する。
Figure JPOXMLDOC01-appb-M000001
 ただし、abr(t)は、コンテンツの再生開始時からt秒後の音響ビットレートとしてメディアパラメータ抽出部21によって算出された値、係数a,a,aは、予め設定された定数とする。本実施の形態では、単位時間は、1秒であるとする。すなわち、コンテンツについて、1秒ごとの音響品質AQ(t)が推定されるため、t=1,2,3,…秒である。なお、tは、バッファリングによる再生停止時間を除いたコンテンツの再生開始時からの経過時間である。つまり、60秒のコンテンツの場合、途中に再生停止が10秒入っても、t=1,2,…,60となる。但し、音響品質推定部11は、数式(1)とは異なる数式を用いて音響品質AQ(t)を算出してもよい。
 続いて、映像品質推定部12は、入力された映像パラメータに基づいて、対象コンテンツについて、単位時間ごとの映像品質を算出し、算出された映像品質を、単位時間品質推定部13に出力する(S103)。
 映像品質推定部12は、対象コンテンツの単位時間ごとの映像ビットレートvbr(t)、解像度rs(t)、及びフレームレートfr(t)から、単位時間ごとの映像品質VQ(t)を算出する。具体的には、解像度とフレームレートの組ごとに決まる理論上の最高/最大映像品質X(t)を考慮すること、また、最高/最大映像品質X(t)は、解像度rs(t)やフレームレートfr(t)の低下とともに低下する特性を考慮すること、上記最高/最大映像品質X(t)に対し、映像ビットレートvbr(t)の低下とともに映像品質VQ(t)が低下する特性を考慮し、以下の数式(2)及び(3)を用いて算出される。
Figure JPOXMLDOC01-appb-M000002
 ただし、vbr(t)は、コンテンツの再生開始時からt秒後の映像ビットレート、rs(t)は、コンテンツの再生開始時からt秒後の垂直・水平方向のライン数及び画素数から求められた解像度(例えば、1920×1080などの総画素数)又は垂直方向のライン数若しくは水平方向の画素数のみを把握可能な場合には、当該ライン数若しくは当該画素数から公知の方法で算出された解像度、fr(t)は、コンテンツの再生開始時からt秒後のフレームレートであり、メディアパラメータ抽出部21によって算出された値、係数v,v,…,vは、予め設定された定数とする。本実施の形態では、1秒ごとの映像品質VQ(t)が推定されるため、t=1,2,3,…秒である。但し、映像品質推定部12は、数式(2)及び(3)とは異なる数式を用いて映像品質VQ(t)を算出してもよい。
 続いて、単位時間品質推定部13は、入力された音響品質AQ(t)及び映像品質VQ(t)を単位時間ごとに統合して、単位時間ごとのオーディオビジュアル品質を算出し、算出された単位時間ごとのオーディオビジュアル品質を、符号化品質推定部14へ出力する(S104)。
 具体的には、単位時間品質推定部13は、単位時間ごとのオーディオビジュアル品質TAVQ(t)を、単位時間ごとの音響品質AQ(t)及び映像品質VQ(t)の影響の重みを付けて、以下の数式(4)を用いて算出する。
Figure JPOXMLDOC01-appb-M000003
 ただし、av,av,av,avは、予め設定された定数とする。tは、コンテンツの再生開始時からバッファリングによる再生停止を除いた経過時間(t=1,2,3,…秒)である。
 続いて、符号化品質推定部14は、入力された単位時間ごとのオーディオビジュアル品質TAVQ(t)を一つに統合して、符号化劣化のみを加味したオーディオビジュアル符号化品質を算出し、算出されたオーディオビジュアル符号化品質をオーディオビジュアル品質推定部15へ出力する(S105)。
 課題2で示したように、忘却効果/親近効果の影響があるため、品質に対する時間的な重みは時間の経過とともに大きくなる(w(u))。また、課題3で示したように低い品質が最終的な品質に与える影響(重み)は大きくなる(w(TAVQ(t)))。そこで、符号化品質推定部14は、オーディオビジュアル符号化品質CAVQを、以下の数式(5)を用いて算出する。
Figure JPOXMLDOC01-appb-M000004
 ただし、durationは、オーディオビジュアルコンテンツの時間長(秒)(ただし、再生停止時間を含まない純粋なコンテンツ長)であり、例えば、予め設定されていてもよい。tは、再生開始時からの経過時間(t=1,2,3,…秒)、t,t,t,t,tは予め設定された定数とする。
 すなわち、数式(5)によれば、コンテンツの開始から終了にかけての単位時間ごとのオーディオビジュアル品質TAVQ(t)について、コンテンツの終了に向かって重みを大きくして(コンテンツの終了に相対的に近い単位時間に係るオーディオビジュアル品質TAVQほど重みを大きくして)加重平均が算出されることで、オーディオビジュアル符号化品質CAVQが導出される。加えて、単位時間ごとのオーディオビジュアル品質TAVQ(t)が小さい場合(つまり、品質が低い場合)の影響を重みとして大きくして加重平均が算出されることで、オーディオビジュアル符号化品質CAVQが導出される。
 本実施の形態ではw(u)は指数関数で表現されているが、w(u)は、一次関数や二次関数等、コンテンツの終了に相対的に近い単位時間に係るオーディオビジュアル品質TAVQほど重みが大きくなる関数で定式化されていればよい。したがって、w(u)は、指数関数に限られない。また、w(TAVQ(t))は一次関数で表現されているが、w(TAVQ(t))は、指数関数等、品質が低い場合に重みが大きくなる関数で定式化されていればよい。したがって、w(TAVQ(t))は、一次関数に限られない。
 なお、w(u)=1またはw(TAVQ(t))=1とすると、それぞれの重みのみを考慮した推定式となる。また、品質が低い期間に対して重みを大きくするw(TAVQ(T))を推定式に導入することに代えて、品質の低下回数が大きいほどCAVQが小さくなる推定式としてもよい。品質の向上回数と低下回数の和をもって変動回数として、変動回数が多いほどCAVQが小さくなる推定式としてもよい。これらをw(TAVQ(T))と併用してもよい。
 続いて、オーディオビジュアル品質推定部15は、入力されたバッファリングパラメータ及びオーディオビジュアル符号化品質CAVQに基づいて、オーディオビジュアル品質を算出する(S106)。
 具体的には、オーディオビジュアル品質推定部15は、オーディオビジュアル符号化品質CAVQと、バッファリングパラメータである再生停止時間の総長、再生停止回数、及び再生停止時間の間隔の平均値、オーディオビジュアルコンテンツの時間長(ただし、停止時間を含まない純粋なコンテンツ長)とに基づいて、最終的に視聴者が体感するオーディオビジュアル品質AVQを、以下の数式(6)を用いて算出する。
Figure JPOXMLDOC01-appb-M000005
 ただし、durationはオーディオビジュアルコンテンツの時間長(ただし、停止時間を含まない純粋なコンテンツ長)、numofBuffは、再生停止回数、totalBuffLenは、再生停止時間の総長、avgBuffIntervalは、再生停止時間の間隔の平均値、係数s,s,sは予め設定された定数とする。
 課題4に示したように、コンテンツ時間長と再生停止とが、最終的なオーディオビジュアル品質に与える影響を加味するため、再生停止に関するパラメータが、コンテンツの時間長によって除算されている。本実施の形態では、バッファリングパラメータに指数関数を適用し、その影響度合いを定式化している。但し、数式(6)は、べき乗、対数などを用いて、再生停止回数(numofBuff)、再生停止時間の総長(totalBuffLen)、再生停止時間の間隔の平均値(avgBuffInterval)がコンテンツの時間長との関係で、相対的に増加すると最終的に視聴者が体感するオーディオビジュアル品質AVQが低下する関数で定式化されていればよい。また、本実施の形態では、再生停止回数(numofBuff)、再生停止時間の総長(totalBuffLen)、再生停止時間の間隔の平均値(avgBuffInterval)のすべてを用いて定式化しているが、いずれか一つを用いて定式化してもよい。さらに、本実施の形態では、バッファリングパラメータとして、再生停止回数(numofBuff)、再生停止時間の総長(totalBuffLen)、再生停止時間の間隔の平均値(avgBuffInterval)を用いているが、例えば、再生停止時間の総長(totalBuffLen)を再生停止回数(numofBuff)で除算した再生停止平均時間(avgBuffLen)、再生停止時間の分散(varBuffLen)、再生停止時間の最大値/最小値(maxBuffLen/minBuffLen)、再生停止時間の間隔の最大値/最小値/分散(maxBuffInterval/minBuffInterval/varBuffInterval)等を計算し、最終的に視聴者が体感するオーディオビジュアル品質AVQを算出してもよい。
 上述したように、本実施の形態によれば、パケット等の情報から得られるメディアパラメータ及びバッファリングパラメータに基づいて、オーディオビジュアルの品質が時間的に変化する場合であっても品質評価を可能とする、又は当該評価の精度を向上させることができる。
 なお、数1-5に記載される各係数(a,a,a,v,…,v,av,…,av,t,…,t,s,s,s)は、例えば、主観品質評価実験を実施し、得られた品質評価値を用い、最小二乗法等の最適化手法を用いて導出することができる。
 従来、オーディオビジュアル品質を推定する際、短時間のオーディオビジュアル品質を推定することが前提となっており、オーディオビジュアル品質が時間的に変動する際の品質推定ができない(課題1)、視聴完了時のオーディオビジュアル品質は、視聴開始時の印象が薄く、視聴完了時の印象が強く残る傾向を考慮できていない(課題2)、オーディオビジュアル品質が変動する際、最終的なオーディオビジュアル品質は、低い品質に強く影響を受ける点を考慮できていない(課題3)、オーディオビジュアル品質は再生停止のみならずオーディオビジュアルコンテンツの尺長にも依存することが考慮できていない(課題4)、といった課題が有った。
 これに対し、本実施の形態は、単位時間(例えば、1秒、5秒、10秒などの短時間)ごとの音響品質及び映像品質から単位時間ごとのオーディオビジュアル品質値を推定し、単位時間ごとのオーディオビジュアル品質値に重みづけをして統合し、長時間(例えば、数分~数時間)のオーディオビジュアル品質を推定する。ここで、視聴者の忘却効果/親近効果を考慮するために、コンテンツの再生開始時の品質と比較して再生終了時の品質の重みが高くなるようにされる。また、オーディオビジュアル品質が時間的に変動する際に、低品質が最終的な品質に強く影響を与える点を考慮できるように重みづけがされる。また、オーディオビジュアルコンテンツの時間長が再生停止に与える影響を加味すると共に、オーディオビジュアルコンテンツの時間長が再生停止時間に与える影響を加味し、オーディオビジュアル品質を推定することができる。
 したがって、本実施の形態によれば、視聴者が実際に視聴する映像通信サービスのオーディオビジュアル品質値(すなわち、オーディオビジュアル品質推定装置10から出力されるオーディオビジュアル品質AVQ)を監視することで、提供中のサービスが視聴者に対してある一定以上の品質を保っているか否かを容易に判断することができ、提供中のサービスの品質実態をリアルタイムで把握・管理することが可能となる。
 このため、提供中のサービスの品質実態を従来技術でオーディオビジュアル品質評価をできなかった点を改善することが可能となる。
 以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
 本出願は、2015年12月16日に出願された日本国特許出願第2015-244983号と、2016年8月17日に出願された日本国特許出願第2016-160182号とに基づきその優先権を主張するものであり、同日本国特許出願の全内容を参照することにより本願に援用する。
10     オーディオビジュアル品質推定装置
11     音響品質推定部
12     映像品質推定部
13     単位時間品質推定部
14     符号化品質推定部
15     オーディオビジュアル品質推定部
20     パラメータ抽出部
21     メディアパラメータ抽出部
22     バッファリングパラメータ抽出部
100    ドライブ装置
101    記録媒体
102    補助記憶装置
103    メモリ装置
104    CPU
105    インタフェース装置
B      バス

Claims (9)

  1.  オーディオビジュアルのコンテンツに関するパラメータのうち、音響品質に影響を与えるパラメータに基づいて、前記コンテンツの再生開始時から単位時間ごとの音響品質を推定する音響品質推定部と、
     前記コンテンツに関するパラメータのうち、映像品質に影響を与えるパラメータに基づいて、前記単位時間ごとの映像品質を推定する映像品質推定部と、
     前記音響品質及び前記映像品質を前記単位時間ごとに統合して、前記単位時間ごとのオーディオビジュアル品質を推定する単位時間品質推定部と、
     前記単位時間ごとのオーディオビジュアル品質を一つに統合して、時間的な品質変動を加味した、符号化劣化に対するオーディオビジュアル符号化品質を推定する符号化品質推定部と、
     前記オーディオビジュアル符号化品質に基づいて、前記コンテンツの終了後に視聴者が体感するオーディオビジュアル品質を推定するオーディオビジュアル品質推定部と、
    を有することを特徴とするオーディオビジュアル品質推定装置。
  2.  前記符号化品質推定部は、前記単位時間ごとのオーディオビジュアル品質について、前記コンテンツの終了に相対的に近い単位時間に係る前記オーディオビジュアル品質ほど重みを大きくして加重平均を算出することで、前記オーディオビジュアル符号化品質を推定する、
    ことを特徴とする請求項1記載のオーディオビジュアル品質推定装置。
  3.  前記符号化品質推定部は、前記単位時間ごとのオーディオビジュアル品質について、低いオーディオビジュアル品質ほど重みを大きくして加重平均を算出することで、前記オーディオビジュアル符号化品質を推定する、
    ことを特徴とする請求項1又は2記載のオーディオビジュアル品質推定装置。
  4.  オーディオビジュアルのコンテンツに関するパラメータのうち、音響品質に影響を与えるパラメータに基づいて、音響品質を推定する音響品質推定部と、
     前記コンテンツに関するパラメータのうち、映像品質に影響を与えるパラメータに基づいて、映像品質を推定する映像品質推定部と、
     前記音響品質及び前記映像品質を統合したオーディオビジュアル品質と、前記コンテンツの再生停止に関するパラメータとに基づいて、前記コンテンツの終了後に視聴者が体感するオーディオビジュアル品質を推定するオーディオビジュアル品質推定部と、
    を備えるオーディオビジュアル品質推定装置であって、
     前記オーディオビジュアル品質推定部は、
     前記再生停止に関するパラメータが前記コンテンツの時間長との関係で相対的に大きくなるほど前記オーディオビジュアル品質が低くなるように前記オーディオビジュアル品質を推定する、
    ことを特徴とするオーディオビジュアル品質推定装置。
  5.  オーディオビジュアルのコンテンツに関するパラメータのうち、音響品質に影響を与えるパラメータに基づいて、前記コンテンツの再生開始時から単位時間ごとの音響品質を推定する音響品質推定手順と、
     前記コンテンツに関するパラメータのうち、映像品質に影響を与えるパラメータに基づいて、前記単位時間ごとの映像品質を推定する映像品質推定手順と、
     前記音響品質及び前記映像品質を前記単位時間ごとに統合して、前記単位時間ごとのオーディオビジュアル品質を推定する単位時間品質推定手順と、
     前記単位時間ごとのオーディオビジュアル品質を一つに統合して、時間的な品質変動を加味した、符号化劣化に対するオーディオビジュアル符号化品質を推定する符号化品質推定手順と、
     前記オーディオビジュアル符号化品質に基づいて、前記コンテンツの終了後に視聴者が体感するオーディオビジュアル品質を推定するオーディオビジュアル品質推定手順と、
    をコンピュータが実行することを特徴とするオーディオビジュアル品質推定方法。
  6.  前記符号化品質推定手順は、前記単位時間ごとのオーディオビジュアル品質について、前記コンテンツの終了に相対的に近い単位時間に係る前記オーディオビジュアル品質ほど重みを大きくして加重平均を算出することで、前記オーディオビジュアル符号化品質を推定する、
    ことを特徴とする請求項5記載のオーディオビジュアル品質推定方法。
  7.  前記符号化品質推定手順は、前記単位時間ごとのオーディオビジュアル品質について、低いオーディオビジュアル品質ほど重みを大きくして加重平均を算出することで、前記オーディオビジュアル符号化品質を推定する、
    ことを特徴とする請求項5又は6記載のオーディオビジュアル品質推定方法。
  8.  オーディオビジュアルのコンテンツに関するパラメータのうち、音響品質に影響を与えるパラメータに基づいて、音響品質を推定する音響品質推定手順と、
     前記コンテンツに関するパラメータのうち、映像品質に影響を与えるパラメータに基づいて、映像品質を推定する映像品質推定手順と、
     前記音響品質及び前記映像品質を統合したオーディオビジュアル品質と、前記コンテンツの再生停止に関するパラメータとに基づいて、前記コンテンツの終了後に視聴者が体感するオーディオビジュアル品質を推定するオーディオビジュアル品質推定手順と、
    をコンピュータが実行し、
     前記オーディオビジュアル品質推定手順は、
     前記再生停止に関するパラメータが前記コンテンツの時間長との関係で相対的に大きくなるほど前記オーディオビジュアル品質が低くなるように前記オーディオビジュアル品質を推定する、
    ことを特徴とするオーディオビジュアル品質推定方法。
  9.  請求項1乃至4いずれか一項記載の各部としてコンピュータを機能させることを特徴とするプログラム。
PCT/JP2016/085553 2015-12-16 2016-11-30 オーディオビジュアル品質推定装置、オーディオビジュアル品質推定方法、及びプログラム WO2017104416A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
US15/776,425 US10869072B2 (en) 2015-12-16 2016-11-30 Audio-visual quality estimation device, method for estimating audio-visual quality, and program
KR1020187011969A KR102000590B1 (ko) 2015-12-16 2016-11-30 오디오 비주얼 품질 추정 장치, 오디오 비주얼 품질 추정 방법, 및 프로그램
JP2017555964A JP6662905B2 (ja) 2015-12-16 2016-11-30 オーディオビジュアル品質推定装置、オーディオビジュアル品質推定方法、及びプログラム
RU2018118746A RU2693027C1 (ru) 2015-12-16 2016-11-30 Устройство оценки качества аудиовизуального сигнала и способ оценки качества аудиовизуального сигнала
EP16875400.0A EP3393125B1 (en) 2015-12-16 2016-11-30 Audio/visual quality estimation device, method for estimating audio/visual quality, and program
CN201680073259.6A CN108476317B (zh) 2015-12-16 2016-11-30 音频视频质量推测装置、音频视频质量推测方法以及程序

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2015-244983 2015-12-16
JP2015244983 2015-12-16
JP2016160182 2016-08-17
JP2016-160182 2016-08-17

Publications (1)

Publication Number Publication Date
WO2017104416A1 true WO2017104416A1 (ja) 2017-06-22

Family

ID=59056339

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/085553 WO2017104416A1 (ja) 2015-12-16 2016-11-30 オーディオビジュアル品質推定装置、オーディオビジュアル品質推定方法、及びプログラム

Country Status (7)

Country Link
US (1) US10869072B2 (ja)
EP (1) EP3393125B1 (ja)
JP (1) JP6662905B2 (ja)
KR (1) KR102000590B1 (ja)
CN (1) CN108476317B (ja)
RU (1) RU2693027C1 (ja)
WO (1) WO2017104416A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019526190A (ja) * 2016-06-29 2019-09-12 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 適応マルチメディアストリーミングの品質推定
WO2019216197A1 (ja) * 2018-05-09 2019-11-14 日本電信電話株式会社 エンゲージメント推定装置、エンゲージメント推定方法及びプログラム
US20220343485A1 (en) * 2019-10-02 2022-10-27 Nippon Telegraph And Telephone Corporation Video quality estimation apparatus, video quality estimation method and program
WO2023233631A1 (ja) * 2022-06-02 2023-12-07 日本電信電話株式会社 映像品質推定装置、映像品質推定方法及びプログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11277461B2 (en) * 2019-12-18 2022-03-15 The Nielsen Company (Us), Llc Methods and apparatus to monitor streaming media
US20230262277A1 (en) * 2020-07-02 2023-08-17 Nippon Telegraph And Telephone Corporation Viewing completion rate estimation apparatus, viewing completion rate estimation method and program
WO2022016406A1 (zh) * 2020-07-22 2022-01-27 北京小米移动软件有限公司 信息传输方法、装置及通信设备
US11570228B2 (en) 2020-10-15 2023-01-31 Sandvine Corporation System and method for managing video streaming quality of experience
US11558668B2 (en) 2021-06-03 2023-01-17 Microsoft Technology Licensing, Llc Measuring video quality of experience based on decoded frame rate

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004172753A (ja) * 2002-11-18 2004-06-17 Nippon Telegr & Teleph Corp <Ntt> 映像・音声品質客観評価方法及び装置
JP2007194893A (ja) * 2006-01-19 2007-08-02 Nippon Telegr & Teleph Corp <Ntt> 映像品質評価装置および方法
JP2015122638A (ja) * 2013-12-24 2015-07-02 日本電信電話株式会社 品質推定装置、方法及びプログラム
JP2015520548A (ja) * 2012-04-23 2015-07-16 華為技術有限公司Huawei Technologies Co.,Ltd. マルチメディア品質を評価する方法及び装置
JP2015154234A (ja) * 2014-02-14 2015-08-24 日本電信電話株式会社 ユーザ体感品質推定装置、ユーザ体感品質推定方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2617893C (en) * 2005-09-06 2011-05-03 Nippon Telegraph And Telephone Corporation Video communication quality estimation device, method, and program
RU2420022C2 (ru) 2006-10-19 2011-05-27 Телефонактиеболагет Лм Эрикссон (Пабл) Способ определения качества видео
EP2106154A1 (en) * 2008-03-28 2009-09-30 Deutsche Telekom AG Audio-visual quality estimation
US9191284B2 (en) * 2010-10-28 2015-11-17 Avvasi Inc. Methods and apparatus for providing a media stream quality signal
GB2533878B (en) 2013-10-16 2020-11-11 Intel Corp Method, apparatus and system to select audio-video data for streaming

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004172753A (ja) * 2002-11-18 2004-06-17 Nippon Telegr & Teleph Corp <Ntt> 映像・音声品質客観評価方法及び装置
JP2007194893A (ja) * 2006-01-19 2007-08-02 Nippon Telegr & Teleph Corp <Ntt> 映像品質評価装置および方法
JP2015520548A (ja) * 2012-04-23 2015-07-16 華為技術有限公司Huawei Technologies Co.,Ltd. マルチメディア品質を評価する方法及び装置
JP2015122638A (ja) * 2013-12-24 2015-07-02 日本電信電話株式会社 品質推定装置、方法及びプログラム
JP2015154234A (ja) * 2014-02-14 2015-08-24 日本電信電話株式会社 ユーザ体感品質推定装置、ユーザ体感品質推定方法及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019526190A (ja) * 2016-06-29 2019-09-12 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 適応マルチメディアストリーミングの品質推定
US11463742B2 (en) 2016-06-29 2022-10-04 Telefonaktiebolaget Lm Ericsson (Publ) Quality estimation of adaptive multimedia streaming
WO2019216197A1 (ja) * 2018-05-09 2019-11-14 日本電信電話株式会社 エンゲージメント推定装置、エンゲージメント推定方法及びプログラム
JP2019197996A (ja) * 2018-05-09 2019-11-14 日本電信電話株式会社 エンゲージメント推定装置、エンゲージメント推定方法及びプログラム
JP7073894B2 (ja) 2018-05-09 2022-05-24 日本電信電話株式会社 エンゲージメント推定装置、エンゲージメント推定方法及びプログラム
US11425457B2 (en) 2018-05-09 2022-08-23 Nippon Telegraph And Telephone Corporation Engagement estimation apparatus, engagement estimation method and program
US20220343485A1 (en) * 2019-10-02 2022-10-27 Nippon Telegraph And Telephone Corporation Video quality estimation apparatus, video quality estimation method and program
WO2023233631A1 (ja) * 2022-06-02 2023-12-07 日本電信電話株式会社 映像品質推定装置、映像品質推定方法及びプログラム

Also Published As

Publication number Publication date
CN108476317A (zh) 2018-08-31
KR20180059890A (ko) 2018-06-05
RU2693027C1 (ru) 2019-07-01
CN108476317B (zh) 2021-07-09
EP3393125A1 (en) 2018-10-24
JP6662905B2 (ja) 2020-03-11
US20180332326A1 (en) 2018-11-15
US10869072B2 (en) 2020-12-15
KR102000590B1 (ko) 2019-07-16
JPWO2017104416A1 (ja) 2018-08-30
EP3393125A4 (en) 2019-08-21
EP3393125B1 (en) 2021-03-03

Similar Documents

Publication Publication Date Title
WO2017104416A1 (ja) オーディオビジュアル品質推定装置、オーディオビジュアル品質推定方法、及びプログラム
KR101465927B1 (ko) 비디오 데이터 품질 평가 방법 및 장치
Yang et al. Content-adaptive packet-layer model for quality assessment of networked video services
JP4490374B2 (ja) 映像品質評価装置および方法
JP4802209B2 (ja) 映像品質推定方法、装置およびプログラム
JP4861371B2 (ja) 映像品質推定装置、方法、およびプログラム
WO2021181724A1 (ja) 数理モデル導出装置、数理モデル導出方法及びプログラム
JP6162596B2 (ja) 品質推定装置、方法及びプログラム
JP4787303B2 (ja) 映像品質推定装置、方法、およびプログラム
WO2020170869A1 (ja) エンゲージメント推定装置、エンゲージメント推定方法及びプログラム
US20230048428A1 (en) A method for estimating bandwidth between a video server and a video client
JP5405915B2 (ja) 映像品質推定装置、映像品質推定方法および映像品質推定装置の制御プログラム
JP2013046113A (ja) 基本GoP長を用いた映像品質推定装置及び方法及びプログラム
JP2017204700A (ja) 映像再生装置、映像再生方法および映像再生プログラム
JP7215209B2 (ja) エンゲージメント推定装置、エンゲージメント推定方法及びプログラム
Chen et al. Impact of packet loss distribution on the perceived IPTV video quality
JP7255704B2 (ja) エンゲージメント推定装置、エンゲージメント推定方法及びプログラム
JP6660357B2 (ja) 品質推定装置、品質推定方法及びプログラム
WO2022003902A1 (ja) 視聴完了率推定装置、視聴完了率推定方法及びプログラム
JP2009194609A (ja) 映像品質推定装置、方法、およびプログラム
JP2019121847A (ja) 品質推定装置、品質推定方法及びプログラム
Moltchanov Problems arising in evaluating perceived quality of media applications in packet networks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16875400

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017555964

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20187011969

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15776425

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2016875400

Country of ref document: EP