KR102000590B1 - 오디오 비주얼 품질 추정 장치, 오디오 비주얼 품질 추정 방법, 및 프로그램 - Google Patents

오디오 비주얼 품질 추정 장치, 오디오 비주얼 품질 추정 방법, 및 프로그램 Download PDF

Info

Publication number
KR102000590B1
KR102000590B1 KR1020187011969A KR20187011969A KR102000590B1 KR 102000590 B1 KR102000590 B1 KR 102000590B1 KR 1020187011969 A KR1020187011969 A KR 1020187011969A KR 20187011969 A KR20187011969 A KR 20187011969A KR 102000590 B1 KR102000590 B1 KR 102000590B1
Authority
KR
South Korea
Prior art keywords
quality
audio visual
audio
content
estimating
Prior art date
Application number
KR1020187011969A
Other languages
English (en)
Other versions
KR20180059890A (ko
Inventor
카즈히사 야마기시
Original Assignee
니폰 덴신 덴와 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 니폰 덴신 덴와 가부시끼가이샤 filed Critical 니폰 덴신 덴와 가부시끼가이샤
Publication of KR20180059890A publication Critical patent/KR20180059890A/ko
Application granted granted Critical
Publication of KR102000590B1 publication Critical patent/KR102000590B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2407Monitoring of transmitted content, e.g. distribution time, number of downloads
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/02Diagnosis, testing or measuring for television systems or their details for colour television signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44209Monitoring of downstream path of the transmission network originating from a server, e.g. bandwidth variations of a wireless network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64723Monitoring of network processes or resources, e.g. monitoring of network load
    • H04N21/64738Monitoring network characteristics, e.g. bandwidth, congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

오디오 비주얼의 컨텐츠에 관한 파라미터 중, 음향 품질에 영향을 미치는 파라미터에 기초하여, 컨텐츠의 재생 개시 때부터 단위 시간마다의 음향 품질을 추정하고, 컨텐츠에 관한 파라미터 중, 영상 품질에 영향을 미치는 파라미터에 기초하여, 단위 시간마다의 영상 품질을 추정하고, 음향 품질 및 영상 품질을 단위 시간마다 통합하여, 단위 시간마다의 오디오 비주얼 품질을 추정하고, 단위 시간 마다의 오디오 비주얼 품질을 하나로 통합하여, 시간적인 품질 변동을 가미한, 부호화 열화에 대한 오디오 비주얼 부호화 품질을 추정하고, 오디오 비주얼 부호화 품질에 기초하여, 컨텐츠의 종료 후에 시청자가 체감하는 오디오 비주얼 품질을 추정함으로써, 오디오 비주얼의 품질이 시간적으로 변화되는 경우라도 품질 평가를 가능하게 한다.

Description

오디오 비주얼 품질 추정 장치, 오디오 비주얼 품질 추정 방법, 및 프로그램
본 발명은, 오디오 비주얼 품질 추정 장치, 오디오 비주얼 품질 추정 방법, 및 프로그램에 관한 것이다.
인터넷을 통해 영상이나 음향(이하, 음성도 포함)을 포함하는 영상 미디어를 단말간 혹은 서버와 단말과의 사이에서 전송하는 영상 통신 서비스가 보급되고 있다.
인터넷은, 반드시 통신 품질이 보증되는 네트워크가 아니기 때문에, 음성 미디어나 영상 미디어 등을 이용하여 통신을 수행하는 경우, 시청자 단말과 네트워크의 회전 대역이 좁음에 따른 비트레이트의 저하, 회선이 폭주하는 것에 따른 패킷 손실, 패킷 전송 지연, 패킷의 재송이 발생하고, 음성 미디어나 영상 미디어 등에 대해 시청자가 지각하는 품질이 열화되어 버린다.
구체적으로는, 네트워크를 통해 과잉된 비트레이트로 영상을 배포하는 것이 불가능하기 때문에 원영상에 대해 부호화가 수행되지만, 원영상을 부호화할 때에, 프레임 내의 영상 신호에 블록 단위의 처리에 따른 열화가 생기거나, 영상 신호의 고주파 성분이 사라짐에 따라, 영상 전체의 정밀감이 낮아 지거나 한다. 또, 배포 비트레이트를 확보할 수 없기 때문에, 영상의 해상도를 저하시키고, 정밀감이 낮아지거나, 프레임 레이트를 저하시킴으로써 영상의 연속성이 확보되지 않고, 불연속 영상이 되거나 한다. 또, 부호화된 영상 데이터를 패킷으로서 네트워크를 통해 시청자 단말로 송신할 때에, 패킷 손실이나 폐기가 발생하면, 프레임 내에 열화가 발생하거나, 스루풋 등이 저하되어 패킷이 재생의 타이밍까지 닿지 않아, 시청자 단말에서의 데이터 버퍼량이 부족하여 영상의 재생이 정지하거나 한다.
마찬가지로, 음향에 있어서도, 네트워크를 통해 과잉된 비트레이트로 음향을 배포할 수 없기 때문에 원음향에 대해 부호화가 수행되지만, 원음향을 부호화할 때에, 음향의 고주파 성분이 사라져, 음향의 명료도가 상실된다. 또, 영상과 마찬가지로, 부호화된 음향 데이터르 패킷으로서 네트워크를 통해 시청자 단말로 송신할 때에, 패킷 손실이나 폐기가 발생하면, 음향에 왜곡이 생기거나, 스루풋 등이 저하되어 패킷이 재생의 타이밍까지 도달하지 않아, 시청자 단말에서의 데이터 버퍼량이 부족하여 음향의 재생이 정지하거나 한다.
결과로서, 시청자는, 영상 열화, 음향 열화를 지각하고, 오디오 비주얼 품질의 저하를 지각한다.
서비스 제공자가, 상기와 같은 영상 통신 서비스를 양호한 품질로 제공하고 있는 것을 확인하기 위해서는, 서비스 제공중에, 시청자가 체감하는 오디오 비주얼의 품질을 측정하고, 시청자에 대해 제공되는 오디오 비주얼의 품질이 높다는 것을 감시할 수 있는 것이 중요해진다.
따라서, 시청자가 체감하는 오디오 비주얼 품질을 적절하게 표현할 수 있는 오디오 비주얼 품질 추정 기술이 필요해졌다.
종래, 오디오 비주얼 품질을 평가하는 수법으로서, 주관 품질 평가법(예를 들면, 비특허문헌 1 참조)이나, 객관 품질 평가법(예를 들면, 비특허문헌 2 참조)가 있다.
주관 품질 평가법에서는, 복수의 시청자가 실제로 영상을 시청하고, 체감한 품질을, 5단계(9단계나 11단계인 경우도 있다)의 품질 척도(매우 좋다, 좋다, 보통, 나쁘다, 매우 나쁘다)나 방해 척도(열화가 전혀 보이지 않는다, 열화가 보이지만 신경쓰이지 않는다, 열화가 약간 신경 쓰인다, 열화가 신경 쓰인다, 열화가 매우 신경쓰인다) 등으로 평가하고, 전 시청자수로 각 영상(예를 들면, 패킷 손실율 0%로 비트레이트가 2Mbps의 영상)의 품질 평가값을 평균화하고, 그 값을 MOS(Mean Opinion Score)값이나 DMOS(Degradation Mean Opinion Score)값으로서 정의하고 있다.
그러나, 주관 품질 평가는, 특별한 전용 기재(모니터 등)나 평가 환경(실내 조명이나 실내 소음 등)을 필요로 할 뿐 아니라, 다수의 시청자가 실제로 영상이나 음향을 평가할 필요가 있다. 그 때문에, 시청자가 실제로 평가를 완료하기까지 시간이 걸려, 품질을 실시간으로 평가하고자 하는 경우에는 부적절하다.
그래서, 영상 품질이나 음향 품질에 영향을 끼치는 특징량(예를 들면, 비트레이트, 패킷 손실 정보 등)을 이용하여, 오디오 비주얼 품질 평가값을 출력하는 객관 품질 평가법의 개발이 기대되고 있다.
종래의 객관 품질 평가법의 하나로, 송신된 패킷과 서비스 제공자 등으로부터 얻은 설정값을 입력으로 하고, 패킷 손실로 인해 발생한 영상 프레임의 손실로 인해, 어느 정도, 열화가 전파할지를 고려하여, 실제 컨텐츠의 길이(예를 들면, 30분, 1시간, 2시간 등)에 대해, 단시간(예를 들면, 10초 정도)의 오디오 비주얼 품질 평가값을 도출하는 기술이 있다(예를 들면, 비특허문헌 2 참조).
종래의 객관 품질 평가법은, 상기와 같이, 패킷을 이용하여 단시간에 있어서의 오디오 비주얼 품질 평가값을 추정하는 것이었다.
비특허문헌 1: Subjective video quality assessment methods for multimedia applications, ITU-T P.910 비특허문헌 2: Parametric non-intrusive assessment of audiovisual media streaming qualuty, ITU-T P.1201
그러나, 비특허문헌 2의 기술은, 예를 들면, 10초 정도의 오디오 비주얼의 품질의 추정을 전제로 하고 있으며, 일정한 비트레이트로 배포되는 영상 통신 서비스를 대상으로 하고 있기 때문에, 비트레이트가 시간적으로 변동되어, 오디오 비주얼 품질이 시간적으로 변동하는 서비스(예를 들면, HLS(HTTP Live Streaming)나 MPEG-DASH)의 품질 추정에는 적용이 어렵다. 구체적으로는, 비특허문헌 2에서는, 단시간의 오디오 비주얼 품질을 추정함으로써, 도 1에 도시하는 바와 같이, 단시간에 품질이 크게 변동하는 것이 상정되어 있지 않기 때문에, 이와 같은 상황의 오디오 비주얼 품질을 추정하는 것이 어렵다(과제 1).
또, 비특허문헌 2는, 단시간의 오디오 비주얼 품질의 추정을 목적으로 하고 있기 때문에, 최종적으로 시청자가 시청을 끝낸 시점의 장시간의 컨텐츠(예를 들면, 수 분 길이의 영상, 30분 길이의 애니메이션, 2시간 길이의 영화 등)의 오디오 비주얼 품질의 추정에는 적용이 어렵다. 구체적으로는, 시청자가 장시간의 컨텐츠를 시청했을 때는, 컨텐츠의 최초의 인상이 흐려지고, 반대로, 마지막의 인상이 남는 경향이 있다(망각 효과/친근 효과). 그러나, 비특허문헌 2에서는, 품질에 대한 시간적인 무제가 시간의 경과와 함께 커지는 점이 고려되어 있지 않다(과제 2).
또, 비특허문헌 2에서는, 오디오 비주얼 품질이 낮은 상태는, 오디오 비주얼 품질이 높은 상태보다, 최종적인 오디오 비주얼 품질에 끼치는 영향이 강한 것이 고려되고 있지 않다(과제 3).
또, 비특허문헌 2에서는, 오디오 비주얼 컨텐츠의 부호화 열화, 오디오 비주얼 컨텐츠의 재생 정지 횟수, 재생 정지 시간, 재생 정지 간격을 고려하여, 오디오 비주얼 품질을 추정하고 있지만, 단시간의 시간 변동을 전제로 하고 있기 때문에, 오디오 비주얼 컨텐츠의 시간 길이와 재생 정지 시간의 관계를 고려할 수 없다. 예를 들면, 재생 정지 시간이 10초라도, 10초의 오디오 비주얼 컨텐츠와, 1시간의 오디오 비주얼 컨텐츠는, 오디오 비주얼 품질에 끼치는 영향(전자는 컨텐츠 길이가 10초 길이인 것에 10초의 재생 정지가 발생하고 있기 때문에 오디오 비주얼 품질은 매우 낮다. 한편, 후자는 1시간 길이의 오디오 비주얼 컨텐츠에 10초의 재생 정지가 발생하고 있기 때문에, 오디오 비주얼 품질은 높은 품질을 유지하고 있다.)은 크게 다르지만, 이와 같은 영향이 가미되지 않았다. 재생 정지 횟수나 재생 정지 간격에 대해서도 마찬가지로, 컨텐츠 길이가 가미되지 않았다(과제 4).
본 발명은, 상기와 같은 점을 감안하여 이루어진 것이며, 오디오 비주얼의 품질이 시간적으로 변화하는 경우라도 품질 평가를 가능하게 하는 것을 목적으로 한다.
그래서 상기 과제를 해결하기 위해, 오디오 비주얼 품질 추정 장치는, 오디오 비주얼의 컨텐츠에 관한 파라미터 중, 음향 품질에 영향을 미치는 파라미터에 기초하여, 상기 컨텐츠의 재생 개시 때부터 단위 시간마다의 음향 품질을 추정하는 음향 품질 추정부와, 상기 컨텐츠에 관한 파라미터 중, 영상 품질에 영향을 미치는 파라미터에 기초하여, 상기 단위 시간마다의 영상 품질을 추정하는 영상 품질 추정부와, 상기 음향 품질 및 상기 영상 품질을 상기 단위 시간마다 통합하여, 상기 단위 시간마다의 오디오 비주얼 품질을 추정하는 단위 시간 품질 추정부와, 상기 단위 시간 마다의 오디오 비주얼 품질을 하나로 통합하여, 시간적인 품질 변동을 가미한, 부호화 열화에 대한 오디오 비주얼 부호화 품질을 추정하는 부호화 품질 추정부와, 상기 오디오 비주얼 부호화 품질에 기초하여, 상기 컨텐츠의 종료 후에 시청자가 체감하는 오디오 비주얼 품질을 추정하는 오디오 비주얼 품질 추정부를 갖는다.
오디오 비주얼의 품질이 시간적으로 변화하는 경우라도 품질 평가를 가능하게 할 수 있다.
도 1은 오디오 비주얼 품질의 시간적인 변동을 설명하는 도이다.
도 2는 본 발명의 실시형태에 있어서의 오디오 비주얼 품질 추정 장치의 하드웨어 구성예를 나타내는 도이다.
도 3은 본 발명의 실시형태에 있어서의 오디오 비주얼 품질 추정 장치의 기능 구성예를 나타내는 도이다.
도 4는 입력 파라미터가 컨텐츠의 패킷 등으로부터 추출되는 경우의 기능 구성예를 나타내는 도이다.
도 5는 MPD로부터 단위 시간마다의 미디어 파라미터를 추출하는 방법을 설명하기 위한 도이다.
도 6은 버퍼링 파라미터를 설명하기 위한 도이다.
도 7은 오디오 비주얼 품질 추정 장치가 실행하는 처리 수순의 일 예를 설명하기 위한 흐름도이다.
이하, 도면에 기초하여 본 발명의 실시형태를 설명한다. 도 2는, 본 발명의 실시형태에 있어서의 오디오 비주얼 품질 추정 장치의 하드웨어 구성예를 나타내는 도이다. 도 2의 오디오 비주얼 품질 추정 장치(10)는, 각각 버스(B)로 상호 접속되어 있는 드라이브 장치(100), 보조 기억 장치(102), 메모리 장치(103), CPU(104), 및 인터페이스 장치(105) 등을 갖는다.
오디오 비주얼 품질 추정 장치(10)에서의 처리를 실현하는 프로그램은, 플렉서블 디스크 또는 CD-ROM 등의 기록매체(101)에 의해 제공된다. 프로그램을 기억한 기록매체(101)가 드라이브 장치(100)에 세팅되면, 프로그램이 기록매체(101)로부터 드라이브 장치(100)를 통해 보조 기억 장치(102)에 인스톨된다. 단, 프로그램의 인스톨은 반드시 기록매체(101)로 수행할 필요는 없고, 네트워크를 통해 다른 컴퓨터로 다운로드하도록 해도 좋다. 또, 해당 프로그램은, 다른 프로그램의 일부로서 인스톨되도록 해도 좋다. 보조 기억 장치(102)는, 인스톨된 프로그램을 저장함과 동시에, 필요한 파일이나 데이터 등을 저장한다.
메모리 장치(103)는, 프로그램의 기동 지시가 있었던 경우에, 보조 기억 장치(102)로부터 프로그램을 독출하여 저장한다. CPU(104)는, 메모리 장치(103)에 저장된 프로그램에 따라 오디오 비주얼 품질 추정 장치(10)에 따른 기능을 실행한다. 인터페이스 장치(105)는, 네트워크에 접속하기 위한 인터페이스로서 이용된다.
도 3은, 본 발명의 실시형태에 있어서의 오디오 비주얼 품질 추정 장치의 기능 구성예를 나타내는 도이다. 도 3에 있어서, 오디오 비주얼 품질 추정 장치(10)는, 오디오 비주얼 컨텐츠(이하, 단순히 '컨텐츠'라고 한다.)에 대해, 시청자가 최종적으로 느낀 오디오 비주얼 품질을 추정하기 위해, 음향 품질 추정부(11), 영상 품질 추정부(12), 단위 시간 품질 추정부(13), 부호화 품질 추정부(14), 및 오디오 비주얼 품질 추정부(15) 등을 갖는다. 이들의 각 부는, 오디오 비주얼 품질 추정 장치(10)에 인스톨된 1 이상의 프로그램이, CPU(104)에 실행시키는 처리에 의해 실현된다. 즉, 이들의 각 부는, 오디오 비주얼 품질 추정 장치(10)의 하드웨어 자원과, 오디오 비주얼 품질 추정 장치(10)에 인스톨된 프로그램(소프트웨어)과의 협동에 의해 실현된다.
음향 품질 추정부(11)는, 컨텐츠에 관한 파라미터 중, 컨텐츠의 음향 품질에 영향을 미치는 음향 파라미터(예를 들면, 음향 비트레이트, 샘플링 레이트 등)에 기초하여, 컨텐츠에 대해, 단위 시간마다의 음향 품질의 추정값(이하, 단순히 '음향 품질'이라고 한다.)을 산출한다. 단위 시간은, 예를 들면, 1초, 5초, 또는 10초 등, 컨텐츠 길이(컨텐츠의 시간 길이)에 대해 상대적으로 짧은 시간이다.
영상 품질 추정부(12)는, 컨텐츠에 관한 파라미터 중, 컨텐츠의 영상 품질에 영향을 미치는 영상 파라미터(예를 들면, 영상 비트레이트, 해상도, 프레임 레이트 등)에 기초하여, 컨텐츠에 대해, 단위 시간마다의 영상 품질의 추정값(이하, 단순히 '영상 품질'이라고 한다.)을 산출한다.
단위 시간 품질 추정부(13)는, 음향 품질 추정부(11)로부터 출력되는 단위 시간마다의 음향 품질과, 영상 품질 추정부(12)로부터 출력되는 단위 시간마다의 영상 품질에 기초하여, 컨텐츠에 대해, 단위 시간마다의 오디오 비주얼 품질의 추정값을 산출한다.
부호화 품질 추정부(14)는, 단위 시간 품질 추정부(13)로부터 출력되는 단위 시간마다의 오디오 비주얼 품질에 기초하여, 컨텐츠에 대해, 시간적인 품질 변동을 가미한 부호화 열화에 대한 오디오 비주얼 부호화 품질의 추정값(이하, 단순히 '오디오 비주얼 부호화 품질'이라고 한다.)을 산출한다.
오디오 비주얼 품질 추정부(15)는, 부호화 품질 추정부(14)로부터 출력되는 오디오 비주얼 부호화 품질과, 오디오 비주얼의 재생 정지에 관한 버퍼링 파라미터(예를 들면, 재생 정지 시간의 총시간, 재생 정지 횟수, 재생 정지 간격의 평균값)에 기초하여, 시청자가 최종적으로(컨텐츠의 시청 종료 후에) 느끼는 오디오 비주얼 품질의 추정값(이하, 단순히 '오디오 비주얼 품질'이라고 한다.)을 산출한다. 또한, 재생 정지란, 시청자에 따른 의도적인 재생의 정지가 아니라, 컨텐츠의 품질의 열화에 기초하여 발생하는 재상의 정지를 말한다. 또한, 오디오 비주얼 품질 추정부(15)는, 또한, 오디오 비주얼 컨텐츠의 시간 길이(단, 정지 시간을 포함하지 않는 순수한 컨텐츠 길이)에 기초하여 오디오 비주얼 품질을 산출해도 좋다.
또한, 도 3에 도시되는 음향 파라미터, 영상 파라미터, 및 버퍼링 파라미터 등의 입력 파라미터는, 예를 들면, 컨텐츠가 네트워크 전송될 때의 패킷이나 시청자 단말(컨텐츠의 열람에 이용되는 단말)로부터 자동적으로 추출되어도 좋으며, 패킷 이외의 정보로부터 추출되어도 좋다.
도 4는, 입력 파라미터가 컨텐츠의 패킷 등으로부터 추출되는 경우의 기능 구성예를 나타내는 도이다. 도 4 중, 도 3과 동일 부분에는 동일 부호를 달고, 그 설명을 생략한다.
도 4에서는, 도 3에 대해, 파라미터 추출부(20)가 추가되어 있다. 파라미터 추출부(20)는, 오디오 비주얼 품질 추정 장치(10)에 의해 실현되어도 좋으며, 오디오 비주얼 품질 추정 장치(10) 이외의 장치(컴퓨터)에 의해 실현되어도 좋다. 어느 경우라도, 파라미터 추출부(20)는, 컴퓨터(오디오 비주얼 품질 추정 장치(10) 또는 다른 장치)에 인스톨된 프로그램이, 인스톨 처의 장치인 CPU에 실행시키는 처리에 의해 실현된다.
파라미터 추출부(20)는, 영상 통신 서비스를 제공하는 서비스 제공자가 갖는 정보, 컨텐츠를 전송하는 패킷, 시청자 단말 중 어느 하나로부터 추출할 수 있는 파라미터를 이용하여 미디어 파라미터(음향 파라미터 및 영상 파라미터) 및 버퍼링 파라미터를 추출한다. 도 4에 있어서, 파라미터 추출부(20)는, 미디어 파라미터 추출부(21) 및 버퍼링 파라미터 추출부(22)를 포함한다.
미디어 파라미터 추출부(21)는, 음향 파라미터로서 음향 비트레이트를 추출하고, 영상 파라미터로서 영상 비트레이트, 해상도, 및 프레임 레이트를 추출한다.
네트워크 내에서(네트워크를 흐르는 패킷으로부터) 미디어 파라미터를 추출하는 방법으로서는, Segmentation formats나 MPD(Media presentation description)로부터 미디어 파라미터를 추출하는 방법이 거론된다. 시청자 단말에서 미디어 파라미터를 추출하는 방법으로서는, 시청자 단말이 수신한 Segmentation formats나 MPD로부터 미디어 파라미터가 추출되어도 좋으며, 부호화 정보가 기재된 비트 스트림으로부터 미디어 파라미터가 추출되어도 좋다.
도 5는, MPD로부터 단위 시간마다의 미디어 파라미터를 추출하는 방법을 설명하기 위한 도이다.
도 5의 (1)은, 컨텐츠의 청크(Chunk)의 길이가 5초이며, 각 청크에 부수되어 있는 MPD로부터, 해당 청크에 관한 음향 비트레이트(abr), 영상 비트레이트(vbr), 해상도(rs), 및 프레임 레이트(fr) 등을 추출 가능한 것을 나타낸다.
(2)에서는, (1)에 도시되는 바와 같은 상황에 있어서, 단위 시간이 1초인 경우, 5초째까지의 각 초에는, 1번째 청크(Chunk1)의 미디어 파라미터를 할당할 수 있고, 6∼10초째까지의 각 초에는, 2번째 청크(Chunk2)의 미디어 파라미터를 할당할 수 있는 것을 나타낸다. 이후의 각 초에 대해서도, 마찬가지로, 각 초에 대응되는 청크에 대해 추출된 미디어 파라미터를 할당할 수 있다.
또한, 예를 들면, 음향 품질 및 영상 품질에 영향을 미치는 미디어 파라미터로서, 음향 비트레이트, 영상 비트레이트, 해당도, 프레임 레이트를 생각할 수 있으나, 서비스 제공자는, 이들의 값을 설정하여 컨텐츠를 부호화하고 있기 때문에, 오디오 비주얼 품질 추정 장치(10)는, 이들의 설정값을 직접 이용해도 좋다.
버퍼링 파라미터 추출부(22)는, 컨텐츠의 재생 정지의 총시간, 재생 정지 횟수, 및 재생 정지 시간 간격의 평균값을, 버퍼링 파라미터로서 추출한다.
도 6은, 버퍼링 파라미터를 설명하기 위한 도이다. 도 6의 상단에는, 컨텐츠 A의 컨텐츠 길이(T=60초)를 나타내는 직사각형이 도시되어 있다. 도 6의 하단에는, 컨텐츠 A의 재생에 요한 시간을 나타내는 직사각형이 도시되어 있다. 하단의 직사각형에 따르면, 재생 개시로부터 10초가 경과된 시점(컨텐츠 A의 10초째의 재생시)에 있어서, 5초간의 재생 정지(b1)가 발생하고, 재생 개시로부터 25초가 경과된 시점(컨텐츠 A의 20초째의 재생시)에 있어서, 10초간의 재생 정지(b2)가 발생하고, 재생 개시로부터 65초가 경과된 시점(컨텐츠 A의 50초째의 재생시)에 있어서, 5초간의 재생 정지(b3)가 발생했다는 것이 도시되어 있다. 이 경우, 컨텐츠의 재생 정지의 총시간은, 5+10+5=20초(b1+b2+b3)이며, 재생 정지 횟수는, 3회이다. 또, 최초의 재생 정지의 개시시와, 2번째의 재생 정지의 개시시와의 간격은, 10초이며, 2번째의 재생 정지의 개시시와, 3번째의 재생 정지의 개시시와의 간격은, 30초이다. 따라서, 이 경우, 재생 정지 시간 간격의 평균값은, (10+30)÷2=20초이다. 즉, 재생 정지 시간 각격이란, 어느 재생 정지에 대해, 그 개시시로부터 다음의 재생 정지의 개시시까지의 시간을 말한다. 단, 재생 정지 횟수가 0 혹은 1회인 경우는, 재생 정지 시간 간격의 평균값은 0으로 한다.
이와 같은 퍼버링 파라미터(재생 정지 시간의 총시간, 재생 정지 횟수, 재생 정지 간격의 평균값)를, 네트워크 내에서 추출할 때에는, 시청자 단말의 버퍼량이 일정한 것을 가정하고, 시청자 단말의 수신 버퍼량으로부터 산출할 수 있다. 구체적으로는, 수신 버퍼에서 데이터가 고갈된 경우에 재생 정지가 발생하기 때문에, 데이터가 고갈된 횟수를 재생 정지 횟수로서 추정할 수 있고, 비트레이트와 수신 버퍼량으로부터 컨텐츠의 정지 개시 시기와 정지 시간 길이를 추정할 수 있다. 시청자 단말 내에서 버퍼링 파라미터를 추출할 때에는, 실제로 컨텐츠가 정지되어 있는 시간을 플레이어에서 감지하여 버퍼링 파라미터를 산출해도 좋다. 플레이어에서 재생 시간을 파악하면서 재생을 하고 있기 때문에, 예를 들면, PTS(Presentation time stamp)의 정보를 취득하고, 현재 시각과 맞닿음으로써, 재생 정지 개시 시기와 재생 정지 시간 길이를 파악할 수 있다.
이하, 오디오 비주얼 품질 추정 장치(10)가 실행하는 처리 수순에 대해 설명한다. 도 7은, 오디오 비주얼 품질 추정 장치가 실행하는 처리 수순의 일 예를 설명하기 위한 흐름도이다.
품질의 평가 대상인 컨텐츠(이하, '대상 컨텐츠'라고 한다.)에 관한 패킷 등의 정보(예를 들면, 대상 컨텐츠의 전송에 이용된 모든 패킷)가 파라미터 추출부(20)에 입력되면, 미디어 파라미터 추출부(21)가, 음향 품질에 영향을 미치는 음향 파라미터(음향 비트레이트)와, 영상 품질에 영향을 미치는 영상 파라미터(영상 비트레이트, 해상도, 프레임 레이트)를 단위 시간마다 산출하고, 버퍼링 파라미터 추출부(22)가, 버퍼링에 관한 버퍼링 파라미터(재생 정지 횟수, 재생 정지의 총시간, 재생 정지 간격의 평균값)를 산출한다(S101). 음향 파라미터는, 음향 품질 추정부(11)로 출력되고, 영상 파라미터는, 영상 품질 추정부(12)로 출력되고, 버퍼링 파라미터는, 오디오 비주얼 품질 추정부(15)로 출력된다.
이어서, 음향 품질 추정부(11)는, 입력된 음향 파라미터에 기초하여, 대상 컨텐츠에 대해, 단위 시간마다의 음향 품질을 산출하고, 산출된 음향 품질을, 단위 시간 품질 추정부(13)로 출력한다(S102).
음향 품질 추정부(11)는, 대상 컨텐츠의 단위 시간마다의 음향 비트레이트(abr(t))로부터, 단위 시간마다의 음향 품질(AQ(t))을 산출한다. 구체적으로는, 음향 비트레이트(abr(t))의 저하에 대해 음향 품질(AQ(t))이 저하되는 특성을 고려하여, 이하의 수식(1)을 이용하여 산출한다.
Figure 112018041646486-pct00001
단, abr(t)는, 컨텐츠의 재생 개시 때부터 t초 후의 음향 비트레이트로서 미디어 파라미터 추출부(21)에 의해 산출된 값, 계수 a1, a2, a3은, 기설정된 상수이다. 본 실시형태에서는, 단위 시간은, 1초로 한다. 즉, 컨텐츠에 대해, 1초마다의 음향 품질(AQ(t))이 추정되기 때문에, t=1, 2, 3, …초이다. 또한, t는, 버퍼링에 따른 재생 정지 시간을 제외한 컨텐츠의 재생 개시 때부터의 경과 시간이다. 즉, 60초의 컨텐츠의 경우, 도중에 재생 정지가 10초 들어가도, t=1, 2, …, 60이 된다. 단, 음향 품질 추정부(11)는, 수식(1)과는 다른 수식을 이용하여 음향 품질(AQ(t))을 산출해도 좋다.
이어서, 영상 품질 추정부(12)는, 입력된 영상 파라미터에 기초하여, 대상 컨텐츠에 대해, 단위 시간마다의 영상 품질을 산출하고, 산출된 영상 품질을, 단위 시간 품질 추정부(13)로 출력한다(S103).
영상 품질 추정부(12)는, 대상 컨텐츠의 단위 시간마다의 영상 비트레이트(vbr(t)), 해상도(rs(t)), 및 프레임 레이트(fr(t))로부터, 단위 시간마다의 영상 품질(VQ(t))을 산출한다. 구체적으로는, 해상도와 프레임 레이트의 그룹마다 결정되는 이론상의 최고/최대 영상 품질(X(t))을 고려하는 것, 또, 최고/최대 영상 품질(X(t))을, 해상도(rs(t))나 프레임 레이트(fr(t))의 저하와 함께 저하되는 특성을 고려하는 것, 상기 최고/최대 영상 품질(X(t))에 대해, 영상 비트레이트(vbr(t))의 저하와 함께 영상 품질(VQ(t))이 저하되는 특성을 고려하여, 이하의 수식(2) 및 (3)을 이용하여 산출된다.
Figure 112018041646486-pct00002
단, vbr(t)는, 컨텐츠의 재생 개시 때부터 t초 후의 영상 비트레이트, rs(t)는, 컨텐츠의 재생 개시 때부터 t초 후의 수직·수평 방향의 라인수 및 화소수로부터 구해진 해상도(예를 들면, 1920×1080 등의 총 화소수) 또는 수직 방향의 라인수 혹은 수평 방향의 화소수만을 파악 가능한 경우에는, 해당 라인수 혹은 해당 화소수로부터 공지된 방법으로 산출된 해상도, fr(t)는, 컨텐츠의 재생 개시 때부터 t초 후의 프레임 레이트이며, 미디어 파라미터 추출부(21)에 의해 산출된 값, 계수 v1, v2, …, v7은, 기설정된 상수로 한다. 본 실시형태에서는, 1초마다의 영상 품질(VQ(t))이 추정되기 때문에, t=1, 2, 3, …초이다. 단, 영상 품질 추정부(12)는, 수식(2) 및 (3)과는 다른 수식을 이용하여 영상 품질(VQ(t))을 산출해도 좋다.
이어서, 단위 시간 품질 추정부(13)는, 입력된 음향 품질(AQ(t)) 및 영상 품질(VQ(t))을 단위 시간마다 통합하여, 단위 시간마다의 오디오 비주얼 품질을 산출하고, 산출된 단위 시간마다의 오디오 비주얼 품질을, 부호화 품질 추정부(14)로 출력한다(S104).
구체적으로는, 단위 시간 품질 추정부(13)는, 단위 시간마다의 오디오 비주얼 품질(TAVQ(t))을, 단위 시간마다의 음향 품질(AQ(t)) 및 영상 품질(VQ(t))의 영향의 무게를 부여하여, 이하의 수식(4)를 이용하여 산출한다.
Figure 112018041646486-pct00003
단, av1, av2, av3, av4는, 기설정된 상수로 한다. t는, 컨텐츠의 재생 개시 때로부터 버퍼링에 따른 재생 정지를 제외한 경과 시간(t=1, 2, 3, …초)이다.
이어서, 부호화 품질 추정부(14)는, 입력된 단위 시간마다의 오디오 비주얼 품질(TAVQ(t))을 하나로 통합하여, 부호화 열화만을 가미한 오디오 비주얼 부호화 품질을 산출하고, 산출된 오디오 비주얼 부호화 품질을 오디오 비주얼 품질 추정부(15)로 출력한다(S105).
과제 2에서 제시한 바와 같이, 망각 효과/친근 효과의 영향이 있기 때문에, 품질에 대한 시간적인 무게는 시간의 경과와 함께 커진다(w1(u)). 또, 과제 3에서 제시한 바와 같이 낮은 품질이 최종적인 품질에 미치는 영향(무게)는 커진다(w2(TAVQ(t))). 그래서, 부호화 품질 추정부(14)는, 오디오 비주얼 부호화 품질(CAVQ)을, 이하의 수식(5)을 이용하여 산출한다.
Figure 112018041646486-pct00004
단, duration은, 오디오 비주얼 컨텐츠의 시간 길이(초)(단, 재생 정지 시간을 포함하지 않는 순수한 컨텐츠 길이)이며, 예를 들면, 기설정되어 있어도 좋다. t는, 재생 개시 때부터의 경과 시간(t=1, 2, 3, …초), t1, t2, t3, t4, t5는 기설정된 상수로 한다.
즉, 수식(5)에 따르면, 컨텐츠의 개시부터 종료에 걸친 단위 시간마다의 오디오 비주얼 품질(TAVQ(t))에 대해, 컨텐츠의 종료를 향해 무게를 크게 하여(컨텐츠의 종료에 상대적으로 가까운 단위 시간에 따른 오디오 비주얼 품질(TAVQ)만큼 무게를 크게 하여) 가중 평균이 산출됨으로써, 오디오 비주얼 부호화 품질(CAVQ)이 도출된다. 또한, 단위 시간마다의 오디오 비주얼 품질(TAVQ(t))이 작은 경우(즉, 품질이 낮은 경우)의 영향을 무게로서 크게 하여 가중 평균이 산출됨으로써, 오디오 비주얼 부호화 품질(CAVQ)이 도출된다.
본 실시형태에서는 w1(u)는 지수함수로 표현되어 있으나, w1(u)는, 일차 함수나 이차 함수 등, 컨텐츠의 종료에 상대적으로 가까운 단위 시간에 따른 오디오 비주얼 품질(TAVQ)만큼 무게가 커지는 함수로 정식화되어 있으면 된다. 따라서, w1(u)는, 지수함수에 한정되지 않는다. 또, w2(TAVQ(t))는 일차 함수로 표현되어 있으나, w2(TAVQ(t))는, 지수함수 등, 품질이 낮은 경우에 무게가 커지는 함수로 정식화되어 있으면 좋다. 따라서, w2(TAVQ(t))는, 일차 함수에 한정되지 않는다.
또한, w1(u)=1 또는 w2(TAVQ(t))=1이라고 하면, 각각의 무게만을 고려한 추정식으로 한다. 또, 품질이 낮은 기간에 대해 무게를 크게 하는 w2(TAVQ(t))를 추정식에 도입하는 대신에, 품질의 저하 횟수가 클수록 CAVQ가 작아지는 추정식으로 해도 좋다. 품질의 향상 횟수와 저하 횟수의 합을 가지고 변동 횟수로서, 변동 횟수가 많을수록 CAVQ가 작아지는 추정식으로 해도 좋다. 이들을 w2(TAVQ(t))와 병용해도 좋다.
이어서, 오디오 비주얼 품질 추정부(15)는, 입력된 버퍼링 파라미터 및 오디오 비주얼 부호화 품질(CAVQ)에 기초하여, 오디오 비주얼 품질을 산출한다(S106).
구체적으로는, 오디오 비주얼 품질 추정부(15)는, 오디오 비주얼 부호화 품질(CAVQ)과, 버퍼링 파라미터인 재생 정지 시간의 총길이, 재생 정지 횟수, 및 재생 정지 시간의 간격의 평균값, 오디오 비주얼 컨텐츠의 시간 길이(단, 정지 시간을 포함하지 않는 순수한 컨테츠 길이)에 기초하여, 최종적으로 시청자가 체감하는 오디오 비주얼 품질(AVQ)을, 이하의 수식(6)을 이용하여 산출한다.
Figure 112018041646486-pct00005
단, duration은 오디오 비주얼 컨텐츠의 시간 길이(단, 정지 시간을 포함하지 않는 순수한 컨텐츠 길이), numofBuff는, 재생 정지 횟수, tatalBuffLen은, 재생 정지 시간의 총길이, avgBuffInterval은, 재생 정지 시간의 간격의 평균값, 계수 s1, s2, s3은 기설정된 상수로 한다.
과제 4에 제시한 바와 같이, 컨텐츠의 시간 길이와 재생 정지가, 최종적인 오디오 비주얼 품질에 미치는 영향을 가미하기 위해, 재생 정지에 관한 파라미터가, 컨텐츠의 시간 길이에 의해 나눗셈되고 있다. 본 실시형태에서는, 버퍼링 파라미터에 지수함수를 적용하고, 그 영향 정도를 정식화하고 있다. 단, 수식(6)은, 거듭제곱, 로그(대수) 등을 이용하여, 재생 정지 횟수(numofBuff), 재생 정지 시간의 총길이(tatalBuffLen), 재생 정지 시간의 간격의 평균값(avgBuffInterval)이 컨텐츠의 시간 길이와의 관계이며, 상대적으로 증가하면 최종적으로 시청자가 체감하는 오디오 비주얼 품질(AVQ)이 저하되는 함수로 정식화되어 있으면 된다. 또, 본 실시형태에서는, 재생 정지 횟수(numofBuff), 재생 정지 시간의 총길이(tatalBuffLen), 재생 정지 시간의 간격의 평균값(avgBuffInterval)의 전부를 이용하여 정식화하고 있으나, 어느 하나를 이용하여 정식화해도 좋다. 또한, 본 실시형태에서는, 버퍼링 파라미터로서, 재생 정지 횟수(numofBuff), 재생 정지 시간의 총길이(tatalBuffLen), 재생 정지 시간의 간격의 평균값(avgBuffInterval)를 이용하고 있으나, 예를 들면, 재생 정지 시간의 총길이(tatalBuffLen)를 재생 정지 횟수(numofBuff)로 나눗셈한 재생 정지 평균 시간(avgBuffLen), 재생 정지 시간의 분산(varBuffLen), 재생 정지 시간의 최대값/최소값(maxBuffLen/minBuffLen), 재생 정지 시간의 간격의 최대값/최소값/분산(maxBuffInterval/minBuffInterval/varBuffInterval) 등을 계산하여, 최종적으로 시청자가 체감하는 오디오 비주얼 품질(AVQ)을 산출해도 좋다.
상술한 바와 같이, 본 실시형태에 따르면, 패킷 등의 정보로부터 얻어지는 미디어 파라미터 및 버퍼링 파라미터에 기초하여, 오디오 비주얼의 품질이 시간적으로 변화되는 경우라도 품질 평가를 가능하게 하거나, 또는 해당 평가의 정밀도를 향상시킬 수 있다.
또한, 수식 1-5에 기재된 각 계수(a1, a2, a3, v1, …, v7, av1, …, av4, t1, …, t5, s1, s2, s3)는, 예를 들면, 주관 품질 평가 실험을 실시하고, 얻어진 품질 평가값을 이용하여, 최소 이승법 등의 최적화 수법을 이용하여 도출할 수 있다.
종래, 오디오 비주얼 품질을 추정할 때, 단시간의 오디오 비주얼 품질을 추정하는 것이 전제가 되어 있으며, 오디오 비주얼 품질이 시간적으로 변동할 때의 품질 추정이 불가능하고(과제 1), 시청 완료 시의 오디오 비주얼 품질은, 시청 개시 때의 인상이 옅고, 시청 완료 시의 인상이 강하게 남는 경향을 고려하지 않고 있고(과제 2), 오디오 비주얼 품질이 변동할 때, 최종적인 오디오 비주얼 품질은, 낮은 품질에 강하게 영향을 받는 점을 고려하지 않고 있고(과제 3), 오디오 비주얼 품질은 재생 정지뿐 아니라 오디오 비주얼 컨텐츠의 길이에도 의존하는 것이 고려되고 있지 않다(과제 4)는 과제가 있었다.
이에 대해, 본 실시형태는, 단위 시간(예를 들면, 1초, 5초, 10초 등의 단시간)마다의 음향 품질 및 영상 품질로부터 단위 시간마다의 오디오 비주얼 품질값을 추정하고, 단위 시간마다의 오디오 비주얼 품질값에 가중을 하여 통합하고, 장시간(예를 들면, 수 분∼수 시간)의 오디오 비주얼 품질을 추정한다. 여기서, 시청자의 망각 효과/친근 효과를 고려하기 위해, 컨텐츠의 재생 개시 때의 품질과 비교하여 재생 종료 때의 품질의 무게가 높아지도록 한다. 또, 오디오 비주얼 품질이 시간적으로 변동할 때에, 저품질이 최종적인 품질에 강하게 영향을 미치는 점을 고려하도록 가중이 이루어진다. 또, 오디오 비주얼 컨텐츠의 시간 길이가 재생 정지에 미치는 영향을 가미함과 동시에, 오디오 비주얼 컨텐츠의 시간 길이가 재생 정지 시간에 미치는 영향을 가미하고, 오디오 비주얼 품질을 추정할 수 있다.
따라서, 본 실시형태에 따르면, 시청자가 실제로 시청하는 영상 통신 서비스의 오디오 비주얼 품질값(즉, 오디오 비주얼 품질 추정 장치(10)로부터 출력되는 오디오 비주얼 품질(AVQ))을 감시함으로써, 제공중인 서비스가 시청자에 대해 어느 일정 이상의 품질을 유지하고 있는지 여부를 쉽세 판단할 수 있고, 제공중인 서비스의 품질 실태를 실시간으로 파악·관리하는 것이 가능해진다.
이 때문에, 제공중인 서비스의 품질 실태를 종래 기술로 오디오 비주얼 품질 평가를 하지 못한 점을 개선하는 것이 가능해진다.
이상, 본 발명의 실시예에 대해 상술했으나, 본 발명은 이와 같은 특정한 실시형태에 한정되는 것이 아니며, 특허청구범위에 기재된 본 발명의 요지의 범위 내에 있어서, 다양한 변형·변경이 가능하다.
본 출원은, 2015년 12월 16일에 출원된 일본국 특허출원 제2015-244983호와, 2016년 8월 17일에 출원된 일본국 특허출원 제2016-160182호에 기초하여 그 우선권을 주장하는 것이며, 상기 일본국 특허출원의 모든 내용을 참조함으로써 본원에 원용한다.
10 오디오 비주얼 품질 추정 장치
11 음향 품질 추정부
12 영상 품질 추정부
13 단위 시간 품질 추정부
14 부호화 품질 추정부
15 오디오 비주얼 품질 추정부
20 파라미터 추출부
21 미디어 파라미터 추출부
22 버퍼링 파라미터 추출부
100 드라이브 장치
101 기록매체
102 보조 기억 장치
103 메모리 장치
104 CPU
105 인터페이스 장치
B 버스

Claims (9)

  1. 오디오 비주얼의 컨텐츠에 관한 파라미터 중, 음향 품질에 영향을 미치는 파라미터에 기초하여, 상기 컨텐츠의 재생 개시 때부터 단위 시간마다의 음향 품질을 추정하는 음향 품질 추정부;
    상기 컨텐츠에 관한 파라미터 중, 영상 품질에 영향을 미치는 파라미터에 기초하여, 상기 단위 시간마다의 영상 품질을 추정하는 영상 품질 추정부;
    상기 음향 품질 및 상기 영상 품질을 상기 단위 시간마다 통합하여, 상기 단위 시간마다의 오디오 비주얼 품질을 추정하는 단위 시간 품질 추정부;
    상기 단위 시간 마다의 오디오 비주얼 품질을 하나로 통합하여, 오디오 비주얼 컨텐츠의 시간 길이와 재생 정지 시간의 관계에 따른 품질 변동을 포함하는 시간적인 품질 변동을 가미한, 부호화 열화에 대한 오디오 비주얼 부호화 품질을 추정하는 부호화 품질 추정부;
    상기 오디오 비주얼 부호화 품질에 기초하여, 상기 컨텐츠의 종료 후에 시청자가 체감하는 오디오 비주얼 품질을 추정하는 오디오 비주얼 품질 추정부;를 갖는 것을 특징으로 하는 오디오 비주얼 품질 추정 장치.
  2. 제 1항에 있어서,
    상기 부호화 품질 추정부는, 상기 단위 시간마다의 오디오 비주얼 품질에 대해, 상기 컨텐츠의 종료에 상대적으로 가까운 단위 시간에 따른 상기 오디오 비주얼 품질만큼 무게를 크게 하여 가중 평균을 산출함으로써, 상기 오디오 비주얼 부호화 품질을 추정하는, 것을 특징으로 하는 오디오 비주얼 품질 추정 장치.
  3. 제 1항 또는 제 2항에 있어서,
    상기 부호화 품질 추정부는, 상기 단위 시간마다의 오디오 비주얼 품질에 대해, 낮은 오디오 비주얼 품질만큼 무게를 크게 하여 가중 평균을 산출함으로써, 상기 오디오 비주얼 부호화 품질을 추정하는, 것을 특징으로 하는 오디오 비주얼 품질 추정 장치.
  4. 오디오 비주얼의 컨텐츠에 관한 파라미터 중, 음향 품질에 영향을 미치는 파라미터에 기초하여, 음향 품질을 추정하는 음향 품질 추정부;
    상기 컨텐츠에 관한 파라미터 중, 영상 품질에 영향을 미치는 파라미터에 기초하여, 영상 품질을 추정하는 영상 품질 추정부;
    상기 음향 품질 및 상기 영상 품질을 통합한 오디오 비주얼 품질과, 상기 컨텐츠의 재생 정지에 관한 파라미터 및 오디오 비주얼 컨텐츠의 시간 길이와 재생 정지 시간의 관계에 기초하여, 상기 컨텐츠의 종료 후에 시청자가 체감하는 오디오 비주얼 품질을 추정하는 오디오 비주얼 품질 추정부;를 구비하는 오디오 비주얼 품질 추정 장치에 있어서,
    상기 오디오 비주얼 품질 추정부는,
    상기 재생 정지에 관한 파라미터가 상기 컨텐츠의 시간 길이와의 관계에서 상대적으로 커질수록 상기 오디오 비주얼 품질이 낮아지도록 상기 오디오 비주얼 품질을 추정하는, 것을 특징으로 하는 오디오 비주얼 품질 추정 장치.
  5. 오디오 비주얼의 컨텐츠에 관한 파라미터 중, 음향 품질에 영향을 미치는 파라미터에 기초하여, 상기 컨텐츠의 재생 개시 때부터 단위 시간마다의 음향 품질을 추정하는 음향 품질 추정 수순;
    상기 컨텐츠에 관한 파라미터 중, 영상 품질에 영향을 미치는 파라미터에 기초하여, 상기 단위 시간마다의 영상 품질을 추정하는 영상 품질 추정 수순;
    상기 음향 품질 및 상기 영상 품질을 상기 단위 시간마다 통합하여, 상기 단위 시간마다의 오디오 비주얼 품질을 추정하는 단위 시간 품질 추정 수순;
    상기 단위 시간 마다의 오디오 비주얼 품질을 하나로 통합하여, 오디오 비주얼 컨텐츠의 시간 길이와 재생 정지 시간의 관계에 따른 품질 변동을 포함하는 시간적인 품질 변동을 가미한, 부호화 열화에 대한 오디오 비주얼 부호화 품질을 추정하는 부호화 품질 추정 수순;
    상기 오디오 비주얼 부호화 품질에 기초하여, 상기 컨텐츠의 종료 후에 시청자가 체감하는 오디오 비주얼 품질을 추정하는 오디오 비주얼 품질 추정 수순;을 컴퓨터가 실행하는 것을 특징으로 하는 오디오 비주얼 품질 추정 방법.
  6. 제 5항에 있어서,
    상기 부호화 품질 추정 수순은, 상기 단위 시간마다의 오디오 비주얼 품질에 대해, 상기 컨텐츠의 종료에 상대적으로 가까운 단위 시간에 따른 상기 오디오 비주얼 품질만큼 무게를 크게 하여 가중 평균을 산출함으로써, 상기 오디오 비주얼 부호화 품질을 추정하는, 것을 특징으로 하는 오디오 비주얼 품질 추정 방법.
  7. 제 5항 또는 제 6항에 있어서,
    상기 부호화 품질 추정 수순은, 상기 단위 시간마다의 오디오 비주얼 품질에 대해, 낮은 오디오 비주얼 품질만큼 무게를 크게 하여 가중 평균을 산출함으로써, 상기 오디오 비주얼 부호화 품질을 추정하는, 것을 특징으로 하는 오디오 비주얼 품질 추정 방법.
  8. 오디오 비주얼의 컨텐츠에 관한 파라미터 중, 음향 품질에 영향을 미치는 파라미터에 기초하여, 음향 품질을 추정하는 음향 품질 추정 수순;
    상기 컨텐츠에 관한 파라미터 중, 영상 품질에 영향을 미치는 파라미터에 기초하여, 영상 품질을 추정하는 영상 품질 추정 수순;
    상기 음향 품질 및 상기 영상 품질을 통합한 오디오 비주얼 품질과, 상기 컨텐츠의 재생 정지에 관한 파라미터 및 오디오 비주얼 컨텐츠의 시간 길이와 재생 정지 시간의 관계에 기초하여, 상기 컨텐츠의 종료 후에 시청자가 체감하는 오디오 비주얼 품질을 추정하는 오디오 비주얼 품질 추정 수순;을 컴퓨터가 실행하고,
    상기 오디오 비주얼 품질 추정 수순은,
    상기 재생 정지에 관한 파라미터가 상기 컨텐츠의 시간 길이와의 관계에서 상대적으로 커질수록 상기 오디오 비주얼 품질이 낮아지도록 상기 오디오 비주얼 품질을 추정하는, 것을 특징으로 하는 오디오 비주얼 품질 추정 방법.
  9. 제 5항, 제 6항 또는 제 8항 중 어느 한 항에 따른 상기 오디오 비주얼 품질 추정 방법을 수행하기 위한 프로그램 코드가 저장된 컴퓨터 판독가능 기록 매체.
KR1020187011969A 2015-12-16 2016-11-30 오디오 비주얼 품질 추정 장치, 오디오 비주얼 품질 추정 방법, 및 프로그램 KR102000590B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2015244983 2015-12-16
JPJP-P-2015-244983 2015-12-16
JPJP-P-2016-160182 2016-08-17
JP2016160182 2016-08-17
PCT/JP2016/085553 WO2017104416A1 (ja) 2015-12-16 2016-11-30 オーディオビジュアル品質推定装置、オーディオビジュアル品質推定方法、及びプログラム

Publications (2)

Publication Number Publication Date
KR20180059890A KR20180059890A (ko) 2018-06-05
KR102000590B1 true KR102000590B1 (ko) 2019-07-16

Family

ID=59056339

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187011969A KR102000590B1 (ko) 2015-12-16 2016-11-30 오디오 비주얼 품질 추정 장치, 오디오 비주얼 품질 추정 방법, 및 프로그램

Country Status (7)

Country Link
US (1) US10869072B2 (ko)
EP (1) EP3393125B1 (ko)
JP (1) JP6662905B2 (ko)
KR (1) KR102000590B1 (ko)
CN (1) CN108476317B (ko)
RU (1) RU2693027C1 (ko)
WO (1) WO2017104416A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10708636B2 (en) 2016-06-29 2020-07-07 Telefonaktiebolaget Lm Ericsson (Publ) Quality estimation of adaptive multimedia streaming
JP7073894B2 (ja) 2018-05-09 2022-05-24 日本電信電話株式会社 エンゲージメント推定装置、エンゲージメント推定方法及びプログラム
US20220343485A1 (en) * 2019-10-02 2022-10-27 Nippon Telegraph And Telephone Corporation Video quality estimation apparatus, video quality estimation method and program
US11277461B2 (en) 2019-12-18 2022-03-15 The Nielsen Company (Us), Llc Methods and apparatus to monitor streaming media
US20230262277A1 (en) * 2020-07-02 2023-08-17 Nippon Telegraph And Telephone Corporation Viewing completion rate estimation apparatus, viewing completion rate estimation method and program
CN114342335B (zh) * 2020-07-22 2024-02-13 北京小米移动软件有限公司 信息传输方法、装置及通信设备
CA3132483A1 (en) * 2020-10-15 2022-04-15 Sandvine Corporation System and method for managing video streaming quality of experience
US11558668B2 (en) 2021-06-03 2023-01-17 Microsoft Technology Licensing, Llc Measuring video quality of experience based on decoded frame rate
WO2023233631A1 (ja) * 2022-06-02 2023-12-07 日本電信電話株式会社 映像品質推定装置、映像品質推定方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007194893A (ja) * 2006-01-19 2007-08-02 Nippon Telegr & Teleph Corp <Ntt> 映像品質評価装置および方法
JP2015122638A (ja) * 2013-12-24 2015-07-02 日本電信電話株式会社 品質推定装置、方法及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004172753A (ja) 2002-11-18 2004-06-17 Nippon Telegr & Teleph Corp <Ntt> 映像・音声品質客観評価方法及び装置
US8405773B2 (en) * 2005-09-06 2013-03-26 Nippon Telegraph And Telephone Corporation Video communication quality estimation apparatus, method, and program
RU2420022C2 (ru) * 2006-10-19 2011-05-27 Телефонактиеболагет Лм Эрикссон (Пабл) Способ определения качества видео
EP2106154A1 (en) * 2008-03-28 2009-09-30 Deutsche Telekom AG Audio-visual quality estimation
US9191284B2 (en) * 2010-10-28 2015-11-17 Avvasi Inc. Methods and apparatus for providing a media stream quality signal
CN103379358B (zh) 2012-04-23 2015-03-18 华为技术有限公司 评估多媒体质量的方法和装置
DE112013007509B4 (de) * 2013-10-16 2022-01-20 Intel Corporation Verfahren, Einrichtung und System zum Auswählen von Audio-Video-Daten zum Streamen
JP6114702B2 (ja) 2014-02-14 2017-04-12 日本電信電話株式会社 ユーザ体感品質推定装置、ユーザ体感品質推定方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007194893A (ja) * 2006-01-19 2007-08-02 Nippon Telegr & Teleph Corp <Ntt> 映像品質評価装置および方法
JP2015122638A (ja) * 2013-12-24 2015-07-02 日本電信電話株式会社 品質推定装置、方法及びプログラム

Also Published As

Publication number Publication date
KR20180059890A (ko) 2018-06-05
WO2017104416A1 (ja) 2017-06-22
EP3393125A4 (en) 2019-08-21
CN108476317A (zh) 2018-08-31
CN108476317B (zh) 2021-07-09
JPWO2017104416A1 (ja) 2018-08-30
JP6662905B2 (ja) 2020-03-11
US20180332326A1 (en) 2018-11-15
EP3393125B1 (en) 2021-03-03
RU2693027C1 (ru) 2019-07-01
EP3393125A1 (en) 2018-10-24
US10869072B2 (en) 2020-12-15

Similar Documents

Publication Publication Date Title
KR102000590B1 (ko) 오디오 비주얼 품질 추정 장치, 오디오 비주얼 품질 추정 방법, 및 프로그램
US10841358B2 (en) System and method for determining quality of a media stream
CN109618565B (zh) 流式视频用户体验质量的自动测量方法和系统
EP2757754B1 (en) Method and device for evaluating media transmission quality
US10541894B2 (en) Method for assessing the perceived quality of adaptive video streaming
Yang et al. Content-adaptive packet-layer model for quality assessment of networked video services
KR101783071B1 (ko) 비디오 신호의 인코딩 또는 압축 중에 비디오 신호의 품질을 평가하는 방법 및 장치
EP2701397A1 (en) Content-dependent video quality model for video streaming services
EP3985984A1 (en) System and method for managing video streaming quality of experience
JP4861371B2 (ja) 映像品質推定装置、方法、およびプログラム
JP6162596B2 (ja) 品質推定装置、方法及びプログラム
US11425457B2 (en) Engagement estimation apparatus, engagement estimation method and program
US11889148B2 (en) Engagement estimation apparatus, engagement estimation method and program
JP5144593B2 (ja) ユーザ体感品質推定システムおよび方法
JP5405915B2 (ja) 映像品質推定装置、映像品質推定方法および映像品質推定装置の制御プログラム
JP4740967B2 (ja) 映像品質推定装置、方法、およびプログラム
JP7215209B2 (ja) エンゲージメント推定装置、エンゲージメント推定方法及びプログラム
JP6660357B2 (ja) 品質推定装置、品質推定方法及びプログラム
US20220400309A1 (en) Engagement estimation apparatus, engagement estimation method and program
Issa et al. Inference of network impairment effect on the quality of high definition IPTV distribution

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant