KR20150114959A

KR20150114959A - 컨텍스트-기반 비디오 품질 평가를 위한 방법 및 장치

Info

Publication number: KR20150114959A
Application number: KR1020157021335A
Authority: KR
Inventors: 닝 랴오; 지보 천; 판 장
Original assignee: 톰슨 라이센싱
Priority date: 2013-02-07
Filing date: 2013-06-09
Publication date: 2015-10-13
Also published as: CA2899756A1; JP2016510568A; RU2015136786A; HK1218481A1; EP2954676A4; US20150365662A1; US9723301B2; MX2015010044A; WO2014121572A1; EP2954676A1

Abstract

이웃하는 프레임들은 어떻게 현재 프레임이 감지되는지에 영향을 미칠 수도 있기 때문에, 우리는 현재 프레임의 상이한 이웃들을 조사하고, 현재 프레임의 감지된 시간적 왜곡 (즉, 프레임들이 연속적으로 보일 때) 에 가장 심각하게 영향을 미치는 이웃을 선택한다. 선택된 이웃에서의 프레임들의 공간적 왜곡 (즉, 프레임이 비디오 시퀀스에서의 다른 프레임들과 독립적으로 보일 때) 에 기초하여, 우리는 초기 시간적 왜곡을 추정할 수 있다. 초기 시간적 왜곡을 정제하기 위해, 우리는 또한, 선택된 이웃에서의 왜곡의 분포, 예컨대, 현재 프레임과 대왜곡을 갖는 최근접 프레임 사이의 거리, 또는 왜곡이 연속적인 프레임들에서 발생하는지 여부를 고려한다.

Description

컨텍스트-기반 비디오 품질 평가를 위한 방법 및 장치{METHOD AND APPARATUS FOR CONTEXT-BASED VIDEO QUALITY ASSESSMENT}

본 발명은 비디오 품질 측정에 관한 것이고, 보다 상세하게는, 객관적 비디오 품질 메트릭을 결정하기 위한 방법 및 장치에 관한 것이다.

비디오 시퀀스에서 개별 프레임들의 품질 레벨들을 추정 (estimate) 하기 위해 상이한 방법들이 개발되었다. 비디오 시퀀스에서 개별 프레임들의 추정된 품질 레벨들이 주어지면, 비디오 시퀀스의 감지된 품질과 잘 매칭하는 객관적 전체 비디오 품질 메트릭 (metric) 을 획득하기 위한 방법들이 시간적 풀링 전략들의 포괄적 개념 아래 연구되었다.

본 원리들은, 이하 설명되는 바와 같이, 현재 프레임을 포함하는 복수의 이웃들 (neighborhoods) 로부터 비디오 시퀀스의 현재 프레임의 이웃을 결정하는 단계; 결정된 이웃에서의 프레임들에 대한 공간적 왜곡 (spatial distortion) 에 응답하여 현재 프레임에 대한 초기 시간적 왜곡을 결정하는 단계; 결정된 이웃에서의 프레임들에 대한 공간적 왜곡의 분포 (distribution) 를 결정하는 단계; 초기 시간적 왜곡 및 분포에 응답하여 현재 프레임에 대한 시간적 왜곡 (temporal distortion) 을 결정하는 단계; 및 현재 프레임에 대한 시간적 왜곡에 응답하여 비디오 시퀀스의 시각적 품질을 결정하는 단계를 포함하는, 비디오 시퀀스의 시각적 품질을 추정하는 방법을 제공한다. 본 원리들은 또한 이들 단계들을 수행하기 위한 장치를 제공한다.

본 원리들은 또한, 이하 설명되는 바와 같이, 현재 프레임을 포함하는 복수의 이웃들 중에서, 현재 프레임의 시간적 왜곡에 대해 최대의 영향 (most impact) 을 갖는 비디오 시퀀스의 현재 프레임의 이웃을 결정하는 단계; 결정된 이웃에서의 프레임들에 대한 공간적 왜곡에 응답하여 현재 프레임에 대한 초기 시간적 왜곡을 결정하는 단계; 결정된 이웃에서 대왜곡 (large distortion) 을 갖는 최근접 프레임 (closest frame) 과 현재의 프레임 사이의 거리를 결정하는 단계; 초기 시간적 왜곡 및 거리에 응답하여 현재 프레임에 대한 시간적 왜곡을 결정하는 단계; 및 현재 프레임에 대한 시간적 왜곡에 응답하여 비디오 시퀀스의 시각적 품질을 결정하는 단계를 포함하는, 비디오 시퀀스의 시각적 품질을 추정하는 방법을 제공한다. 본 원리들은 또한 이들 단계들을 수행하기 위한 장치를 제공한다.

본 원리들은 또한, 상기 설명된 방법들에 따라, 비디오 시퀀스의 시각적 품질을 추정하기 위한 명령들이 저장된 컴퓨터 판독가능 저장 매체를 제공한다.

도 1a 는 예시적인 비디오 시퀀스에서의 개별 프레임들에 대한 공간적 아티팩트 레벨들을 나타내는 도시 예이고, 도 1b 는 예시적인 비디오 시퀀스에서의 개별 프레임들에 대한 감지된 시간적 품질을 나타내는 도시 예이다.
도 2a, 도 2b, 및 도 2c 는 본 원리들의 실시형태에 따른, 비디오 품질 모델링에서 이용되는 슬라이딩 윈도우들을 나타내는 도시 예들이다.
도 3a 는 다른 예시적인 비디오 시퀀스에서의 개별 프레임들에 대한 공간적 아티팩트 레벨들을 나타내는 도시 예이고, 도 3b 및 도 3c 는 본 원리들의 실시형태에 따른, 프레임의 이웃에서의 지배적 왜곡 (dominant distortion) 및 추정된 시간적 왜곡을 각각 나타내는 도시 예들이다.
도 4a 는 다른 예시적인 비디오 시퀀스에서의 개별 프레임들에 대한 공간적 아티팩트 레벨들을 나타내는 도시 예이고, 도 4b 및 도 4c 는 본 원리들의 실시형태에 따른, 프레임의 이웃에서의 최고 대왜곡 밀도 및 추정된 시간적 왜곡을 각각 나타내는 도시 예들이다.
도 5a 는 다른 예시적인 비디오 시퀀스에서의 개별 프레임들에 대한 공간적 아티팩트 레벨들을 나타내는 도시 예이고, 도 5b 및 도 5c 는 본 원리들의 실시형태에 따른, 프레임의 이웃에서의 최고 대왜곡 밀도 및 추정된 시간적 왜곡을 각각 나타내는 도시 예들이다.
도 6 은 본 원리들의 실시형태에 따른, 프레임 n 에서의 시간적 왜곡을 모델링하는 예시적인 방법을 나타내는 흐름도이다.
도 7 은 본 원리들의 실시형태에 따른, 예시적인 비디오 품질 모니터를 나타내는 블록도이다.
도 8 은 하나 이상의 구현형태들과 함께 이용될 수도 있는 예시적인 비디오 프로세싱 시스템을 나타내는 블록도이다.

본 출원에서, 우리는 화상이 비디오 시퀀스에서의 다른 화상들에 대해 독립적으로 보일 때 비디오 시퀀스에서의 화상에서 감지되는 (perceived) 아티팩트를 나타내기 위해 "공간적 아티팩트 (spatial artifact)" 를 이용하고, 비디오 시퀀스에서의 화상들이 연속적으로 디스플레이될 때 비디오 시퀀스의 화상에서 감지되는 아티팩트를 나타내기 위해 "시간적 아티팩트 (temporal artifact)" 를 이용한다. 유사하게, 우리는 화상이 비디오 시퀀스에서의 다른 화상들에 대해 독립적으로 보일 때 화상에서 감지되는 왜곡 또는 품질을 나타내기 위해 "공간적 왜곡 (spatial distortion)" 또는 "공간적 품질 (spatial quality)" 을 이용하고, 비디오 시퀀스에서의 화상들이 연속적으로 디스플레이될 때 비디오 시퀀스의 화상에서 감지되는 왜곡 또는 품질을 나타내기 위해 "시간적 왜곡 (temporal distortion)" 또는 "시간적 품질 (temporal quality)" 을 이용한다.

공간적 왜곡을 평가할 때, 화상은, 뷰어 (viewer) 가 이미지 콘텐츠 및 왜곡을 인식하기에 충분히 긴 기간 동안, 비디오 시퀀스에서의 다른 화상들과 독립적으로 보인다. 이것은 화상들이 연속적으로 디스플레이될 때 시간적 왜곡을 평가하는 것과는 상이하다.

본 출원에서, "프레임 (frame)" 이라는 용어는 "화상 (picture)" 이라는 용어와 상호교환가능하게 사용된다. 용어들 "왜곡 (distortion)" 및 "아티팩트 (artifact)" 양자는 프레임에서의 품질 열화 (quality degradation) 를 지칭하고, 종종 상호교환가능하게 사용된다.

ds(n) 으로서 표시되는 프레임 n 의 공간적 왜곡은 다양한 이미지 품질 평가 방법들, 예컨대, 비제한적으로, 풀-참조 (full-reference) 또는 비-참조 (no-reference) 방법, 및 픽셀 도메인에서의 또는 비트스트림 레벨에서의 방법에 의해 획득될 수 있다. 일 실시형태에서, 공간적 왜곡은, 그 교시들이 참조에 의해 본원에 명시적으로 통합되는, N. Liao, Z. Chen, 및 K. Xie 에 의한 "Video quality assessment at a bitstream level (비트스트림 레벨에서의 비디오 품질 평가)" 라는 제목의 공동 소유된 PCT 출원 (PCT/CN2012/078766, 대리인 문서번호 제 PA120027 호) 에서 개시된 바와 같이, 초기 및/또는 전파된 가시 아티팩트 (visible artifact) 에 의해 야기되는, 전체 가시 아티팩트 레벨로서 추정될 수 있다.

화상들에서의 공간 아티팩트는, 눈이 고정되어 그것을 아티팩트로서 인식할 수 있을 만큼의 기간 동안 지속될 필요가 있다. 화상들이 비디오 시퀀스의 부분이고 각각이 매우 짧은 기간 (예컨대, 비디오가 실시간으로 플레이될 때 1/프레임_레이트 의 기간) 동안만 디스플레이될 때, 프레임 n 의 시간 인스턴트에서의 감지되는 비디오 왜곡, 즉, 프레임 n 에서의 시간적 왜곡, dt(n) 은 프레임 n 의 공간적 왜곡, ds(n) 과는 상당히 상이할 수 있다. 이는, 시간적 왜곡 dt(n) 이 그것의 이웃하는 프레임들의 콘텐츠 및 왜곡에 의해 영향을 받기 때문일 수도 있다.

예시적인 비디오 시퀀스에 대해, 도 1a 는 비디오 시퀀스에서의 개별 프레임들의 공간적 아티팩트 레벨들을 나타내고, 도 1b 는 비디오 시퀀스에서의 개별 프레임들의 시간적 품질을 나타낸다. 보다 구체적으로, 도 1a 는 예시적인 비디오 시퀀스가 패킷 손실들을 겪을 때 프레임들의 공간적 아티팩트 레벨들을 나타낸다. 공간적 아티팩트는 비디오 시퀀스에 산재할 수도 있고, 예컨대, 프레임들 (74, 77, 215, 261, 및 262) 에서 공간적 아티팩트가 보인다. 공간적 아티팩트는 또한 프레임들 (106-111) 주위에서 보이는 아티팩트와 같이, 폭발적으로 일어날 수도 있다.

도 1b 는 비디오 시퀀스의 프레임들이 연속적으로 디스플레이될 때의 시간적 품질을 나타내고, 여기서, 스코어 100 은 최상의 품질에 해당한다. 품질 측정 방법에 따라, 품질 스코어 (score) 는 상이한 스케일일 수도 있다. 시간적 품질의 정확한 곡선은 주관적 테스트 방법, 예컨대, 비제한적으로, ITU-R BT 500 에서 정의된 바와 같은, SSCQE (Single Stimulus Continuous Quality Evaluation) 을 이용하여 획득될 수도 있다.

프레임들 (74 및 77) 은, 이들 2 개의 프레임들이 독립적으로 보일 때, 강한 공간적 아티팩트를 갖는다는 것을 도 1a 로부터 알 수 있다. 하지만, 이들 2 개의 프레임들에서의 아티팩트는, 비디오가 연속적으로 디스플레이될 때 불가시적이 될 수도 있고, 따라서, 프레임들 (74 및 77) 은, 도 1b 에서 도시된 바와 같이 연속적으로 보일 때, 최상의 품질 레벨에 있다. 따라서, 강한 공간적 아티팩트가 항상 높은 시간적 왜곡에 대응하지 않을 수도 있다. 한편, 비디오 시퀀스의 하나의 프레임은, 다른 프레임들과 독립적으로 보일 때 양호한 품질을 갖는 것으로 보일 수도 있지만, 비디오 시퀀스가 연속적으로 디스플레이될 때 매우 강한 시간적 왜곡 (예컨대, 모션 지터) 를 보일 수도 있다. 즉, 작은 공간적 왜곡이 항상 작은 감지된 시간적 왜곡 (즉, 보다 높은 시간적 품질) 에 대응하지 않을 수도 있다.

따라서, 공간적 왜곡 (즉, 화상이 비디오 시퀀스에서 다른 화상들과 독립적으로 보일 때) 은 시간적 왜곡 (즉, 화상들이 연속적으로 보일 때) 과는 상당히 상이할 수도 있다. 본 원리들은 개별 프레임들에 대해 공간적 왜곡으로부터 시간적 품질을 정확하게 모델링하기 위한 방법 및 장치를 제공한다. 구체적으로, 본 원리들은 뷰어가 공간적 왜곡을 어떻게 식별하는지에 영향을 미치는 컨텍스트 (context) 를 고려하고, 여기서, 컨텍스트는 예컨대, 비제한적으로, 왜곡의 지속기간 및 패턴, 및 이웃하는 프레임들을 보는 것을 통해 뷰어에 의해 인식되는 텍스처 (texture) 및 객체의 모션을 포함한다.

일 실시형태에서, 공간적 왜곡이 주어지면, 감지되는 시간적 왜곡은 슬라이딩 윈도우 접근법 (sliding window approach) 을 이용하여 모델링될 수 있다. 도 2a 내지 도 2c 에서 도시된 바와 같이, (S_i,n 으로서 표시되는) 프레임 n 을 포함하는 L₀ 프레임들의 슬라이딩 윈도우는 프레임 (n-i) 에서 시작하고 (n - i + L₀ - 1) 에서 종료되며, 0 ≤ i < L₀ 이다. 우리는, 뷰어의 눈들이 왜곡을 인식하기 위해 필요한 기간에 근사하는 윈도우 길이를 선택할 수도 있다. 따라서, 슬라이딩 윈도우는 L₀ = round(T₀ × frame_rate) 프레임들을 포함하고, 여기서, T₀ 는 뷰어가 왜곡을 인식하기 위해 필요한 기간이고, frame_rate (프레임_레이트) 는 비디오 시퀀스의 프레임 레이트이다. 슬라이딩 윈도우들 밖에 존재하는 아티팩트는 현재 프레임의 시간적 아티팩트의 가시성에 적은 기여를 갖는 것으로 간주된다.

현재 프레임의 감지된 시간적 왜곡은 가까이에 있는 대왜곡 (large distortion) (즉, 어떤 임계를 초과하는 왜곡 레벨) 을 갖는 프레임들에 의해 주로 영향을 받는다는 것을 우리는 관찰한다. 본 원리들에서, 우리는 프레임의 이웃에서 이러한 무리진 큰 공간적 왜곡의 영향을 추정하기 위한 상이한 실시형태들을 제공한다.

일 실시형태에서, 우리는 시간적 왜곡을 추정하기 위해 슬라이딩 윈도우들에서의 중간 왜곡 값들의 최대치를 이용할 수도 있다. 수학적으로, 각각의 슬라이딩 윈도우들 S_i,n 에 대해, 우리는 S_i,n 에서의 프레임들의 중간 왜곡 (median distortion) 을

MD_i,n = median{ds(j), frame j ∈ S_i,n} (1)

로 계산할 수 있다. 메디안 함수 (median function) 는 현재 프레임의 공간적 왜곡이 그것의 주변들을 대표하는지 여부를 결정하기 위해 이웃 프레임들을 검사하고 극도의 왜곡 레벨들 (이상치들) 을 리젝트 (reject) 한다. 즉, 우리는 MD_i,n 을 슬라이딩 윈도우 S_i,n 에 대한 대표적인 왜곡 레벨로서 고려할 수도 있다. 다른 실시형태에서, 우리는 MD_i,n 을 획득하기 위해 평균 또는 다른 필터링 방법들을 이용할 수도 있다.

프레임 n 을 포함하는 모든 슬라이딩 윈도우들에서, 보다 큰 왜곡을 갖는 슬라이딩 윈도우는 보통 시각적 품질에 보다 심각하게 영향을 미친다. 따라서, 슬라이딩 윈도우들 {S_i,n, 0 ≤ i < L₀} 중에서 중간 왜곡 값들의 최대치로서 지배적 왜곡을 식별하기 위해 최대치 함수가 이용될 수 있다:

m_n = max{MD_i,n, 0 ≤ i < L₀} (2)

현재 프레임의 감지된 시간적 왜곡은, 현재 프레임의 공간적 왜곡 강도에 의해서보다는, 그것의 이웃에서의 지배적 왜곡에 의해 크게 결정되는 것으로 관찰된다. 예를 들어, 프레임 n 이 인식될만큼 충분히 길게 지속하지 않는 심각한 공간적 왜곡 ds(n) 을 가질 때, 감지되는 시간적 왜곡은 그것의 이웃에서의 왜곡에 의해 주로 영향을 받는다. 따라서, 현재 프레임에 대한 시간적 왜곡을 설정하기 위해 최소치 함수가 이용될 수 있다. 즉, 우리는 시간적 왜곡 dt(n) 을

dt(n) = min{m_n, ds(n)} (3)

로서, 프레임 n 에 대한 중간 왜곡 값의 최대치 m_n 및 공간적 왜곡 값 중 더 작은 것으로 설정할 수도 있다.

도 3a 는 예시적인 비디오 시퀀스에서 프레임들에 대한 공간적 아티팩트 레벨들을 나타내고, 도 3b 및 도 3c 는 식 (2) 및 식 (3) 을 각각 적용한 후의 결과들을 나타낸다. 메디안 함수를 이용함으로써, 메디안 왜곡 값들의 최대치는 도 3b 에서 도시된 바와 같이 극도한 값들을 회피한다. 결과적으로, 도 3c 에서 볼 수 있는 바와 같이, 예컨대, 프레임들 (86, 125, 및 166) 에서 이웃하는 것들보다 훨씬 더 큰 공간적 아티팩트 레벨들이 추정된 시간적 왜곡에서 존재하지 않는다. 또한, 추정된 시간적 왜곡 레벨들은 공간적 왜곡 레벨들보다 프레임에서 프레임까지 더 작은 변화들을 갖는다.

다른 실시형태에서, 시간적 왜곡을 추정하기 위해, 우리는 모든 슬라이딩 윈도우들 {S_i,n, 0 ≤i<L₀} 에서 대왜곡 (즉, 특정 임계치를 초과하는 왜곡 레벨) 을 갖는 프레임들의 비율들의 최대 값을 이용할 수도 있다. 더 작은 왜곡은, 비디오 시퀀스가 연속적으로 플레이될 때 통상적으로 불가시적이 되기 때문에, 우리는 대왜곡을 갖는 프레임들만을 오직 고려한다. 수학적으로, 각각의 슬라이딩 윈도우 S_i,n 에 대해, 우리는 S_i,n 에서 대왜곡을 갖는 프레임들의 수와 S_i,n 에서 프레임들의 총 수 사이의 비율을

(4)

로서 계산할 수 있고, 여기서,

이고, U 는 공간적 왜곡 임계치이다. 표기의 용이함을 위해, 우리는 슬라이딩 윈도우에서 큰 공간적 왜곡을 갖는 프레임들의 수와 슬라이딩 윈도우에서 프레임들의 총 수 사이의 비율을 슬라이딩 윈도우에 대한 대왜곡 밀도로서 표시한다.

보다 큰 왜곡의 보다 높은 밀도를 갖는 슬라이딩 윈도우는 통상적으로 시각적 품질에 보다 심각하게 영향을 미치는 것을 우리는 관찰한다. 따라서, 우리는 모든 슬라이딩 윈도우들 중에서 최고 비율을

w_n = max{R_i,n, 0≤i<L₀} (5)

로서 계산한다. 그 다음, 우리는 프레임 n 에서의 감지된 시간적 왜곡을 가중된 왜곡

dt(n) = w_n×ds(n) (6)

으로 추정할 수 있다.

또한, 대왜곡을 갖는 2 개의 가장 가까운 프레임들 사이의 거리는 또한 감지된 시간적 왜곡에 영향을 미치는 것을 우리는 관찰한다. 즉, 대왜곡을 갖는 2 개의 프레임들이 보다 더 가까워질 때, 왜곡은 인간의 눈에 보다 더 가시적이 된다. 따라서, 프레임 n 과 대왜곡을 갖는 최근접 프레임 사이의 거리를 또한 고려함으로써 시간적 왜곡 추정이 향상될 수도 있다. 일 실시형태에서, 식 (6) 은 변형되어

dt(n) = w_n×ds(n)/f(dist(n)) (7)

이 될 수도 있고, 여기서, dist(n) 은 프레임 n 과, 최고 대왜곡 밀도에 대응하는 슬라이딩 윈도우에서의 대왜곡을 갖는 최근접 프레임 사이의 거리이다. 대응하는 슬라이딩 윈도우에서 대왜곡을 갖는 다른 프레임이 존재하지 않는 경우에, 우리는 dist(n) 을 매우 큰 값, 예컨대, 1000 으로 설정한다. 즉, 대왜곡을 갖는 슬라이딩 윈도우에서의 오직 하나의 프레임이 존재할 때, 우리는 그 왜곡을 덜 가시적인 것으로서 고려하고, dt(n) 을 매우 작은 값으로 설정한다. f(dist(n)) 을 정의하기 위해 상이한 함수들, 예컨대, f(dist(n)) = dist(n), 또는 f(dist(n)) = (dist(n))^α 이 이용될 수 있고, 여기서, α 는 상수이다.

보다 일반적인 실시형태에서, 우리는 공간적 왜곡에 기초하여 추정된 시간적 왜곡, 예컨대, 식 (3) 또는 식 (6) 으로부터 획득된 시간적 왜곡을 초기 시간적 왜곡 (initial temporal distortion) 으로 고려한다. 상기 논의되는 바와 같이, 이웃하는 프레임들은 현재 프레임이 어떻게 감지되는지에 영향을 미칠 수도 있기 때문에, 우리는 상이한 이웃들을 조사하고 현재 프레임의 감지된 시간적 왜곡에 가장 심각하게 영향을 주는 이웃을 선택한다. 선택된 이웃 내에서, 우리는, 초기 시간적 왜곡을 추정하기 위해 이용될 수 있는, 대왜곡의 비율 또는 공간적 왜곡 값들의 메디안을 얻을 수도 있다. 공간적 왜곡 외에도, 선택된 이웃의 다른 팩터들 (factors), 예컨대, 식 (7) 에서 나타난 바와 같은 거리가 추정된 시간적 왜곡을 정제 (refine) 하기 위해 이용될 수 있다.

보다 일반적으로, 선택된 이웃 내의 아티팩트들의 분포, 예컨대, 아티팩트들이 연속적인 프레임들에서 나타나는지 또는 아닌지 여부가 감지된 시간적 왜곡에 영향을 미치는 것으로 고려될 수 있고, 따라서, 시간적 왜곡 추정을 향상시키기 위해 이용될 수 있다. 표기의 용이함을 위해, 우리는 대왜곡을 갖는 연속적인 프레임들의 그룹을 왜곡 버스트 (distortion burst) 로서 표시한다. 일 예에서, 우리는 선택된 이웃 내에서 연속적인 대왜곡을 갖는 프레임들 사이의 평균 거리, 또는, 선택된 이웃 내에서 연속적인 왜곡 버스트들 사이의 평균 거리를 측정할 수도 있다. 선택된 이웃 내에서, 산재하는 (sporadic) 공간적 왜곡은 뷰어의 주의를 덜 사로잡을 가능성이 있기 때문에, 평균 거리가 더 클수록, 시간적 왜곡은 덜 가시적이다. 왜곡의 분포를 특성화하기 위해 사용될 수 있는 다른 파라미터들은 대왜곡을 갖는 프레임들 사이의 또는 왜곡 버스트들 사이의 최소 거리 또는 최대 거리일 수도 있다.

더욱이, 모션 지터 (motion jitter) 또는 모션 저키니스 (motion jerkiness) 에 의해 야기되는 품질 열화를 고려하기 위해 이웃에서의 모션 정보가 또한 고려될 수도 있다.

도 4a 는 예시적인 비디오 시퀀스에서 프레임들에 대한 공간적 아티팩트 레벨들을 나타내고, 도 4b 및 도 4c 는 식 (5) 및 식 (7) 을 적용한 후의 결과들을 각각 나타내며, 여기서, L₀ = 1초, U = (프레임 당 매크로 블록들의 수)/100 이다. L₀ 및 U 의 값들은 구성들에 따라, 예컨대, GOP 길이, 비디오 해상도, 및 프레임 레이트에 따라 변화할 수도 있다. 도 5a 는 다른 예시적인 비디오 시퀀스에서의 프레임들에 대한 공간적 아티팩트 레벨들을 나타내고, 도 5b 및 도 5c 는 식 (5) 및 식 (7) 을 적용한 후의 결과들을 각각 나타낸다.

도 4b 및 도 5b 로부터, 우리는, 대왜곡이 더 집중될 때, 비율은 더 높게 됨을 관찰한다. 즉, 이 비율은, 이웃하는 프레임들이 현재의 프레임의 감지된 품질에 영향을 미치는지 여부와 어느 정도 영향을 미치는지를 유효하게 반영한다. 결과적으로, 도 4c 및 도 5c 로부터 알 수 있는 바와 같이, (예를 들어, 도 4a 에서 프레임 (106) 주위에, 도 5a 에서 프레임 (105) 및 프레임 (200) 주위에) 무리지은 대왜곡을 갖는 프레임들의 지속기간은 추정된 시간적 왜곡 레벨들에 영향을 미친다. 즉, 도 4a 에서 도시된 바와 같이 왜곡의 더 짧은 지속기간은 공간적 왜곡보다 훨씬 더 작은 추정된 시간적 왜곡을 초래하는 한편, 도 5a 에서 도시된 바와 같이 왜곡의 더 긴 지속기간은 공간적 왜곡과 동일한 정도의 추정된 시간적 왜곡을 초래한다. 이것은 인간 지각과 일치하고, 여기서, 지속되는 왜곡은 감지되는 품질에 보다 부정적인 영향을 갖는다.

상기 논의된 바와 같이, 우리는 프레임 n 에 대한 시간적 왜곡을 추정하기 위해 이웃하는 프레임들에서 제공된 컨텍스트들을 고려한다. 일 실시형태에서, 식 (1) 내지 식 (3) 에서 나타난 바와 같이, 우리는 중간 왜곡 값을 이용한다. 다른 실시형태에서, 식 (4) 내지 식 (7) 에서 나타난 바와 같이, 우리는 대왜곡 밀도를 이용한다. 또 다른 실시형태에서, 중간 왜곡 값 및 대왜곡 밀도 접근법들이 결합되어,

dt(n) = w_n×min{m_n, ds(n)} (8)

으로 프레임 n 에 대한 시간적 왜곡을 추정할 수 있다.

상기에서, 우리는 눈들이, 아티팩트를 인식하기에 충분히 긴 기간을 필요로 하는 인간 시각 특성에 기초하여 시간적 왜곡을 추정한다. 시간적 왜곡은 또한 다른 팩터들, 예컨대, 비제한적으로, 모션 저키니스에 의해 영향을 받을 수도 있다. 결과적으로, 상기와 같이 추정된 시간적 왜곡은 다른 팩터들을 고려하기 위해 조정될 필요가 있을 수도 있다. 하나의 예시적인 결합은 dt'(n) = dt(n) + c×dt₂(n) 일 수 있고, 여기서, dt₂(n) 은 모션 저키니스에 의해 야기되는 왜곡이다.

비디오 시퀀스에서 개별 프레임들에 대한 시간적 왜곡, {dt(n))} 에 기초하여, 비디오 시퀀스의 전체 감지된 왜곡은 시간적 풀링 전략 (temporal pooling strategy) 을 이용하여 도출될 수 있다. 예를 들어, 간단한 평균 연산이 이용될 수 있다, 즉, 전체 왜곡 =

이다. 다른 예에서, 분포 파라미터들, 예컨대, 비디오 시퀀스에서 왜곡 버스트들 사이의 평균 거리 및 최소/최대 거리가 시간적 풀링에서 사용될 수도 있다.

도 6 은 본 원리들에 따른, 프레임 n 에서의 시간적 왜곡을 모델링하기 위한 예시적인 방법 (600) 을 나타낸다. 방법 (600) 은 단계 605 에서 시작한다. 슬라이딩 윈도우 S_i,n 에 대해, 예를 들어 식 (1) 을 이용하여, 단계 610 에서 중간 왜곡 값을 계산하고, 예를 들어 식 (4) 를 이용하여, 단계 620 에서 대왜곡 밀도를 계산한다. 단계 630 에서 더 많은 슬라이딩 윈도우가 프로세싱될 필요가 있는지 여부를 체크한다. 그렇다면, 제어를 단계 610 으로 복귀시킨다. 그렇지 않다면, 단계 640 에서, 예를 들어 식 (2) 를 이용하여, 프레임 n 에 대해 모든 슬라이딩 윈도우들에서 중간 왜곡 값들의 최대치를 계산한다. 단계 650 에서, 예를 들어 식 (5) 를 이용하여, 프레임 n 에 대해 모든 슬라이딩 윈도우들에서 최고 대왜곡 밀도를 계산한다. 단계 660 에서, 예를 들어 식 (3), 식 (6), 또는 식 (8) 을 이용하여, 프레임 n 에 대한 시간적 왜곡을 추정한다. 프레임 n 과 대왜곡을 갖는 최근접 프레임 사이의 거리가 예를 들어 식 (7) 을 이용하여, 단계 660 에서 고려될 수도 있다. 방법 (600) 은 단계 699 에서 종료된다.

방법 (600) 에서, 중간 왜곡 값들의 최대치 및 최고 대왜곡 밀도 양자 모두가 시간적 왜곡을 추정하기 위해 사용된다. 다른 실시형태에서, 중간 왜곡 값들의 최대치만이 시간적 왜곡을 추정하기 위해 사용된다. 즉, 단계 620 및 단계 650 은 필요하지 않고, 단계 660 은 예를 들어 식 (3) 을 이용하여 중간 왜곡 값들의 최대치에 기초하여 시간적 왜곡을 추정한다. 다른 실시형태에서, 오직 최고 대왜곡 밀도만이 시간적 왜곡을 추정하기 위해 사용된다. 즉, 단계 610 및 단계 640 은 필요하지 않고, 단계 660 은 예를 들어 식 (6) 또는 식 (7) 을 이용하여, 최고 대왜곡 밀도에 기초하여 시간적 왜곡을 추정한다.

방법 (600) 또는 그것의 변형들은 상이한 순서 또는 단계들로 진행할 수도 있고, 예컨대, 단계 620 은 단계 610 전에 수행될 수도 있고, 단계 650 은 단계 640 전에 수행될 수도 있다.

본 원리들에 따른 비디오 품질 모델링 방법들은, 비디오 시퀀스가 압축 아티팩트들 및/또는 패킷 손실들을 겪을 때 비디오 품질을 측정하기 위해 적용될 수 있다. 본 방법들은 비트스트림 레벨 또는 픽셀 레벨에서 획득된 공간 아티팩트들과 함께 이용될 수도 있다. 즉, 본 방법들은 비트스트림 레벨 및 픽셀 레벨 양자 모두에서 적용될 수 있다.

본 원리들은 비디오 품질을 측정하기 위한 비디오 품질 모니터에서 이용될 수도 있다. 도 7 은 예시적인 비디오 품질 모니터 (700) 의 블록도를 나타낸다. 장치 (700) 의 입력은 비트스트림을 포함하는 전송 스트림을 포함할 수도 있다. 입력은 비트스트림을 포함하는 다른 포맷들의 것일 수도 있다.

디멀티플렉서 (710) 는 그 비트스트림으로부터 패킷 레이어 정보를 획득한다. 디코더 (720) 는 보다 많은 정보를 획득하기 위해 입력 스트림을 파싱한다. 디코더 (720) 는 화상들을 재구성할 수도 있고 또는 재구성하지 않을 수도 있다. 다른 실시형태들에서, 디코더는 디멀티플렉서의 기능들을 수행할 수도 있다.

디코딩된 정보를 이용하여, 공간적 아티팩트 레벨들이 공간적 아티팩트 레벨 추정기 (730) 에서 추정된다. 추정된 파라미터들에 기초하여, 시간적 왜곡 레벨들이 예를 들어 방법 (600) 을 이용하여 시간적 왜곡 추정기 (740) 에서 추정된다. 품질 예측기 (750) 는 그 다음, 개별 프레임들에 대한 시간적 왜곡 레벨들을 비디오 시퀀스에 대한 품질 스코어로 풀링한다. 품질 예측기 (750) 는 다른 유형들의 아티팩트들 및 인간의 시각적 속성의 특성을 고려할 수도 있다.

비디오 품질 모니터 (700) 는, 예를 들어, HR (High Resolution) 시나리오 및 LR (Low Resolution) 시나리오라고도 각각 불리는, 2 가지 애플리케이션 시나리오들, 즉, IPTV 및 모바일 비디오 스트리밍 시나리오에서 비디오 품질 평가 모델들로서 작용하는, ITU-T P.NBAMS(parametric non-intrusive bitstream assessment of video media streaming quality) 표준에서 사용될 수도 있다. 이 2 가지 시나리오 간의 차이는 비디오 콘텐츠 및 코딩 구성의 공간-시간적 해상도에서부터 전송 프로토콜들 및 뷰잉 조건들까지의 범위에 걸쳐 있다.

P.NBAMS VQM (Video Quality Model) 에 대한 입력은 모든 송신 패킷 헤더들 (UDP/IP/RTP 또는 UDP/IP/RTP/TS) 을 갖는 코딩된 비디오 비트스트림이다. 출력은 객관적 MOS 스코어 (Mean Opinion Score) 이다. P.N BAMS 작업의 주 타겟 애플리케이션은 셋-톱 박스 (STB) 또는 게이트웨이에서의 비디오 품질을 모니터링하는 것이다. P.NBAMS 모드 1 모델은 오직 비트스트림 정보만을 이용하고, 모드 2 모델은 비디오 시퀀스의 부분 또는 전부를 디코딩할 수도 있으며, 픽셀 정보는 예측 정확도를 향상시키기 위해 비트스트림 정보를 파싱 (parsing) 하는 것 외에 시각적 품질 예측을 위해 이용된다.

도 8 을 참조하면, 상기 설명된 특징들 및 원리들이 적용될 수도 있는, 비디오 송신 시스템 또는 장치 (800) 가 도시된다. 프로세서 (805) 는 비디오를 프로세싱하고 인코더 (810) 는 비디오를 인코딩한다. 인코더로부터 생성된 비트스트림은 분배 네트워크 (820) 를 통해 디코더 (830) 로 송신된다. 비디오 품질 모니터는 상이한 스테이지들에서 사용될 수도 있다.

일 실시형태에서, 비디오 품질 모니터 (840) 는 콘텐츠 형성기에 의해 사용될 수도 있다. 예를 들어, 추정된 비디오 품질은, 모드 결정 또는 비트 레이트 할당과 같이, 인코딩 파라미터들을 결정함에 있어서 인코더에 의해 이용될 수도 있다. 다른 예에서, 비디오가 인코딩된 후에, 콘텐츠 형성기는 인코딩된 비디오의 품질을 모니터링하기 위해 비디오 품질 모니터를 이용한다. 품질 메트릭이 미리정의된 품질 레벨을 충족하지 않는 경우에, 콘텐츠 형성기는 비디오 품질을 향상시키기 위해 비디오를 재인코딩하기를 선택할 수도 있다. 콘텐츠 형성기는 또한 품질에 기초하여 인코딩된 비디오를 랭크 (rank) 할 수도 있고, 이에 따라 콘텐츠에 요금을 부과한다.

다른 실시형태에서, 비디오 품질 모니터 (850) 는 콘텐츠 분배기에 의해 사용될 수도 있다. 비디오 품질 모니터는 분배 네트워크에 배치될 수도 있다. 비디오 품질 모니터는 품질 메트릭들을 계산하고 그것들을 콘텐츠 분배기에 리포트한다. 비디오 품질 모니터로부터의 피드백에 기초하여, 콘텐츠 분배기는 대역폭 할당 및 액세스 제어를 조정함으로써 그것의 서비스를 향상시킬 수도 있다.

콘텐츠 분배기는 또한 인코딩을 조정하도록 콘텐츠 형성기에 피드백을 전송할 수도 있다. 고 품질 인코딩된 비디오는 통상적으로 보다 많은 대역폭을 필요로 하고 송신 보호를 위해 적은 대역폭을 남기기 때문에, 인코더에서의 인코딩 품질을 향상시키는 것이 반드시 디코더 측에서의 품질을 향상시키지 않을 수도 있다는 점에 유의한다. 따라서, 디코더에서 최적의 품질에 도달하기 위해, 채널 보호를 위한 대역폭과 인코딩 비트 레이트 사이의 밸런스가 고려되어야만 한다.

또 다른 실시형태에서, 비디오 품질 모니터 (860) 는 사용자 디바이스에 의해 사용될 수도 있다. 예를 들어, 사용자 디바이스가 인터넷에서 비디오들을 검색할 때, 검색 결과는 요청된 비디오 콘텐츠에 대응하는 비디오들에 대한 많은 링크들 또는 많은 비디오들을 리턴 (return) 할 수도 있다. 검색 결과들에서의 비디오들은 상이한 품질 레벨들을 가질 수도 있다. 비디오 품질 모니터는 이들 비디오들에 대한 품질 메트릭들을 계산하고 저장할 어느 비디오를 선택할지를 결정할 수 있다. 다른 예에서, 사용자 디바이스는 수개의 에러 은닉 기법들 (error concealment techniques) 에 대한 액세스를 가질 수도 있다. 비디오 품질 모니터는 상이한 에러 은닉 기법들에 대한 품질 메트릭들을 계산하고, 계산된 품질 메트릭들에 기초하여 어느 은닉 기법을 이용할지를 자동적으로 선택할 수 있다.

본원에서 기술된 구현형태들은, 예를 들어, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림, 또는 신호로 구현될 수도 있다. 단일 형태의 구현의 면에서만 논의되었지만 (예를 들어, 방법으로서만 논의되었지만), 논의된 특징들의 구현형태는 또한 다른 형태들 (예컨대, 장치 또는 프로그램) 로 구현될 수도 있다. 장치는 예를 들어 적절한 하드웨어, 소프트웨어, 및 펌웨어로 구현될 수도 있다. 방법들은, 예를 들어, 예컨대 컴퓨터, 마이크로프로세서, 집적 회로, 또는 프로그램가능 로직 디바이스를 포함하는, 예컨대 프로세싱 디바이스들을 일반적으로 지칭하는 프로세서와 같은 장치에서 구현될 수도 있다. 프로세서들은 또한 예컨대 컴퓨터들, 셀 전화기들, 휴대용/개인용 디지털 보조기들 ("PDAs"), 및 엔드-유저들 간의 정보의 통신을 용이하게 하는 다른 디바이스들과 같은 통신 디바이스들을 포함한다.

본 원리들의 "하나의 실시형태" 또는 "일 실시형태" 또는 "하나의 구현형태" 또는 "일 구현형태", 및 그것의 다른 변형들에 대한 업급은, 그 실시형태와 함께 기술된 특정 특징, 구조, 특성 등이 본 원리들의 적어도 하나의 실시형태에 포함되는 것을 의미한다. 따라서, 명세서 전체를 통해 다양한 곳들에서 나타나는, 문구 "하나의 실시형태에서" 또는 "일 실시형태에서" 또는 "하나의 구현형태에서" 또는 "일 구현형태에서", 및 임의의 다른 변형들의 모습들은 반드시 모두 동일한 실시형태를 지칭하는 것은 아니다.

추가적으로, 이 출원 또는 그것의 청구항들은 다양한 조각들의 정보를 "결정" 하는 것을 언급할 수도 있다. 정보를 결정하는 것은 예를 들어 정보를 추정하는 것, 정보를 계산하는 것, 정보를 예측하는 것, 또는 메모리로부터 정보를 취출하는 것 중 하나 이상을 포함할 수도 있다.

또한, 이 출원 또는 그것의 청구항들은 다양한 조각들의 정보를 "액세스" 하는 것을 언급할 수도 있다. 정보를 액세스하는 것은, 예를 들어 정보를 수신하는 것, (예를 들어, 메모리로부터) 정보를 취출하는 것, 정보를 저장하는 것, 정보를 프로세싱하는 것, 정보를 송신하는 것, 정보를 이동하는 것, 정보를 복사하는 것, 정보를 삭제하는 것, 정보를 계산하는 것, 정보를 결정하는 것, 정보를 예측하는 것, 또는 정보를 추정하는 것 중 하나 이상을 포함할 수도 있다.

추가적으로, 이 출원 또는 그것의 청구항들은 다양한 조각들의 정보를 "수신" 하는 것을 언급할 수도 있다. 수신하는 것은 "액세스" 하는 것처럼, 넓은 의미로 의도된다. 정보를 수신하는 것은, 예를 들어 정보를 액세스하는 것, 또는 (예를 들어, 메모리로부터) 정보를 취출하는 것을 포함할 수도 있다. 또한, "수신" 하는 것은, 예를 들어, 정보를 저장하는 것, 정보를 프로세싱하는 것, 정보를 송신하는 것, 정보를 이동하는 것, 정보를 복사하는 것, 정보를 삭제하는 것, 정보를 계산하는 것, 정보를 결정하는 것, 정보를 예측하는 것, 또는 정보를 추정하는 것과 같은 동작들 동안, 하나의 방식 또는 다른 방식으로 통상적으로 수반된다.

당해 기술분야에서 통상의 지식을 가진 자에게 명백한 바와 같이, 구현형태들은 예를 들어 저장 또는 송신될 수도 있는 정보를 반송하기 위해 포맷팅된 다양한 신호들을 생성할 수도 있다. 정보는 예를 들어 기술된 구현형태들 중 하나에 의해 생성된 데이터, 또는 방법을 수행하기 위한 명령들을 포함할 수도 있다. 예를 들어, 신호는 기술된 실시형태의 비트스트림을 반송하도록 포맷팅될 수도 있다. 이러한 신호는 (예를 들어 스펙트럼의 라디오 주파수 부분을 이용하여) 전자기파로서 또는 기저대역 신호로서 포맷팅될 수도 있다. 포맷팅 (formatting) 은 예를 들어 데이터 스트림을 인코딩하는 것 및 인코딩된 데이터 스트림으로 반송파를 변조하는 것을 포함할 수도 있다. 신호가 반송하는 정보는 예를 들어 아날로그 또는 디지털 정보일 수도 있다. 신호는 알려진바와 같이 다양한 상이한 유선 또는 무선 링크들을 통해 송신될 수도 있다. 신호는 프로세서-판독가능 매체에 저장될 수도 있다.

Claims

비디오 시퀀스의 시각적 품질을 추정하는 방법으로서,
현재 프레임을 포함하는 복수의 이웃들 (neighborhoods) 로부터 상기 비디오 시퀀스의 상기 현재 프레임의 이웃을 결정하는 단계 (640, 650);
결정된 상기 이웃에서의 프레임들에 대한 공간적 왜곡에 응답하여 상기 현재 프레임에 대한 초기 시간적 왜곡을 결정하는 단계 (660);
상기 결정된 이웃에서의 상기 프레임들에 대한 상기 공간적 왜곡의 분포를 결정하는 단계;
상기 초기 시간적 왜곡 및 상기 분포에 응답하여 상기 현재 프레임에 대한 시간적 왜곡을 결정하는 단계 (660); 및
상기 현재 프레임에 대한 상기 시간적 왜곡에 응답하여 상기 비디오 시퀀스의 상기 시각적 품질을 결정하는 단계를 포함하는, 비디오 시퀀스의 시각적 품질을 추정하는 방법.
제 1 항에 있어서,
상기 결정된 이웃은, 상기 복수의 이웃들 중에서 상기 현재 프레임의 상기 시간적 왜곡에 대해 최대의 영향을 갖는, 비디오 시퀀스의 시각적 품질을 추정하는 방법.
제 1 항에 있어서,
상기 현재 프레임의 상기 이웃은 슬라이딩 윈도우 접근법에 기초하여 결정되는, 비디오 시퀀스의 시각적 품질을 추정하는 방법.
제 1 항에 있어서,
상기 분포를 결정하는 단계는,
상기 결정된 이웃에서 대왜곡을 갖는 최근접 프레임과 상기 현재의 프레임 사이의 거리를 결정하는 단계를 포함하고,
상기 시간적 왜곡은 상기 초기 시간적 왜곡 및 상기 거리에 응답하여 결정되는, 비디오 시퀀스의 시각적 품질을 추정하는 방법.
제 4 항에 있어서,
상기 현재 프레임에 대한 상기 시간적 왜곡 dt(n) 은
dt(n) = d_t,₀(n)/dist(n)
으로서 결정되고, 여기서, d_t,₀(n) 는 상기 현재 프레임에 대한 상기 초기 시간적 왜곡이고, dist(n) 은 결정된 상기 거리인, 비디오 시퀀스의 시각적 품질을 추정하는 방법.
제 1 항에 있어서,
상기 분포를 결정하는 단계는,
상기 결정된 이웃에서 연속적인 대왜곡을 갖는 프레임들 사이의 거리들의 평균, 최소, 또는 최대 거리를 결정하는 단계를 포함하고,
상기 시간적 왜곡은 결정된 상기 평균, 최소, 또는 최대 거리에 응답하여 결정되는, 비디오 시퀀스의 시각적 품질을 추정하는 방법.
제 1 항에 있어서,
상기 분포를 결정하는 단계는,
상기 결정된 이웃에서의 연속적인 왜곡 버스트들 (bursts) 사이의 거리들의 평균, 최소, 또는 최대 거리를 결정하는 단계를 포함하고,
상기 시간적 왜곡은 결정된 상기 평균, 최소, 또는 최대 거리에 응답하여 결정되는, 비디오 시퀀스의 시각적 품질을 추정하는 방법.
제 1 항에 있어서,
비트스트림의 품질을 모니터링하는 것, 결정된 상기 시각적 품질에 응답하여 상기 비트스트림을 조정하는 것, 결정된 상기 시각적 품질에 기초하여 새로운 비트스트림을 형성하는 것, 상기 비트스트림을 송신하기 위해 이용되는 분배 네트워크의 파라미터들을 조정하는 것, 결정된 상기 시각적 품질에 기초하여 상기 비트스트림을 유지할지 여부를 결정하는 것, 및 디코더에서 에러 은닉 모드를 선택하는 것 중 적어도 하나를 수행하는 단계를 더 포함하는, 비디오 시퀀스의 시각적 품질을 추정하는 방법.
비디오 시퀀스의 시각적 품질을 추정하기 위한 장치 (700, 800) 로서,
현재 프레임을 포함하는 복수의 이웃들 (neighborhoods) 로부터 상기 비디오 시퀀스의 현재 프레임의 이웃을 결정하고;
결정된 상기 이웃에서의 프레임들에 대한 공간적 왜곡에 응답하여 상기 현재 프레임에 대한 초기 시간적 왜곡을 결정하며;
결정된 상기 이웃에서의 상기 프레임들에 대한 상기 공간적 왜곡의 분포를 결정하고;
상기 초기 시간적 왜곡 및 상기 분포에 응답하여 상기 현재 프레임에 대한 시간적 왜곡을 결정하는,
시간적 왜곡 추정기 (740); 및
상기 현재 프레임에 대한 상기 시간적 왜곡에 응답하여 상기 비디오 시퀀스의 상기 시각적 품질을 결정하는 품질 예측기 (750) 를 포함하는, 비디오 시퀀스의 시각적 품질을 추정하기 위한 장치.
제 9 항에 있어서,
상기 결정된 이웃은, 상기 복수의 이웃들 중에서 상기 현재 프레임의 상기 시간적 왜곡에 대해 최대의 영향을 갖는, 비디오 시퀀스의 시각적 품질을 추정하기 위한 장치.
제 9 항에 있어서,
상기 시간적 왜곡 추정기 (740) 는, 슬라이딩 윈도우 접근법에 기초하여 상기 현재 프레임의 상기 이웃을 결정하는, 비디오 시퀀스의 시각적 품질을 추정하기 위한 장치.
제 9 항에 있어서,
상기 시간적 왜곡 추정기 (740) 는, 상기 결정된 이웃에서 대왜곡을 갖는 최근접 프레임과 상기 현재의 프레임 사이의 거리를 결정하고,
상기 시간적 왜곡 추정기 (740) 는, 상기 초기 시간적 왜곡 및 상기 거리에 응답하여 상기 시간적 왜곡을 결정하는, 비디오 시퀀스의 시각적 품질을 추정하기 위한 장치.
제 11 항에 있어서,
상기 시간적 왜곡 추정기 (740) 는, 상기 현재 프레임에 대한 상기 시간적 왜곡 dt(n) 을
dt(n) = d_t,₀(n)/dist(n)
으로서 결정하고, 여기서, d_t,₀(n) 는 상기 현재 프레임에 대한 상기 초기 시간적 왜곡이고, dist(n) 은 결정된 거리인, 비디오 시퀀스의 시각적 품질을 추정하기 위한 장치.
제 9 항에 있어서,
상기 시간적 왜곡 추정기 (740) 는, 상기 결정된 이웃에서 연속적인 대왜곡을 갖는 프레임들 사이의 거리들의 평균, 최소, 또는 최대 거리를 결정하고,
상기 시간적 왜곡 추정기 (740) 는, 결정된 상기 평균, 최소, 또는 최대 거리에 응답하여 상기 시간적 왜곡을 결정하는, 비디오 시퀀스의 시각적 품질을 추정하기 위한 장치.
제 9 항에 있어서,
상기 시간적 왜곡 추정기 (740) 는, 상기 결정된 이웃에서의 연속적인 왜곡 버스트들 (bursts) 사이의 거리들의 평균, 최소, 또는 최대 거리를 결정하고,
상기 시간적 왜곡 추정기 (740) 는, 결정된 상기 평균, 최소, 또는 최대 거리에 응답하여 상기 시간적 왜곡을 결정하는, 비디오 시퀀스의 시각적 품질을 추정하기 위한 장치.
제 9 항에 있어서,
비트스트림의 품질을 모니터링하는 것, 결정된 상기 시각적 품질에 응답하여 상기 비트스트림을 조정하는 것, 결정된 상기 시각적 품질에 기초하여 새로운 비트스트림을 형성하는 것, 상기 비트스트림을 송신하기 위해 이용되는 분배 네트워크의 파라미터들을 조정하는 것, 결정된 상기 시각적 품질에 기초하여 상기 비트스트림을 유지할지 여부를 결정하는 것, 및 디코더에서 에러 은닉 모드를 선택하는 것 중 적어도 하나를 수행하는 비디오 품질 모니터 (840, 850, 860) 를 더 포함하는, 비디오 시퀀스의 시각적 품질을 추정하기 위한 장치.
제 1 항 내지 제 8 항에 따라, 비디오 시퀀스의 시각적 품질을 추정하기 위한 명령들을 저장한 컴퓨터 판독가능 저장 매체.