KR20140097199A

KR20140097199A - 비디오 품질 측정

Info

Publication number: KR20140097199A
Application number: KR1020147013785A
Authority: KR
Inventors: 팽 장; 닝 리아오; 카이 씨에; 지보 첸
Original assignee: 톰슨 라이센싱
Priority date: 2011-11-24
Filing date: 2011-11-24
Publication date: 2014-08-06
Also published as: WO2013075318A1; AU2011381970B2; US20140286441A1; EP2783512A4; EP2783512A1; HK1202738A1; US10075710B2; CN103988500A; AU2011381970A1; BR112014012316A2

Abstract

한 특정 구현은 비트스트림을 수신하고, 그 비트스트림으로부터 파라미터들을 유도한다. 파라미터들은 양자화 파라미터들, 컨텐츠 예측 불가능 파라미터들, 손실 블록들의 비율, 전파된 블록들의 비율, 에러 은폐 거리들, 움직임 벡터들, 동결(freezing)의 지속시간, 및 프레임 레이트들을 포함한다. 이들 파라미터들을 사용하여, 압축 왜곡 인자, 슬라이싱 왜곡 인자, 및 동결 왜곡 인자는 비디오 압축, 슬라이싱 모드 에러 은폐, 및 동결 슬라이싱 모드 에러 은폐로부터 초래되는 왜곡들에 대해 각각 추정(estimate)된다. 그리고 나서, 왜곡 인자들은 합성 비디오 품질 스코어에 맵핑된다. 제한된 계산 전력(calculation power)을 갖는 어플리케이션을 위해, 왜곡 인자들의 추정은 간소화될 수 있다. 특히, 압축 왜곡 인자, 슬라이싱 왜곡 인자, 및 동결 왜곡 인자는 양자화 파라미터들, 손실 블록들의 비율, 및 동결의 지속시간으로부터 각각 예측될 수 있다.

Description

비디오 품질 측정{VIDEO QUALITY MEASUREMENT}

본 발명은 비디오 품질 측정(video quality measurement)에 관한 것이며, 보다 상세하게는 네트워크로 송신된 비디오의 품질 측정을 결정하기 위한 방법 및 장치에 관한 것이다.

IPTV(Internet protocol television) 또는 다른 비디오 송신 어플리케이션들에서, 비디오 신호들은 상이한 단계들로 프로세싱된다. 비디오 신호는 일반적으로 비트스트림으로 압축되며, 이 비트스트림은 또한 엘러멘터리 스트림(ES: elementary stream)으로 언급될 수도 있다. 그리고 나서, 비트스트림 또는 ES는 전송 스트림(TS)으로 패킷화되고, IP 채널을 통해 송신될 수 있다. 디코더에서 수신된 비트스트림은 디코딩될 수 있다. 에러 은폐(error concealmeant)는 필요하다면 디코딩된 비디오로 수행될 수 있다. 디코더에서의 비디오 품질은 일반적으로 압축 손실 및 송신 에러들로 인해 원래의 비디오의 품질 보다 더 낮다. 얼마나 많은 비디오 품질이 저하되는지를 객관적으로 조사하기 위해, 비디오 품질은 전송 스트림, 엘러멘터리 스트림, 또는 디코딩 비디오를 사용하여 측정될 수 있다.

본 발명의 목적은 네트워크로 송신된 비디오의 품질 측정을 결정하기 위한 것이다.

일반적인 한 양상에 따르면, 이는 비트스트림에 대응하는 비디오를 재구성(reconstructing)하지 않고도, 비트스트림에 대한 슬라이싱 왜곡 인자(slicing distortion factor)와 동결 왜곡 인자(freezing distortion factor) 중 적어도 하나를 결정하고, 슬라이싱 왜곡 인자는 슬라이싱 모드 에러 은폐로부터 초래되는 왜곡을 나타내고, 동결 왜곡 인자는 동결 모드 에러 은폐로부터 초래되는 왜곡을 나타낸다. 이는 슬라이싱 왜곡 인자와 동결 왜곡 인자 중 적어도 하나에 응답하여 품질 메트릭(quality metric)을 더 결정한다.

다른 일반적인 양상에 따르면, 이는 비트스트림으로부터, 손실 블록들의 비율(ratios)과 동결의 지속시간(durations) 중 적어도 하나를 포함하는 파라미터들을 결정한다. 이는 비트스트림에 대응하는 비디오를 재구성하지 않고도, 비트스트림에 대한 슬라이싱 왜곡 인자와 동결 왜곡 인자 중 적어도 하나를 결정하고, 슬라이싱 왜곡 인자는 슬라이싱 모드 에러 은폐로부터 초래되는 왜곡을 나타내고, 동결 왜곡 인자는 동결 모드 에러 은폐로부터 초래되는 왜곡을 나타내고, 슬라이싱 왜곡 인자는 손실 블록들의 비율을 이용하여 계산되고, 동결 왜곡 인자는 동결의 지속시간을 이용하여 계산된다. 이는 슬라이싱 왜곡 인자와 동결 왜곡 인자 중 적어도 하나에 응답하여 품질 메트릭을 더 결정한다.

하나 이상의 구현들의 세부사항들은 첨부 도면들 및 아래의 설명에 열거된다. 비록 하나의 특정 방식으로 설명될지라도, 구현들이 다양한 방식들로 구성 또는 구현될 수 있음이 명백할 것이다. 예를 들어, 하나의 구현은 하나의 방법으로서 수행되거나, 연산들(operations)의 세트를 수행하도록 구성된 장치 또는 연산들의 세트를 수행하기 위한 명령어들을 저장하는 장치와 같은 하나의 장치로서 구현될 수 있거나, 또는 신호로 구현될 수도 있다. 다른 양상들 및 특징들은 첨부 도면들 및 청구항들과 연계되어 고려되는 다음의 상세한 설명으로부터 명백해질 것이다.

본 발명을 통해 네트워크로 송신된 비디오의 품질 측정을 결정하기 위한 방법 및 장치가 제공된다.

도 1은 본 발명의 원리들의 한 실시예에 따른 비디오 품질 메트릭을 계산하기 위한 일예를 도시하는 흐름도.
도 2a 및 도 2b는 본 발명의 원리들의 한 실시예에 따른 에러 은폐 거리들을 계산하는 방법을 도시하는 화상 예시들.
도 3a 내지 도 3d는 본 발명의 원리들의 한 실시예에 따른 동결의 지속시간의 화상 예시들.
도 4는 본 발명의 원리들의 한 실시예에 따른 품질 측정에서 사용되는 파라미터들을 업데이트하기 위한 일예를 도시하는 흐름도.
도 5는 매크로블록(macroblock) 쌍의 화상 표현.
도 6a 내지 도 6c는 주관적 품질이 핵심(key) 파라미터들에 어떻게 관련되는지에 대한 화상 예시들.
도 7은 본 발명의 원리들의 하나 이상의 구현들과 함께 사용될 수 있는 비디오 품질 측정 장치의 일예를 도시하는 블록도.
도 8은 본 발명의 원리들의 하나 이상의 구현들과 함께 사용될 수 있는 비디오 프로세싱 시스템의 일예를 도시하는 블록도.

특히, ITU-T SG12에 의한 최신 표준화 과제(standardization work)는 엘러멘터리 스트림 기반의 품질 측정에 대한 실용적(practical) 및 실제적(pragmatic) 연구를 가능하게 한다.

본 실시예들은 원래의 비디오를 전혀 참조하지 않고도, 왜곡된 비디오의 품질을 평가(assess)하는 비-참조(NR: no-reference) 품질 메트릭에 관한 것이다. 특히, 본 실시예들은 비디오 압축 및 송신 손실들에 의해 야기되는 품질 저하에 기초하는 품질 메트릭을 제공한다. 한 실시예에서, 본 발명의 원리들은, 예를 들어 ITU-T SG12에 의해 제공되며, 다양한 시나리오들 및 주관적 비디오 품질 데이터베이스들에 기초하는, 엘러멘터리 스트림 및 선택적 디코딩된 비디오로부터 유도된 파라미터들에 기초하여, 정확하고 효율적으로 비디오 품질을 예측하는 것이다.

비디오 인코더들은 종종 신호 값들의 정밀도를 감소시킴으로써 비디오 데이터를 압축하기 위한 양자화 기술(quantization techniques)을 이용한다. 양자화 파라미터(QP)는 압축된 비디오의 품질 및 비트 전송률을 직접 제어한다. 컨텐츠 복잡성은 또한 압축된 비디오의 인지(perceive)된 품질에 상당한 영향을 준다. 특히, 복잡한 비디오들에서의 시각적 아티팩트들은 인간의 눈에 의해 보다 더 묵인될 것이다.

비디오 송신 동안의 패킷 손실들은 상이한 방식들로 아티팩트들을 일으키며, 이는 압축된 비디오의 품질을 더 저하시킨다. 한편으로, 손실 블록은 적절하게 재구성될 수 없으며, 이로써 시각적 아티팩트들을 야기한다. 다른 한편으로, 오염된(corrupted) 블록을 언급하는 수신된 인터 예측된(inter predicted) 블록은 또한 적절하게 재구성될 수 없으며, 이로써 {보통 에러 전파(error propagation)로 알려진} 시각적 아티팩트를 일으킨다. 송신 손실로부터의 아티팩트들을 갖는 블록들은 손상된 블록들로 지칭된다.

인지된 아티팩트들 감소시키기 위해, 디코더는 에러 은폐 기술들에 손상된 블록들을 복구하도록 시도할 수 있다. 상이한 에러 은폐 기술들은 상이한 시각적 패턴들을 가져오며, 이로써 상이한 방식들로 인지된 비디오 품질에 영향을 준다. 본 발명의 원리들에서, 두 개의 에러 은폐 기술들, 즉 슬라이싱 모드 에러 은폐 및 동결 모드 에러 은폐는 품질 측정을 위해 고려된다. 대응하는 아티팩트들은 슬라이싱 및 동결로서 각각 언급된다.

슬라이싱 모드 에러 은폐 기술에서, 디코더는 이미 재구성된 픽셀들을 이용하여 손실된 슬라이스를 복구(repair)하도록 시도한다. 시각적 아티팩트들은 종종 이러한 복구 이후에 화상 내에 남아 있는다. 보통, 손실률이 높으면, 보다 더 많은 픽셀들이 손상을 받고, 복구될 필요가 있으며, 이는 보다 더 강한 슬라이싱 아티팩트들을 가져온다. 따라서, 정보 손실률은 슬라이싱으로부터의 품질 저하 또는 왜곡을 계산하는데에 있어 핵심 인자이다. 정보 손실률은 패킷 손실률 또는 프레임 손실률을 이용하여 측정될 수 있다. 패킷 손실이 손실 블록들을 일으키고 에러 전파를 통해 블록들에 악 영향을 주기 때문에, 손상된 블록들의 비율은 또한 정보 손실률을 측정할 때에 고려될 수도 있다. 컨텐츠 복잡성은 또한 인지된 비디오 품질에 영향을 준다. 즉, 동적인(dynamic) 또는 텍스쳐링된(textured) 장면들(scenes)에 대응하는 손실 정보는 정지의(still) 또는 매끄러운(smooth) 장면들에 대응하는 손실 정보에 비해 복구하기에 더 어렵다.

동결 모드 에러 은폐 기술에서, 참조 프레임, 예를 들어 I, P, 또는 참조 B 프레임은 손실되었을 때, 디코더는 디코딩을 동결하고, 손실 프레임을 (직접 또는 간접적으로) 참조(referring to)하지 않고 프레임이 정확히 수신될 때까지, 이전의 정확하게 디코딩된 화상을 반복한다. 비-참조 프레임, 예를 들어 비-참조 프레임 B가 손실되었을 때, 차후의 프레임들은 비-참조 프레임을 참조하지 않고 디코딩될 수 있기 때문에, 디코더는 단지 손실 프레임에 대한 디코딩을 동결할 뿐이다. 보통, 패킷 손실률이 높으면, 보다 더 많은 화상들이 손실되며, 이는 보다 더 많은 동결된 화상들을 가져온다.

대부분의 기존의 비디오 압축 표준들, 예를 들어 H.264 및 MPEG-2는 기본 인코딩 단위로서 매크로블록(MB: macroblock)을 사용한다. 따라서, 다음의 실시예들은 기본 프로세싱 단위로서 매크로블록을 사용한다. 하지만, 본 발명의 원리들은, 예를 들어 8x8 블록, 16x8 블록, 32x32 블록, 및 64x64 블록인 상이한 사이즈로 블록을 사용하도록 적응될 수 있다.

도 1은 3-층(layer) 계층적 모델(hierarchical model)을 이용하여 비디오 품질을 추정(estimate)하는 한 예시적인 방법(100)을 도시한다. 방법(100)은 기능 블록(110)으로 제어(control)를 전달하는 시작 블록(105)을 통해 시작한다. 블록(110)에서, 품질 추정을 위해 사용될 파라미터들은 비트스트림으로부터 유도된다. 비트스트림은 비디오 클립(video clip)에 대응하고, 이는 수송 스트림으로부터의 엘러멘터리 스트림일 수 있다. 블록(120)에서, 파라미터들은 압축, 슬라이싱, 및 동결에 의해 야기되는 왜곡 인자들을 계산하도록 사용된다. 블록(130)에서, 상이한 왜곡 인자들은 결합되고, 합성 품질 스코어(composite quality score)로 컨버팅된다. 그리고 나서, 제어는 종료 블록(199)으로 전달된다. 다음에서, 파라미터 결정, 왜곡 계산, 및 품질 메트릭 계산의 단계들은 더 상세하게 논의된다. 화상들이 방법(100)에서 완전히 디코딩될 필요가 없음(즉, 어떤 디코딩된 화상들도 재구성되지 않음)에 주목한다.

파라미터 결정

각각의 유형의 손상(즉, 압축, 슬라이싱, 및 동결)에 의해 야기된 왜곡은 대응하는 핵심 인자에 의해 지배당한다. 예를 들어, 양자화 파라미터는 압축 손상에 대한 핵심 인자이고, 손실 매크로블록들의 비율은 슬라이싱 손상에 대한 핵심 인자이며, 동결의 지속시간은 동결 손상에 대한 핵심 인자이다. 다른 파라미터들이 또한 인지된 비디오 품질에 영향을 준다. 예를 들어, 움직임 벡터들(MVs)은 컨텐츠가 동적인 또는 정지의 사물들(objects)을 포함하는지의 여부를 반영하고, 컨텐츠 복잡성은 컨텐츠가 텍스쳐링된 것인지 또는 매끄러운 것인지의 여부를 설명한다. 움직임 벡터들과 컨텐츠 복잡성 모두는 수신 또는 은폐된 화상들이 어떻게 인간의 눈에 의해 인지되는지에 영향을 준다.

예시적인 파라미터들

파라미터들	설명
QP	양자화 파라미터
CU	컨텐츠 예측 불가능 파라미터
EC	손실 블록들의 비율
EP	전파된 블록들의 비율
ED	에러 은폐 거리
MV	움직임 벡터들
FD	동결의 지속시간
FR	프레임 레이트

표 1은 본 실시예에 따라 비디오 품질을 예측하도록 사용될 수 있는 예시적인 파라미터들을 열거한다. 각 파라미터에 대한 짧은 설명은 표 1에 또한 설명된다. 각 파라미터에 관한 보다 많은 세부사항들은 아래에 제공된다.

QP (양자화 파라미터)

양자화 파라미터는 비디오 인코더에서 변환 계수들(transform coefficients)을 양자화할 때 사용된다. H.264에 대해, 각 매크로블록은 양자화 단계 사이즈에 대응하는 QP와 연관된다. 유사하게도, QP는 H.263 및 MPEG-2와 같은 다른 표준들에서의 각 매크로블록에 대해 정의된다. 보다 큰 QP, 즉 보다 거친(coarser) 양자화는 보통 압축된 비디오의 보다 낮은 품질을 가져온다.

CU ( 컨텐츠 예측 불가능 파라미터)

CU로 지칭되는 컨텐츠 예측 불가능 파라미터는 잔차(residual)의 분산(variance)으로서 정의되고, 이론적으로 DCT 계수들에 의해 근사화될 수 있다. 이는 화상들의 세트 내의 공간-시간적 변화(variations)의 정도(degree)를 나타낸다. 일반적으로, 변화(variation)가 클수록, 효율적으로 화상을 인코딩하거나, 또는 화상을 은폐하는 것은 보다 더 어렵다. 다른 한편으로, 보다 많은 왜곡들은 인간의 시각 시스템의 텍스쳐 마스킹 특성(texture masking property)으로 인해 복잡한 컨텐츠들에서 인간의 눈에 의해 묵인될 수 있다.

EC (손실 블록들의 비율)

EC로서 지칭되는 손실 블록들의 비율은 비디오 클립 내에서의 MB들의 총 개수에 대한 현재 프레임 내의 손실 MB들의 개수의 비율로서 정의된다. 일부 손실 MB은 에러 은폐에 의해 충분히 복구될 수 있으며, 이로써 인지된 비디오 품질에 거의 영향을 주지 않는다. 손실 블록이 충분히 높은 품질로 (즉, 마치 블록이 정확히 수신되는 것처럼) 복구되는지의 여부를 확인하기 위해, 화상들은 선택적 단계에서, 나중에 논의될 바와 같이, 비트스트림으로부터 디코딩될 수 있다. 손실 블록이 적절하게 복구된다면, 손실 블록들의 비율은, 마치 블록이 손실되지 않은 것처럼, 업데이트될 것이다.

EP (전파된 블록들의 비율)

EP로서 지칭되는 전파된 블록들의 비율은 비디오 클립 내에서의 MB들의 총 개수에 대한 현재 프레임 내의 전파된 MB들의 개수의 비율로서 정의되는데, 여기서 전파된 MB들은 예측을 위해 직접적 또는 간접적으로 손실 블록들을 사용하는 매크로블록들을 언급한다. 앞서 논의된 바와 같이, 화상들은 블록이 충분히 높은 품질에서 은폐되는지의 여부를 조사하기 위해 선택적 단계에서 디코딩될 수 있다. 블록이 적절히 은폐된다면, 손실 블록들의 비율(EC)은, 마치 블록이 손실되지 않은 것처럼, 업데이트된다. 유사하게도, 전파된 블록들의 비율은 또한, 마치 블록이 손실되지 않은 것처럼, 업데이트될 것이다.

ED (에러 은폐 거리)

손실 매크로블록을 은폐시키기 위해, 디코더는 현재 은폐될(to-be-concealed) 프레임 내의 매크로블록을, 은폐 프레임(concealing frame)(즉, 현재 프레임을 은폐시키도록 사용된 프레임) 내의 동일한 공간적 위치에서 MB로 채울 수 있으며, 은폐 프레임은 보통 현재 기준 화상 목록 내의 마지막 프레임이다. ED로서 지칭되는 에러 은폐 거리는 은폐될 프레임과 은폐 프레임 사이의 디스플레이 순서(order)에 따른 시간적 거리로서 정의된다. 본 출원에서의 두 개의 화상들 사이의 공간적 거리는 두 개의 화상들 사이의 시간 간격(interval) 또는 시간 차(difference)를 언급한다는 것에 주목한다. 에러 은폐 거리 파라미터는 어떤 에러 은폐 기술이 사용되는지에 의존한다. 에러 은폐 기술이 알려져 있지 않다면, ED는 1로 설정된다.

도 2a 및 도 2b는 에러 은폐 거리들을 계산하는 방법을 예시들로서 도시한다. 도 2a에서, 참조 또는 비-참조 양방향 화상(220)은 은폐될 현재 화상이다. I 또는 P 화상(210)은 참조 화상 목록 내의 최종 화상이며, 이는 화상(220)을 은폐시키기 위해 사용된다. 따라서, 화상들(210) 및 (220) 사이의 시간적 거리(240)는 화상(220)에 대한 에러 은폐 거리이다. 도 2b의 예시에서, P 화상(260)은 은폐될 현재 화상이고, 이는 은폐 화상으로서 P 화상(250)을 사용한다. 따라서, 화상들(250) 및 (260) 사이의 거리(270)는 화상(260)에 대한 에러 은폐 거리이다.

도 2a 및 도 2b에서, 화상들은 디스플레이 순서에 따라 도시된다. 화상들이 보통 디스플레이 순서와 상이한 순서로 인코딩 및 디코딩되는 것에 주목한다. 인코딩 또는 디코딩 순서는 에러 은폐 거리를 계산할 때 디스플레이 순서로 컨버팅될 것이다.

MV (움직임 벡터)

H.264 비디오의 인터 프레임에 대해, 각 MB는 8x8, 16x8, 8x16, 또는 16x16 블록들로 분할되고, 각 블록은 2-차원 움직임 벡터와 연관된다. MB-방식의(wise) 움직임 벡터는 매크로블록의 면적(area)에 대한 각 블록의 면적의 비율에 의해 가중된 대응하는 블록들의 움직임 벡터들의 평균으로서 정의된다. 프레임-방식의(wise) MV는 모든 완전한(intact) (즉, 손상되지 않은) MB들의 움직임 벡터들의 평균 크기(average magnitude)로서 정의된다. 인트라 프레임에 대해, 그것의 MV는 차후의 또는 이전의 인터 프레임으로서 정의된다. 상이한 프레임 레이트들을 카운팅(count)하기 위해, MV는 프레임 레이트에 의해 정규화될 수 있다. 즉, MV는 프레임 레이트에 의해 분할될 수 있다. 이러한 정규화된 MV는 초(second)당 픽셀 폭(width)의 움직임 벡터로서 해석될 수 있다.

FD (동결의 지속시간)

FD로서 지칭되는 동결의 지속시간은 디코더가 디코딩을 동결할 때의 시간적 지속시간(temporal duration)으로서 정의된다. 에러 은폐를 수행할 때, 화상 데이터 또는 참조 화상이 손실되면, 디코더는 디코딩을 동결할 수 있으며, 손실 프레임을 (직접적 또는 간접적으로) 참조하지 않는 프레임을 정확히 수신할 때 디코딩을 재개할 수 있다.

도 3a 내지 도 3d는 동결의 지속시간을 계산하는 방법을 도시하는 여러 예시들을 제공한다. 도 3a의 예시에서, I 또는 P 화상(320)은 손실되었고, 이에 따라, 디코더는 화상(320) 및 화상(320)을 참조하는 화상들에 대한 디코딩을 동결한다. 결과적으로, 양방향 화상들(310, 315, 322 및 324), 및 예측을 위해 화상(320)을 사용하는 P 화상(326)은 화상(320)에 추가적으로 디코딩되지 않는다. 적절하게 디코딩된 P 화상(305)은 이들 화상들에 대한 은폐를 위해 사용될 수 있다. 즉, 화상들(305, 310, 315, 320, 322, 324 및 326)은 화상(305)으로서 디스플레이되며, 이로써 시각적 정지(visual pause)를 야기한다. 디코더는 인트라 화상(330)이 정확하게 수신될 때 디코딩을 재개한다. 디코더가 디코딩을 동결한 곳{화상(310)}과 디코더가 디코딩을 재개한 곳{화상(330)} 사이에서의 디스플레이 순서에 따른 시간적 거리(340)는 동결의 지속시간으로서 계산된다.

도 3b는 비-참조 b 화상(352)이 손실된, 그리고 디코딩되지 않은 일예를 도시한다. 디코더는 화상(352)에서 디코딩을 동결한다. 이전에 디코딩된 화상(350)은 화상(352)을 은폐하도록 사용될 수 있다. 화상(352)이 임의의 다른 화상들에 대한 참조 화상으로서 사용되지 않기 때문에, 디코더는 다음의 화상(354)에서 즉시 재개한다. 화상들(352 및 354) 사이의 시간적 거리(360)는 이 예시에서 동결의 지속시간으로서 계산된다.

도 3c는 참조 B 화상(374)이 손실된 일예를 도시한다. 참조 B 화상으로서, 화상(372)은 비-참조 b 화상들(372 및 376)의 의해 참조(reference)로서만 사용된다. 디코더는 화상(372)에서 디코딩을 동결하며, 화상(378)에서 디코딩을 재개한다. 화상들(372 및 378) 사이의 거리(380)는 이 예시에서 동결의 지속시간으로서 계산된다.

동결에 의해 야기되는 다중(multiple) 시각적 정지들은 도 3d의 일예에서 도시되는 바와 같이, 디코딩된 비디오 클립에서 발생할 수 있으며, 여기서 비디오 클립은 라인(395)으로 표현된다. 이 예시에서, 시각적 정지(390)는 비디오 클립의 처음에 발생하며, 다른 시각적 정지(392)는 비디오 클립의 중간에 발생한다.

FR(프레임 레이트 )

제한된 대역폭 환경에서, 컨텐츠 제공자, 인코더, 또는 네트워크 제공자는, 예를 들어 모바일 TV 어플리케이션에 대한 비디오들의 프레임 레이트들을 감소시킬 수 있다. 프레임 레이트가 낮을 때, 예를 들어 12.5 fps 또는 15 fps일 때, 시각적 불연속(visual discontinuity)이 인지될 수 있다. 이러한 시각적 불연속은, 비록 어떤 패킷 손실 또는 에러 은폐도 존재하지 않을지라도, 동결로서 간주될 수 있다. 따라서, 프레임 레이트는 동결의 지속시간을 계산할 때에 고려된다.

왜곡 계산

본 발명의 원리들에서, 압축 왜곡 인자는 압축으로부터 초래되는 왜곡을 나타내도록 정의되며, 이는 d_c로서 지칭된다. 일예에서, 이는 다음과 같이 계산될 수 있다:

여기서, QP _T 는 비디오 클립에 대한 평균 QP이고, CU _T 는 비디오 클립에 대한 평균 컨텐츠 예측 불가능 파라미터이고, b ₁ 및 b ₂ 는 상수들이다. 압축으로 인한 왜곡은 비디오 클립에 걸쳐 대략 균일하며, 이에 따라 이는 클립-방식의(wise) 파라미터들에 대한 포시노미얼 함수(posynomial function)에 의해 정확하게 예측될 수 있다.

수학식 1의 계산은 최대 QP 값이 51인 H.264를 위해 주로 설계된다. 비디오 클립이 다른 표준으로 압축될 때, 수학식 1은 이에 따라, 예를 들어 적절한 QP 파라미터를 사용하여 튜닝될 것이다.

이전에 논의된 바와 같이, 정보 손실률은 인지된 슬라이싱 아티팩트들의 강도(strength)에 대한 핵심 인자이다. 한 실시예에서, 변수 LR _T 는 비디오 클립에 대한 정보 손실률을 나타내도록 정의된다. 시간 t에서의 각 프레임에 대해, 손실 블록들의 비율 EC _t , 전파된 블록들의 비율 EP _t , 컨텐츠 예측 불가능 파라미터 CU _t , 및 에러 은폐 거리 ED _t 는 변수 LR _T 를 다음과 같이 계산하도록 사용될 수 있다:

여기서, c₁, c₂ 및 c₃는 상수들이다.

그리고 나서, d _s 로서 지칭되는 슬라이싱 왜곡 인자는 정보 손실률과 컨텐츠 예측 불가능 파라미터의 포시노미얼 함수로서 추정될 수 있다:

여기서, CU _t 는 비디오 클립에 대한 평균 컨텐츠 예측 불가능 파라미터이고, b₃, b₄ 및 b₅는 상수들이다.

동결의 지속시간은 동결된 화상들로 비디오의 품질을 지배한다. 동결의 지속시간을 정확하게 예측하기 위해, 동결의 지속시간이 패킷 손실들의 발생(occurrence)에 의존할 뿐만 아니라, GOP 구조에 의존하기 때문에, 화상의 코딩 유형(예를 들어, I 프레임, P 프레임, 또는 B 프레임)이 식별될 수 있다. 또한, 동결 아티팩트는 컨텐츠 내의 움직임에 의해 영향을 받으며, 예를 들어 동적인 장면을 동결하는 것은 정지의 장면을 동결하는 것에 비해 더 성가시게 나타날 수 있다.

인지된 동결의 강도가 동결 이전에 화상들의 움직임 활동 및 시각적 정지의 길이에 관련되기 때문에, 본 발명은 각 시각적 정지에 대한 변수 FR _T 를 움직임 및 시각적 정지의 길이의 포시노미얼 함수로서 정의한다:

여기서, MV _τ 는 현재의 τ ^th 정지 직전의 프레임 내의 MV들의 평균 크기이고, FD _τ 는 τ ^th 정지의 동결의 지속시간이며, N은 비디오 클립 내의 화상들의 총 개수이고, c₄ 및 c₅는 상수들이다.

그 다음으로, d _f 로서 지칭되는 동결 왜곡 인자는 다음과 같이 포시노미얼 함수로서 예측될 수 있다:

여기서, MV _T 는 비디오 클립에 대한 MV들의 평균 크기이고, b₆, b₇ 및 b₈은 상수들이다.

앞서 논의된 바와 같이, 표 1에 열거된 파라미터들을 사용하여, 압축 왜곡 인자, 슬라이싱 왜곡 인자, 및 동결 왜곡 인자는 수학식 1, 수학식 3 및 수학식 5를 이용하여 추정될 수 있다. 슬라이싱 아티팩트들에 대한 핵심 인자, LR _T 는 수학식 2를 이용하여 추정될 수 있다. 수학식 1 내지 5를 이용한 계산 방법은 TYPE I 방법으로서 지칭된다.

다른 실시예에서, 본 발명은 계산을 간소화하기 위해 표 1에 열거된 파라미터들의 서브세트를 이용할 수 있다. 간소화된 방법은 TYPE II 방법으로서 지칭된다.

TYPE II 방법에서, 압축 왜곡 인자는 다음과 같이 예측될 수 있다:

계산의 비용을 더 감소시키기 위해, QP _T 는 P 및 B 프레임들을 고려하지 않고도, 비디오의 I 프레임들의 평균 QP로서 계산될 수 있다. 슬라이싱 왜곡 인자는 다음과 같이 예측될 수 있다:

여기서, 정보 손실률은 손실 블록들의 비율로 근사화된다. 동결 왜곡 인자는

에 의해 예측될 수 있다.

품질 메트릭 계산

그리고 나서, 압축, 슬라이싱, 및 동결로부터 초래되는 왜곡 인자들의 3가지 유형들, 즉 d _c , d _s 및 d _f 는 합성 비디오 품질 메트릭을 생성하도록 결합된다. 일예에서, q로서 지칭되는 비디오 품질 지표(measure)는 다음과 같이 계산될 수 있다:

여기서, α₁, α₂ 및 α₃은 상수들이다. 이 예시에서, 비디오 품질 지표 q가 (0, 1)의 범위 내에 존재하며, 여기서 0은 최악의 품질에 대응하고, 1은 최상의 품질에 대응한다는 것에 주목한다. 다른 실시예에서, 비디오 품질 메트릭은 다른 범위들로, 예를 들어 MOS{평균 평가 스코어(Mean Opinion Score)}에서의 (1, 5)로 스케일링 또는 시프팅될 수 있다. 또 다른 실시예에서,

이며, 여기서 상수들 α, β 및 γ는 유연한 스케일링(flexible scaling)을 위해 사용된다. 다른 단조로운 맵핑 함수들(monotonic mapping functions)은 개별 왜곡들을 품질 메트릭으로 맵핑하도록 사용될 수 있으며, 예를 들어 제너럴라이즈드 로지스틱(generalized logistic), log-log, 컴플멘터리(complementary) log-log, 3-차(3^rd-order) 다항식 또는 선형 함수가 사용될 수 있다.

전술 사항에서, 비디오 품질 메트릭을 계산하는 예시적인 실시예들이 논의되었으며, 메트릭은 풀(full) 디코딩을 하지 않고도, 비트스트림으로부터 유도된 파라미터들을 이용하여 계산된다. 풀 디코딩을 위한 여분의 계산이 허용될 때, 보다 많은 특징들(features) 또는 파라미터들은 비디오 품질 메트릭을 더 개선시키기 위해, 디코딩된 비디오로부터 획득될 수 있다. 예를 들어, 모자이크 아티팩트들은 슬라이싱 왜곡 인자에 대한 예측 정밀도를 개선시키기 위해, 디코딩된 비디오로부터 검출될 수 있다.

표시(notation)의 용이함을 위해, 에러 은폐를 필요로 하는 화상은 단편적 화상(fragmentary picture)이라 불리운다. 단편적 화상이 풀 디코더에 의해 디코딩 및 은폐된 이후에, 모자이크 아티팩트 검출이 단편적 프레임에 걸쳐 수행된다. 도 4는 파라미터들을 업데이트하기 위해 아티팩트 검출을 이용하기 위한 한 예시적인 방법(400)을 도시한다. 방법(400)은 기능 블록(410)에 제어를 전달하는 시작 블록(405)으로 시작한다. 블록(410)에서, 화상은 디코딩되고, 필요하다면 디코더에 의해 은폐된다. 모자이크 아티팩트 검출은 블록(420)에서 수행된다. 아티팩트 검출 결과에 기초하여, 관련 파라미터들은 블록(430)에서 업데이트된다. 그리고 나서, 제어는 종료 블록(499)에 전달된다.

방법(400)은 품질 메트릭의 정밀도를 개선시키기 위해 방법(100)과 결합될 수 있다. 한 실시예에서, 블록들(410 내지 430)에서 수행된 단계들은 블록들(110 및 120)에서 수행된 단계들의 사이에 구현될 수 있다.

모자이크 아티팩트 검출의 한 예시적인 실시예에서, 2-차 수직 경사도 필드(second-order vertical gradient field)는 단편적 프레임의 MB 경계들에서 계산된다. 각각의 수직으로 인접한 MB 쌍에 대한 두 개의 2-차 경사도 합(sums)이 계산되고, 보다 작은 크기를 갖는 2-차 경사도 합이 선택된다. 도 5는 매크로블록 쌍에 대한 모자이크 검출의 일예를 도시한다. 도 5의 예시에서, 매크로블록 쌍(510 및 530)이 고려되고, 보다 위의 매크로블록(510)은 픽셀들 {p _i _,j│i=1,2,...,16 및 j=1,2,...,16}로 구성되고, 보다 낮은 매크로블록(530)은 픽셀들 {p _i,j│i=17,18,...,32 및 j=1,2,...,16}로 구성된다. MB 쌍과 관련된 두 개의 2-차 경사도 합(GS):

및

은 MB 경계(520)에서 계산되고, 보다 작은 합이 선택된다:

화상 내의 상부(top) MB들과 하부(bottom) MB들을 제외하고, 모든 MB는 두 개의 GS: 상부 경계에 대한 GS 및 하부 경계에 대한 GS에 대응한다. 어느 GS라도 임계치 위에 있는 경우, MB는 시각적 모자이크(MT=1)를 갖는 것으로 표기되고, 그렇지 않은 경우, MB는 비 시각적 모자이크(MT=0)를 갖는 것으로 표기되며, 즉

블록이 손실되었지만, 비 시각적 모자이크를 가지는 것으로서 표기되는 경우, 손실 블록들의 비율은, 마치 블록이 손실되지 않은 것처럼, 업데이트될 수 있다. 유사하게도, 전파된 블록들의 비율도 또한 업데이트될 수 있다.

제안된 모자이크 검출 방법은, 본래의(natural) 이미지들이 일반적으로 매끄러운 1-차 경사도 필드 및 작은 2-차 경사도를 갖는다는 관찰(observation)에 기초한다. 모자이크 아티팩트들 또는 다른 아티팩트들이 발생할 때, 2-차 경사도는 더 높아진다. 따라서, 2-차 경사도는 아티팩트들을 검출하도록 사용될 수 있다.

다양한 상수들은 왜곡 인자들 및 합성 비디오 품질 스코어를 예측하는데에 사용된다. 상수들은 컨텐츠 데이터베이스들 및 주관적인 품질 메트릭들을 이용하여 트레이닝(train)될 수 있다. 한 실시예에서, 본 발명은 IPTV(즉, SD 또는 HD와 같은 고 해상도)에 대한 5개의 데이터베이스들을 이용하여 TYPE I 방법으로 상수들을 트레이닝하고, 모바일 TV(즉, QCIF 또는 QVGA와 같은 저 해상도)에 대한 3개의 데이터베이스들을 이용하여 TYPE II 방법으로 상수들을 트레이닝하며, 이들 모두는 P.NAMS 시험 계획(test plan)으로부터 유래된다.

결과적으로, 본 발명은 표 2a 내지 표 2f에 도시되는 바와 같이, 각 방법에 대한 각 어플리케이션으로 상수들의 세트를 획득한다. TYPE I 방법으로, 상이한 상수들은 모자이크 검출이 이용되는지의 여부에 따라 트레이닝된다. 타깃(target) 어플리케이션이 변경될 때(즉, 적용 가능한 비디오 데이터베이스들이 변경될 때)에 이에 따라 상수들이 트레이닝될 필요가 있음에 주목한다.

[표 2a]

IPTV에 대한 예시적인 상수들 - TYPE I(모자이크 검출을 이용하지 않음)

[표 2b]

IPTV에 대한 예시적인 상수들 - TYPE I(모자이크 검출을 이용)

[표 2c]

IPTV에 대한 예시적인 상수들 - TYPE II

[표 2d]

모바일 TV에 대한 예시적인 상수들 - TYPE I(모자이크 검출을 이용하지 않음)

[표 2e]

모바일 TV에 대한 예시적인 상수들 - TYPE I(모자이크 검출을 이용)

[표 2f]

모바일 TV에 대한 예시적인 상수들 - TYPE II

다음에서, 본 발명은 본 실시예들의 장점을 간략히 논의한다.

본 실시예에서, 포시노미얼 함수들(즉, 함수들의 좌표들 및 계수들은 양의 실수이고, 지수들은 실수임)은 계산 전체에 걸쳐 이용된다. 다른 모델들 보다 더 적은 파라미터들은 추정의 간소화 및 안정성을 위해 사용된다.

본 발명의 원리들은 수학식 9에 설명된 바와 같이 상이한 손상들로부터의 왜곡들을 결합하며, 이는 인간의 인지의 비선형성(nonlinearity)을 포획하고 모델 간소화 및 성능 실현 가능성을 유지할 수 있다.

수학식 9에 따르면, q는, 일단 다른 하나가 상대적으로 크다면, d _c , d _s 및 d _f 중에서 임의의 두 개에 대해 민감하지 않을 것이다. 예시로서 d _c 를 사용하여, 1-차 도함수(derivative)는

d _s >>d _c 또는 d _f >>d _c 일 때,

이다. 한 유형의 왜곡이, 다른 유형의 왜곡들이 사소한(trivial) 것 같은 인지된 품질을 지배하는 경우, 이러한 특성은 인간의 인지와 일치한다.

본 발명의 원리들은 또한 도 6a 내지 도 6c에 도시되는 바와 같이, 비디오 품질과 핵심 인자들 사이의 S-형상 및 L-형상 모두를 포획할 수 있다.

도 7은 이미지에 대한 비디오 품질 메트릭을 생성하도록 사용될 수 있는 한 예시적인 비디오 품질 측정 장치(700)의 블록도를 도시한다. 장치(700)의 입력은 비트스트림을 포함하는 수송 스트림을 포함한다. 입력은 비트스트림을 포함하는 다른 포맷들일 수 있다. 시스템 레벨에서의 수신기는 수신된 비트스트림 내에서의 패킷 손실들을 결정한다.

디멀티플렉서(demultiplexer)(710)는 엘러멘터리 스트림 또는 비트스트림을 획득하기 위해 입력 스트림을 분석한다. 이는 또한 패킷 손실들에 대한 정보를 디코더(720)에 전달한다. 디코더(720)는 비디오의 품질을 추정하기 위한 파라미터들을 생성하기 위해, QP들, 변환 계수들, 및 각 블록 또는 매크로블록에 대한 움직임 벡터들을 포함하는 필수적인 정보를 분석한다. 디코더는 또한 비디오 내에서 어떤 매크로블록들이 손실되었는지를 결정하기 위해, 패킷 손실들에 대한 정보를 사용한다. 디코더(720)는, 풀 디코딩이 수행되지 않음, 즉 비디오가 재구성되지 않음을 강조하기 위해, 부분 디코더(partial decoder)로서 지칭된다.

디코더(720)로부터 분석된 MB 레벨 QP들을 이용하여, QP 분석기(733)는 화상에 대한, 그리고 전체의 비디오 클립에 대한 평균 QP들을 획득한다. 디코더(720)로부터 획득된 변환 계수들을 이용하여, 변환 계수 분석기(732)는 계수들을 분석하고, 컨텐츠 예측 불가능 파라미터 계산기(734)는 개별 화상들에 대한, 그리고 전체의 비디오 클립에 대한 컨텐츠 예측 불가능 파라미터를 계산한다. 어떤 매크로블록들이 손실되었는지에 대한 정보를 사용하여, 손실 MB 태거(tagger)(731)는 어떤 MB가 손실되었는지를 표기(mark)한다. 움직임 정보를 더 이용하여, 전파된 MB 태거(735)는 어떤 MB들이 예측을 위해 손실 블록들을 직접적 또는 간접적으로 사용하는지(즉, 어떤 블록들이 에러 전파에 의해 영향을 받는지)를 표기한다. 블록들에 대한 움직임 벡터들을 이용하여, MV 분석기(736)는 MB들, 화상들, 및 전체의 비디오 클립에 대한 평균 움직임 벡터들을 계산한다. 에러 은폐 거리들, 동결의 지속시간, 및 프레임 레이트를 결정하도록 다른 모듈들(도시되지 않음)이 사용될 수도 있다.

파라미터들, 예를 들어 표 1에 열거된 파라미터들이 획득된 이후에, 압축 왜곡 예측기(740)는 (예를 들어 수학식 1 또는 수학식 6을 이용하여) 압축 왜곡 인자를 추정하고, 슬라이싱 왜곡 예측기(742)는 (예를 들어, 수학식 3 및 수학식 7을 사용하여) 슬라이싱 왜곡 인자를 추정하고, 동결 왜곡 예측기(744)는 (예를 들어, 수학식 5 및 수학식 8을 사용하여) 동결 왜곡 인자를 추정한다. 추정된 왜곡 인자들에 기초하여, 품질 예측기(750)는, 예를 들어 수학식 9를 이용하여 전체적인 비디오 품질 메트릭을 추정한다.

여분의 계산이 허용될 때, 디코더(770)는 화상들을 디코딩 및 은폐한다. 디코더(770)는 풀 디코더로서 지칭되고, 이는 화상들을 재구성하고, 필요하다면, 에러 은폐를 수행할 것이다. 모자이크 검출기(780)는 재구성된 비디오에 대한 모자이크 검출을 수행한다. 검출 결과들을 이용하여, 손실 MB 태거(731) 및 전파된 MB 태거(735)는 관련된 파라미터들, 예를 들어 손실 블록들의 비율과 전파된 블록들의 비율을 업데이트한다.

도 8을 참조해보면, 비디오 송신 시스템 또는 장치(800)가 도시되며, 앞서 설명된 특징들과 원리들은 이에 적용될 수 있다. 프로세서(805)는 비디오를 프로세싱하고, 인코더(810)는 비디오를 인코딩한다. 인코더로부터 생성된 비트스트림은 분산 네트워크(distributed network)(820)를 통해 디코더(830)에 송신된다. 비디오 품질 모니터 또는 비디오 품질 측정 장치, 예를 들어 장치(700)는 상이한 단계들에서 사용될 수 있다.

한 실시예에서, 비디오 품질 모니터(840)는 컨텐츠 생성기에 의해 사용될 수 있다. 예를 들어, 추정된 비디오 품질은 모드 결정 또는 비트 전송률 할당과 같은 인코딩 파라미터들을 결정하는데에 있어서 인코더에 의해 사용될 수 있다. 다른 예시에서, 비디오가 인코딩된 이후에, 컨텐츠 생성기는 인코딩된 비디오의 품질을 모니터링하기 위해 비디오 품질 모니터를 사용한다. 품질 메트릭이 미리-정의된 품질 레벨을 충족시키지 못하는 경우, 컨텐츠 생성기는 비디오 품질을 개선시키기 위해 비디오를 재인코딩(re-encode)하는 것을 선택할 수 있다. 컨텐츠 생성기는 또한 품질에 기초하여 인코딩된 비디오의 등급을 매기고(rank), 이에 따라 컨텐츠에 대한 요금을 부과(charge)할 수 있다.

다른 실시예에서, 비디오 품질 모니터(850)는 컨텐츠 분배기에 의해 사용될 수 있다. 비디오 품질 모니터는 분산 네트워크 내에 배치될 수 있다. 비디오 품질 모니터는 품질 메트릭들을 계산하고, 이들을 컨텐츠 분배기에 보고한다. 비디오 품질 모니터로부터의 피드백에 기초하여, 컨텐츠 분배기는 대역폭 할당 및 액세스 제어를 조정함으로써 그것의 서비스를 개선할 수 있다.

컨텐츠 분배기는 또한 인코딩을 조정하기 위해 그 피드백을 컨텐츠 생성기에 전송할 수 있다. 높은 품질로 인코딩된 비디오가 보통 보다 많은 대역폭을 요구하고, 송신 보호를 위한 보다 적은 대역폭을 남기기(leave) 때문에, 인코더에서 인코딩 품질을 개선하는 것이 반드시 디코더 측에서의 품질을 개선할 수 있지는 않다는 것에 주목한다. 따라서, 디코더에서 최적의 품질을 달성하기 위해, 채널 보호를 위한 대역폭 및 인코딩 비트 전송률 사이의 균형이 고려될 것이다.

또 다른 실시예에서, 비디오 품질 모니터(860)는 사용자 디바이스에 의해 사용될 수 있다. 예를 들어, 사용자 디바이스가 인터넷에서 비디오들을 검색할 때, 검색 결과는 많은 비디오들, 또는 요청된 비디오 컨텐츠에 대응하는 비디오들로의 많은 링크들을 반환할 수 있다. 검색 결과들의 비디오들은 상이한 품질 레벨들을 가질 수 있다. 비디오 품질 모니터는 이들 비디오들에 대한 품질 메트릭들을 계산하고, 어떤 비디오를 저장할 지를 선택하는 것을 결정할 수 있다. 다른 예시에서, 디코더는 상이한 에러 은폐 모드들에 대한 은폐된 비디오들의 양(quantities)을 추정한다. 추정에 기초하여, 보다 양호한 은폐 품질을 제공하는 에러 은폐는 디코더에 의해 선택될 수 있다.

본 명세서에서 설명된 구현들은, 예를 들어 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림, 또는 신호로 구현될 수 있다. 비록 단일 형태의 구현의 문맥에서만 논의되었을지라도(예를 들어, 하나의 방법으로서만 논의되었을지라도), 논의된 특징들의 구현은 또한 다른 형태들(예를 들어, 장치 또는 프로그램)으로도 구현될 수 있다. 장치는, 예를 들어 전용의 하드웨어, 소프트웨어, 및 펌웨어로 구현될 수 있다. 본 방법들은, 예를 들어 일반적으로 컴퓨터, 마이크로프로세서, 집적 회로, 또는 프로그래밍이 가능한 로직 디바이스를 포함하는 프로세싱 디바이스들을 언급하는 하나의 프로세서와 같은 장치로 구현될 수 있다. 프로세서들은 또한, 예를 들어 컴퓨터들, 셀 폰들, 휴대용/개인용 디지털 어시스턴트들("PDA들"), 및 최종-사용자들 사이에서 정보의 통신을 장려하는 다른 디바이스들과 같은 통신 디바이스들을 포함한다.

본 명세서에서 설명된 다양한 프로세스들 및 특징들의 구현은 다양한 상이한 장비 또는 어플리케이션들, 특히 예를 들어 데이터 인코딩, 데이터 디코딩, 모자이크 검출, 왜곡 측정, 품질 측정, 및 품질 모니터링과 연관된 장비 또는 어플리케이션들로 구체화될 수 있다. 이러한 장비의 예시들은 인코더, 디코더, 디코더로부터의 출력을 프로세싱하는 포스트-프로세서, 입력을 인코더에 제공하는 프리-프로세서, 비디오 코더, 비디오 디코더, 비디오 코덱, 웹 서버, 셋톱 박스, 랩톱, 개인용 컴퓨터, 셀 폰, PDA, 게임 콘솔, 및 다른 통신 디바이스들을 포함한다. 명백한 바와 같이, 장비는 이동성(mobile)일 수 있으며, 심지어 이동성 차량에 설치될 수도 있다.

추가적으로, 본 방법들은 프로세서에 의해 수행되는 명령어들에 의해 구현될 수 있으며, 이러한 명령어들(및/또는 한 구현에 의해 산출된 데이터 값들)은, 예를 들어 집적 회로나, 소프트웨어 캐리어나, 또는, 예를 들어 하드 디스크, 콤팩트 디스켓("CD"), (예를 들어, 디지털 다용도 디스크 또는 디지털 비디오 디스크로서 종종 언급되는 DVD와 같은)광 디스크, 랜덤 액세스 메모리("RAM"), 또는 판독-전용 메모리("ROM")와 같은 다른 저장 디바이스와 같은 프로세서-판독 가능한 매체에 저장될 수 있다. 명령어들은 프로세서-판독 가능한 매체 상에서 실제적으로 구현된 어플리케이션 프로그램을 형성할 수 있다. 명령어들은, 예를 들어 하드웨어, 펌웨어, 소프트웨어, 또는 결합일 수 있다. 명령어들은, 예를 들어 운영 체제, 별도의 어플리케이션, 또는 이 두 가지의 결합에서 발견될 수 있다. 따라서, 프로세서는, 예를 들어 프로세스를 수행하도록 구성된 디바이스와, 프로세스를 수행하기 위한 명령어들을 갖는 (저장 디바이스와 같은) 프로세서-판독 가능한 매체를 포함하는 디바이스 모두인 것을 특징으로 할 수 있다. 게다가, 프로세서-판독 가능한 매체는 한 구현에 의해 산출된 데이터 값들을, 명령어들에 추가하여, 또는 명령어들을 대신하여, 저장할 수 있다.

당업자에게는 명백한 바와 같이, 구현들은, 예를 들어 저장 또는 송신될 수 있는 정보를 전달하도록 포맷팅된 다양한 신호들을 산출할 수 있다. 정보는, 예를 들어 방법을 수행하기 위한 명령어들, 또는 설명된 구현들 중 하나에 의해 산출된 데이터를 포함할 수 있다. 예를 들어, 신호는 설명된 실시예의 구문(syntax)을 기록 또는 판독하기 위한 규칙들(rules)을 데이터로서 전달하거나, 또는 설명된 실시예에 의해 기록된 실제의 구문-값들을 데이터로서 전달하도록 포맷팅될 수 있다. 이러한 신호는, 예를 들어 (예를 들어, 스펙트럼의 무선 주파수 부문을 사용하는) 전자기파형(electromagnetic wave)으로서, 또는 기저대역(baseband) 신호로서 포맷팅될 수 있다. 포맷팅은, 예를 들어 데이터 스트림을 인코딩하는 것과, 인코딩된 데이터 스트림을 통해 캐리어(carrier)를 변조(modulating)하는 것을 포함할 수 있다. 신호가 전달하는 정보는, 예를 들어 아날로그 또는 디지털 정보일 수 있다. 알려진 바와 같이, 신호는 다양한 상이한 유선 또는 무선 링크들을 통해 송신될 수 있다. 신호는 프로세서-판독 가능한 매체에 저장될 수 있다.

많은 구현들이 설명되었다. 그럼에도 불구하고, 다양한 수정들이 이루어질 수 있음이 이해될 것이다. 예를 들어, 상이한 구현들의 요소들은 다른 구현들을 산출하도록 결합, 보충, 수정, 또는 제거될 수 있다. 추가적으로, 다른 구조들 및 프로세스들이 설명된 것들을 위해 대체될 수 있고, 결과적인 구현들이 개시된 구현들과 동일한 결과(들)를 적어도 실질적으로 성취하도록, 적어도 실질적으로 동일한 방식(들)으로 동일한 기능(들)을 적어도 실질적으로 수행할 것임을 당업자는 이해할 것이다. 따라서, 상기 및 다른 구현들은 본 출원에 의해 심사숙고된다.

710: 디멀티플렉서 720: 부분 디코더
731: 손실 MB 태거 732: 변환 계수 분석기
733: QP 분석기 734: CU 계산기
735: 전파된 MB 태거 736: MV 분석기
740: 압축 왜곡 예측기 742: 슬라이싱 왜곡 예측기
744: 동결 왜곡 예측기 750: 품질 예측기
770: 풀 디코더 780: 모자이크 검출기
805: 프로세서 810: 인코더
820: 분산 네트워크 830: 디코더
840: VQM-1 850: VQM-2
860: VQM-3

Claims

방법으로서,
비트스트림에 대응하는 비디오를 재구성(reconstructing)하지 않고도, 비트스트림에 대한 슬라이싱 왜곡 인자(slicing distortion factor)와 동결 왜곡 인자(freezing distortion factor) 중 적어도 하나를 결정하는 단계(120)로서, 슬라이싱 왜곡 인자는 슬라이싱 모드 에러 은폐(error concealment)로부터 초래되는 왜곡을 나타내고, 동결 왜곡 인자는 동결 모드 에러 은폐로부터 초래되는 왜곡을 나타내는, 결정하는 단계(120)와,
슬라이싱 왜곡 인자와 동결 왜곡 인자 중 적어도 하나에 응답하여 품질 메트릭(quality metric)을 결정하는 단계(130)
를 포함하는, 방법.
제1항에 있어서,
슬라이싱 왜곡 인자와 동결 왜곡 인자 중 적어도 하나를 결정하는 단계는:
비트스트림으로부터, 손실 블록들의 비율(ratios)과 동결의 지속시간(durations) 중 적어도 하나를 포함하는 파라미터들을 결정하는 단계(110)로서, 슬라이싱 왜곡 인자는 손실 블록들의 비율에 응답하여 결정되고, 동결 왜곡 인자는 동결의 지속시간에 응답하여 결정되는, 파라미터들을 결정하는 단계(110)
를 포함하는, 방법.
제2항에 있어서, 슬라이싱 왜곡 인자는 손실 블록들의 비율의 멱함수(power function)에 응답하여 결정되고, 동결 왜곡 인자는 동결의 지속시간의 멱함수에 응답하여 결정되는, 방법.
제2항에 있어서, 결정된 파라미터들은 전파된 블록들의 비율, 에러 은폐 거리들, 컨텐츠 예측 불가능 파라미터들(content unpredictability parameters), 및 프레임 레이트를 더 포함하고, 슬라이싱 왜곡 인자는 손실 블록들의 비율, 전파된 블록들의 비율, 에러 은폐 거리들, 컨텐츠 예측 불가능 파라미터들, 및 프레임 레이트 중 임의의 것들(ones)에 응답하여 결정되는, 방법.
제2항에 있어서, 결정된 파라미터들은 움직임 벡터들 및 프레임 레이트를 더 포함하고, 동결 왜곡 인자는 동결의 지속시간, 움직임 벡터들, 및 프레임 레이트 중 임의의 것들에 응답하여 결정되는, 방법.
제1항에 있어서, 품질 메트릭을 결정하는 단계는 압축(120)으로부터 초래되는 왜곡을 나타내는 압축 왜곡 인자에 더 응답하는, 방법.
제6항에 있어서, 품질 메트릭은 압축 왜곡 인자, 슬라이싱 왜곡 인자, 및 동결 왜곡 인자의 가중된 합(weighted sum)에 응답하여 결정되는, 방법.
제7항에 있어서, 품질 메트릭은
에 응답하여 결정되고, d는 가중된 합에 대응하고, α, β 및 γ는 상수들인, 방법.
제4항에 있어서,
비트스트림으로부터 복수의 화상을 디코딩하는 단계(410)와,
복수의 화상에서 모자이크 아티팩트들(mosaic artifacts)을 검출하는 단계(420)와,
검출 단계에 기초하여 손실 블록들의 비율과 전파된 블록들의 비율 중 적어도 하나를 업데이트하는 단계(430)
를 더 포함하는, 방법.
제1항에 있어서,
비트스트림의 품질을 모니터링하는 단계와, 품질 메트릭에 응답하여 비트스트림을 조정하는 단계와, 품질 메트릭에 기초하여 새로운 비트스트림을 생성하는 단계와, 비트스트림을 송신하도록 사용된 분산 네트워크(distribution network)의 파라미터들을 조정하는 단계와, 비트스트림을 품질 메트릭에 기초하도록 유지시킬 지의 여부를 결정하는 단계와, 디코더에서의 에러 은폐 모드를 선택하는 단계 중 적어도 하나를 수행하는 단계
를 더 포함하는, 방법.
장치(700)로서,
슬라이싱 모드 에러 은폐로부터 초래되는 왜곡을 나타내는 슬라이싱 왜곡 인자를 결정하는 슬라이싱 왜곡 예측기(742)와,
동결 모드 에러 은폐로부터 초래되는 왜곡을 나타내는 동결 왜곡 인자를 결정하는 동결 왜곡 예측기(744)와,
슬라이싱 왜곡 인자, 동결 왜곡 인자, 및 압축 왜곡 인자에 응답하여 품질 메트릭을 결정하는 품질 예측기(750)
를 포함하는, 장치.
제11항에 있어서,
비트스트림에 대응하는 비디오를 재구성하지 않고도, 비트스트림으로부터의 파라미터들을 결정하는 프로세서로서, 파라미터들은 손실 블록들의 비율과 동결의 지속시간 중 적어도 하나를 포함하고, 슬라이싱 왜곡 예측기는 손실 블록들의 비율에 응답하여 슬라이싱 왜곡 인자를 결정하고, 동결 왜곡 예측기는 동결의 지속시간에 응답하여 동결 왜곡 인자를 결정하는, 프로세서
를 더 포함하는, 장치.
제12항에 있어서, 프로세서는 전파된 블록들의 비율, 에러 은폐 거리들, 프레임 레이트, 및 컨텐츠 예측 불가능 파라미터들 중 적어도 하나를 더 결정하고, 슬라이싱 왜곡 예측기는 손실 블록들의 비율, 전파된 블록들의 비율, 에러 은폐 거리들, 프레임 레이트, 및 컨텐츠 예측 불가능 파라미터들 중 임의의 것들에 응답하여 슬라이싱 왜곡 인자를 결정하는, 장치.
제12항에 있어서, 프로세서는 움직임 벡터들과 프레임 레이트 중 적어도 하나를 더 결정하고, 동결 왜곡 예측기는 동결의 지속시간, 움직임 벡터들, 및 프레임 레이트 중 임의의 것들에 응답하여 동결 왜곡 인자를 결정하는, 장치.
제11항에 있어서,
압축으로부터 초래되는 왜곡을 나타내는 압축 왜곡 인자를 결정하는 압축 왜곡 예측기(740)
를 더 포함하는, 장치.
제15항에 있어서, 품질 예측기는
에 응답하여 품질 메트릭을 결정하고, d는 슬라이싱 왜곡 인자, 동결 왜곡 인자, 및 압축 왜곡 인자의 가중된 합에 대응하는, 장치.
제11항에 있어서,
비트스트림으로부터 복수의 화상을 디코딩하는 디코더(770)와,
복수의 화상에서 모자이크 아티팩트들을 검출하는 모자이크 아티팩트 검출기(780)로서, 프로세서는 검출에 기초하여 손실 블록들의 비율 및 전파된 블록들의 비율을 업데이트하는, 모자이크 아티팩트 검출기(780)
를 더 포함하는, 장치.
제11항에 있어서,
비트스트림의 품질을 모니터링하는 것과, 품질 메트릭에 응답하여 비트스트림을 조정하는 것과, 품질 메트릭에 기초하여 새로운 비트스트림을 생성하는 것과, 비트스트림을 송신하도록 사용된 분산 네트워크의 파라미터들을 조정하는 것과, 비트스트림을 품질 메트릭에 기초하도록 유지시킬 지의 여부를 결정하는 것과, 디코더에서의 에러 은폐 모드를 선택하는 것 중 적어도 하나를 수행하는 비디오 품질 모니터
를 더 포함하는, 장치.
프로세서 판독 가능한 매체로서,
하나 이상의 프로세서들이,
비트스트림에 대응하는 비디오를 재구성하지 않고도, 비트스트림에 대한 슬라이싱 왜곡 인자와 동결 왜곡 인자 중 적어도 하나를 결정하되(120), 슬라이싱 왜곡 인자는 슬라이싱 모드 에러 은폐로부터 초래되는 왜곡을 나타내고, 동결 왜곡 인자는 동결 모드 에러 은폐로부터 초래되는 왜곡을 나타내는, 비트스트림에 대한 슬라이싱 왜곡 인자와 동결 왜곡 인자 중 적어도 하나를 결정하는 것(120)과,
슬라이싱 왜곡 인자와 동결 왜곡 인자 중 적어도 하나에 응답하여 품질 메트릭을 결정하는 것(130)
을 집합적으로 수행하게 하기 위한 명령어들이 저장된, 프로세서 판독 가능한 매체.