KR20140097528A

KR20140097528A - 비디오 품질 측정을 위한 텍스처 마스킹

Info

Publication number: KR20140097528A
Application number: KR1020147017995A
Authority: KR
Inventors: 판 장; 카이 시에; 웬페이 지앙; 쯔보 첸
Original assignee: 톰슨 라이센싱
Priority date: 2011-11-29
Filing date: 2012-04-23
Publication date: 2014-08-06
Also published as: MX2014006484A; WO2013078822A1; US20140301649A1; MX337802B; JP6067737B2; EP2786342A1; RU2014126420A; JP2015500581A; CA2856634A1; US9672636B2; EP2786342B1; HK1202964A1; EP2786342A4

Abstract

특정 구현은 이미지를 구조 성분과 텍스처 성분으로 분해한다. 구조 성분에 대해 에지 강도 맵이 계산되고, 텍스처 성분에 대해 텍스처 강도 맵이 계산된다. 에지 강도와 텍스처 강도를 사용하여, 텍스처 마스킹 가중치가 계산된다. 텍스처 강도가 더 강하면 강할수록 또는 에지 강도가 더 약하면 약할수록, 사람의 눈에서 더 많은 왜곡이 더 용인될 수 있고, 그리하여, 텍스처 마스킹 가중치가 더 작아질 수 있다. 국부 왜곡은 텍스처 마스킹 가중치에 의해 가중되어 전체 왜곡 레벨 또는 전체 품질 메트릭을 생성한다.

Description

비디오 품질 측정을 위한 텍스처 마스킹{TEXTURE MASKING FOR VIDEO QUALITY MEASUREMENT}

관련 출원

본 출원은 본 명세서에 참조 문헌으로 병합된 2011년 11월 29일에 출원된 국제 특허 출원 제PCT/CN2011/083154호의 유익을 주장한다.

기술 분야

본 발명은 비디오 품질 측정에 관한 것으로, 보다 상세하게는, 사람의 시각 시스템의 텍스처 마스킹 특성에 응답하여 비디오 품질 측정을 결정하는 방법 및 장치에 관한 것이다.

비디오 코딩, 네트워크 스케줄링 및 멀티미디어 서비스 권고에서 비디오 품질 메트릭(video quality metric)이 사용될 수 있다. 일반적으로, 비디오 컨텐츠가 더 많이 텍스처되면 텍스처될수록, 사람의 눈에서 비디오 컨텐츠 내 더 많은 결함이 용인될 수 있다. 즉, 비디오 컨텐츠를 사람의 눈이 볼 때, 시각적 결함은 비디오 컨텐츠 그 자체에 의해 마스킹될 수 있다. 사람의 눈의 이러한 특성은 텍스처 마스킹(texture masking) 특성이라고 알려져 있다.

일반적인 측면에 따르면, 적어도 하나의 이미지 구역을 구비하는 이미지 데이터가 액세스된다. 이미지 구역은 구조 성분(structure component)과 텍스처 성분(texture component)으로 분해된다. 이미지 구역에 있는 구조 성분에 대해 에지 강도(edge strength)가 결정되고, 이미지 구역에 있는 에지 강도에 응답하여 텍스처 마스킹 가중치가 결정된다. 텍스처 마스킹 가중치에 응답하여 품질 메트릭이 결정된다.

다른 일반적인 측면에 따르면, 복수의 이미지 구역을 구비하는 이미지 데이터가 액세스된다. 이미지 데이터는 구조 성분과 텍스처 성분으로 분해된다. 각 이미지 구역에 있는 구조 성분에 대해 에지 강도가 결정되고, 각 이미지 구역에 있는 에지 강도에 응답하여 텍스처 마스킹 가중치가 결정된다. 국부 왜곡의 가중된 조합에 응답하여 품질 메트릭이 결정되고, 국부 왜곡은 텍스처 마스킹 가중치에 의해 가중된다.

하나 이상의 구현의 상세는 첨부 도면과 이하 상세한 설명에 제시된다. 하나의 특정 방식으로 설명되어 있는 경우에도, 구현은 여러 방식으로 구성되거나 구현될 수 있는 것은 명백하다. 예를 들어, 구현은 방법으로 수행되거나, 또는 장치, 예를 들어, 동작 세트를 수행하도록 구성된 장치 또는 동작 세트를 수행하거나 또는 신호에 구현된 명령을 저장하는 장치로 구현될 수 있다. 다른 측면 및 특징은 첨부 도면과 청구범위와 함께 고려되는 이하 상세한 설명으로부터 보다 명백해질 것이다.

도 1a는 화상을 도시한 개략도, 도 1b는 화상의 구조 성분을 도시한 개략도, 그리고 도 1c는 화상의 텍스처 성분을 도시한 개략도;
도 2는 본 발명의 원리의 일 실시예에 따라 비디오 품질 메트릭을 계산하는 일례를 도시한 흐름도;
도 3a는 에지 맵을 도시한 개략도, 도 3b는 분산 맵(variance map)을 도시한 개략도, 그리고 도 3c는 본 발명의 원리의 일 실시예에 따라 마스킹된 분산 맵을 도시한 개략도;
도 4는 본 발명의 원리의 하나 이상의 구현에 사용될 수 있는 텍스처 마스킹 가중치 계산 장치의 일례를 도시한 블록도;
도 5는 본 발명의 원리의 하나 이상의 구현에 사용될 수 있는 비디오 품질 측정 장치의 일례를 도시한 블록도;
도 6은 본 발명의 원리의 하나 이상의 구현에 사용될 수 있는 비디오 처리 시스템의 일례를 도시한 블록도.

비디오 품질 메트릭은 비디오 코딩, 네트워크 스케줄링 및 멀티미디어 서비스 권고에 사용될 수 있다. 참조 비디오의 이용가능성에 따라, 비디오 품질 메트릭은 전체(full)-참조 메트릭 또는 참조 없는 메트릭으로 분류될 수 있다. 전체-참조 품질 메트릭에서, 참조 및 손상된 이미지/비디오 사이의 차이는 시각적 품질에 영향을 미치는 주요 팩터일 수 있다. 참조 없는 품질 메트릭에서는, 양자화 파라미터(quantization parameter: QP) 또는 블록 에러 속도와 같은 구성 파라미터가 주요 팩터일 수 있다.

주요 팩터에 더하여, 사람의 시각 시스템의 텍스처 마스킹 특성은 지각된 시각적 품질에 영향을 미친다. 그리하여, 텍스처 마스킹 특성은 종종 비디오 품질 메트릭을 설계할 때 시뮬레이션된다. 예를 들어, 화상에서 일 구역은 시각적 결함이 마스킹될 수 있는 텍스처된 영역으로 고려될 수 있고, 지각된 비디오 품질에 더 적은 영향을 미치는 것으로 고려될 수 있다. 또 다른 예에서, 화상에서 일 구역은 비-텍스처된 영역(예를 들어, 평활한 영역 또는 에지를 갖는 영역)으로 고려될 수 있고, 지각된 시각적 품질에 더 많은 영향을 미치는 것으로 고려될 수 있다.

텍스처 마스킹 특성을 이용하기 위하여, 화상에 있는 일 구역은 텍스처된 구역 또는 비-텍스처된 구역으로 식별될 필요가 있다. 일 구역은 상세한 및/또는 불규칙적인 패턴을 포함하는 경우 텍스처된 구역이라고 지칭된다. 그렇지 않은 경우, 이 구역은 통상 구조(즉, 중요한 시각적 정보를 갖는 대규모 및 규칙적인 패턴), 예를 들어, 에지 및 윤곽을 포함하는 비-텍스처된 구역이라고 지칭된다.

일 구역이 텍스처된 구역인지 또는 비-텍스처된 구역인지 여부를 식별하기 위해, 일반적인 접근법은 공간 주파수 또는 신호 특이성(singularity)을 사용하는 것이다. 예를 들어, 일부 기존의 방법은 변환 계수(예를 들어, DCT 계수)를 분배하여 이미지 블록을 평활한 구역, 텍스처된 구역과 에지 구역으로 분류한다. 그러나, 텍스처된 구역 또는 비-텍스처된 구역은 낮은 및 높은 공간 주파수 서브 대역을 모두 포함할 수 있고, 평활하지 않은 시각적 신호를 포함할 수 있다. 따라서, 공간 주파수 또는 신호 특이성을 사용하여 텍스처된 구역을 식별하는 것은 매우 정확하지 않을 수 있다. 다른 일반적인 접근법은 국부 신호 분산을 사용하는 것이다. 그러나, 텍스처된 구역 또는 비-텍스처된 구역은 높은 신호 분산을 구비하여 분산에 의해서는 적절히 식별되지 않을 수 있다.

텍스처된 구역이 식별된 후에, 텍스처 마스킹 특성을 시뮬레이션하는 방법, 즉 일 구역이 텍스처되었는지 또는 비-텍스처되었는지에 따라 비디오 품질 메트릭을 조절하는 방법은 다른 문제를 야기한다. 일부 기존의 방법은 시각적-심리적 실험에서 관찰된 감도 상수(예를 들어, 왓슨(Watson)의 시각적 마스크)를 사용하여 왜곡을 가중시켜 품질 메트릭을 획득한다. 그러나, 이러한 시각적-심리적 실험은 간략화된 시야 조건 하에서 인공적인 시각적 자극을 가지게 설계되어 있어서, 시각적 품질 평가를 위한 실제 조건을 정확히 시뮬레이션하지 못할 수 있다.

본 발명의 원리는 전체-참조 및 참조 없는 시각적 품질 메트릭의 정확도를 개선할 수 있는 텍스처 마스킹 함수를 추정하는 것에 관한 것이다.

도 2는 텍스처 마스킹 함수를 사용하여 비디오 품질 메트릭을 추정하는 예시적인 방법(200)을 도시한다. 단계(210)에서, 이미지는 예를 들어, 양방향 필터, 비 등방성 필터, 또는 총 변동 조절(total variation regulation)에 의하여 구조 성분과 텍스처 성분으로 분해된다. 구조 성분에서, 에지 검출은 단계(220)에서 수행되어 에지 맵을 획득한다. 에지 강도는 예를 들어, 소벨(Sobel) 필터 또는 캐니(Canny) 에지 검출기에 의하여 에지 검출로부터 결정될 수 있다. 에지 강도는 바이너리화(binarized)될 수 있는데, 즉, 에지가 있는지 또는 없는지 여부를 결정한다. 텍스처 성분에서는, 예를 들어 분산에 의해 측정된 텍스처 강도가 단계(225)에서 계산되어 텍스처 강도 맵을 획득한다. 보다 일반적으로, 텍스처 강도는 픽셀 값의 국부 통계적 순간(statistic moment), 또는 자동-회귀(auto-regression)의 잔류값의 국부 통계적 순간에 의해 측정될 수 있다.

텍스처 마스킹 가중치는 에지 정보 및 텍스처 강도에 기초하여 단계(230)에서 추정된다. 후술하는 예시적인 실시예에서, 텍스처 마스킹 가중치는 0 및 1 사이의 값으로 설정되는데, 여기서 1은 "변화 없음(no change)" 및 그리하여 "마스킹 없음"을 의미한다. 그러나, 텍스처 마스킹 가중치의 값은 다른 범위로 용이하게 확장될 수 있다. 텍스처 마스킹 가중 함수를 사용하여, 국부 왜곡은 단계(240)에서 전체 품질 메트릭으로 변환될 수 있다.

이하에서는, 이미지를 구조 성분과 텍스처 성분으로 분해하는 단계(210), 텍스처 마스킹 가중치를 계산하는 단계(230) 및 비디오 품질 메트릭을 생성하는 단계(240)는 이하에서 보다 상세히 설명된다.

이미지를 구조 성분과 텍스처 성분으로 분해하는 단계

일례로 양방향 필터를 사용하여, 이미지를 구조 성분과 텍스처 성분으로 분해할 수 있는 방법을 설명한다. 본 발명의 원리는 분해에 다른 방법을 사용할 때 용이하게 확장될 수 있다.

이미지(I)를 분해하기 위해, 양방향 필터를 반복적으로 사용하여 슬라이싱 윈도우(sliding window) 내 픽셀을 처리할 수 있다. 이미지의 사이즈가 m×m이고 슬라이싱 윈도우의 사이즈는 (2n+1)×(2n+1)이라고 가정하면, 픽셀(I(x, y))에 대해 필터링 공정은 다음과 같이 구현된다:

a) 윈도우에서 각 인접 픽셀(I(i, j))에 대해 근접도(closeness) 파라미터를 계산한다:

여기서 σ_d는 근접도의 영향을 제어한다.

b) 윈도우에서 각 인접 픽셀(I(i, j))에 대해 유사성(similarity) 파라미터를 계산한다:

여기서 σ_r는 유사성의 영향을 제어한다.

c) 각 인접 픽셀에 대한 필터링 계수를 계산한다:

d) 이미지를 필터링하는 것에 의해 구조 성분(S(x, y))을 계산한다:

(1)

e) 이미지와 구조 성분 사이의 차이로 텍스처 성분(T(x,y))을 계산한다:

T(x, y) = I(x, y) - S(x, y).

일 실시예에서, n = 3, σ_d = 3 및 σ_r= 0.03. 파라미터의 값은 응용에 따라 변할 수 있고, 예를 들어, σ_d는 비디오의 해상도에 적응될 수 있고, σ_r는 비디오의 비트 깊이에 적응될 수 있다.

도 1a 내지 도 1c는 3개의 예시적인 화상을 제공하며, 여기서 도 1a는 이미지를 도시하고, 도 1b는 도 1a의 이미지의 구조 성분을 도시하며, 도 1c는 도 1a의 이미지의 텍스처 성분을 도시한다.

텍스처 마스킹 가중치를 계산하는 단계

텍스처 마스킹 가중치를 계산하기 위해, 입력 화상은 비-중첩 블록들로 분할될 수 있다. 대부분 기존의 비디오 압축 표준, 예를 들어, H.264 및 MPEG-2은 기본 인코딩 유닛으로 16x16 매크로블록(macroblock: MB)을 사용한다. 따라서, 이하 실시예는 기본 처리 유닛으로 16x16 블록을 사용한다. 그러나, 본 발명의 원리는 상이한 사이즈의 블록, 예를 들어, 8x8 블록, 16x8 블록, 32x32 블록 및 64x64 블록을 사용하도록 적응될 수 있다. 본 발명의 원리는 중첩 블록을 사용하는 것으로 확장될 수 있다.

텍스처 성분에 있는 블록에 대해, 신호 분산을 계산하여 텍스처 강도를 추정할 수 있다. 일 실시예에서, 텍스처 강도는 (0, 1)의 범위로 맵핑된다. 휘도(luminance) 채널 및/또는 색차(chrominance) 채널을 사용하여 분산을 계산할 수 있다. 텍스처 강도 맵이 개별 블록에 대한 분산을 사용하여 생성될 수 있고, 여기서 블록의 분산은 텍스처 강도 맵에서 샘플에 대응한다. 분산에 기초한 이러한 텍스처 강도 맵은 분산 맵이라고 지칭된다. 전술한 바와 같이, 다른 방법이 텍스처 강도를 측정하는데 사용될 수 있다.

텍스처 강도는 임계값과 비교하여 바이너리화될 수 있다. 텍스처 강도가 임계값을 초과하지 않으면, 대응하는 블록은 평활한 것으로 고려될 수 있고, 그렇지 않은 경우 블록은 평활하지 않은 것으로 고려될 수 있다.

구조 성분에 대해, 에지 맵이 생성될 수 있다. 일 실시예에서, 구조 성분은 에지 검출 전에 수평으로 및 수직으로 예를 들어 16의 팩터에 의하여 다운 샘플링될 수 있다. 에지 맵은 다운 샘플된 구조 성분으로부터 추정된다. 3x3 소벨 필터를 사용하여 에지를 검출하는 것으로 가정하면, 필터링된 픽셀의 절대 응답이 추가되어 에지 강도를 나타낼 수 있다. 원래의 화상에 있는 블록에 대한 에지 강도는 에지 맵에서 샘플에 대응한다. 에지 강도는 (0, 1)의 범위로 맵핑될 수 있다.

에지 강도는 임계값과 비교하여 바이너리화될 수 있다. 에지 강도가 임계값을 초과하면, 이것은 대규모 에지가 발생할 수 있고 대응하는 구역은 에지로 표기되고, 그렇지 않은 경우 구역은 에지 없음으로 표기되는 것을 나타낸다.

다른 실시예에서, 에지 검출은 다운 샘플링 전에 수행될 수 있다. 통상적으로 다운 샘플링에서 에지 맵은 텍스처 강도 맵과 동일한 사이즈를 구비하여야 한다. 따라서, 텍스처 강도를 계산하기 위한 블록 사이즈가 변하면, 에지 맵을 계산하기 위한 다운 샘플링 비율이 이에 따라 변하여야 한다.

텍스처 강도는 에지 강도에 의해 조절될 수 있다. 즉, 텍스처 강도 및 에지 강도는 공동으로 텍스처 마스킹 가중치를 추정하는데 고려된다. 텍스처 강도 맵에 있는 샘플을 T_s(u, v)로 나타내고, 에지 맵에 있는 샘플을 E(u, v)로 나타내는데, 여기서 u 및 v는 입력 화상에서 각 블록의 수평 및 수직 인덱스이다.

텍스처 강도 맵이 바이너리 텍스처 강도 정보를 포함하면,

에지 맵이 바이너리 에지 강도 정보를 포함하면,

에지 강도를 사용하여, 조절된 텍스처 강도(R(u, v))는 다음 수식과 같이 계산될 수 있다:

R(u, v) = T_s(u,v) x [1 - E(u, v)] (2)

즉, 텍스처 강도가 더 낮으면 낮을수록 또는 에지 강도가 더 높으면 높을수록, 조절된 텍스처 강도가 더 낮아진다. 수식 (2)에서, T_s(u, v) 및 E(u, v)는 (0, 1)의 범위 내에 있는 것으로 가정한다. T_s(u, v) 및 E(u, v)가 다른 수치 범위에 있는 것으로 설정되면, 수식 (2)은 이에 따라 조절되어야 한다.

도 3a는 예시적인 바이너리 에지 맵을 도시하며, 여기서 백색 샘플은 에지를 나타내고 흑색 샘플은 에지 없음을 나타낸다. 도 3b는 예시적인 분산 맵을 도시하며, 여기서 더 밝은 샘플은 더 강한 분산에 대응한다. 도 3c는 예시적인 마스킹된 분산 맵을 도시하며, 여기서 분산은 에지 맵에 에지가 있을 때 0으로 설정된다.

블록-방식의 텍스처 마스킹 가중치(W(u, v))는, 예를 들어, 조절된 텍스처 강도(R(u, v))의 로그-로지스틱 함수(log-logistic function)로 계산될 수 있다:

(3)

여기서 파라미터(c)는 양의 실수이고 주관적인(subjective) 데이터베이스를 사용하여 트레이닝될 수 있다. 로그-로지스틱 함수는 양의 독립 변수를 (0, 1)의 범위 내로 맵핑한다. 예를 들어, 이미지 구역이 에지 맵에 있는 에지로 표기될 때, 텍스처 마스킹 가중치는 1로 설정된다. 시그모이드-형상 함수(sigmoid-shape function)(예를 들어, 곰페르츠 함수(Gompertz function), 오기 곡선(Ogee curve), 일반화된 로지스틱 함수, 대수 곡선(algebraic curve), 아크탄젠트 함수(arctangent function) 또는 에러 함수)와 같은 다른 함수를 사용하여 조절된 텍스처 강도를 텍스처 마스킹 가중치로 맵핑할 수 있다.

그 결과, 텍스처 강도가 더 낮으면 낮을수록 또는 에지 강도가 더 높으면 높을수록, 텍스처 마스킹 가중치가 더 높아진다(즉, 더 적은 결함은 비디오 품질 메트릭을 결정할 때 마스킹된 것으로 고려된다). 이것은 사람의 눈의 텍스처 마스킹 특성과 일치한다.

바이너리 텍스처 강도 맵 및 바이너리 에지 맵을 고려하면, 텍스처 마스킹 가중치가 이미지 컨텐츠에 관한 방법을 더 상세히 설명한다. 개별 블록은,

(1) 구조 성분에서 텍스처 성분이 평활하고 에지가 없는 경우(T_s(u. v) = 0, E(u, v) = 0);

(2) 구조 성분에서 텍스처 성분이 평활하고 에지가 있는 경우(T_s(u, v) = 0, E(u, v) = 1);

(3) 구조 성분에서 텍스처 성분이 평활하지 않고 에지가 없는 경우(T_s(u, v) = 1 , E(u, v) = 0); 또는

(4) 구조 성분에서 텍스처 성분이 평활하지 않고 에지가 있 경우(T_s(u, v) = 1 , E(u, v) = 1)를 구비할 수 있다.

대응하는 텍스처 마스킹 가중치(W(u, v))는 표 1에 도시되어 있다. 즉, 텍스처 성분이 평활하거나 또는 구조 성분이 에지를 포함하는 경우, 텍스처 마스킹 가중치는 1(즉, 마스킹 없음)인 것으로 계산되고, 텍스처 성분이 비-평활하고 구조 성분에 에지가 없는 경우, 텍스처 마스킹 가중치는 0으로 계산된다. 전술한 바와 같이, 결함은 텍스처된 영역에서 마스킹될 수 있으나, 비-텍스처된 영역(예를 들어, 평활한 영역, 또는 에지를 갖는 영역)에서는 마스킹되지 않을 수 있다. 따라서, 블록에 대해 계산된 텍스처 마스킹 가중치는 대응하는 이미지 컨텐츠와 일치하고, 이에 따라, 사람의 시각 시스템의 텍스처 마스킹 특성과 일치한다.

	E(u, v)=0(에지 없음)	E(u, v)=1(에지)
T_s(u, v)=0 (평활)	1(마스킹 없음)	1 (마스킹 없음)
T_s(u, v)=1 (비평활)	0(마스킹)	1 (마스킹 없음)

이미지를 텍스처 성분과 구조 성분으로 분해하는 것에 의해, 본 발명의 원리는 구역을 텍스처된 구역 또는 비-텍스처된 구역으로 보다 정확히 분류할 수 있고, 그리하여 사람의 눈의 텍스처 마스킹 특성을 보다 가까이 시뮬레이션할 수 있다. 시각적 품질 측정에 더하여, 추정된 텍스처 마스킹 가중치는 다른 응용, 예를 들어, 비디오 압축을 위한 속도 제어 알고리즘을 설계하는데 사용될 수 있다.

비디오 품질 메트릭을 생성하는 단계

국부 왜곡이 D(u, v)에서 측정된다고 가정하자, 전체 품질 메트릭(Q)은 국부 왜곡의 가중된 합으로 아래 수식과 같이 계산될 수 있다고 가정하자:

Q =∑_u,v[W(u,v)·D(u,v)] (4)

이하에서는, 텍스처 마스킹 가중치가 손실 네트워크를 통해 송신된 비디오에 대해 비디오 품질 메트릭을 추정하는데 사용될 수 있는 예시적인 실시예를 설명한다.

이미지 블록이 송신 동안 손실되면, 블록은 적절히 재구성되지 않을 수 있어서 시각적 결함을 야기할 수 있다. 한편, 손상된 블록을 나타내는 올바르게 수신된 상호 예측된 블록은 적절히 재구성되지 않을 수 있어서, 에러 전파라고 알려진 다른 유형의 시각적 결함을 야기할 수 있다. 지각되는 결함을 감소시키기 위하여, 디코더는 에러 은닉 기술에 의해 손상된 블록을 복구하려고 시도할 수 있다. 시각적 결함은 에러 은닉 후에 화상에 유지될 수 있다.

일부 손실된 블록은 에러 은닉에 의해 적절히 복구될 수 있어서 지각된 비디오 품질에 거의 영향을 미치지 않는다. 손실된 블록이 충분히 고품질로 (즉, 블록이 올바르게 수신된 것처럼) 복구되었는지 여부를 체크하기 위하여, 화상은 비트스트림으로부터 픽셀로 디코딩되고, 모자이크 결함이 디코딩된 화상에서 검출된다. 모자이크 결함이 블록 경계(border)를 따라 검출되면, 블록의 모자이크 결함 강도가 1로 설정된다. 그렇지 않은 경우, 모자이크 결함 강도는 0으로 설정되고 블록은 적절히 복구된 것으로 고려된다.

시각적 결함을 측정하기 위하여, 텍스처 마스킹 효과를 고려하지 않은 메트릭이 다음 수식으로 계산될 수 있다:

D_u,v,t = MA_u,v,t(EC_u,v,t + EP_u,v,t) (5)

Q =∑_u,v,t D_u,v,t = ∑_u,v,t [MA_u,v,t(EC_u,v,t + EP_u,v,t)] (6)

여기서 D_u,v,t는 블록(u, v)에서 시간(t)에서 왜곡이고, EC_u,v,t는 블록이 손실되었는지 또는 손실되지 않았는지 여부를 나타내는 바이너리 값이고, EP_u,v,t는 블록이 전파된 블록인지 여부, 즉, 블록이 예측을 위한 손실된 블록을 직접 또는 간접으로 사용하고 있는지 여부를 나타내는 바이너리 값이고, MA_u,v,t는 블록이 경계를 따라 모자이크 결함을 포함하는지 여부를 나타내는 바이너리 값이다.

국부 왜곡 측정은 다른 방법을 사용하여 원래의 이미지가 이용가능한 경우 예를 들어, 원래의 이미지와 손상된 이미지 사이의 차이로서 계산될 수 있다.

텍스처 마스킹 특성을 고려하면, 수식 (6)에 한정된 메트릭은 개선될 수 있다. 구체적으로, 수식 (3)에 설명된 텍스처 마스킹 함수를 사용하여 수식 (5)에서 설명된 국부 왜곡을 가중하고, 가중된 국부 왜곡을 함께 풀링하여(pool) 최종 품질 스코어를 형성한다:

(7)

여기서 W(u, v, t)는 블록(u, v)에서 시간(t)에서 텍스처 마스킹 가중치이다. 주관적인 데이터베이스에서 트레이닝 후에, 예시적인 파라미터(c)는 0.5~1인 것으로 설정된다.

텍스처 마스킹 가중치는 보다 복잡한 풀링 전략으로 품질 측정을 하는데 결합될 수 있다. 예를 들어, 메트릭은 다음 수식으로 계산될 수 있다:

Q =∑_t [∑_u,v W(u, v, t)MA_u,v,t(EC_u,v,t + EP_u,v,t)^γ

여기서, 국부 왜곡은 2개의 합산 레벨에 의해 풀링된다. 내부 합산에서, 각 화상 내 국부 왜곡은 공간적으로 풀링되는 반면, 외부 합산에서, γ에 대한 각 화상 전력의 왜곡은 시간적으로 풀링되고, γ는 시간적인 풀링 전략에 영향을 미치는 파라미터이고, 예시적인 γ는 0.6~1이다.

도 4는 예를 들어, 방법(200)에 따라 텍스처 마스킹 가중치를 계산하는데 사용될 수 있는 예시적인 장치(400)의 블록도를 도시한다. 장치(400)의 입력은 이미지 또는 비디오를 포함한다.

이미지는 이미지 분해기(410)에 의해 구조 성분과 텍스처 성분으로 분해된다. 구조 성분은 다운 샘플링 모듈(420)에 의해 다운 샘플링되고, 그 에지 강도는 에지 검출기(430)에 의해 계산된다. 텍스처 성분에 대해, 국부 텍스처 강도는 텍스처 강도 계산기(440)에 의해, 예를 들어, 분산 계산기에 의해 계산된다. 에지 강도 및 텍스처 강도를 사용하여, 텍스처 마스킹 가중치는 예를 들어, 수식 (3)을 사용하여 텍스처 마스킹 계산기(450)에 의해 계산될 수 있다.

도 5는 이미지에 대한 비디오 품질 메트릭을 생성하는데 사용될 수 있는 예시적인 비디오 품질 측정 장치(500)의 블록도를 도시한다. 장치(500)의 입력은 비트스트림을 포함하는 트랜스포트 스트림을 포함한다. 입력은 비트스트림을 포함하는 다른 포맷일 수 있다. 시스템 레벨에서 수신기는 수신된 비트스트림에서 패킷 손실을 결정한다.

디멀티플렉서(510)는 입력 스트림을 파싱하여 엘리멘터리 스트림 또는 비트스트림을 획득한다. 이 디멀티플렉서는 패킷 손실에 관한 정보를 디코더(520)에 전달한다. 디코더(520)는 각 블록 또는 매크로블록에 대한 QP, 변환 계수 및 움직임 벡터를 포함하는 필요한 정보를 파싱하여, 비디오의 품질을 추정하는 파라미터를 생성한다. 디코더는 패킷 손실에 관한 정보를 사용하여 비디오에서 어느 매크로블록이 손실되었는지를 결정한다. 디코더(520)는 전체 디코딩이 수행되지 않고, 즉, 비디오가 재구성되지 않는 것을 강조하기 위해 부분 디코더로 나타나 있다 .

디코더(520)로부터 파싱된 MB 레벨(QP)을 사용하여, QP 파서(533)는 화상과 전체 비디오 클립에 대한 평균(QP)을 획득한다. 디코더(520)로부터 획득된 변환 계수를 사용하여, 변환 계수 파서(532)는 계수를 파싱하고 컨텐츠 예측 불가능성(unpredictability) 파라미터 계산기(534)는 개별 화상과 전체 비디오 클립에 대한 컨텐츠 예측 불가능성 파라미터를 계산한다. 어느 매크로블록이 손실되었는지에 관한 정보를 사용하여, 손실된 MB 태거(tagger)(531)는 어느 MB가 손실되었는지를 표시한다. 나아가 움직임 정보를 사용하여, 전파된 MB 태거(535)는 어느 MB가 예측을 위해 손실된 블록을 직접 또는 간접으로 사용하고 있는지(즉, 어느 블록이 에러 전파에 의하여 영향을 받는지)를 표시한다. 블록에 대한 움직임 벡터를 사용하여, MV 파서(536)는 MB, 화상 및 전체 비디오 클립에 대한 평균 움직임 벡터를 계산한다. 다른 모듈(미도시)을 사용하여 에러 은닉 거리, 동결(freezing) 지속시간 및 프레임 속도를 결정할 수 있다.

압축 왜곡 예측기(540)는 압축 왜곡 팩터를 추정하고, 슬라이싱 왜곡 예측기(542)는 슬라이싱 왜곡 팩터를 추정하고, 동결 왜곡 예측기(544)는 동결 왜곡 팩터를 추정한다. 추정된 왜곡 팩터에 기초하여, 품질 예측기(550)는 전체 비디오 품질 메트릭을 추정한다.

여분의 연산이 허용되는 경우, 디코더(570)는 화상을 디코딩한다. 디코더(570)는 전체 디코더로 나타나고, 필요한 경우 화상을 재구성하고 에러 은닉을 수행할 수 있다. 모자이크 검출기(580)는 재구성된 비디오에 모자이크 검출을 수행한다. 모자이크 검출 결과를 사용하여, 손실된 MB 태거(531) 및 전파된 MB 태거(535)는 관련 파라미터, 예를 들어, 손실된 블록 플래그 및 전파된 블록 플래그를 업데이트한다.

텍스처 마스킹 추정기(585)는 텍스처 마스킹 가중치를 계산한다. 장치(400)는 텍스처 마스킹 추정기로 사용될 수 있다. 텍스처 마스킹 가중치는 왜곡을 가중하는데 사용될 수 있다.

도 6을 참조하면, 전술한 본 발명의 특징과 원리를 적용할 수 있는 비디오 송신 시스템 또는 장치(600)가 도시되어 있다. 프로세서(605)는 비디오를 처리하고 인코더(610)는 비디오를 인코딩한다. 인코더로부터 생성된 비트스트림은 분배 네트워크(620)를 통해 디코더(630)로 송신된다. 비디오 품질 모니터 또는 비디오 품질 측정 장치, 예를 들어, 장치(500)는 상이한 스테이지에서 사용될 수 있다.

일 실시예에서, 비디오 품질 모니터(640)는 컨텐츠 생성기에 의해 사용될 수 있다. 예를 들어, 추정된 비디오 품질은 인코더에 의해 모드 결정 또는 비트 레이트 할당과 같은 인코딩 파라미터를 결정하는데 사용될 수 있다. 또 다른 예에서, 비디오가 인코딩된 후에, 컨텐츠 생성기는 비디오 품질 모니터를 사용하여 인코딩된 비디오의 품질을 모니터링한다. 품질 메트릭이 미리 한정된 품질 레벨을 충족하지 않는 경우, 컨텐츠 생성기는 비디오를 재-인코딩하여 비디오 품질을 개선하도록 선택할 수 있다. 컨텐츠 생성기는 품질에 기초하여 인코딩된 비디오를 랭킹 매기고 이에 따라 컨텐츠에 과금(charge)할 수 있다.

다른 실시예에서, 비디오 품질 모니터(650)는 컨텐츠 분배기에 의해 사용될 수 있다. 비디오 품질 모니터는 분배 네트워크에 놓일 수 있다. 비디오 품질 모니터는 품질 메트릭을 계산하고 이 품질 메트릭을 컨텐츠 분배기에 리포트한다. 비디오 품질 모니터로부터의 피드백에 기초하여, 컨텐츠 분배기는 대역폭 할당 및 액세스 제어를 조절하는 것에 의해 그 서비스를 개선할 수 있다.

컨텐츠 분배기는 피드백을 컨텐츠 생성기에 송신하여 인코딩을 조절할 수 있다. 인코더에서 인코딩 품질을 개선하는 것이 디코더 측에서 품질을 개선하는 것을 나타내는 것은 아니며 그 이유는 고품질 인코딩된 비디오는 통상적으로 더 많은 대역폭을 요구하고 송신 보호를 위해 더 적은 대역폭을 남겨 두기 때문이다. 이에 따라, 디코더에서 최적의 품질을 달성하기 위하여, 인코딩 비트레이트와 채널 보호를 위한 대역폭 사이에 밸런스가 고려되어야 한다.

또 다른 실시예에서, 비디오 품질 모니터(660)는 유저 디바이스에 의해 사용될 수 있다. 예를 들어, 유저 디바이스가 인터넷에서 비디오를 서치(search)하는 경우, 서치 결과는 많은 비디오 또는 많은 링크를 요청된 비디오 컨텐츠에 대응하는 비디오에 리턴할 수 있다. 서치 결과에서 비디오는 상이한 품질 레벨을 구비할 수 있다. 비디오 품질 모니터는 이들 비디오에 대한 품질 메트릭을 계산하고 어느 비디오를 저장할지를 선택하는 결정을 할 수 있다. 다른 예에서, 디코더는 상이한 에러 은닉 모드에 대해 은닉된 비디오의 품질을 추정한다. 추정에 기초하여, 더 나은 은닉 품질을 제공하는 에러 은닉이 디코더에 의하여 선택될 수 있다.

본 명세서에 설명된 구현은 예를 들어, 방법 또는 공정, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현의 문맥으로만 설명된 (예를 들어, 방법으로만 설명된) 경우에도, 설명된 특징의 구현은 다른 형태(예를 들어, 장치 또는 프로그램)로도 구현될 수 있다. 장치는 예를 들어, 적절한 하드웨어, 소프트웨어 및 펌웨어로 구현될 수 있다. 본 방법은 예를 들어, 컴퓨터, 마이크로프로세서, 집적 회로, 또는 프로그래밍가능한 논리 디바이스를 포함하는 일반적으로 처리 디바이스라고 말하는 예를 들어, 프로세서와 같은 예를 들어, 장치로 구현될 수 있다. 프로세서는, 예를 들어, 컴퓨터, 셀폰, 휴대용/"PDA"(personal digital assistant), 및 최종 유저들 사이에 정보 통신을 제공하는 다른 디바이스와 같은 통신 디바이스를 포함한다.

본 발명의 원리의 "일 실시예" 또는 "실시예" 또는 "일 구현" 또는 "구현" 및 이들의 다른 변형예라는 언급은 실시예와 관련하여 설명된 특정 특징, 구조, 특성 등이 본 발명의 원리의 적어도 하나의 실시예에 포함되는 것을 의미한다. 따라서, 본 명세서에 걸쳐 여러 곳에 나타나는 "일 실시예에서" 또는 "실시예에서" 또는 "일 구현에서" 또는 "구현에서" 및 임의의 다른 변형예라는 어구의 표현은 반드시 동일한 실시예를 나타내는 것은 아니다.

추가적으로, 본 명세서 또는 그 청구범위는 정보를 "결정"하는 것을 언급할 수 있다. 정보를 결정하는 것은 예를 들어, 정보를 추정하는 동작, 정보를 계산하는 동작, 정보를 예측하는 동작, 또는 메모리로부터 정보를 검색하는 동작 중 하나 이상의 동작을 포함할 수 있다.

나아가, 본 명세서 또는 그 청구범위는 정보에 "액세스"하는 것을 언급할 수 있다. 정보에 액세스하는 동작은 예를 들어, 정보를 수신하는 동작, (예를 들어, 메모리로부터) 정보를 검색하는 동작, 정보를 저장하는 동작, 정보를 처리하는 동작, 정보를 송신하는 동작, 정보를 이동시키는 동작, 정보를 복제하는 동작, 정보를 소거하는 동작, 정보를 계산하는 동작, 정보를 결정하는 동작, 정보를 추정하는 동작, 또는 정보를 예측하는 동작 중 하나 이상의 동작을 포함할 수 있다.

추가적으로, 본 명세서 또는 그 청구범위는 정보를 "수신"하는 것을 언급할 수 있다. 수신하는 동작은, "액세스"하는 것과 같이, 넓은 의미의 용어인 것으로 의도된다. 정보를 수신하는 동작은, 예를 들어, 정보에 액세스하는 동작, 또는 (예를 들어, 메모리로부터) 정보를 검색하는 동작 중 하나 이상의 동작을 포함할 수 있다. 나아가, "수신"하는 동작은, 예를 들어, 정보를 저장하는 동작, 정보를 처리하는 동작, 정보를 송신하는 동작, 정보를 이동시키는 동작, 정보를 복제하는 동작, 정보를 소거하는 동작, 정보를 계산하는 동작, 정보를 결정하는 동작, 정보를 추정하는 동작, 또는 정보를 예측하는 동작과 같은 동작 동안 하나의 방식으로 또는 다른 방식으로 일반적으로 수반될 수 있다.

이 기술 분야에 통상의 지식을 가진 자에게는 명백한 바와 같이, 구현은 예를 들어, 저장되거나 또는 송신될 수 있는 정보를 운반하도록 포맷된 다양한 신호를 생성할 수 있다. 정보는, 예를 들어, 방법을 수행하는 명령, 또는 설명된 구현들 중 하나에 의해 생성된 데이터를 포함할 수 있다. 예를 들어, 신호는 설명된 실시예의 비트스트림을 운반하도록 포맷될 수 있다. 이러한 신호는, 예를 들어, (예를 들어, 스펙트럼의 무선 주파수 부분을 사용하는) 전자기파로 또는 베이스밴드 신호로 포맷될 수 있다. 포맷이란, 예를 들어, 데이터 스트림을 인코딩하는 동작 및 인코딩된 데이터 스트림을 반송파로 변조하는 동작을 포함할 수 있다. 신호가 운반하는 정보는, 예를 들어, 아날로그 또는 디지털 정보일 수 있다. 신호는 알려진 바와 같이 여러 상이한 유선 또는 무선 링크를 통해 송신될 수 있다. 신호는 프로세서-판독가능한 매체에 저장될 수 있다.

Claims

비디오 품질을 추정하는 방법으로서,
적어도 하나의 이미지 구역을 구비하는 이미지 데이터에 액세스하는 단계;
상기 이미지 구역을 구조 성분(structure component)과 텍스처 성분(texture component)으로 분해하는 단계(210);
상기 이미지 구역의 구조 성분에 대해 에지 강도(edge strength)를 결정하는 단계(220);
상기 에지 강도에 응답하여 텍스처 마스킹 가중치(texture masking weight)를 결정하는 단계(230); 및
상기 텍스처 마스킹 가중치에 응답하여 품질 메트릭(quality metric)을 결정하는 단계(240)를 포함하는 비디오 품질 추정 방법.
제1항에 있어서, 양방향 필터를 사용하여 상기 이미지 구역을 상기 구조 성분 및 상기 텍스처 성분으로 분해하는 것인 비디오 품질 추정 방법.
제1항에 있어서,
상기 에지 강도가 임계값을 초과하는 경우 상기 이미지 구역에 에지가 존재하는 것으로 결정하는 단계를 더 포함하며, 상기 이미지 구역에 에지가 존재하는 것으로 결정될 때 텍스처 마스킹이 수행되지 않도록 상기 텍스처 마스킹 가중치가 설정되는 것인 비디오 품질 추정 방법.
제1항에 있어서,
상기 이미지 구역의 텍스처 성분에 대해 텍스처 강도를 결정하는 단계(225)를 더 포함하며, 상기 텍스처 마스킹 가중치를 결정하는 단계는 상기 에지 강도 및 상기 텍스처 강도에 응답하는 것인 비디오 품질 추정 방법.
제4항에 있어서, 상기 텍스처 강도는 상기 이미지 구역의 텍스처 성분의 분산(variance)으로 결정되는 것인 비디오 품질 추정 방법.
제4항에 있어서,
상기 텍스처 강도가 임계값을 초과하지 않는 경우 상기 이미지 구역이 평활한지를 결정하는 단계를 더 포함하며, 상기 이미지 구역이 평활한 것으로 결정될 때 텍스처 마스킹이 수행되지 않도록 상기 텍스처 마스킹 가중치가 설정되는 것인 비디오 품질 추정 방법.
제1항에 있어서, 상기 이미지 데이터는 복수의 이미지 구역을 포함하며, 상기 분해하는 단계, 상기 에지 강도를 결정하는 단계 및 상기 텍스처 마스킹 가중치를 결정하는 단계는 분해하는 단계, 각 에지 강도를 결정하는 단계 및 상기 복수의 이미지 구역에 대해 각 텍스처 마스킹 가중치를 결정하는 단계를 포함하고, 상기 품질 메트릭은 국부 왜곡의 가중된 조합에 응답하여 결정되고, 상기 국부 왜곡은 상기 텍스처 마스킹 가중치에 의해 가중되는 것인 비디오 품질 추정 방법.
비디오 품질을 추정하는 장치로서,
이미지 구역을 구조 성분 및 텍스처 성분으로 분해하는 이미지 분해기(410);
상기 이미지 구역의 구조 성분에 대해 에지 강도를 결정하는 에지 검출기(430);
상기 에지 강도에 응답하여 텍스처 마스킹 가중치를 결정하는 텍스처 마스킹 계산기(450); 및
상기 텍스처 마스킹 가중치에 응답하여 품질 메트릭을 결정하는 품질 예측기(500)를 포함하는 비디오 품질 추정 장치.
제8항에 있어서, 상기 이미지 분해기(410)에 양방향 필터가 사용되는 것인 비디오 품질 추정 장치.
제8항에 있어서, 상기 에지 검출기(430)는 상기 에지 강도가 임계값을 초과하는 경우 상기 이미지 구역에 에지가 존재하는 것으로 결정하고, 상기 텍스처 마스킹 계산기(450)는 상기 이미지 구역에 에지가 존재하는 것으로 결정될 때 텍스처 마스킹이 수행되지 않도록 상기 텍스처 마스킹 가중치를 설정하는 것인 비디오 품질 추정 장치.
제8항에 있어서,
상기 이미지 구역의 텍스처 성분에 대해 텍스처 강도를 결정하는 텍스처 강도 계산기(440)를 더 포함하며, 상기 텍스처 마스킹 계산기(450)는 상기 에지 강도 및 상기 텍스처 강도에 응답하여 상기 텍스처 마스킹 가중치를 결정하는 것인 비디오 품질 추정 장치.
제11항에 있어서, 상기 텍스처 강도는 상기 이미지 구역의 텍스처 성분의 분산으로 결정되는 것인 비디오 품질 추정 장치.
제11항에 있어서, 상기 텍스처 강도 계산기(440)는 상기 텍스처 강도가 임계값을 초과하지 않는 경우 상기 이미지 구역이 평활한 것으로 결정하고, 상기 텍스처 마스킹 계산기(450)는 상기 이미지 구역이 평활한 것으로 결정될 때 텍스처 마스킹이 수행되지 않도록 상기 텍스처 마스킹 가중치를 설정하는 것인 비디오 품질 추정 장치.
제8항에 있어서, 상기 이미지 데이터는 복수의 이미지 구역을 포함하고, 상기 이미지 분해기(410), 상기 에지 검출기(430) 및 상기 텍스처 마스킹 계산기(450)는 분해하는 동작, 각 에지 강도를 결정하는 동작, 및 상기 복수의 이미지 구역에 대해 각 텍스처 마스킹 가중치를 결정하는 동작을 각각 수행하고, 상기 품질 예측기(500)는 국부 왜곡의 가중된 조합에 응답하여 상기 품질 메트릭을 결정하고, 상기 국부 왜곡은 상기 텍스처 마스킹 가중치에 의해 가중되는 것인 비디오 품질 추정 장치.
명령을 저장한 프로세서 판독가능한 매체로서, 상기 명령은, 하나 이상의 프로세서로 하여금,
이미지 구역을 구조 성분 및 텍스처 성분으로 분해하는 동작(210);
상기 이미지 구역의 구조 성분에 대해 에지 강도를 결정하는 동작(220);
상기 에지 강도에 응답하여 텍스처 마스킹 가중치를 결정하는 동작(230); 및
상기 텍스처 마스킹 가중치에 응답하여 품질 메트릭을 결정하는 동작(240)을 집합적으로 수행하도록 하는 것인 프로세서 판독가능한 매체.