KR20140096320A

KR20140096320A - 왜곡/품질 측정

Info

Publication number: KR20140096320A
Application number: KR1020147014219A
Authority: KR
Inventors: 지아오동 구; 카이 씨에; 지보 첸
Original assignee: 톰슨 라이센싱
Priority date: 2011-11-28
Filing date: 2011-11-28
Publication date: 2014-08-05
Also published as: JP2015504272A; EP2786584A1; HK1203008A1; CN104081769A; AU2011382248B2; JP6010625B2; EP2786584B1; US20140314321A1; AU2011382248A1; EP2786584A4; BR112014012037A2; US9323997B2; WO2013078599A1

Abstract

다양한 구현들은, 예를 들어 스킵에 의한 프리징 및/또는 스킵 없이 프리징에 관련된 왜곡 및 품질 측정을 다룬다. 몇몇 구현에 있어서, 정보는 하나 이상의 연속된 화상의 제 1 및 제 2 세트가 디스플레이되지 않는 것을 나타내는 정보가 액세스된다. 제 1 및 제 2 인디케이터가 결정된다. 그러한 하나의 구현에 있어서, 제 1 및 제 2 인디케이터는 화상의 제 1 및 제 2 세트에 대한 디스플레이 시간 동안 실질적으로 동일한 제 1 또는 제 2 화상을 디스플레이로부터 발생하는 하나 이상의 유형의 왜곡 효과에 걸쳐 왜곡의 양을 나타낸다. 제 1 및 제 2 인디케이터는 비선형 방식으로 결합된다. 이러한 다른 구현에 있어서, 왜곡은 다수의 유형의 왜곡 효과 중 주어진 유형의 왜곡 효과에 연관되고, 제 1 및 제 2 인디케이터는 주어진 유형의 왜곡 효과를 위해 결합된다.

Description

왜곡/품질 측정{DISTORTION/QUALITY MEASUREMENT}

비디오에 관련된 구현들(implementations)을 설명한다. 다양한 특정 구현들은 비디오에 대한 왜곡 및/또는 비디오 품질을 결정하는 것에 관한 것이다.

비디오 품질은 여러 가지 왜곡들에 의해 영향을 받는다. 특정 왜곡은 예를 들어, (ⅰ) 압축 아티팩트(compression artifacts), (ⅱ) 채널 아티팩트(channel artifacts), (iii) 화상의 프리징(freezing), 및 (iv) 화상의 스킵(skipping)을 포함한다. 인지된 비디오 품질에 대한 왜곡의 영향은 왜곡의 유형에 따라 달라질 수 있다.

왜곡의 영향은 비트-스트림 계층 및 픽셀 계층 모두에서 평가될 수 있다. 다양한 비트-스트림 계층 방법에 있어서, 평가 방식은 비트 스트림의 파서에 기초하고, 픽셀 값은 디코딩되지 않는다. 다양한 픽셀 계층 방법에 있어서, 비트-스트림의 전체 디코딩이 허용 가능하다. 명백하게, 픽셀 계층에서, 추가 정보는 왜곡을 평가하는데 사용될 수 있다. 그러나, 화소 계층 정보를 얻기 위해서는 추가적인 계산 및 시간이 통상적으로 요구된다.

일반적인 관점에 따라, 비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 1 세트가 디스플레이되지 않는 것을 나타내는 정보가 액세스된다. 비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 2 세트가 디스플레이되지 않는 것을 나타내는 정보가 액세스된다. 제 2 세트는 비디오 시퀀스의 제 1 세트로부터 분리된다. 제 1 인디케이터가 결정된다. 제 1 인디케이터는 화상의 제 1 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 1 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 다수의 유형의 왜곡 효과 중 주어진 유형의 왜곡 효과와 연관된 왜곡의 양을 나타낸다. 제 2 인디케이터가 결정된다. 제 2 인디케이터는 화상의 제 2 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 2 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 주어진 유형의 왜곡 효과와 연관된 왜곡의 양을 나타낸다. 제 1 인디케이터 및 제 2 인디케이터는 주어진 유형의 왜곡 효과에 대한 왜곡의 결합된 인디케이터를 생성하기 위하여 결합된다.

다른 일반적인 관점에 따라, 비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 1 세트가 디스플레이되지 않는 것을 나타내는 정보가 액세스된다. 비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 2 세트가 디스플레이되지 않는 것을 나타내는 정보가 액세스된다. 제 2 세트는 비디오 시퀀스의 제 1 세트로부터 분리된다. 제 1 인디케이터가 결정된다. 제 1 인디케이터는 화상의 제 1 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 1 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 하나 이상의 유형의 왜곡 효과에 걸쳐 왜곡의 양을 나타낸다. 제 2 인디케이터가 결정된다. 제 2 인디케이터는, 화상의 제 2 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 2 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 하나 이상의 유형의 왜곡 효과에 걸쳐 왜곡의 양을 나타낸다. 제 1 인디케이터 및 제 2 인디케이터는 왜곡의 결합된 인디케이터를 생성하기 위하여 비선형 방식으로 결합된다.

본 응용에서의 적어도 하나의 구현은 비디오가 하나 이상의 “프리징”(스킵에 의한 또는 스킵 없이) 왜곡들에 의해 왜곡될 때 비트- 스트림의 계층에서 품질을 평가하기 위한 기술을 제공한다. 또한, 하나 이상의 구현은 하나 이상의 "프리징" 왜곡의 발생을 검출하고, 비디오의 결과 왜곡 및 품질의 측정을 제공한다.

도 1은 화상들의 시퀀스의 제 1 예의 표현을 도시한 도면.
도 2는 화상들의 시퀀스의 제 2 예의 표현을 도시한 도면.
도 3은 스킵에 의한 프리즈의 예의 그래픽 표현을 도시한 도면.
도 4는 스킵 없이 프리즈의 예의 그래픽 표현을 도시한 도면.
도 5는 왜곡 추정 프레임워크의 구현을 도시하는 블록/순서도.
도 6은 프리즈를 경험하는 비디오 시퀀스의 예의 표현을 도시한 도면.
도 7은 풀링 함수의 예의 그래픽 표현을 도시한 도면.
도 8은 전송 시스템 및 프로세스의 구현을 도시하는 블록/순서도.
도 9는 수신 시스템 및 프로세스의 예를 도시하는 블록/순서도.
도 10은 왜곡 및/또는 품질을 결정하기 위한 장치 및 방법의 제 1 구현을 도시하는 블록/순서도.
도 11은 왜곡 및/또는 품질을 결정하기 위한 장치 및 방법의 제 2 구현을 도시하는 블록/순서도.

하나 이상의 구현의 상세는 첨부 도면 및 아래의 설명에 기술된다. 하나의 특정 방식으로 설명하였지만, 본 구현은 다양한 방식으로 구성 또는 구현될 수 있다는 것이 명백하다. 예를 들어, 구현은 한 방법으로 실행될 수 있거나, 또는 예를 들어, 일련의 작업을 실행하도록 구성된 장치 또는 일련의 작업을 실행하기 위한 명령어를 저장하는 장치와 같은 장치로서 구현되거나, 또는 신호로서 구현될 수 있다. 다른 관점 및 특징은 첨부한 도면과 청구 범위와 함께 고려되는 다음의 상세한 설명으로부터 명백해질 것이다.

본 응용에서 제공되는 특징들 중 일부의 사전 검토로서, 적어도 하나의 구현은 비디오 시퀀스에서 프리징에 의한 장애를 검출한다. 이러한 장애는 종종 시간 장애(temporal impairments)라고 지칭한다. 부가적으로, 이러한 구현들의 적어도 하나는 화소 계층 정보보다는 오히려 비트-스트림 계층 정보를 이용하여 손상을 평가한다. 또한, 이러한 평가는 손상에 기인한 왜곡의 추정과 그 결과의 품질을 제공한다. 하나의 특정 구현은 왜곡 효과의 여러 유형들이 주어진 프리징 이벤트에 일반적으로 제공되어도 왜곡 효과의 각각의 유형을 별도로 수집(pool)한다. 다른 구현은 별도의 프리징 이벤트들에 걸쳐 공통 왜곡 효과에 대한 왜곡을 비-선형 방식으로 수집한다. 이들 및 다른 구현들은 아래에 설명되어 있다.

비디오 품질은 다양한 왜곡에 의해 영향을 받을 수 있다. 이러한 왜곡은, 예를 들어, 다음과 같은 하나 이상을 포함할 수 있다.

- 압축 아티팩트, 이는, 예를 들어, 손실 코더-디코더( "코덱")에 의해 발생된다.

- 채널 아티팩트, 이는 패킷 손실로 인한 것으로서, 패킷 손실은 손실된 패킷들의 영향을 완화하려고 시도하는 수송 층 및 디코더 에러 은닉 후처리기에서 검출된다. 이러한 에러 은닉은, 예를 들어, 블록 레벨에서 실행된다. 에러 은닉(예를 들어, 후처리기)에서 생성된 왜곡 및, 현재 화상에서 현재 화상 이후에 디코딩되는 화상들까지 에러 은닉 왜곡의 전달을 채널 아티팩트라 부른다.

- 스킵에 의한 프리징(Freezing with skip), 이는 또한 패킷 손실로 인한 것으로서, “프리징”은, 현재 화상이 단일 화상의 디스플레이 시간 이상 동안 디스플레이되는 동안, 비디오 시퀀스의 디스플레이에서 일시 정지를 의미한다. “스킵에 의한 프리징”으로 지칭되는 왜곡과 “채널 아티팩트”로 지칭되는 왜곡간의 차이는, 즉 특정 구현에 있어서, 화상의 패킷이 손실될 때 전체 화상이 중단(drop)되는 것이다. 다양한 구현에서 추가적인 차이는, 전체 화상이 중단되고 이에 따라 스킵될 때, 예측 기준으로서 중단된 화상에 따른 화상들은 또한 중단되는 것이다. 하나 이상의 화상이 중단될 때, 현재 화상은 현재 화상 디스플레이 시간과 중단된 화상들의 디스플레이 시간에 대응하는 시간 기간 동안 디스플레이에서 “프리징된다(frozen; 프로즌)”. 시청자는 이것을 왜곡으로서 일반적으로 인식하는 “프로즌” 디스플레이를 본다. 부가적으로, 중단된 화상들이 전혀 디스플레이되지 않기 때문에, 이들 중단된 화상들은 “스킵되었다”고 말한다. 비록 두 가지 왜곡이 관련되어 있지만, “스킵핑”은 시청자가 “프리징”에서 별도의 왜곡으로서 인식하는 인지 가능한 점프 또는 전환을 소개한다.

- 스킵 없이 프리징, 버퍼의 언더플로에 의해 야기되는 것으로서, 예를 들어 네트워크 지연과 같은 이유로서, 하나의 디스플레이가 보여 주기 위해 하나의 화상을 요청할 때 버퍼에서 디코딩된 화상이 존재하지 않을 수 있다. 이때, 디스플레이는 버퍼에 다음 디코딩된 화상이 도달할 때까지 일지 중지한다. 이러한 종류의 왜곡은 화상이 스킵되지 않기 때문에 왜곡의 종류는 “스킵 없이 프리징”이라고 부른다.

이들 및 다른 왜곡의 영향은 비트-스트림 계층 및 픽셀 계층 모두에서 평가될 수 있다. 다양한 비트-스트림 계층 방법에 있어서, 평가 방식은 비트 스트림의 파서에 기초하고, 픽셀 값은 디코딩되지 않는다. 다양한 픽셀 계층 방법에 있어서, 비트-스트림의 전체 디코딩이 허용 가능하다. 명백하게, 픽셀 계층에서, 추가 정보는 왜곡을 평가하는데 사용될 수 있다. 그러나, 화소 계층 정보를 얻기 위해서는 추가적인 계산 및 시간이 통상적으로 요구된다.

따라서, 본 응용에서의 적어도 하나의 구현은 비디오가 하나 이상의 “프리징”(스킵에 의한 또는 스킵 없이) 왜곡들에 의해 왜곡될 때 비트-스트림의 계층에서 품질을 평가하기 위한 기술을 제공한다. 또한, 하나 이상의 구현은 하나 이상의 "프리징" 왜곡의 발생을 검출하고, 비디오의 결과 왜곡 및 품질의 측정을 제공한다.

"프리징" 왜곡은 또한 대안적으로, 일반적으로 두 개 이상의 왜곡이 되는 것으로 간주될 수도 있음을 주목한다. 왜곡의 제 1 발생은 “프리징”이 시작할 때 일반적으로 움직임에서 저크(jerk)(또는 정지)가 된다. 왜곡의 제 2 발생은 일반적으로 “프리징”에 의해 생성된 일시 정지가 된다. “스킵에 의한 프리징”에 대한 왜곡의 제 3 발생은 일반적으로 “프리즈”가 종료하고 “스킵(skip)”이 발생한 이후에 발생하는 움직임에서 “점프(jump)”(또한 “스킵”이라 한다)가 된다.

다양한 구현은, 예를 들어, 주어진 “프리징” 이벤트(또는 “프리징”또는 “스킵”과 같은 이벤트의 구성 요소), 또는 다수의 “프리징” 이벤트(또는 다수의 이벤트로부터의 구성 요소)가 시청자에 미치는 영향을 결정한다. 이러한 영향은 종종 수치로서 설명되고, 일반적으로 “왜곡”(또는 “품질”)로서 언급된다. 그러나, 다양한 구현에서 결정된 왜곡은 완전하지 않다. 즉, 다양한 구현에 있어서, 결정된 왜곡은 구성 요소, 또는 이벤트를 무시하고 근사치 또는 추정이 되도록 최상으로 고려된다.

1. 왜곡의 토론

패킷 손실이 전송 계층에서 검출될 때, 실제 디코딩 시스템은 일반적으로 두 가지 선택이 있다. 제 1 선택은, 예를 들어, 에러 은닉 후처리기에서 실행되는 에러 은닉으로 하나 이상의 손실 패킷의 영향을 완화하기 위해 시도하는 것이다. 에러 은닉 처리는, 예를 들어, 다른 화상으로부터 해당 블록을 복사하는 것을 포함하는 본 기술 분야에 공지된 다양한 에러 은닉 기술 중 어느 하나를 실행할 수 있다. 제 2 선택은 전체 화상을 중단하는 것이다. 채널 아티팩트는 에러 은닉이 선택될 때 종종 발생된다. “스킵에 의한 프리징”은 하나의 화상이 중단될 때 종종 발생된다.

“스킵에 의한 프리징” 효과에 적어도 부분적으로 집중하는 하나 이상의 구현은 본 응용에서 설명한다. 적어도 하나의 구현에 있어서, 패킷 손실이 발생할 때 전체 화상은 중단되어, “스킵에 의한 프리징” 왜곡을 야기한다. 중단된 화상이 I-화상 또는 P-화상이면, 중단된 화상은 아직 디코딩되지 않은 하나 이상의 부가적인 화상에 대한 예측 기준 화상으로서 사용된다. 이들 부가적인 화상은 중단된 화상에 의존한다고 말할 수 있으며, 종속 화상으로서 지칭될 수 있다. 이들 종속 화상은 또한 적어도 하나의 구현에서 중단된다. 보다 구체적으로, 본 구현에 있어서,

- I-화상의 패킷이 손실되면, 화상 그룹(“GOP”) 내의 모든 화상은 중단된다. 이는, 전형적인 GOP가 손실된 패킷으로 인하여 중단될 I-화상을 포함하고, GOP 내의 남아있는 모든 화상이 직접 또는 간접적으로 I-화상에 의존하고 있기 때문이다.

- P-화상 내의 패킷이 손실되면, P-화상은 중단된다. 부가적으로, 중단된 P-화상으로부터 의존하는 GOP 내의 모든 화상은 중단된다. 많은 경우에, 이는 P-화상 및 GOP의 단부에 남아있는 모든 화상에 해당할 것이다.

- 정상적인 B-화상 내의 패킷이 손실되면, 단지 B-화상(손실 패킷을 포함)만이 중단된다. 정상적인 B-화상이 어떤 다른 화상에 대한 기준으로서 사용되지 않음을 주목한다.

상기 경우에 있어서, 연속적인 화상의 적어도 하나의 그룹은 패킷 손실이 발생할 때 중단된다. 하나의 그룹은 하나 이상의 화상을 포함한다. 이것은 손실 패킷을 포함하는 화상이 I-화상, P-화상, 또는 B-화상인지의 여부에 관계없이 발생한다.

도 1 및 도 2는 예들을 도시한다. 도 1을 참조하면, 비디오 화상의 시퀀스(100)는 왼쪽에서 오른쪽의 디스플레이의 순서로 도시되어 있다. 시퀀스(100)는 GOP(110), GOP(120) 및 GOP(130)를 포함하는 여러 순차 GOP를 포함한다. GOP(110)에 대해서는 화상(118)인 마지막 화상이 도시되어 있다. 마찬가지로, GOP(130)에 대해서는 화상(132)인 제 1 화상만이 도시되어 있다. 그러나, GOP(120)에 대해서는 GOP(120) 내의 모든 화상이 도시되어 있다.

GOP(120)는 I-화상(122), B-화상(124), P-화상(126), 제 2 B-화상(127), 및 제 2 P-화상(128)을 포함한다. I-화상(122)은 기준 화상이 없다. B-화상(124)은, I-화상(122) 및 P-화상 (126)에서 B-화상 (124)로 진행하는 화살표에 의해 도시된 것처럼, I-화상(122) 및 P-화상(126)으로부터 의존한다. P-화상(126)은 I-화상(122)에서 P-화상(126)으로 진행하는 화살표에 의해 도시된 것처럼 I-화상(122)으로부터 의존한다. B-화상(127)은, P-화상(126) 및 P-화상 (128)에서 B-화상(127)으로 진행하는 화살표에 의해 도시된 것처럼, P-화상(126) 및 P-화상(128)으로부터 의존한다. P-화상(128)은 P-화상(126)에서 P-화상(128)으로 진행하는 화살표에 의해 도시된 것처럼 P-화상(126)으로부터 의존한다.

GOP(120) 내의 하나 이상의 화상이 중단된다면, 다음과 같이 하나 이상의 연속된 그룹이 중단되는 것을 알 수 있다. 연속된 그룹 중단은 중단되는 하나 이상의 연속된 화상의 세트가 된다.

- I-화상(122)이 중단된다면, GOP(120) 내의 남아있는 모든 화상이 I-화상(122)에 의존하기 때문에, GOP(120) 내의 모든 화상은 중단될 것이다. 이는 5개의 화상을 포함하는 하나의 연속된 그룹 중단이 될 것이다.

- B-화상(124)이 중단된다면, 다른 어떤 화상도 B-화상(124)에 의존하기 않기 때문에, 단지 B-화상(124)만이 중단된다. 이는 오직 하나의 화상만을 포함하는 하나의 연속된 그룹 중단이 될 것이다.

- P-화상(126)이 중단된다면, 이들 모든 화상이 P-화상(126)에 의존하기 때문에, I-화상(122)을 제외하고 모든 화상이 중단될 것이다. 이는 4개의 화상을 포함하는 하나의 연속된 그룹 중단이 될 것이다.

- B-화상(127)이 중단된다면, 다른 어떤 화상도 B-화상(127)에 의존하기 않기 때문에, 단지 B-화상(127)만이 중단된다. 이는 오직 하나의 화상만을 포함하는 하나의 연속된 그룹 중단이 될 것이다.

- P-화상(128)이 중단된다면, B-화상(127)이 P-화상(128)으로부터 의존하기 때문에, B-화상(127)이 또한 중단될 것이다. 이는 2개의 화상을 포함하는 하나의 연속된 그룹 중단이 될 것이다.

도 2를 참조하면, 다른 예가 제공된다. 도 2는 I-화상(210), 제 1 P-화상(220), 제 2 P-화상(230) 및 B-화상(240)을 포함하는 GOP(200)을 도시한다. I-화상(210)은 기준 화상을 갖지 않는다. P-화상(220)은, I-화상(210)에서 P-화상(220)으로 진행하는 화살표에 의해 도시된 것처럼, I-화상(210)으로부터 의존한다. P-화상(230)은 I-화상(210)에서 P-화상(230)으로 진행하는 화살표에 의해 도시된 것처럼 I-화상(210)으로부터 또한 의존한다. B-화상(240)은, P-화상(220) 및 P-화상(230)에서 B-화상(240)으로 진행하는 화살표에 의해 도시된 것처럼, P-화상(220) 및 P-화상(230)으로부터 의존한다.

GOP(120) 내의 하나 이상의 화상이 중단된다면, 다음과 같이 하나 이상의 연속된 그룹이 중단되는 것을 알 수 있다.

- I-화상(210)이 중단된다면, GOP(200) 내의 남아있는 모든 화상이 I-화상(210)에 의존하기 때문에, GOP(200) 내의 모든 화상은 중단될 것이다. 이는 4개의 화상을 포함하는 하나의 연속된 그룹 중단이 될 것이다.

- P-화상(220)이 중단된다면, B-화상(240)이 P-화상(220)으로부터 의존하기 때문에, B-화상(240)이 또한 중단될 것이다. 그러나, P-화상(220) 및 B-화상(240)은 인접하지 않다. 따라서, 이는 두 개의 연속된 그룹 중단이 발생하며, 각각은 단지 하나의 화상만을 포함한다. 제 1 그룹 중단은 P-화상(220)을 포함한다. 제 2 그룹 중단은 B-화상(240)을 포함한다.

- P-화상(230)이 중단된다면, B-화상(240)은, B-화상(240)이 P-화상(230)으로부터 의존하기 때문에, 또한 중단될 것이다. 이는 두 개의 화상을 포함하는 하나의 연속된 그룹 중단이 될 것이다.

- B-화상(240)이 중단된다면, 단지 B-화상(240)은, 다른 화상이ㅣ B-화상(240)으로부터 의존하기 때문에, 중단된다. 이는 단지 1개의 화상을 포함하는 하나의 연속된 그룹 중단이 될 것이다.

따라서, “스킵에 의한 프리징”의 경우에, 왜곡된 비디오 시퀀스는 적어도 하나의 그룹 중단을 포함한다고 결론을 내릴 수 있다. 적어도 하나의 전형적인 “스킵에 의한 프리징”구현에서, 모든 그룹의 중단은 디스플레이 시퀀스에서 마지막으로 정확하게 수신된 화상에 의해 중단 및 대체되는 하나 이상의 연속(인접)된 화상을 포함한다. 결과적으로, 시청자는, 비디오가 일정 시간 동안에 중단하면서, 마지막으로 정확하게 수신된 화상이 그룹 중단에 대응하는 화상 시간(들) 동안 디스플레이에 남아 있고, 비디오가 이후 복구한다는 것을 통상적으로 인식할 수 있다. 왜곡된 비디오 시퀀스에 대한 전체 디스플레이 시간은, 원래의 (비-왜곡된) 비디오 시퀀스에 대한 전체 디스플레이 시간에 비해, 변경되지 않는다.

아래에 더 논의되는 알고리즘은 “프리징”(“스킵”에 의해 또는 “스킵”없이) 왜곡의 영향을 평가하기 위한 적어도 하나의 구현 및 솔루션을 제공한다. 하나의 특정 구현에 있어서, 아래의 알고리즘은 “스킵에 의한 프리징”에 의한 전반적인 저하 및 왜곡된 비디오의 전반적인 품질을 평가한다.

도 3은 “스킵에 의한 프리징”이 발생할 때 오브젝트의 움직임 궤적의 한 구현의 예를 도시한다. 도 3에 있어서, 오브젝트의 위치는 y-축으로 주어지고, 시간은 x-축으로 주어진다. 관찰된 오브젝트는 오브젝트가 갑자기 움직임을 중지하는 지점(A)에서 “스킵에 의한 프리징”이 발생할 때까지 부드럽게 이동한다. 갑작스러운 정지는 지점(A)에서 지점(C)까지 연장하는 기간(B)의 시간 동안 일정하게 남아있는 오브젝트의 위치에 의해 도 3에서 설명된다. 전체 기간(B) 동안, 오브젝트는 정적(즉, 오브젝트 위치는 이동하지 않음)으로 남아있다. 이때, 지점(C)에서, 오브젝트는 이동을 다시 시작한다.

도 4는 "스킵 없이 프리징" 이 발생할 때 오브젝트의 움직임 궤적의 한 구현의 예를 도시한다. 관찰된 오브젝트는 도 3의 "스킵에 의한 프리징" 경우와 유사한 초기 궤도를 경험한다. 관찰된 오브젝트는 오브젝트가 갑자기 움직임을 중지하는 지점(A)에서 “스킵 없이 프리징”이 발생할 때까지 부드럽게 이동한다. 도 3의 궤적과 같이, 갑작스러운 정지는 지점(A)에서 지점(C)까지 연장하는 기간(B)의 시간 동안 일정하게 남아있는 오브젝트의 위치에 의해 도 4에서 설명된다. 전체 기간(B) 동안, 오브젝트는 정적(즉, 오브젝트 위치는 이동하지 않음)으로 남아있다. 이때, 지점(C)에서, 오브젝트는 이동을 다시 시작한다.

도 3의 "스킵에 의한 프리징" 경우에 있어서, 기간(B) 이후에, 오브젝트는 위치(C)에서 새로운 위치(C')로 바로 점프한다. 대조적으로, 도 4의 "스킵 없이 프리징" 경우에 있어서, 오브젝트는 위치(C)에서 그 움직임 궤적을 다시 시작한다. 이때, 위치(C)와 연관된 시간에서 도 3 및 도 4의 궤적들 사이에서 차이가 발생한다.

도 3과 도 4 사이의 차이를 개념화하는 다른 방법이 제공된다. 이 개념화에 있어서, 기간(B)에서 도 3의 "스킵에 의한 프리징" 의 경우와 "스킵 없이 프리징"의 경우 사이에 차이가 존재한다. 도 3의 "스킵에 의한 프리징" 경우에 있어서, 관찰된 오브젝트는 그 움직임이 특정 문제(예를 들어, 중단된 화상)로 인하여 전체 기간(B) 동안 시청자에 의해 관찰될 수 없다 할지라도 실제로 이동을 유지하는 것으로 고려될 수 있다. 이때, 지점(C)에서, 문제가 해결될 때(예를 들어, 중단된 화상에 대한 시간 기간이 초과하기 때문), 시청자는 오브젝트가 위치(C)에서 새로운 위치(C')로 즉시 점프하는 것을 관찰한다. 이 개념화에 있어서, 오브젝트는 새로운 위치(C')로 점프하고, 따라서, 기간(B) 동안 그 새로운 위치(C')를 향해 이동한 것으로 추정된다. 대조적으로, 도 4의 "스킵 없이 프리징" 경우에 있어서, 관찰된 오브젝트는 기간(B) 동안 실제로 정적인 상태를 유지하고(시청자에 의해 관찰되기 때문), 따라서, 시청자가 관찰하는 것이 사실이다.

"스킵에 의한 프리징"이 발생할 때, 이전에 간단히 설명한 것처럼, 일반적으로 3가지 상이한 유형의 왜곡이 시청자에 의해 관찰된다. 이들 각각을 아래에 설명한다.

첫 번째로, 지점(A)에서, 사람의 두뇌는 지점(A) 이전에 존재하는 움직임 궤적을 따르도록 여전히 시도하며, 사람의 눈은 오브젝트가 지점(A)에서 및 이후에 정적이 되는 것을 주목한다. 따라서, 사람의 두뇌는 움직임 궤적의 자신의 연장과 움직임 정지가 발생했던 눈의 신호로부터 일치하지 않는 입력을 수신한다. 이 불일치를 해결하기 위하여, 사람의 두뇌는 사람의 두뇌와 사람의 눈을 동기화하는 더 많은 에너지를 소비한다. 이 효과는 인지 시각 시스템("HVS")에 의해 발생되고, 일반적으로 "저키(jerky)"(또는 "저크(jerk")) 효과라고 한다. 저키 효과는 그것이 결합될 때 일반적으로 매우 성가시지만, 단일 발생의 경우 성가시지 않거나 분명하다.

상기 설명에서 명확한 것처럼, "저키" 효과는 저크에 관련이 있거나, 화상이 초기에 반복될 때(즉, 프리즈가 처음 발생할 때) 발생하는 이동에서 중지한다. 저키는 프리즈 등으로 발생하고, "스킵에 의한 프리즈" 및 "스킵 없이 프리즈" 모두 보여진다. 저키 효과는 사람의 두뇌가 화상의 시퀀스의 움직임 궤적에 따르도록 시도하기 때문에 야기된다. 그러나, 화상의 시퀀스는 프리징되고, 궤적이 인위적으로 및 예측 없이 정지된다. 이러한 예측되지 않은 정지는 움직임에서 저크로 지칭되고, 사람의 두뇌는 움직임에서 저크를 주목하고 처리하는 에너지를 소비한다. 이러한 에너지의 소비 및 연관된 처리는 일반적으로 화상의 시퀀스를 시청하는 바람직하지 않은 관점으로서 등록한다. 이에 따라, 움직임에 있어 저크는 왜곡 및 화상의 시퀀스의 품질을 저하시키는 것으로 간주된다.

두 번째로, 기간(B) 동안, 시청자는 오브젝트가 이동을 중지하는 것을 관찰한다. 이 효과는 일반적으로 "일시 정지" (또는 "중지") 효과로서 지칭한다.

세 번째로, 지점(C)에서, 시청자는 오브젝트가 다른 위치로 즉시 점프하는 것을 관찰한다. 이 효과는 일반적으로 “점핑”(또는 “점프”) 효과로 지칭한다. 상기 설명으로부터 명백한 것처럼, "점핑" 효과는 화상의 내용이 바로 다음의 화상의 다른 위치로 점프할 때 움직임의 점프에 관련이 있다. 이는, 예를 들어, 프리즈 이후의 화상이 디스플레이될 때 “스킵” 동안에 발생한다. 일반적으로, 중지된 화상은 이전에 디스플레이된 화상(프로즌 화상 이전의 화상)에 대해서 그리고 서로에 대해서 움직임을 나타낸다. 따라서, 화상이 중단되지 않았다면, 중지된 화상 이후에 발생하는 화상으로 중단된 화상에 걸쳐 움직임 궤적이 존재할 것이다. 그러나, 프리즈가 발생할 때, 중단된 화상의 바로 뒤따르는 화상은 중단된 화상의 모두로부터 누적된 움직임을 나타낼 것이다. 이러한 누적된 움직임은 일반적으로 움직임에서 점프로서 경험할 것이다.

"스킵 없이 프리징"이 발생할 때, 일반적으로, 상기 왜곡 효과 중 단지 2개가 시청자에 의해 관찰된다. 이들은 "저키" 효과, 및 "일시 정지" 효과이다. 도 3의 "스킵에 의한 프리징" 경우에 반해서, 도 4의 지점(C)에서는 “점핑” 효과가 관찰되지 않는다.

본 발명자들은 "스킵에 의한 프리징" 이벤트 및 "스킵 없이 프리징" 이벤트가 비디오 저하의 "원인"이며, 이 결과로서 시청자에 의해 예측된 왜곡임을 결정했다. 또한, 발명자들은 저크, 일시 정지, 및 점프가 ("스킵에 의한 프리징" 및 "스킵 없이 프리징" 이벤트의) "효과"이고, 이러한 효과는 시청자가 왜곡으로서 실제로 인식한다는 것을 결정했다.

공통의 해법은 일반적으로 "원인"-기반 프레임워크를 사용한다. 원인-기반 프레임워크에 있어서, 왜곡은 일반적으로 "스킵에 의한 프리징" 또는 "스킵 없이 프리징"의 모든 발생에 대해 평가된다.

그러나, 본 발명자들은 적어도 다양한 상이한 응용 및 환경에 있어서, "효과"-기반 프레임워크가 보다 합리적인 해결이고, 보다 나은 결과를 제공할 것으로 기대된다고 결정했다. 이에 따라, 본 응용에서 적어도 하나의 구현에 있어서, 품질 및/또는 왜곡을 결정하기 위한 효과-기반 프레임워크가 제공된다. 이러한 결정에 대한 일부 다른 의견은 아래에 제공된다.

첫 번째, 시청자는 “원인”보다는 “효과”를 인식하는 것으로 보인다. 일반 시청자는 시청자들이 관찰하는 현상의 “원인”을 이해하는 것으로 보이지 않는다. 통상적으로, 시청자들은 비디오가 예를 들어, "너무 빈번한 저크", "너무 긴 일시 정지", 또는 "너무 많은 점프"에 의해 영향을 받는다는 것을 발견할 것이다. 사람의 두뇌는 당연히 특정 형태의 효과에 관한 정보를 수집할 것이다. 따라서, 시청자는 일반적으로 품질 인식을 식별하는 동안 각각의 특정 유형의 효과에 대한 정보를 개별적으로 수집할 것이다. 따라서, 예를 들어, 정보를 수집한 후에, 시청자는 하나 이상의 유형의 효과의 누적 평가 측면에서 품질 인식을 표현할 수 있다. 이는, 예를 들어, "너무 빈번한 저크", "너무 긴 일시 정지", 및 "너무 많은 점프"의 구문들에 의해 볼 수 있다. 이들 구문의 각각은 특정 유형의 효과의 다수의 발생에 대한 정보의 결합(또한, 넓게는 축적이라 함)에 기초한 인식을 반영한다.

두 번째로, 상이한 "원인"은 종종 동일한 종류의 “효과”를 소개한다. 예를 들어, "스킵에 의한 프리징" 및 "스킵 없이 프리징" 원인 모두는 "일시 정지" 효과를 소개할 것이다. 이들 "원인"이 동일한 비디오 시퀀스에 나타날 때, 상이한 "원인"에 의해 소개된 "효과"는 함께 혼합되어 시청자에 의해 식별될 수 없다. 따라서, 예를 들어, 시청자는 일반적으로 "스킵 없이 프리징"으로부터 발생하는 "일시 정지" (예를 들어)와 "스킵에 의한 프리징"으로부터 발생하는 "일시 정지"를 시청자의 마음에 따라 분리할 수 없다. 따라서, 이러한 상황에서, 일반적으로 “원인”보다는 “효과”에 집중하는 것이 더 유용하다.

세 번째로, 일반적인 "효과"는 한 번 이상 발생할 것이다. 효과의 다수의 발생은 일반적으로 “효과”의 모든 발생을 고려하는 시청자의 인식을 평가하는 “풀링 전략”을 사용하여 결합될 것이다. 그러나, 본 발명자들은 상이한 “효과”를 상이한 풀링 전략으로 지칭하는 것으로 결정했다. 이러한 목적을 위해, “효과” 기반 프레임워크가 사용된다.

2. 왜곡/품질 평가

본 응용에 있어서, 예를 들어, 한 특정 윈도우 사이즈에서 스킵에 의한 또는 스킵 없이 “프리징”에 대한 비디오 품질 평가를 제공하는 다양한 구현을 제안한다. 윈도우 사이즈의 예로서, P.NBAMS는 표준 기구이며, 이는 "비디오 스트리밍의 성능 평가에 대한 비-침입 비트 스트림 모델" (특히, 스터디 그룹 12 질문 14(SG12/Q14)에 관련하여)을 다루며, 관련된 표준은 10 초의 윈도우 사이즈를 필요로 한다. 이러한 모델이 여러 구현에서 다양한 상이한 윈도우에 적용된다. 예를 들어, 이 모델은, 특정 구현에 있어서, 관심의 어떤 및 모든 윈도우의 지정에 있어 완전한 입도(granularity)를 허용하도록 관심의 고립 및 분리된 윈도우, 비디오 전체의 연속된 윈도우, 또는 중복되는 윈도우에 적용된다.

전형적인 응용에 있어서, 윈도우 사이즈는 시간 기간 이후에 사건을 잊는 사람의 두뇌의 관찰된 경향을 모델링하는 사람 기억(human memory)의 모델의 일부로서 선택된다. 이에 따라, 많은 구현은 다수의 윈도우에 걸쳐 또는 보다 큰 윈도우에 걸쳐 풀링 전략을 사용하지 않는다. 그럼에도 불구하고, 특정 응용에 있어서, 윈도우 사이즈보다 더 긴 비디오에 대해서, 풀링 전략이 최종 결과를 얻기 위해 적용된다. 여러 구현은 윈도우와 함께 설명한 아래에 기재된 하나 이상의 풀링 솔루션을 다수의 윈도우 또는 확장된 윈도우 사이즈까지 확장한다. 그러나, 다른 구현은 더 먼 원격 왜곡 이벤트에서 기여를 감쇠시킨다.

아래의 설명에 들어가기 전에, 아래에 설명된 적어도 하나의 구현에 대한 맥락의 일부 관점을 요약한다. 아래의 설명에 있어서, 짧은 비디오(예를 들어, 10 초)는, 예를 들어 "스킵에 의한 프리징" 또는 "스킵 없이 프리징"의 하나 이상의 발생에 의해 저하된다. "스킵에 의한 프리징" 구현에 있어서, 비디오의 하나 이상의 그룹 중단이 존재한다. 각각의 그룹 중단에 있어서, 하나 이상의 연속된 화상은 중단되어 마지막으로 정확하게 수신된 화상으로 대체된다. "스킵 없이 프리징" 구현에 있어서, "스킵 없이 프리징" 발생은 예를 들어, 버퍼 언더플로로 인하여 예를 들어 하나 이상의 그룹 지연으로부터 야기된다. 아래의 설명된 평가 모델은, 특정 구현에 있어서, 예를 들어, 손실 패킷, 중단된 화상, 또는 버퍼 언더플로에 관해 사용될 수 있는 정보를 갖는 수신기 또는 디코더에서 적용된다. 그러나, 여러 다른 구현은, 본 응용에서 이후에 설명되는 것처럼, 전형적인 통신 시스템에서 다른 지점에서, 모델 또는 모델의 변형을 사용한다.

3. 효과 기반 프레임워크

도 5를 참조하면, 프레임워크(500)가 효과-기반 품질 평가 프레임워크의 구현을 위해 제공된다. 프레임워크(500)는 비트-스트림 계층의 적어도 시간적 품질 평가에 적용될 수 있다. 프레임워크(500)는, 여러 구현에 있어서, 화상의 특정 윈도우의 화상, 다수의 윈도우를 포함하는 비디오 시퀀스의 화상, 또는 다수의 비디오 시퀀스를 포함하는 전체 비디오에 적용된다. 또한, 도 5는, 왜곡 및/또는 품질을 결정하는 시스템 또는 장치의 블록도를 제공하는 것과 함께, 왜곡 및/또는 품질을 결정하는 프로세스의 흐름도를 제공한다는 것이 자명하다.

먼저, 입력 비트-스트림은 비트-스트림 분석 모듈(505)을 통과하며, 여기서, 비트-스트림이 분석되고, 왜곡을 소개할 수 있는 모든 "원인"(예를 들어, "스킵에 의한 프리징", 또는 "스킵 없이 프리징"의 발생)이 표시된다. 비트-스트림 분석 모듈(505)은, 예를 들어, 입력 비트 스트림을 비트-스트림분석 모듈(505)에 저장된 템플릿 또는 파라미터와 비교함으로써, 원인을 식별할 수 있다.

한 구현에 있어서, 비트-스트림 분석 모듈(505)은 손실 패킷에 대한 비트 스트림을 검사한다. 여러 구현에 있어서, (i) 패킷의 헤더 내의 패킷 카운트 필드가 특정 카운트를 스킵하거나 시퀀스로 증가하지 않는 것을 주목함으로써, (ii) 고장난 패킷이 수신된 이후 및/또는 재전송의 요청이 응답된 이후에도 패킷 카운트 문제가 바로 언급된 것을 주목함으로써, 또는, 패킷이 손상된 경우를 결정하는 순환 중복 검사 또는 다른 에러-제어 측정을 단순히 검사함으로써, 패킷이 손실로서 식별된다. 다른 구현은 비트-스트림분석 모듈(505) 이전의 모듈에서 손실되는 것으로 패킷을 식별하고 그와 같은 결정을 비트-스트림분석 모듈(505)에 제공한다.

보다 일반적으로, 다양한 구현에 있어서, 비트-스트림분석 모듈(505)로의 입력은 수신된 비트스트림이며, 그 출력은 원인(예를 들어, "원인 1 ", 또는 "스킵에 의한 프리징")의 식별, 및 "원인"의 파라미터이다. "스킵에 의한 프리징"에 있어서, 예를 들어, "원인"으로서, 한 구현의 파라미터들은 왜곡 및/또는 품질을 결정하는데 사용되는 프리즈의 시작점, 프리즈의 길이, 및 움직임 벡터(또는 움직임 벡터 정보)이다.

다른 구현에 있어서, 전-처리 모듈은 버퍼 언더플로 및 언더플로의 길이를 식별하여 이 정보를 입력에서 비트-스트림분석 모듈(505)에 전달한다. 이때, 비트-스트림분석 모듈(505)은 입력 정보를 "스킵 없이 프리징"에 대한 템플릿과 비교하여 발생했음을 식별한다. 이러한 식별 이후에, 비트-스트림분석 모듈(505)은, 왜곡 및/또는 품질을 결정하는 데 사용되는 프리즈의 시작점, 프리즈의 길이, 및 움직임 벡터(또는 움직임 벡터 정보)를 포함하는 파라미터와 함께, "스킵 없이 프리징"이 발생했다는 식별을 포함하는 출력을 제공한다.

비트-스트림분석 모듈(505)에 의해 식별되는 각각의 “원인”은 그 특정 원인을 위한 원인 분석 모듈에 전송된다. 도 5는 제 1 원인에 대한 원인 1 분석 모듈(512), 제 2 원인에 대한 원인 2 분석 모듈(514), 어떤 주어진 응용 또는 구현에 대한 많은 다른 원인이 있을 수 있는 것을 나타내는 플레이스홀더 원인 분석 모듈(516), 및 임의의 주어진 응용 또는 구현에 대한 마지막 원인(M 번째 원인)에 대한 원인 M 분석 모듈(518)을 포함하는 4개의 원인 분석 모듈을 도시한다.

비트-스트림 분석 모듈(505)은 여러 상이한 정보를 원인 분석 모듈에 보낼 수 있다. 한 특정 구현에 있어서, 원인 1은 "스킵에 의한 프리징"이며, 원인 1 분석 모듈(512)은 원인 1 분석 모듈이 스킵되는 화상을 식별하도록 하는 정보를 수신한다. 이러한 여러 구현에 있어서, 수신된 정보는, 예를 들어, (i)스킵된 화상의 리스트, (ii) 제 1 스킵된 화상 및 프리즈의 길이의 표시, 또는 (iii) 제 1 스킵된 화상 및 마지막 스킵된 화상의 표시를 포함한다.

특정 구현에 있어서, 원인 2는 "스킵 없이 프리징"이다. 이에 따라, 원인 2 분석 모듈(514)은 원인 2 분석 모듈이 프리즈의 길이를 식별하도록 하는 정보를 수신한다. 여러 구현에 있어서, 수신된 정보는, 예를 들어, 프리즈 되어야 하는 화상의 표시와 프리즈 되어야 하는 화상의 시간의 양의 표시를 포함한다. 다른 구현에 있어서, 프리즈 되는 화상은 마지막으로 정확하게 수신된 화상으로서 암시적으로 결정되고, 수신된 정보는, 예를 들어, 화상이 프리즈 되어야 하는 시간의 양의 표시만을 포함한다.

도 5의 구현에 있어서, 원인 분석 모듈(512-518)은 각각의 원인에 의해 소개되는 모든 있을 수 있는 “효과”를 제공한다. 이들 “효과”는 효과 스위칭 모듈(520)에 제공된다. 전형적인 구현에 있어서, 이는 적어도 2개의 기능을 수행하는 원인 분석 모듈(512-518)을 포함한다. 제 1 기능은 원인에 의해 소개되는 효과를 결정하기 위한 것이다. 제 2 기능은 효과의 왜곡 및/또는 품질이 결정될 수 있도록 이들 효과를 기술하는 정보를 제공하기 위한 것이다.

제 1 기능은, 적어도 일부 구현에 있어서, 주어진 원인과 관련된 효과의 리스트를 참조하여 실행된다. 많은 원인 분석 모듈에 있어서, 리스트는 전형적으로 정적을 유지할 것이다. 예를 들어, 원인 1이 "스킵에 의한 프리징"인 특정 구현에 있어서, 원인 1 분석 모듈(512)은 "스킵에 의한 프리징"으로부터 전형적으로 발생하는 3가지 효과의 리스트를 유지한다. 이들 3가지 효과는 저키 효과, 일시 정지 효과 및 점핑 효과이다. 부가적으로, 원인 2가 "스킵 없이 프리징"인 상기 특정 구현에 있어서, 원인 2 분석 모듈(514)은 "스킵 없이 프리징"으로부터 전형적으로 발생하는 2가지 효과의 리스트를 유지한다. 이들 2가지 효과는 저키 효과 및 일시 정지 효과이다.

제 2 기능은, 적어도 일부 구현에 있어서, 효과를 설명하는 파라미터의 세트를 제공함으로써, 실행된다. 예를 들어, 원인 1이 "스킵에 의한 프리징"인 상기 특정 구현에 있어서, 원인 1 분석 모듈(512)은 저키 효과, 일시 정지 효과 및 점핑 효과의 왜곡 및/또는 품질이 결정되도록 하는 출력 정보로서 제공한다. 부가적으로, 원인 2가 "스킵 없이 프리징"인 상기 특정 구현에 있어서, 원인 2 분석 모듈(514)은 저키 효과 및 점핑 효과의 왜곡 및/또는 품질이 결정되도록 하는 출력 정보로서 제공한다.

효과 스위칭 모듈(520)은 여러 원인 분석 모듈(512-518)로부터 효과 정보를 수신한다. 이때, 효과 스위칭 모듈(520)은 그 효과에 대한 왜곡 및/또는 품질을 결정하는 대응하는 효과 추정 모듈로 유도한다. 도 5는 제 1 효과를 위한 효과 1 추정 모듈(532), 제 2 효과를 위한 효과 2 추정 모듈(534), 어떤 주어진 응용 또는 구현을 위한 많은 다른 효과가 있을 수 있다는 것을 나타내는 플레이스홀더 효과 추정 모듈(536), 및 마지막 효과를 위한 효과 M 추정 모듈(538)을 도시한다. 이 마지막 효과는 M 번째 효과로서 일반적으로 지칭되지만, 일반적으로 원인의 수가 효과의 수와 동일하지 않기 때문에, 모듈(538)의 "M"은 일반적으로 모듈(518)의 "M"과는 다른 수가 된다.

원인 1이 "스킵에 의한 프리징"이고, 원인 2가 "스킵 없이 프리징"인 상기 설명한 특정 구현을 다시 고려한다. 이 특정 구현에 있어서, 효과 1은 저키 효과이고, 효과 2는 일시 정지 효과이며, 효과 3은 점핑 효과이다.

따라서, 효과 스위칭 모듈(520)은 저키 효과 정보를 원인 1 분석 모듈(512) 및 원인 2 분석 모듈(514)(뿐만 아니라 모든 다른 원인 분석 모듈)로부터 효과 1 추정 모듈(532)로 전송한다. 이때, 효과 1 추정 모듈은 저키 효과의 각각의 발생에 대한 왜곡 및/또는 품질, 예를 들어, "스킵에 의한 프리징" 또는 "스킵 없이 프리징"에 기인하는지의 여부를 결정(예를 들어, 평가에 의해)한다.

유사하게, 효과 스위칭 모듈(520)은 일시 정지 효과 정보를 원인 1 분석 모듈(512) 및 원인 2 분석 모듈(514)(뿐만 아니라, 모든 다른 원인 분석 모듈)로부터 효과 2 추정 모듈(534)에 전송한다. 이때, 효과 2 추정 모듈(534)은 일시 정지 효과의 각각의 발생에 대한 왜곡 및/또는 품질, 예를 들어, "스킵에 의한 프리징" 또는 "스킵 없이 프리징"에 기인하는지의 여부를 결정(예를 들어, 평가에 의해)한다.

유사하게, 효과 스위칭 모듈(520)은 점핑 효과 정보를 원인 1 분석 모듈(512) 및 원인 2 분석 모듈(514)(뿐만 아니라, 모든 다른 원인 분석 모듈)로부터 효과 M 추정 모듈(538)(점핑 효과 추정 모듈로 간주)에 전송한다. 이때, 효과 M 추정 모듈(538)은 점핑 효과의 각각의 발생에 대한 왜곡 및/또는 품질, 예를 들어, "스킵에 의한 프리징" 또는 "스킵 없이 프리징"에 기인하는지의 여부를 결정(예를 들어, 평가에 의해)한다.

적어도 한 구현에 있어서, 효과 추정 모듈(532-538)은 [0, 1]의 범위 내에 있는 "효과"의 모든 유형에 대한 왜곡 레벨을 정규화하며, 이는 왜곡이 엔드 포인트를 포함하여 0과 1 사이의 값을 갖도록 허용한다. 이 범위에서, 0은 최저 왜곡 레벨(최고 품질 레벨)이고, 1은 최고 왜곡 레벨(최저 품질 레벨)이다.

여러 효과 추정 모듈(532-538)은 왜곡 정보를 대응하는 효과 풀링 모듈에 제공한다. 도 5는 왜곡 정보를 효과 1 추정 모듈(532)로부터 수신하는 효과 1 풀링 모듈(542)을 포함한다. 도 5는 왜곡 정보를 효과 2 추정 모듈(534)로부터 수신하는 효과 2 풀링 모듈(544)을 포함한다. 도 5는 어떤 주어진 응용 또는 구현에 있어 다수의 다른 효과들이 있을 수 있음을 나타내는 왜곡 정보를 플레이스홀더 효과 추정 모듈(536)로부터 수신하는 플레이스홀더 효과 풀링 모듈(546)을 포함한다. 도 5는 왜곡 정보를 효과 M 추정 모듈(538)로부터 수신하는 효과 M 풀링 모듈(548)을 포함한다. 효과 풀링 모듈(542-548)에 제공되는 왜곡 정보는, 여러 구현에 있어서, 왜곡 값 및/또는 품질 값들을 포함한다.

효과 풀링 모듈(542-548)은 전체 왜곡 (또는 품질) 레벨을 제공하기 위한 동일한 유형의 “효과”의 모든 발생을 함께 수집한다. 일반적으로, 효과 풀링 모듈(542-548)의 목적은 주어진 유형의 "효과"의 모든 발생을 관찰한 이후에 시청자의 인식(왜곡의 인식 또는 품질의 인식)을 추정하기 위한 것이다. 이에 따라, 효과 풀링 모듈(542-548)로부터의 주어진 효과 풀링 모듈은 주어진 유형의 "효과"의 모든 발생의 왜곡 레벨을 입력으로서 수신한다. 적어도 한 구현에 있어서, 임의의 형태의 "효과"의 전체 왜곡 레벨은 또한 [0, 1]의 범위로 정규화된다.

각각의 유형의 효과에 대한 전체 왜곡은 효과 풀링 모듈(542-548)에 의해 전체 풀링 모듈(550)에 제공된다. 전체 풀링 모듈(550)은 모든 상이한 유형의 "효과"를 비디오의 전체 왜곡 레벨로 결합하는 풀링 전략을 사용한다. 전체 풀링 모듈(550)에 의해 사용되는 풀링 전략은 하나 이상의 효과 풀링 전략(542-548)에 의해 사용되는 풀링 전략과 상이하거나 동일할 수 있다. 적어도 한 구현에 있어서, 전체 풀링 모듈(550)은 비디오의 전체 왜곡 레벨을 [0, 1 ]의 범위로 정규화한다.

프레임워크(500)는, 이전에 언급한 것처럼, 하나 이상의 구현에서 윈도우 단위(window-by-window basis)로 적용된다. 이러한 구현에 있어서, 효과 풀링 모듈(542-548)은 윈도우를 분리하기 위한 게이트키퍼(gatekeeper)로서 역할을 한다. 효과 풀링 모듈(542-548)은 다양한 효과에 대한 왜곡을 풀링 하는 시간 기간을 결정하는 윈도우 사이즈를 나타내는 정보를 사용한다. 이때, 효과 풀링 모듈(542-548)은 전체 풀링 모듈(550)에 비디오 내의 각각의 연속된 윈도우에 대해 풀링된 왜곡 값을 제공한다. 따라서, 전체 풀링 모듈(550)은 각각의 효과에 대한 윈도우-기반 왜곡 값을 풀링하여 비디오 내의 각각의 연속된 윈도우에 대한 풀링된 전체 왜곡 값을 제공한다.

상기 윈도우 단위 구현에 있어서, 위도우 사이즈를 나타내는 정보는 여러 구현에 있어 상이한 메커니즘에 의해 효과 풀링 모듈(542-548)에 제공된다. 예를 들어, 여러 구현에 있어서, 정보는 (i) 비-가변 상수로서 효과 풀링 모듈(542-548)에 내장되고, (ii) 사용자 인터페이스를 사용하여 시스템 구성 동안 효과 풀링 모듈에 공급되거나, (iii) 비트-스트림에 공급된다.

따라서, 도 5는 일반적으로 왜곡의 임의의 “원인”에 적용되고, 임의의 대응 “효과”는 왜곡을 야기한다. 지금, 보다 구체적으로 2개의 “원인” 및 대응하는 효과를 고려한다.

4. 프레임워크의 구현

적어도 한 구현에 있어서, 프레임워크(500)는 "스킵에 의한 프리징" 및 "스킵 없이 프리징"의 시간적 이상(abnormalities)을 경험하는 시스템에 적용된다. 이전에 제공된 분석에 따라, "스킵에 의한 프리징" 및 "스킵 없이 프리징"은 2개의 "원인"이 된다. "스킵에 의한 프리징"은 "저키", "일시 정지", 및 "점핑"이 되는 3가지 유형의 “효과”를 소개한다. "스킵 없이 프리징"은 "저키" 및 "일시 정지"인 2가지 유형의 “효과”를 소개한다.

프레임워크(500)를 적용하면, 비트-스트림분석 모듈(505)은 "스킵에 의한 프리징" 및 "스킵 없이 프리징"의 각각의 발생을 식별하여, 적당한 정보를 대응하는 원인 분석 모듈에 제공한다. "스킵에 의한 프리징"에 대한 원인 분석 모듈(예를 들어, 원인 1 분석 모듈(512))은 각각의 "스킵에 의한 프리징" 원인이 하나의 "저키" 효과, 하나의 "일시 정지" 효과, 및 하나의 "점핑" 효과를 제공하는 것을 결정한다. "스킵 없이 프리징"에 대한 원인 분석 모듈(예를 들어, 원인 2 분석 모듈(514))은 각각의 "스킵 없이 프리징" 원인이 하나의 "저키" 효과 및 하나의 "일시 정지" 효과를 소개하는 것을 결정한다. 원인 분석 모듈은 "효과" 정보를 효과 스위칭 모듈(520)에 제공하고, 효과 스위칭 모듈(520)은 효과 정보를 대응하는 효과 추정 모듈에 제공한다.

프레임워크(500)의 다른 응용은 여러 알고리즘, 또는 알고리즘의 가능한 세트를 적용한다. 알고리즘의 제 1 세트는 주어진 효과의 주어진 발생에 대한 왜곡 또는 품질을 결정하는 왜곡 추정 모듈(532-538)에 의해 적용된다. 각각의 효과는 적어도 하나의 구현에서 상이한 왜곡 결정 알고리즘을 갖고, 다른 구현에 있어서 동일한 왜곡 결정 알고리즘을 갖는다.

알고리즘의 제 2 세트는 각각 주어진 효과에 대한 개별 왜곡을 축적하는 효과 풀링 모듈(542-548)에 의해 적용된다. 각각의 효과는 적어도 하나의 구현에서 상이한 왜곡 풀링 알고리즘을 갖고, 다른 구현에 있어서 동일한 왜곡 풀링 알고리즘을 갖는다.

제 3 알고리즘은 상이한 효과 풀링 모듈(542-548)에 의해 공급되는 여러 효과로부터 풀링된 왜곡 값을 축적하는 전체 풀링 모듈(550)에 의해 적용된다. 단일 알고리즘은 적어도 하나의 구현에 사용되고, 다수의 알고리즘은 다른 구현에 사용된다.

또한, 아래에는 3가지 영역을 설명한다. (i) "저키" 효과, "일시 정지" 효과, 및 "점핑" 효과에 대한 왜곡 레벨 추정의 설명, (ii) "저키" 효과, "일시 정지" 효과, 및 "점핑" 효과의 각각에 대한 왜곡 풀링 전략의 설명, 및 (iii) 이들 3가지 효과에 대한 풀링된 왜곡을 결합하기 위한 전체 풀링 전략을 제공한다.

4.1 효과 추정

도 6을 참조하면, 비디오 시퀀스

가 도시되어 있으며, n은 비디오 시퀀스의 화상의 수이고,

은 화상 수(n)에 대한 비디오 화상이다. 도 6에는 또한 "프리징"이 도시되어 있다. "프리징"은, 예를 들어, "스킵에 의한 프리징" 또는 "스킵 없이 프리징"으로부터 발생한다. 프리징은 점선으로 채워진 패턴으로 표시된 6개의 화상의 그룹 동안 발생하는 것으로 도시되어 있다. 프리징의 길이는 용어(len)로 표시된다.

용어(len)는 초 또는 일부 다른 시간 단위로, 그룹 중단의 시간 기간으로서 본 구현에서 표현된 프리즈의 길이(예를 들어, 그룹 중단의 길이)이며, 여기서, 시간 기간은 비-디스플레이된 화상이 디스플레이된 시간의 길이가 된다. 다른 구현에 있어서, 용어(len)는 화상의 단위로 표시된다.

도 6에 있어서, 프리즈 이전에 마지막으로 정확하게 디스플레이된 화상인 화상(

)(첨자 "b"는 "이전"을 의미)이 도시되어 있다. 즉, 화상은 프로즌(frozen)에 의해 얻은 화상은

이다. 도 6에는 프리즈 이후에 처음으로 정확하게 디스플레이된 화상인 화상(

)(첨자 "a"는 "이후"를 의미)이 또한 도시되어 있다. 비록, 프로즌 화상이 화상(

)이지만, "프리징"으로 지칭된 기간이 화상(

)의 초기 디스플레이를 포함하지 않는다는 것은 명백하다(크로스 해칭되어 채워진 패턴으로 도시). 오히려, "프리징"은 화상(

)의 적당한 디스플레이 이후에 발행하는 기간을 의미하며, 그 기간 동안, 화상(

)은 다음 화상이 디스플레이 되어야 하는 디스플레이 시간 동안 디스플레이에 남아 있다.

저키 효과, 일시 정지 효과, 및 점핑 효과의 왜곡은 도 6의 명명법에 기초하여 추정될 수 있다. 적어도 하나의 구현에서 식은 다음과 같다.

저키 효과의 왜곡 레벨은

로 지정되어 있다. 한 구현에 있어서, 저키 효과 왜곡은 주로 화상(

)에서 움직임 레벨로 정의된다. 이에 따라, 본 구현에 있어서, 다음과 같은 단일 프리즈에 대한 저키 효과 왜곡을 정의한다.

상기 식에 있어서, mv(

)는 비-제로 움직임 벡터를 갖는 화상(

)의 모든 매크로-블록 중 평균 움직임 벡터이다. M은 움직임 벡터의 최대값으로서 정의된 상수이다. 상수(M)는 범위 [0, 1]로

<저키> 의 값을 정규화하기 위해 사용된다.

한 구현에 있어서, 정규화는 mv가 보통 32 보다 크지 않아야 한다는 사실에 기초한다. 이에 따라, 이 구현에 있어서, 정규화는 mv를 64로 나눔으로써 성취되고, 그 결과가 1보다 크다면, 정규화된 mv는 1로 설정된다.

다시 프레임워크(500)를 참조하면, 한 구현에 있어서, 저키 효과에 대한 효과 추정 모듈(예를 들어, 효과 1 추정 모듈(532))은 상기 식을

에 적용한다. 본 구현의 변형에 있어서, 움직임 벡터 정보를 액세스하는 저키 효과 추정 모듈은 다음과 같다.

- 한 변형에 있어서, 화상(

)에 대한 디코딩된 움직임 벡터 정보 및 최대값(M)이 저키 효과 추정 모듈에 제공된다. 이 데이터는, 예를 들어 테이블, 또는 테이블에 대한 포인터를 사용하여 제공된다. 테이블 또는 포인터는 예를 들어, 원인 분석 모듈(512-518) 및 효과 스위칭 모듈(520)을 통해, 효과 추정 모듈(532-538)에 제공된다.

- 다른 변형에 있어서, 평균 움직임 벡터 값은 화상 데이터의 어떠한 디코딩도 필요하지 않도록 메타데이터로서 제공된다. 또한, 최대값(M)은 시스템 셋업 절차 동안 설정되거나, 메타데이터로서 또한 제공된다. 메타데이터는, 예를 들어, 원인 분석 모듈(512-518) 및 효과 스위칭 모듈(520)을 통해, 효과 추정 모듈(532-538)에 제공된다.

일시 정지 효과의 왜곡 레벨은

로서 지정된다. 한 구현에 있어서, 일시 정지 효과 왜곡은 용어(n)에 의해 식별되는 "일시 정지"의 길이에 주로 의존한다.

에 대해서 상기 설명한 것처럼, 용어(len)는 화상(

)과 함께 화상 디스플레이가 일시 정지되는 기간(즉, 프로즌)을 식별한다. 여러 구현에 있어서, "일시 정지" 효과의 왜곡 레벨은 len = 0일 때, 제로의 최소값을 갖고, len = +∞일 때 1의 최대값을 갖는다. 이에 따라, 이들 구현에 있어서, 단일 프리즈에 대한 일시 정지 효과 왜곡은 다음과 같이 정의한다.

상기 식에 있어서, c₁은 상수이다. 왜곡은 "len"이 크다면 1에 가깝게 되고, "len"가 작다면 0에 가깝게 될 것이다. 상수(c₁)는 "len"의 영향을 조정하여, c₁이 작다면 1에 가까운 왜곡 값을 제공하고, c₁이 크다면 0에 가까운 왜곡 값을 제공한다. 한 구현에 있어서, c₁의 값은 1로 설정된다. 상수(c₁)는, 여러 구현에서, 예를 들어, 모든 시청자 또는 단일 시청자에 적용하기 위해 설정된다. 예를 들어, 짧은 "일시 정지" 효과만을 견디는 조급한 시청자(또는 조급할 것으로 예측되는 대상의 시청자)에게는, 한 구현에 있어서, 보다 긴 "일시 정지" 효과를 견디는 보다 참을성이 있는 시청자(또는 보다 참을성이 있는 것으로 예측되는 대상의 시청자)보다 c₁의 상이한 값이 제공된다.

다시 프레임워크(500)를 참조하면, 한 구현에 있어서, 일시 정지 효과에 대한 효과 추정 모듈(예를 드렁, 효과 2 추정 모듈(534))은

에 상기 식을 적용한다. 본 구현의 변형에 있어서, 다음과 같은 len 및 c₁을 액세스하는 일시 정지 효과 추정 모듈이 제공된다.

- 한 변형에 있어서, 일시 정지의 길이는 비트-스트림분석 모듈(505)에 의해 결정되고, 예를 들어, 테이블 또는 테이블에 대한 포인트를 사용하여 제공된다. 테이블 또는 포인트는, 예를 들어, 원인 분석 모듈(512-518) 및 효과 스위칭 모듈(520)을 통해, 효과 추정 모듈(532-538)에 제공된다. 비트-스트림 분석 모듈(505)은 일시 정지의 길이를 결정하거나, 디코더 또는 파서에 의해 그 정보를 제공한다.

- 여러 구현에 있어서, c₁의 값은, (i) 미리 고정되어 수신기에 전달할 필요가 없고, (ii) 사용자에 의해 시스템 구성 동안 수신기에서 설정되거나, (iii) 송신측에서 결정되어 메타데이터의 디코딩을 요청하는 메타데이터로서 수신기에 전송된다. 메타데이터는 예를 들어, 비트-스트림 분석 모듈(505)에 의해 디코딩되고, 예를 들어, 원인 분석 모듈(512-518) 및 효과 스위칭 모듈(520)을 통해, 효과 추정 모듈(532-538)에 제공된다.

점핑 효과의 왜곡 레벨은

로서 지정된다. 점핑 효과 왜곡은 화상(

)과 화상(

) 사이의 차이에 관련된 것으로 모델링될 수 있다. 이에 따라, 여러 구현에 있어서, "점핑" 효과의 왜곡 레벨은 화상(

)과 화상(

) 사이의 차이에 의해 직접 정의된다. 이러한 차이는, 예를 들어, 그리고, 여러 구현에 있어서, 픽셀-와이즈 인텐시티 차이(pixel-wise intensity difference) 또는 평균 픽셀 변위 거리로서 결정된다.

한 구현에 있어서, 픽셀-와이즈 인텐시티 차이는 두 개의 화상에서 모든 픽셀 위치에 대한 인텐시티의 픽셀-와이즈 차이의 절대 값의 평균으로서 계산된다. 이는 적어도 하나의 구현에서 다음과 같이 표현된다.

픽셀-와이즈 인텐시티 차이=

여기서,

W- 화상의 폭,

H- 화상의 높이,

f(x, y)- 화상(f)의 위치(x, y)에서 픽셀의 인덴시티,

- 일시 정지 이후의 화상, 및

- 프리즈된 화상(

)인 화상(

) 이전의 화상이고, 마지막으로 정확하게 수신된 화상.

한 구현에 있어서, 평균 픽셀 변위 거리는 화상(

)에 관련하여 화상(

)에서 픽셀의 평균 움직임으로서 계산될 수 있다. 이는 적어도 한 구현에서 다음과 같이 표현된다.

평균 변위 거리 =

여기서,

MV(x, y) - 화상(

)의 위치(x, y)에서 움직임.

MV는, 예를 들어, 화상(

)에 대한 움직임 벡터, 또는 화상(

)에 대한 옵티컬 플로 계산(optical flow calculation)에 의해 표시될 수 있음을 주목한다.

또한, MV(x, y)는 크기 및 각도를 갖는 벡터인 것을 주목한다.

Mag(MV(x, y)) - 벡터 MV(x, y)의 크기.

coh(MV(

)) - 화상(

)의 MV 값의 간섭의 레벨을 나타내는 정규화된 값. 정규화된 값은 중요한데, 그 이유는 점핑이 발생할 때 일관된 움직임이 노이즈와 비슷한 움직임보다 더 인상적이기 때문이다. 즉, 일관된 움직임에 있어서, 점프는 더 큰 것으로 인식될 것이다. 예를 들어, 움직임과 같은 노이즈는 큰 크기로 움직임 벡터를 갖는 모든 픽셀에서 발생할 수 있다. 그러나, 모든 움직임 벡터가 동일한 방향을 갖는 화상은, 일관성 기간을 통해, 노이즈와 비슷한 움직임을 갖는 화상보다 더 큰 평균 변위 거리를 갖는 화상에 일반적으로 발생한다.

일반적 용어에 있어서, Coh(MV(

))는 2개의 인자, 방향 코히런스 및 크기 코히런스를 곱하여 결정된다. 각각의 서브-코히런스(방향 코히런스 및 크기 코히런스)는 아래에 더 설명하는 std와 같은 방법에 의해 추정될 수 있거나, 본 기술에 공지된 것과 같은 히스토그램 빈들의 엔트로피에 의해 추정될 수 있다. 일반적으로, 화상을 통한 움직임이 동일한 방향이고, 동일한 속도일 때, 움직임은 보다 높은 코히런스를 갖는다.

그러나, 전체 디코딩을 하지 않고 비트-스트림 계층에서 동작하는 구현을 또한 고려한다. 이러한 구현은 일반적으로 픽셀-와이즈 인텐시티 또는 평균 픽셀 변위 거리를 추정 할 수 없다. 이에 따라, 다양한 비트-스트림 계층의 구현은 단일 프리징에 대한 점핑 효과 왜곡을 다음과 같이 정의한다.

상기 식에 있어서, mv(

) 및 M은 이전에 정의된 것과 같다. 추가적으로, 움직임 정보 및 M의 값은 정보가 이전에 설명한 저키 효과 추정 모듈(들)에 공급되는 것과 동일한 방식으로 점핑 효과 추정 모듈(들)(예를 들어, 효과 M 추정 모듈 538)에 제공될 수 있다.

4.2 효과 풀링

이전에 설명한 것처럼, 각각의 유형의 "효과"는, 예를 들어, 윈도우 또는 비디오 시퀀스로 1회 이상 발생할 수 있다. 풀링 전략은, 예를 들어, 관심의 윈도우에서 한 유형의 “효과”의 모든 발생을 수집하고, 관심의 윈도우에서 그 “효과”에 대한 전체 왜곡 레벨 추정을 생성하는데 사용될 수 있다.

본 발명자들은, 많은 응용에 있어서, "저키" 효과가 발생 비율에 의해 크게 영향을 받는다는 것을 결정했다. 예를 들어, 시청자는, 저키 효과가 단지 한번 발생하는 경우, 또는 심지어 여러 번 발생하는 경우에도, 일반적으로 거의 인식하지 못할 것이다. 그러나, 저키 효과가 자주 발생하는 경우, 그리고, 특히, 저키 효과가 주기적으로 발생하는 경우, 시청자는 일반적으로 신속하게 저키 효과를 인식하고 그 저키 효과로부터 피로를 느낀다. 이에 따라, 하나 이상의 구현에 있어서, 저키 효과의 왜곡을 축적하기 위한 풀링 전략은 다음과 같이 정의된다.

여기서,

는, 예를 들어, 관심의 윈도우에서 "저키" 효과의 모든 발생에 대한

의 평균값이다.

은, 적어도 한 구현에 있어서, 다음과 같이 표현된다.

p는, 예를 들어, 관심의 윈도우에서 "저키" 효과의 모든 발생의 주기적인 특성을 나타내는 변수이다.

지금 언급한 것처럼, p는 저키 효과의 발생의 주기적인 특성을 나타낸다. 보다 구체적으로, 일반적인 의미에서, 저키 효과가 보다 주기적이 될 때, 증가하는 풀링된 왜곡을 원한다. 개별 왜곡 추정이 범위 [0, 1]에 있기 때문에, 증가하는 풀링된 왜곡 추정을 위해 순차 감소를 위한 p를 원한다. 이는 다양한 구현에 사용되는 p의 다음 공식으로 달성된다.

여기서,

k는 "저키" 효과의 발생의 전체 수이다(예를 들어, 10초 긴 비디오 시퀀스인 관찰된 윈도우 내에서). 그래서, 예를 들어, 윈도우에서 7 "프리즈" 원인("스킵에 의한 프리즈" 및 "스킵 없이 프리즈" 모두를 포함)이 존재하는 경우, "k" =7이 된다.

dev는 두 개의 인접한 "저키" 발생 사이의 거리의 모든 값의 편차이다. 편차는 본 기술에서 잘 알려져 있고, 이하에 더 설명한다.

N₀은 상수이다. 적어도 한 구현에 있어서, N₀은 <수식>이 범위 [0, 1]에 있도록 충분히 큰 상수가 되도록 선택된다.

적어도 한 구현에 상기 내용을 적용하여, 저키 효과의 인접한 모든 세트 사이의 거리를 결정한다. 이 거리는 프리즈의 시작 사이의 거리로서 정의되고, 그 거리는, 예를 들어, 화상의 시간 단위 또는 화상의 수의 단위로 표현된다.

dev 및 std 모두는 데이터 시리즈의 안정성의 측정이다. 본 경우에 대하여, 데이터 시리즈의 요소는 인접한 "저키" 효과 사이의 거리가 된다. 데이터 시리즈

에 대해서:

- 평균값은

이고,

- 편차(또한, 분산으로 알려짐)는

이며

- 표준 편차(또한, 표준 분산으로 알려짐)는

이다.

적어도 한 구현에 있어서, N₀은 시간 단위(다른 구현은 화상의 수의 단위로 N₀을 표현)로 표현된 윈도우 사이즈로 설정된다. 한 예외는 k = 0일 대, 이 경우 왜곡이 0으로 설정된다. 그렇지 않으면, k의 최소값은 1이며 std의 최대값은 윈도우 크기보다 크지 않다. 따라서, N₀을 윈도우 사이즈로 설정하여, p는 범위 [0, 1]에 있게 되도록 보장된다.

프리즈는 윈도우 경계에 걸쳐 확장할 수 있으며, 구현은 다양한 방식으로 처리한다. 예를 들어, 한 구현에 있어서, 프리징이 윈도우 경계를 지나거나 지정된 임계를 지나 확장하는 경우, 그 "일시 정지" 효과에 대한 왜곡은 미리 결정된 값으로 설정된다.

도 7을 참조하면, 0과 1 사이의 p를 이용하여 0.1^P(0.1의 p의 제곱)의 함수를 나타내는 그래프가 도시되어 있다.

의 주어진 값에 대해 범위 [0, 1]에 있고, 저키 효과가 더 많이 발생할수록, 인접한 "저키" 효과 사이의 거리 편차는 낮아지고, 이어서, p의 값은 낮아질 것이며, 이에 따라,

은 크게 될 것이다.

저키 효과를 풀링하는 것은, 상기 설명한 것처럼, 저키 효과가 주기적인 경우에, 왜곡의 증가된 인식을 일반적으로 제공한다. 일시 정지 효과의 다수의 발생을 축적하거나, 또는 점핑 효과의 다수의 발생을 축적하는 것은, 또한 왜곡의 증가된 인식을 발생한다. 즉, 발생이 많으면 많을수록, 훨씬 더 높은 왜곡 레벨에 이르게 된다.

그러나, 일반적으로 차이가 있다. 이러한 차이는, 적어도 부분적으로, 상이한 종류의 효과에 대해 상이한 종류의 풀링 전략을 사용하는 이유가 된다.

일시 정지 효과와 점핑 효과의 차이에 관련하여, 추가적인 발생은, 사람의 두뇌가 특정 유형의 왜곡 효과에 사용되는 경우로서, 증가의 왜곡에 대한 약화된 인식을 일반적으로 생성한다. 다르게 표현하면, 왜곡의 증가 속도는 "일시 정지" 효과, 또는 "점핑" 효과의 더 많은 발생이 존재할 때, 느려진다. 이때, 풀링 전략은, 적어도 하나의 구현에 있어서, 다음과 같이 정의된다.

상기 식에서, N은,

및

의 값이 범위 [0, 1](다른 구현은 예를 들어, [0, 4] 또는 [1 , 5]와 같은 상이한 범위를 사용한다)에 있는 것을 보장하기에 충분히 큰 상수이다. 하나 이상의 구현에 있어서, N은 관심의 윈도우의 화상의 수로 설정되며, 적어도 하나의 구현에서는 300으로 설정된다.

제곱근 함수는 일반적으로 관찰된 데이터에 적합한 다수의 특성을 갖는다. 특히, 2는 모노톤 및 억제가 된다. pooling(·)과 같은 풀링된 왜곡으로 지칭하고, 적어도 하나의 구현에 있어서 다음과 같은 모노톤 및 억제를 정의한다. 다음은 중단된 화상의 용어로 표시되지만, 또한 지연된 화상 및 "스킵 없이 프리징"에 적용하고, 또한 화상의 비-디스플레이의 다른 원인에 적용한다.

1. 모노톤 -

G₁ 및 G₂를 두 그룹의 중단(또한 그룹 중단 세트로도 칭함)으로서 나타내어, G₁ 및 G₂ 각각은 중단된 화상의 연속된 세트를 포함한다. G₂는 G₁이 G₂의 모든 중단된 화상을 포함하도록 G₁의 서브 세트인 경우, 다음과 같다.

pooling(G₁) > pooling(G₂).

2 억제 -

시청자는 이전의 순간부터 자신의 경험에 의해 자신의 판정 규칙을 일반적으로 신속하게 조정할 수 있다는 것을 주목한다. 따라서, 시청자가 한 번 이상의 유사한 왜곡을 볼 때 시청자의 "반감(dislike)" 분위기는 일반적으로 약간 낮게 된다. 즉, 시청자가 왜곡을 본 이후에, 시청자가 동일 또는 유사한 왜곡의 다른 발생을 볼 때, 시청자는 처음 발생만큼 큰 왜곡으로 되는 추가적인 발생을 인식하지 않는다.

따라서, 두 개의 그룹 중단이 완전히 분리되도록, G₁ ∩ G₂ = ø인 경우, pooling(G₁ ∪ G₂) < pooling(G₁) + pooling(G₂).

풀링된 왜곡 값은 일반적으로 풀링되지 않은 왜곡 값과 비교될 수 있는 값이 아님을 주목한다. 이는 특정 구현에 있어서, 풀링된 값이 풀링되지 않은 값과 동일한 범위(예를 들어, [0, 1]) 내에 있도록 정규화된다는 사실로부터 초래한다. 그러나, 이러한 상황에서, 예를 들어, 상이한 윈도우의 풀링된 값은 비교될 수 있다.

식(4)의 응용의 간단한 예로서, 다음을 고려한다. 다음을 가정한다.

- G 및 G₂ 는 분리된다(즉, G₁ ∩ G₂ = ø).

- G₁ _,2 = G₁ ∪ G₂.

- D(G₁)=2, 및 D(G₂)=3.

일시 정지 효과 또는 점핑 효과의 수율을 위한 풀링 식을 적용한다.

- pooling(G₂)=sqrt(2/N)

- pooling(G₂)=sqrt(3/N)

- pooling(G₁ _.2)=sqrt(2+3)/N)

다음과 같이 확인된다:

- sqrt(5/N) > sqrt(2/N) 및 sqrt(5/N) > sqrt(3/N), 따라서, pooling(G_1,2) > pooling(G₁), 및 pooling(G₁ _,2) > pooling(G₂), 및 모노톤의 요구 사항이 충족된다.

- sqrt(5/N)<sqrt(2/N) + sqrt(3/N), 따라서, pooling(G₁∪G₂) < pooling(G₁) + pooling(G₂), 및 억제 요구 사항이 충족된다.

4.3 전체 풀링

전체 풀링 모듈(550)은 서로 다른 "효과"에 대한 풀링된 왜곡 값을 누적한다. 본 발명자들은, 많은 응용에 있어서, 적어도 상이한 종류의 "효과"는 병렬 방식으로 시청자에 영향을 준다고 결정했다. 따라서, 발명자들은 많은 응용들을 결정하고, 상이한 효과의 선형 결합이 유용한 전체 풀링 전략을 제공할 것이다. 이는 다양한 구현을 위해, 다음과 같이 표시된다.

"스킵에 의한 프리징":

여기서,

"스킵 없이 프리징":

여기서,

상수(α₁, α₂ 및 α₃)는, 다양한 구현에 있어서, 실제 데이터를 학습하여 결정된다. 학습을 위한 구현은 아래에 제공된다.

네 개의 P.NBAMS 학습 데이터베이스는 학습에 사용된다. 네 개의 데이터베이스는 각각 10초 정도 긴 약 200 비디오 시퀀스를 공동으로 포함한다. 데이터베이스는 각각의 비디오 시퀀스에 대한 주관적 점수를 또한 포함한다. 대상 점수는 "평균 평가 점수"(MOS)를 형성하기 위해 약 20명의 주관적인 점수를 평균하여 형성된다. MOS는 계산된 왜곡의 범위에 일치하는 범위 [0, 1]을 갖도록 정규화된다. 프레임 워크(500), 및 상술한 왜곡 추정 및 왜곡 풀링 알고리즘은 300 화상의 윈도우 사이즈를 사용하여 200 비디오 시퀀스에 적용된다.

다음과 같은 표기법을 사용한다.

- 데이터베이스의 비디오를 200까지의 n에 대해서, Dataset = {V1, V2, ... , Vn}에 의해 나타낸다.

- 비디오(Vk)의 주관적인 점수(MOS)를 k=1에서 200까지, MOS(Vk)로 나타낸다.

- 비디오의 추정된 3 종류의 왜곡들을

,

, 및

로 나타낸다.

α₁, α₂ 및 α₃의 값은 아래의 최적화 과제에 의해 결정된다.

제곱 차이의 상기 합을 최소화하는 α₁, α₂ 및 α₃의 값은 학습된 결과이다. 이는 상기 최적화 과제를 해결하기 위한 미적분학의 표준 프로세스이며, 표준 도구는 일반적으로 결과를 직접 제공한다.

한 구현에 있어서, 상기 학습 프로세스 생성된 최적화 값은 다음과 같이 반올림된다.

이들 값은 다양한 응용에 적합하다.

사람의 두뇌는, 예를 들어, 저키 효과에 대하여 설명한 것처럼, 상이한 종류의 효과와 다르게 반응할 수 있음을 주목한다. 상이한 반응은 상이한 종류의 효과에 응답하는 사람의 시각 시스템(HVS)의 동작에 관련된다. 따라서, 계수들이 심리학 및 생리학에 크게 의존할 수 있다. 따라서, 방금 설명한 것과 같은 학습 방법은 심리학 및 생리학이 모델링하기 어려운 많은 응용에 유용하다.

계수는 비디오 시퀀스의 세트에 많은 구현에 따라 또한 달라진다. 이러한 이유로, 다양한 구현은 비디오 시퀀스의 세트가 변화할 때 계수들을 재학습한다.

계수는, 많은 구현에 있어서, 기본 비디오 콘텐츠의 비교적 독립적이다. 비디오 콘텐츠의 차이의 요인은 왜곡들을

,

, 및

의 추정에서 일반적으로 캡처됩니다. 예를 들어, 한 구현에 있어서, 콘텐츠는 많은 움직임이 있고, 그래서, 왜곡은 저키 효과 및 점핑 효과에 대해 높다. 그러나, 많은 움직임을 갖는 사실은 본 특정 구현에서 계수에 영향을 주지 않는다.

몇몇 구현에 있어서, 저키 효과가 특히 자주 또는 정기적으로 발생하기 때문에, 학습 데이터베이스의 비디오 시퀀스의 저키 효과는 시청자에게 매우 명확하지 않다는 점을 주목한다. 이러한 구현에 있어서, 저키 효과의 풀링은 낮게(0에 가깝게)된다. 풀링된 왜곡 값이 낮기 때문에, 구현은, 저키 효과의 영향을 무시하고, 대응하는 계수를 0의 값으로 설정한다.

다양한 구현이 제시되었다. 그러나, 하나 이상의 파라미터를 수정하는 추가적인 구현이 가능하고 구상된다. 예를 들어, 하나 이상의 구현에서:

- len은, 예를 들어, 그룹 중단에서 연속된 화상의 수, 또는 화상 레이트(예를 들어, 프레임 레이트)에 의해 분할된 화상의 수와 같은 시간 이외의 단위로 표현된다.

- len은 점핑 효과에 대한 왜곡을 추정하는데 사용된다.

- 일시 정지 효과 및 점핑 효과에 대한 제곱근 풀링 기능보다, 모노톤 및 억제 요구 사항에 만족하는, 예를 들어, 지수 값, 큐브 루트, 이외의 루트 및/또는 알고리즘을 포함하는 상이한 기능이 사용된다.

- 정규화된 값은 [0, 1]과 다른 범위로 정규화된다.

- mv는 평균보다 모드 또는 중간값으로 계산되며, 또는 평균은 가중 평균이며, 또는 전경 오브젝트의 움직임 벡터만이 고려되고, 및/또는 가장 큰 움직임 벡터는 보다 큰 무게(가중 평균)로 제공된다. 보다 일반적으로, 다양한 상이한 필터링 알고리즘은 상이한 구현에서 사용된다.

- mv는 많은 화상으로부터 하나 이상의 움직임 벡터의 결합으로서 계산된다. 한 구현에 있어서,

및

는 (이전에 설명한 것처럼) 사용된다.

- 특히, mv는, 다양한 구현에 있어서, 중단된 화상 이전의 화상의 하나 이상의 움직임 벡터, 또는 중단된 화상 이후의 화상의 하나 이상의 움직임 벡터, 또는 중단된 화상의 이전 및 이후에 화상의 움직임 벡터의 결합으로부터 결정된다. 특정 구현에 있어서, 점핑 효과에 대한 왜곡은 중단된 화상 이전의 화상의 움직임 벡터에 기초한 m을 사용하여 추정된다.

도 8 및 도 9는 적어도 하나의 구현에 적용될 수 있는 추가적인 컨텍스트를 제공한다. 도 8을 참조하면, 본 응용에서 설명된 기능 또는 원리가 적용될 수 있는 비디오 전송 시스템 또는 장치(800)가 도시되어 있다. 비디오 전송 시스템 또는 장치(800)는 예를 들어, 위성, 케이블, 전화-선, 또는 위성 방송과 같은 다양한 매체 중 하나를 사용하여 신호를 전송하기 위한 헤드-엔드 또는 전송 시스템이 될 수 있다. 또한, 비디오 전송 시스템 또는 장치(800)는, 예를 들어, 저장을 위한 신호를 제공하기 위해 대안으로 사용될 수 있다. 전송은 인터넷 또는 일부 다른 네트워크를 통해 제공될 수 있다. 비디오 전송 시스템 또는 장치(800)는, 예를 들어, 깊이 및/또는 디스패러티 값을 포함하는, 예를 들어, 깊이의 인디케이터와 같은 비디오 콘텐츠 또는 다른 콘텐츠를 생성 및 전달할 수 있다. 도 8의 블록은, 비디오 전송 시스템 또는 장치의 블록도를 제공함과 함께, 비디오 전송 프로세스의 흐름도를 제공한다는 것은 자명하다.

비디오 전송 시스템 또는 장치(800)는 프로세서(801)로부터 입력 비디오를 수신한다. 한 구현에 있어서, 프로세서(801)는 도 1의 비디오 시퀀스(100)의 화상과 같은 비디오 화상을 비디오 전송 시스템 또는 장치(800)에 단순히 제공한다. 그러나, 다른 구현에 있어서, 프로세서(801)는 대안으로 또는 추가적으로, 깊이 화상 또는 다른 콘텐츠를 비디오 전송 시스템 또는 장치(800)에 제공한다. 또한, 프로세서(801)는 메타데이터를 비디오 전송 시스템 또는 장치(800)에 제공하며, 여기서, 메타데이터는 하나 이상의 입력 화상에 관한 것이다.

비디오 전송 시스템 또는 장치(800)는 인코딩된 신호를 전송할 수 있는 인코더(802) 및 전송기(804)를 포함한다. 인코더(802)는 비디오 정보를 프로세서(801)로부터 수신한다. 비디오 정보는 예를 들어, 비디오 화상, 및/또는 디스패러티(또는 깊이) 화상을 포함할 수 있다. 인코더(802)는 비디오 및/또는 디스패러티 정보에 기초하여 인코딩된 신호(들)를 생성한다.

여러 구현에 있어서, 인코더(802)는, 예를 들어, AVC 인코더이다. AVC 인코더는 비디오 및 디스패러티 정보 모두에 적용될 수 있다. AVC는 표준화/국제 전기 기술 위원회(ISO/I EC) 동화상 전문가 그룹-4 (MPEG-4) 파트 10 고급 비디오 코딩(AVC) 표준/국제 전기 통신 연합, 전기 통신 섹터(ITU-T) H.264 권고안(이하, "AVC 표준", "H.264 표준"과 같은 "H.264/MPEG-4 AVC 표준" 또는 변형, 또는 단순히 "AVC" 또는 "H.264")에 대한 현존하는 국제 기구를 지칭한다.

인코더(802)는, 예를 들어, 저장 또는 전송을 위한 구조화된 포맷으로 정보의 여러 부분을 수신 및 조립하기 위한 어셈블리 유닛을 포함하는 서브-모듈을 포함할 수 있다. 정보의 여러 부분들은, 예를 들어, 인코딩되거나 인코딩되지 않은 비디오, 인코딩되거나 인코딩되지 않은 디스패러티(또는 깊이) 값, 및 예를 들어, 움직임 벡터, 코딩 모드 인디케이터, 및 구문 요소와 같은 인코딩되거나 인코딩되지 않은 요소를 포함할 수 있다. 일부 구현에 있어서, 인코더(802)는 프로세서(801)를 포함하고, 따라서, 프로세서(801)의 동작을 수행한다.

전송기(804)는 인코딩된 신호(들)를 인코더(802)로부터 수신하고, 하나 이상의 출력 신호에 인코딩된 신호(들)를 전송한다. 전송기(804)는, 예를 들어, 인코딩된 화상 및/또는 이에 관련된 정보를 나타내는 하나 이상의 비트스트림을 갖는 프로그램 신호를 전송하도록 적응될 수 있다. 전형적인 전송기는, 예를 들어, 하나 이상의 에러-정정 코딩을 제공하고, 신호에 데이터를 인터리빙하고, 신호에 에너지를 랜덤화하고, 신호를 변조기(806)를 사용하여 하나 이상의 캐리어로 신호를 변조하는 것과 같은 기능을 한다. 전송기(804)는 안테나(도시하지 않음)를 포함할 수 있거나, 함께 인터페이스할 수 있다. 또한, 전송기(804)의 구현은 변조기에 제한될 수 있다.

또한, 비디오 전송 시스템 또는 장치(800)는 저장 유닛(808)에 통신 가능하게 결합된다. 한 구현에 있어서, 저장 유닛(808)은 인코더(802)에 결합되고, 저장 유닛(808)은 인코더(802)로부터의 인코딩된 비트스트림을 저장하고, 선택적으로, 저장된 비트스트림을 전송기(804)에 제공한다. 다른 구현에 있어서, 저장 유닛(808)은 전송기(804)에 결합되고, 전송기(804)로부터의 비트스트림을 저장한다. 전송기(804)로부터의 비트스트림은, 예를 들어, 전송기(804)에 의해 더 처리된 하나 이상의 인코딩된 비트스트림을 포함할 수 있다. 저장 유닛(808)은, 다른 구현에 있어서, 하나 이상의 표준 DVD, 블루-레이 디스크, 하드 드라이브, 또는 일부 다른 저장 디바이스이다.

도 9를 참조하면, 상술한 기능 및 원리가 적용될 수 있는 비디오 수신 시스템 또는 장치(900)가 도시되어 있다. 비디오 수신 시스템 또는 장치(900)는 예를 들어, 위성, 케이블, 전화-선, 또는 위성 방송과 같은 다양한 매체를 통해 신호를 수신하도록 구성될 수 있다. 신호는 인터넷 또는 일부 다른 네트워크를 통해 수신될 수 있다. 또한, 비디오 수신 시스템 또는 장치의 블록도를 제공함과 함께, 비디오 수신 프로세스의 흐름도를 제공한다는 것은 자명하다.

비디오 수신 시스템 또는 장치(900)는, 예를 들어 예를 들어, 디스플레이(예를 들어, 사용자에 디스플레이를 위한)를 위한, 처리를 위한, 또는 저장을 위해 인코딩된 비디오를 수신하여 디코딩된 비디오 신호를 제공하는 셀-폰, 컴퓨터, 태블릿, 셋-톱 박스, 텔레비전, 게이트웨이, 라우터, 또는 다른 디바이스가 될 수 있다. 따라서, 비디오 수신 시스템 또는 장치(900)는, 그 출력을 예를 들어, 텔레비전의 스크린, 컴퓨터 모니터, 컴퓨터(저장, 처리, 또는 디스플레이를 위한), 태블릿, 또는 일부 다른 저장, 처리, 또는 디스플레이 디바이스에 제공할 수 있다.

비디오 수신 시스템 또는 장치(900)는 비디오 정보를 수신 및 처리할 수 있고, 비디오 정보는, 예를 들어, 비디오 화상, 및/또는 디스패러티(또는 깊이) 화상을 포함할 수 있다. 비디오 수신 시스템 또는 장치(900)는, 예를 들어, 본 응용의 구현에 설명된 신호와 같은 인코딩된 신호를 수신하기 위한 수신기(902)를 포함한다. 수신기(902)는, 예를 들어, 도 1의 비디오 시퀀스(100)의 하나 이상의 화상을 제공하는 신호, 또는 도 8의 비디오 전송 시스템(800)(예를 들어, 저장 유닛(808) 또는 전송기(804))로부터의 신호 출력을 제공하는 신호를 수신할 수 있다.

수신기(902)는, 예를 들어, 인코딩된 화상(예를 들어, 비디오 화상 또는 깊이 화상)을 나타내는 복수의 비트스트림을 갖는 프로그램 신호를 수신하도록 적응될 수 있다. 전형적인 수신기는, 예를 들어, 하나 이상의 변조 및 인코딩된 데이터 신호를 수신하고, 복조기(904)를 사용하여 하나 이상의 캐리어로부터 데이터 신호를 복조하고, 신호의 에너지를 디-랜덤화하고, 신호의 데이터를 디-인터리빙하며, 신호를 에러-교정 디코딩하는 것과 같은 기능을 수행한다. 수신기(902)는 안테나(도시하지 않음)를 포함할 수 있거나 안테나와 인터페이싱할 수 있다. 수신기(902)의 구현은 복조기(904)에 제한될 수 있다.

비디오 수신 시스템 또는 장치(900)는 디코더(906)를 포함한다. 수신기(902)는 수신된 신호를 디코더(906)에 제공한다. 수신기(902)에 의해 디코더(906)에 제공된 신호는 하나 이상의 인코딩된 비트스트림을 포함할 수 있다. 디코더(906)는 예를 들어, 비디오 정보를 포함하는 디코딩된 비디오 신호, 또는 깊이 정보를 포함하는 디코딩된 깊이 신호와 같은 디코딩된 신호를 출력한다. 디코더(906)는, 예를 들어, AVC 디코더가 될 수 있다.

또한, 비디오 수신 시스템 또는 장치(900) 저장 유닛(907)에 통신 가능하게 결합된다. 한 구현에 있어서, 저장 유닛(907)은 수신기(902)에 결합되고, 수신기(902)는 저장 유닛(907)으로부터 비트스트림을 액세스 및/또는 수신된 비트스트림을 저장 유닛(907)에 저장한다. 다른 구현에 있어서, 저장 유닛(907)은 디코더(906)에 결합되고, 디코더(906)는 저장 유닛(907)으로부터 비트스트림을 액세스 및/또는 디코딩된 비트스트림을 저장 유닛(907)에 저장한다. 저장 유닛(907)으로부터 액세스된 비트스트림은, 다른 구현에 있어서, 하나 이상의 인코딩된 비트스트림을 포함한다. 저장 유닛(907)은, 다른 구현에 있어서, 하나 이상의 표준 DVD, 블루-레이 디스크, 하드 드라이브, 또는 일부 다른 저장 디바이스이다.

디코더(906)로부터 출력 비디오는, 한 구현에 있어서, 프로세서(908)에 제공된다. 프로세서(908)는, 한 구현에 있어서, 새로운 관점을 렌더링 하도록 구성된 프로세서이다, 일부 구현에 있어서, 디코더(906)는 프로세서(908)를 포함하고, 따라서, 프로세서(908)의 동작을 수행한다. 다른 구현에 있어서, 프로세서(908)는 예를 들어, 셋-톱 박스, 태블릿, 또는 텔레비전과 같은 다운스트림 디바이스의 일부이다. 보다 구체적으로, 프로세서(908) 및/또는 비디오 수신 시스템 또는 장치(900)는, 여러 구현에 있어서, 게이트웨이, 라우터, 셋톱-박스, 태블릿, 텔레비전, 또는 컴퓨터의 일부가 된다.

비디오 수신 시스템 또는 장치(900) 및/또는 프로세서(908)의 여러 구현은 "스킵에 의한 프리징"에 의해 야기된 하나 이상의 그룹 중단(즉, 중단된 화상의 그룹)을 포함하는 비디오 시퀀스의 왜곡 및/또는 품질을 평가한다. 그룹 중단의 왜곡 및/또는 품질은 본 응용(예를 들어, 도 10 및 도 11에서 설명된 방법을 사용)에 설명된 것처럼 결정될 수 있다. 도 10 및 도 11에서 아래에 설명된 방법을 포함하는 이와 같은 여러 구현은 예를 들어, 수신기(902), 복조기(904), 디코더(906), 및/또는 프로세서(908)에서 실행된다.

도 10을 참조하면, 왜곡 및/또는 품질을 결정하기 위한 프로세스(1000)가 도시되어 있다. 도 10의 블록은, 왜곡 및/또는 품질을 결정하기 위한 프로세스의 흐름도를 제공함과 함께, 왜곡 및/또는 품질을 결정하기 위한 시스템 또는 장치의 블록도를 제공한다는 것은 자명하다. 프로세스(1000)는 제 1 비-디스플레이 화상(들)의 인디케이터를 액세스하는 단계(1010)를 포함한다. 동작(1010)은, 적어도 하나의 구현에 있어서, 비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 1 세트가 디스플레이되지 않는 것을 나타내는 정보를 액세스하는 단계를 포함한다. 동작(1010)은, 여러 구현에 있어서, 예를 들어, (i) 패킷이 손실되고, 화상의 시퀀스가 중단되는 것을 나타내는 정보를 액세스하는 비트-스트림 분석 모듈(505), (ii) 스킵에 의한 프리즈가 특정 위치에서 그리고 특정 기간 동안 발생하는 것을 나타내는 정보를 액세스하는 원인 분석 모듈(512-518), 및 (iii) 지정된 길이를 갖는 특정 일시 정지 효과가 발생하는 것을 나타내는 정보를 액세스하는 효과 추정 모듈(532-538)에 의해 실행된다.

프로세스(1000)는 제 2 비-디스플레이 화상(들)의 인디케이터를 액세스하는 단계(1020)를 포함한다. 동작(1020)은, 적어도 하나의 구현에 있어서, 비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 2 세트가 디스플레이되지 않는 것을 나타내는 정보를 액세스하는 단계를 포함한다. 제 2 세트는 비디오 시퀀스의 제 1 세트로부터 분리된다. 두 개의 세트는 분리됨으로써, 즉 비-중첩에 의해 분리된다. 두 개의 세트는 심지어 서로 인접해도 분리될 수 있다. 따라서, 두 개의 연속된 GOP는, 심지어 두 개의 연속된 GOP들 간에 화상이 존재하지 않아도, 서로 분리된다. 동작(1020)은, 여러 구현에 있어서, 예를 들어, 동작(1010)에 대해 상기 기재된 동일한 예에 의해 실행된다.

프로세스(1000)는 다수의 왜곡 효과 중 하나에 대해, 제 1 비-디스플레이 화상(들)에 대한 왜곡 인디케이터를 결정하는 단계(1030)를 포함한다. 동작(1030)은, 적어도 하나의 구현에 있어서, 제 1 인디케이터를 결정하는 단계를 포함한다. 제 1 인디케이터는 화상의 제 1 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 1 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 다수의 유형의 왜곡 효과 중 하나의 주어진 유형의 왜곡 효과에 연관된 왜곡의 양을 나타낸다. 디스플레이 시간동안 제 1 공통 화상을 실질적으로 디스플레이하는 단계는 전체 디스플레이 시간 동안 동일한 화상(즉, 공통 화상)을 디스플레이하는 단계를 포함한다. 따라서, 이는 프리즈 동안 마지막으로 디코딩된 화상을 디스플레이하는 단계를 포함한다. 그러나, 이는 미세하게 변하지만 여전히 실질적으로 동일한 프리즈 동안 화상을 디스플레이하는 단계를 또한 포함한다. 이와 같은 변화는, 예를 들어, 프리즈 동안 각각의 화상 디스플레이 시간으로 증가하는 마지막 디코딩된 화상에 카운트를 부가한다. 동작(1030)은, 여러 구현에 있어서, "스킵에 의한 프리즈" 또는 "스킵 없이 프리즈" 원인으로부터 발생하는 저키 효과에 의해 야기된 왜곡을 추정하는 예를 들어, 효과 추정 모듈(532-538)에 의해 실행된다.

프로세스(1000)는 하나의 왜곡 효과에 대해, 제 2 비-디스플레이 화상(들)에 대한 왜곡 인디케이터를 결정하는 단계(1040)를 포함한다. 동작(1040)은, 적어도 하나의 구현에 있어서, 제 2 인디케이터를 결정하는 단계를 포함한다. 제 2 인디케이터는 화상의 제 2 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 2 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 주어진 유형의 왜곡 효과에 연관된 왜곡의 양을 나타낸다. 디스플레이 시간동안 공통 제 2 화상을 실질적으로 디스플레이하는 단계는 공통 제 1 화상과 동일한 의미를 갖는다. 그러나, 제 1 화상은 제 2 화상과는 다른 화상이다. 동작(1040)은, 여러 구현에 있어서, 예를 들어, 동작(1030)에 대해 상기 기술한 동일한 예에 의해 실행된다.

프로세스(1000)는 하나의 왜곡 효과에 대한 왜곡 인디케이터를 축적하는 단계(1050)를 포함한다. 동작(1050)은, 적어도 한 구현에 있어서, 주어진 유형의 왜곡 효과에 대한 왜곡의 결합된 인디케이터를 생성하기 위해 제 1 인디케이터 및 제 2 인디케이터를 축적하는 단계를 포함한다. 동작(1050)은, 여러 구현에 있어서, 예를 들어, 저키 효과, 일시 정지 효과, 또는 점핑 효과와 같은 주어진 유형의 효과에 대한 왜곡 평가를 풀링하는, 예를 들어, 효과 풀링 모듈(542-548)에 의해 실행된다.

도 11을 참조하면, 왜곡 및/또는 품질을 결정하기 위한 프로세스(1100)가 도시되어 있다. 도 11의 블록은, 왜곡 및/또는 품질을 결정하기 위한 프로세스의 흐름도를 제공하는 것과 함께, 왜곡 및/또는 품질을 결정하기 위한 시스템 또는 장치의 블록도를 제공한다는 것은 자명하다. 프로세스(1100)는 제 1 비-디스플레이 화상(들)의 인디케이터를 액세스하는 단계(1110)를 포함한다. 동작(1110)은, 적어도 하나의 구현에 있어서, 비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 1 세트가 디스플레이되지 않는 것을 나타내는 정보를 액세스하는 단계를 포함한다. 동작(1110)은, 여러 구현에 있어서, 예를 들어, 동작(1010 및 1020)에 대해 상기 설명된 동일한 예에 의해 실행된다.

프로세스(1100)는 제 2 비-디스플레이 화상(들)의 인디케이터를 액세스하는 단계(1120)를 포함한다. 동작(1120)은, 적어도 하나의 구현에 있어서, 비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 2 세트가 디스플레이되지 않는 것을 나타내는 정보를 액세스하는 단계를 포함한다. 제 2 세트는 비디오 시퀀스의 제 1 세트로부터 분리된다. 동작(1120)은, 여러 구현에 있어서, 예를 들어, 동작(1010, 1020, 및 1110)에 대해 상기 기재된 동일한 예에 의해 실행된다.

프로세스(1100)는 제 1 비-디스플레이 화상(들)에 대한 왜곡 인디케이터를 결정하는 단계(1130)를 포함한다. 동작(1130)은, 적어도 하나의 구현에 있어서, 제 1 인디케이터를 결정하는 단계를 포함한다. 제 1 인디케이터는 화상의 제 1 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 1 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 하나 이상의 유형의 왜곡 효과에 걸쳐 왜곡의 양을 나타낸다. 동작(1120)은, 여러 구현에 있어서, 예를 들어, 동작(1010, 1020, 및 1110)에 대해 상기 기재된 동일한 예에 의해 실행된다. 동작(1130)은, 여러 구현에 있어서, 예를 들어, 동작(1030 및 1040)에 대해 상기 기재된 동일한 예에 의해 실행된다.

프로세스(1100)는 제 2 비-디스플레이 화상(들)에 대한 왜곡 인디케이터를 결정하는 단계(1140)를 포함한다. 동작(1140)은, 적어도 하나의 구현에 있어서, 제 2 인디케이터를 결정하는 단계를 포함한다. 제 2 인디케이터는 화상의 제 2 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 2 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 하나 이상의 유형의 왜곡 효과에 걸쳐 왜곡의 양을 나타낸다. 동작(1140)은, 여러 구현에 있어서, 예를 들어, 동작(1030, 1040, 및 1130)에 대해 상기 기재된 동일한 예에 의해 실행된다.

프로세스(1100)는 제 1 비-디스플레이된 화상(들) 및 제 2 비-디스플레이된 화상(들)에 대한 왜곡 인디케이터를 비-선형 방식으로 축적하는 단계(1150)를 포함한다. 동작(1150)은, 적어도 한 구현에 있어서, 왜곡의 결합된 인디케이터를 생성하기 위하여 비선형 방식으로 제 1 인디케이터 및 제 2 인디케이터를 축적하는 단계를 포함한다. 동작(1150)은, 여러 구현에 있어서, 예를 들어, 저키 효과, 일시 정지 효과, 또는 점핑 효과와 같은 주어진 유형에 대해, 지수, 제곱근, 또는 이전에 설명한 다른 비-선형 풀링 알고리즘을 이용하여 왜곡 추정을 풀링하는 예를 들어, 효과 풀링 모듈(542-548)에 의해 실행된다.

본 응용에 기재된 다른 구현뿐만 아니라 프로세스(1000 및 1100)는 통신 시스템에서 다양한 지점에서 실행될 수 있다. 도 8-9에 관련하여 상술한 것처럼, 왜곡 및/또는 품질의 결정은, 여러 구현에 있어서, 통신 시스템의 디코딩/수신/디스플레이 엔드에서 실행된다. 이러한 결정은, 여러 구현에 있어서, 경험의 품질("QoE")의 평가의 일부이다. 이 QoE 평가는, 여러 구현에 있어서, 표준 알고리즘에 따라 실행되도록 구상된다. 표준 알고리즘은 왜곡 및/또는 품질을 평가하는 설명된 하나 이상의 구현(또는 하나 이상의 변형)이 될 수 있다.

본 응용은 도 5, 및 도 8 내지 도 11의 블록/흐름도를 포함하는 다수의 블록/흐름도를 제공한다. 본 응용의 블록/흐름도는 예를 들어, 프로세스를 설명하는 흐름도, 및 장치의 기능 블록을 설명하는 블록도를 포함하는 다양한 정보를 제공한다는 것은 자명하다. 추가적으로, 본 응용은 도 1-2 및 도 6의 표현도를 포함하는 다양한 표현을 제공한다. 본 응용의 표현도는, 예를 들어, 결과 또는 출력의 설명, 및 프로세스를 설명하는 흐름도를 포함하는 다양한 정보를 제공한다는 것은 자명하다. 추가적으로, 본 응용은 도 3, 도 4 및 도 7의 그래픽 표현을 포함하는 다양한 그래픽 표현을 제공한다. 본 응용의 그래픽 표현이, 예를 들어, 여러 입력 값에서 기능을 위한 결과 또는 출력의 설명과 변수들 중 관계의 표시를 포함하는 여러 정보를 제공한다는 것은 자명하다.

다양한 구현은 "스킵에 의한 프리즈"에서 발생하는 그룹 중단의 왜곡 및/또는 품질을 결정하는 것이 설명되어 있다. 이들 구현은 "스킵에 의한 프리즈"에서 발생하는 그룹 중단 이외의 왜곡에 적용하는 여러 다른 구현들에서 확장된다. 특히, 본 응용의 기술 및 구현은, 여러 구현에 있어서, 프리즈로부터만 발행하는 왜곡, 스킵으로부터만 발생하는 왜곡, 또는 다른 왜곡들에 적용한다. 사실, 예를 들어, 효과 풀링 모듈(542-548) 또는 전체 풀링 모듈(550)에 의해 적용된 알고리즘과 같이 설명된 풀링 기술은 임의의 왜곡 값을 풀링하는 다른 여러 구현에 적용하고, 프리즈 또는 스킵에 제한되지 않는다.

다양한 구현은 비디오 시퀀스에 적용하는 것을 설명하였다. 이들 구현은, 다른 콘텐츠에 적용하는 다양한 다른 구현에서 확장된다. 이러한 다른 콘텐츠는, 예를 들어, 표준 2차원 비디오 콘텐츠 이외의 콘텐츠를 포함한다. 비-비디오 콘텐츠는, 예를 들어, 깊이 맵, 에지 맵, 투명도 맵, 자외선 또는 적외선 주파수 이미지, 나이트-비전 고글(night-vision goggles)에서 열 서명(heat signatures), 디스플레이에 분석되도록 의도된 과학적 데이터, 또는 반복 패턴을 갖거나 순차 방식으로 보여 지도록 의도된 임의의 데이터를 포함한다.

다양한 구현은 하나 이상의 중단 화상을 포함하는 그룹 중단의 왜곡 및/또는 품질을 결정하는 것을 설명하였다. 이들 구현은 화상이 중단될 때를 결정하기 위한 임의의 특정 기술에 의존하지 않는다. 구현은 심지어 화상이 중단되는지의 여부의 결정을 필요치 않은데, 그 이유는 화상의 중단 여부의 표시는 그들 구현에 입력이 되기 때문이다. 결과적으로, 화상의 중단의 결정은 종래의 공지된 것과 같은 다양한 방식으로 이루어 질 수 있으며, 예를 들어, 예를 들어, 화상의 단일 패킷이 손실된다면 화상을 중단하거나, 또는 화상의 모든 패킷이 손실되는 경우와 적당한 은닉 기술이 사용될 수 없는 경우에만 화상을 중지하는 것을 포함할 수 있다.

다양한 구현은 "스킵에 의한 프리즈"에서 발생하는 하나 이상의 중단된 화상을 포함하는 그룹 중지의 왜곡 및/또는 품질을 결정하는 것을 설명하였다. 이들 구현은 “프리즈”가 각각의 중단된 화상에 대한 디스플레이 시간 동안 동일한 정밀 화상을 반복하는 것을 포함하지 않는 상황에 적용하는 다양한 다른 구현에서 확장된다. 예를 들어, 한 구현에 있어서, 작은 카운터는 화상이 반복되는 회수를 나타내는 디스플레이된 화상의 우측 하단에 포함된다. 따라서, 4개의 화상이 중지된다면, 5개의 디스플레이 시간(하나의 예측된 디스플레이 시간, 및 4개의 "프로즌" 디스플레이 시간을 포함) 동안 디스플레이되는 "프로즌" 화상은 중지된 화상에 대한 4개의 디스플레이 시간 동안 우측 하단에 표시되는 작은 카운터를 제외하고 동일할 것이다. 이 작은 카운터는 이들 4개의 디스플레이 시간 동안 1에서, 2까지, 3까지, 4까지 증가한다.

단일 패킷이 손실될 대, 화상을 중단하는 구현을 설명했다. 화상은 특정 구현에 있어서, 하나의 패킷 손실로 인하여 중단되는데, 그 이유는, 예를 들어, (i) 저해상도 비디오에서, 전체 화상이 종종 하나의 패킷 내에 있거나, (ⅱ) 특정 응용은 은닉 아티팩트가 존재하지 않고, 따라서 에러 은닉이 사용되지 않는 요구 사항을 갖기 때문이다. 구현들은 화상(예를 들어, 단일 패킷이 손실된다면 중단하거나, 손실될 더 많은 패킷을 필요로 하는 등)을 중단할 때를 결정에 따라 다르다. 그러나, 화상이 중단될 때, 스킵에 의한 프리징 왜곡이 발생한다. 하나의 패킷이 손실된 경우 에러 은닉을 수행한다. 또한, 특정 구현은, 심지어 다른 화상들 중 하나의 매크로블록만이 기준으로서 중단된 화상을 사용하는 경우에도, 중단된 화상에 의존하는 다른 모든 화상을 중단한다. 이러한 구현들은 이들 종속 화상들을 중단하는데, 그 이유는, 예를 들어, (ⅰ) 은닉 아티팩트가 없는 요구 사항이 존재하고, (ⅱ) 다른 전체 화상이 단일 패킷에 있고, 패킷이 디코딩을 피하는 것이 효율적이거나, (ⅲ) 심지어 종속된 화상에 단일 손실 매크로블럭이 시청자 만족을 위해 중요한 내용(예를 들어, 오브젝트)을 갖기 때문에 이러한 방식으로 품질이 더 보장되어야 하기 때문이다. 추가적으로, 다른 구현들은, 예를 들어, 영향을 받을 수 있는 후속 화상의 매크로블록의 임계 번호, 또는 임계 이상이 될 수 있는 에러 은닉 아티팩트를 필요로 하는 중단된 화상으로부터 의존하는 후속 화상을 중단할 때의 결정에 따라 변한다. 화상을 중단하는 것은, 다양한 구현에 있어서, 에러 은닉의 형태가 되는 것으로 간주됨을 또한 주목한다.

다양한 다른 풀링 함수를 사용하는 구현들을 상술하였다. 다른 풀링 기능들도 가능하다. 다양한 다른 구현들은 풀링을 위한 다양한 다른 구현은 풀링에 대한 다음과 같은 랩 기능(wrap function)을 다음과 같이 사용한다.

상기 식에 있어서, D(G)는 각각의 왜곡 D(g)의 세트에 대한 풀링된 왜곡이며, 여기서, g는 각각의 원인 또는 효과를 의미한다. 상기 랩 기능은 C1 및 C2인 두 개의 상수를 사용한다. C1 및 C2 모두는 다양한 구현에서 경험에 의해 결정된다.

다양한 구현은 하나 이상의 다양한 장점이 있을 수 있다. 이러한 장점의 일부 리스트는, (i) 낮은 복잡성, (ii) 왜곡 모델에서 “프리즈” 및 “스킵” 왜곡의 분리, (iii) 예를 들어, 프리즈, 스킵 또는 스킵에 의한 프리즈로부터 발생하는 왜곡의 정확한 결정을 허용, (iv) 인코딩, 변조, 및 전송 파라미터가 원하는 품질 레벨을 제공하도록 허용, 및 / 또는 (v) 정확한 방식으로, 왜곡의 다수의 발생에 대한 왜곡/품질 값을 풀링을 포함한다.

따라서, 특정 기능 및 관점을 갖는 하나 이상의 구현을 제공한다. 특히, 왜곡 및/또는 품질을 결정하는 것에 관한 몇 가지 구현을 제공한다. 그러나 이러한 구현 및 추가적인 응용의 변형은 본 공개 내에서 고려되고, 기재된 구현의 기능 및 관점은 다른 구현을 위해 적응될 수 있다.

여러 구현 및 본 응용에 기술된 기능은 AVC 표준, 및/또는 MVC 확장(부록 H)을 갖는 AVC, 및/또는 SVC 확장(부록 G)을 갖는 AVC의 컨텍스트에 사용될 수 있다. 추가적으로, 이들 구현 및 기능은 다른 표준(기존 또는 미래)의 컨텍스트, 또는 표준을 포함하지 않는 컨텍스트에 사용될 수 있다.

왜곡 용어 또는 품질 용어는 일반적으로 왜곡 및 품질 모두를 나타낸다는 것은 자명하다. 따라서, 예를 들어, D(g)에 대한 참조는 왜곡 및 품질 모두를 나타낸다.

"한 실시 예" 또는 "실시예" 또는 "하나의 구현" 또는 "본 원리의 구현", 뿐만 아니라 이들의 다른 변형의 참조는 실시예와 함께 기재된 특정한 기능, 구조, 특성 등은 본 원리의 적어도 한 실시예에 포함된다. 따라서, 명세서 전반에 걸쳐 다양한 곳에 나타나는 "한 실시예에서", 또는 "실시예에서", 또는 "한 구현에서", 또는 "실시예에서"라는 문구의 출현뿐만 아니라 임의의 다른 변형의 출현은 반드시 동일한 실시예 모두를 참조되지 않는다.

추가적으로, 본 응용 또는 그 청구범위는 정보의 다양한 부분을 "결정하는"을 참조할 수 있다. 정보를 결정하는 것은, 예를 들어, 정보를 추정하고, 정보를 계산하고, 정보를 평가하고, 정보를 예측하고, 또는 메모리로부터 정보를 검색하는 것을 하나 이상 포함할 수 있다.

또한, 본 응용 또는 그 청구 범위는 정보의 다양한 부분을 "액세스하는"을 참조할 수 있다. 정보를 액세스하는 것은, 예를 들어, 정보를 수신하고, 정보를 검색(예를 들어, 메모리)하고, 정보를 저장하고, 정보를 처리하고, 정보를 전송하고, 정보를 이동하고, 정보를 복사하고, 정보를 소거하고, 정보를 계산하고, 정보를 결정하고, 정보를 예측하고, 정보를 추정하고, 또는 정보를 평가하는 것을 하나 이상 포함할 수 있다.

다양한 구현들은 "이미지" 및/또는 "화상"을 참조할 수 있다. 용어 "이미지" 및 "화상"은 본 문서 전체를 통해 상호 교환가능하게 사용될 수 있고, 넓은 용어가 되도록 의도된다. "이미지" 또는 "화상" 은, 예를 들어, 프레임 또는 필드의 전체 또는 일부가 될 수 있다. 용어 "비디오"는 시퀀스 of 이미지(또는 화상)의 시퀀스를 참조한다. 이미지 또는 화상은 예를 들어, 다양한 비디오 성분 또는 그들 조합 중 하나를 포함할 수 있다. 이러한 성분, 또는 그들 조합은, 예를 들어, 휘도, 색도, Y(YUV 또는 YCbCr 또는 YPbPr), U(YUV), V(YUV), Cb(YCbCr), Cr(YCbCr), Pb(YPbPr), Pr(YPbPr), 적색(RGB), 녹색(RGB), 청색(RGB), S- 비디오, 및 네거티브 또는 포지티브의 그들 성분 중 하나를 포함할 수 있다. 또한, "이미지" 또는 "화상"은 대안적으로, 예를 들어, 전형적인 2차원 비디오, 2D 비디오 화상의 디스패러티 맵, 2D 비디오 화상, 또는 에지 맵에 대응하는 깊이 맵을 포함하는 다양한 상이한 유형의 콘텐츠를 참조할 수 있다.

"깊이 맵", 또는 "디스패러티 맵", 또는 "에지 맵", 또는 유사한 용어들은 또한 넓은 용어가 되도록 의도된다. 맵은 일반적으로, 예를 들어, 특정 유형의 정보를 포함하는 화상을 참조할 수 있다. 그러나, 한 맵은 그 명칭에 의해 표시되지 않은 다른 유형의 정보를 포함할 수 있다. 예를 들어, 깊이 맵은 일반적으로 깊이 정보를 포함하지만, 또한, 예를 들어, 비디오 또는 에지 정보와 같은 다른 정보를 포함할 수 있다.

예를 들어, "A/B", "A 및/또는 B" 및 "A 및 B 중 적어도 하나"의 경우에, "/", "및/또는", 및 "적어도 하나" 중 어느 하나의 이용은 오직 첫 번째 기재된 옵션(A)의 선택 또는, 오직 두 번째 기재된 옵션(B)의 선택, 또는 두 가지 옵션(A 및 B) 모두의 선택을 포함하는 것으로 의도된다는 것을 인식되어야 한다. 다른 예에서 처럼, "A, B, 및/또는 C", 및 "A, B, 및 C 중 적어도 하나" 및 "A, B, 또는 C 중 적어도 하나"의 경우에, 이러한 어법은, 오직 첫 번째 기재된 옵션(A)의 선택, 또는 오직 두 번째 기재된 옵션(B)의 선택, 또는 오직 세 번째 기재된 옵션(C)의 선택, 또는 오직 첫 번째 및 두 번째 기재된 옵션들(A 및 B)의 선택, 또는 오직 첫 번째 및 두 번째 옵션(A 및 C)의 선택, 또는 오직 두 번째 및 세 번째 옵션(B 및 C)의 선택, 또는 모든 3가지 옵션(A 및 B 및 C)의 선택을 포함하는 것으로 의도된다. 이는, 기재된 많은 항목에 대해, 본 발명 및 관련된 기술에 숙련된 사람에 의해 용이하게 알 수 있는 것처럼, 확장될 수 있다.

다양한 구현은 예를 들어, 왜곡 또는 품질을 결합하는 것, 또는 왜곡 또는 품질의 인디케이터의 결합하는 것에서 “결합한다”를 참조한다. "결합하는 것"은 또한 다양한 구현들에서 축적하거나, 또는 풀리으로서 참조한다. "결합하는 것"은, 다양한 구현에 있어서, 예를 들어, 가산 연산, 곱셈 연산, 지수 연산, 최소를 선택하는 연산, 또는 최대를 선택하는 연산의 적어도 하나를 사용하여 실행된다.

추가적으로, 많은 구현들은 인코더(예를 들어, 인코더(802)), 디코더(예를 들어, 디코더(906)), 후처리기(예를 들어, 프로세서(908)) 디코더로부터 출력을 처리, 또는 인코더에 입력을 제공하는 전처리기(예를 들어, 프로세서(801)) 중 하나 이상에서 실행될 수 있다. 본 응용에서 설명된 프로세서들은, 다양한 구현에 있어서, 예를 들어, 프로세스, 기능, 또는 연산을 실행하도록 전체적으로 구성된 다수의 프로세서(서브-프로세서)를 포함한다. 예를 들어, 프로세서(801) 및 프로세서(908)는, 다양한 구현에 있어서, 각각의 프로세서(801 및 808)의 연산을 실행하도록 전체적으로 구성된 다수의 서브-프로세서로 각각 구성된다. 또한, 다른 구현들은 본 공개에 의해 고려된다.

본 명세서에 기재된 구현은 예를 들어, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림, 또는 신호에 의해 실현될 수 있다. 심지어 단일 형태의 구현(예를 들어, 방법으로만 설명)의 컨텍스트에서 설명되었지만, 설명한 기능의 구현은 다른 형태(예를 들어, 장치 또는 프로그램)로 구현될 수도 있다. 한 장치는, 예를 들어, 적당한 하드웨어, 소프트웨어 및 펌웨어로 구현될 수 있다. 방법들은, 예를 들어, 컴퓨터, 셋-탑 박스, 게이트웨이, 라우터, 마이크로프로세서, 집적 회로, 또는 프로그램 가능한 논리 디바이스를 포함하는 처리 디바이스로 일반적으로 지칭하는 프로세서와 같은 장치로 구현될 수 있다. 또한, 프로세서들은, 예를 들어, 컴퓨터, 셀 폰, 휴대용/개인용 디지털 어시스턴트("PDAs"), 태블릿, 랩탑, 및 단말 사용자들 간의 정보의 통신을 용이하게 하는 다른 디바이스와 같은 통신 디바이스를 포함한다. 또한, 프로세서는 예를 들어, 프로세스, 기능, 또는 연산을 수행하도록 전체적으로 구성된 다수의 프로세서를 포함할 수 있다. 전체적인 구성 및 성능은 예를 들어, 특정 태스크를 위한 전용 서브-프로세서의 사용과 같은 본 기술에 공지된 다양한 기술 중 하나를 사용하여 달성될 수 있다.

본 명세서에 기재된 다양한 프로세스 및 기능의 구현은 다양한 상이한 장비 또는 응용들로 구현될 수 있으며, 특히, 예를 들어, 데이터 인코딩, 데이터 디코딩, 뷰 생성, 깊이 또는 디스패러티 처리, 및 화상과 관련된 깊이 및/또는 디스패러티 맵의 다른 처리와 연관된 장비 또는 응용에 의해 구현될 수 있다. 이러한 장비의 예들은 인코더, 디코더, 디코더로부터 출력을 처리하는 후처리기, 인코더에 입력을 제공하는 전처리기, 인코더, 비디오 코더, 비디오 디코더, 비디오 코덱, 웹 서버, 셋-톱 박스, 랩탑, 개인용 컴퓨터, 태블릿, 셀 폰, PDA, 및 다른 통신 디바이스를 포함한다. 자명한 것처럼, 장비는 모바일일 수 있으며, 심지어 이동 차량에 설치될 수 있다.

추가적으로, 방법들은 프로세서(또는, 명령어를 수행하도록 구성된 다수의 프로세서)에 의해 수행되는 명령어에 의해 구현될 수 있으며, 그러한 명령어(및/또는 구현에 의해 생성된 데이터 값)는 예를 들어, 하드 디스크, 콤팩트 디스켓("CD"), 광학 디스크(예를 들어, 디지털 다용도 디스크 또는 디지털 비디오디스크로서 종종 지칭되는 "DVD"와 같은), 랜덤 액세스 메모리("RAM"), 또는 판독-전용 메모리("ROM")와 같은 집적 회로, 소프트웨어 캐리어 또는 다른 저장 디바이스와 같은 프로세서-판독 가능 매체에 저장될 수 있다. 명령어는 프로세서-판독 가능한 매체에 구현되는 응용 프로그램을 형성할 수 있다. 명령어는, 예를 들어, 하드웨어, 펌웨어, 소프트웨어, 또는 조합으로 될 수 있다. 명령어는 예를 들어, 운영 시스템, 분리된 응용, 또는 두 개의 조합으로 발견될 수 있다. 따라서, 프로세서는, 예를 들어, 프로세스를 수행하도록 구성된 디바이스와 프로세스를 실행하기 위한 명령어를 갖는 프로세서-판독 가능한 매체(예를 들어, 저장 디바이스)를 포함하는 디바이스 모두를 특징으로 할 수 있다. 또한, 프로세서-판독 가능한 매체는, 명령어와 함께 또는 명령어 대신에, 구현에 의해 생성된 데이터 값을 저장할 수 있다.

본 기술의 숙련된 사람에게 명백한 것처럼, 구현은 예를 들어, 저장 또는 전송될 수 있는 정보를 운반하도록 포맷된 다양한 신호를 생성할 수 있다. 정보는 예를 들어, 방법을 실행하기 위한 명령어, 또는 기재된 구현 중 하나에 의해 생성된 데이터를 포함할 수 있다. 예를 들어, 표준의 구문을 기록 또는 판독하기 위한 규칙을 데이터로서 운반하거나, 표준을 위해 기록된 실제의 구문 값을 데이터로서 운반하도록 신호가 포맷될 수 있다. 이러한 신호는, 예를 들어, 전자기파(예를 들어, 스펙트럼의 무선 주파수 부분을 사용) 또는 기저 대역 신호로서 포맷될 수 있다. 이러한 포맷은, 예를 들어, 데이터 스트림을 인코딩하고, 인코딩된 데이터 스트림으로 캐리어를 변조하는 것을 포함한다. 신호를 운반하는 정보는, 예를 들어, 아날로그 또는 디지털 정보가 될 수 있다. 이 신호는 공지된 것과 같은 다양한 상이한 유선 또는 무선 링크를 통해 전송될 수 있다. 신호는 프로세서-판독 가능한 매체에 저장될 수 있다.

다수의 구현이 설명되었다. 그럼에도 불구하고, 다양한 변경안이 이루어질 수 있음을 알 수 있다. 예를 들어, 상이한 구현의 요소들은 다른 구현을 생성하기 위하여 결합, 보충, 수정, 또는 제거될 수 있다. 추가적으로, 숙련된 사람은 알 수 있을 것이다. 다른 구조 및 프로세스는 설명한 것들로 치환될 수 있고, 생성된 구현은 설명된 구현과 적어도 실질적으로 동일한 결과(들)를 성취하기 위하여 적어도 실질적으로 동일한 방법(들)로, 적어도 실질적으로 동일한 기능(들)을 실행할 것임을 알 수 있다. 이에 따라, 이들 및 다른 구현은 본 응용에 의해 고려된다.

512-518...원인 분석 모듈
520...효과 스위칭 모듈
532...효과 1 추정 모듈
534...효과 2 추정 모듈
536...플레이스홀더 효과 추정 모듈

Claims

방법으로서,
비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 1 세트가 디스플레이되지 않는 것을 나타내는 정보를 액세스하는 단계;
비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 2 세트가 디스플레이되지 않는 것을 나타내는 정보를 액세스하는 단계로서, 제 2 세트는 비디오 시퀀스의 제 1 세트에서 분리되는, 정보를 액세스하는 단계;
제 1 인디케이터를 결정하는 단계로서, 제 1 인디케이터는, 화상의 제 1 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 1 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 다수의 유형의 왜곡 효과 중 주어진 유형의 왜곡 효과와 연관된 왜곡의 양을 나타내는, 제 1 인디케이터를 결정하는 단계; 및
제 2 인디케이터를 결정하는 단계로서, 제 2 인디케이터는, 화상의 제 2 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 2 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 주어진 유형의 왜곡 효과와 연관된 왜곡의 양을 나타내는, 제 2 인디케이터를 결정하는 단계;
주어진 유형의 왜곡 효과에 대한 왜곡의 결합된 인디케이터를 생성하기 위하여 제 1 인디케이터 및 제 2 인디케이터를 결합하는 단계를 포함하는, 방법.
제 1 항에 있어서,
주어진 유형의 왜곡 효과에 대한 왜곡의 결합된 인디케이터에 기초하여 다수의 유형의 왜곡 효과에 걸쳐 전체 왜곡의 인디케이터를 결정하는 단계를 더 포함하는, 방법.
제 1 항에 있어서,
제 3 인디케이터를 결정하는 단계로서, 제 3 인디케이터는, 화상의 제 1 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 1 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 다수의 유형의 왜곡 효과 중 부가적인 유형의 왜곡 효과와 연관된 왜곡의 양을 나타내는, 제 3 인디케이터를 결정하는 단계;
제 4 인디케이터를 결정하는 단계로서, 제 4 인디케이터는, 화상의 제 2 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 2 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 부가적인 유형의 왜곡 효과와 연관된 왜곡의 양을 나타내는, 제 4 인디케이터를 결정하는 단계; 및
부가적인 유형의 왜곡 효과에 대한 왜곡을 나타내는 왜곡의 부가적인 결합된 인디케이터를 생성하기 위하여 제 3 인디케이터 및 제 4 인디케이터를 결합하는 단계를 더 포함하는, 방법.
제 3 항에 있어서,
주어진 유형의 왜곡 효과에 대한 왜곡의 결합된 인디케이터와 부가적인 유형의 왜곡 효과에 대한 왜곡의 부가적인 결합된 인디케이터에 기초하여 다수의 유형의 왜곡 효과에 걸쳐 전체 왜곡의 인디케이터를 결정하는 단계를 더 포함하는, 방법.
제 1 항에 있어서,
주어진 유형의 왜곡 효과는 하나 이상의 저크 효과, 일시 정지 효과, 또는 점프 효과를 포함하는, 방법.
제 1 항에 있어서,
왜곡의 결합된 인디케이터는 화상의 제 1 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 1 화상과 화상의 제 2 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 2 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 주어진 유형의 왜곡 효과에 대한 전체 왜곡을 나타내는, 방법.
제 1 항에 있어서,
제 1 인디케이터와 제 2 인디케이터를 결합하는 단계는 제 1 인디케이터와 제 2 인디케이터를 비선형 방식으로 결합하는 단계를 포함하는, 방법.
제 1 항 또는 제 7 항 중 어느 한 항에 있어서,
제 3 인디케이터를 결정하는 단계로서, 제 3 인디케이터는, 디스플레이되지 않는 비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 3 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 동일한 제 3 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 주어진 유형의 왜곡 효과와 연관된 왜곡의 양을 나타내고, 제 3 세트는 비디오 시퀀스의 제 1 세트 및 제 2 세트 모두로부터 분리되는, 제 3 인디케이터를 결정하는 단계를 더 포함하고,
결합하는 단계는 제 1 및 제 2 인디케이터와 제 3 인디케이터를 결합하는 단계를 더 포함하고, 결합하는 단계는 제 1 세트, 제 2 세트 및 제 3 세트의 인접한 세트들의 위치들 사이의 편차에 의해 역으로 변화하는 왜곡의 결합된 인디케이터를 생성하는 결합의 함수를 사용하는, 방법.
제 8 항에 있어서,
함수는 편차를 반영하는 지수를 포함하는, 방법.
제 9 항에 있어서,
지수는 결합되는 인디케이터의 수를 또한 반영하는, 방법.
제 8 항에 있어서,
주어진 유형의 왜곡 효과는 저크 효과인, 방법.
방법으로서,
비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 1 세트가 디스플레이되지 않는 것을 나타내는 정보를 액세스하는 단계;
비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 2 세트가 디스플레이되지 않는 것을 나타내는 정보를 액세스하는 단계로서, 제 2 세트는 비디오 시퀀스의 제 1 세트로부터 분리되는, 정보를 액세스 하는 단계;
제 1 인디케이터를 결정하는 단계로서, 제 1 인디케이터는, 화상의 제 1 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 1 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 하나 이상의 유형의 왜곡 효과에 걸쳐 왜곡의 양을 나타내는, 제 1 인디케이터를 결정하는 단계; 및
제 2 인디케이터를 결정하는 단계로서, 제 2 인디케이터는, 화상의 제 2 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 2 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 하나 이상의 유형의 왜곡 효과에 걸쳐 왜곡의 양을 나타내는, 제 2 인디케이터를 결정하는 단계;
왜곡의 결합된 인디케이터를 생성하기 위하여 제 1 인디케이터 및 제 2 인디케이터를 비선형 방식으로 결합하는 단계를 포함하는, 방법.
제 12 항에 있어서,
왜곡의 결합된 인디케이터는 화상의 제 1 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 1 화상과 화상의 제 2 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 2 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 주어진 유형의 왜곡 효과에 대한 전체 왜곡을 나타내는, 방법.
제 12 항에 있어서,
하나 이상의 유형의 왜곡 효과는 오직 단일 유형의 왜곡 효과를 포함하는, 방법.
제 14 항에 있어서,
단일 유형의 왜곡 효과는 저크 효과인, 방법.
제 12 항에 있어서,
제 3 인디케이터를 결정하는 단계로서, 제 3 인디케이터는, 디스플레이되지 않는 비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 3 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 동일한 제 3 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 하나 이상의 유형의 왜곡 효과에 걸쳐 왜곡의 양을 나타내고, 제 3 세트는 비디오 시퀀스의 제 1 세트 및 제 2 세트 모두로부터 분리되는, 제 3 인디케이터를 결정하는 단계를 더 포함하고,
결합하는 단계는 제 1 및 제 2 인디케이터와 제 3 인디케이터를 결합하는 단계를 더 포함하고, 결합하는 단계는 제 1 세트, 제 2 세트 및 제 3 세트의 인접한 세트들의 위치들 사이의 편차에 의해 역으로 변화하는 왜곡의 결합된 인디케이터를 생성하는 결합의 함수를 사용하는, 방법.
제 16 항에 있어서,
함수는 편차를 반영하는 지수를 포함하는, 방법.
제 17 항에 있어서,
지수는 결합되는 인디케이터의 수를 또한 반영하는, 방법.
제 1 항 내지 제 18 항의 하나 이상의 방법을 실행하도록 구성된, 장치.
제 19 항에 있어서,
장치는 하나 이상의 디코더, 복조기, 수신기, 셋톱 박스, 게이트웨이, 라우터, 태블릿 또는 프로세서를 포함하는, 장치
제 19 항에 있어서,
장치는 제 1 항 내지 제 18 항의 하나 이상의 방법을 실행하도록 구성된 프로세서를 포함하는, 장치.
제 19 항에 있어서,
장치는,
비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 1 세트가 디스플레이되지 않는 것을 나타내는 정보를 액세스하는 수단;
비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 2 세트가 디스플레이되지 않는 것을 나타내는 정보를 액세스하는 수단으로서, 제 2 세트는 비디오 시퀀스의 제 1 세트로부터 분리되는, 정보를 액세스하는 수단;
제 1 인디케이터를 결정하는 수단으로서, 제 1 인디케이터는, 화상의 제 1 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 1 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 다수의 유형의 왜곡 효과 중 주어진 유형의 왜곡 효과와 연관된 왜곡의 양을 나타내는, 제 1 인디케이터를 결정하는 수단; 및
제 2 인디케이터를 결정하는 수단으로서, 제 2 인디케이터는, 화상의 제 2 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 2 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 주어진 유형의 왜곡 효과와 연관된 왜곡의 양을 나타내는, 제 2 인디케이터를 결정하는 수단;
주어진 유형의 왜곡 효과에 대한 왜곡의 결합된 인디케이터를 생성하기 위하여 제 1 인디케이터 및 제 2 인디케이터를 결합하는 수단을 포함하는, 장치.
제 19 항에 있어서,
장치는,
비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 1 세트가 디스플레이되지 않는 것을 나타내는 정보를 액세스하는 수단;
비디오 시퀀스로부터 하나 이상의 연속된 화상의 제 2 세트가 디스플레이되지 않는 것을 나타내는 정보를 액세스하는 수단으로서, 제 2 세트는 비디오 시퀀스의 제 1 세트로부터 분리되는, 정보를 액세스하는 수단;
제 1 인디케이터를 결정하는 수단으로서, 제 1 인디케이터는, 화상의 제 1 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 1 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 하나 이상의 유형의 왜곡 효과에 걸쳐 왜곡의 양을 나타내는, 제 1 인디케이터를 결정하는 수단; 및
제 2 인디케이터를 결정하는 수단으로서, 제 2 인디케이터는, 화상의 제 2 세트에 대한 디스플레이 시간 동안 디스플레이되는 실질적으로 공통 제 2 화상으로 비디오 시퀀스의 디스플레이로부터 발생하는 하나 이상의 유형의 왜곡 효과에 걸쳐 왜곡의 양을 나타내는, 제 2 인디케이터를 결정하는 수단;
왜곡의 결합된 인디케이터를 생성하기 위하여 제 1 인디케이터 및 제 2 인디케이터를 비선형 방식으로 결합하는 수단을 포함하는, 장치.
하나 이상의 프로세서로 하여금 제 1 항 내지 제 18 항의 하나 이상의 방법들을 공동으로 실행하도록 하는 명령어들이 저장된, 프로세서 판독 가능한 매체.
제 24 항에 있어서,
프로세서 판독 가능한 매체는 콤팩트 디스크, 디지털 비디오 디스크, 프로세서의 메모리 소자, 또는 전송된 명령어들을 수신하는 수신기의 메모리 소자 중 하나 이상을 포함하는, 프로세서 판독 가능한 매체.