KR20130105870A - 적응적 비디오 코딩을 위한 시스템 및 방법 - Google Patents

적응적 비디오 코딩을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20130105870A
KR20130105870A KR1020137013488A KR20137013488A KR20130105870A KR 20130105870 A KR20130105870 A KR 20130105870A KR 1020137013488 A KR1020137013488 A KR 1020137013488A KR 20137013488 A KR20137013488 A KR 20137013488A KR 20130105870 A KR20130105870 A KR 20130105870A
Authority
KR
South Korea
Prior art keywords
video
video data
sampling
coding
sampling rate
Prior art date
Application number
KR1020137013488A
Other languages
English (en)
Inventor
세하드 도켄
지펭 첸
지에 동
안 예
Original Assignee
브이아이디 스케일, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 브이아이디 스케일, 인크. filed Critical 브이아이디 스케일, 인크.
Publication of KR20130105870A publication Critical patent/KR20130105870A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding

Abstract

코딩 처리에 의해 유도된 전체 왜곡을 감소시키도록 비디오 데이터를 코딩하기 위한 최적화 샘플링 비율을 결정하는 시스템 및 방법이 개시된다. 다운샘플링 중에 유도된 정보 손실과 코딩 중에 유도된 정보 손실의 조화를 추구한다. 샘플링 비율은 일반적으로 다운샘플링 처리 및 코딩 처리를 통하여 유도된 전체 오차를 감소, 또는 일부 경우에는 최소화함으로써 결정되고, 처리되는 비디오 데이터의 콘텐트 및 타겟 비트율에 기초하여 적응될 수 있다. 연산력은 다운샘플링된 비디오를 코딩함으로써 절약될 수 있다. 이 처리는 복수의 다운샘플링 비율을 유도하고, 다운샘플링 및 코딩 단계에서 유도된 총 왜곡량을 감소시키는 다운샘플링 비율을 선택한다. 다운샘플링 비율은 이용가능한 데이터 송신 능력, 입력 비디오 신호 통계, 및/또는 다른 연산 파라미터에 기초하여 선택될 수 있고, 전체 왜곡을 최적으로 감소시킬 수 있다.

Description

적응적 비디오 코딩을 위한 시스템 및 방법{SYSTEMS AND METHODS FOR ADAPTIVE VIDEO CODING}
관련 출원에 대한 교차 참조
이 출원은 2010년 10월 27일자 출원한 미국 가출원 제61/407,329호를 우선권 주장하며, 이 우선권 출원은 여기에서의 인용에 의해 그 전체 내용이 본원에 통합된다.
디지털 비디오 능력은 디지털 텔레비전, 디지털 직접 방송 시스템, 무선 방송 시스템, 개인용 정보 단말기(PDA), 랩톱 또는 테스크톱 컴퓨터, 디지털 카메라, 디지털 녹화 장치, 비디오 게임 장치, 비디오 게임 콘솔, 셀룰러 또는 위성 라디오 전화기 등을 포함한 광범위한 장치에 통합될 수 있다. 많은 디지털 비디오 장치는 MPEG-2, MPEG-4, ITU-T H.263 또는 ITU-T H.264/MPEG-4, 파트 10, 진보형 비디오 코딩(AVC)에 의해 규정된 표준으로 묘사되는 것, 및 상기 표준들의 확장판과 같은 비디오 압축 기술을 구현하여 디지털 비디오 정보를 더욱 효율적으로 송신 및 수신한다. 비록, 무선 통신 기술이 무선 대역폭을 크게 증가시키고 모바일 장치 사용자에 대한 서비스 품질을 개선하였지만, 모바일 인터넷을 통한 고선명(HD) 비디오 콘텐트와 같은 비디오 콘텐트에 대한 빠르게 성장하는 수요는 모바일 비디오 콘텐트 공급자, 분배자 및 캐리어 서비스 공급자에 대한 새로운 난제를 야기한다.
일 실시형태에 따르면, 비디오 인코딩 방법은 비디오 데이터를 수신하는 단계와, 복수의 다운샘플링 비율의 각각에서 샘플링 오차 값을 결정하는 단계를 포함한다. 비디오 인코딩 방법은 소정의 비트율(bit rate)에 대하여 복수의 다운샘플링 비율의 각각에서 코딩 오차 값을 결정하는 단계와, 복수의 다운샘플링 비율의 각각에서 샘플링 오차 값과 코딩 오차 값을 합산하는 단계를 또한 포함할 수 있다. 비디오 인코딩 방법은 선택된 다운샘플링 비율로 샘플링 오차 값과 코딩 오차 값의 합에 기초하여 복수의 다운샘플링 비율 중의 하나를 선택하는 단계와, 선택된 샘플링 비율로 비디오 데이터를 다운샘플링하는 단계와, 다운샘플링된 비디오 데이터를 인코딩하는 단계를 또한 포함할 수 있다.
다른 실시형태에 따르면, 비디오 디코딩 방법은 압축 비디오 데이터를 수신하는 단계와, 선택된 샘플링 비율의 표시를 수신하는 단계를 포함하고, 여기에서 샘플링 비율은 복수의 샘플링 비율에 걸쳐서 샘플링 오차 값과 코딩 오차 값의 합에 기초를 둔다. 비디오 디코딩 방법은 재구성된 비디오 데이터를 형성하기 위해 압축 비디오 데이터를 디코딩하는 단계와, 재구성된 비디오 데이터의 해상도를 증가시키기 위해 재구성된 비디오 데이터를 선택된 샘플링 비율로 업샘플링하는 단계와, 필터링된 비디오 데이터를 출력하는 단계를 또한 포함할 수 있다.
다른 실시형태에 따르면, 비디오 디코딩 시스템은 비디오 디코더를 포함한다. 비디오 디코더는 압축 비디오 데이터를 수신하고, 선택된 샘플링 비율의 표시를 수신하도록 구성될 수 있고, 여기에서 샘플링 비율은 복수의 샘플링 비율에 걸쳐서 샘플링 오차 값과 코딩 오차 값의 합에 기초를 둔다. 비디오 디코더는 재구성된 비디오 데이터를 형성하기 위해 압축 비디오 데이터를 디코딩하고, 재구성된 비디오 데이터의 해상도를 증가시키기 위해 재구성된 비디오 데이터를 업샘플링하며, 업샘플링된 비디오 데이터를 출력하도록 또한 구성될 수 있다.
더 구체적인 이해는 첨부 도면과 함께 예로서 주어지는 이하의 설명으로부터 얻을 수 있다.
도 1은 여기에서 설명하는 적응적 코딩 기술을 이용할 수 있는 예시적인 비디오 인코딩 및 디코딩 시스템을 보인 블록도이다.
도 2는 비디오 신호의 적응적 인코딩을 위한 기술들을 구현할 수 있는 비디오 인코더의 예를 보인 블록도이다.
도 3은 비디오 신호의 적응적 디코딩을 위한 기술들을 구현할 수 있는 비디오 디코더의 예를 보인 블록도이다.
도 4는 입력 비디오에 직접 코덱을 적용하는 코딩 방식을 보인 도이다.
도 5는 다운샘플링 및 업샘플링 단계에서 코딩을 이용하는 예시적인 실시형태를 보인 도이다.
도 6a 및 도 6b는 도 5에 도시된 처리를 샘플링 컴포넌트와 코딩 컴포넌트로 분해한 것을 각각 보인 도이다.
도 7은 하나의 비제한적인 실시형태에 따른 α의 조사표를 보인 도이다.
도 8은 하나의 비제한적인 실시형태에 따른 β의 조사표를 보인 도이다.
도 9a, 9b 및 9c는 각종의 비제한적인 실시형태에 따라서 샘플링 비율 Mi를 찾기 위한 검색 전략을 보인 도이다.
도 10a 및 도 10b는 하나의 비제한적인 실시형태에 따른 처리 흐름도이다.
도 11은 하나의 비제한적인 실시형태에 따른 Nh/Mh의 다운샘플링 비율을 가진 수평 다운샘플링 처리의 블록도이다.
도 12는 예시적인 다운샘플링 처리를 보인 도이다.
도 13은 예시적인 업샘플링 처리를 보인 도이다.
도 14는 예시적인 가우시안 윈도우 함수를 보인 도이다.
도 15는 예시적인 업샘플링 처리 중의 픽셀들을 보인 도이다.
도 16은 하나의 비제한적인 실시형태에 따른 예시적 인코더 구조를 보인 도이다.
도 17은 하나의 비제한적인 실시형태에 따른 예시적 디코더 구조를 보인 도이다.
도 18은 트랜스코더와 관련하여 비디오 데이터의 사전 처리의 예시적인 실시형태를 보인 도이다.
도 19a는 하나 이상의 본 발명의 실시형태가 구현될 수 있는 예시적인 통신 시스템의 계통도이다.
도 19b는 도 19a에 도시된 통신 시스템에서 사용될 수 있는 예시적인 무선 송수신 유닛(WTRU)의 계통도이다.
도 19c, 19d 및 19e는 도 19a에 도시된 통신 시스템에서 사용될 수 있는 예시적인 무선 송수신 유닛(WTRU)의 계통도이다.
멀티미디어 기술과 이동 통신은 최근 대규모로 성장하고 있으며 상업적으로 성공하고 있다. 무선 통신 기술은 무선 대역폭을 크게 증가시켰고 모바일 사용자에 대한 서비스 품질을 크게 증가시켰다. 예를 들면, 3세대 파트너십 프로젝트(3GPP) 롱텀 에볼루션(LTE) 표준은 2세대(2G) 및/또는 3세대(3G)에 비하여 서비스 품질을 개선하였다. 비록 무선 통신 기술이 크게 개선되었지만, 모바일 인터넷을 통한 예컨대 고선명(HD) 비디오 콘텐트와 같은 비디오 콘텐트에 대한 빠르게 성장하는 수요는 모바일 비디오 콘텐트 공급자, 분배자 및 캐리어 서비스 공급자에 대한 새로운 난제를 야기한다.
유선 웹에서 이용가능한 비디오 및 멀티미디어 콘텐트는 사용자들이 모바일 장치로부터 그 콘텐트에 대한 등가의 온디맨드 접속을 희망하게 만들었다. 전세계의 모바일 데이터 트래픽의 대부분은 비디오 콘텐트로 되고 있다. 모바일 비디오는 이 시점에서 시스코 VNI 예측(Cisco VNI Forecast)의 모바일 데이터 부분에서 측정된 임의의 애플리케이션 카테고리에서 최고의 성장률을 갖는다.
비디오 콘텐트 수요가 증가함에 따라서, 이러한 수요를 충족시키기 위해 필요한 데이터의 양도 또한 증가한다. 예를 들면 H.264 (AVC) 표준과 같은 현재의 압축 표준 하에서 비디오 콘텐트를 처리하는 블록 사이즈는 16×16이다. 그러므로, 현재의 압축 표준은 낮은 해상도의 비디오 콘텐트에 대해서는 양호하지만, 예를 들면 HD 비디오 콘텐트와 같은 고품질 및/또는 고해상도 비디오 콘텐트에 대해서는 양호하지 않다. 고품질 및/또는 고해상도 비디오 콘텐트에 대한 수요 및 더욱 진보된 압축 기술의 이용가능성에 힘입어서, 예를 들면 AVC와 같은 현재의 표준에 비하여 고품질 비디오 코딩에 필요한 데이터 전송률을 더욱 낮출 수 있는 비디오 코딩 표준이 생성된다. 예를 들면, 국제 전기통신 연합 비디오 코딩 전문가 그룹(International Telecommunication Union Video Coding Experts group; ITU-VCEG)과 국제 표준화 동영상 전문가 그룹 기구(International Organization for Standardization Moving Picture Experts Group; ISO-MPEG)에 의해 형성된 비디오 코딩에 대한 합동 연구팀(Joint Collaborative Team on Video Coding; JCT-VC)과 같은 그룹들이 비디오 코딩 표준을 개선하는 비디오 코딩 표준을 개발하기 위해 생성되었다.
그러나, 이전의 비디오 표준 개발의 경험에서 볼 때, 새로운 비디오 표준의 예상되는 연구, 개발 및 전개 기간은 모바일 인터넷을 통한 고품질 및/또는 고해상도 비디오 콘텐트 배송에 대한 거대한 수요를 그 수요가 요구하는 것만큼 신속하게 충족시키지 못할 수 있다. 그러므로, 모바일 인터넷을 통한 고품질 및/또는 고해상도 비디오 콘텐트 배송에 대한 성장하는 수요를 충족시킬 수 있는 시스템 및 방법이 필요하다. 예를 들면, 시스템 및 방법은 예를 들면 AVC 비디오 압축 표준에 대한 HD 비디오 콘텐트 호환성과 같은, 현재 표준에 대한 고품질 및/또는 고해상도 비디오 콘텐트 호환성을 위해 제공될 수 있다.
도 1은 여기에서 설명하는 적응적 코딩 기술을 활용할 수 있는 예시적인 비디오 인코딩 및 디코딩 시스템(10)을 보인 블록도이다. 도 1에 도시된 것처럼, 시스템(10)은 인코딩된 비디오를 통신 채널(16)을 통하여 목적지 장치(14)로 전송하는 소스 장치(12)를 포함한다. 소스 장치(12)와 목적지 장치(14)는 광범위한 장치들 중의 임의의 것일 수 있다. 일부 경우에, 소스 장치(12)와 목적지 장치(14)는 비디오 정보를 통신 채널(16)을 통해 통신할 수 있는 무선 핸드셋 또는 임의의 무선 장치와 같은 무선 수신/송신 유닛(WRTU)을 포함할 수 있고, 이 경우에 통신 채널(16)은 무선이다. 그러나, 여기에서 설명하는 시스템 및 방법은 반드시 무선 애플리케이션 또는 세팅으로 한정되는 것이 아니다. 예를 들면, 이 기술들은 OTA(over-the-air) 텔레비전 방송, 케이블 텔레비전 송신, 위성 텔레비전 송신, 인터넷 비디오 송신, 기억 매체에 인코딩된 인코딩 디지털 비디오, 또는 다른 시나리오에 적용할 수 있다. 따라서, 통신 채널(16)은 인코딩된 비디오 데이터의 송신에 적합한 임의의 유무선 매체 조합을 포함할 수 있다.
도 1의 예에서, 소스 장치(12)는 비디오 소스(18), 비디오 인코더(20), 변조기(일반적으로 모뎀이라고 함)(22) 및 송신기(24)를 포함한다. 목적지 장치(14)는 수신기(26), 복조기(일반적으로 모뎀이라고 함)(28), 비디오 디코더(30), 및 디스플레이 장치(32)를 포함한다. 본 발명에 따르면, 소스 장치(12)의 비디오 인코더(20)는 뒤에서 더 자세히 설명하는 적응적 코딩 기술을 적용하도록 구성될 수 있다. 다른 예로서, 소스 장치와 목적지 장치는 다른 컴포넌트 또는 다른 배열을 포함할 수 있다. 예를 들면, 소스 장치(12)는 외부 카메라와 같은 외부 비디오 소스(18)로부터 비디오 데이터를 수신할 수 있다. 마찬가지로, 목적지 장치(14)는 통합된 디스플레이 장치를 내포하는 대신에 외부 디스플레이 장치와 인터페이스 접속할 수 있다. 다른 실시형태에 잇어서, 비디오 인코더에 의해 발생된 데이터 스트림은 예컨대 직접 디지털 전송에 의한 것과 같이, 데이터를 캐리어 신호로 변조할 필요 없이 다른 장치로 운반될 수 있고, 여기에서 상기 다른 장치는 전송을 위해 데이터를 변조할 수도 있고 변조하지 않을 수도 있다.
도 1에 도시된 시스템(10)은 단순히 하나의 예이다. 여기에서 설명하는 기술은 임의의 디지털 비디오 인코딩 및/또는 디코딩 장치에 의해 수행될 수 있다. 비록, 일반적으로 본 발명의 기술들이 비디오 인코딩 장치에 의해 수행되지만, 그 기술들은 전형적으로 "코덱"(CODEC)이라고 부르는 비디오 인코더/디코더에 의해서도 수행될 수 있다. 더욱이, 본 발명의 기술들은 비디오 전처리기에 의해서도 수행될 수 있다. 소스 장치(12)와 목적지 장치(14)는 소스 장치(12)가 목적지 장치(14)로 전송할 부호화 비디오 데이터를 발생하는 그러한 코딩 장치의 단순한 예이다. 일부 예에서, 장치(12, 14)는 이들이 각각 비디오 인코딩 및 디코딩 요소를 포함하고 있기 때문에 실질적으로 유사한 방식으로 동작할 수 있다. 그러므로, 시스템(10)은 예컨대 비디오 스트리밍, 비디오 재생, 비디오 방송, 또는 비디오 전화를 위하여 장치(12, 14)들 간에 단방향 또는 양방향 비디오 송신을 지원할 수 있다. 일부 실시형태에 있어서, 소스 장치는 하나 이상의 목적지 장치에 대하여 인코딩된 비디오 데이터를 발생하는 비디오 스트리밍 서버일 수 있고, 이때 목적지 장치는 유선 및/또는 무선 통신 시스템을 통하여 소스 장치와 통신할 수 있다.
소스 장치(12)의 비디오 소스(18)는 비디오 카메라와 같은 비디오 포착 장치, 이전에 포착한 비디오를 저장하는 비디오 저장부, 및/또는 비디오 콘텐트 공급자로부터의 비디오 공급부를 포함할 수 있다. 다른 대안 예로서, 비디오 소스(18)는 소스 비디오로서 컴퓨터 그래픽 기반 데이터를 발생할 수 있고, 또는 라이브 비디오, 저장된 비디오 및 컴퓨터 발생 비디오의 조합을 발생할 수 있다. 일부 경우에, 만일 비디오 소스(18)가 비디오 카메라이면, 소스 장치(12)와 목적지 장치(14)는 소위 카메라 폰 또는 비디오 폰을 형성할 수 있다. 그러나, 위에서 언급한 것처럼, 이 명세서에서 설명하는 기술들은 일반적으로 비디오 코딩에 적용할 수 있고, 무선 및/또는 유선 애플리케이션에 적용될 수 있다. 각 경우에, 포착된 비디오, 미리 포착된 비디오 또는 컴퓨터 발생 비디오는 비디오 인코더(20)에 의해 인코딩될 수 있다. 인코딩된 비디오 정보는 그 다음에 통신 표준에 따라서 모뎀(22)에 의해 변조되고, 송신기(24)를 통해 목적지 장치(14)에 송신된다. 모뎀(22)은 각종 믹서, 필터, 증폭기 또는 신호 변조용으로 설계된 다른 컴포넌트를 포함할 수 있다. 송신기(24)는 증폭기, 필터, 및 하나 이상의 안테나를 비롯해서 데이터 송신용으로 설계된 회로들을 포함할 수 있다.
목적지 장치(14)의 수신기(26)는 채널(16)을 통해 정보를 수신하고, 모뎀(28)은 정보를 복조한다. 다시, 비디오 디코딩 처리는 여기에서 설명하는 하나 이상의 기술을 구현할 수 있다. 채널(16)을 통하여 전달된 정보는 비디오 인코더(20)에 의해 규정된 구문 정보를 포함할 수 있고, 상기 구문 정보는 비디오 디코더(30)에 의해 또한 사용되며, 매크로블록 및 다른 부호화 유닛, 예를 들면 GOP의 특성 및/또는 처리를 묘사하는 구문 요소를 포함한다. 디스플레이 장치(32)는 디코드된 비디오 데이터를 사용자에게 디스플레이하는 것이고, 각종 디스플레이 장치 중의 임의의 것, 예를 들면, 음극선관(CRT), 액정 디스플레이(LCD), 플라즈마 디스플레이, 유기발광 다이오드(OLED) 디스플레이, 또는 다른 유형의 디스플레이 장치일 수 있다.
도 1의 예에서, 통신 채널(16)은 라디오 주파수(RF) 스펙트럼 또는 하나 이상의 물리적 송신 선로와 같은 임의의 무선 또는 유선 통신 매체, 또는 임의의 유무선 매체 조합을 포함할 수 있다. 통신 채널(16)은 근거리 통신망, 광역 통신망, 또는 인터넷과 같은 글로벌 네트워크 등의 패킷 기반형 네트워크의 일부를 형성할 수 있다. 통신 채널(16)은 일반적으로 유선 또는 무선 매체의 임의의 적당한 조합을 비롯해서, 소스 장치(12)로부터의 비디오 데이터를 목적지 장치(14)로 송신하기 위한, 임의의 적당한 통신 매체, 또는 상이한 통신 매체의 집합을 나타낸다. 통신 채널(16)은 소스 장치(12)로부터 목적지 장치(14)로의 통신을 촉진하는데 유용한 라우터, 스위치, 기지국 또는 임의의 다른 장비를 포함할 수 있다.
비디오 인코더(20) 및 비디오 디코더(30)는 대안적으로 MPEG-4, 파트 10, 진보형 비디오 코딩(AVC)이라고 부르는 ITU-T H.264 표준과 같은 비디오 압축 표준에 따라 동작할 수 있다. 그러나, 본 발명의 기술은 임의의 특수한 코딩 표준으로 제한되지 않는다. 다른 예로는 MPEG-2 및 ITU-T H.263이 있다. 비록 도 1에는 도시되지 않았지만, 일부 양태에 있어서, 비디오 인코더(20)와 비디오 디코더(30)는 오디오 인코더 및 디코더와 각각 통합될 수 있고, 오디오 및 비디오의 인코딩을 공통 데이터 스트림으로 또는 별도의 데이터 스트림으로 취급하기 위해 적당한 다중화-역다중화 유닛, 또는 다른 하드웨어 및 소프트웨어를 포함할 수 있다. 만일 가능하다면, 다중화-역다중화 유닛은 ITU H.223 멀티플렉서 프로토콜, 또는 사용자 데이터그램 프로토콜(UDP)과 같은 다른 프로토콜과 호환될 수 있다.
ITU-T H.264/MPEG-4(AVC) 표준은 합동 비디오 팀(Joint Video Team; JVT)으로서 알려진 공동 파트너십의 제품으로서 ISO/IEC 동영상 전문가 그룹(MPEG)과 함께 ITU-T 비디오 코딩 전문가 그룹(VCEG)에 의해 공식화되었다. 일부 양태에 있어서, 이 명세서에서 설명하는 기술들은 일반적으로 H.264 표준과 호환되는 장치에 적용될 수 있다. H.264 표준은 2005년 3월에 ITU-T 스터디 그룹에 의해 ITU-T 권고 H.264, 일반 시청각 서비스를 위한 진보형 비디오 코딩에서 발표되었고, 여기에서는 H.264 표준 또는 H.264 명세서, 또는 H.264/AVC 표준 또는 명세서라고 부른다. 합동 비디오 팀(JVT)은 H.264/MPEG-4 AVC의 확장형에 대하여 계속하여 연구하고 있다.
비디오 인코더(20)와 비디오 디코더(30)는 하나 이상의 마이크로프로세서, 디지털 신호 프로세서(DSP), 용도 지정 집적회로(ASIC), 현장 프로그램가능 게이트 어레이(FPGA), 이산 로직, 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의 조합과 같은 각종의 적당한 인코더 회로 중의 임의의 것으로서 각각 구현될 수 있다. 비디오 인코더(20)와 비디오 디코더(30)는 각각의 카메라, 컴퓨터, 모바일 장치, 가입자 장치, 방송 장치, 셋톱박스, 서버, 미디어 인식 네트워크 요소 등의 결합형 인코더/디코더(CODEC)의 일부로서 통합될 수 있는 하나 이상의 인코더 또는 디코더에 각각 포함될 수 있다.
비디오 시퀀스는 전형적으로 일련의 비디오 프레임을 포함한다. GOP(group of pictures)는 일반적으로 일련의 하나 이상의 비디오 프레임을 포함한다. GOP는 GOP에 포함된 프레임의 수를 나타내는 구문 데이터를 GOP의 헤더에, GOP의 하나 이상 프레임의 헤더에, 또는 다른 장소에 포함할 수 있다. 각 프레임은 각 프레임의 인코딩 모드를 나타내는 프레임 구문 데이터를 포함할 수 있다. 비디오 인코더(20)는 전형적으로 비디오 데이터를 인코딩하기 위해 개별 비디오 프레임 내의 비디오 블록에서 동작한다. 비디오 블록은 매크로블록, 매크로블록의 일부, 또는 블록 또는 매크로블록의 집합에 대응할 수 있다. 비디오 블록은 고정 사이즈 또는 가변 사이즈를 가질 수 있고, 특유의 코딩 표준에 따라서 사이즈가 변할 수 있다. 각 비디오 프레임은 복수의 슬라이스를 포함할 수 있다. 각 슬라이스는 복수의 매크로블록을 포함할 수 있고, 복수의 매크로블록은 서브블록이라고도 부르는 복수의 파티션으로 배열될 수 있다.
H. 263, MPEG-2, 및 MPEG-4, H.264/AVC(advanced video coding; 진보형 비디오 코딩), HEVC(High efficiency Video Coding; 고효율 비디오 코딩)과 같은 많은 대중적인 비디오 코딩 표준은 움직임 보상 예측 기술을 이용한다. 비디오의 이미지 또는 프레임은 복수의 매크로블록으로 분할될 수 있고, 각 매크로블록은 추가로 분할될 수 있다. I-프레임에서의 매크로블록들은 공간 이웃(즉, I-프레임의 다른 블록들)으로부터의 예측을 이용하여 인코딩될 수 있다. P- 또는 B-프레임에서의 매크로블록들은 그들의 공간 이웃으로부터의 예측(공간 예측 또는 모드 내 인코딩) 또는 다른 프레임 내의 영역으로부터의 예측(시간 예측 또는 모드 간 인코딩)을 이용하여 인코딩될 수 있다. 비디오 코딩 표준은 코딩 정보를 나타내는 구문 요소를 규정한다. 예를 들면, 각 매크로블록에 대하여, H.264는 매크로블록이 분할되는 방식 및 예측(공간적 또는 시간적)의 방법을 나타내는 mb_형 값을 규정한다.
비디오 디코더(20)는 매크로블록의 각 파티션에 대하여 개별적인 모션 벡터를 제공할 수 있다. 예를 들어서, 만일 비디오 인코더(20)가 단일 파티션으로서 전체 매크로블록을 사용하도록 선택하면, 비디오 인코더(20)는 매크로블록에 대하여 하나의 모션 벡터를 제공할 수 있다. 다른 예로서, 만일 비디오 인코더(20)가 16×16 픽셀 매크로블록을 4개의 8×8 파티션으로 분할하는 것을 선택하면, 비디오 인코더(20)는 각 파티션에 대하여 하나씩 4개의 모션 벡터를 제공할 수 있다. 각 파티션(또는 서브-매크로블록 유닛)에 대하여, 비디오 인코더(20)는 모션 벡터 정보를 나타내는 mvd(motion vector difference; 모션 벡터 차) 값 및 ref_idx 값을 제공할 수 있다. mvd 값은 모션 예측기와 관련하여 파티션에 대한 인코딩된 모션 벡터를 나타낸다. ref_idx(reference index; 참조 지수) 값은 잠재적 참조 화상, 즉 참조 프레임의 리스트로의 지수를 나타낼 수 있다. 예로서, H.264는 2개의 참조 화상 리스트, 즉 리스트 0과 리스트 1을 제공한다. ref_idx 값은 2개의 리스트 중 1개 리스트 내의 화상을 식별할 수 있다. 비디오 인코더(20)는 ref_idx 값이 관련되는 리스트를 나타내는 정보를 또한 제공할 수 있다.
일 예로서, ITU-T H.264 표준은 루마(luma) 성분에 대하여 16대16, 8대8, 또는 4대4, 및 채도 성분에 대하여 8×8과 같은 각종 블록 파티션 사이즈의 인트라(intra) 예측, 및 루마 성분에 대하여 16×16, 16×8, 8×16, 8×8, 8×4, 4×8 및 4×4, 및 채도 성분에 대하여 대응하는 스케일 사이즈와 같은 각종 블록 사이즈의 인터(inter) 예측을 지원한다. 이 명세서에서, "N×N"과 "N대N"은 수직 및 수평 치수와 관련하여 블록의 픽셀 치수를 나타내기 위해 상호 교환적으로, 예를 들면 16×16 픽셀 또는 16대16 픽셀과 같이 사용될 수 있다. 일반적으로, 16×16 블록은 수직 방향으로 16개의 픽셀(y=16) 및 수평 방향으로 16개의 픽셀(x=16)을 갖는다. 마찬가지로, N×N 블록은 일반적으로 수직 방향으로 N개의 픽셀 및 수평 방향으로 N개의 픽셀을 가지며, 여기에서 N은 음이 아닌 정수 값을 나타낸다. 블록 내의 픽셀들은 행과 열로 배열될 수 있다. 더욱이, 블록들은 수평 방향과 수직 방향에서 반드시 동일한 수의 픽셀을 가질 필요가 없다. 예를 들면, 블록들은 N×M 픽셀을 포함할 수 있고, 여기에서 M은 N과 반드시 동일할 필요가 없다.
16대16 미만인 블록 사이즈는 16대16 매크로블록의 파티션이라고 부를 수 있다. 비디오 블록은 이산 코사인 변환(DCT), 정수 변환, 웨이브렛 변환, 또는 부호화 비디오 블록과 예측 비디오 블록 간의 픽셀 차를 나타내는 잔차 비디오 블록 데이터와 개념적으로 유사한 변환 등의 변환 응용을 따르는, 픽셀 영역에서 픽셀 데이터의 블록, 또는 변환 영역에서 변환 계수의 블록들을 포함할 수 있다. 일부 경우에, 비디오 블록은 변환 영역에서 양자화 변환 계수의 블록들을 포함할 수 있다.
유사한 비디오 블록들은 더 나은 예측 및 더 적은 잔차(residual)를 제공할 수 있고, 높은 레벨의 세부(detail)를 포함하는 비디오 프레임의 위치에 대하여 사용될 수 있다. 일반적으로, 매크로블록, 및 가끔 서브블록이라고 부르는 각종 파티션은 비디오 블록이라고 생각할 수 있다. 또한, 슬라이스는 매크로블록 및/또는 서브블록과 같은 복수의 비디오 블록이라고 생각할 수 있다. 각 슬라이스는 독립적으로 디코딩할 수 있는 비디오 프레임의 단위이다. 대안적으로, 프레임 자체가 디코딩 가능한 단위일 수 있고, 프레임의 다른 부분이 디코딩 가능한 단위로서 규정될 수 있다. 용어 "부호화 유닛"(coded unit) 또는 "코딩 유닛"(coding unit)은 전체 프레임, 프레임 조각, 시퀀스라고도 부르는 화상 그룹(GOP), 또는 적용가능한 코딩 기술에 따라 규정된 다른 독립적으로 디코딩가능한 유닛과 같은 비디오 프레임의 임의의 독립적으로 디코딩 가능한 유닛을 말할 수 있다.
H.264 표준은 1/4 픽셀 정밀도를 가진 모션 벡터를 지원한다. 즉, H.264를 지원하는 인코더, 디코더 및 인코더/디코더(CODEC)는 전체 픽셀 위치 또는 15개의 부분적 픽셀 위치 중의 하나를 지시하는 모션 벡터를 이용할 수 있다. 부분적 픽셀 위치의 값들은 적응적 보간 필터 또는 고정 보간 필터를 이용하여 결정될 수 있다.일부 예에서, H.264 호환 장치는 필터를 이용하여 하프 픽셀 위치에 대한 값들을 계산하고, 그 다음에 이중 선형 필터(bilinear filter)를 이용하여 나머지 1/4 픽셀 위치에 대한 값들을 결정할 수 있다. 적응 보간 필터는 보간 필터 계수를 적응적으로 규정하기 위해 인코딩 처리 중에 사용되고, 따라서 필터 계수는 적응 보간 필터를 수행할 때 시간에 따라 변할 수 있다.
예측 데이터 및 잔차 데이터를 생성하기 위해 인트라 예측 또는 인터 예측 코딩을 따르고, 변환 계수를 생성하기 위해 임의의 변환(예를 들면, H.264/AVC에서 사용되는 4×4 또는 8×8 정수 변환 또는 이산 코사인 변환(DCT))을 따르면, 변환 계수의 양자화가 수행될 수 있다. 양자화는 일반적으로 계수를 표시하기 위해 사용되는 데이터의 양을 감소시키도록 변환 계수가 양자화되는 처리를 말한다. 양자화 처리는 계수 중의 일부 또는 전부와 관련된 비트 깊이를 감소시킬 수 있다. 예를 들면, n-비트 값은 양자화 중에 m-비트 값으로 절사(round down)될 수 있다. 여기에서 n은 m보다 더 큰 수이다.
양자화를 따르면, 양자화 데이터의 엔트로피 코딩이 예를 들면 콘텐트 적응 가변 길이 코딩(CAVLC), 콘텍스트 적응 이진 산술 코딩(CABAC), 또는 다른 엔트로피 코딩 방법에 따라 수행될 수 있다. 엔트로피 코딩용으로 구성된 처리 유닛, 또는 다른 처리 유닛은 예를 들면 양자화 계수의 제로 런렝쓰 코딩 및/또는 부호화 블록 패턴(CBP) 값, 매크로블록 유형, 코딩 모드, 부호화 유닛의 최대 매크로블록 사이즈(예를 들면, 프레임, 슬라이스, 매크로블록, 또는 시퀀스) 등과 같은 구문 정보의 발생과 같은 다른 처리 기능을 수행할 수 있다.
비디오 인코더(20)는 블록 기반 구문 데이터, 프레임 기반 구문 데이터, 슬라이스 기반 구문 데이터, 및/또는 GOP 기반 구문 데이터와 같은 구문 데이터를 예를 들면 프레임 헤더, 블록 헤더, 슬라이스 헤더 또는 GOP 헤더로 비디오 디코더(30)에 또한 보낼 수 있다. GOP 구문 데이터는 각 GOP 내의 다수의 프레임들을 설명하고, 프레임 구문 데이터는 대응하는 프레임을 인코딩하는데 사용되는 인코딩/예측 모드를 표시할 수 있다.
비디오 디코더(30)는 본 발명의 임의의 기술에 따라 인코딩된 모션 벡터를 포함한 비트스트림을 수신할 수 있다. 따라서, 비디오 디코더(30)는 인코딩된 모션 벡터를 해석하도록 구성될 수 있다. 예를 들면, 비디오 디코더(30)는 먼저 시퀀스 파라미터 집합 또는 슬라이스 파라미터 집합을 분석하여 인코딩된 모션 벡터가 모든 모션 벡터를 하나의 모션 해상도로 유지하는 방법을 이용하여 인코딩되었는지 또는 모션 예측기가 모션 벡터의 해상도로 양자화된 방법을 이용하여 인코딩되었는지 결정할 수 있다. 비디오 디코더(30)는 그 다음에 모션 예측기를 결정하고 인코딩된 모션 벡터의 값을 모션 예측기에 가산함으로써 모션 예측기에 관하여 모션 벡터를 디코딩할 수 있다.
비디오 인코더(20)와 비디오 디코더(30)는 하나 이상의 마이크로프로세서, 디지털 신호 프로세서(DSP), 용도 지정 집적회로(ASIC), 현장 프로그램가능 게이트 어레이(FPGA), 이산 로직 회로, 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의 조합과 같은 적용가능한 각종의 적당한 인코더 또는 디코더 회로 중의 임의의 것으로서 각각 구현될 수 있다. 비디오 인코더(20)와 비디오 디코더(30)는 각각 결합형 비디오 인코더/디코더(CODEC)의 일부로서 통합될 수 있는 하나 이상의 인코더 또는 디코더에 포함될 수 있다. 비디오 인코더(20) 및/또는 비디오 디코더(30)를 포함한 장치는 집적회로, 마이크로프로세서, 및/또는 셀룰러 전화기와 같은 무선 통신 장치를 포함할 수 있다.
도 2는 비디오 신호의 적응적 인코딩을 위한 기술들을 구현하는 비디오 인코더(200)의 예를 보인 블록도이다. 비디오 인코더(200)는 매크로블록 또는 매크로블록의 파티션 또는 서브파티션을 포함한 비디오 프레임 내에서 블록들의 인트라 및 인터 코딩을 수행할 수 있다. 인트라 코딩은 주어진 비디오 프레임 내에서 비디오의 공간 용장성을 감소 또는 제거하기 위해 공간 예측에 의존한다. 인터 코딩은 비디오 시퀀스의 인접 프레임 내에서 비디오의 시간적 용장성을 감소 또는 제거하기 위해 시간 예측에 의존한다. 인트라 모드(I-모드)는 수 개의 공간 기반 압축 모드 중의 임의의 것을 말하고, 단방향 예측(P-모드) 또는 양방향 예측(B-모드)과 같은 인터 모드는 수 개의 시간 기반 압축 모드 중의 임의의 것을 말한다. 비록 인터 모드 인코딩을 위한 컴포넌트들이 도 2에 도시되어 있지만, 비디오 인코더(200)는 인트라 모드 인코딩을 위한 컴포넌트들을 또한 포함할 수 있다는 것을 이해하여야 한다. 그러나, 그러한 컴포넌트들은 간략성 및 명확성을 위해 설명을 생략한다.
입력 비디오 신호(202)는 블록마다 처리된다. 비디오 블록 유닛은 16 픽셀 대 16 픽셀(즉, 매크로블록(MB))일 수 있다. 현재, ITU-T/SG16/Q.6/VCEG 및 ISO/IEC/MPEG의 JCT-VC(비디오 코딩에 대한 합동 연구팀)는 고효율 비디오 코딩(High Efficiency Video Coding; HEVC)라고 부르는 차세대 비디오 코딩 표준을 개발 중에 있다. HEVC에서, 확장된 블록 사이즈("코딩 유닛" 또는 CU라고 부름)는 고 해상도(1080p 및 그 이상) 비디오 신호를 더 효율적으로 압축하기 위해 사용된다. HEVC에서, CU는 최대 64×64 픽셀로 되고 최소 4×4 픽셀로 될 수 있다. CU는 예측 유닛(PU)으로 더욱 분할될 수 있고, 이를 위해 별도의 예측 방법이 적용된다. 각각의 입력 비디오 블록(MB, CU, PU 등)은 공간 예측 유닛(260) 및/또는 시간 예측 유닛(262)을 이용하여 처리될 수 있다.
공간 예측(즉, 인트라 예측)은 동일한 비디오 화상/슬라이스 내의 이미 부호화된 이웃 블록들로부터의 픽셀들을 이용하여 현재의 비디오 블록을 예측한다. 공간 예측은 비디오 신호에 고유한 공간 용장성을 감소시킨다. 시간 예측(즉, 인터 예측 또는 모션 보상 예측)은 이미 부호화된 비디오 화상으로부터의 픽셀들을 이용하여 현재의 비디오 블록을 예측한다. 시간 예측은 비디오 신호에 고유한 시간 용장성을 감소시킨다. 주어진 비디오 블록의 시간 예측은 현재 블록과 하나 이상의 그 참조 블록 간의 모션의 양 및 방향을 표시하는 하나 이상의 모션 벡터에 의해 통상적으로 신호된다.
만일 복수의 참조 화상이 지원되면(H.264/AVC 또는 HEVC와 같은 최근의 비디오 코딩 표준의 경우와 같이), 각 비디오 블록에 대하여, 그 참조 화상 지수가 또한 전송된다. 참조 지수는 참조 화상 기억부(264)의 어떤 참조 화상으로부터 시간 예측 신호가 오는지를 식별하기 위해 사용된다. 공간 및/또는 시간 예측 후에, 인코더의 모드 결정 및 인코더 제어기(280)는 예를 들면 비율 왜곡 최적화 방법에 기초하여 예측 모드를 선택한다. 그 다음에, 예측 블록은 가산기(216)에서 현재 비디오 블록으로부터 감산되고, 예측 잔차(prediction residual)는 변환 유닛(204)에 의해 변환되고 양자화 유닛(206)에 의해 양자화된다. 양자화 잔차 계수는 역양자화 유닛(210)에서 역양자화되고, 역변환 유닛(212)에서 역변환되어 재구성된 잔차를 형성한다. 재구성된 블록은 그 다음에 가산기(226)에서 예측 블록에 다시 가산되어 재구성 비디오 블록을 형성한다. 또한, 재구성된 비디오 블록이 참조 화상 기억부(264)에 저장되고 미래의 비디오 블록을 부호화하기 위해 사용되기 전에, 디블로킹 필터 및 적응 루프 필터(266)와 같은 인루프(in-loop) 필터링이 재구성된 비디오 블록에 적용될 수 있다. 출력 비디오 비트스트림(220)을 형성하기 위해, 코딩 모드(인터 또는 인트라), 예측 모드 정보, 모션 정보 및 양자화 잔차 계수가 엔트로피 코딩 유닛(208)에 보내져서 추가로 압축 및 패킹되어 비트스트림(220)을 형성한다. 뒤에서 더 자세히 설명하는 것처럼, 여기에서 설명하는 시스템 및 방법은 적어도 부분적으로 공간 예측 유닛(260) 내에서 구현될 수 있다.
도 3은 하나의 비제한적인 실시형태에 따른 블록 기반 비디오 디코더의 블록도이다. 비디오 비트스트림(302)이 먼저 언패킹되고 엔트로피 디코딩 유닛(308)에서 엔트로피 디코딩된다. 코딩 모드 및 예측 정보는 예측 블록을 형성하기 위해 공간 예측 유닛(360)(인트라 부호화인 경우) 또는 시간 예측 유닛(362)(인터 부호화인 경우)으로 보내진다. 잔차 변환 계수는 잔차 블록을 재구성하기 위해 역양자화 유닛(310) 및 역변환 유닛(312)으로 보내진다. 예측 블록 및 잔차 블록은 그 다음에 가산기(326)에서 함께 가산된다. 재구성된 블록은 참조 화상 기억부(364)에 저장되기 전에 인루프 필터링 유닛(366)을 추가로 통과할 수 있다. 그 다음에, 재구성된 비디오(320)는 디스플레이 장치를 구동하도록 출력되고, 미래의 비디오 블록을 예측하기 위해 사용될 수 있다.
실시형태에 따르면, 전처리 및/또는 후처리 시스템 구조가 미가공 비디오 데이터를 압축하고 및/또는 예컨대 비트스트림과 같은 이미 인코딩된 비디오 데이터를 트랜스코딩하며, 비디오 스트림의 표준 포맷을 변경하지 않고 변환 영역 양자화 및 공간 영역 다운샘플링을 합동으로 제어함으로써 추가로 압축할 수 있다. 전처리 및/또는 후처리 시스템 구조는 H.263, MPEG-2, 플래시, MPEG-4, H.264/AVC, HEVC 또는 임의의 유사한 멀티미디어 포맷과 같은 임의의 포맷으로 비디오 데이터를 인코딩 및/또는 디코딩할 수 있다. 이러한 및 유사한 포맷들은 예를 들면 위에서 설명한 것과 같이 이산 코사인 변환(DCT), 프랙탈 압축 방법, 정합 추구(matching pursuit), 또는 이산 웨이브렛 변환(DWT)과 같은 비디오 압축 방법을 이용할 수 있다.
H.264/AVC와 같은 각종의 기존 압축 표준의 한계는 예를 들면 16×16과 같은 특정의 매크로블록(MB) 사이즈이다. 1 MB 내에서, 픽셀들은 예측 모드에 의존하여 수 개의 블록 사이즈로 분할될 수 있다. 임의 블록의 최대 사이즈는 16×16이고, 임의의 2개의 MB가 독립적으로 변환되고 양자화될 수 있다. 이 기술은 CIF/QCIF 및 다른 유사한 해상도 콘텐트에 대하여 매우 높은 효율을 제공할 수 있다. 그러나, 예컨대 720p, 1080i/1080p와 같은 높은 해상도 및/또는 유사하거나 더 높은 해상도의 비디오 콘텐트에 대해서는 효율적이지 않을 수 있다. 이것은 근접 지역 내의 픽셀들 간에 매우 높은 상관성이 있기 때문이다. 결과적으로, 특정의 16×16 MB 사이즈는 인접 MB에 걸쳐 그러한 상관성 정보를 이용한 추가의 압축을 제한할 수 있다.
작은 MB 사이즈에 의해 인코딩된 고해상도 콘텐트는 불필요한 오버헤드를 야기할 수 있다. 예를 들면, H.264 비트 스트림에서, 코덱 요소는 4가지 유형의 정보, 즉 1) 예컨대 모션 벡터 및 참조 프레임 지수와 같은 모션 정보; 2) 잔차 데이터; 3) 예컨대 MB 유형, 부호화 블록 패턴, 및/또는 양자화 패턴(QP)과 같은 MB 헤더 정보; 4) 시퀀스 층, 화상 층, 및/또는 슬라이스 층 구문 요소를 포함할 수 있다. 모션 정보 및 잔차 데이터는 콘텐트 의존성이 높기 때문에, MB 헤더 정보 및/또는 구문 요소는 비교적 일정할 수 있다. 따라서, MB 헤더 정보 및/또는 구문 요소는 비트 스트림으로 오버헤드를 표시할 수 있다. 콘텐트 및/또는 인코딩 프로필이 주어지면, 인코더의 더 높은 압축비는 잔차 데이터의 비트율을 감소시킴으로써 달성될 수 있다. 예를 들면, H.264 인코더의 더 높은 압축비는 잔차 데이터의 비트율을 감소시킴으로써 달성될 수 있다. 압축비가 더 높을수록, 오버헤드가 존재할 가능성이 더 높아진다. 결과적으로, 높은 해상도 및/또는 낮은 비트율 애플리케이션에 있어서, 오버헤드는 전송 및 저장을 위해 더 많은 부분의 비트 스트림을 소비할 수 있다. 이러한 더 많은 부분의 비트 스트림이 오버헤드에 의해 소비되게 하는 것은 예컨대 H.264 인코더와 같은 인코더가 낮은 효율을 갖게 할 수 있다.
여기에서 설명하는 시스템 및 방법에 따른 전처리 및/또는 후처리는 더 적은 오버헤드, 모션 보상 정확도와 재구성 정확도의 정렬, 잔차 정확도의 향상, 및/또는 더 적은 복잡성 및/또는 메모리 필요조건을 유도할 수 있다. 더 적은 오버헤드는 MB의 수가 다운샘플링 비율까지 감소될 수 있기 때문에 전처리시에 수행되는 다운샘플링에 기인하여 생성될 수 있다. 따라서, 거의 일정한 MB 헤더 및/또는 슬라이스 층 구문 요소가 감소될 수 있다.
모션 보상 정확도와 재구성 정확도는 비디오 데이터의 전처리 및/또는 후처리시에 또한 정렬될 수 있다. 다운샘플링된 프레임에서, 모션 벡터 차(motion vector difference; MVD)의 수는 감소될 수 있다. 실시형태에 따르면, MVD의 감소는 모션 정보를 인코딩하는 비트를 절약할 수 있다. 실시형태에 있어서, 절약된 비트는 저 비트율 시나리오에서 예측 오차를 인코딩하는데 사용될 수 있다. 그러므로, 재구성 정확도는 모션 보상의 정확도와 양자화 예측 오차의 정확도를 정렬시킴으로써 개선될 수 있다.
비디오 데이터의 전처리 및/또는 후처리는 잔차 정확도를 또한 향상시킬 수 있다. 예를 들면, 다운샘플링된 프레임에서, 동일한 변환 블록 사이즈는 원래 프레임의 더 높은 변환 블록 사이즈에 대응할 수 있다. 일 실시예에 따르면, 8×8 변환 블록 사이즈는 1/4 다운샘플링 비율에서 16×16의 변환 블록 사이즈에 대응할 수 있다. 양자화 단계는 H.264 인코더와 같은 인코더의 변환 계수에 대하여 동일할 수 있기 때문에, 인코더는 고주파수 성분 및 저주파수 성분 둘 다에서 정보를 잃을 수 있다. 그러므로, 여기에서 설명하는 비디오 데이터의 전처리 및/또는 후처리는 고해상도 및 낮은 비트율 인코딩의 경우에 대한 종래의 인코더보다 저주파수 성분의 더 높은 정확도를 보전할 수 있고, 이것은 더 나은 주관적 품질(subjective quality)을 만들 수 있다. 디코더에서의 업샘플링 처리는 원래 프레임을 복구하기 위해 픽셀들을 보간하는 데 사용될 수 있다.
비디오 데이터의 전처리 및/또는 후처리는 또한 더 낮은 복잡성 및/또는 메모리 필요조건을 야기할 수 있다. 다운샘플링 후 인코딩을 위한 픽셀의 수는 다운샘플링 비율까지 감소될 수 있기 때문에, 인코딩(또는 트랜스코딩)의 복잡성 및/또는 메모리 필요조건은 동일한 레벨로 감소될 수 있다. 따라서, 디코딩의 복잡성 및/또는 메모리 필요조건이 또한 동일한 레벨로 감소될 수 있다. 이러한 인코딩 및/또는 디코딩 처리는 예를 들면 이동 전화기 및 다른 자원 제한 장치에서의 인코딩과 같은 저해상도 인코더 및/또는 디코더의 응용을 촉진할 수 있다. 예시적인 실시형태에 따르면, 이러한 인코딩 및/또는 디코딩 처리는 이동 전화기에서 H.264 인코더 및/또는 디코더의 통합 및/또는 응용을 촉진할 수 있다.
고해상도 및/또는 낮은 비트율 응용에서 종래의 인코더의 한계를 다루기 위해, 여기에서 설명하는 시스템 및 방법은 변환 영역 양자화 및 공간 영역 다운샘플링을 독립적으로 및/또는 합동으로 제어하여 추가의 압축을 달성할 수 있다. 양자화 및 다운샘플링은 수용가능한 주관적 품질로 수행될 수 있다. 도 4는 입력 비디오에 코덱(즉, H.264/AVC 코덱)을 직접 적용하는 코딩 방식을 보인 것이다. 도 5는 다운샘플링 및 업샘플링 단계에서 코딩을 활용하는 예시적인 실시형태를 보인 것이다. 도 4에 도시된 방식과 비교하면, 도 5에 도시된 방식은 코딩 단계에서 인트라 및 인터 예측 오차를 부호화하기 위해 더 많은 비트를 할당할 수 있고, 그러므로, 더 높은 시각적 품질을 가진 더 나은 재구성을 획득할 수 있다. 비록 다운샘플링이 정보 손실을 야기하지만(특히 고주파수 성분), 동작 비트율이 네트워크 한계 때문에 낮을 때, 코딩 단계에서의 더 나은 재구성이 다운샘플링 처리에서의 세부 손실(detail loss)을 능가할 수 있고, 그래서 전체적으로 더 나은 시각적 품질이 제공된다. 게다가 더 작은(즉, 다운샘플링된) 비디오를 코딩함으로써 연산력이 절약될 수 있다. 그러나, 다운샘플링은 코딩 처리 전에 정보 손실을 야기하기 때문에, 만일 원래 비디오가 너무 많이 다운샘플링되면, 앞에서 유도된 정보 손실은 코딩 단계에서 높은 신뢰성의 이익을 능가할 수 있다. 따라서, 여기에서 설명하는 시스템 및 방법은 일반적으로 다운샘플링 중에 유도된 정보 손실과 코딩 중에 유도된 정보 손실을 조화시키는 것을 추구한다. 구체적으로, 여기에서 설명하는 처리는 복수의 다운샘플링 비율을 유도할 수 있고, 다운샘플링 및 코딩 단계 중에 유도된 총 왜곡량을 감소시키는 다운샘플링 비율을 선택할 수 있다. 선택된 다운샘플링 비율은 이용가능한 데이터 송신 능력, 입력 비디오 신호 통계, 및/또는 다른 동작 파라미터가 주어질 때 선택될 수 있다. 일부 실시형태에 있어서, 선택된 다운샘플링 비율은 전체 왜곡을 최적으로 감소시키는 다운샘플링 비율일 수 있다.
여기에서 설명하는 필터에 의해 제공되는 융통성은 예를 들면 2×2 다운샘플링 및 업샘플링만을 제공할 수 있는 안티앨리어싱 필터와 같은 다른 필터보다 더 유용할 수 있다. 예를 들면 CIF에 대하여 512 kbits/s와 같은 높은 비트율에서, 다운샘플링 비율 2×2는 너무 높아서 고주파수 성분이 크게 손실되고 무손실 코딩을 이용하는 경우에도 보상될 수 없다. 그러므로, 높은 비트율에서, 샘플링 비율은 해상도 감소와 세부 보전 간에 트레이드오프를 제공하도록 조정될 수 있다.
이제, 도 5를 참조하면, M이라고 표시된 다운샘플링 비율은 이용가능한 데이터 송신 능력, 비디오와 관련된 베어러의 서비스 분류 식별자 품질(Quality of Service Class Identifier; QCI), 및 입력 비디오 신호의 특성과 같은 각종 파라미터의 함수로서 결정될 수 있는 변수이다. 예를 들어서, 만일 데이터 송신 능력이 입력 비디오 신호에 대하여 비교적 풍부하면, H.264/AVC 인코더는 예측 오차를 부호화하기에 충분한 비트를 가질 것이고; 이 경우에, M의 값은 1.0에 가깝게 설정할 수 있다. 반면에, 만일 데이터 송신 능력이 입력 신호에 대하여 불충분한 것으로 간주되면, 다운샘플링 처리에 기인하는 정보 손실이 코딩 단계에 기인하는 더 작은 코딩 에러에 의해 잘 보상될 것이기 때문에, 더 큰 M의 값이 선택될 수 있다(그 결과, 더 많은 다운샘플링이 야기된다). 데이터 송신 능력은 일반적으로 미세 입도(fine granularity)일 수 있는 비트율에 의해 표시되기 때문에, 각종 실시형태에서, M의 값은 매우 유연적일 수 있다. 뒤에서 더 자세히 설명하는 것처럼, 시스템 및 방법은, 적어도 부분적으로, 이용가능한 데이터 송신 능력 및 입력 비디오 신호에 기초하여 선택 샘플링 비율(M)을 결정하도록 제공된다. 선택 샘플링 비율(M)이 주어지면, 전용 필터가 코딩을 위해 비디오를 다운샘플링하고 디스플레이를 위해 디코드된 비디오를 업샘플링하도록 계산될 수 있다. 임의의 합리적인 값의 샘플링 비율에 대하여 안티앨리어싱 필터를 설계하는 각종 기술은 뒤에서 도 11 내지 도 15와 관련하여 더 자세히 설명된다.
다시, 도 4 및 도 5를 참조하면, 비디오 입력이 f로서 표시되고, 종래의 코덱의 출력은 f1으로 표시되며, 시스템 및 방법에 따른 예시적인 코덱의 출력은 f2로서 표시되어 있다. 도 4에서 코덱의 재구성 오차는 수학식 1과 같이 규정될 수 있다.
Figure pct00001
도 5에서 코덱의 재구성 오차는 수학식 2와 같이 규정될 수 있다.
Figure pct00002
그러므로, 만일 σ2 2가 σ1 2보다 더 작으면, 도 5의 코덱은 도 4의 코덱보다 성능이 더 양호하다. 여기에서 설명하는 시스템 및 방법에 따르면, σ2 2과 σ1 2 간의 갭은 수학식 3에 나타낸 것처럼 M을 구함으로써 증가될 수 있다(어떤 경우에는 최대화될 수 있다).
Figure pct00003
σ1 2은 주어진 타겟 비트율에 대하여 일정하기 때문에, 일부 실시형태에 있어서 수학식 3은 수학식 4와 같이 단순화될 수 있다.
Figure pct00004
그러므로, 여기에서 설명하는 시스템 및 방법에 따르면, 주어진 비트율에 대하여, 샘플링 비율(M)은 도 5에 도시된 코덱의 재구성 오차(σ2 2)가 감소되도록 식별될 수 있다. 일부 실시형태에 있어서, 재구성 오차가 최소(또는 적어도 실질적으로 거의 최소)로 되게 하는 샘플링 비율(M)이 결정될 수 있다. 일부 실시형태에 있어서, 샘플링 비율(M)은 미리 정해진 샘플링 비율의 집합 중에서 선택되고, 이때 선택된 비율(M)은 미리 정해진 샘플링 비율의 집합 중에서 최소 재구성 오차를 제공한다.
일부 실시형태에 있어서, M은 스칼라이고, 수평 방향과 수직 방향은 동일한 비율을 갖는다. 비디오의 해상도(W×H)가 주어지면, 다운샘플링된 비디오의 해상도는 W/M×H/M이다. 비정방형 샘플(즉, 샘플 종횡비(sample aspect ratio; SAR)가 1:1이 아님)을 지원하고 다운샘플링된 비디오를 정확한 화상 종횡비(picture aspect ratio; PAR)를 가진 전해상도로 보간할 수 있는 디코더에 대한 일부 실시형태에 대하여, 수평 비율과 수직 비율은 다를 수 있다. 이 경우에, M=[Mh, Mv]는 벡터일 수 있고, Mh 와 Mv는 각각 수평 방향과 수직 방향의 샘플링 비율을 나타낸다. 따라서, 일부 예시적인 실시형태가 스칼라와 관련하여 설명되지만, 본 발명은 그것으로 제한되지 않는다. 그 대신에, 일부 실시형태는 각 방향에 대하여 고르지 않은 비율이 적용되는 코딩 처리를 이용할 수 있다.
설명의 용이성을 위해, 도 5에 도시된 처리는 샘플링 성분(도 6a)과 코딩 성분(도 6b)으로 분해될 수 있다. 도 6a에 도시된 샘플링 성분을 참조하면, 최초의 입력 비디오 시퀀스(f)에 대하여, 계수 M(602)에 의한 다운샘플링 직후에 계수 M(608)에 의한 업샘플링이 적용되어 f3를 발생한다. 즉 f와 f3 간의 오차는 샘플링에 의해서만 야기되고, "다운샘플링 오차"라고 부르며, σd 2으로 표시되고, 이것은 수학식 5와 같이 규정될 수 있다.
Figure pct00005
도 6b에 도시된 코딩 성분을 참조하면, 입력은 다운샘플링된 d1이고 d1은 인코더(612)에 의해 인코딩되고 디코더(614)에 의해 디코딩되어 d1의 퇴화 버전(degraded version)인 재구성 신호(d2)를 만든다. d1과 d2 간의 오차는 코딩에 의해서만 야기되고, "코딩 오차"라고 부르며, σc 2으로 표시되고, 이것은 수학식 6과 같이 규정될 수 있다.
Figure pct00006
따라서, σ2 2(수학식 2)과 σd 2과 σc 2간의 관계는 수학식 7과 같이 규정될 수 있다.
Figure pct00007
그러므로, 수학식 4에서의 최적화 문제는 수학식 8과 같이 재작성될 수 있다.
Figure pct00008
수학식 6과 수학식 7에서, μ는 [0,1]의 범위에서의 가중 계수이다. 일반성을 상실하지 않고 간단히 하기 위해, 가중 계수(μ)는 여기에서 설명하는 예시적인 실시형태에 대하여 1로 설정된다.
샘플링 오차의 추정
샘플링 단계 중에, f는 f가 다운샘플링되기 전에 저역통과 필터 유형일 수 있는 안티앨리어싱 필터에 의해 필터링된다. 예시적인 필터에 관한 추가적인 세부는 뒤에서 도 11 내지 도 15와 관련하여 설명된다. f3(도 6a)로 표시된 샘플링 단계의 출력은, f3가 f에 적용된 안티앨리어싱 필터의 차단 주파수보다 더 높은 주파수 성분과 함께 에너지 성분을 더 이상 갖지 않기 때문에, f의 흐림 버전(blurred version)이다. 그러므로, 일부 실시형태에 있어서, 샘플링 오차는 f에는 존재하지만 f3에서는 손실된 고주파수 성분의 에너지를 측정함으로써 주파수 영역에서 측정될 수 있다. 각종 실시형태에 따르면, f의 에너지 분포는 뒤에서 더 자세히 설명되는 것처럼, 실제 파워 스펙트럼 밀도(PSD) 또는 추정 PSD에 기초하여 모델링될 수 있다. 대안적으로, 비디오 신호의 주파수 콘텐트에 대한 샘플링 비율 효과를 평가하기 위해 다른 기술들이 사용될 수 있다.
f의 PDS 의 데이터 기반 추정
자기 상관 R(τh, τv)와 함께 WSS(Wide-Sense Stationary) 랜덤 필드가 주어지면, PSD Sxx12)는 수학식 9에서와 같이 2-D 이산 시간 퓨리에 변환(DTFT)에 의해 계산될 수 있다.
Figure pct00009
R(τh, τv)는 비디오 신호 집합에 기초한 추정치이다. 추정 R(τh, τv)에 2-D DTFT를 적용하면 추정 PSD가 생성되고, 이것은 더 이상 일정하지 않다. 각종 실시형태에 따르면, PSD는 수학식 10으로 주어지는 것과 같은 랜덤 필드의 주기도분석(periodgram)에 의해 추정된다.
Figure pct00010
여기에서 W와 H는 비디오 시퀀스의 폭과 높이를 나타낸다. 계수 1/WH는 주파수 영역에서의 총 에너지가 수학식 11에 나타낸 것과 같이 공간 영역에서의 총 에너지와 동일하게 되는 것을 보증하기 위해 사용될 수 있다.
Figure pct00011
여기에서 설명하는 시스템 및 방법에 따르면, 비디오 시퀀스 f가 주어진 때, 이것은 입력이 WSS 랜덤 필드 대신에 결정론적 2-D 신호임을 의미하고, 수학식 10의 /Sxx12)는 에너지 스펙트럼 밀도(ESD)로서 또한 알려진다.
수학식 10에서, x[w,h]는 비디오 시퀀스 f의 1 프레임이고; /Sxx12)는 주파수 영역에서 x[w,h]의 표시이다. 일 실시형태에 있어서, 비디오 시퀀스 f는 단일 샷과 같은 일관성있는 콘텐트로 구성될 수 있다. 이 경우에, f의 하나의 전형적인 x[w,h], 예를 들면 제1 프레임에 기초하여 계산된 /Sxx12)는 전체 시퀀스 f의 에너지 분포를 표시할 수 있다. 다른 실시형태에 있어서, f가 장면(scene) 변화를 내포하고; 이 경우에, /Sxx12)는 복수의 프레임 x1[w,h], x2[w,h] 등에 기초하여 각각 계산된 복수의 PSD, 즉, /Sxx112), /Sxx212) 등의 평균일 수 있다. 또한 프레임 xi[w,h](i=1,2,...)는 장면 #i로부터 선택될 수 있다.
일부 실시형태에 있어서, 전체 시퀀스의 PSD를 추정하는 기술은 다를 수 있다. 예를 들면, 일 실시형태에 있어서, 복수의 프레임 x1[w,h], x2[w,h] 등은 규칙적인 간격, 예를 들면 1초 간격으로 f로부터 추출될 수 있고, 복수의 대응하는 PSD, 즉 /Sxx112), Sxx212) 등은 계산되고 평균화되어 /Sxx12)를 발생할 수 있다. 일 실시형태에 있어서, 비디오 시퀀스 f는 I개의 세그멘트로 나누어지고, 여기에서 각 세그멘트는 연속 프레임의 그룹으로 구성되고(예를 들면, 이러한 세그멘트화는 콘텐트, 모션, 텍스쳐, 및 엣지의 구조 등에 기초를 둘 수 있다), wi의 지정 가중치를 갖는다. 그 다음에, 전체 PSD /Sxx12)는 프레임 xi[w,h](i=1,2,... I-1)의 PSD의 가중 평균으로 설정되고, 각각 수학식 12에 나타낸 것처럼 세그멘트 #i로부터 추출된다.
Figure pct00012
f의 PSD 의 모델 기반 추정
실시간 비디오 스트리밍과 관련된 실시형태와 같은 일부 실시형태에 있어서, 시퀀스의 전형적인 콘텐트를 나타내는 프레임 중 어느 것도 전처리(즉, 수학식 10에서의 x[w,h])에 접근하여 PSD를 추정할 수 없다. 그러므로, 일부 실시형태에 있어서, PSD /Sxx는 수학식 13, 14 및 15에 나타낸 바와 같은 공식을 이용하여 모델링될 수 있다.
Figure pct00013
여기에서, /b=[b0, b1,..., bn -1]은 함수 F(·)의 독립변수를 내포한 벡터이다. 일부 실시형태에 있어서, /Sxx를 모델링하기 위해 사용되는 함수 F(·)는 수학식 14에 나타낸 바와 같이 하나의 파라미터를 갖는다.
여기에서 K는 에너지 보전을 보장하는 계수이다. 공간 영역에서 정확한 총 에너지가 미공지이기 때문에(x[w,h]가 이용불능이기 때문에), 일부 실시형태에 있어서, 총 에너지는 수학식 15에 나타낸 것처럼 추정될 수 있다.
Figure pct00015
수학식 14에서, b0는 비디오 시퀀스의 해상도 및 콘텐트에 의해 결정될 수 있는 독립변수이다. 일 실시형태에 있어서, b0의 콘텐트는 3개의 카테고리, 즉 단순(simple), 중간(medium) 및 거침(tough)으로 분류된다. 하나의 비제한적인 실시형태에 따른 다른 해상도 및 콘텍스트에 대한 b0의 경험적인 값들은 표 1에 나타내었다.
형식 단순 중간 거침
CIF 0.1061 0.137 0.1410
WVGA 0.1020 0.124 0.1351
1280×720 0.0983 0.105 0.1261
1920×1080 0.0803 0.092 0.1198
f 3 PSD 의 추정
비율 M은 유리수이기 때문에 A/B, A≥B로서 표시될 수 있다. 따라서, 다운샘플링된 비디오는 해상도 (
Figure pct00016
)를 갖는다. 다시 말해서, 감소된 해상도의 비율은 (1-B/A)와 같다. 주파수 영역에서, 만일 f에 적용된 안티앨리어싱 필터가 ±B/A·π에서 명확한 차단 주파수를 가지면, 손실된 주파수 성분의 비율도 또한 (1-B/A)와 같고 모든 이러한 손실 성분은 고주파수 영역에 위치된다. 이 이상적인 경우(즉, 다운샘플링 후 업샘플링의 출력)에, 대역 [-π, -B/A·π]와 [B/A·π, π]에서 도 6a의 f3의 모든 고주파수 성분이 손실된다. /Syy12)로 표시된 f3의 PSD는, 수학식 16에 나타낸 바와 같이, /Sxx12),(ω12∈[-π,-B/A·π]∪[B/A·π,π]의 값을 제로와 같게 설정함으로써 /Sxx12)로부터 추정될 수 있다.
Figure pct00017
수학식 11에서 /Syy12)의 추정은, 안티앨리어싱 필터가 이상적으로 명확한 차단 주파수를 갖지 않기 때문에 정확하게 참이 아니지만, f3의 진정한 PSD의 양호한 근사치이다.
또한, 수평 방향 및 수직 방향이 각각 상이한 샘플링 비율 Mh=Ah/Bh 및 Mv=Av/Bv를 가질 때, /Syy12)의 추정치는 수학식 17과 같이 다시 쓸 수 있다.
Figure pct00018
샘플링 오차 계산
f와 f3의 PSD(즉, /Sxx12) 및 /Syy12))를 추정한 후에, 다운샘플링 오차 σd 2은 수학식 18과 같이 계산될 수 있다.
Figure pct00019
일반적으로, 수학식 18에 의해 제공된 다운샘플링 오차 σd 2은 입력 비디오 신호와 다운샘플링 비율로 샘플링된 비디오 신호 간의 고주파수 에너지 콘텐트의 차의 표시를 제공한다. 다운샘플링 오차 σd 2을 발생하기 위해 다른 기술들이 사용될 수 있다. 예를 들면, 일부 실시형태에 있어서, 다운샘플링 오차 σd 2은 다운샘플링 및 업샘플링된 비디오 신호(f3)와 입력 비디오 신호(f) 간의 평균 제곱 오차(MSE)를 결정함으로써 획득될 수 있다. 다른 예로서, 일부 실시형태에 있어서, 다운샘플링 오차 σd 2은 안티앨리어싱 필터를 입력 비디오 신호(f)에 적용하고 필터링된 f와 최초의 입력 비디오 f 간의 MSE를 결정함으로써 획득될 수 있다. 다른 예로서, 일부 실시형태에 있어서, 다운샘플링 오차 σd 2은 전술한 안티앨리어싱 필터와 동일한 차단 주파수를 가진 고역 통과 필터를 입력 비디오 신호(f)에 적용하고 고역 통과 필터링된 f의 픽셀마다 평균 에너지를 결정함으로써 획득될 수 있다.
코딩 오차의 추정
타겟 비트율(R)이 주어지면, 코딩 오차 σc 2은 모델에 의해 추정될 수 있다. 일부 실시형태에 있어서, 수학식 19에 의해 나타낸 하기의 비율-왜곡(R-D) 모델이 사용된다.
Figure pct00020
여기에서 r은 각 픽셀에 할당된 비트의 평균 수, 즉 픽셀당 비트 수(bpp)이다. 일부 실시형태에 있어서, r은 수학식 20에 의해 계산될 수 있다.
Figure pct00021
수학식 20에서, fps는 매 초마다 포착된 프레임의 수를 의미하는 프레임률이고, Mh와 Mv는 각각 수평 방향과 수직 방향에서의 샘플링 비율이며, W는 수평 해상도이고, H는 수직 해상도이며, R은 비트율이다.
비트율(R)은 각종 기술에 의해 획득되거나 다른 방식으로 추론될 수 있다. 예를 들면, 비트율(R)은 코딩 시스템의 사용자에 의해 제공될 수 있다. 일부 실시형태에 있어서, 비디오 서버 또는 미디어 인식 네트워크 요소와 같은 코딩 시스템과 연합된 네트워크 노드가 각종 비디오 스트림과 연합된 비트율을 감시할 수 있다. 비디오 인코더는 그 다음에 네트워크 노드에게 질의하여 특수 비디오 스트림의 비트율 표시를 요청할 수 있다. 일부 실시형태에 있어서, 비트율은 핸드오버 또는 사용자 장치 수신 비디오와 연합된 IP 흐름 이동도(IFOM) 동안과 같은 시간에 따라 변할 수 있다. 인코더는 갱신된 타겟 비트율을 내포한 메시지를 수신할 수 있다. 일부 실시형태에 있어서, 비트율(R)은 비디오 스트림에 할당된 서비스 분류 표시자의 품질(QCI)로부터 디코더에 의해 추론될 수 있다. 예를 들면, 현재 1~4인 QCI는 보증된 비트율(guaranteed bit rates; GBR)을 제공한다. GBR은 코딩 오차 σc 2를 결정하기 위해 비디오 인코더에 의해 활용된다. 일부 실시형태에 있어서, 비트율(R)은 디코더와 연합된 사용자 장치에 의해 결정되거나 다른 방식으로 제공될 수 있다. 예를 들면, 사용자 장치는 적당한 시그널링을 통하여 총 집성 데이터 송신 스루풋의 추정치를 인코더에게 제공할 수 있다. 다중 무선 접근 기술(RAT) 통신이 가능한 사용자 장치의 경우에, 비트율(R)은 예를 들면 셀룰러 RAT 및 비 셀룰러 RAT와 같은 2개 이상의 무선 접근 기술을 통한 스루풋의 표시일 수 있다. 일부 실시형태에 있어서, RTP/RTCP 프로토콜은 비트율 정보를 확인하기 위해 사용될 수 있다. 예를 들면, RTP/RTCP는 응용층 비트율을 수집하기 위해 WTRU 및 기지국에서 동작할 수 있다. 이 비트율(R)은 그 다음에 수학식 20에서 활용될 수 있다.
수학식 19의 R-D 모델은 2개의 파라미터 α와 β를 가지며, 그 값들은 비제한적인 예로서 시퀀스의 콘텐트, 시퀀스의 해상도, 인코더 구현 및 구성 등을 포함한 계수에 따라 변한다. α와 β의 적당한 값을 구하기 위한 각종 실시형태는 뒤에서 자세히 설명된다. 일단 α와 β의 값이 임의의 적당한 기술을 이용하여 식별되면, 그 다음에 특수 샘플링 비율에 대한 코딩 오차 σc 2가 계산될 수 있다. 샘플링 비율 Mh와 Mv에 대하여, 수학식 20을 이용한 픽셀당 평균 비트(r)가 먼저 결정된다. 다음에, 결정된 픽셀당 평균 비트(r)를 이용하여 수학식 19에 의해 표시한 것과 같은 코딩 오차 σc 2를 계산한다. 그 다음에, 코딩 오차 σc 2가 다른 샘플링 비율에 대하여 계산될 수 있다. 먼저, 픽셀당 새로운 평균 비트(r)가 수학식 19에서 새로운 샘플링 비율 값을 이용하여 계산될 수 있다. 이 r의 새로운 값은 그 다음에 수학식 19를 풀기 위해 사용된다.
α와 β의 값 - 오프라인 모드
일부 실시형태에 있어서, 샘플링 비율이 시간 제약 없이 선택된 때, 오프라인 훈련은 코딩 처리로부터의 왜곡을 가장 정확하게 예측하거나 모델링하는 α와 β의 값을 구하기 위해 활용될 수 있다. 따라서, 일 실시형태에 있어서, 비디오는 비트율과 코딩 왜곡 간의 관계를 결정하기 위해 전처리될 수 있다. 결정된 관계는 그 다음에 비디오 송신 중에 시간에 따라 변화하는 이용가능한 비트율, 또는 타겟 비트율로서 샘플링 비율을 결정할 때 활용될 수 있다. 상기 관계는 비제한적인 예를 들자면 비디오 데이터의 콘텐트, 비디오 데이터의 해상도, 인코더 구현 및 구성 등을 포함하는 인수들에 의해 영향을 받을 수 있다.
전술한 인수들이 결정되면, 공지의 세팅으로 구성된 인코더는 주어진 시퀀스를 전해상도로 인코딩할 수 있다. 이 시뮬레이션은 비트율의 범위 {R0, R1, ..., RN -1}에서 수행되어 각 비트율에 대응하는 왜곡의 집합 {D0, D1, ..., DN -1}을 생성한다. 비트율은 수학식 21을 이용하여 bpp {r0, r1, ..., rN -1}으로 정상화될 수 있다.
Figure pct00022
따라서, 대응하는 왜곡은 {d0, d1, ..., dN -1}로 표시되는 평균 제곱 오차(MSE)로 정상화될 수 있다. 정상화된 비트율과 왜곡의 쌍 [ri, di](0≤i<N)은 R-D 곡선으로 그려질 수 있다. 수치 최적화 알고리즘은 αopt 및 βopt의 바람직한 값을 구하기 위해 수학식 22를 풀어서 R-D 곡선을 맞추는데 사용될 수 있다.
Figure pct00023
α와 β의 값 - 온라인 모드
일부 실시형태에 있어서, 비디오 시퀀스 또는 시퀀스의 세그멘트는 전처리에 접근할 수 있지만, 오프라인 훈련은 예를 들면 높은 복잡성 때문에 응용에 적당하지 않을 수 있다. 이 실시형태에 있어서, 신호 분석은 비디오 시퀀스의 이용가능한 부분에 기초하여 수행되고, 모션, 텍스쳐, 엣지 등과 같은 비디오 시퀀스의 특성을 반영하는 유용한 특징들이 추출될 수 있다. 추출된 특징 및 파라미터 α 및 β의 값은 높은 상관성을 갖고, 그러므로, 추출된 특징은 코딩 유도 왜곡의 감소를 제공하는 α 및 β의 값을 추정하는데 사용될 수 있다.
일 실시형태에 있어서, PSD(위에서 자세히 설명됨)에 따른 비디오 시퀀스가 분석되고 2개의 특징이 /Sxx로부터 추출될 수 있다. 활용될 수 있는 하나의 특징은 DC 성분의 에너지의 백분율(FDC)이고, 다른 특징은 차단 주파수(±ωc)이며, 여기에서 ±ωc의 범위 밖의 주파수를 가진 성분의 에너지는 총 에너지의 역치 T(예를 들면, T=0.5%)보다 낮다. 일반적으로, 차단 주파수(±ωc)는 고주파수 대역을 향하는 PSD 쇠퇴(decay) 속도를 표시하고, ±ωc의 절대치는 [0, π]의 범위 내에 있다. 따라서 ±ωc)의 값이 작으면 작을수록 고주파수 대역을 향한 PSD 쇠퇴는 더 빨라진다. FDC와 ωc는 수학식 23과 24에 의해 각각 계산될 수 있다.
Figure pct00024
Figure pct00025
일 실시형태에 있어서, FDC는 [0.85, 0.99]의 범위로 끝잘림(truncate)되고 H-스텝 균일 양자화기에 의해 양자화된다. 일 실시형태에 있어서, ωc는 [0, 0.9π]의 범위로 끝잘림되고 L-스텝 균일 양자화기에 의해 양자화된다. 상기 2개의 추출된 특징, 즉 /FDC 및 /ωc로 표시되는 양자화 FDC 및 ωc는 α와 β의 값을 획득하기 위해 2개의 2-D 테이블에 대한 엔트리를 조사하기 위한 2개의 지수로서 각각 사용될 수 있다. 일 실시형태에 있어서, FDC는 {0.85, 0.86, ..., 0.98, 0,99}에서 재구성 포인트를 갖는 15-스텝 균일 양자화기에 의해 양자화되고, ωc는 {0.0π, 0.1π, ..., 0.8π, 0,9π}에서 재구성 포인트를 갖는 10-스텝 균일 양자화기에 의해 양자화된다. 일 실시형태에 따른 지수로서 /FDC 및 /ωc를 이용하는 α 및 β의 조사표는 도 7 및 도 8에 각각 도시되어 있다. 일부 엔트리에서의 -1.0은 α 또는 β의 값을 표시하지 않고, 그 대신에, 값 -1.0을 갖는 엔트리로 가는 /FDC 및 /ωc의 조합은 실제로 발생하지 않는다는 점에 주목한다.
α와 β의 값 - 단순화 모드
예를 들면 실시간 비디오 스트리밍과 같은 일부 실시형태에 있어서, 시퀀스의 전형적인 콘텐트를 나타내는 어떠한 프레임도 PSD를 추정하기 위해, 또는 비디오 시퀀스를 분석하기 위해 결과적으로 PSD로부터 특징들을 추출하기 위해 전처리(예를 들면, 수학식 10의 x[w,h])에 접근할 수 없다. 이러한 상황에서, 모드(여기에서는 "단순화 모드"라고 부름)는 α 및 β를 추정하기 위해 사용될 수 있다.
입력 비디오(f)의 콘텐트의 해상도 및 카테고리가 주어지면, α 및 β의 값은 2-D 테이블을 조사함으로써 결정될 수 있다. 미리 규정된 해상도 포맷은 CIF, WVGA, VGA, 720p, 1080p 등과 같은 일반적으로 사용되는 포맷일 수 있다. 입력(f)의 실제 해상도가 미리 규정된 것이 아닌 경우에, 가장 유사한 미리 규정된 해상도가 근사치로서 사용될 수 있다. 비디오 시퀀스의 콘텐트는 모션, 텍스쳐, 엣지의 구조 등을 포함할 수 있다. 비트율이 주어지면, 단순 콘텐트를 가진 비디오는 코딩 후에 복잡한 비디오보다 덜 감퇴될 것이다. 일부 실시형태에 있어서, 비디오 시퀀스의 콘텐트는 응용이 갖는 입도(granularity) 레벨에 따라서 "단순"으로부터 "거침"까지 수 개의 카테고리로 분류될 수 있다. 콘텐트의 유형은 예를 들면 비디오에 대한 사전 지식에 기초해서 사용자에 의해 표시될 수 있고; 또는 사전 지식이 없을 때 콘텐트 유형은 디폴트 값으로 자동으로 설정될 수 있다. 일 실시형태에 있어서, 표 2는 α 및 β의 값에 대한 2-D 조사표로서 사용될 수 있다. 표 2는 각종 실시형태에 따라서 상이한 해상도 및 콘텐트에 대한 α 및 β의 값을 표시한다.
형식
α β
단순 중간 거침 단순 중간 거침
CIF 0.76 0.93 1.23 1.49 5.45 8.66
WVGA 0.87 1 1.32 1.09 3.19 6.72
1280×720 0.95 1.04 1.3 1.46 2.8 4.81
1920×1080 0.93 1.1 1.45 1.06 2.4 4.21
비록 미리 규정된 해상도는 CIF, WVGA, 720p, 및 1080p를 포함하고 있고 3개의 콘텐트 카테고리(단순, 중간, 거침)가 사용되지만, 본 발명은 이것으로 한정되지 않는다. 일부 실시형태에 있어서, 추가의 입도 레벨이 표에 포함될 수 있다. 또한 일부 실시형태에 있어서, 디폴트 콘텐트 유형이 "중간"으로 설정될 수 있다.
각종 실시형태에 따르면, 비디오의 복잡성은 각종 기술을 통하여 확인될 수 있다. 예를 들면, 일 실시형태에 있어서, 복잡성의 상대적 레벨을 표시하는 사용자 입력이 수신된다. 이 사용자 입력은 그 다음에 수학식 19에서 사용되는 적당한 α 및 β를 결정하기 위해 사용될 수 있다. 일부 실시형태에 있어서, 비디오 특성 정보(예를 들면, 복잡도)는 정보에 접근하는 네트워크 노드로부터 수신될 수 있다. 이 비디오 정보에 기초해서, α 및 β의 적당한 값이 결정되고(예를 들면, 조사표를 통해서) 후속적으로 수학식 19에서 사용될 수 있다. 일부 실시형태에 있어서, 비디오의 복잡도 값은 최초 프레임을 다운샘플링하기 전에 일부 프레임을 사전저장함으로써 콘텐트 통계로부터 계산 또는 추정될 수 있다. 이 점에서, 픽셀 값 기울기, 히스토그램, 가변성 등과 같은 다양한 기술들이 사용될 수 있다.
비율 M의 검색
전체 오차(σ2 2)의 최소치 식별은 수학식 8에 의해 규정된 것처럼 샘플링 오차(σd 2)와 코딩 오차(σc 2)의 합의 최소치를 구하는 것과 등가이다. 각종의 비제한적인 실시형태에 따른 σd 2와 σc 2의 추정은 위에서 설명하였다. 전체 오차를 감소시키는, 일부 경우에는 최소화시키는 M을 찾기 위해 사용되는 각종 알고리즘은 뒤에서 더 자세히 설명된다.
수평 및 수직 방향의 고른 샘플링 비율 M
다운샘플링된 비디오의 픽셀 종횡비(PAR)가 전해상도 비디오의 픽셀 종횡비와 동일할 필요가 있고 각 픽셀의 형상이 정방형, 즉 저장 종횡비(SAR)가 1로 될 필요가 있을 때, 수평 및 수직 방향의 샘플링 비율 M=A/B는 동일해야 한다. 따라서, 일부 실시형태에 있어서, 이 필요조건은 제1 제약으로서 작용한다. 제2 제약으로서, 많은 응용에 대하여, 다운샘플링 해상도 BW/A×BH/A가 디지털 비디오 포맷에 대하여 정수로 되는 것이 바람직하다. 그러나, 일부 응용에 있어서, 어느 한 차원에서 정수 개의 픽셀을 획득하기 위해 크로핑(cropping) 및/또는 패딩(padding)이 사용될 수 있다. 어느 경우이든, 상기 2개의 제약 때문에, M의 가능한 값이 제한된다. W와 H의 최대 공약수(GCD)를 G라고 하면, 가능한 비율은 수학식 25에 의해 표시될 수 있다.
Figure pct00026
가끔, 출력 해상도는 정수로 될 뿐만 아니라 K의 배수로 될 필요가 있다. 예를 들면, 일부 H.264 인코더는 이들이 정수 개의 매크로블록(MB)을 획득하기 위해 프레임의 패딩을 지원하지 않기 때문에 K가 16으로 되는 경우만을 취급한다. 이러한 추가적인 제약하에서, M의 가능한 값은 추가로 감소되고, 수학식 25는 수학식 26과 같이 될 수 있다.
Figure pct00027
어느 경우이든, 일부 실시형태에 있어서, 벡터 /M={M1,M2,...}으로 표시되는 모든 가능한 M에 대하여 전체 오차(σ2 2)를 구하고, 최소 전체 오차를 제공하는 샘플링 비율(Mi)을 선택하기 위해 "총괄적" 검색 방법이 사용될 수 있다. 다른 실시형태에 있어서, M의 모든 가능한 값에 대한 전체 오차를 결정하지 않고 M의 적당한 값을 구하는 검색 방법이 활용된다.
도 9a, 도 9b 및 도 9c는 각종 비제한적인 실시형태에 따라서 샘플링 비율(Mi)을 구하는 검색 전략을 보인 것이다. 도 9a는 총괄적 검색 전략을 보인 것이고, 도 9b는 큰 스텝의 검색을 보인 것이며, 도 9c는 미세 검색을 보인 것이다.
먼저 도 9a를 참조하면, 모든 M의 값에 대하여 전체 오차(σ2 2)를 계산한 후에, 예시적인 실시형태의 샘플링 비율로서 M13이 선택된다. 코딩 왜곡의 감소를 제공하는 Mi의 누락 없이 시간을 절약하기 위해, 바람직한 Mi가 위치하고 있는 범위에 도달하기 위하여 도 9b에 도시된 바와 같이 큰 스텝으로 검색이 수행될 수 있다. 그 다음에, 도 9c에 도시된 것처럼 그 범위 내에서 더 미세한 스텝에 의해 추가의 검색이 시행된다. 도 9에 도시된 예에서, M은 24개의 가능한 값을 가지며, 도 9a의 총괄적 검색은 선택된 Mi를 구하기 위해 전체 오차(σ2 2)를 24회 계산하고; 이에 비하여 도 9b 및 도 9c의 거친 검색 및 미세 검색의 조합은 연산을 반으로 줄인다.
일부 실시형태에 있어서, 선택된 샘플링 비율은 전체 오차 역치 아래에서 전체 오차(σ2 2)를 생성하는 임의의 적당한 비율로부터 선택될 수 있다. 다시 말하면, "절대" 최소 전체 오차 값을 야기하는 단일 샘플링 비율을 식별하는 것과는 반대로, 바람직한 전체 오차 역치 아래에서 전체 오차를 야기하는 복수의 샘플링 비율이 있을 수 있다. 따라서, 각종 실시형태에 따라서, 역치 아래에서 전체 오차 레벨을 야기하는 샘플링 비율 중의 임의의 하나가 코딩을 위한 샘플링 비율로서 선택될 수 있다. 일부 실시형태에 있어서, 식별된 샘플링 비율이 특정의 역치 양 아래에서 전체 오차 레벨을 발생하면, 인코딩은 선택된 샘플링 비율로서 그 비율에 의해 진행할 것이다.
수평 및 수직 방향의 고르지 않은 샘플링 비율 M h M v
각종 실시형태에 있어서, 양측 방향에 대한 고른 비율의 제약이 부여되지 않으면, 수평 및 수직 비율(Mh, Mv)은 더 자유롭게 선택될 수 있다. Mh와 Mv의 가능한 값들은 수학식 27과 수학식 28로 각각 나타내었다.
Figure pct00028
Figure pct00029
그러므로, (Mh, Mv)의 합동의 경우는 W×H의 가능성을 가질 수 있다. 이러한 가능성을 모두 통과하는 총괄적 검색은, 비록 가능하기는 하지만, 대부분의 경우에 너무 시간 소모적이다. 고속 검색 전략 중의 하나로서, W×H의 가능성은 수학식 29 및 수학식 30에 나타낸 것처럼 큰 스텝을 이용하여 처리될 수 있고, 여기에서 Δh와 Δv는 각각 수평 및 수직 방향에 대하여 정수 단계 사이즈이다.
Figure pct00030
Figure pct00031
따라서, 가능성의 수는 W/Δh×H/Δv로 감소되고, 그 중에서 최소 σ2 2을 제공하는 적당한 범위 (/Mh, /Mv)가 구해질 수 있다. 더욱 미세한 검색은 그 다음에 (/Mh, /Mv)의 이웃에서 수행될 수 있다.
그러나, 일부 실시형태에 있어서, σ2 2이 (Mh, Mv)의 W×H에 대하여 국부적인 최소치를 가질 때, 이 전략에 의해 구해진 식별된 샘플링 비율은 글로벌 최적치 대신에 국부적 최소치 중의 하나일 수 있다. 일 실시형태에 있어서, 오차 σ2 2의 비교적 작은 값을 제공하는 몇 개의 비율 (/Mh1, /Mv1), (/Mh2, /Mv2) 등이 식별된다. 그 다음에, 주어진 이웃 내에서 국부적 최소 오차 σ2 2을 산출하는 각각의 정제된 비율 (/Mh1, /Mv1), (/Mh2, /Mv2) 등을 구하기 위해 각 후보의 이웃에서 미세 검색이 수행된다. 그 다음에, 최종의 비율이 최저 σ2 2을 산출하는 것으로서 (/Mh1, /Mv1), (/Mh2, /Mv2) 등 중에서 선택될 수 있다.
다른 실시형태에 있어서, 도 9b와 유사하게, 2개의 방향으로 고른 비율의 제약과 함께 큰 스텝의 검색이 먼저 수행된다. 이 제1 단계로부터 구해진 비율은 Mi로서 식별될 수 있다. 고른 비율의 제약이 시행되기 때문에, Mi는 수평 방향 및 수직 방향 둘 다에 적용된다는 점에 주목한다. 그 다음에, 바람직한 비율 Mi, 즉 Ma≤Mi≤Mb를 내포하는 [Ma, Mb]의 범위가 규정된다. 수평 및 수직 방향에 대하여 동일한 비율을 시행하는 제약이 그 다음에 해제되고, 2개의 방향 각각에 대하여 선택된 샘플링 비율을 획득하기 위해 다음 검색이 별도로 수행될 수 있다. 수평 및 수직 비율(Mh, Mv)의 검색 범위는 수학식 31과 수학식 32에 각각 나타내었다.
Figure pct00032
Figure pct00033
알 수 있는 바와 같이, (Mh, Mv)의 검색 범위는 W×H로부터 (W/Mb - W/Ma)×(H/Mb - H/Ma)로 감소된다. 그 다음에, 거친 검색에 이은 미세 검색의 전술한 조합이 이 검색 범위에 적용되어 수평 및 수직 방향에 대한 최종의 선택된 서브샘플링 비율을 구한다.
도 10a는 하나의 비제한적인 실시형태에 따라 비디오 데이터를 인코딩하는 처리 흐름(1000)을 보인 것이다. 단계 1002에서, 인코딩할 비디오 데이터가 수신된다. 단계 1004에서, 샘플링 오차 값이 복수의 샘플링 비율 각각에서 결정된다. 일부 실시형태에 있어서, 샘플링 오차 값은 수신된 비디오 데이터의 파워 스펙트럼 밀도(PSD) 및 다운샘플링된 비디오 데이터의 PSD의 추정치를 이용하여 결정된다. 위에서 설명한 것처럼, 각종 실시형태에 있어서, 비디오 데이터의 PSD를 추정하기 위해 모델 기반 기술이 사용될 수 있다. 단계 1006에서, 코딩 오차 값이 복수의 샘플링 비율 각각에서 결정될 수 있다. 코딩 오차는 주어진 비트율에 기초를 둘 수 있다. 일부 실시형태에 있어서, 비트율은 예를 들면 비디오 서버 또는 최종 사용자 장치와 같은 네트워크 노드로부터 수신될 수 있다. 주어진 비트율에 대하여, 코딩 오차 모델이 발생하여 복수의 샘플링 비율 각각에 대하여 코딩 오차 값을 제공할 수 있다. 코딩 오차 모델은 수신된 비디오 데이터의 특성에 따라 각각 독립적으로 변하는 제1 파라미터 및 제2 파라미터를 포함할 수 있다. 제1 및 제2 파라미터의 값은 임의의 적당한 기술을 이용하여 결정될 수 있다. 예를 들면, 일 실시형태에 있어서, 제1 및 제2 파라미터는 곡선 맞춤 공정을 통하여 식별된다. 다른 실시형태에 있어서, 제1 및 제2 파라미터는 위에서 자세히 설명한 것처럼 각종 조사표를 참조하여 식별될 수 있다. 일부 실시형태에 있어서, 단계 1006에서의 코딩 오차 값은 단계 1004에서의 샘플링 오차 값에 앞서 결정될 수 있다. 단계 1008에서, 각 샘플링 비율의 샘플링 오차 값과 코딩 오차 값이 합산되어 전체 오차 값을 감소시키는 샘플링 비율을 식별한다. 단계 1010에서, 샘플링 비율이 선택된다. 일부 실시형태에 있어서, 복수의 샘플링 비율은 비디오 인코딩 처리의 지속기간 전체에 걸쳐서 선택될 수 있다. 예를 들면, 제1 샘플링 비율이 수신 비디오 데이터의 시작시에 선택되고, 이어서 하나 이상의 추가적인 샘플링 비율이 인코딩 이벤트의 지속기간 동안에 선택될 수 있다. 일부 실시형태에 있어서, 선택된 샘플링 비율을 식별하기 위해 총괄 검색이 수행된다. 다른 실시형태에 있어서, 선택된 샘플링 비율을 식별하기 위해 비총괄 검색이 수행된다. 예를 들면, 복수의 샘플링 비율의 종속 집합(부분집합)과 관련된 오차만이 합산될 수 있다. 합산된 샘플링 오차와 코딩 오차의 부분집합으로부터, 샘플링 비율이 선택될 수 있다. 일부 실시형태에 있어서, 선택된 샘플링 비율에 대한 검색을 더욱 정제하기 위해 추가의 검색이 활용될 수 있다. 어느 경우이든, 단계 1012에서, 비디오 데이터는 선택된 샘플링 비율로 다운샘플링되고, 단계 1014에서, 다운샘플링된 비디오 데이터가 인코딩될 수 있다. 일부 실시형태에 있어서, 만일 비트율이 변경되면, 인코딩 처리는 갱신 샘플링 비율을 결정하기 위해 재평가될 수 있다. 또한, 일부 실시형태에 있어서, 샘플링 비율은 수평 샘플링 비율과 수직 샘플링 비율을 포함한다. 이 수평 및 수직 샘플링 비율은 동일할 수도 있고 다를 수도 있다.
도 10b는 하나의 비제한적인 실시형태에 따라 비디오 데이터를 디코딩하는 처리 흐름(1050)을 보인 것이다. 단계 1052에서, 압축 비디오 데이터가 수신된다. 비디오 데이터는 라이브 비디오 스트림 또는 미리 저장된 비디오와 같은 임의의 적당한 공급자로부터 수신될 수 있다. 단계 1054에서, 선택된 샘플링 비율의 표시가 수신된다. 샘플링 비율은 예를 들면 복수의 샘플링 비율에 걸쳐서 샘플링 오차 값과 코딩 오차 값의 합에 기초를 둘 수 있다. 단계 1056에서, 계수들의 블록이 디코딩되어 재구성 비디오 데이터를 형성한다. 단계 1058에서, 재구성 비디오 데이터는 재구성 비디오 데이터의 해상도에 대한 선택된 샘플링 비율로 업샘플링된다. 단계 1060에서, 업샘플링된 비디오 데이터가 출력된다.
각종 실시형태에 따르면, W×H의 해상도를 가진 입력 비디오에 대하여, 다운샘플링 처리(즉, 도 16의 다운샘플링 유닛(1606)에 의해)가 수평 방향 및 수직 방향에 대하여 인수 a 및 b에 의해 각각 입력 비디오를 다운샘플링할 수 있고, 여기에서 a와 b는 양의 유리수이다. 이때 출력 비디오는 W/a×H/b의 해상도를 갖는다. 비록 a와 b가 각각 Nh/Mh 및 Nv/Mv로 표시되는 임의의 양의 유리수일 수 있지만(여기에서, Mh, Nh, Mv 및 Nv는 모두 양의 정수임), 다운샘플링 처리의 출력은 정수 개의 픽셀 행 및 픽셀 열을 가진 디지털 비디오이다. 따라서, 각종 실시형태에 있어서, W/a 및 H/b(즉, W×Mh/Nh 및 H×Mv/Nv)는 정수이고, Nh 및 Nv는 출력 해상도 필요조건을 만족시키는 W 및 H의 인수이다.
일부 실시형태에 있어서, 업샘플링 처리(즉, 도 17의 업샘플링 유닛(1712)에 의해)는 다운샘플링 처리의 다운샘플링 비율과 동일한 업샘플링 비율을 가질 수 있고, 이것은 처리된 비디오가 최초 입력 비디오와 동일한 해상도를 갖게 한다. 다른 실시형태에 있어서, 업샘플링 비율은 다운샘플링 비율로부터 분리되고, 이것은 업샘플링 비율이 더욱 융통성 있게 할 수 있다. 예를 들어서, 업샘플링되는 비디오가 W1×H1의 해상도를 갖는다고 가정하면, 업샘플링 비율은 수평 방향 및 수직 방향에 대하여 각각 c 및 d로 설정될 수 있고, cW1×dH1과 동일한 출력 비디오의 해상도를 취할 수 있다. 여기에서 c와 d는 양의 유리수이다. c와 d의 값은 각종 기준에 따라서 업샘플링 전에 구성될 수 있다. 예를 들면, 출력 비디오가 입력 해상도와 같거나 그보다 더 큰 해상도를 갖게 하기 위해, 인수 c와 d는 1.0 이상이어야 한다. 더욱이, 비록 c와 d가 각각 Kh/Lh 및 Kv/Lv로 표시되는 임의의 양의 유리수일 수 있지만(여기에서, Kh, Lh, Kv 및 Lv는 모두 양의 정수임), 각종 실시형태에 있어서, Lh와 Lv는 각각 W1과 H1의 인수이다. c와 d를 선택하는 추가의 기준으로서, 화상 종횡비(PAR)가 c/a=d/b로 유지될 수 있다.
도 11은 Nh/Mh의 다운샘플링 비율을 가진 수평 다운샘플링 처리를 위한 블록도(1100)이다. 블록도(1100)는 블록 1102에서 Mh배로 업샘플링하는 것, 블록 1104에서 필터 fd ,h를 적용하는 것, 및 블록 1106에서 Nh배로 다운샘플링하는 것을 포함한다. 블록도(1100)에 의해 처리된 후에, 출력 비디오의 폭은 W×Mh/Nh이다.
도 12는 Mh=3이고 Nh=4인 예시적인 다운샘플링 처리를 보인 것이다. 스펙트럼 F(도 12(b))를 가진 최초의 행 X(도 12(a))은 제로 값 샘플을 삽입함으로써 Mh배로 먼저 업샘플링된다. 결과적인 행은 도 12(c)에 Xu로 도시되어 있다. 업샘플링의 결과, 스펙트럼 F는 도 12(d)에 Fu로 도시된 것처럼 Mh배로 압착된다. Fu에서, π/Mh의 정수 배인 스펙트럼 중심은 제로 삽입에 의해 유도되고, 필터 fd ,h에 의해 제거될 필요가 있다(도 11의 블록 1104에 도시된 것처럼). Xu는 블록 1406에서 인수 Nh에 의해 후속적으로 다운샘플링되기 때문에, fd ,h의 차단 주파수는 도 12(f)에 도시된 것처럼 π/Mh 대신에 π/Nh(예를 들면, ±π/4)이어야 한다. 행 X가 길이를 Mh배 업샘플링하고 에너지가 또한 Mh배 증가하기 때문에, fd ,h의 필터 이득은 Mh이다. 그러므로, fd ,h는 도 12(f)에 도시되고 수학식 33에 나타낸 것처럼 이상적인 주파수 응답(Hd)에 역퓨리에 변환을 적용함으로써 계산될 수 있다.
Figure pct00034
여기에서,
Figure pct00035
Fu(도 12(d))를 Hd(도 12(f))와 승산함으로써, 나머지 스펙트럼(Zf)이 도 12(g)에 도시된 것처럼 결정된다. 공간 영역에서, Zf는 Xf(도 12(e)의 상부 행 참조)로 표시된 필터링된 행에 대응한다. Xf는 그 다음에, 매 Nh 픽셀을 Xf로부터 단순히 추출함으로써 인수 Nh에 의해 다운샘플링된다(도 14의 블록 1406). 마지막으로, 다운샘플링된 행(Xd)(도 12(e)) 및 그 스펙트럼(Zd)(도 12(h))이 결정된다.
유사하게, 수직 다운샘플링 필터(fd ,v)가 수학식 35를 이용하여 계산될 수 있다.
Figure pct00036
해상도 MhW×MvH를 가진 중간 프레임을 발생하기 위해, 최초의 비디오에 수평 및 수직 필터를 연속적으로(순서는 관계 없음) 적용하는 2-스텝 전략이 사용될 수 있다. 일부 실시형태에 있어서, fd ,h 및 fd ,v의 2-D 콘볼루션인 2-D 비분리형 필터(fd ,2D)가 계산되고, fd ,2D가 최초 비디오에 직접 적용될 수 있다.
업샘플링 필터를 설계하는 것은 다운샘플링 필터를 설계하는 것과 유사하다. 예를 들면, 수평 방향에 먼저 초점이 맞추어지고, 그 다음에 수직 방향으로 연장될 수 있다. 폭이 W1인 입력 비디오의 해상도는 업샘플링 후에 W1×Kh/Lh로 변경될 것이다. 도 13에 도시된 것처럼, 업샘플링 처리(1300)는 블록 1302에서 제로 삽입에 의해 최초 행을 Kh배로 업샘플링하는 것, 블록 1304에서 필터 fu ,h를 적용하는 것, 및 매 Lh 픽셀에서 하나의 픽셀을 추출함으로써 블록 1306에서 Lh배로 다운샘플링하는 것을 포함할 수 있다. 필터 fu ,h는 수학식 36에 의해 계산될 수 있다.
유사하게, 수직 업샘플링 필터 fd ,v는 수학식 37에 의해 계산될 수 있다.
Figure pct00038
일부 실시형태에 있어서, 전술한 필터의 사이즈를 제한하기 위해 윈도우 함수를 활용할 수 있다. 적당한 유형의 윈도우 함수는, 비제한적인 예를 들자면, 해닝, 해밍, 삼각형, 가우시안, 및 블랙맨 윈도우를 포함한다.
일 실시형태에 있어서, 수학식 38로 표현되는 가우시안 윈도우 함수가 사용되고, 여기에서, N은 필터의 길이를 나타내고 σ는 가우시안 함수의 표준편차이다. 도 14는 N=71, σ=1.5인 윈도우 함수의 예를 보인 것이다.
Figure pct00039
해상도 W1Kh×H1Kv를 가진 중간 프레임을 발생하기 위해, 최초의 비디오에 수평 및 수직 필터를 연속적으로(순서는 관계 없음) 적용하는 2-스텝 전략이 사용될 수 있다. 일부 실시형태에 있어서, fu ,h 및 fu ,v의 2-D 콘볼루션인 2-D 비분리형 필터(fu ,2D)가 계산되고, fu ,2D가 최초 비디오에 직접 적용될 수 있다.
프레임들이 다운샘플링 및 업샘플링을 위한 중간으로서 WMh×HMv 및 W1Kh×H1Kv에 각각 보간될 수 있지만, 보간될 필터 중의 많은 수가 사용되지 않을 수 있다. 예를 들면, 일부 실시형태에 있어서, 다운샘플링에 대하여 WMh/Nh×HMv/Nv의 해상도(또는 업샘플링에 대하여 W1Kh/Lh×H1Kv/Lv의 해상도)를 가진 최종 출력 비디오를 형성하도록 단지 1/(Nh×Nv)(또는 1/(Lh×Lv))만이 추출된다. 그러므로, 대부분의 연산이 활용되지 않는다. 이러한 결과에 비추어, 일부 실시형태에 있어서, 출력 비디오를 형성하기 위해 최종적으로 추출될 픽셀만이 보간된다.
도 15는 업샘플링이 Mh=3 및 Nh=4에 의해 수행되는 실시형태를 보인 것이다. 행(1502)에서, 1504a, 1504b, 1504c 등은 정수 픽셀을 나타내고 백색 원(1506)은 삽입된 제로를 나타낸다. 미공지 위치를 모두 보간하는 대신에, 최종의 다운샘플링된 행을 형성하는 픽셀들이 도 15의 행(1508)으로 도시된 것처럼 먼저 선택된다. 그 다음에, 이 선택된 위치들이 그들의 위상에 따라서 Mh 카테고리로 분류될 수 있다. 일 실시형태에 있어서, 픽셀의 위상은 이웃하는 정수 픽셀로부터의 거리에 의해 결정된다. 도 15의 행(1512)에서, 제로 위상(1514), 제1 위상(1516) 및 제2 위상(1518)으로 표시된 3개의 다른 위상이 있다.
일부 실시형태에 있어서, 각각의 다운샘플링 필터 및 업샘플링 필터(즉, fd,h, fd ,v, fu ,h, fu ,v)는 위상 필터의 집합으로 분해되고, 각각의 위상 필터는 관련 픽셀을 보간하기 위해 사용된다. 표 3에서, fd ,h, fd ,v, fu ,h, 및 fu ,v의 길이는 각각 ND,H, ND ,V, NU ,H, 및 NU ,V로 표시하였다. 분해 처리는 표 3에 제공되어 있는데, 여기에서 i는 음이 아닌 정수이고, k는 필터의 지수이다.
시나리오 필터길이 위상의 수 위상 m의 필터(m은 0부터 시작함)
수평 다운샘플링 ND ,H Mh fd ,h (m)=fd ,h(k), d<ND ,H 및 k=M+i×Mh
수직 다운샘플링 ND ,V Mv fd ,v (m)=fd ,v(k), d<ND ,V 및 k=M+i×Mv
수평 업샘플링 NU ,H Kh fu ,h (m)=fu ,h(k), d<NU ,H 및 k=M+i×Kh
수직 업샘플링 NU ,V Kv fu ,v (m)=fu ,v(k), d<NU ,V 및 k=M+i×Kv
도 16과 도 17은 여기에서 설명하는 시스템 및 방법에 따라서, 전처리 및/또는 후처리 단계를 포함하고 비디오 데이터를 인코딩, 디코딩, 및/또는 트랜스코딩하기 전, 후 및/또는 동시에 사용될 수 있는 구조의 예시적인 실시형태를 보인 것이다. 전처리 및/또는 후처리는 예를 들면 비디오 데이터의 양자화, 다운샘플링, 업샘플링, 안티앨리어싱, 저역 통과 보간 필터링, 및/또는 흐림방지 필터링을 포함한 적응 처리에 의할 수 있다. 실시형태에 따르면, 비디오 데이터의 전처리 및/또는 후처리는 예를 들면 H.264 인코더 및/또는 디코더와 같은 표준 인코더 및/또는 디코더의 사용을 가능하게 한다.
예시적인 인코더 구조
도 16은 선택된 샘플링 비율을 얻기 위해 비디오 데이터의 인코딩 전 또는 동시에 수행될 수 있는 전처리 및 후처리를 포함한 예시적인 인코더 구조(1600)를 보인 것이다. 도 2와 관련하여 위에서 설명한 변환부(1608), 양자화부(1610), 엔트로피 인코딩부(1612), 역양자화부(1614), 역변환부(1616), 모션 보상부(1620), 메모리(1618) 및/또는 모션 추정부(1624)는 비디오 데이터의 인코더 처리 부품이다. 안티앨리어싱 필터(1604), 다운샘플링 유닛(1606) 및 인코더 제어기(1622)는 비디오 데이터를 인코딩하는 전처리 단계의 부품이다. 상기 전처리 요소들은 인코더에 통합되거나, 인코더와 독립적으로 작용하거나, 또는 인코더의 상부에 위치하도록 구성될 수 있다. 어느 경우이든, 입력(1602)으로부터의 비디오 데이터가 인코딩된 후에, 인코딩된 비디오 데이터는 채널(1626)을 통해 전송되고 및/또는 저장될 수 있다.
일부 실시형태에 있어서, 출력 인코딩 비디오 데이터를 저장하기 위한 출력 버퍼가 제공될 수 있다. 버퍼 충만(fullness)이 감시되거나, 버퍼 입력 및 출력 비율이 비교되어 그 상대적인 충만 레벨이 결정되고, 상대적인 충만 레벨을 제어기에게 표시할 수 있다. 출력 버퍼는 예를 들면 출력 버퍼로부터 인코더 제어기(1622)로 제공되는 버퍼 충만 신호를 이용하여 상대적 충만 레벨을 표시할 수 있다. 인코더 제어기(1622)는 채널(1626)과 관련된 각종 파라미터 및/또는 제약, 비디오 인코더 시스템의 연산 능력, 사용자에 의한 수요 등을 감시하고, 채널(1626)의 특정 제약 및/또는 조건에 적합한 부수적인 경험 품질(quality of experience; QoE)을 제공하기 위한 타겟 파라미터를 확립할 수 있다. 타겟 비트율은 특정 제약 및/또는 채널 조건에 따라서 수시로 조정될 수 있다. 전형적인 타겟 비트율은, 예를 들면, 64 kbps, 128 kbps, 256 kbps, 384 kbps, 512 kbps 등을 포함한다.
도 16에 도시된 것처럼, 비디오 데이터는 비디오 소스와 같은 입력(1602)으로부터 수신된다. 수신되는 비디오 데이터는 최초 또는 디코드된 비디오 신호, 비디오 시퀀스, 비트 스트림, 또는 이미지 또는 비디오 콘텐트를 표시할 수 있는 임의의 다른 데이터를 포함할 수 있다. 수신된 비디오 데이터는 여기에서 설명하는 시스템 및 방법에 따라서 안티앨리어싱 필터(1604), 다운샘플링 유닛(1606), 및/또는 인코더 제어기(1622)에 의해 전처리될 수 있다. 안티앨리어싱 필터(1604), 다운샘플링 유닛(1606), 및/또는 인코더 제어기(1622)는 수신된 비디오 데이터를 송신을 위해 인코드하도록 서로 간에 및/또는 인코더의 다른 요소들과 통신할 수 있다. 일부 실시형태에 있어서, 안티앨리어싱 필터(1604)는 도 11 내지 도 15와 관련하여 위에서 설명한 기술들을 이용하여 설계될 수 있다. 수신된 비디오 데이터의 전처리는 인코더의 다른 요소의 변환, 양자화, 엔트로피 인코딩, 역양자화, 역변환, 모션 보상, 및/또는 모션 추정에 의해 수행되는 처리 전에 또는 그 처리와 동시에 수행될 수 있다.
도 16에 도시된 것처럼, 최초 및/또는 디코드된 비디오 데이터는 전처리를 위해 안티앨리어싱 필터(1604)에 전송될 수 있다. 안티앨리어싱 필터는 다운샘플링 유닛(1606)의 조건을 만족시키도록 비디오 데이터의 주파수 콘텐트를 제한하기 위해 사용될 수 있다. 실시형태에 따르면, 2:1 다운샘플링을 위한 안티앨리어싱 필터(1604)는 11-탭 FIR, 즉 [1, 0, -5, 0, 20, 32, 20, 0, -5, 0, 1]/64일 수 있다. 실시형태에 따르면, 안티앨리어싱 필터는 양자화 파라미터(QP)와 함께 수신된 및/또는 합동으로 설계된 콘텐트에 적응될 수 있다. 인코더 제어기(1622)는 선택된 샘플링 비율을 결정하고, 선택된 샘플링 비율을 다운샘플링 유닛(1606)에게 제공하기 위해 비디오 데이터의 전처리 중에 다운샘플링 유닛(1606)과 통신할 수 있다. 예를 들면, 인코더 제어기(1622)는 필터 유형(분리형 또는 비분리형), 필터 계수, 및/또는 필터 길이를 비디오 데이터의 통계 및/또는 채널 데이터 송신 능력에 기초하여 임의의 치수로 적응적으로 선택할 수 있다.
도 16에 도시된 것처럼, 비디오 데이터의 전처리는 다운샘플링 유닛(1606)을 이용한 비디오 데이터의 다운샘플링을 포함할 수 있다. 다운샘플링 유닛(1606)은 위에서 자세히 설명한 것처럼 샘플링 비율 M으로 다운샘플링할 수 있다. 비디오 데이터는 안티앨리어싱 필터(1604)로부터 다운샘플링 유닛(1606)으로 전송될 수 있다. 대안적으로, 최초 및/또는 디코드된 비디오 데이터는 다운샘플링 유닛(1606)으로 직접 전송될 수 있다. 어느 경우이든, 다운샘플링 유닛(1606)은 비디오 데이터의 샘플링 비율을 감소시키도록 비디오 데이터를 다운샘플링할 수 있다. 비디오 데이터의 다운샘플링은 비디오 데이터에 의해 표시되는 최초의 이미지 및/또는 비디오보다 더 낮은 해상도의 이미지 및/또는 비디오를 생성할 수 있다. 위에서 설명한 것처럼, 다운샘플링 유닛(1606)의 샘플링 비율(M)은 수신된 콘텐트에 적응될 수 있고, 및/또는 QP와 합동으로 설계될 수 있다. 예를 들면, 인코더 제어기(1622)는 순간 비디오 콘텐트 및/또는 채널 데이터 송신 능력에 따라서, 예를 들면 1/3 또는 유리분수와 같이 다운샘플링 비율을 적응적으로 선택할 수 있다.
안티앨리어싱 필터(1604) 및/또는 다운샘플링 유닛(1606)에 의해 수행되는 전처리는 인코더 제어기(1622)와의 통신에 의해 제어 및/또는 원조될 수 있다. 인코더 제어기(1622)는 비디오 데이터의 처리시에 수행되는 양자화를 추가적으로 또는 대안적으로 제어할 수 있다. 인코더 제어기(1622)는 인코딩 파라미터를 선택하도록 구성될 수 있다. 예를 들면, 인코더 제어기는 콘텐트 의존형일 수 있고, 비디오 데이터로부터의 모션 정보, 잔차 데이터 및 다른 통계를 이용하여 예컨대 샘플링 비율(M)과 같은 인코딩 파라미터 및/또는 전처리 파라미터를 결정할 수 있다.
예시적인 디코더 구조
도 17은 비디오 데이터를 디코드하기 위해 수행될 수 있는 처리 및 후처리를 위한 예시적인 디코더 구조(1700)를 보인 것이다. 엔트로피 디코딩부(1704), 역양자화부(1706), 역변환부(1708), 및/또는 모션 보상부(1720)는 비디오 데이터의 디코더 처리를 위한 부품이다. 업샘플링 유닛(1712), 저역 통과 필터(1714), 흐림방지 필터(1716), 및/또는 디코더 제어기(1710)는 비디오 데이터를 디코딩하기 위한 후처리의 부품이다. 상기 후처리 요소들은 디코더(1700)에 통합되거나, 디코더와 독립적으로 작용하거나, 또는 디코더의 상부에 위치하도록 구성될 수 있다. 어느 경우이든, 채널(1702)로부터의 비디오 데이터가 디코딩되고 후처리가 수행된 후에, 디코딩된 비디오 데이터는 예를 들면 기억 매체 또는 출력 장치에 출력(1718)을 통해 전송될 수 있다.
도 17에 도시된 것처럼, 비디오 데이터는 예를 들면 인코더 또는 기억 매체로부터 채널(1702)을 통해 수신된다. 수신되는 비디오 데이터는 인코딩된 비디오 신호, 비디오 시퀀스, 비트 스트림, 또는 이미지 또는 비디오 콘텐트를 표시할 수 있는 임의의 다른 데이터를 포함할 수 있다. 수신된 비디오 데이터는 도 3에서 설명한 것처럼 엔트로피 디코딩, 역양자화, 역변환, 및/또는 모션 보상을 이용하여 처리될 수 있다. 인코딩된 비디오 데이터의 처리는 후처리 전에 또는 후처리와 동시에 수행될 수 있다. 인코딩된 비디오 데이터는 업샘플링 유닛(1712), 저역 통과 필터(1714), 흐림방지 필터(1716), 및/또는 디코더 제어기(1710)에 의해 후처리될 수 있다. 디코더 제어기(1710)는 선택된 샘플링 비율의 표시를 수신하고, 선택된 샘플링 비율을 업샘플링 유닛(1712)에게 송신할 수 있다. 업샘플링 유닛(1712), 저역 통과 필터(1714), 흐림방지 필터(1716), 및/또는 디코더 제어기(1710)는 수신된 비디오 데이터를 저장을 위해 디코드하고 및/또는 디스플레이에 출력하기 위해 서로 간에 및/또는 디코더(1700)의 다른 요소와 통신할 수 있다. 일부 실시형태에 있어서, 저역 통과 필터(1714)는 도 14 내지 도 18과 관련하여 위에서 설명한 기술을 이용하여 설계될 수 있다.
도 17에 도시된 것처럼, 비디오 데이터의 후처리는 비디오 데이터의 업샘플링을 포함할 수 있다. 업샘플링 비율은 위에서 설명한 것처럼 선택된 비율(Mi)일 수 있다. 비디오 데이터는 디코더(1700)에 의해 처리된 후에 업샘플링 유닛(1712)에 전송될 수 있다(도시된 것처럼). 업샘플링 유닛(1712)은 재구성된 비디오의 해상도 및/또는 품질을 증가시킨다. 예를 들면, 비디오 데이터의 업샘플링은 인코더의 전처리부에서 비디오 데이터에 대하여 수행된 다운샘플링에 대응할 수 있다. 다운샘플링 유닛(1606)(도 16)과 유사하게, 업샘플링 유닛(1712)은 비디오 데이터를 업샘플링하기 위한 동적 샘플링 비율을 가질 수 있다.
실시형태에 따르면, 비디오 데이터의 후처리는 저역 통과 보간 필터(1714)를 포함할 수 있다. 저역 통과 보간 필터는 안티앨리어싱을 구현하고 비디오 데이터에 의해 표시되는 비디오 콘텐트의 품질 및 선명도를 개선할 수 있다. 실시형태에 따르면, 1:2 업샘플링을 위한 저역 통과 보간 필터는 4-탭 FIR, 즉 [0.25, 0.75, 0.75, 0.25]를 포함할 수 있다. 저역 통과 보간 필터(1714)는 콘텐트에 적응되고 및/또는 QP와 합동으로 설계될 수 있다. 실시형태에 따르면, 디코더 제어기는 임의의 치수로 필터 유형, 필터 계수 및/또는 필터 길이를 적응적으로 선택할 수 있다. 디코더 제어기에 의해 이루어진 선택은 위에서 자세히 설명한 것처럼, 예를 들면 이전 프레임의 통계 및 현재 프레임의 QP와 같은 인코딩된 비디오 데이터의 통계 및/또는 구문에 기초를 둘 수 있다.
도 17에 도시된 것처럼, 비디오 데이터의 후처리는, 일부 실시형태에 있어서, 흐림방지(또는 선명화) 필터(1716)를 포함할 수 있다. 흐림방지 필터(1716)는 다운샘플링 및/또는 저역 통과 필터링에 의해 야기되는 흐림을 보상하기 위해 사용될 수 있다. 실시형태에 따르면, 흐림방지 필터는 2-D 라플라시안 필터, 즉 [0, 0, 0; 0, 1, 0; 0, 0, 0] + [-1, -1, -1; -1, 8, -1; -1, -1, -1]/5를 포함할 수 있다. 흐림방지 필터는 콘텐트에 적응되고 및/또는 QP와 합동으로 설계될 수 있다. 실시형태에 따르면, 디코더 제어기(1710)는 임의의 치수로 필터 유형, 필터 계수 및/또는 필터 길이를 적응적으로 선택할 수 있다. 선택은 위에서 자세히 설명한 것처럼, 예를 들면 이전 프레임의 통계 및 현재 프레임의 QP와 같은 인코딩된 비디오 비트 스트림의 통계 및/또는 구문에 기초를 둘 수 있다.
실시형태에 따르면, 전처리 및 후처리를 각각 수행하는 인코더 및 디코더는 서로를 인식할 수 있다. 예를 들면, 인코더와 디코더는 비디오 데이터의 전처리에 대응하는 정보를 디코더에게 전송할 수 있는 통신 링크(예를 들면, 도 1의 통신 채널(16))를 구비할 수 있다. 유사하게, 디코더는 비디오 데이터의 후처리에 대응하는 정보를 통신 링크를 통하여 인코더에게 전송할 수 있다. 이러한 통신 링크는 인코더에서 발생하는 전처리에 기초하여 디코더가 후처리를 조정할 수 있게 한다. 유사하게, 통신 링크는 디코더에서 발생하는 후처리에 기초하여 인코더가 전처리를 조정할 수 있게 한다. 만일 전처리 및 후처리가 인코더 및 디코더에서 각각 수행되지 않으면, 비디오 데이터의 전처리 및/또는 후처리를 수행하는 다른 엔티티와 유사한 통신 링크가 또한 확립될 수 있다.
도 18은 트랜스코더와 관련하여 비디오 데이터의 전처리부의 예시적인 실시형태를 보인 것이다. 도 18에 도시된 것처럼, 비디오 데이터(1804)는 비트 스트림, 비디오 신호, 비디오 시퀀스, 또는 이미지 또는 비디오 콘텐트를 표시할 수 있는 임의의 다른 데이터로서 수신될 수 있다. 비디오 데이터는 안티앨리어싱 필터(1808), 다운샘플러(1810), 및/또는 인코더 제어기(1802)에 의해 전처리될 수 있다. 안티앨리어싱 필터(1808), 다운샘플러(1810), 및/또는 인코더 제어기(1802)는 서로 간에 및/또는 인코더 및/또는 디코더의 다른 요소와 통신할 수 있다. 수신된 비디오 데이터의 전처리는 인코더 및/또는 디코더에 의해 수행되는 처리 전에 또는 그 처리와 동시에 수행될 수 있다. 비디오 데이터는 도 16에서 비디오 데이터의 전처리의 설명과 관련하여 위에서 설명한 것처럼 전처리될 수 있다.
도 1과 관련하여 위에서 설명한 것처럼, 예를 들면, 여기에서 설명하는 시스템 및 방법에 따라서 부호화된 비디오는 유선 접속 및/또는 무선 접속을 포함한 통신 채널(16)을 거쳐서 통신 네트워크를 통해 전송될 수 있다. 통신 네트워크는 도 19a, 19B, 19C, 및 19D와 관련하여 뒤에서 자세히 설명되는 바와 같이 임의의 적당한 유형의 통신 시스템일 수 있다.
도 19a는 하나 이상의 본 발명의 실시형태를 구현할 수 있는 예시적인 통신 시스템(1900)을 보인 도이다. 통신 시스템(1900)은 복수의 무선 사용자에게 음성, 데이터, 영상, 메시지, 방송 등의 콘텐츠를 제공하는 다중 접속 시스템일 수 있다. 통신 시스템(1900)은 복수의 무선 사용자들이 무선 대역폭을 포함한 시스템 자원을 공유함으로써 상기 콘텐츠에 접근할 수 있게 한다. 예를 들면, 통신 시스템(1900)은 코드 분할 다중 접속(CDMA), 시분할 다중 접속(TDMA), 주파수 분할 다중 접속(FDMA), 직교 FDMA(OFDMA), 단일 반송파 FDMA(SC-FDMA) 등과 같은 하나 이상의 채널 접속 방법을 이용할 수 있다.
도 19a에 도시된 것처럼, 통신 시스템(1900)은 무선 송수신 유닛(wireless transmit/receive unit; WTRU)(1902a, 1902b, 1902c, 1902d), 무선 접근 네트워크(radio access network; RAN)(1904), 코어 네트워크(1906), 공중 교환식 전화망(public switched telephone network; PSTN)(1908), 인터넷(1910) 및 기타의 네트워크(1912)를 포함하고 있지만, 본 발명의 실시형태는 임의 수의 WTRU, 기지국, 네트워크 및/또는 네트워크 요소를 포함할 수 있다는 것을 이해할 것이다. 각 WTRU(1902a, 1902b, 1902c, 1902d)는 무선 환경에서 동작 및/또는 통신하도록 구성된 임의 유형의 장치일 수 있다. 예를 들면, WTRU(1902a, 1902b, 1902c, 1902d)는 무선 신호를 송신 및/또는 수신하도록 구성될 수 있고, 사용자 장비(UE), 이동국, 고정식 또는 이동식 가입자 유닛, 페이저, 셀룰러 전화기, 개인 정보 단말기(personal digital assistant; PDA), 스마트폰, 랩톱, 넷북, 퍼스널 컴퓨터, 무선 센서, 소비자 전자제품, 또는 압축 비디오 통신을 수신 및 처리할 수 있는 임의의 다른 단말기를 포함할 수 있다.
통신 시스템(1900)은 기지국(1914a)과 기지국(1914b)을 또한 포함할 수 있다. 각 기지국(1914a, 1914b)은 적어도 하나의 WTRU(1902a, 1902b, 1902c, 1902d)와 무선으로 인터페이스 접속하여 코어 네트워크(1906), 인터넷(1910) 및/또는 네트워크(1912)와 같은 하나 이상의 통신 네트워크에 접근하도록 구성된 임의 유형의 장치일 수 있다. 예를 들면, 기지국(1914a, 1914b)은 기지국 송수신기(base transceiver station; BTS), 노드-B, e노드 B, 홈 노드 B, 홈 e노드 B, 사이트 제어기, 접근점(access point; AP), 무선 라우터 등일 수 있다. 비록 기지국(1914a, 1914b)이 각각 단일 요소로서 도시되어 있지만, 기지국(1914a, 1914b)은 임의 수의 상호접속된 기지국 및/또는 네트워크 요소를 포함할 수 있다는 것을 이해할 것이다.
기지국(1914a)은 RAN(1904)의 일부일 수 있고, RAN(1904)은 기지국 제어기(base station controller; BSC), 라디오 네트워크 제어기(radio network controller; RNC), 릴레이 노드 등과 같은 다른 기지국 및/또는 네트워크 요소(도시 생략됨)를 또한 포함할 수 있다. 기지국(1914a) 및/또는 기지국(1914b)은 셀(도시 생략됨)이라고도 부르는 특정의 지리적 영역 내에서 무선 신호를 송신 및/또는 수신하도록 구성될 수 있다. 셀은 복수의 셀 섹터로 세분될 수 있다. 예를 들면, 기지국(1914a)과 관련된 셀은 3개의 섹터로 나누어질 수 있다. 따라서, 일 실시형태에 있어서, 기지국(1914a)은 셀의 각 섹터마다 하나씩 3개의 송수신기를 포함할 수 있다. 다른 실시형태에 있어서, 기지국(1914a)은 다중입력 다중출력(MIMO) 기술을 사용할 수 있고, 따라서 셀의 각 섹터마다 복수의 송수신기를 사용할 수 있다.
기지국(1914a, 1914b)은 임의의 적당한 무선 통신 링크(예를 들면, 라디오 주파수(RF), 마이크로파, 적외선(IR), 자외선(UV), 가시광선 등)일 수 있는 무선 인터페이스(1916)를 통하여 하나 이상의 WTRU(1902a, 1902b, 1902c, 1902d)와 통신할 수 있다. 무선 인터페이스(1916)는 임의의 적당한 무선 접근 기술(radio access technology; RAT)을 이용하여 확립될 수 있다.
더 구체적으로, 위에서 언급한 것처럼, 통신 시스템(1900)은 다중 접근 시스템일 수 있고, CDMA, TDMA, FDMA, OFDMA, SC-FDMA 등과 같은 하나 이상의 채널 접근 방식을 이용할 수 있다. 예를 들면, RAN(1904) 내의 기지국(1914a)과 WTRU(1902a, 1902b, 1902c)는 광대역 CDMA(WCDMA)를 이용하여 무선 인터페이스(1916)를 확립하는 범용 이동통신 시스템(UMTS) 지상 라디오 액세스(UTRA)와 같은 무선 기술을 구현할 수 있다. WCDMA는 고속 패킷 액세스(HSPA) 및/또는 진화형 HSPA(HSPA+)와 같은 통신 프로토콜을 포함할 수 있다. HSPA는 고속 다운링크 패킷 액세스(HSDPA) 및/또는 고속 업링크 패킷 액세스(HSUPA)를 포함할 수 있다.
다른 실시형태에 있어서, 기지국(1914a)과 WTRU(1902a, 1902b, 1902c)는 롱텀 에볼루션(LTE) 및/또는 LTE-어드반스드(LTE-A)를 이용하여 무선 인터페이스(1916)를 확립하는 진화형 UMTS 지상 라디오 액세스(E-UTRA)와 같은 무선 기술을 구현할 수 있다.
다른 실시형태에 있어서, 기지국(1914a)과 WTRU(1902a, 1902b, 1902c)는 IEEE 802.16(즉, WiMAX(Worldwide Interoperability for Microwave Access)), CDMA2000, CDMA2000 1X, CDMA2000 EV-DO, 잠정 표준 2000(IS-2000), 잠정 표준 95(IS-95), 잠정 표준 856(IS-856), 글로벌 이동통신 시스템(GSM), EDGE(Enhanced Data rates for GSM Evolution), GSM EDGE(GERAN) 등과 같은 무선 기술을 구현할 수 있다.
도 19a의 기지국(1914b)은 예를 들면 무선 라우터, 홈 노드 B, 홈 e노드 B, 또는 접근점일 수 있고, 사업장, 홈, 자동차, 캠퍼스 등과 같은 국소 지역에서 무선 접속을 가능하게 하는 임의의 적당한 RAT를 이용할 수 있다. 일 실시형태에 있어서, 기지국(1914b)과 WTRU(1902c, 1902d)는 IEEE 802.11과 같은 무선 기술을 구현하여 무선 근거리 통신망(WLAN)을 확립할 수 있다. 다른 실시형태에 있어서, 기지국(1914b)과 WTRU(1902c, 1902d)는 IEEE 802.15와 같은 무선 기술을 구현하여 무선 개인 통신망(WPAN)을 확립할 수 있다. 또 다른 실시형태에 있어서, 기지국(1914b)과 WTRU(1902c, 1902d)는 셀룰러 기반 RAT(예를 들면, WCDMA, CDMA2000, GSM, LTE, LTE-A 등)를 이용하여 피코셀 또는 펨토셀을 확립할 수 있다. 도 19a에 도시된 바와 같이, 기지국(1914b)은 인터넷(1910)에 직접 접속될 수 있다. 그러므로, 기지국(1914b)은 코어 네트워크(1906)를 통해 인터넷(1910)에 액세스할 필요가 없다.
RAN(1904)은 코어 네트워크(1906)와 통신하고, 코어 네트워크(1906)는 하나 이상의 WTRU(1902a, 1902b, 1902c, 1902d)에게 음성, 데이터, 애플리케이션 및/또는 인터넷을 통한 음성 프로토콜(voice over internet protocol; VoIP) 서비스를 제공하도록 구성된 임의 유형의 네트워크일 수 있다. 예를 들면, 코어 네트워크(1906)는 호출 제어, 빌링(billing) 서비스, 모바일 위치 기반 서비스, 선불 통화, 인터넷 접속, 영상 분배 등을 제공할 수 있고, 및/또는 사용자 인증과 같은 고급 보안 기능을 수행할 수 있다. 비록 도 19a에 도시되어 있지 않지만, RAN(1904) 및/또는 코어 네트워크(1906)는 RAN(1904)과 동일한 RAT 또는 다른 RAT를 이용하는 다른 RAN과 직접 또는 간접 통신을 할 수 있다는 것을 이해할 것이다. 예를 들면, E-UTRA 무선 기술을 이용하는 RAN(1904)에 접속되는 것 외에, 코어 네트워크(1906)는 GSM 무선 기술을 이용하는 다른 RAN(도시 생략됨)과도 또한 통신할 수 있다.
코어 네트워크(1906)는 WTRU(1902a, 1902b, 1902c, 1902d)가 PSTN(1908), 인터넷(1910) 및/또는 기타 네트워크(1912)에 액세스하게 하는 게이트웨이로서 또한 기능할 수 있다. PSTN(1908)은 재래식 전화 서비스(plain old telephone service; POTS)를 제공하는 회선 교환식 전화망을 포함할 수 있다. 인터넷(1910)은 TCP/IP 인터넷 프로토콜 스위트(suite)에서 전송 제어 프로토콜(TCP), 사용자 데이터그램 프로토콜(UDP) 및 인터넷 프로토콜(IP)과 같은 공통의 통신 프로토콜을 이용하는 상호접속된 컴퓨터 네트워크 및 장치의 글로벌 시스템을 포함할 수 있다. 네트워크(1912)는 다른 서비스 공급자에 의해 소유 및/또는 운용되는 유선 또는 무선 통신 네트워크를 포함할 수 있다. 예를 들면, 네트워크(1912)는 RAN(1904)과 동일한 RAT 또는 다른 RAT를 이용하는 하나 이상의 RAN에 접속된 다른 코어 네트워크를 포함할 수 있다.
통신 시스템(1900)의 WTRU(1902a, 1902b, 1902c, 1902d)의 일부 또는 전부는 다중 모드 능력을 구비할 수 있다. 즉, WTRU(1902a, 1902b, 1902c, 1902d)는 다른 무선 링크를 통하여 다른 무선 네트워크와 통신하기 위한 복수의 송수신기를 포함할 수 있다. 예를 들면, 도 19a에 도시된 WTRU(1902c)는 셀룰러 기반 무선 기술을 이용할 수 있는 기지국(1914a), 및 IEEE 802 무선 기술을 이용할 수 있는 기지국(1914b)과 통신하도록 구성될 수 있다.
도 19b는 예시적인 WTRU(1902)의 계통도이다. 도 19b에 도시된 바와 같이, WTRU(1902)는 프로세서(1918), 송수신기(1920), 송수신 엘리멘트(1922), 스피커/마이크로폰(1924), 키패드(1926), 디스플레이/터치패드(1928), 비분리형 메모리(1930), 분리형 메모리(1932), 전원(1934), 글로벌 위치확인 시스템(GPS) 칩세트(1936) 및 기타 주변장치(1938)를 포함할 수 있다. WTRU(1902)는 실시형태의 일관성을 유지하면서 전술한 요소들의 임의의 부조합(sub-combination)을 포함할 수 있다는 것을 이해할 것이다.
프로세서(1918)는 범용 프로세서, 특수 용도 프로세서, 전통적 프로세서, 디지털 신호 프로세서(DSP), 그래픽 처리 유닛(GPU), 복수의 마이크로프로세서, DSP 코어와 연합하는 하나 이상의 마이크로프로세서, 컨트롤러, 마이크로컨트롤러, 용도 지정 집적회로(ASIC), 현장 프로그램가능 게이트 어레이(FPGA) 회로, 임의의 다른 유형의 집적회로(IC), 상태 기계 등일 수 있다. 프로세서(1918)는 신호 부호화, 데이터 처리, 전력 제어, 입력/출력 처리, 및/또는 WTRU(1902)가 무선 환경에서 동작하게 하는 임의의 다른 기능을 수행할 수 있다. 프로세서(1918)는 송수신기(1920)에 결합되고, 송수신기(1920)는 송수신 엘리멘트(1922)에 결합될 수 있다. 비록 도 19b에서는 프로세서(1918)와 송수신기(1920)가 별도의 구성요소로서 도시되어 있지만, 프로세서(1918)와 송수신기(1920)는 전자 패키지 또는 칩으로 함께 통합될 수 있음을 이해할 것이다.
송수신 엘리멘트(1922)는 무선 인터페이스(1916)를 통하여 기지국(예를 들면 기지국(1914a))에 신호를 송신하거나 기지국으로부터 신호를 수신하도록 구성될 수 있다. 예를 들면, 일 실시형태에 있어서, 송수신 엘리멘트(1922)는 RF 신호를 송신 및/또는 수신하도록 구성된 안테나일 수 있다. 다른 실시형태에 있어서, 송수신 엘리멘트(1922)는 예를 들면, IR, UV 또는 가시광 신호를 송신 및/또는 수신하도록 구성된 에미터/검지기일 수 있다. 또 다른 실시형태에 있어서, 송수신 엘리멘트(1922)는 RF 신호와 광신호 둘 다를 송신 및 수신하도록 구성될 수 있다. 송수신 엘리멘트(1922)는 임의의 무선 신호 조합을 송신 및/또는 수신하도록 구성될 수 있다는 것을 이해할 것이다.
또한, 비록 송수신 엘리멘트(1922)가 도 19b에서 단일 엘리멘트로서 도시되어 있지만, WTRU(1902)는 임의 수의 송수신 엘리멘트(1922)를 포함할 수 있다. 더 구체적으로, WTRU(1902)는 MIMO 기술을 이용할 수 있다. 따라서, 일 실시형태에 있어서, WTRU(1902)는 무선 인터페이스(1916)를 통해 무선 신호를 송신 및 수신하기 위해 2개 이상의 송수신 엘리멘트(1922)(예를 들면, 다중 안테나)를 포함할 수 있다.
송수신기(1920)는 송수신 엘리멘트(1922)에 의해 송신할 신호들을 변조하고 송수신 엘리멘트(1922)에 의해 수신된 신호를 복조하도록 구성될 수 있다. 전술한 바와 같이, WTRU(1902)는 다중 모드 능력을 구비할 수 있다. 따라서, 송수신기(1920)는 WTRU(1902)가 예를 들면 UTRA 및 IEEE 802.11과 같은 복수의 RAT를 통하여 통신하게 하는 복수의 송수신기를 포함할 수 있다.
WTRU(1902)의 프로세서(1918)는 스피커/마이크로폰(1924), 키패드(1926), 및/또는 디스플레이/터치패드(1928)(예를 들면, 액정 디스플레이(LCD) 표시 장치 또는 유기 발광 다이오드(OLED) 표시 장치)에 결합되어 이들로부터 사용자 입력 데이터를 수신할 수 있다. 프로세서(1918)는 또한 스피커/마이크로폰(1924), 키패드(1926), 및/또는 디스플레이/터치패드(1928)에 사용자 데이터를 출력할 수 있다. 또한, 프로세서(1918)는 비분리형 메모리(1930) 및/또는 분리형 메모리(1932)와 같은 임의 유형의 적당한 메모리로부터 정보를 액세스하고 상기 적당한 메모리에 데이터를 저장할 수 있다. 비분리형 메모리(1930)는 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 하드 디스크 또는 임의의 다른 유형의 메모리 기억장치를 포함할 수 있다. 분리형 메모리(1932)는 가입자 식별 모듈(SIM) 카드, 메모리 스틱, 보안 디지털(SD) 메모리 카드 등을 포함할 수 있다. 다른 실시형태에 있어서, 프로세서(1918)는 서버 또는 홈 컴퓨터(도시 생략됨)와 같이 물리적으로 WTRU(1902)에 위치되어 있지 않은 메모리로부터의 정보에 액세스하고 그러한 메모리에 데이터를 저장할 수 있다.
프로세서(1918)는 전원(1934)으로부터 전력을 수신하고, WTRU(1902)의 각종 구성요소에 대하여 전력을 분배 및/또는 제어하도록 구성될 수 있다. 전원(1934)은 WTRU(1902)에 전력을 공급하는 임의의 적당한 장치일 수 있다. 예를 들면, 전원(1934)은 하나 이상의 건전지 배터리(예를 들면, 니켈-카드뮴(NiCd), 니켈-아연(NiZn), 니켈 금속 하이드라이드(NiMH), 리튬-이온(Li-ion) 등), 태양 전지, 연료 전지 등을 포함할 수 있다.
프로세서(1918)는 WTRU(1902)의 현재 위치에 관한 위치 정보(예를 들면, 경도 및 위도)를 제공하도록 구성된 GPS 칩세트(1936)에 또한 결합될 수 있다. GPS 칩세트(1936)로부터의 정보에 추가해서 또는 그 대신으로, WTRU(1902)는 기지국(예를 들면 기지국(1914a, 1914b))으로부터 무선 인터페이스(1916)를 통해 위치 정보를 수신하고, 및/또는 2개 이상의 인근 기지국으로부터 신호가 수신되는 타이밍에 기초하여 그 위치를 결정할 수 있다. WTRU(1902)는 실시형태의 일관성을 유지하면서 임의의 적당한 위치 결정 방법에 의해 위치 정보를 획득할 수 있다는 것을 이해할 것이다.
프로세서(1918)는 추가의 특징, 기능 및/또는 유선 또는 무선 접속을 제공하는 하나 이상의 소프트웨어 및/또는 하드웨어 모듈을 포함한 기타 주변 장치(1938)에 또한 결합될 수 있다. 예를 들면, 주변 장치(1938)는 가속도계, e-콤파스, 위성 송수신기, 디지털 카메라(사진용 또는 영상용), 범용 직렬 버스(USB) 포트, 진동 장치, 텔레비전 송수신기, 핸즈프리 헤드셋, 블루투스® 모듈, 주파수 변조(FM) 라디오 장치, 디지털 뮤직 플레이어, 미디어 플레이어, 비디오 게임 플레이어 모듈, 인터넷 브라우저 등을 포함할 수 있다.
도 19c는 일 실시형태에 따른 RAN(1904) 및 코어 네트워크(1906)의 계통도이다. 전술한 바와 같이, RAN(1904)은 UTRA 라디오 기술을 이용하여 무선 인터페이스(1916)를 통해 WTRU(1902a, 1902b, 1902c)와 통신할 수 있다. RAN(1904)은 코어 네트워크(1906)와 또한 통신할 수 있다. 도 19c에 도시된 것처럼, RAN(1904)은 노드-B(1940a, 1940b, 1940c)를 포함하고, 노드-B(1940a, 1940b, 1940c)는 무선 인터페이스(1916)를 통하여 WTRU(1902a, 1902b, 1902c)와 통신하는 하나 이상의 송수신기를 각각 포함할 수 있다. 노드-B(1940a, 1940b, 1940c)는 RAN(1904) 내의 특정 셀(도시 생략됨)과 각각 연합될 수 있다. RAN(1904)은 또한 RNC(1942a, 1942b)를 포함할 수 있다. RAN(1904)은 실시형태와의 일관성을 유지하면서 임의 수의 노드-B 및 RNC를 포함할 수 있다는 것을 이해할 것이다.
도 19c에 도시된 것처럼, 노드-B(1940a, 1940b)는 RNC(1942a)와 통신할 수 있다. 또한, 노드-B(1940c)는 RNC(1942b)와 통신할 수 있다. 노드-B(1940a, 1940b, 1940c)는 Iub 인터페이스를 통해 각각의 RNC(1942a, 1942b)와 통신할 수 있다. RNC(1942a, 1942b)는 Iur 인터페이스를 통해 서로 통신할 수 있다. 각각의 RNC(1942a, 1942b)는 이들이 접속된 각각의 노드-B(1940a, 1940b, 1940c)를 제어하도록 구성될 수 있다. 또한 각각의 RNC(1942a, 1942b)는 외부 루프 전력 제어, 부하 제어, 허가 제어, 패킷 스케줄링, 핸드오버 제어, 매크로다이버시티, 보안 기능, 데이터 암호화 등과 같은 다른 기능을 실행 또는 지원하도록 구성될 수 있다.
도 19c에 도시된 코어 네트워크(1906)는 미디어 게이트웨이(MGW)(1944), 모바일 스위칭 센터(MSC)(1946), 서빙 GPRS 지원 노드(SGSN)(1948) 및/또는 게이트웨이 GPRS 지원 노드(GGSN)(1950)를 포함할 수 있다. 전술한 요소들이 각각 코어 네트워크(1906)의 일부로서 도시되어 있지만, 이 요소들 중 임의의 요소는 코어 네트워크 사업자가 아닌 다른 엔티티에 의해 소유되거나 운용될 수 있다는 것을 이해할 것이다.
RAN(1904)에 있는 RNC(1942a)는 IuCS 인터페이스를 통해 코어 네트워크(1906) 내의 MSC(1946)에 접속될 수 있다. MSC(1946)는 MGW(1944)에 접속될 수 있다. MSC(1946)와 MGW(1944)는 PSTN(1908)과 같은 회선 교환식 네트워크에 대한 액세스를 WTRU(1902a, 1902b, 1902c)에게 제공하여 WTRU(1902a, 1902b, 1902c)와 전통적인 지상선 통신 장치 간의 통신을 가능하게 한다.
RAN(1904)에 있는 RNC(1942a)는 IuPS 인터페이스를 통해 코어 네트워크(1906) 내의 SGSN(1948)에 또한 접속될 수 있다. SGSN(1948)은 GGSN(1950)에 접속될 수 있다. SGSN(1948)과 GGSN(1950)은 인터넷(1910)과 같은 패킷 교환식 네트워크에 대한 액세스를 WTRU(1902a, 1902b, 1902c)에게 제공하여 WTRU(1902a, 1902b, 1902c)와 IP-인에이블 장치 간의 통신을 가능하게 한다.
전술한 바와 같이, 코어 네트워크(1906)는 다른 서비스 공급자에 의해 소유 및/또는 운용되는 다른 유선 또는 무선 네트워크를 포함하는 네트워크(1912)에 또한 접속될 수 있다.
도 19d는 다른 실시형태에 따른 RAN(1904) 및 코어 네트워크(1906)의 계통도이다. 전술한 바와 같이, RAN(1904)은 E-UTRA 무선 기술을 이용하여 무선 인터페이스(1916)를 통해 WTRU(1902a, 1902b, 1902c)와 통신할 수 있다. RAN(1904)은 코어 네트워크(1906)와 또한 통신할 수 있다.
RAN(1904)이 e노드-B(1960a, 1960b, 1960c)를 포함하고 있지만, RAN(1904)은 실시형태의 일관성을 유지하면서 임의 수의 e노드-B를 포함할 수 있다는 것을 이해할 것이다. e노드-B(1960a, 1960b, 1960c)는 무선 인터페이스(1916)를 통하여 WTRU(1902a, 1902b, 1902c)와 통신하는 하나 이상의 송수신기를 각각 포함할 수 있다. 일 실시형태에 있어서, e노드-B(1960a, 1960b, 1960c)는 MIMO 기술을 구현할 수 있다. 따라서, 예를 들면 e노드-B(1960a)는 복수의 안테나를 사용하여 WTRU(1902a)에게 무선 신호를 전송하고 WTRU(1902a)로부터 무선 신호를 수신할 수 있다.
각각의 e노드-B(1960a, 1960b, 1960c)는 특정 셀(도시 생략됨)과 연합될 수 있고, 무선 자원 관리 결정, 핸드오버 결정, 업링크 및/또는 다운링크에서 사용자의 스케줄링 등을 취급하도록 구성될 수 있다. 도 19d에 도시된 바와 같이, e노드-B(1960a, 1960b, 1960c)는 X2 인터페이스를 통해 서로 통신할 수 있다.
도 19d에 도시된 코어 네트워크(1906)는 이동도 관리 게이트웨이(MME)(1962), 서빙 게이트웨이(1964) 및 패킷 데이터 네트워크(PDN) 게이트웨이(1966)를 포함할 수 있다. 전술한 요소들이 각각 코어 네트워크(1906)의 일부로서 도시되어 있지만, 이 요소들 중 임의의 요소는 코어 네트워크 운용자가 아닌 다른 엔티티에 의해 소유 및/또는 운용될 수 있다는 것을 이해할 것이다.
MME(1962)는 S1 인터페이스를 통해 RAN(1904) 내의 각각의 e노드-B(1960a, 1960b, 1960c)에 접속될 수 있고, 제어 노드로서 기능할 수 있다. 예를 들면, MME(1962)는 WTRU(1902a, 1902b, 1902c)의 사용자를 인증하고, 베어러를 활성화/비활성화하고, WTRU(1902a, 1902b, 1902c)의 초기 부착 중에 특정의 서빙 게이트웨이를 선택하는 등의 임무를 수행할 수 있다. MME(1962)는 또한 GSM 또는 WCDMA와 같은 다른 무선 기술을 이용하는 다른 RAN(도시 생략됨)과 RAN(1904) 간의 스위칭을 위한 제어 평면 기능(control plane function)을 또한 제공할 수 있다.
서빙 게이트웨이(1964)는 RAN(1904) 내의 각각의 e노드-B(1960a, 1960b, 1960c)에 S1 인터페이스를 통해 접속될 수 있다. 서빙 게이트웨이(1964)는 일반적으로 WTRU(1902a, 1902b, 1902c)로/로부터 사용자 데이터 패킷을 라우트 및 회송할 수 있다. 서빙 게이트웨이(1964)는 또한 e노드-B 간의 핸드오버 중에 사용자 평면(user plane)을 고정(anchoring)하는 것, 다운링크 데이터가 WTRU(1902a, 1902b, 1902c)에 이용할 수 있을 때 페이징을 트리거하는 것, WTRU(1902a, 1902b, 1902c)의 콘텍스트를 관리 및 저장하는 것 등의 다른 기능을 수행할 수 있다.
서빙 게이트웨이(1964)는 PDN 게이트웨이(1966)에 또한 접속될 수 있고, PDN 게이트웨이(1966)는 WTRU(1902a, 1902b, 1902c)와 IP-인에이블 장치 간의 통신을 돕도록 인터넷(1910)과 같은 패킷 교환식 네트워크에 대한 액세스를 WTRU(1902a, 1902b, 1902c)에게 제공할 수 있다.
코어 네트워크(1906)는 다른 네트워크와의 통신을 가능하게 한다. 예를 들면, 코어 네트워크(1906)는 WTRU(1902a, 1902b, 1902c)와 전통적인 지상선(land-line) 통신 장치 간의 통신이 가능하도록, PSTN(1908)과 같은 회선 교환식 네트워크에 대한 액세스를 WTRU(1902a, 1902b, 1902c)에게 제공할 수 있다. 예를 들면, 코어 네트워크(1906)는 코어 네트워크(1906)와 PSTN(1908) 간의 인터페이스로서 기능하는 IP 게이트웨이(예를 들면, IP 멀티미디어 서브시스템(IMS) 서버)를 포함하거나 그러한 IP 게이트웨이와 통신할 수 있다. 또한, 코어 네트워크(1906)는 다른 서비스 공급자에 의해 소유 및/또는 운용되는 다른 유선 또는 무선 네트워크를 포함하는 네트워크(1912)에 대한 액세스를 WTRU(1902a, 1902b, 1902c)에게 제공할 수 있다.
도 19e는 다른 실시형태에 따른 RAN(1904) 및 코어 네트워크(1906)의 계통도이다. RAN(1904)은 IEEE 802.16 라디오 기술을 이용하여 무선 인터페이스(1916)를 통해 WTRU(1902a, 1902b, 1902c)와 통신하는 액세스 서비스 네트워크(ASN)일 수 있다. 뒤에서 더 자세히 설명하는 것처럼, WTRU(1902a, 1902b, 1902c), RAN(1904) 및 코어 네트워크(1906)의 다른 기능 엔티티들 간의 통신 링크는 기준점으로서 정의될 수 있다.
도 19e에 도시된 것처럼, RAN(1904)이 기지국(1970a, 1970b, 1970c)과 ASN 게이트웨이(1972)를 포함하고 있지만, RAN(1904)은 실시형태와의 일관성을 유지하면서 임의 수의 기지국 및 ASN 게이트웨이를 포함할 수 있다는 것을 이해할 것이다. 기지국(1970a, 1970b, 1970c)은 RAN(1904) 내의 특정 셀(도시 생략됨)과 각각 연합될 수 있고, 무선 인터페이스(1916)를 통하여 WTRU(1902a, 1902b, 1902c)와 통신하는 하나 이상의 송수신기를 각각 포함할 수 있다. 일 실시형태에 있어서, 기지국(1970a, 1970b, 1970c)은 MIMO 기술을 구현할 수 있다. 따라서, 예를 들면 기지국(1970a)은 복수의 안테나를 사용하여 WTRU(1902a)에게 무선 신호를 전송하고 WTRU(1902a)로부터 무선 신호를 수신할 수 있다. 기지국(1970a, 1970b, 1970c)은 핸드오프 트리거링, 터널 확립, 무선 자원 관리, 트래픽 분류, 서비스 품질(QoS) 정책 시행 등과 같은 이동도 관리 기능을 또한 제공할 수 있다. ASN 게이트웨이(1972)는 트래픽 집성점으로서 기능할 수 있고, 페이징, 가입자 프로필의 캐싱, 코어 네트워크(1906)로의 라우팅 등의 임무를 수행할 수 있다.
WTRU(1902a, 1902b, 1902c)와 RAN(1904) 간의 무선 인터페이스(1916)는 IEEE 802.16 명세서를 구현하는 R1 기준점으로서 규정될 수 있다. 또한 각각의 WTRU(1902a, 1902b, 1902c)는 코어 네트워크(1906)와 논리적 인터페이스(도시 생략됨)를 확립할 수 있다. WTRU(1902a, 1902b, 1902c)와 코어 네트워크(1906) 간의 논리적 인터페이스는 R2 기준점으로서 규정될 수 있고, 이것은 인증(authentication), 권한부여(authorization), IP 호스트 구성 관리, 및/또는 이동도 관리를 위해 사용될 수 있다.
각 기지국(1970a, 1970b, 1970c)들 간의 통신 링크는 WTRU 핸드오버 및 기지국들 간의 데이터 전송을 가능하게 하는 프로토콜을 포함한 R8 기준점으로서 규정될 수 있다. 기지국(1970a, 1970b, 1970c)과 ASN 게이트웨이(1972) 간의 통신 링크는 R6 기준점으로서 규정될 수 있다. R6 기준점은 각각의 WTRU(1902a, 1902b, 1902c)와 연합된 이동도 이벤트에 기초하여 이동도 관리를 가능하게 하는 프로토콜을 포함할 수 있다.
도 19e에 도시된 것처럼, RAN(1904)은 코어 네트워크(1906)에 접속될 수 있다. RAN(1904)과 코어 네트워크(1906) 간의 통신 링크는 예를 들면 데이터 전송 및 이동도 관리 능력을 가능하게 하는 프로토콜을 포함한 R3 기준점으로서 규정될 수 있다. 코어 네트워크(1906)는 모바일 IP 홈 에이전트(MIP-HA)(1974), 인증, 권한부여, 계정(AAA) 서버(1976), 및 게이트웨이(1978)를 포함할 수 있다. 비록 전술한 요소들이 각각 코어 네트워크(1906)의 일부로서 도시되어 있지만, 이 요소들 중 임의의 요소는 코어 네트워크 사업자가 아닌 다른 엔티티에 의해 소유 및/또는 운용될 수 있다는 것을 이해할 것이다.
MIP-HA(1974)는 IP 어드레스 관리의 임무를 가질 수 있고, WTRU(1902a, 1902b, 1902c)가 다른 ASN 및/또는 다른 코어 네트워크들 사이에서 로밍하게 할 수 있다. MIP-HA(1974)는 인터넷(1910)과 같은 패킷 교환식 네트워크에 대한 액세스를 WTRU(1902a, 1902b, 1902c)에게 제공하여 WTRU(1902a, 1902b, 1902c)와 IP-인에이블 장치 간의 통신을 가능하게 한다. AAA 서버(1976)는 사용자 인증 및 사용자 서비스 지원의 임무를 가질 수 있다. 게이트웨이(1978)는 다른 네트워크들과의 상호연동을 가능하게 한다. 예를 들면, 게이트웨이(1978)는 PSTN(1908)과 같은 회선 교환식 네트워크에 대한 액세스를 WTRU(1902a, 1902b, 1902c)에게 제공하여 WTRU(1902a, 1902b, 1902c)와 전통적인 지상선 통신 장치 간의 통신을 가능하게 한다. 또한, 게이트웨이(1978)는 다른 서비스 공급자에 의해 소유 및/또는 운용되는 다른 유선 또는 무선 네트워크를 포함한 네트워크(1912)에 대한 액세스를 WTRU(1902a, 1902b, 1902c)에게 제공할 수 있다.
비록 도 19e에는 도시되지 않았지만, RAN(1904)은 다른 ASN에 접속될 수 있고 코어 네트워크(1906)는 다른 코어 네트워크에 접속될 수 있다는 것을 이해할 것이다. RAN(1904)과 다른 ASN 간의 통신 링크는 R4 기준점으로서 규정될 수 있고, R4 기준점은 RAN(1904)과 다른 ASN 사이에서 WTRU(1902a, 1902b, 1902c)의 이동도를 조정하는 프로토콜을 포함할 수 있다. 코어 네트워크(1906)와 다른 코어 네트워크 간의 통신 링크는 R5 기준점으로서 규정될 수 있고, R5 기준점은 홈 코어 네트워크와 방문 코어 네트워크 간의 상호연동을 가능하게 하는 프로토콜을 포함할 수 있다.
실시형태
비디오 인코딩 방법에 있어서, 비디오 데이터를 수신하는 단계와; 복수의 샘플링 비율 각각에서, 샘플링 오차 값을 결정하는 단계와; 비트율에 대하여, 복수의 샘플링 비율 각각에서, 코딩 오차 값을 결정하는 단계와; 복수의 샘플링 비율 각각에서, 샘플링 오차 값과 코딩 오차 값을 합산하는 단계와; 선택된 샘플링 비율에서 샘플링 오차 값과 코딩 오차 값의 합에 기초하여 복수의 샘플링 비율 중의 하나를 선택하는 단계와; 선택된 샘플링 비율로 비디오 데이터를 다운샘플링하는 단계와; 다운샘플링된 비디오 데이터를 인코딩하는 단계를 포함한 비디오 인코딩 방법.
전술한 실시형태에 있어서, 복수의 샘플링 비율 중의 하나를 선택하는 단계는 샘플링 오차 값과 코딩 오차 값의 최저 합산치를 발생하는 복수의 샘플링 비율 중의 하나를 선택하는 단계를 포함한 것인 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 복수의 샘플링 비율 중의 하나를 선택하는 단계는 전체 오차 값이 전체 오차 역치 아래에 있는 샘플링 오차 값과 코딩 오차 값의 합산치를 발생하는 복수의 샘플링 비율 중의 하나를 선택하는 단계를 포함한 것인 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 샘플링 오차 값은 비디오 데이터의 파워 스펙트럼 밀도(PSD) 및 다운샘플링된 비디오 데이터의 PSD의 추정치에 기초를 둔 것인 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 다운샘플링된 비디오 데이터의 PSD의 추정치는 함수이고, 함수의 적어도 하나의 파라미터는 비디오 데이터의 적어도 하나의 특성에 의해 결정되는 것인 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 샘플링 오차 값은 수신 비디오 데이터와 안티앨리어싱 필터링된 비디오 데이터의 차에 기초를 둔 것인 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 코딩 오차 값은 코딩 오차 모델에 기초를 둔 것이고, 코딩 오차 모델은 비트율 및 샘플링 비율의 함수인 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 코딩 오차 모델은 제1 파라미터 및 제2 파라미터를 포함하고, 제1 파라미터 및 제2 파라미터는 비디오 데이터의 적어도 하나의 특성에 의해 각각 결정되는 것인 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 복수의 비트율 각각에 대하여 픽셀당 비트 값을 결정하는 단계와; 복수의 비트율 각각에 대하여 왜곡 값을 결정하는 단계와; 복수의 비트율 각각에 대하여 코딩 오차 모델의 제1 파라미터에 대한 복수의 값 및 제2 파라미터에 대한 복수의 값에 기초해서 복수의 추정 왜곡 값을 결정하는 단계와; 복수의 왜곡 값이 복수의 추정 왜곡 값과 최소의 차를 갖도록 코딩 오차 모델의 제1 파라미터의 선택된 값 및 제2 파라미터의 값을 결정하는 단계를 더 포함한 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 제1 조사표로부터 제1 파라미터의 값을 선택하는 단계와; 제2 조사표로부터 제2 파라미터의 값을 선택하는 단계를 더 포함한 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 비디오 데이터의 파워 스펙트럼 밀도를 결정하는 단계를 더 포함하고, 제1 및 제2 파라미터의 값은 파워 스펙트럼 밀도의 DC 성분에 기초를 둔 것인 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 비디오 데이터의 파워 스펙트럼 밀도를 결정하는 단계를 더 포함하고, 제1 및 제2 파라미터의 값은 파워 스펙트럼 밀도의 고주파수 대역을 향한 쇠퇴 속도에 기초를 둔 것인 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 적어도 하나의 특성은 수신된 비디오 데이터의 복잡도 값이고; 복잡도 값은 사용자 입력과 네트워크 노드 중의 하나로부터 수신된 것인 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 비트율의 표시를 네트워크 노드로부터 수신하는 단계를 더 포함한 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 복수의 샘플링 비율 중의 하나를 선택하는 단계에 이어서, 제2 비트율의 표시를 수신하는 단계와; 제2 비트율에 대하여, 복수의 샘플링 비율 각각에서 갱신 코딩 오차 값을 결정하는 단계와; 샘플링 오차 값과 갱신 코딩 오차 값의 합에 기초하여 갱신 샘플링 비율을 선택하는 단계와; 갱신 샘플링 비율로 입력 비디오를 다운샘플링하는 단계와; 다운샘플링된 비디오 시퀀스를 인코딩하는 단계를 더 포함한 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 샘플링 비율은 수평 샘플링 비율과 수직 샘플링 비율을 포함하고, 수평 샘플링 비율은 수직 샘플링 비율과 다른 것인 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 샘플링 비율은 수평 샘플링 비율과 수직 샘플링 비율을 포함하고, 수평 샘플링 비율은 수직 샘플링 비율과 같은 것인 비디오 인코딩 방법.
전술한 실시형태 중의 어느 하나에 있어서, 샘플링 비율의 제1 선택은 수신 비디오 데이터의 시작시에 수행되고, 샘플링 비율의 적어도 제2 선택은 수신 비디오 데이터의 지속기간 중에 수행되는 것인 비디오 인코딩 방법.
비디오 디코딩 방법에 있어서, 압축 비디오 데이터를 수신하는 단계와; 선택된 샘플링 비율- 샘플링 비율은 복수의 샘플링 비율에 걸쳐서 샘플링 오차 값과 코딩 오차 값의 합에 기초를 둔 것임 -의 표시를 수신하는 단계와; 재구성 비디오 데이터를 형성하도록 압축 비디오 데이터를 디코딩하는 단계와; 업샘플링된 재구성 비디오의 해상도를 향상시키도록 선택된 샘플링 비율로 재구성 비디오 데이터를 업샘플링하는 단계와; 업샘플링된 비디오 데이터를 출력하는 단계를 포함한 비디오 디코딩 방법.
비디오 디코딩 시스템에 있어서, 비디오 디코더를 포함하고, 비디오 디코더는, 압축 비디오 데이터를 수신하고; 선택된 샘플링 비율- 샘플링 비율은 복수의 샘플링 비율에 걸쳐서 샘플링 오차 값과 코딩 오차 값의 합에 기초를 둔 것임 -의 표시를 수신하고; 재구성 비디오 데이터를 형성하도록 압축 비디오 데이터를 디코딩하고; 재구성 비디오 데이터의 해상도를 향상시키도록 재구성 비디오 데이터를 업샘플링하고; 필터링된 비디오 데이터를 출력하도록 구성된 것인 비디오 디코딩 시스템.
전술한 실시형태에 있어서, 통신 시스템과 통신하는 무선 송수신 유닛을 더 포함하고, 무선 송수신 유닛은 통신 시스템으로부터 비디오 데이터를 수신하도록 구성된 것인 비디오 디코딩 시스템.
지금까지 특징 및 요소들을 특수한 조합으로 설명하였지만, 이 기술에 통상의 지식을 가진 사람이라면 각 특징 또는 요소는 단독으로 또는 다른 특징 및 요소와 함께 임의의 조합으로 사용될 수 있다는 것을 이해할 것이다. 또한, 여기에서 설명한 방법들은 컴퓨터 또는 프로세서에 의해 실행되는 컴퓨터 판독가능 매체에 통합된 컴퓨터 프로그램, 소프트웨어 또는 펌웨어로 구현될 수 있다. 컴퓨터 판독가능 매체의 예로는 전자 신호(유선 또는 무선 접속을 통해 전송된 것) 및 컴퓨터 판독가능 기억 매체가 있다. 컴퓨터 판독가능 기억 매체의 비제한적인 예로는 읽기 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), 레지스터, 캐시 메모리, 반도체 메모리 소자, 내부 하드 디스크 및 착탈식 디스크와 같은 자기 매체, 자기 광학 매체, 및 CD-ROM 디스크 및 디지털 다기능 디스크(DVD)와 같은 광학 매체가 있다. 프로세서는 소프트웨어와 연합해서 WTRU, UE, 단말기, 기지국, RNC, 또는 임의의 호스트 컴퓨터에서 사용되는 라디오 주파수 송수신기를 구현하기 위해 사용될 수 있다.
여기에서 설명하는 방법, 장치 및 시스템의 변형예가 본 발명의 범위로부터 벗어나지 않고 가능하다. 적용될 수 있는 다양한 실시형태의 관점에서, 여기에서 예시한 실시형태는 단순히 예를 든 것이고 첨부된 특허 청구범위를 제한하는 것으로 해석되어서는 안된다는 것을 이해하여야 한다.
더욱이, 위에서 설명한 실시형태에 있어서, 처리 플랫폼, 컴퓨팅 시스템, 제어기, 및 프로세서를 내포한 다른 장치들이 주목된다. 이 장치들은 적어도 하나의 중앙 처리 장치("CPU")와 메모리를 포함할 수 있다. 컴퓨터 프로그래밍 분야에 익숙한 사람의 실시에 따라서, 연산 및 명령어의 기호적 표시 및 동작에 대한 인용은 각종 CPU 및 메모리에 의해 수행될 수 있다. 그러한 동작 및 연산 또는 명령어는 "실행되는", "컴퓨터 실행의" 또는 "CPU 실행의"로서 인용될 수 있다.
이 기술에 숙련된 사람이라면, 동작 및 기호적으로 표시된 연산 또는 명령어는 CPU에 의한 전기 신호의 조작을 포함한다는 것을 이해할 것이다. 전기 시스템은 전기 신호의 결과적인 변환 또는 환원 및 메모리 시스템의 메모리 위치에 데이터 비트의 유지를 가능하게 하여 CPU의 연산뿐만 아니라 다른 신호 처리를 재구성 또는 다른 방식으로 변경할 수 있게 하는 데이터 비트를 표시한다. 데이터 비트가 유지되는 메모리 위치는 데이터 비트에 대응하는 또는 데이터 비트를 표시하는 특수한 전기적, 자기적, 광학적 또는 유기적 특성을 가진 물리적 위치이다. 예시적인 실시형태는 전술한 플랫폼 또는 CPU로 한정되지 않는다는 점 및 다른 플랫폼 및 CPU가 여기에서 설명하는 방법들을 지원할 수 있다는 점을 이해하여야 한다.
데이터 비트는 또한 자기 디스크, 광디스크, 및 CPU에 의해 판독가능한 임의의 다른 휘발성(예를 들면, 랜덤 액세스 메모리("RAM")) 또는 비휘발성(예를 들면, 읽기 전용 메모리("ROM")) 대량 기억 시스템을 포함한 컴퓨터 판독가능 매체에서 유지될 수 있다. 컴퓨터 판독가능 매체는 처리 시스템에 배타적으로 존재하거나 처리 시스템에 국부적인 또는 원격인 복수의 상호접속된 처리 시스템 중에 분산된 통합형 또는 상호접속형 컴퓨터 판독가능 매체를 포함할 수 있다. 예시적인 실시형태는 전술한 메모리로 한정되지 않는다는 점 및 다른 플랫폼 및 메모리가 여기에서 설명하는 방법들을 지원할 수 있다는 점을 이해하여야 한다.
본 명세서의 설명에서 사용된 요소, 동작 또는 명령어는 명시적으로 그렇다고 설명되지 않는 한 본 발명에 필수적이거나 본질적인 것으로서 해석되어서는 안된다. 또한, 이 명세서에서 사용되는 단수 형태의 용어는 복수의 항목을 포함할 수 있다. 단지 하나의 항목만이 의도되는 경우에는 용어 "하나" 또는 유사한 용어가 사용된다. 또한, 이 명세서에서 복수의 항목 및/또는 복수의 항목 카테고리의 리스트 다음에 "임의의"라고 하는 용어는 항목 및/또는 항목 카테고리의 "임의의 것", "임의의 조합", "임의의 배수", 및/또는 "임의의 배수 조합"을 개별적으로, 또는 다른 항목 및/또는 다른 항목 카테고리와 함께 포함하는 것으로 의도된다. 또한, 이 명세서에서 사용되는 용어 "집합"은 영(0)을 포함한 임의 수의 항목을 포함하는 것으로 의도된다. 또한 이 명세서에서 사용되는 용어 "수"는 영(0)을 포함한 임의의 수를 포함하는 것으로 의도된다.
더욱이, 특허청구범위는 그러한 취지로 설명되지 않는 한 묘사된 순서 또는 요소로 한정되는 것으로 해석되어서는 안된다. 또한, 임의의 청구항에서 "수단"(means)의 용어를 사용하는 것은 35 U.S.C. §112, ¶6를 불러내는 것으로 의도되고, 단어 "수단"이 없는 임의의 청구항은 그러한 의도가 없다.

Claims (21)

  1. 비디오 인코딩 방법에 있어서,
    비디오 데이터를 수신하는 단계와;
    복수의 샘플링 비율 각각에서, 샘플링 오차 값을 결정하는 단계와;
    비트율에 대하여, 복수의 샘플링 비율 각각에서, 코딩 오차 값을 결정하는 단계와;
    복수의 샘플링 비율 각각에서 샘플링 오차 값과 코딩 오차 값을 합산하는 단계와;
    선택된 샘플링 비율에서 샘플링 오차 값과 코딩 오차 값의 합에 기초하여 복수의 샘플링 비율 중의 하나를 선택하는 단계와;
    선택된 샘플링 비율로 비디오 데이터를 다운샘플링하는 단계와;
    다운샘플링된 비디오 데이터를 인코딩하는 단계를 포함한 비디오 인코딩 방법.
  2. 제1항에 있어서, 복수의 샘플링 비율 중의 하나를 선택하는 단계는 샘플링 오차 값과 코딩 오차 값의 최저 합산치를 발생하는 복수의 샘플링 비율 중의 하나를 선택하는 단계를 포함한 것인 비디오 인코딩 방법.
  3. 제1항에 있어서, 복수의 샘플링 비율 중의 하나를 선택하는 단계는 전체 오차 값이 전체 오차 역치 아래에 있는 샘플링 오차 값과 코딩 오차 값의 합산치를 발생하는 복수의 샘플링 비율 중의 하나를 선택하는 단계를 포함한 것인 비디오 인코딩 방법.
  4. 제1항에 있어서, 샘플링 오차 값은 비디오 데이터의 파워 스펙트럼 밀도(PSD) 및 다운샘플링된 비디오 데이터의 PSD의 추정치에 기초를 둔 것인 비디오 인코딩 방법.
  5. 제4항에 있어서, 다운샘플링된 비디오 데이터의 PSD의 추정치는 함수이고, 함수의 적어도 하나의 파라미터는 비디오 데이터의 적어도 하나의 특성에 의해 결정되는 것인 비디오 인코딩 방법.
  6. 제1항에 있어서, 샘플링 오차 값은 수신 비디오 데이터와 안티앨리어싱 필터링된 비디오 데이터의 차에 기초를 둔 것인 비디오 인코딩 방법.
  7. 제1항에 있어서, 코딩 오차 값은 코딩 오차 모델에 기초를 둔 것이고, 코딩 오차 모델은 비트율 및 샘플링 비율의 함수인 비디오 인코딩 방법.
  8. 제7항에 있어서, 코딩 오차 모델은 제1 파라미터 및 제2 파라미터를 포함하고, 제1 파라미터 및 제2 파라미터는 비디오 데이터의 적어도 하나의 특성에 의해 각각 결정되는 것인 비디오 인코딩 방법.
  9. 제8항에 있어서, 복수의 비트율 각각에 대하여 픽셀당 비트 값을 결정하는 단계와;
    복수의 비트율 각각에 대하여 왜곡 값을 결정하는 단계와;
    복수의 비트율 각각에 대하여 코딩 오차 모델의 제1 파라미터에 대한 복수의 값 및 제2 파라미터에 대한 복수의 값에 기초해서 복수의 추정 왜곡 값을 결정하는 단계와;
    복수의 왜곡 값이 복수의 추정 왜곡 값과 최소의 차를 갖도록 코딩 오차 모델의 제1 파라미터의 선택된 값 및 제2 파라미터의 값을 결정하는 단계를 더 포함한 비디오 인코딩 방법.
  10. 제8항에 있어서, 제1 조사표로부터 제1 파라미터의 값을 선택하는 단계와;
    제2 조사표로부터 제2 파라미터의 값을 선택하는 단계를 더 포함한 비디오 인코딩 방법.
  11. 제8항에 있어서, 비디오 데이터의 파워 스펙트럼 밀도를 결정하는 단계를 더 포함하고, 제1 및 제2 파라미터의 값은 파워 스펙트럼 밀도의 DC 성분에 기초를 둔 것인 비디오 인코딩 방법.
  12. 제8항에 있어서, 비디오 데이터의 파워 스펙트럼 밀도를 결정하는 단계를 더 포함하고, 제1 및 제2 파라미터의 값은 파워 스펙트럼 밀도의 고주파수 대역을 향한 쇠퇴 속도에 기초를 둔 것인 비디오 인코딩 방법.
  13. 제8항에 있어서, 상기 적어도 하나의 특성은 수신된 비디오 데이터의 복잡도 값이고; 복잡도 값은 사용자 입력과 네트워크 노드 중의 하나로부터 수신된 것인 비디오 인코딩 방법.
  14. 제1항에 있어서, 비트율의 표시를 네트워크 노드로부터 수신하는 단계를 더 포함한 비디오 인코딩 방법.
  15. 제14항에 있어서, 복수의 샘플링 비율 중의 하나를 선택하는 단계에 이어서, 제2 비트율의 표시를 수신하는 단계와;
    제2 비트율에 대하여, 복수의 샘플링 비율 각각에서 갱신 코딩 오차 값을 결정하는 단계와;
    샘플링 오차 값과 갱신 코딩 오차 값의 합에 기초하여 갱신 샘플링 비율을 선택하는 단계와;
    갱신 샘플링 비율로 입력 비디오를 다운샘플링하는 단계와;
    다운샘플링된 비디오 시퀀스를 인코딩하는 단계를 더 포함한 비디오 인코딩 방법.
  16. 제1항에 있어서, 샘플링 비율은 수평 샘플링 비율과 수직 샘플링 비율을 포함하고, 수평 샘플링 비율은 수직 샘플링 비율과 다른 것인 비디오 인코딩 방법.
  17. 제1항에 있어서, 샘플링 비율은 수평 샘플링 비율과 수직 샘플링 비율을 포함하고, 수평 샘플링 비율은 수직 샘플링 비율과 같은 것인 비디오 인코딩 방법.
  18. 제1항에 있어서, 샘플링 비율의 제1 선택은 수신 비디오 데이터의 시작시에 수행되고, 샘플링 비율의 적어도 제2 선택은 수신 비디오 데이터의 지속기간 중에 수행되는 것인 비디오 인코딩 방법.
  19. 비디오 디코딩 방법에 있어서,
    압축 비디오 데이터를 수신하는 단계와;
    선택된 샘플링 비율- 샘플링 비율은 복수의 샘플링 비율에 걸쳐서 샘플링 오차 값과 코딩 오차 값의 합에 기초를 둔 것임 -의 표시를 수신하는 단계와;
    재구성 비디오 데이터를 형성하도록 압축 비디오 데이터를 디코딩하는 단계와;
    재구성 비디오 데이터의 해상도를 향상시키도록 선택된 샘플링 비율로 재구성 비디오 데이터를 업샘플링하는 단계와;
    필터링된 비디오 데이터를 출력하는 단계를 포함한 비디오 디코딩 방법.
  20. 비디오 디코딩 시스템에 있어서,
    비디오 디코더를 포함하고, 비디오 디코더는,
    압축 비디오 데이터를 수신하고;
    선택된 샘플링 비율- 샘플링 비율은 복수의 샘플링 비율에 걸쳐서 샘플링 오차 값과 코딩 오차 값의 합에 기초를 둔 것임 -의 표시를 수신하고;
    재구성 비디오 데이터를 형성하도록 압축 비디오 데이터를 디코딩하고;
    재구성 비디오의 해상도를 향상시키도록 재구성 비디오 데이터를 업샘플링하고;
    업샘플링된 비디오 데이터를 출력하도록 구성된 것인 비디오 디코딩 시스템.
  21. 제20항에 있어서, 통신 시스템과 통신하는 무선 송수신 유닛을 더 포함하고, 무선 송수신 유닛은 통신 시스템으로부터 비디오 데이터를 수신하도록 구성된 것인 비디오 디코딩 시스템.
KR1020137013488A 2010-10-27 2011-10-27 적응적 비디오 코딩을 위한 시스템 및 방법 KR20130105870A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US40732910P 2010-10-27 2010-10-27
US61/407,329 2010-10-27
PCT/US2011/058027 WO2012058394A1 (en) 2010-10-27 2011-10-27 Systems and methods for adaptive video coding

Publications (1)

Publication Number Publication Date
KR20130105870A true KR20130105870A (ko) 2013-09-26

Family

ID=44906484

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137013488A KR20130105870A (ko) 2010-10-27 2011-10-27 적응적 비디오 코딩을 위한 시스템 및 방법

Country Status (5)

Country Link
EP (1) EP2633685A1 (ko)
KR (1) KR20130105870A (ko)
CN (1) CN103283227A (ko)
AU (1) AU2011319844A1 (ko)
WO (1) WO2012058394A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019054561A1 (ko) * 2017-09-15 2019-03-21 서울과학기술대학교 산학협력단 360도 영상 부호화 장치 및 방법, 이를 수행하기 위한 기록 매체

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014143008A1 (en) 2013-03-15 2014-09-18 Icelero Inc Method and system for improved video codec rate-distortion performance by pre and post-processing
US11381816B2 (en) 2013-03-15 2022-07-05 Crunch Mediaworks, Llc Method and system for real-time content-adaptive transcoding of video content on mobile devices to save network bandwidth during video sharing
CN103475880B (zh) * 2013-09-11 2016-08-24 浙江大学 一种基于统计分析的由h.264到hevc低复杂度视频转码方法
TWI652937B (zh) 2013-10-07 2019-03-01 Vid衡器股份有限公司 多層視訊編碼組合可調能力處理方法
US9600494B2 (en) * 2014-01-24 2017-03-21 Cisco Technology, Inc. Line rate visual analytics on edge devices
CN103945222B (zh) * 2014-04-21 2017-01-25 福州大学 一种基于hevc视频编码标准的码率控制模型更新方法
CN105430395B (zh) * 2015-12-03 2018-04-27 北京航空航天大学 一种基于最佳比特分配的hevc ctu级码率控制方法
WO2018018445A1 (zh) * 2016-07-27 2018-02-01 王晓光 基于视频容量的视频广告发送方法及系统
AU2019286133B2 (en) * 2018-06-15 2023-02-16 Huawei Technologies Co., Ltd. Method and apparatus for intra prediction
CN110876060B (zh) * 2018-08-31 2022-07-15 网宿科技股份有限公司 一种编码过程中的码率调整方法及装置
WO2020080765A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Apparatuses and methods for performing artificial intelligence encoding and artificial intelligence decoding on image
WO2020080873A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Method and apparatus for streaming data
WO2020080665A1 (en) 2018-10-19 2020-04-23 Samsung Electronics Co., Ltd. Methods and apparatuses for performing artificial intelligence encoding and artificial intelligence decoding on image
KR102436512B1 (ko) 2019-10-29 2022-08-25 삼성전자주식회사 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
KR20220003812A (ko) 2020-07-02 2022-01-11 삼성전자주식회사 호 채널의 상태에 기반하여 필터를 사용하여 전처리된 컨텐츠를 전송하는 전자 장치 및 전자 장치의 동작 방법
US11184638B1 (en) * 2020-07-16 2021-11-23 Facebook, Inc. Systems and methods for selecting resolutions for content optimized encoding of video data
CN112367147B (zh) * 2020-09-27 2022-09-09 苏州宣怀智能科技有限公司 数据显示方法、装置、电子设备和计算机可读介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3466032B2 (ja) * 1996-10-24 2003-11-10 富士通株式会社 動画像符号化装置および復号化装置
KR100796177B1 (ko) * 2000-04-18 2008-01-21 코닌클리케 필립스 일렉트로닉스 엔.브이. 공동 비트율 트랜스코딩의 비트율 할당
US7536469B2 (en) * 2004-12-10 2009-05-19 Microsoft Corporation System and process for controlling the coding bit rate of streaming media data employing a limited number of supported coding bit rates
CN101389021B (zh) * 2007-09-14 2010-12-22 华为技术有限公司 视频编解码方法及装置
KR101459395B1 (ko) * 2007-11-02 2014-11-10 에꼴 드 테크놀로지 수페리에르 디지털 이미지의 트랜스코딩에서 파라미터의 퀄리티-인식 선택을 위한 시스템 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019054561A1 (ko) * 2017-09-15 2019-03-21 서울과학기술대학교 산학협력단 360도 영상 부호화 장치 및 방법, 이를 수행하기 위한 기록 매체
US10986342B2 (en) 2017-09-15 2021-04-20 Foundation For Research And Business, Seoul National University Of Science And Technology 360-degree image encoding apparatus and method, and recording medium for performing the same

Also Published As

Publication number Publication date
AU2011319844A1 (en) 2013-06-13
CN103283227A (zh) 2013-09-04
WO2012058394A1 (en) 2012-05-03
EP2633685A1 (en) 2013-09-04

Similar Documents

Publication Publication Date Title
US11405621B2 (en) Sampling grid information for spatial layers in multi-layer video coding
US10841615B2 (en) Systems and methods for model parameter optimization in three dimensional based color mapping
US10237555B2 (en) System and method of video coding quantization and dynamic range control
KR20130105870A (ko) 적응적 비디오 코딩을 위한 시스템 및 방법
US10218971B2 (en) Adaptive upsampling for multi-layer video coding
CN108322744B (zh) 用于可缩放的高效视频译码(hevc)的参考图片集(rps)信令
TWI720348B (zh) 視訊解碼器裝置及視訊編碼器裝置
US10708605B2 (en) Inter-layer reference picture enhancement for multiple layer video coding
US10148971B2 (en) Inter-layer prediction for scalable video coding
WO2017020021A1 (en) Scalable high efficiency video coding to high efficiency video coding transcoding
WO2012061258A2 (en) Parametric bit rate model for frame-level rate control in video coding