KR20070007295A - 비디오 인코딩 방법 및 장치 - Google Patents

비디오 인코딩 방법 및 장치 Download PDF

Info

Publication number
KR20070007295A
KR20070007295A KR1020067017521A KR20067017521A KR20070007295A KR 20070007295 A KR20070007295 A KR 20070007295A KR 1020067017521 A KR1020067017521 A KR 1020067017521A KR 20067017521 A KR20067017521 A KR 20067017521A KR 20070007295 A KR20070007295 A KR 20070007295A
Authority
KR
South Korea
Prior art keywords
image
block
transform
transformed
image block
Prior art date
Application number
KR1020067017521A
Other languages
English (en)
Inventor
드제브뎃 부라제로빅
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20070007295A publication Critical patent/KR20070007295A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

비디오 인코더는 복수의 기준 블록(111)과 이미지의 이미지 블록을 생성한다. 이미지 선택기(105)는 하나의 기준 블록과, 선택된 기준 블록을 사용하여 이미지 블록을 코딩하는 인코더(103, 107)를 선택한다. 제 1 변환 처리기(113)는 연관된 이미지 변환을 각각의 기준 블록에 적용함으로써 변환된 기준 블록을 생성하고, 제 2 변환 처리기(115)는 연관된 이미지 변환을 제 1 이미지 블록에 적용함으로써, 변환된 이미지 블록을 생성한다. 비디오 인코더(100)는 변환된 이미지 블록의 데이터에 응답하여 이미지를 분석하는 분석 처리기(117)를 포함한다. 잔여 처리기(119)는 변환된 이미지 블록과 각각의 변환된 기준 블록 사이의 차이로서 복수의 잔여 이미지 블록을 생성하고, 그에 대한 응답으로 적절한 기준 블록이 선택된다. 하다마드 변환과 같은 연관된 변환을 사용함으로써, 이미지 분석과 기준 블록 선택 모두에 관해 적합한 변환 데이터가 동일한 연산에 의해 생성된다.

Description

비디오 인코딩 방법 및 장치{VIDEO ENCODING METHOD AND APPARATUS}
본 발명은 비디오 인코더와 비디오 인코딩 방법, 특히 배타적이지는 않지만 H.264/AVC 비디오 코딩 표준에 따른 비디오 인코딩의 시스템에 관한 것이다.
최근 몇 년간, 비디오 신호의 디지털 저장 및 분배의 사용이 점점 유행하게 되었다. 디지털 비디오 신호를 송신하는데 필요한 대역폭을 감소시키기 위해서는, 비디오 데이터 압축을 포함하는 효율적인 디지털 비디오 인코딩을 사용하여, 디지털 비디오 신호의 데이터 속도(rate)가 실질적으로 감소될 수 있게 하는 것이 공지되어 있다.
상호 운용성을 보장하기 위해, 비디오 인코딩 표준은 많은 전문가 및 소비자 애플리케이션에서 디지털 비디오의 채택을 용이하게 하는 데 있어 중요한 역할을 하였다. 대부분의 큰 영향을 미치는 표준은 국제 원격통신 연합(International Telecommunication Union: ITU-T)이나 ISO/IEC(국제 표준 기구/국제 전자기술 위원회)의 MPEG(Motion Pictures Experts Group: 동영상 전문가 그룹) 위원회에 의해 관습적으로 개발되었다. 권고안(recommendation)으로 알려진 ITU-T 표준은 통상 실시간 통신(예컨대, 비디오 회의)을 목적으로 하는 데 비해, 대부분의 MPEG 표준은 저장{예컨대, 디지털 다기능 디스크(DVD)}과 방송{예컨대, 디지털 비디오 방 송(DVB) 표준}을 위해 최적화된다.
현재, 가장 널리 사용된 비디오 압축 기술의 하나는 MPEG-2(동영상 전문가 그룹) 표준이라고 알려져 있다. MPEG-2는 한 프레임이 복수의 블록으로 분할되고, 그러한 블록 각각은 8개의 수직 픽셀과 8개의 수평 픽셀을 포함하는 블록 기반의 압축 방식이다. 휘도 데이터의 압축을 위해, 각 블록은 이산 코사인 변환(DCT)을 사용하여 개별적으로 압축되고, 그 후 양자화를 통해 상당한 개수의 변환된 데이터 값을 0으로 감소시킨다. 크로미넌스(chrominance) 데이터의 압축을 위해서는, 크로미넌스 데이터의 양이 보통 다운 샘플링에 의해 먼저 감소되어, 각각의 4개의 휘도 블록에 관해, 2개의 크로미넌스 블록이 얻어지고(4:2:0 포맷으로), DCT와 양자화를 사용하여 유사하게 압축된다. 인트라-프레임(intra-frame) 압축에만 기초한 프레임은 인트라 프레임(I-Frames)이라고 알려져 있다.
인트라 프레임 압축 외에, MPEG-2는 추가로 데이터 속도를 감소시키기 위해 인터-프레임(inter-frame) 압축을 사용한다. 인터-프레임 압축은 이전에 디코딩되고 재구성된 프레임에 기초하여 예측된 프레임(P-frame)을 생성하는 것을 포함한다. 또한 MPEG-2는 상이한 위치에서 후속 프레임에서 발견된 한 프레임의 매크로블록의 이미지가 간단히 운동 벡터의 사용에 의해 전달되는 운동 추정을 사용한다. 운동 추정 데이터는 일반적으로 운동 추정 공정 동안에 이용되는 데이터를 가리킨다. 운동 추정은 운동 보상의 공정 또는 동등하게는 상호 예측(inter prediction)을 위한 파라미터를 결정하기 위해 수행된다. 예컨대, MPEG-2와 H.264와 같은 표준에 의해 특정된 것과 같은 블록 기반의 비디오 코딩에서는, 운동 추정 데이터가 통 상 후보 운동 벡터, 예측 블록 크기(H.264), 기준 화상 선택이나 동등하게는 일정한 매크로블록에 관한 운동 추정 유형(후방향, 전방향 또는 양방향)을 포함하고, 이들 중 실제로 인코딩되는 운동 보상 데이터를 형성하기 위한 선택이 이루어진다.
이들 압축 기술의 결과로서, 표준 TV 스튜디오 방송 품질 레벨의 비디오 신호가 약 2 내지 4Mbps의 데이터 속도로 송신될 수 있다.
최근에는, H.26L이라고 알려진 새로운 ITU-T 표준이 등장하였다. H.26L은 MPEG-2와 같은 기존의 표준에 비해, 그것의 우수한 코딩 효율로 인해 널리 알려지게 되었다. 비록 H.26L의 이득이 일반적으로 화상 크기에 비례하여 감소하지만, 광범위한 응용에서 그것을 사용할 가능성은 의심할 바가 없다. 이러한 가능성은 ITU-T/MPEG 표준의 새로운 결합체로서 H.26L을 결말을 짓는 역할을 하는 조인트 비디오 팀(JVT) 포럼(forum)의 구성을 통해 알려지게 되었다. 새로운 표준은 H.264 또는 MPEG-4 AVC(Advanced Video Coding)으로 알려져 있다. 또한 H.264 기반의 솔루션은 DVB와 DVD 포럼과 같은 다른 표준화 조직체에서 고려되고 있다.
H.264/AVC 표준은 MPEG-2와 같은 확정된 표준으로부터 알려진 블록 기반의 운동 보상된 하이브리드 변환 코딩의 동일한 원리를 이용한다. 그러므로 H.264/AVC 구문은, 화상, 슬라이스, 매크로블록 헤더와 같은 헤더와, 운동 벡터, 블록 변환 계수, 양자화기 스케일 등과 같은 데이터의 일상적인 계층 구조로서 조직된다. 하지만, H.264/AVC 표준은 비디오 데이터의 콘텐츠를 나타내는 비디오 코딩 층(VLC)과, 데이터를 포맷하고 헤더 정보를 제공하는 네트워크 적응 층(NAL)을 분리한다.
또한, H.264/AVC는 인코딩 파라미터의 훨씬 증가된 선택을 허용한다. 예컨 대, 매크로블록의 더 정교한 분할과 조작을 허용함으로써, 예컨대 운동 보상 공정이 크기가 4 ×4만큼이나 작은 매크로블록의 16 ×16 루마(luma) 블록의 분할(segmentation)에 대해 수행될 수 있다. 또 다른 그리고 훨씬 더 효율적인 확장은 매크로블록의 예측을 위해 블록의 크기가 변하는 블록을 사용하는 가능성이다. 따라서 매크로블록(또한 16 ×16 픽셀)은 다수의 더 작은 블록으로 구분될 수 있고, 이들 각각의 하위 블록은 개별적으로 예측될 수 있다. 그러므로 상이한 하위 블록은 상이한 운동 벡터를 가질 수 있고, 상이한 기준 화상으로부터 검색될 수 있다. 또한 샘플 블록의 운동 보상된 예측을 위한 선택 공정은 오직 인접한 화상(또는 프레임) 대신, 다수의 저장된 이전에 디코딩된 화상(또한 프레임이라고 알려진)을 수반할 수 있다. 또한 운동 보상 후에 오는 결과 예측 에러는 종래의 8 ×8 크기 대신, 4 ×4 블록 크기에 기초하여 변환되고 양자화될 수 있다.
H.264에 의해 도입된 추가 개선예는 단일 프레임(또는 이미지) 내의 공간 예측 가능성이다. 이 개선예에 따르면, 동일한 프레임으로부터 이전에 디코딩된 샘플을 사용하여 블록의 예측을 형성하는 것이 가능하다.
데이터 및 신호 처리에서의 기술적인 진보뿐만 아니라 디지털 비디오 표준의 도래는 비디오 처리 및 저장 장비에서 추가 기능이 구현되는 것을 허용하였다. 예컨대, 최근 몇 년간 비디오 신호의 콘텐츠 분석 영역에서 상당한 연구가 이루어졌다. 그러한 콘텐츠 분석은 비디오 신호의 콘텐츠의 자동 결정 또는 추정을 허용한다. 결정된 콘텐츠는 콘텐츠 항목의 필터링, 카테고리화 또는 조직화를 포함하는 사용자 기능성을 제공하기 위해 사용될 수 있다. 예컨대, TV 방송으로부터 이용 가 능한 비디오 콘텐츠에서의 이용 가능성과 변화성이 최근 몇 년간 실질적으로 증가하였고, 콘텐츠 분석이 적합한 카테고리로 이용 가능한 콘텐츠를 자동으로 필터링하고 조직하기 위해 사용될 수 있다. 또한 비디오 장비의 작동은 콘텐츠의 검출에 응답하여 변경될 수 있다.
콘텐츠 분석은 비디오 코딩 파라미터에 기초할 수 있고, 특히 MPEG-2 비디오 코딩 파라미터와 알고리즘에 기초하여 콘텐츠 분석을 수행하기 위한 알고리즘 쪽으로 상당한 연구가 진행되어 왔다. MPEG-2는 현재 소비자 애플리케이션을 위한 가장 널리 퍼진 비디오 인코딩 표준이고, 그에 따라 MPEG-2 기반의 콘텐츠 분석이 널리 구현될 것이다.
새로운 비디오 인코딩 표준으로서, H.264/AVC와 같은 것이 공개되었고, 콘텐츠 분석은 많은 애플리케이션에서 필요해지거나 요구되고 있다. 따라서, 새로운 비디오 인코딩 표준에 적합한 콘텐츠 분석 알고리즘이 개발되어야 한다. 이는 상당한 연구와 개발을 필요로 하고 이는 시간과 비용이 많이 드는 작업이다. 그러므로 적합한 콘텐츠 분석 알고리즘의 부족은 새로운 비디오 코딩 표준의 이해를 지연시키거나 방해하게 되거나 또는 이러한 표준이 제공될 수 있는 기능성을 상당히 감소시킨다.
또한 기존의 비디오 시스템은 새로운 콘텐츠 분석 알고리즘을 도입하기 위해 대체되거나 갱신될 필요가 있다. 이는 또한 비용이 많이 들게 되고 새로운 비디오 코딩 표준의 도입을 지연시킨다. 대안적으로, 새로운 비디오 코딩 표준에 따라 신호를 디코딩하고 그 다음 MPEG-2 비디오 코딩 표준에 따른 재-인코딩하기 위해 작 동 가능한 추가 장비가 도입되어야 한다. 그러한 장비는 복잡하고 비용이 많이 들며, 많은 계산상 자원 요구 사항을 가진다.
특히, 많은 콘텐츠 분석 알고리즘은 인트라-코딩된 화상으로부터 얻어지는 이상 코사인 변환(DCT) 계수의 사용에 기초한다. 그러한 알고리즘의 예는 2002년 1월 대만 Hualien에서 개최된 개선된 이미지 기술(Advanced Image Technology)에 대한 국제 워크샵 의사록(IWAIT 2002) 60 내지 70페이지에 J. Wang, Mohan S. Kankanhali, Philippe Mulhem, Hadi Hassan Abdulredha에 의해 발표된 "MPEG 비디오에서의 DCT 계수를 사용하는 페이스(face) 검출"이라는 제목의 논문과 2003년 9월 프랑스 르네에서 콘텐츠 기반의 멀티미디어 인덱싱(Content-Based Multimedia Indexing)(CBMI 2003)에 대한 3차 국제 워크샵에서 F.Snijder, P. Merlo에 의해 발표된 "낮은 레벨의 AV 특징을 사용하는 만화 영화 검출"이라는 논문에 개시되어 있다.
특히, 이미지에서의 DCT 이미지 블록의 DC("Direct Current") 계수의 통계는 이미지 블록의 밝기의 국부적인 특성을 직접적으로 나타낼 수 있는데, 이는 많은 유형의 콘텐츠 분석에 사용된다(예컨대, 피부 색조 검출을 위한). 또한, 인트라 코딩된 이미지에서의 이미지 블록을 위한 DCT 계수가 이미지의 인코딩 및 디코딩 동안에 통상적으로 생성되므로, 콘텐츠 분석에 의해 어떠한 추가적인 복잡성이 초래되지 않는다.
하지만 H.264/AVC 표준에 따른 인트라-프레임의 코딩시, 이미지 블록과 예측된 블록 사이의 차이만이 DCT 변환에 의해 변환된다. DCT 변환이라는 용어는 DCT 변환으로부터 파생된 블록 변환을 포함하는 H.264/AVC의 상이한 인코딩 블록 변환을 포함하는 것으로 의도된다. 따라서 H.264/AVC에 따른 DCT가 이전의 표준에서와 같이 이미지 블록에 직접적으로 적용되기보다는 공간 예측의 나머지 부분에 적용되므로, DC 계수는 예측되는 이미지 블록의 루마 평균보다는 예측 에러의 평균값이 예측된다는 것을 가리킨다. 따라서, DC 값에 기초한 기존의 콘텐츠 분석 알고리즘은 DCT 계수에 직접적으로 적용될 수 없다.
예컨대, 원래의 이미지 블록에 대한 H.264/AVC DCT 변환을 추가로 수행함으로써, 인코딩 공정으로부터 루마 평균을 독립적으로 및 개별적으로 생성하는 것이 가능할 수 있다. 하지만, 이는 개별 연산을 필요로 하고, 복잡도가 증가하며 계산상 자원 요구 사항 증가를 초래하게 된다.
그러므로 개선된 비디오 인코딩이 유리하게 되고, 특히 이미지의 촉진 및/또는 증가된 성능 분석 및/또는 비디오 인코딩의 촉진 및/또는 증가된 성능을 고려한 비디오 인코딩이 유리하게 된다.
따라서, 본 발명은 하나 이상의 전술한 단점을 단독으로 또는 임의의 조합으로 완화, 경감 또는 제거하는 것을 바람직하게 추구한다.
본 발명의 일 양상에 따르면, 인코딩될 이미지로부터 제 1 이미지 블록을 생성하기 위한 수단, 복수의 기준 블록을 생성하기 위한 수단, 연관된 이미지 변환을 제 1 이미지 블록에 적용함으로써, 변환된 이미지 블록을 생성하기 위한 수단, 연관된 이미지 변환을 상기 복수의 기준 블록 각각에 적용함으로써, 복수의 변환된 기준 블록을 생성하기 위한 수단, 변환된 이미지 블록과 각각의 복수의 변환된 기준 블록 사이의 차이를 결정함으로써, 복수의 잔여 이미지 블록을 생성하기 위한 수단, 복수의 잔여 이미지 블록에 응답하여 복수의 기준 블록의 선택된 기준 블록을 선택하기 위한 수단, 선택된 기준 블록에 응답하여 제 1 이미지 블록을 인코딩하기 위한 수단 및 변환된 이미지 블록의 데이터에 응답하여 이미지의 분석을 수행하기 위한 수단을 포함하는 비디오 인코더가 제공된다.
본 발명은 이미지의 분석을 수행하는, 구현하기가 편리하고 쉬운 및/또는 덜 복잡한 방식을 제공할 수 있다. 특히 분석을 위한 적합한 데이터의 생성은 인코딩을 위한 적합한 기준 블록을 선택하기 위한 기능성과 통합될 수 있다. 따라서, 인코딩 기능성과 분석 기능성 사이의 상승적(synergistic) 효과가 달성된다. 특히, 연관된 이미지 변환을 제 1 이미지 블록에 적용함으로써, 변환된 이미지 블록을 생성하는 결과는 이미지의 분석뿐만 아니라 이미지를 인코딩하는 데 있어서도 사용될 수 있다.
일부 애플리케이션에서는, 더 간단 및/또는 더 적합한 구현예가 달성될 수 있다. 예컨대, 기준 블록이 상이한 이미지 블록 사이에서 실질적으로 변경되지 않는다면, 동일한 변환된 기준 블록이 복수의 이미지 블록을 위해 사용될 수 있어, 이를 통해 복잡도 및/또는 필요로 하는 계산상 자원의 감소를 가져온다. 일부 애플리케이션에서는, 먼저 차이 블록을 생성하고 계속해서 변환을 수행하는 것보다는 먼저 변환된 블록을 생성하고, 그 다음 차이 블록을 생성함으로써, 개선된 데이터 및/또는 흐름 구조가 달성될 수 있다.
특히, 본 발명은 인코딩 기능성과, 특히 기준 블록의 선택이 나머지 이미지 블록보다는 이미지 블록 자체의 변환에 응답하는 것을 허용한다. 이는 변환 결과가 이미지의 적합한 분석을 위해 사용될 수 있는 이미지 블록을 표시하는 정보를 보유하는 것을 허용한다. 특히 변환된 이미지 블록이 대응하는 DCT 변환의 DC 계수를 나타내는 데이터를 포함할 수 있어, 이를 통해 다수의 기존의 알고리즘이 생성된 데이터를 사용하는 것을 허용한다.
나머지 이미지 블록은 변환된 이미지 블록의 개별 구성 성분과, 복수의 변환된 기준 블록 각각의 개별 구성 성분 사이의 차이로서 결정될 수 있다.
본 발명의 특징에 따르면, 연관된 변환은 선형 변환이다. 이는 적합한 구현예를 위해 제공된다.
본 발명의 상이한 특징에 따르면, 연관된 변환은 하다마드(Hadamard) 변환이다. 하다마드 변환은 분석 및 기준 블록 선택 모두에 관해 적합한 변환 특징을 생성하면서, 복잡도와 계산상 자원을 요구하는 것이 비교적 덜한 변환율 제공하는 특별히 적합한 연관된 변환이다. 특히, 하다마드 변환은 적합한 DC 계수(이미지 블록의 샘플의 평균 데이터 값을 나타내는 계수)를 생성하고, 또한 일반적으로 동일한 이미지 블록에 적용된 DCT 변환의 더 높은 주파수 계수를 가리키는 계수를 생성한다. 또한, 하다마드 변환은 H.264와 같은 일부 유리한 인코딩 방식의 권고안들에 적합하다.
본 발명의 상이한 특징에 따르면, 연관된 변환은 변환된 이미지 블록의 데이터 포인트가 대응하는 변환되지 않은 이미지 블록의 데이터 포인트의 평균값과 미리 결정된 관계를 가지도록 되어 있다.
이미지의 데이터 포인트의 평균값은, 일반적으로 이미지 분석을 수행하기 위해 특별히 중요하다. 예컨대, DCT의 DC 계수는 많은 분석 알고리즘에서 사용된다. DC 계수는 이미지 블록의 데이터 포인트의 평균값에 대응하고, 이값에 대응하는 데이터 포인트를 생성하는 변환을 사용하여(직접적으로 또는 미리 결정된 관계를 통해), 이들 분석은 연관된 변환을 가지고 사용될 수 있다.
본 발명의 상이한 특징에 따르면, 이미지의 분석을 수행하기 위한 수단은 변환된 이미지 블록의 데이터에 응답하여 이미지의 콘텐츠 분석을 수행하도록 작동 가능하다.
따라서, 본 발명은 결합된 콘텐츠 분석과 이미지 인코딩을 촉진하며, 이들 기능들 사이의 상승작용 효과를 이용하는 비디오 인코더를 제공한다.
본 발명의 상이한 특징에 따르면, 이미지의 분석을 수행하기 위한 수단은, 변환된 이미지 블록의 DC(Direct current) 파라미터에 응답하여 이미지의 콘텐츠 분석을 수행하도록 작동 가능하다. DC 파라미터는 이미지 블록의 데이터의 평균값을 나타내는 파라미터에 대응한다. 이는 높은 성능을 제공하는 특별히 적합한 콘텐츠 분석을 제공한다.
본 발명의 상이한 특징에 따르면, 복수의 기준 블록을 생성하기 위한 수단은, 오직 이미지의 데이터 값에 응답하여 기준 블록을 생성하도록 작동 가능하다. 바람직하게, 비디오 인코더는 인트라-이미지로서 이미지를 인코딩하도록, 즉 오직 현재 이미지로부터의 이미지 데이터를 사용하고 다른 이미지(또는 프레임)로부터의 운동 추정 또는 예측을 사용하지 않고도, 작동 가능하다. 이는 특별히 유리한 구현예를 허용한다.
본 발명의 상이한 특징에 따르면, 제 1 이미지 블록은 휘도 데이터를 포함한다. 바람직하게, 제 1 이미지 블록은 휘도 데이터만을 포함한다. 이는 특별히 유리한 구현예를 제공하고, 특히 효율적인 성능을 제공하면서, 분석의 복잡도가 비교적 낮게 되도록 한다.
바람직하게, 제 1 이미지 블록은 4 ×4 휘도 데이터 매트릭스로 이루어진다. 제 1 이미지 블록은, 예컨대 또한 16 ×16 휘도 데이터 매트릭스로 이루어진다.
본 발명의 상이한 특징에 따르면, 인코딩 수단은 제 1 이미지 블록과 선택된 기준 블록 사이의 상이한 블록을 결정하는 것과, 연관되지 않은 변환을 사용하여 차이 블록을 변환하는 것을 포함한다. 이는, 예컨대 DCT 변환이 이미지 블록의 이미지 데이터를 인코딩하기 위해 사용될 수 있는 것과 같이 개선된 인코딩 품질을 제공한다. 이는 특히, 예컨대 DCT 변환이 사용될 것을 필요로 하는 적합한 비디오 인코딩 알고리즘과의 적합성(compatibility)을 제공할 수 있다.
바람직하게, 비디오 인코더는 H.264/AVC 비디오 인코더이다.
본 발명의 제 2 양상에 따르면, 비디오 인코딩의 방법이 제공되는데, 이 방법은 인코딩될 이미지로부터 제 1 이미지 블록을 생성하는 단계, 복수의 기준 블록을 생성하는 단계, 연관된 이미지 변환을 제 1 이미지 블록에 적용함으로써, 변환된 이미지 블록을 생성하는 단계, 연관된 이미지 변환을 복수의 기준 블록 각각에 적용함으로써, 복수의 변환된 기준 블록을 생성하는 단계, 변환된 이미지 블록과 각각의 복수의 변환된 기준 블록 사이의 차이를 결정함으로써, 복수의 잔여 이미지 블록을 생성하는 단계, 복수의 잔여 이미지 블록에 응답하여 복수의 기준 블록의 선택된 기준 블록을 선택하는 단계, 선택된 기준 블록에 응답하여 제 1 이미지 블록을 인코딩하는 단계 및 변환된 이미지 블록의 데이터에 응답하여 이미지의 분석을 수행하는 단계를 포함한다.
본 발명의 이들 및 다른 양상, 특징 및 장점은 이후 설명된 실시예(들)를 참조하여 분명해지고 상세히 설명된다.
본 발명의 일 실시예가 도면을 참조하여 예를 통해 설명된다.
도 1은 본 발명의 실시예에 따른 비디오 인코더의 일 예를 도시하는 도면.
도 2는 인코딩될 루마 매크로블록의 일 예를 도시하는 도면.
도 3은 4 ×4 기준 블록과 그 옆의 이미지 샘플을 도시하는 도면.
도 4는 H.264/AVC의 상이한 예측 모드에 관한 예측 방향을 도시하는 도면.
다음 설명은 인트라-이미지 인코딩을 수행하는 비디오 인코더, 특히 H.264/AVC 인코더에 적용 가능한 본 발명의 일 실시예에 초점을 맞춘다. 또한 비디오 인코더는 콘텐츠 분석을 수행하기 위한 기능성을 포함한다. 하지만, 본 발명은 이러한 애플리케이션에 제한되지 않고, 많은 다른 유형의 비디오 인코더, 비디오 인코딩 작동 및 다른 분석 알고리즘에 적용될 수 있음을 알게 될 것이다.
도 1은 본 발명의 일 실시예에 따른 비디오 인코더를 도시한 것이다. 특히, 도 1은 이미지{즉, 이미지(또는 프레임) 자체의 이미지 정보에만 기초한}의 인트라-코딩을 수행하기 위한 기능성을 도시한다. 도 1의 비디오 인코더는 H.264/AVC 인코딩 표준에 따라 작동한다.
MPEG-2와 같은 이전의 표준과 유사하게, H.264/AVC는 시간적 예측(인접한 이미지의 콘텐츠에 기초한)을 사용하지 않고 인트라 모드에서 이미지 블록을 인코딩하는 것을 제공하는 것을 포함한다. 하지만 이전의 표준과는 대조적으로, H.264/AVC는 인트라 코딩을 위해 사용될 이미지 내의 공간 예측을 제공한다. 그러므로 기준 또는 예측 블록(P)은 이전에 인코딩된 그리고 동일한 화상에서 재구성된 샘플로부터 생성될 수 있다. 기준 블록(P)은, 이후 인코딩 전에 실제 이미지 블록으로부터 빼진다. 따라서 H.264/AVC에서는, 차이 블록이 인트라 코딩에서 생성될 수 있고, 실제 이미지 블록보다는 차이 블록이, DCT와 양자화 작동을 적용함으로써 계속해서 인코딩된다.
루마 샘플에 관해서는, P가 16 ×16 화소 매크로블록이나 그것의 각각의 4 ×4 하위 블록에 관해 형성된다. 각각의 4 ×4 블록에 관해 총 9개의 선택적인 예측 모드, 16 ×16 매크로블록에 관해서는 4개의 선택 모드 및 각각의 4 ×4 크로마(chroma) 블록에 항상 적용되는 하나의 모드가 존재한다.
도 2는 인코딩될 루마(luma) 매크로블록의 일 예이다. 도 2a는 원래의 매크로블록을 도시하고, 도 2b는 그것의 4 ×4 하위 블록을 도시하며, 그러한 4 ×4 하위 블록은 이미 인코딩된 화소의 이미지 샘플로부터 생성된 기준 또는 예측 블록을 사용하여 인코딩된다. 그러한 예에서, 그러한 하위 블록의 위와 좌측의 이미지 샘 플이 이전에 인코딩되고 재구성되었으며, 따라서 인코딩 공정에 이용 가능하다(그리고, 매크로블록은 디코딩하는 디코더에 이용 가능하게 된다).
도 3은 4 ×4 기준 블록과 그 옆의 이미지 샘플을 도시한다. 특히, 도 3은 예측 블록(P)을 구성하는 이미지 샘플(a-p)과 상대적인 위치의 라벨링(labeling)과 예측 블록(P)을 생성하기 위해 사용되는 이미지 샘플(A-M)의 라벨링을 도시한다.
도 4는 H.264/AVC의 상이한 예측 모드에 관한 예측의 방향을 도시한다. 모드(3 내지 8)에 관해, 예측 샘플(a-p) 각각은 샘플(A-M)의 가중 평균치로서 계산된다. 모드(0 내지 2)에 관해서는, 모든 샘플(a-p)에 동일한 값이 주어지고, 이는 샘플(A 내지 D)(모드 2), I 내지 L(모드 1) 또는 A 내지 D와 I 내지 L 모두(모드 0)의 평균에 대응할 수 있다. 매크로블록에 관한 것과 같이 다른 이미지 블록에 관해 유사한 예측 모드가 존재한다는 것을 알게 된다.
인코더는 4 ×4 블록과 대응하는 예측(P) 사이의 차이를 최소화하는 상기 각각의 4 ×4 블록에 관한 예측 모드를 선택하게 된다.
그러므로, 종래의 H.264/AVC 인코더는 통상 각 예측 모드에 관한 예측 블록을 생성하고, 이것을 차이 데이터 블록을 생성하기 위해 인코딩될 이미지 블록으로부터 빼며, 적합한 변환을 사용하여 차이 데이터 블록을 변환하고, 가장 적은 값을 초래하는 예측 블록을 선택한다. 그러한 차이 데이터는 통상 코딩될 실제 이미지 블록과 대응하는 예측 블록 사이의 픽셀 단위의(pixel-wise) 차이로서 형성된다.
각각의 4 ×4 블록에 관한 인트라 예측 모드의 선택이 디코더에 신호로 알려져야 하고, 그 목적은 H.264가 효율적인 인코딩 절차를 한정하는 것임을 주목해야 한다.
인코더에 의해 사용된 블록 변환은
Y = CXCT
에 의해 설명될 수 있고, 여기서, X는 N ×N 이미지 블록이며, Y는 N ×N 변환 계수를 포함하며, C는 미리 한정된 N ×N 변환 매트릭스이다. 변환이 이미지 블록에 적용될 때, 얼마나 많은 각각의 기본 기능이 원래의 이미지에 존재하는지를 가리키는 변환 계수로서 부르는 가중치를 가진 매트릭스(Y)가 만들어진다.
예컨대, DCT 변환에 있어 상이한 공간 주파수에서의 신호 분포를 반영하는 변환 계수가 생성된다. 특히, DCT 변환은 실질적으로 0의 주파수에 대응하는 DC("Direct Current") 계수를 생성한다. 그러므로, DC 계수는 변환이 적용된 이미지 블록의 이미지 샘플의 평균치에 대응한다. 통상, DC 계수는 나머지 더 높은 공간 주파수(AC) 계수보다 훨씬 큰 값을 가진다.
비록, H.264/AVC가 예측 모드를 선택하기 위한 표준 절차를 명시하지 않지만, 2차원 하다마드 변환과, 속도-왜곡(Rate-Distortion)(RD) 최적화에 기초한 방법이 권고된다. 이 방법에 따르면, 각각의 차이 이미지 블록 즉 원래의 이미지 블록과 예측 블록 사이의 차이는 선택을 위해 평가(예컨대, RD 기준에 따라)되기 전에, 하다마드 변환에 의해 변환된다.
DCT와 비교시, 하다마드 변환은 훨씬 더 간단하고 계산을 덜 요하는 변환이 다. 또한 일반적으로 DCT에 의해 달성 가능한 결과를 나타내는 데이터를 초래한다. 그러므로 완전한 DCT 변환을 필요로 하는 것보다는 하다마드 변환에 기초한 예측블록의 선택에 근거하는 것이 가능하다. 일단 예측 블록이 선택되면, 대응하는 차이 블록이 이후 DCT 변환에 의해 인코딩될 수 있다.
하지만, 이러한 방법이 변환을 이미지 블록에 직접 적용하기보다는 차이 데이터 블록에 적용하기 때문에, 생성된 정보는 원래의 이미지 블록을 나타내지 않고, 예측 에러만을 나타낸다. 이는 변환 계수에 기초한 이미지 분석을 방지하거나 적어도 복잡하게 한다. 예컨대, 이미지 블록에 관한 변환 계수의 정보를 이용하는 것에 기초하는 많은 분석 알고리즘이 개발되었고, 그에 따라 이들은 종래의 H.264/AVC 인코더에서 직접 적용될 수 없게 되었다. 특히 많은 알고리즘은 화상 블록의 평균 특성을 가리키는 것으로서 변환의 DC 계수에 기초한다. 하지만 통상적인 H.264/AVC 접근에 관해서, DC 계수는 원래의 이미지 블록을 나타내는 것이 아니라, 예측 에러의 평균값을 가리킨다.
일 예로서, 콘텐츠 분석은 비디오 신호의 특성에 기초한 비디오 콘텐츠를 자동으로 결정할 목적으로 이미지 처리, 패턴 인식 및 인공 지능으로부터의 방법을 포함한다. 사용된 특성은 컬러와 구조(texture)와 같은 낮은 레벨의 신호 관련 특성으로부터 페이스의 존재 및 위치와 같은 더 높은 레벨의 정보까지 다양하다. 콘텐츠 분석의 결과는 상용 검출, 비디오 프리뷰(preview) 생성, 장르(genre) 분류 등과 같은 다양한 애플리케이션에 사용된다.
현재, 많은 콘텐츠 분석 알고리즘이 인트라-코딩된 화상에 대응하는 DCT(Discrete Cosine Transform)에 기초한다. 특히, 루마 블록에 관한 DC("Direct Current") 계수의 통계는 이미지 블록의 휘도의 국부적인 특성을 직접적으로 가리키고, 따라서 많은 유형의 콘텐츠 분석(예컨대, 피부 색조 검출)에서 중요한 파라미터가 된다. 하지만 종래의 H.264/AVC 인코더에서, 이러한 데이터는 인트라-예측을 사용하는 이미지 블록에 관해서는 이용 가능하지 않다. 따라서 이들 알고리즘은 사용될 수 없거나 그러한 정보는 독립적으로 생성되어야 하게 되므로, 인코더의 복잡도 증가를 초래한다.
본 실시예에서는, 예측 블록의 선택에 대한 상이한 접근이 제안된다. 연관된 변환은 이미지 블록에 직접적으로 적용되고, 차이 데이터 블록보다는 예측 블록에 적용된다. 이후 이미지 블록의 변환 계수는 직접적으로 사용될 수 있어, 이미지 블록의 변환 계수에 기초한 알고리즘의 사용을 허가한다. 예컨대, DC 계수에 기초한 콘텐츠 분석이 적용될 수 있다. 또한, 변환된 이미지 블록으로부터 변환된 기준 블록을 뺌으로써, 잔여 데이터 블록이 변환 도메인에서 생성된다. 변환이 연관적(associative)이므로, 연산의 순서는 중요하지 않고, 변환 전보다는 변환 후에 뺄셈을 수행하는 것이 그 결과를 변경하지 않는다. 따라서 그러한 접근법은 기준 블록(그리고 따라서 예측 모드)의 선택에 관해 동일한 성능을 제공하지만, 또한 인코딩 공정의 통합체로서 이미지 분석에 적합한 데이터를 생성한다.
더 상세하게는, 도 1의 비디오 인코더(100)는, 인트라-코딩(즉, H.264/AVC I-프레임으로서 코딩하기 위한)에 관한 비디오 시퀀스의 이미지(또는 프레임)를 수신하는 이미지 분할기를 포함한다. 이미지 분할기(101)는 이미지를 적합한 매크로 블록으로 분할하고, 본 실시예에서는 인코딩될 일정한 4 ×4 휘도 샘플 이미지 블록을 생성한다. 비디오 인코더(100)의 작동은, 간결함과 명확함을 위해 이러한 이미지 블록의 처리를 특별히 참조하여 설명된다.
이미지 분할기(101)는 이미지 선택기(105)에 또한 결합되는 차이 처리기(103)에 결합된다. 그러한 차이 처리기(103)는 이미지 선택기(105)로부터 선택된 기준 블록을 수신하고, 그에 응답하여 원래의 이미지 블록으로부터 선택된 기준 블록을 뺌으로써, 차이 블록을 결정한다.
차이 처리기(103)는 또한 H.264/AVC 표준에 따라 DCT 변환을 수행하고, 계수를 양자화함으로써, 차이 블록을 인코딩하는 인코딩 유닛(107)에 결합된다. 인코딩 요소는 또한 당업자에게 알려진 것처럼 H.264/AVC 비트 스트림을 생성하기 위해, 상이한 이미지 블록과 프레임으로부터의 데이터와 결합할 수 있다.
인코딩 유닛(107)은 또한 인코딩 유닛(107)으로부터 이미지 데이터를 수신하는 디코딩 유닛(109)에 결합되며, 상기 디코더는 H.264/AVC 표준에 따라 이러한 데이터의 디코딩을 수행한다. 그러므로, 디코딩 유닛(109)은 H.264/AVC 디코더에 의해 생성되는 데이터에 대응하는 데이터를 생성한다. 특히, 주어진 이미지 블록을 인코딩할 때, 디코딩 유닛(109)은 이미 인코딩한 이미지 블록에 대응하는 디코딩된 이미지 데이터를 생성할 수 있다. 예컨대, 디코딩 유닛은 도 3의 샘플(A 내지 M)을 생성할 수 있다.
디코딩 유닛(109)은 디코딩된 데이터를 수신하는 기준 블록 생성기(111)에 결합된다. 그 응답으로 기준 블록 생성기(111)는 현재의 이미지 블록의 인코딩시 사용하기 위한 복수의 가능한 기준 블록을 생성한다. 특히, 기준 블록 생성기(111)는 각각의 가능한 예측 모드에 관해 하나의 기준 블록을 생성한다. 그러므로 일정한 실시예에서, 기준 블록 생성기(111)는 H.264/AVC 예측 모드에 따라 9개의 예측 블록을 생성한다. 기준 블록 생성기(111)는 이미지 선택기(105)에 결합되고, 선택을 위해 기준 블록을 이미지 선택기(105)에 공급한다.
기준 블록 생성기(111)는, 기준 블록 생성기(111)로부터 기준 블록을 수신하는 제 1 변환 처리기(113)에 결합된다. 제 1 변환 처리기(113)는 각각의 기준 블록에 대해서 연관 변환을 수행하여 변환된 기준 블록을 생성한다. 일부 예측 모드에 관해, 완전히 구현된 변환이 필요하지 않을 수 있다는 점을 알게 될 것이다. 예컨대, 기준 블록의 모든 샘플 값이 동일한 예측 모드에 있어서는, DC 계수를 결정하기 위해 간단한 덧셈이 사용될 수 있으며 모든 다른 계수는 0으로 설정된다.
실시예에서, 연관 변환은 선형 변환이고, 특히 하다마드 변환이다. 하다마드 변환은 구현이 간단하고 또한 연관적이어서 변환 전보다는 변환된 후, 이미지 블록 사이의 뺄셈 수행을 허용하게 된다. 이러한 사실이 본 실시예에서 이용된다.
따라서 비디오 인코더(100)는 또한 이미지 분할기(101)에 결합되는 제 2 변환 처리기(115)를 포함한다. 제 2 변환 처리기(115)는 이미지 분할기(101)로부터 이미지 블록을 수신하고, 변환된 이미지 블록을 생성하기 위해 이미지 블록에 대해 연관 변환을 수행한다. 특히, 제 2 변환 처리기(115)는 이미지 블록에 대해 하다마드 변환을 수행한다.
이러한 접근법의 장점은 인코딩 공정이 잔여 또는 차이 이미지 데이터보다는 실제 이미지 블록에 적용되는 변환을 포함한다는 점이다. 따라서 변환된 이미지 블록은 그것과 기준 블록 사이의 예측 에러보다는 이미지 블록의 이미지 데이터에 직접 관련된 정보를 포함한다. 특히, 하다마드 변환은 이미지 블록의 샘플의 평균값에 관련된 DC 계수를 생성한다.
따라서, 제 2 변환 처리기(115)는 이미지 분석 처리기(117)에 또한 결합된다. 이미지 분석 처리기(117)는 변환된 이미지 블록을 사용하여 이미지 분석을 수행하도록 작동하고, 특히 이러한 이미지 블록과 다른 이미지 블록의 DC 계수의 DC 계수를 사용하여 콘텐츠 분석을 수행하도록 작동 가능하다.
일 예는 비디오의 화면(shot)들의 경계 검출이다(한 화면은 한 카메라로부터 취해진 이미지의 끊어지지 않은 시퀀스로서 정의될 수 있다). DC 계수는, DC 계수 차이의 합의 통계치가 일련의 연속적인 프레임을 따라 측정되도록, 사용될 수 있다. 이후 이들 통계치의 변동은 숏-컷(shot-cut)과 같은 콘텐츠에서의 잠재적인 전이를 가리키는 데 사용될 수 있다.
이미지 분석의 결과는, 비디오 인코더에서 내부적으로 사용될 수 있거나, 예컨대 다른 유닛에 전달될 수 있다. 예컨대 콘텐츠 분석의 결과는, 예컨대 H.264/AVC 비트 스트림의 보조 또는 사용자 데이터 섹션에서의 데이터를 포함함으로써, 생성된 H.264/AVC 비트 스트림에서의 메타-데이터(meta-data)로서 포함될 수 있다.
제 1 변환 처리기(113)와 제 2 변환 처리기(115)는 모두, 각각의 복수의 변환된 기준 블록과 변환된 이미지 블록 사이의 차이를 결정함으로써, 복수의 잔여 이미지 블록을 생성하는 잔여 처리기(119)에 결합된다. 그러므로 각각의 가능한 예측 모드에 관해, 잔여 처리기(119)는 이미지 블록과 대응하는 기준 블록 사이의 예측 에러의 정보(변환 도메인에서의)를 포함하는 잔여 이미지 블록을 생성한다.
적용된 변환의 연관적 성질로 인해, 생성된 잔여 이미지 블록은, 먼저 변환되지 않은 도메인에서 차이 이미지 블록을 생성한 다음 그러한 이미지 블록을 변환함으로써, 얻을 수 있는 변환된 차이 블록과 같아지게 된다. 하지만, 이 외에도 본 실시예는 인코딩 공정의 통합 부분으로서의 이미지 분석에 적합한 데이터의 생성을 허용한다.
잔여 처리기(119)는 결정된 잔여 이미지 블록을 수신하는 이미지 선택기(105)에 결합된다. 그에 따라 이미지 선택기(105)는, 이미지 블록의 인코딩시 차이 처리기(103)와 인코딩 유닛(107)에 의해 사용된 기준 블록(그리고 따라서 예측 모드)을 선택한다. 선택 기준은, 예컨대 H.264/AVC 인코딩에 관해 권고된 것과 같은 속도-왜곡 기준일 수 있다.
특히, 속도 왜곡 최적화는 주어진 목표(target) 비트 속도에 관해 양호한 디코딩된 비디오 품질을 효과적으로 달성하는데 주안점을 둔다. 예컨대, 최적의 예측 블록은 반드시 원래의 이미지 블록과 가장 차이가 적은 것일 필요는 없지만, 데이터의 인코딩을 고려한 비트-속도와 블록 차이의 크기 사이에서 양호한 균형을 달성하는 것이다. 특히, 비트-속도의 각각의 예측은 인코딩 공정의 연속적인 스테이지를 통해 대응하는 잔여 블록을 통과시킴으로써 추정될 수 있다.
위의 설명은 명확함과 간결함을 위해 기능성의 특별한 분할을 예시하였지만, 이는 대응하는 하드웨어나 소프트웨어 분할을 의미하지는 않고, 기능성의 임의의 적합한 구현이 동등하게 적절할 수 있음을 알게 될 것이다. 예컨대, 전체 인코딩 공정은 단일 마이크로프로세서나 디지털 신호 처리기의 펌웨어(firmware)로서 유리하게 구현될 수 있다. 또한 제 1 변환 처리기(113)와 제 2 변환 처리기(115)는 나란한 별개의 요소로서 구현될 필요는 없지만, 동일한 기능성을 사용하여 순차적으로 구현될 수 있다. 예컨대, 이들은 동일한 전용 하드웨어나 동일한 하위-루틴(sub-routine)에 의해 구현될 수 있다.
설명된 실시예에 따르면, 예측 모드를 선택하기 위해서는 연관 변환이 사용된다. 그러므로, 변환은 다음 기준을 특별히 충족할 수 있다.
T(I) - T(R) = T(I - R)
여기서, T는 변환을 가리키고, I는 이미지 블록(매트릭스)을, R은 기준 블록(매트릭스)을 가리킨다. 그러므로 변환은 뺄셈과 덧셈에 관해 연관적이다. 바람직하게, 그 함수는 선형 함수이다.
하다마드 변환은 본 실시예에 관해 특별히 적합하다. 하다마드 변환은 선형 변환이고, 하다마드 계수는 일반적으로 대응하는 DCT 계수와 유사한 특성이 있다. 특히, 하다마드 변환은 기초가 되는 이미지 블록에서 샘플의 스케일링된(scaled) 평균을 나타내는 DC 계수를 생성한다. 또한 선형성 특성에 기초하여, 2개의 블록의 차이의 하다마드 변환은, 2개의 블록의 하다마드 변환의 차이로서 동등하게 계산될 수 있다.
특히, 하다마드 변환의 연관 성질은 다음과 같이 예시된다.
A와 B를 2개의 N ×N 매트릭스이고, A-B는 A로부터 대응하는 요소에서 B로부터의 각 요소를 빼서 얻어진 나머지(residual)이며, C는 N ×N 하다마드 매트릭스라고 하자. 이들을 변환 방정식에 대입하면,
Y = CXCT
이고, 대응하는 하다마드 변환(YA, YB 및 YA -B)이 계산될 수 있다. 이제 목표는 YA - YB가 YA -B와 같은지를 입증하는 것이다.
간단하게 하기 위해 N=2인 경우를 고려한다. 그러면,
Figure 112006062648916-PCT00001
이는
Figure 112006062648916-PCT00002
를 이끌어낸다.
Q.E.D.
그러므로 이러한 특정 실시예에서, 하다마드 변환을 각 루마 블록과 대응하는 예측(기준) 블록 각각에 적용하게 되면, 동일한 연산이 콘텐츠 분석과, 인코딩을 위해 예측 모드를 선택하는 것 모두에 적합한 파라미터를 생성하는 것이 이루어진다.
본 발명은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 결합을 포함하는 임의의 적합한 형태로 구현될 수 있다. 하지만 바람직하게, 본 발명은 하나 이상의 데이터 처리기 및/또는 디지털 신호 처리기에서 실행되는 컴퓨터 소프트웨어로서 구현된다. 본 발명의 일 실시예의 요소 및 구성 성분은 임의의 적합한 방식으로 물리적으로, 기능적으로 및 논리적으로 구현될 수 있다. 실제로 그 기능성은 단일 유닛, 복수의 유닛 또는 다른 기능 유닛의 부분으로 구현될 수 있다. 그와 같이, 본 발명은 단일 유닛으로 구현될 수 있고, 상이한 유닛과 처리기 사이에서 물리적으로 및 기능적으로 분배될 수 있다.
비록 본 발명이 바람직한 실시예와 연계하여 설명되었지만, 본 명세서에서 설명된 특정 형태에 제한되는 것으로 의도되지는 않는다. 오히려, 본 발명의 범주는 첨부한 청구항에 의해서만 제한된다. 청구항에서, "포함한다"라는 용어는 다른 요소나 단계의 존재를 배제하지 않는다. 또한 비록 개별적으로 열거되었지만 복수의 수단, 요소 또는 방법 단계는, 예컨대 단일 유닛이나 처리기에 의해 구현될 수 있다. 게다가, 비록 개별 특징이 상이한 청구항에서 포함될 수 있지만, 이들은 가능하게는 유리하게 결합될 수 있고, 상이한 청구항에서의 포함(inclusion)은 특징들의 결합이 실현 가능하지 않은 것 및/또는 유리하지 않은 것임을 의미하지 않는다. 또한, 단수 관계(singular reference)는 복수 관계를 배제하지 않는다. 그러므로 "하나의("a", "an")", "제 1의(first)", "제 2의(second)" 등은 복수의 그러한 것들을 제외하지 않는다.
전술한 바와 같이, 본 발명은 비디오 인코더와 비디오 인코딩 방법, 특히 배타적이지는 않지만 H.264/AVC 비디오 코딩 표준에 따른 비디오 인코딩의 시스템에 이용 가능하다.

Claims (14)

  1. 비디오 인코더로서,
    - 인코딩될 이미지로부터 제 1 이미지 블록을 생성하기 위한 수단(101),
    - 복수의 기준 블록을 생성하기 위한 수단(111),
    - 연관된 이미지 변환을 제 1 이미지 블록에 적용함으로써, 변환된 이미지 블록을 생성하기 위한 수단(115),
    - 연관된 이미지 변환을 복수의 기준 블록 각각에 적용함으로써, 복수의 변환된 기준 블록을 생성하기 위한 수단(113),
    - 변환된 이미지 블록과 각각의 복수의 변환된 기준 블록 사이의 차이를 결정함으로써, 복수의 잔여 이미지 블록을 생성하기 위한 수단(119),
    - 복수의 잔여 이미지 블록에 응답하여 복수의 기준 블록의 선택된 기준 블록을 선택하기 위한 수단(105),
    - 선택된 기준 블록에 응답하여 제 1 이미지 블록을 인코딩하기 위한 수단(103, 107) 및
    - 변환된 이미지 블록의 데이터에 응답하여 이미지의 분석을 수행하기 위한 수단(117)을 포함하는, 비디오 인코더.
  2. 제 1항에 있어서, 연관 변환은 선형 변환인, 비디오 인코더.
  3. 제 1항에 있어서, 연관 변환은 하다마드(Hadamard) 변환인, 비디오 인코더.
  4. 제 1항에 있어서, 연관된 변환은, 변환된 이미지 블록의 데이터 포인트가 대응하는 변환되지 않은 이미지 블록의 데이터 포인트의 평균값과 미리 결정된 관계를 가지도록 된 것인, 비디오 인코더.
  5. 제 1항에 있어서, 이미지의 분석을 수행하기 위한 수단(117)은, 변환된 이미지 블록의 데이터에 응답하여 이미지의 콘텐츠 분석을 수행하도록 작동 가능한, 비디오 인코더.
  6. 제 5항에 있어서, 이미지의 분석을 수행하기 위한 수단(117)은, 변환된 이미지 블록의 DC(Direct Current: 직류) 파라미터에 응답하여 이미지의 콘텐츠 분석을 수행하도록 작동 가능한, 비디오 인코더.
  7. 제 1항에 있어서, 복수의 기준 블록을 생성하기 위한 수단(111)은, 오직 이미지의 데이터 값에 응답하여 기준 블록을 생성하도록 작동 가능한, 비디오 인코더.
  8. 제 1항에 있어서, 제 1 이미지 블록은 휘도 데이터를 포함하는, 비디오 인코더.
  9. 제 1항에 있어서, 제 1 이미지 블록은 4 ×4 휘도 데이터 매트릭스로 이루어지는, 비디오 인코더.
  10. 제 1항에 있어서, 인코딩을 위한 수단(103, 107)은 제 1 이미지 블록과 선택된 기준 블록 사이의 차이 블록을 결정(103)하는 것을 포함하고, 연관되지 않은 변환을 사용하여 차이 블록을 변환하기 위한 수단(107)을 포함하는, 비디오 인코더.
  11. 제 1항에 있어서, 비디오 인코더는 H.264/AVC 비디오 인코더인, 비디오 인코더.
  12. 비디오 인코딩 방법으로서,
    - 인코딩될 이미지로부터 제 1 이미지 블록을 생성하는 단계,
    - 복수의 기준 블록을 생성하는 단계,
    - 연관된 이미지 변환을 제 1 이미지 블록에 적용함으로써, 변환된 이미지 블록을 생성하는 단계,
    - 연관된 이미지 변환을 복수의 기준 블록 각각에 적용함으로써, 복수의 변환된 기준 블록을 생성하는 단계,
    - 변환된 이미지 블록과 각각의 복수의 변환된 기준 블록 사이의 차이를 결정함으로써, 복수의 잔여 이미지 블록을 생성하는 단계,
    - 복수의 잔여 이미지 블록에 응답하여 복수의 기준 블록의 선택된 기준 블록을 선택하는 단계,
    - 선택된 기준 블록에 응답하여 제 1 이미지 블록을 인코딩하는 단계 및
    - 변환된 이미지 블록의 데이터에 응답하여 이미지의 분석을 수행하는 단계를 포함하는, 비디오 인코딩 방법.
  13. 제 12항에 따른 방법을 수행하는 것을 가능하게 하는 컴퓨터 프로그램.
  14. 제 13항에 따른 컴퓨터 프로그램을 포함하는 기록 운반체(record carrier).
KR1020067017521A 2004-03-01 2005-02-24 비디오 인코딩 방법 및 장치 KR20070007295A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04100808 2004-03-01
EP04100808.7 2004-03-01

Publications (1)

Publication Number Publication Date
KR20070007295A true KR20070007295A (ko) 2007-01-15

Family

ID=34960716

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067017521A KR20070007295A (ko) 2004-03-01 2005-02-24 비디오 인코딩 방법 및 장치

Country Status (7)

Country Link
US (1) US20070140349A1 (ko)
EP (1) EP1723801A1 (ko)
JP (1) JP2007525921A (ko)
KR (1) KR20070007295A (ko)
CN (1) CN1926884A (ko)
TW (1) TW200533206A (ko)
WO (1) WO2005088980A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101389408B1 (ko) * 2007-03-13 2014-04-28 한스-게오르그 무스만 하이브리드 비디오 코딩을 위한 양자화

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2009116239A (ru) * 2006-09-29 2010-11-10 Томсон Лайсенсинг (Fr) Геометрическое внутреннее предсказание
EP2048887A1 (en) * 2007-10-12 2009-04-15 Thomson Licensing Encoding method and device for cartoonizing natural video, corresponding video signal comprising cartoonized natural video and decoding method and device therefore
US9106933B1 (en) * 2010-05-18 2015-08-11 Google Inc. Apparatus and method for encoding video using different second-stage transform
US9210442B2 (en) 2011-01-12 2015-12-08 Google Technology Holdings LLC Efficient transform unit representation
US9380319B2 (en) 2011-02-04 2016-06-28 Google Technology Holdings LLC Implicit transform unit representation
CN108391137B (zh) 2011-06-15 2022-07-19 韩国电子通信研究院 可伸缩解码方法/设备、可伸缩编码方法/设备和介质
WO2013137613A1 (en) * 2012-03-12 2013-09-19 Samsung Electronics Co., Ltd. Method and apparatus for determining content type of video content
US20150169960A1 (en) * 2012-04-18 2015-06-18 Vixs Systems, Inc. Video processing system with color-based recognition and methods for use therewith
US20130279570A1 (en) * 2012-04-18 2013-10-24 Vixs Systems, Inc. Video processing system with pattern detection and methods for use therewith
US9219915B1 (en) 2013-01-17 2015-12-22 Google Inc. Selection of transform size in video coding
US9544597B1 (en) 2013-02-11 2017-01-10 Google Inc. Hybrid transform in video encoding and decoding
US9967559B1 (en) 2013-02-11 2018-05-08 Google Llc Motion vector dependent spatial transformation in video coding
US9674530B1 (en) 2013-04-30 2017-06-06 Google Inc. Hybrid transforms in video coding
US9565451B1 (en) 2014-10-31 2017-02-07 Google Inc. Prediction dependent transform coding
CN104469388B (zh) 2014-12-11 2017-12-08 上海兆芯集成电路有限公司 高阶视频编解码芯片以及高阶视频编解码方法
US9769499B2 (en) 2015-08-11 2017-09-19 Google Inc. Super-transform video coding
US10277905B2 (en) * 2015-09-14 2019-04-30 Google Llc Transform selection for non-baseband signal coding
US9807423B1 (en) 2015-11-24 2017-10-31 Google Inc. Hybrid transform scheme for video coding
US11122297B2 (en) 2019-05-03 2021-09-14 Google Llc Using border-aligned block functions for image compression

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3655651B2 (ja) * 1994-09-02 2005-06-02 テキサス インスツルメンツ インコーポレイテツド データ処理装置
CN1143551C (zh) * 1996-05-28 2004-03-24 松下电器产业株式会社 图像预测解码装置
US6449392B1 (en) * 1999-01-14 2002-09-10 Mitsubishi Electric Research Laboratories, Inc. Methods of scene change detection and fade detection for indexing of video sequences
US6327390B1 (en) * 1999-01-14 2001-12-04 Mitsubishi Electric Research Laboratories, Inc. Methods of scene fade detection for indexing of video sequences
US6751354B2 (en) * 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
JP2002044663A (ja) * 2000-07-24 2002-02-08 Canon Inc 画像符号化装置及び方法、画像表示装置及び方法、画像処理システム並びに撮像装置
US7185037B2 (en) * 2001-08-23 2007-02-27 Texas Instruments Incorporated Video block transform

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101389408B1 (ko) * 2007-03-13 2014-04-28 한스-게오르그 무스만 하이브리드 비디오 코딩을 위한 양자화

Also Published As

Publication number Publication date
JP2007525921A (ja) 2007-09-06
US20070140349A1 (en) 2007-06-21
WO2005088980A1 (en) 2005-09-22
EP1723801A1 (en) 2006-11-22
CN1926884A (zh) 2007-03-07
TW200533206A (en) 2005-10-01

Similar Documents

Publication Publication Date Title
KR20070007295A (ko) 비디오 인코딩 방법 및 장치
US7706443B2 (en) Method, article of manufacture, and apparatus for high quality, fast intra coding usable for creating digital video content
US20060204115A1 (en) Video encoding
JP4391809B2 (ja) 画像のシーケンスを適応的に符号化するシステムおよび方法
US11743475B2 (en) Advanced video coding method, system, apparatus, and storage medium
US20060165163A1 (en) Video encoding
US20150312575A1 (en) Advanced video coding method, system, apparatus, and storage medium
WO2006124885A2 (en) Codec for iptv
KR20050112130A (ko) 비디오 트랜스코딩
EP1461959A2 (en) Sharpness enhancement in post-processing of digital video signals using coding information and local spatial features
JP4391810B2 (ja) 画像のシーケンスを適応的に符号化するシステムおよび方法
US20090086034A1 (en) Video Image Processing Device, Video Image Processing Method, and Video Image Processing Program
US6847684B1 (en) Zero-block encoding
KR20050122265A (ko) 코딩된 비디오 데이터의 콘텐트 분석
US20070223578A1 (en) Motion Estimation and Segmentation for Video Data
JP2001148852A (ja) 画像情報変換装置及び画像情報変換方法
WO2016193949A1 (en) Advanced video coding method, system, apparatus and storage medium
Padia Complexity reduction for VP6 to H. 264 transcoder using motion vector reuse
Sun Emerging Multimedia Standards
Ansari et al. Analysis and Evaluation of Proposed Algorithm For Advance Options of H. 263 and H. 264 Video Codec
Lonetti et al. Temporal video transcoding for multimedia services
Mandal et al. Digital video compression techniques
Pai Rate control and constant quality rate control for MPEG video compression and transcoding
JP2001148855A (ja) 画像情報変換装置及び画像情報変換方法

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid