KR20060127022A - 코딩 방법 및 대응하는 코딩된 신호 - Google Patents

코딩 방법 및 대응하는 코딩된 신호 Download PDF

Info

Publication number
KR20060127022A
KR20060127022A KR1020067013495A KR20067013495A KR20060127022A KR 20060127022 A KR20060127022 A KR 20060127022A KR 1020067013495 A KR1020067013495 A KR 1020067013495A KR 20067013495 A KR20067013495 A KR 20067013495A KR 20060127022 A KR20060127022 A KR 20060127022A
Authority
KR
South Korea
Prior art keywords
frames
coding
prediction
macroblocks
digital video
Prior art date
Application number
KR1020067013495A
Other languages
English (en)
Inventor
드제브데트 부라제로빅
마우로 바르비에리
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20060127022A publication Critical patent/KR20060127022A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명은 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 비디오 데이터에 적용되는 코딩 방법에 관한 것이다. 매크로블록들로 분할된 이들 프레임들은 독립적으로 코딩된 적어도 I-프레임들 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고 배치된 적어도 두개의 프레임들로부터 양방향으로 예측된 B-프레임을 포함하며, 상기 P- 및 B-프레임들의 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행된다. 본 발명에 따르면, 이러한 코딩 방법은 가중된 예측을 특징지우는 코딩 파라미터들을 획득하기 위해 제공된 구성 단계; 상기 파라미터들에 관한 통계치를 전달하기 위해 제공된 계산단계; 예측방향에 관한 선호도의 변화를 결정하기 위해 제공된 분석단계; 점진적 장면 변화들의 발생을 검출하는 단계; 상기 발생의 기술 데이터를 생성하기 위해 제공된 단계; 및 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하는 단계를 포함한다.
코딩 장치, 코딩 방법, 코딩 파라미터, 가중된 예측, 선호도

Description

코딩 방법 및 대응하는 코딩된 신호{Coding method and corresponding coded signal}
본 발명은 매크로블록들로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 비디오 데이터를 코딩하는 코딩 방법에 관한 것으로서, 매크로블록들로 분할된 상기 연속 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두개의 P-프레임사이에 배치되고, 배치된 적어도 두개의 프레임들로부터 양방향으로 예측되는 B-프레임들을 포함하며, 상기 P- 및 B-프레임들의 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측(weighted prediction)에 의하여 수행된다.
또한, 본 발명은 대응하는 인코딩 장치, 컴퓨터-판독가능 저장매체상에 저장되고 상기 인코딩 방법에서 규정된 단계들을 포함하는 대응하는 컴퓨터-실행가능 프로세스 단계들, 및 이러한 인코딩 방법에 따라 디지털 비디오 데이터를 인코딩함으로써 생성된 전송가능 코딩 신호에 관한 것이다.
현재 보다 많은 디지털 방송 서비스들이 이용가능하게 되었으며 이에 따라 일반적으로 정보기술 전문가가 아닌 사용자들이 멀티미디어 정보 자원들을 용이하게 이용가능하게 되었다. 멀티미디어 정보는 일반적으로 스트리밍, 압축 및 사용자 상호작용과 같은 동작들에 의하여 조작되는 자연 및 합성 오디오, 시각 및 객체 데이터로 구성된다. MPEG-4의 가장 중요한 특징은 오디오-시각 장면(scene)의 임의의 엘리먼트를 나타내는 객체의 개념에 의하여 상호작용(interactivity)을 지원하는 것이며, 상기 장면의 객체들은 독립적으로 인코딩되며, 여러 비트스트림들, 소위 기본 스트림들로서 압축형식으로 동시에 저장 또는 전송된다. MPEG-4의 규정들은 이들 기본 스트림들을 식별하여 기술하고 이들을 적절한 방식으로 연관시켜 장면 기술을 획득하고 최종 사용자에게 의미있는 멀티미디어 장면을 최종 사용자에게 제공하도록 의도된 객체 기술 프레임워크를 포함하며, MPEG-4는 객체들의 구성으로서 멀티미디어 데이터를 모델링한다. 그러나, 이러한 표준의 중요한 성공은 더 많은 정보가 디지털 형식으로 이용가능하게 만들어지는 사실에 기인한다. 따라서, 적정 정보를 검색하여 선택하는 것은 임의의 특정 목적을 위하여 오디오-시각 데이터에 대하여 동작하는 자동 시스템들과 관련하여 사용자들에게 매우 어려우며, 또한 예컨대 정보의 콘텐츠에 대하여 결정하기 위하여 정보의 콘텐츠에 대한 정보를 필요로한다.
MPEG-7 표준의 목적은 콘텐츠를 기술하는 것, 즉 음성, 오디오, 비디오, 정지화상들, 3D 모델들 또는 다른 엘리먼트들과 다른 멀티미디어 자료를 기술하는 표준화 방식 또는 이들 엘리먼트들이 멀티미디어 문서에 결합되는 방법을 기술하는 방식을 검색하는 것이다. 따라서, MPEG-7은 기술자들(descriptors) D라 불리는 다 수의 표준 엘리먼트들(각각의 기술자는 콘텐츠의 특정 특징, 예컨대 이미지의 색, 객체의 움직임, 영화 제목 등을 특징 지울 수 있다), 기술 방식들(DS)(기술 방식들은 기술자들의 구조 및 관계들을 한정한다), 기술 한정 언어 DDL(기술자들 및 기술 방식들을 지정함) 및 이들 기술들의 코딩 방식들을 한정한다. 도 1은 이들 MPEG-7 표준 엘리먼트들 및 이의 관계의 그래픽 개요를 기술한다. 기술자들 및 기술 방식들을 표준화하는 것이 필요한지의 여부는 MPEG에서 계속해서 논의된다. 그러나, 적어도 가장 널리 사용되는 세트가 표준화될 수 있다.
본 발명의 목적은 MPEG-7 표준과 관련하여 유용하게 사용되도록 한 새로운 기술자를 제안하는데 있다.
이를 위하여, 본 발명은 상세한 설명의 도입부에서 한정된 것과 같은 코딩 방법을 제공하며, 이 코딩 방법은,
- 현재 프레임의 모든 연속 매크로블록들에 대하여, 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하기 위해 제공된 구성 단계;
- 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하기 위해 제공된 계산단계;
- 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하기 위해 제공된 분석단계;
- 상기 선호도 변화가 결정될 때마다 상기 프레임들의 시퀀스에서 점진적 장면 변화들의 발생을 검출하기 위해 제공된 검출단계;
- 상기 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하기 위해 제공된 기술 단계; 및
- 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하기 위해 제공된 코딩 단계를 포함한다.
매크로블록들로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 비디오 데이터를 코딩하는 코딩 장치로서,
상기 프레임들은 매크로블록들로 분할된 상기 연속 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고, 배치된 적어도 상기 두개의 프레임들로부터 양방향으로 예측되는 B-프레임들의 형태로 코딩되고, P- 및 B-프레임들의 상기 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행되며,
상기 코딩 장치는,
- 상기 현재 프레임의 모든 연속 매크로블록들에 대하여, 만약 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하기 위해 제공된 구성 수단;
- 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하기 위해 제공된 계산 수단;
- 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하기 위해 제공된 분석 수단;
- 상기 선호도의 변화가 결정될 때마다 프레임들의 시퀀스에서의 점진적 장면 변화들의 발생을 검출하기 위해 제공된 검출 수단;
- 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하기 위해 제공된 기술 수단; 및
- 상기 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하는 코딩 수단을 포함한다.
매크로블록들로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 비디오 데이터를 코딩하는 인코딩 장치에서 사용하기 위해서, 상기 프레임들은 매크로블록들로 분할된 상기 연속 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고, 배치된 적어도 상기 두개의 프레임들로부터 양방향으로 예측되는 B-프레임들의 형태로 코딩되고, P- 및 B-프레임들의 상기 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행되며, 컴퓨터 실행가능 프로세스 단계들은 컴퓨터 판독가능 저장 매체상에 저장되며,
- 상기 현재 프레임의 모든 연속 매크로블록들에 대하여, 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하기 위해 제공된 구성 단계;
- 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하기 위해 제공된 계산 단계;
- 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하기 위해 제공된 분석 단계;
- 상기 선호도의 변화가 결정될 때마다 프레임들의 시퀀스에서의 점진적 장면 변화들의 발생을 검출하기 위해 제공된 검출 단계;
- 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하기 위해 제공된 기술 단계; 및
- 상기 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하기 위해 제공된 코딩 단계를 포함하는 컴퓨터-실행가능 프로세스 단계들에 관한 것이다.
본 발명은 첨부 도면들을 참조하여 지금 예로서 기술될 것이다.
도 1은 사용자들이 다른 기술자들(표준에 따른 기술자 또는 표준에 따르지 않은 기술자)을 사용할 수 있는 MPEG-7 환경을 한정하는 MPEG-7 표준 엘리먼트들 및 이들 엘리먼트간의 관계를 그래픽으로 도시한 도면.
도 2 및 도 3은 멀티미디어 데이터를 인코딩 및 디코딩하도록 하는 코딩 및 디코딩 방법을 기술한 도면.
도 2에 기술된 본 발명에 따른 다수의 멀티미디어 데이터를 코딩하는 방법은 이용가능한 멀티미디어 데이터를 하나 또는 여러 비트스트림들로 변환하는 획득 단계(CONV), 분석 및 분할에 의하여 상기 비트스트림(들)에서 다른 레벨들의 정보를 획득하는 구성 단계(SEGM), 얻어진 레벨들의 정보의 기술 데이터를 생성하는 기술 단계, 및 이와같이 얻어진 기술 데이터를 인코딩하도록 하는 코딩 단계(COD)를 포함한다. 특히, 기술 단계는 다수의 멀티미디어 데이터와 관한 기술자들의 세트를 저장하는 한정 부단계(DEF) 및 원래의 멀티미디어 데이터를 기초하여 상기 구성단계에서 얻어진 모든 레벨의 정보에 따라 코딩된 기술 데이터를 선택하는 기술 부단계(DESC)를 포함한다. 그 다음에, 코딩 데이터는 전송 및/또는 저장된다. 도 3에 기술된 대응 디코딩 방법은 앞서 기술된 코딩 방법에 의하여 코딩된 신호를 디코딩하는 단계(DECOD), 이와 같이 얻어진 디코딩 데이터를 저장하는 단계(STOR), 사용자(USER)에 의하여 전송된 탐색 명령에 기초하여 상기 디코딩 신호에 의하여 구성된 데이터사이를 탐색하는 단계(SEARCH), 및 저장된 데이터에 있어서의 상기 탐색의 검색 결과를 상기 사용자에게 다시 전송하는 단계를 포함한다.
모든 가능한 멀티미디어 콘텐츠와 관련하여 저장된 기술자들 중에서, 본 발명에 따라 제안된 발명은 권고 H.264/AVC로서 ITU-T에 의하여 그리고 국제 표준 14496-10(MPEG-4 파트 10) 차세대 비디오 코딩(Advanced Video Coding; AVC)로서 ISO/IEC에 의하여 2003년에 공식적으로 승인된 차세대 표준 H.264/AVC에 기초한다. 이러한 신규한 표준은 비디오의 다음 화상들간의 상관관계를 이용하는 실제방법으로서 블록 기반 움직임 보상을 사용하는 MPEG-2와 같은 규정된 표준들로부터 공지 된 블록 기반 움직임 보상 변환 코딩과 동일한 원리들을 사용한다. 이러한 방법은 이전에 디코딩된 인접 기준 화상의 최상의 매칭에 의하여 주어진 화상에서 각각의 매크로-블록을 예측한다. 만일 매크로블록 및 이의 예측 블록간의 화소 단위 차이가 매우 작으면, 매크로블록 그 자체보다 오히려 상기 차이 또는 나머지가 인코딩된다. 실제 MB의 그리드 위치와 관련한 예측 MB의 상대 변위는 개별적으로 인코딩되는 움직임 벡터에 의하여 지시된다. 도 2는 두개의 화상들, 즉 과거의 화상 및 미래의 화상(디스플레이 순서에서)이 사용되는 양방향 예측의 경우에 대한 상황을 기술한다. 이러한 방식으로 예측되는 화상들은 소위 B-화상들이라 불린다. 그렇치 않으면, 단지 과거 화상을 기준으로 하여 예측되는 화상들은 P-화상이라 불린다.
H.264/AVC와 관련하여, 상기 기본적인 개념들이 더 상세히 설명될 것이다. 첫째, H.264/AVC에서의 움직인 보상은 다중 기준 화상 예측에 기초하며, 즉 주어진 블록에 대한 매칭은 인접 화상들 대신에 더 먼 과거 또는 미래 화상들에서 탐색될 수 있다. 둘째, H.264/AVC는 MB를 작은 블록들로 분할하고 이들 블록들의 각 블록을 개별적으로 예측하도록 한다. 이는 주어진 MB에 대한 예측이 다른 움직임 벡터들 및 다른 기준 화상들을 사용하여 검색되는 다른 부블록들로 원리적으로 구성될 수 있다는 것을 의미한다. 예측 블록들의 수, 크기 및 방향은 내부 모드의 선택에 의하여 고유하게 결정된다. 이러한 모드들중 여러 모드는 특정되어 블록 크기들 16x8, 8x8, 최소 4x4까지 허용한다. H.264/AVC의 다른 혁신은 움직임 보상 예측 신호가 인코더에 의하여 지정된 크기만큼 가중 및 오프셋되도록 한다. 이는 이전 프레임들 P(i-n) 및 P(i-1) 및 다음 프레임들 P(i+j) 및 P(i+m)로부터 예측된 프레임 B(i)에 관한 양방향 예측의 경우에 인코더가 과거 및 미래로부터의 예측 블록들이 전체 예측에 기여하는 비일치 크기들을 선택할 수 있다는 것을 의미한다. 이러한 특징은 페이드들을 포함하는 장면들에 대한 코딩 효율성을 드라마틱하게 개선하도록 한다.
그러나, 다음과 같은 문제가 존재한다. 디지털 산업의 급속한 성장으로 인하여 계속적으로 증가하는 용량 및 콘텐츠 다양성을 특징으로 하는 전문가 및 소비자 환경이 실현되기 때문에, 저장된 대상 정보를 고속으로 검색하기 위한 효율적인 방법들을 검색하는 것은 매우 중요하다. 비구조화 비디오 콘텐츠의 탐색 및 검색은 비디오 자료의 주석(이들 주석들은 색 및 구조와 같은 저레벨 신호 관련 특성들로부터 얼굴의 존재 및 위치와 같은 고레벨 정보까지 변화한다)을 자동적으로 생성하는 것을 목표로하는 이미지 처리, 패턴 인식 및 인공지능과 같은 알고리즘들에 기초하여 콘텐츠 분석 기술들에 의하여 콘텐츠를 인덱싱한후에 보통 수행된다.
가장 중요한 콘텐츠 기술자들중 한 기술자는 예컨대 국제특허출원 WO 01/03429(PHF99593)와 같은 문헌에서 기술된 쇼트(shot) 경계 지시자이다. 쇼트(shot)는 단일 카메라를 연속적으로 사용하여 획득된 비디오 세그먼트이며, 쇼트들은 일반적으로 비디오를 구성하는 기본 유닛들로서 구성된다. 따라서, 쇼트 경계들의 검출은 기본 비디오 유닛들의 복원을 의미한다. 비디오 편집동안, 쇼트들은 적어도 두개의 클래스들로 분류될 수 있는 쇼트 전이들, 즉 급격한 전이들 및 점진적 전이들을 사용하여 접속된다. 하드 컷(hard cut)들이라 불리고 두개의 쇼 트들의 일부 수정없이 얻어지는 급격한 전이들은 검출이 용이하며, 모든 종류의 비디오 프로덕션들에서 대다수를 이룬다. 페이드들, 디졸브들, 및 와이프들과 같은 점진적 전이는 두개의 포함된 쇼트들에 임의의 변환을 적용함으로써 획득된다. 비디오 제조동안, 각각의 전이 타입은 비디오 시퀀스들의 콘텐츠 및 콘텍스트를 지원하기 위하여 주의깊게 선택된다. 따라서, 모든 위치들 및 타입들의 자동 복원은 고레벨 시맨틱을 추론하기 위하여 종종 사용된다. 예컨대, 장편영화들에서, 디졸브들은 종종 시간의 진행을 전달하기 위하여 사용된다. 또한, 디졸브들은 뉴스방송, 스포츠, 코메디 및 쇼보다 오히려 장편영화, 다큐멘터리, 바이오그래픽 및 시닉 비디오에서 더 자주 발생한다. 반대 상황은 와이프들에서 발생한다. 따라서, 전이들 및 이들의 타입의 자동 검출은 비디오 장르의 자동 인식을 위하여 사용될 수 있다.
차세대 H.264/MPEG-4 AVC 표준에 대한 응용 분야 때문에, H.264/AVC 비디오 콘텐츠 분석에 대한 효율적인 솔루션들에 대한 요구가 증대되고 있다. 최근 몇년동안, 여러 효율적인 콘텐츠 분석 알고리즘들 및 방법들은 압축 영역에서 거의 배타적으로 동작하는 MPEG-2 비디오와 관련하여 제공되었다. 이들 방법들의 대부분은 앞서 지시된 바와같이 H.264/AVC가 MPEG-2 신택스의 수퍼세트를 지정하기 때문에 H.264/AVC로 용이하게 확장될 수 있다. 그러나, MPEG-2의 제한들로 인하여, 이들 기존 방법들중 일부는 화소 또는 오디오 영역에서 동작하는 추가 및 고비용 방법들을 포함함으로써 어드레싱되는 결함인 충분한(신뢰성있는) 성능을 제공할 수 없다.
본 특허와 동일일에 출원된 유럽특허출원은 상기 단점을 방지하기 위한 방법을 제안한다. 특히, 유럽특허출원은 매크로블록들로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 코딩 비디오 데이터를 처리하는 방법(및 대응 장치)에 관한 것이며, 매크로블록들로 분할된 상기 연속 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고 그들이 배치된 상기 적어도 두 개의 프레임들로부터 양방향으로 예측되는 B-프레임들을 포함하며, 상기 P- 및 B-프레임들의 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행되며, 상기 처리 방법은, 상기 현재 프레임의 각각의 연속 매크로블록들에 대하여, 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하는 단계; 상기 현재 프레임의 모든 연속 매크로블록들에 대한 파라미터들을 수집하여 상기 파라미터와 관련된 통계치를 전달하는 단계; 상기 통계치를 분석하여 예측방향에 관한 선호도의 변화를 결정하는 단계; 및 상기 선호도 변화가 결정될 때마다 상기 프레임들의 시퀀스에서 점진적 장면 변화들의 발생을 검출하는 단계를 포함한다(특히, 상기 방법에 따르면, 분석단계는 프레임에서 매크로블록들의 전체 수와 관련하여 유도된 미리 결정된 임계치와 동일한 방향의 선호도 및 유사한 가중치를 가진 매크로블록들의 수를 비교하기 위하여 제공되며, 각 장면 변화의 위치 및 기간에 대한 정보가 적절하게 생성되어 파일에 저장된다).
MPEG-7 표준 드래프트 ISO/IEC JTC 1/SC 29 N 4242(2001년 10월 23일)에 따르면, 비디오 편집 작업에 의하여 생성되는 시각적 콘텐츠들의 세그먼트들을 기술하기 위한 도구들이 기술된다. 비디오 편집 작업은 비디오 세그먼트들을 어셈블링 및 구성하는 단계를 포함하며, 이러한 작업의 분석 기술은 이들 비디오 세그먼트들의 계층적 구조(3개 이상의 레벨) 및 편집 프로세스동안 생성된 전이들에 대응한다. 그 다음에, 분석 편집된 비디오 세그먼트들은 두개의 카테고리들, 즉 분석 클립들(쇼트들, 구성 쇼트들, 인트라-구성 쇼트들) 및 분석 전이들(글로벌 전이들, 구성 전이들, 내부 전이들)로 분류된다. 동일한 문서의 표준 부록 B에서는 전이의 타입이 기술되며, 주어진 이름들의 세트는 미리 결정된 MPEG-7 분류 방식(진화타입 CS)을 언급한다. 따라서, 점진적 쇼트 전이들을 위하여 정의된 기술자는 점진적 장면 변화들의 발생의 기술 데이터를 생성하기 위하여 본 발명에 따른 코딩 방법에서 사용된 기술자일 수 있다.
사실상, 앞서 기술된 바와같이, H.264/AVC의 움직임 보장 예측은 비일치 크기만큼 전체 예측에 의하여 제시된 과거 및 미래 예측 블록들에 기초할 수 있다. 이러한 비일치성 때문에, 점진적 쇼트 전이의 존재는 한 방향에서 다른 방향으로의 예측 선호도의 점진적 변화에 의하여 지시될 수 있으며, 이러한 예측 방향 선호도의 변화는 가중된 예측을 특징으로 하는 전송 코딩 파라미터들의 통계치들을 분석함으로써(예컨대, 이러한 분석은 화상의 매크로블록들의 전체 수와 관련하여 유도될 수 있는 주어진 임계치와 동일한 방향의 선호도 및 유사한 가중치를 가진 매크로블록들의 수를 비교하는 단계, 및 예측을 위한 방향성 선호도의 변화가 점진적 장면 전이의 결과이도록 매크로블록들의 분포의 균일성을 검사하는 단계를 포함할 수 있다.) 디코딩 측면에서 검출된다.
그 다음에, 본 발명에 따른 코딩 방법의 한정은 다음과 같다. 코딩될 디지털 비디오 데이터는 매크로블록들로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능하다. 이들 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고, 배치된 상기 적어도 두 개의 프레임들로부터 양방향으로 예측되는 B-프레임들을 포함하며, 상기 P- 및 B-프레임들의 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행된다. 상기 코딩 방법은,
- 상기 현재 프레임의 모든 연속 매크로블록들에 대하여, 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하는 구성 단계;
- 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하는 계산단계;
- 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하는 분석단계;
- 상기 선호도 변화가 결정될 때마다 상기 프레임들의 시퀀스에서 점진적 장면 변화들의 발생을 검출하는 검출단계;
- 상기 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하는 기 술 단계; 및
- 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하는 코딩 단계 그 자체를 포함한다.
이들 단계들은 컴퓨터-판독가능 저장매체상에 저장된 컴퓨터-실행가능 프로세스에 의하여 본 발명에 따라 구현될 수 있으며, 이러한 컴퓨터-실행가능 프로세스는,
- 현재 프레임의 모든 연속 매크로블록들에 대하여, 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하는 구성 단계;
- 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하는 계산단계;
- 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하는 분석단계;
- 상기 선호도 변화가 결정될 때마다 상기 프레임들의 시퀀스에서 점진적 장면 변화들의 발생을 검출하는 검출단계;
- 상기 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하는 기술 단계; 및
- 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하는 코딩 단계를 포함한다.
또한, 본 발명은 이들 단계들을 구현하기 위한 인코딩 장치에 관한 것이며, 이 인코딩 장치는,
- 현재 프레임의 모든 연속 매크로블록들에 대하여, 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하는 구성 수단;
- 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하는 계산수단;
- 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하는 분석수단;
- 상기 선호도 변화가 결정될 때마다 상기 프레임들의 시퀀스에서 점진적 장면 변화들의 발생을 검출하는 검출수단;
- 상기 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하는 기술수단; 및
- 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하는 코딩수단을 포함한다.
본 발명은 상기 인코딩 장치의 출력에서 이용가능하고 이전에 기술된 코딩 방법에 따라 디지털 비디오 데이터를 인코딩함으로써 생성된 신호와 같은 전송가능한 코딩 신호에 관한 것이다.

Claims (5)

  1. 매크로블록들(macroblocks)로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 비디오 데이터를 코딩하는 코딩 방법으로서,
    상기 프레임들은 매크로블록들로 분할된 상기 연속 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고, 배치된 적어도 상기 두개의 프레임들로부터 양방향으로 예측되는 B-프레임들의 형태로 코딩되고, P- 및 B-프레임들의 상기 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행되며,
    상기 코딩 방법은,
    - 상기 현재 프레임의 모든 연속 매크로블록들에 대하여, 만약 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하기 위해 제공된 구성 단계;
    - 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하기 위해 제공된 계산 단계;
    - 상기 통계치를 분석하고 예측방향에 관한 선호도(preference)의 변화를 결정하기 위해 제공된 분석 단계;
    - 상기 선호도의 변화가 결정될 때마다 프레임들의 시퀀스에서의 점진 적 장면 변화들의 발생을 검출하기 위해 제공된 검출 단계;
    - 점진적 장면 변화들의 상기 발생에 대한 기술 데이터(description data)를 생성하기 위해 제공된 기술 단계; 및
    - 상기 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하는 코딩 단계를 포함하는, 코딩 방법.
  2. 매크로블록들로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 비디오 데이터를 코딩하는 코딩 장치로서,
    상기 프레임들은 매크로블록들로 분할된 상기 연속 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고, 배치된 적어도 상기 두개의 프레임들로부터 양방향으로 예측되는 B-프레임들의 형태로 코딩되고, P- 및 B-프레임들의 상기 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행되며,
    상기 코딩 장치는,
    - 상기 현재 프레임의 모든 연속 매크로블록들에 대하여, 만약 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하기 위해 제공된 구성 수단;
    - 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달 하기 위해 제공된 계산 수단;
    - 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하기 위해 제공된 분석 수단;
    - 상기 선호도의 변화가 결정될 때마다 프레임들의 시퀀스에서의 점진적 장면 변화들의 발생을 검출하기 위해 제공된 검출 수단;
    - 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하기 위해 제공된 기술 수단; 및
    - 상기 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하는 코딩 수단을 포함하는, 코딩장치.
  3. 매크로블록들로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 비디오 데이터를 코딩하는 인코딩 장치에서 사용하기 위해서, 상기 프레임들은 매크로블록들로 분할된 상기 연속 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고, 배치된 적어도 상기 두개의 프레임들로부터 양방향으로 예측되는 B-프레임들의 형태로 코딩되고, P- 및 B-프레임들의 상기 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행되며, 컴퓨터 실행가능 프로세스 단계들은 컴퓨터 판독가능 저장 매체상에 저장되며,
    - 상기 현재 프레임의 모든 연속 매크로블록들에 대하여, 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하기 위해 제공된 구성 단계;
    - 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하기 위해 제공된 계산 단계;
    - 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하기 위해 제공된 분석 단계;
    - 상기 선호도의 변화가 결정될 때마다 프레임들의 시퀀스에서의 점진적 장면 변화들의 발생을 검출하기 위해 제공된 검출 단계;
    - 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하기 위해 제공된 기술 단계; 및
    - 상기 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하기 위해 제공된 코딩 단계를 포함하는, 컴퓨터-실행가능 프로세스 단계들.
  4. 인코딩 장치에 로드될때 제 3항에 따른 단계들을 수행하도록 하는 명령들의 세트를 포함하는, 디지털 비디오 데이터 인코딩 장치용 컴퓨터 프로그램 제품.
  5. 제 1항에 따른 코딩 방법에 따라 디지털 비디오 데이터를 인코딩함으로써 생성된 전송가능 코딩된 신호.
KR1020067013495A 2004-01-05 2004-12-28 코딩 방법 및 대응하는 코딩된 신호 KR20060127022A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04300005 2004-01-05
EP04300005.8 2004-01-05

Publications (1)

Publication Number Publication Date
KR20060127022A true KR20060127022A (ko) 2006-12-11

Family

ID=34814431

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067013495A KR20060127022A (ko) 2004-01-05 2004-12-28 코딩 방법 및 대응하는 코딩된 신호

Country Status (6)

Country Link
US (1) US20090016441A1 (ko)
EP (1) EP1704721A1 (ko)
JP (1) JP2007522698A (ko)
KR (1) KR20060127022A (ko)
CN (1) CN1902937A (ko)
WO (1) WO2005074296A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2013002429A (es) * 2010-09-03 2013-04-08 Dolby Lab Licensing Corp Metodo y sistema para compensacion de iluminacion y transicion para codificacion y procesamiento de video.
JP6391213B2 (ja) * 2013-03-14 2018-09-19 富士工業株式会社 レンジフード
CN115150548B (zh) * 2022-06-09 2024-04-12 山东信通电子股份有限公司 一种基于云台输出输电线路全景图像的方法、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6618507B1 (en) * 1999-01-25 2003-09-09 Mitsubishi Electric Research Laboratories, Inc Methods of feature extraction of video sequences
US7003038B2 (en) * 1999-09-27 2006-02-21 Mitsubishi Electric Research Labs., Inc. Activity descriptor for video sequences
US6574279B1 (en) * 2000-02-02 2003-06-03 Mitsubishi Electric Research Laboratories, Inc. Video transcoding using syntactic and semantic clues
US7110458B2 (en) * 2001-04-27 2006-09-19 Mitsubishi Electric Research Laboratories, Inc. Method for summarizing a video using motion descriptors

Also Published As

Publication number Publication date
CN1902937A (zh) 2007-01-24
US20090016441A1 (en) 2009-01-15
JP2007522698A (ja) 2007-08-09
EP1704721A1 (en) 2006-09-27
WO2005074296A1 (en) 2005-08-11

Similar Documents

Publication Publication Date Title
KR20070032633A (ko) 멀티미디어 데이터에 적용되는 코딩 방법
US20090052537A1 (en) Method and device for processing coded video data
US7986847B2 (en) Digital video camera with a moving image encoding feature and control method therefor, that selectively store decoded images as candidate reference images
US7027509B2 (en) Hierarchical hybrid shot change detection method for MPEG-compressed video
TWI578757B (zh) 場景形式之視訊串流編碼
JP2000224590A (ja) ビデオシ―ケンスの特徴抽出方法
CN105359511A (zh) 为了自适应位速率流化而利用自适应量化编码多个视频流的系统和方法
US8139877B2 (en) Image processing apparatus, image processing method, and computer-readable recording medium including shot generation
JP2001526859A (ja) ワールドワイドウェブ上の圧縮映像の指示及び編集方法及びアーキテクチュア
KR20070007330A (ko) 단색 프레임 검출 방법 및 대응 장치
KR101149522B1 (ko) 장면 전환 검출 시스템 및 방법
US7792373B2 (en) Image processing apparatus, image processing method, and image processing program
Laumer et al. Moving object detection in the H. 264/AVC compressed domain
KR20060127022A (ko) 코딩 방법 및 대응하는 코딩된 신호
KR20060127024A (ko) 장면 변화 검출을 사용하는 처리 방법 및 장치
Fernando et al. Sudden scene change detection in MPEG-2 video sequences
Dawood et al. Scene content classification from MPEG coded bit streams
Boccignone et al. Algorithm for video cut detection in MPEG sequences
JP2004274216A (ja) 動画像データ分割装置
Stütz et al. Inter-frame H. 264/CAVLC structure-preserving substitution watermarking
Şimşek An approach to summarize video data in compressed domain
Jiang et al. Adaptive scheme for classification of MPEG video frames

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid