KR20060127022A - 코딩 방법 및 대응하는 코딩된 신호 - Google Patents
코딩 방법 및 대응하는 코딩된 신호 Download PDFInfo
- Publication number
- KR20060127022A KR20060127022A KR1020067013495A KR20067013495A KR20060127022A KR 20060127022 A KR20060127022 A KR 20060127022A KR 1020067013495 A KR1020067013495 A KR 1020067013495A KR 20067013495 A KR20067013495 A KR 20067013495A KR 20060127022 A KR20060127022 A KR 20060127022A
- Authority
- KR
- South Korea
- Prior art keywords
- frames
- coding
- prediction
- macroblocks
- digital video
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/577—Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
- H04N19/139—Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/142—Detection of scene cut or scene change
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
본 발명은 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 비디오 데이터에 적용되는 코딩 방법에 관한 것이다. 매크로블록들로 분할된 이들 프레임들은 독립적으로 코딩된 적어도 I-프레임들 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고 배치된 적어도 두개의 프레임들로부터 양방향으로 예측된 B-프레임을 포함하며, 상기 P- 및 B-프레임들의 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행된다. 본 발명에 따르면, 이러한 코딩 방법은 가중된 예측을 특징지우는 코딩 파라미터들을 획득하기 위해 제공된 구성 단계; 상기 파라미터들에 관한 통계치를 전달하기 위해 제공된 계산단계; 예측방향에 관한 선호도의 변화를 결정하기 위해 제공된 분석단계; 점진적 장면 변화들의 발생을 검출하는 단계; 상기 발생의 기술 데이터를 생성하기 위해 제공된 단계; 및 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하는 단계를 포함한다.
코딩 장치, 코딩 방법, 코딩 파라미터, 가중된 예측, 선호도
Description
본 발명은 매크로블록들로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 비디오 데이터를 코딩하는 코딩 방법에 관한 것으로서, 매크로블록들로 분할된 상기 연속 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두개의 P-프레임사이에 배치되고, 배치된 적어도 두개의 프레임들로부터 양방향으로 예측되는 B-프레임들을 포함하며, 상기 P- 및 B-프레임들의 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측(weighted prediction)에 의하여 수행된다.
또한, 본 발명은 대응하는 인코딩 장치, 컴퓨터-판독가능 저장매체상에 저장되고 상기 인코딩 방법에서 규정된 단계들을 포함하는 대응하는 컴퓨터-실행가능 프로세스 단계들, 및 이러한 인코딩 방법에 따라 디지털 비디오 데이터를 인코딩함으로써 생성된 전송가능 코딩 신호에 관한 것이다.
현재 보다 많은 디지털 방송 서비스들이 이용가능하게 되었으며 이에 따라 일반적으로 정보기술 전문가가 아닌 사용자들이 멀티미디어 정보 자원들을 용이하게 이용가능하게 되었다. 멀티미디어 정보는 일반적으로 스트리밍, 압축 및 사용자 상호작용과 같은 동작들에 의하여 조작되는 자연 및 합성 오디오, 시각 및 객체 데이터로 구성된다. MPEG-4의 가장 중요한 특징은 오디오-시각 장면(scene)의 임의의 엘리먼트를 나타내는 객체의 개념에 의하여 상호작용(interactivity)을 지원하는 것이며, 상기 장면의 객체들은 독립적으로 인코딩되며, 여러 비트스트림들, 소위 기본 스트림들로서 압축형식으로 동시에 저장 또는 전송된다. MPEG-4의 규정들은 이들 기본 스트림들을 식별하여 기술하고 이들을 적절한 방식으로 연관시켜 장면 기술을 획득하고 최종 사용자에게 의미있는 멀티미디어 장면을 최종 사용자에게 제공하도록 의도된 객체 기술 프레임워크를 포함하며, MPEG-4는 객체들의 구성으로서 멀티미디어 데이터를 모델링한다. 그러나, 이러한 표준의 중요한 성공은 더 많은 정보가 디지털 형식으로 이용가능하게 만들어지는 사실에 기인한다. 따라서, 적정 정보를 검색하여 선택하는 것은 임의의 특정 목적을 위하여 오디오-시각 데이터에 대하여 동작하는 자동 시스템들과 관련하여 사용자들에게 매우 어려우며, 또한 예컨대 정보의 콘텐츠에 대하여 결정하기 위하여 정보의 콘텐츠에 대한 정보를 필요로한다.
MPEG-7 표준의 목적은 콘텐츠를 기술하는 것, 즉 음성, 오디오, 비디오, 정지화상들, 3D 모델들 또는 다른 엘리먼트들과 다른 멀티미디어 자료를 기술하는 표준화 방식 또는 이들 엘리먼트들이 멀티미디어 문서에 결합되는 방법을 기술하는 방식을 검색하는 것이다. 따라서, MPEG-7은 기술자들(descriptors) D라 불리는 다 수의 표준 엘리먼트들(각각의 기술자는 콘텐츠의 특정 특징, 예컨대 이미지의 색, 객체의 움직임, 영화 제목 등을 특징 지울 수 있다), 기술 방식들(DS)(기술 방식들은 기술자들의 구조 및 관계들을 한정한다), 기술 한정 언어 DDL(기술자들 및 기술 방식들을 지정함) 및 이들 기술들의 코딩 방식들을 한정한다. 도 1은 이들 MPEG-7 표준 엘리먼트들 및 이의 관계의 그래픽 개요를 기술한다. 기술자들 및 기술 방식들을 표준화하는 것이 필요한지의 여부는 MPEG에서 계속해서 논의된다. 그러나, 적어도 가장 널리 사용되는 세트가 표준화될 수 있다.
본 발명의 목적은 MPEG-7 표준과 관련하여 유용하게 사용되도록 한 새로운 기술자를 제안하는데 있다.
이를 위하여, 본 발명은 상세한 설명의 도입부에서 한정된 것과 같은 코딩 방법을 제공하며, 이 코딩 방법은,
- 현재 프레임의 모든 연속 매크로블록들에 대하여, 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하기 위해 제공된 구성 단계;
- 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하기 위해 제공된 계산단계;
- 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하기 위해 제공된 분석단계;
- 상기 선호도 변화가 결정될 때마다 상기 프레임들의 시퀀스에서 점진적 장면 변화들의 발생을 검출하기 위해 제공된 검출단계;
- 상기 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하기 위해 제공된 기술 단계; 및
- 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하기 위해 제공된 코딩 단계를 포함한다.
매크로블록들로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 비디오 데이터를 코딩하는 코딩 장치로서,
상기 프레임들은 매크로블록들로 분할된 상기 연속 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고, 배치된 적어도 상기 두개의 프레임들로부터 양방향으로 예측되는 B-프레임들의 형태로 코딩되고, P- 및 B-프레임들의 상기 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행되며,
상기 코딩 장치는,
- 상기 현재 프레임의 모든 연속 매크로블록들에 대하여, 만약 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하기 위해 제공된 구성 수단;
- 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하기 위해 제공된 계산 수단;
- 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하기 위해 제공된 분석 수단;
- 상기 선호도의 변화가 결정될 때마다 프레임들의 시퀀스에서의 점진적 장면 변화들의 발생을 검출하기 위해 제공된 검출 수단;
- 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하기 위해 제공된 기술 수단; 및
- 상기 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하는 코딩 수단을 포함한다.
매크로블록들로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 비디오 데이터를 코딩하는 인코딩 장치에서 사용하기 위해서, 상기 프레임들은 매크로블록들로 분할된 상기 연속 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고, 배치된 적어도 상기 두개의 프레임들로부터 양방향으로 예측되는 B-프레임들의 형태로 코딩되고, P- 및 B-프레임들의 상기 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행되며, 컴퓨터 실행가능 프로세스 단계들은 컴퓨터 판독가능 저장 매체상에 저장되며,
- 상기 현재 프레임의 모든 연속 매크로블록들에 대하여, 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하기 위해 제공된 구성 단계;
- 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하기 위해 제공된 계산 단계;
- 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하기 위해 제공된 분석 단계;
- 상기 선호도의 변화가 결정될 때마다 프레임들의 시퀀스에서의 점진적 장면 변화들의 발생을 검출하기 위해 제공된 검출 단계;
- 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하기 위해 제공된 기술 단계; 및
- 상기 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하기 위해 제공된 코딩 단계를 포함하는 컴퓨터-실행가능 프로세스 단계들에 관한 것이다.
본 발명은 첨부 도면들을 참조하여 지금 예로서 기술될 것이다.
도 1은 사용자들이 다른 기술자들(표준에 따른 기술자 또는 표준에 따르지 않은 기술자)을 사용할 수 있는 MPEG-7 환경을 한정하는 MPEG-7 표준 엘리먼트들 및 이들 엘리먼트간의 관계를 그래픽으로 도시한 도면.
도 2 및 도 3은 멀티미디어 데이터를 인코딩 및 디코딩하도록 하는 코딩 및 디코딩 방법을 기술한 도면.
도 2에 기술된 본 발명에 따른 다수의 멀티미디어 데이터를 코딩하는 방법은 이용가능한 멀티미디어 데이터를 하나 또는 여러 비트스트림들로 변환하는 획득 단계(CONV), 분석 및 분할에 의하여 상기 비트스트림(들)에서 다른 레벨들의 정보를 획득하는 구성 단계(SEGM), 얻어진 레벨들의 정보의 기술 데이터를 생성하는 기술 단계, 및 이와같이 얻어진 기술 데이터를 인코딩하도록 하는 코딩 단계(COD)를 포함한다. 특히, 기술 단계는 다수의 멀티미디어 데이터와 관한 기술자들의 세트를 저장하는 한정 부단계(DEF) 및 원래의 멀티미디어 데이터를 기초하여 상기 구성단계에서 얻어진 모든 레벨의 정보에 따라 코딩된 기술 데이터를 선택하는 기술 부단계(DESC)를 포함한다. 그 다음에, 코딩 데이터는 전송 및/또는 저장된다. 도 3에 기술된 대응 디코딩 방법은 앞서 기술된 코딩 방법에 의하여 코딩된 신호를 디코딩하는 단계(DECOD), 이와 같이 얻어진 디코딩 데이터를 저장하는 단계(STOR), 사용자(USER)에 의하여 전송된 탐색 명령에 기초하여 상기 디코딩 신호에 의하여 구성된 데이터사이를 탐색하는 단계(SEARCH), 및 저장된 데이터에 있어서의 상기 탐색의 검색 결과를 상기 사용자에게 다시 전송하는 단계를 포함한다.
모든 가능한 멀티미디어 콘텐츠와 관련하여 저장된 기술자들 중에서, 본 발명에 따라 제안된 발명은 권고 H.264/AVC로서 ITU-T에 의하여 그리고 국제 표준 14496-10(MPEG-4 파트 10) 차세대 비디오 코딩(Advanced Video Coding; AVC)로서 ISO/IEC에 의하여 2003년에 공식적으로 승인된 차세대 표준 H.264/AVC에 기초한다. 이러한 신규한 표준은 비디오의 다음 화상들간의 상관관계를 이용하는 실제방법으로서 블록 기반 움직임 보상을 사용하는 MPEG-2와 같은 규정된 표준들로부터 공지 된 블록 기반 움직임 보상 변환 코딩과 동일한 원리들을 사용한다. 이러한 방법은 이전에 디코딩된 인접 기준 화상의 최상의 매칭에 의하여 주어진 화상에서 각각의 매크로-블록을 예측한다. 만일 매크로블록 및 이의 예측 블록간의 화소 단위 차이가 매우 작으면, 매크로블록 그 자체보다 오히려 상기 차이 또는 나머지가 인코딩된다. 실제 MB의 그리드 위치와 관련한 예측 MB의 상대 변위는 개별적으로 인코딩되는 움직임 벡터에 의하여 지시된다. 도 2는 두개의 화상들, 즉 과거의 화상 및 미래의 화상(디스플레이 순서에서)이 사용되는 양방향 예측의 경우에 대한 상황을 기술한다. 이러한 방식으로 예측되는 화상들은 소위 B-화상들이라 불린다. 그렇치 않으면, 단지 과거 화상을 기준으로 하여 예측되는 화상들은 P-화상이라 불린다.
H.264/AVC와 관련하여, 상기 기본적인 개념들이 더 상세히 설명될 것이다. 첫째, H.264/AVC에서의 움직인 보상은 다중 기준 화상 예측에 기초하며, 즉 주어진 블록에 대한 매칭은 인접 화상들 대신에 더 먼 과거 또는 미래 화상들에서 탐색될 수 있다. 둘째, H.264/AVC는 MB를 작은 블록들로 분할하고 이들 블록들의 각 블록을 개별적으로 예측하도록 한다. 이는 주어진 MB에 대한 예측이 다른 움직임 벡터들 및 다른 기준 화상들을 사용하여 검색되는 다른 부블록들로 원리적으로 구성될 수 있다는 것을 의미한다. 예측 블록들의 수, 크기 및 방향은 내부 모드의 선택에 의하여 고유하게 결정된다. 이러한 모드들중 여러 모드는 특정되어 블록 크기들 16x8, 8x8, 최소 4x4까지 허용한다. H.264/AVC의 다른 혁신은 움직임 보상 예측 신호가 인코더에 의하여 지정된 크기만큼 가중 및 오프셋되도록 한다. 이는 이전 프레임들 P(i-n) 및 P(i-1) 및 다음 프레임들 P(i+j) 및 P(i+m)로부터 예측된 프레임 B(i)에 관한 양방향 예측의 경우에 인코더가 과거 및 미래로부터의 예측 블록들이 전체 예측에 기여하는 비일치 크기들을 선택할 수 있다는 것을 의미한다. 이러한 특징은 페이드들을 포함하는 장면들에 대한 코딩 효율성을 드라마틱하게 개선하도록 한다.
그러나, 다음과 같은 문제가 존재한다. 디지털 산업의 급속한 성장으로 인하여 계속적으로 증가하는 용량 및 콘텐츠 다양성을 특징으로 하는 전문가 및 소비자 환경이 실현되기 때문에, 저장된 대상 정보를 고속으로 검색하기 위한 효율적인 방법들을 검색하는 것은 매우 중요하다. 비구조화 비디오 콘텐츠의 탐색 및 검색은 비디오 자료의 주석(이들 주석들은 색 및 구조와 같은 저레벨 신호 관련 특성들로부터 얼굴의 존재 및 위치와 같은 고레벨 정보까지 변화한다)을 자동적으로 생성하는 것을 목표로하는 이미지 처리, 패턴 인식 및 인공지능과 같은 알고리즘들에 기초하여 콘텐츠 분석 기술들에 의하여 콘텐츠를 인덱싱한후에 보통 수행된다.
가장 중요한 콘텐츠 기술자들중 한 기술자는 예컨대 국제특허출원 WO 01/03429(PHF99593)와 같은 문헌에서 기술된 쇼트(shot) 경계 지시자이다. 쇼트(shot)는 단일 카메라를 연속적으로 사용하여 획득된 비디오 세그먼트이며, 쇼트들은 일반적으로 비디오를 구성하는 기본 유닛들로서 구성된다. 따라서, 쇼트 경계들의 검출은 기본 비디오 유닛들의 복원을 의미한다. 비디오 편집동안, 쇼트들은 적어도 두개의 클래스들로 분류될 수 있는 쇼트 전이들, 즉 급격한 전이들 및 점진적 전이들을 사용하여 접속된다. 하드 컷(hard cut)들이라 불리고 두개의 쇼 트들의 일부 수정없이 얻어지는 급격한 전이들은 검출이 용이하며, 모든 종류의 비디오 프로덕션들에서 대다수를 이룬다. 페이드들, 디졸브들, 및 와이프들과 같은 점진적 전이는 두개의 포함된 쇼트들에 임의의 변환을 적용함으로써 획득된다. 비디오 제조동안, 각각의 전이 타입은 비디오 시퀀스들의 콘텐츠 및 콘텍스트를 지원하기 위하여 주의깊게 선택된다. 따라서, 모든 위치들 및 타입들의 자동 복원은 고레벨 시맨틱을 추론하기 위하여 종종 사용된다. 예컨대, 장편영화들에서, 디졸브들은 종종 시간의 진행을 전달하기 위하여 사용된다. 또한, 디졸브들은 뉴스방송, 스포츠, 코메디 및 쇼보다 오히려 장편영화, 다큐멘터리, 바이오그래픽 및 시닉 비디오에서 더 자주 발생한다. 반대 상황은 와이프들에서 발생한다. 따라서, 전이들 및 이들의 타입의 자동 검출은 비디오 장르의 자동 인식을 위하여 사용될 수 있다.
차세대 H.264/MPEG-4 AVC 표준에 대한 응용 분야 때문에, H.264/AVC 비디오 콘텐츠 분석에 대한 효율적인 솔루션들에 대한 요구가 증대되고 있다. 최근 몇년동안, 여러 효율적인 콘텐츠 분석 알고리즘들 및 방법들은 압축 영역에서 거의 배타적으로 동작하는 MPEG-2 비디오와 관련하여 제공되었다. 이들 방법들의 대부분은 앞서 지시된 바와같이 H.264/AVC가 MPEG-2 신택스의 수퍼세트를 지정하기 때문에 H.264/AVC로 용이하게 확장될 수 있다. 그러나, MPEG-2의 제한들로 인하여, 이들 기존 방법들중 일부는 화소 또는 오디오 영역에서 동작하는 추가 및 고비용 방법들을 포함함으로써 어드레싱되는 결함인 충분한(신뢰성있는) 성능을 제공할 수 없다.
본 특허와 동일일에 출원된 유럽특허출원은 상기 단점을 방지하기 위한 방법을 제안한다. 특히, 유럽특허출원은 매크로블록들로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 코딩 비디오 데이터를 처리하는 방법(및 대응 장치)에 관한 것이며, 매크로블록들로 분할된 상기 연속 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고 그들이 배치된 상기 적어도 두 개의 프레임들로부터 양방향으로 예측되는 B-프레임들을 포함하며, 상기 P- 및 B-프레임들의 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행되며, 상기 처리 방법은, 상기 현재 프레임의 각각의 연속 매크로블록들에 대하여, 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하는 단계; 상기 현재 프레임의 모든 연속 매크로블록들에 대한 파라미터들을 수집하여 상기 파라미터와 관련된 통계치를 전달하는 단계; 상기 통계치를 분석하여 예측방향에 관한 선호도의 변화를 결정하는 단계; 및 상기 선호도 변화가 결정될 때마다 상기 프레임들의 시퀀스에서 점진적 장면 변화들의 발생을 검출하는 단계를 포함한다(특히, 상기 방법에 따르면, 분석단계는 프레임에서 매크로블록들의 전체 수와 관련하여 유도된 미리 결정된 임계치와 동일한 방향의 선호도 및 유사한 가중치를 가진 매크로블록들의 수를 비교하기 위하여 제공되며, 각 장면 변화의 위치 및 기간에 대한 정보가 적절하게 생성되어 파일에 저장된다).
MPEG-7 표준 드래프트 ISO/IEC JTC 1/SC 29 N 4242(2001년 10월 23일)에 따르면, 비디오 편집 작업에 의하여 생성되는 시각적 콘텐츠들의 세그먼트들을 기술하기 위한 도구들이 기술된다. 비디오 편집 작업은 비디오 세그먼트들을 어셈블링 및 구성하는 단계를 포함하며, 이러한 작업의 분석 기술은 이들 비디오 세그먼트들의 계층적 구조(3개 이상의 레벨) 및 편집 프로세스동안 생성된 전이들에 대응한다. 그 다음에, 분석 편집된 비디오 세그먼트들은 두개의 카테고리들, 즉 분석 클립들(쇼트들, 구성 쇼트들, 인트라-구성 쇼트들) 및 분석 전이들(글로벌 전이들, 구성 전이들, 내부 전이들)로 분류된다. 동일한 문서의 표준 부록 B에서는 전이의 타입이 기술되며, 주어진 이름들의 세트는 미리 결정된 MPEG-7 분류 방식(진화타입 CS)을 언급한다. 따라서, 점진적 쇼트 전이들을 위하여 정의된 기술자는 점진적 장면 변화들의 발생의 기술 데이터를 생성하기 위하여 본 발명에 따른 코딩 방법에서 사용된 기술자일 수 있다.
사실상, 앞서 기술된 바와같이, H.264/AVC의 움직임 보장 예측은 비일치 크기만큼 전체 예측에 의하여 제시된 과거 및 미래 예측 블록들에 기초할 수 있다. 이러한 비일치성 때문에, 점진적 쇼트 전이의 존재는 한 방향에서 다른 방향으로의 예측 선호도의 점진적 변화에 의하여 지시될 수 있으며, 이러한 예측 방향 선호도의 변화는 가중된 예측을 특징으로 하는 전송 코딩 파라미터들의 통계치들을 분석함으로써(예컨대, 이러한 분석은 화상의 매크로블록들의 전체 수와 관련하여 유도될 수 있는 주어진 임계치와 동일한 방향의 선호도 및 유사한 가중치를 가진 매크로블록들의 수를 비교하는 단계, 및 예측을 위한 방향성 선호도의 변화가 점진적 장면 전이의 결과이도록 매크로블록들의 분포의 균일성을 검사하는 단계를 포함할 수 있다.) 디코딩 측면에서 검출된다.
그 다음에, 본 발명에 따른 코딩 방법의 한정은 다음과 같다. 코딩될 디지털 비디오 데이터는 매크로블록들로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능하다. 이들 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고, 배치된 상기 적어도 두 개의 프레임들로부터 양방향으로 예측되는 B-프레임들을 포함하며, 상기 P- 및 B-프레임들의 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행된다. 상기 코딩 방법은,
- 상기 현재 프레임의 모든 연속 매크로블록들에 대하여, 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하는 구성 단계;
- 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하는 계산단계;
- 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하는 분석단계;
- 상기 선호도 변화가 결정될 때마다 상기 프레임들의 시퀀스에서 점진적 장면 변화들의 발생을 검출하는 검출단계;
- 상기 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하는 기 술 단계; 및
- 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하는 코딩 단계 그 자체를 포함한다.
이들 단계들은 컴퓨터-판독가능 저장매체상에 저장된 컴퓨터-실행가능 프로세스에 의하여 본 발명에 따라 구현될 수 있으며, 이러한 컴퓨터-실행가능 프로세스는,
- 현재 프레임의 모든 연속 매크로블록들에 대하여, 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하는 구성 단계;
- 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하는 계산단계;
- 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하는 분석단계;
- 상기 선호도 변화가 결정될 때마다 상기 프레임들의 시퀀스에서 점진적 장면 변화들의 발생을 검출하는 검출단계;
- 상기 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하는 기술 단계; 및
- 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하는 코딩 단계를 포함한다.
또한, 본 발명은 이들 단계들을 구현하기 위한 인코딩 장치에 관한 것이며, 이 인코딩 장치는,
- 현재 프레임의 모든 연속 매크로블록들에 대하여, 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하는 구성 수단;
- 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하는 계산수단;
- 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하는 분석수단;
- 상기 선호도 변화가 결정될 때마다 상기 프레임들의 시퀀스에서 점진적 장면 변화들의 발생을 검출하는 검출수단;
- 상기 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하는 기술수단; 및
- 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하는 코딩수단을 포함한다.
본 발명은 상기 인코딩 장치의 출력에서 이용가능하고 이전에 기술된 코딩 방법에 따라 디지털 비디오 데이터를 인코딩함으로써 생성된 신호와 같은 전송가능한 코딩 신호에 관한 것이다.
Claims (5)
- 매크로블록들(macroblocks)로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 비디오 데이터를 코딩하는 코딩 방법으로서,상기 프레임들은 매크로블록들로 분할된 상기 연속 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고, 배치된 적어도 상기 두개의 프레임들로부터 양방향으로 예측되는 B-프레임들의 형태로 코딩되고, P- 및 B-프레임들의 상기 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행되며,상기 코딩 방법은,- 상기 현재 프레임의 모든 연속 매크로블록들에 대하여, 만약 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하기 위해 제공된 구성 단계;- 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하기 위해 제공된 계산 단계;- 상기 통계치를 분석하고 예측방향에 관한 선호도(preference)의 변화를 결정하기 위해 제공된 분석 단계;- 상기 선호도의 변화가 결정될 때마다 프레임들의 시퀀스에서의 점진 적 장면 변화들의 발생을 검출하기 위해 제공된 검출 단계;- 점진적 장면 변화들의 상기 발생에 대한 기술 데이터(description data)를 생성하기 위해 제공된 기술 단계; 및- 상기 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하는 코딩 단계를 포함하는, 코딩 방법.
- 매크로블록들로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 비디오 데이터를 코딩하는 코딩 장치로서,상기 프레임들은 매크로블록들로 분할된 상기 연속 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고, 배치된 적어도 상기 두개의 프레임들로부터 양방향으로 예측되는 B-프레임들의 형태로 코딩되고, P- 및 B-프레임들의 상기 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행되며,상기 코딩 장치는,- 상기 현재 프레임의 모든 연속 매크로블록들에 대하여, 만약 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하기 위해 제공된 구성 수단;- 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달 하기 위해 제공된 계산 수단;- 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하기 위해 제공된 분석 수단;- 상기 선호도의 변화가 결정될 때마다 프레임들의 시퀀스에서의 점진적 장면 변화들의 발생을 검출하기 위해 제공된 검출 수단;- 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하기 위해 제공된 기술 수단; 및- 상기 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하는 코딩 수단을 포함하는, 코딩장치.
- 매크로블록들로 분할된 연속 프레임들로 구성된 비디오 스트림의 형태로 이용가능한 디지털 비디오 데이터를 코딩하는 인코딩 장치에서 사용하기 위해서, 상기 프레임들은 매크로블록들로 분할된 상기 연속 프레임들은 독립적으로 코딩된 적어도 I-프레임들, 또는 시간적으로 상기 I-프레임들사이에 배치되고 적어도 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들, 또는 시간적으로 I-프레임 및 P-프레임사이에 또는 두 개의 P-프레임사이에 배치되고, 배치된 적어도 상기 두개의 프레임들로부터 양방향으로 예측되는 B-프레임들의 형태로 코딩되고, P- 및 B-프레임들의 상기 예측들은 과거 및 미래로부터의 동일하지 않은 예측량으로 가중된 예측에 의하여 수행되며, 컴퓨터 실행가능 프로세스 단계들은 컴퓨터 판독가능 저장 매체상에 저장되며,- 상기 현재 프레임의 모든 연속 매크로블록들에 대하여, 상기 가중된 예측이 있다면 그것을 특징지우는 관련 코딩 파라미터들을 획득하기 위해 제공된 구성 단계;- 상기 현재 프레임에 대하여, 상기 파라미터들에 관한 통계치를 전달하기 위해 제공된 계산 단계;- 상기 통계치를 분석하고 예측방향에 관한 선호도의 변화를 결정하기 위해 제공된 분석 단계;- 상기 선호도의 변화가 결정될 때마다 프레임들의 시퀀스에서의 점진적 장면 변화들의 발생을 검출하기 위해 제공된 검출 단계;- 점진적 장면 변화들의 상기 발생에 대한 기술 데이터를 생성하기 위해 제공된 기술 단계; 및- 상기 얻어진 기술 데이터 및 원래의 디지털 비디오 데이터를 인코딩하기 위해 제공된 코딩 단계를 포함하는, 컴퓨터-실행가능 프로세스 단계들.
- 인코딩 장치에 로드될때 제 3항에 따른 단계들을 수행하도록 하는 명령들의 세트를 포함하는, 디지털 비디오 데이터 인코딩 장치용 컴퓨터 프로그램 제품.
- 제 1항에 따른 코딩 방법에 따라 디지털 비디오 데이터를 인코딩함으로써 생성된 전송가능 코딩된 신호.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04300005 | 2004-01-05 | ||
EP04300005.8 | 2004-01-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20060127022A true KR20060127022A (ko) | 2006-12-11 |
Family
ID=34814431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020067013495A KR20060127022A (ko) | 2004-01-05 | 2004-12-28 | 코딩 방법 및 대응하는 코딩된 신호 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20090016441A1 (ko) |
EP (1) | EP1704721A1 (ko) |
JP (1) | JP2007522698A (ko) |
KR (1) | KR20060127022A (ko) |
CN (1) | CN1902937A (ko) |
WO (1) | WO2005074296A1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX2013002429A (es) * | 2010-09-03 | 2013-04-08 | Dolby Lab Licensing Corp | Metodo y sistema para compensacion de iluminacion y transicion para codificacion y procesamiento de video. |
JP6391213B2 (ja) * | 2013-03-14 | 2018-09-19 | 富士工業株式会社 | レンジフード |
CN115150548B (zh) * | 2022-06-09 | 2024-04-12 | 山东信通电子股份有限公司 | 一种基于云台输出输电线路全景图像的方法、设备及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6618507B1 (en) * | 1999-01-25 | 2003-09-09 | Mitsubishi Electric Research Laboratories, Inc | Methods of feature extraction of video sequences |
US7003038B2 (en) * | 1999-09-27 | 2006-02-21 | Mitsubishi Electric Research Labs., Inc. | Activity descriptor for video sequences |
US6574279B1 (en) * | 2000-02-02 | 2003-06-03 | Mitsubishi Electric Research Laboratories, Inc. | Video transcoding using syntactic and semantic clues |
US7110458B2 (en) * | 2001-04-27 | 2006-09-19 | Mitsubishi Electric Research Laboratories, Inc. | Method for summarizing a video using motion descriptors |
-
2004
- 2004-12-28 WO PCT/IB2004/004313 patent/WO2005074296A1/en not_active Application Discontinuation
- 2004-12-28 CN CNA2004800398121A patent/CN1902937A/zh active Pending
- 2004-12-28 EP EP04806477A patent/EP1704721A1/en not_active Withdrawn
- 2004-12-28 KR KR1020067013495A patent/KR20060127022A/ko not_active Application Discontinuation
- 2004-12-28 JP JP2006546401A patent/JP2007522698A/ja active Pending
- 2004-12-28 US US10/596,711 patent/US20090016441A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
CN1902937A (zh) | 2007-01-24 |
US20090016441A1 (en) | 2009-01-15 |
JP2007522698A (ja) | 2007-08-09 |
EP1704721A1 (en) | 2006-09-27 |
WO2005074296A1 (en) | 2005-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20070032633A (ko) | 멀티미디어 데이터에 적용되는 코딩 방법 | |
US20090052537A1 (en) | Method and device for processing coded video data | |
US7986847B2 (en) | Digital video camera with a moving image encoding feature and control method therefor, that selectively store decoded images as candidate reference images | |
US7027509B2 (en) | Hierarchical hybrid shot change detection method for MPEG-compressed video | |
TWI578757B (zh) | 場景形式之視訊串流編碼 | |
JP2000224590A (ja) | ビデオシ―ケンスの特徴抽出方法 | |
CN105359511A (zh) | 为了自适应位速率流化而利用自适应量化编码多个视频流的系统和方法 | |
US8139877B2 (en) | Image processing apparatus, image processing method, and computer-readable recording medium including shot generation | |
JP2001526859A (ja) | ワールドワイドウェブ上の圧縮映像の指示及び編集方法及びアーキテクチュア | |
KR20070007330A (ko) | 단색 프레임 검출 방법 및 대응 장치 | |
KR101149522B1 (ko) | 장면 전환 검출 시스템 및 방법 | |
US7792373B2 (en) | Image processing apparatus, image processing method, and image processing program | |
Laumer et al. | Moving object detection in the H. 264/AVC compressed domain | |
KR20060127022A (ko) | 코딩 방법 및 대응하는 코딩된 신호 | |
KR20060127024A (ko) | 장면 변화 검출을 사용하는 처리 방법 및 장치 | |
Fernando et al. | Sudden scene change detection in MPEG-2 video sequences | |
Dawood et al. | Scene content classification from MPEG coded bit streams | |
Boccignone et al. | Algorithm for video cut detection in MPEG sequences | |
JP2004274216A (ja) | 動画像データ分割装置 | |
Stütz et al. | Inter-frame H. 264/CAVLC structure-preserving substitution watermarking | |
Şimşek | An approach to summarize video data in compressed domain | |
Jiang et al. | Adaptive scheme for classification of MPEG video frames |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |