KR20060127024A - 장면 변화 검출을 사용하는 처리 방법 및 장치 - Google Patents

장면 변화 검출을 사용하는 처리 방법 및 장치 Download PDF

Info

Publication number
KR20060127024A
KR20060127024A KR1020067013514A KR20067013514A KR20060127024A KR 20060127024 A KR20060127024 A KR 20060127024A KR 1020067013514 A KR1020067013514 A KR 1020067013514A KR 20067013514 A KR20067013514 A KR 20067013514A KR 20060127024 A KR20060127024 A KR 20060127024A
Authority
KR
South Korea
Prior art keywords
frames
prediction
macroblocks
parameters
change
Prior art date
Application number
KR1020067013514A
Other languages
English (en)
Inventor
드제브데트 부라제로비치
마우로 바비에리
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20060127024A publication Critical patent/KR20060127024A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명은 연속적인 프레임들로 구성되는 비디오 스트림의 형태로 사용가능한 디지털 코딩된 비디오 데이터를 처리하는 방법에 관한 것이다. 매크로블록들로 나눠지는 이러한 프레임들은 적어도 I-프레임들(인트라)과, (예측된) P-프레임들과, I-프레임과 P-프레임 사이 또는 2개의 P-프레임들 사이에 일시적으로 배치되고 그것들이 배치되는 사이에 적어도 이러한 2개의 프레임들로부터 양방향으로 예측되는 B-프레임들을 또한 포함한다. 예측들은 과거 및 미래로부터의 동일하지 않은 양의 예측으로 가중된 예측에 의해 수행된다. 본 발명에 따라, 이러한 처리 방법은 현재 프레임의 각각의 연속적인 매크로블록에 대해, 만약 있다면, 상기 가중된 예측을 특징화하는 관련된 코딩 파라미터들을 결정하는 단계와, 상기 파라미터들에 관련된 통계들을 전달하기 위해, 상기 현재 프레임의 모든 연속적인 매크로블록들에 대한 상기 파라미터들을 수집하는 단계와, 예측의 방향에 대한 선호도의 변화를 결정하기 위해 상기 통계들을 분석하는 단계와, 선호도의 변화가 결정될 때마다 프레임들의 시퀀스에서 점진적 장면 변화의 발생을 검출하는 단계를 포함한다.
비디오 스트림, 비디오 데이터, 장면 변화

Description

장면 변화 검출을 사용하는 처리 방법 및 장치{Processing method and device using scene change detection}
본 발명은 H.264/AVC 비디오 스트림들에서 점진적 장면 전환들을 자동으로 검출하도록 허용하는 방법에 관한 것이다. 상기 방법은 매우 효율적이고 비용 효율적인 검출을 가능하게 하는 H.264에 의해 도입되는 독창적 코딩 파라미터들의 사용에 기초한다.
최근 수년 동안, 국제 비디오 코딩 표준들은 다양한 전문적 애플리케이션들 및 소비자 애플리케이션들에서 디지털 비디오의 채택을 조장하는데 중요한 역할을 해 왔다. 대부분의 유력한 표준들은 2개의 조직들, ITU-T 및 ISO/IEC MPEG에 의해, 때로는 공동으로(예를 들어: MPEG-2/H.262) 개발되어 왔다. 가장 최근의 공동 표준은 권고 H.264/AVC로 ITU-T와, 국제 표준 14496-10 (MPEG-4 파트 10) AVC(Advanced Video Coding)로 ISO/IEC에 의해 2003년 공식적으로 승인되도록 기대된 H.264/AVC이다. H.264/AVC 표준화의 주요 목적들은 압축 성능에서 현저한 이득을 달성하고, "대화형(conversational)" (전화) 및 "비대화형(non-conversational)" (저장, 방송, 스트리밍) 애플리케이션들을 어드레싱하는 "네트워크 친화적(network-friendly)" 비디오 표현을 제공하는 것이었다. 최근에, H.264/AVC는 기존 표준들과 비교하여 현저하게 향상된 레이트-왜곡 효율성을 제공하기 위해 폭넓게 인식되어 있고, H.264/AVC-기반 솔루션들은 또한 DVB 및 DVD 포럼과 같은 다른 표준화 단체들에서도 고려되고 있다. H.264/AVC 인코더/디코더의 구현들은 예를 들어 "최신 H.264 표준: 개요 및 TMS320C64x디지털 미디어 플랫폼 구현-백서: http:///www.ubvideo.com/public"에서 알려진 바와 같이 이미 사용가능하게 되어 있다. 또한, 인터넷을 통해 ITU-T/MPEG JVT[Joint Video Team]의 공식적 데이터베이스(ftp://ftp.imtc-files.org/jvt-experts/에서 JVT의 공식적 H.264 문서들 및 소프트웨어)가 드래프트 업데이트들을 포함하는 H.264/AVC의 개발 및 상태를 반영하는 문서들에 자유로운 액세스를 제공하는 H.264/AVC에 대한 정보를 제공하는 사이트들의 수가 증가하고 있다.
H.264/AVC 구문 및 코딩 툴들은 본 명세서에서 상기될 수 있다. 우선적으로, H.264/AVC는 MPEG-2와 같은 설정된 표준들로부터 알려진 블록 기반 모션 보상된 변환 코딩의 동일한 원리들을 활용한다. 그러므로, H.264 구문은 (픽쳐, 슬라이스- 및 매크로-블록 헤더들과 같은) 헤더들의 일반적 계층 구조들 및 (모션 벡터들, 블록 변환 계수들, 양자화기 스케일 등과 같은) 데이터로 구성된다. 데이터 구조(예로써, I, P, 또는 B 픽쳐들, 인트라- 및 인터 매크로-블록들)에 관한 대부분의 알려진 개념들이 유지되는 반면에, 몇 개의 새로운 개념들이 또한 헤더 및 데이터 레벨 모두에서 도입된다. 대체로, H.264/AVC는 비디오 데이터의 콘텐츠를 효율적으로 표현하도록 규정되는 VCL(Video Coding Layer) 및 보다 높은 (전송) 시스템에 의한 전달을 위해 적절한 방식으로 데이터를 포맷하고 헤더 정보를 제공하는 NAL(Network Abstraction Layer)를 분리한다.
데이터 레벨에서 H.264/AVC의 주요 특징들 중 하나는 또한 16x16 매크로블록들의 보다 정교한 분할 및 조작의 사용이다(매크로블록 MB은 크로미넌스의 대응하는 8x8 블록 및 휘도의 16x16 블록 모두를 포함하지만, 많은 동작들, 예로써 모션 추정은 실제로 휘도만을 취하며 크로미넌스에 대한 결과들을 투영한다). 그러므로, 모션 보상 프로세스는 샘플 그리드의 1/4까지의 모션 벡터 정확성을 사용하여 사이즈로 4x4만큼 작은 MB의 세그먼테이션들을 형성할 수 있다. 또한, 샘플 블록의 모션 보상된 예측에 대한 선택 프로세스는 유일하게 인접한 것들 대신에 다수의 이전에 저장되고 디코딩된 픽쳐들을 포함할 수 있다. 심지어 인트라 코딩을 통해, 이웃하는 블록들로부터 이전에 디코딩된 샘플들을 사용하여 블록의 예측을 형성하는 것이 이제 가능하다(이러한 공간 기반 예측에 대한 규칙들은 이른바 인트라 예측 모드들에 의해 기술된다). 모션 보상- 또는 공간-기반 예측 후에, 결과적인 예측 에러는 통상적으로 관례적인 8x8 사이즈 대신에 4x4 블록 사이즈에 기초하여 변환 및 양자화된다. 이러한 양상은 특히 다음의 기술에 규정된 본 발명에 관련되고, 그 기술에서 이후에 강조될 것이다. H.264/AVC는 다른 특정한 실현들(예로써, 엔트로피 코딩)을 계속해서 사용하고, 그것들의 대부분은 고정되거나 단지 픽쳐 레벨에서 또는 그 픽쳐 레벨 위에서 변경될 수 있다.
모션 보상과 관련하여, H.264/AVC의 일반적 개념들 및 특징들이 또한 상기되어야 한다. MPEG-2와 같은 대부분의 설정된 비디오 코딩 표준들은 근본적으로 비디오 내 후속하는 픽쳐들 사이의 상관 관계를 이용하는 실제 방법으로 블록 기반 모 션 보상을 사용한다. 이러한 방법은 이전에 디코딩된 인접하는 기준 픽쳐에서 그것의 "가장 양호한 매치(best match)"에 의해 주어진 픽쳐 내에서 각각의 매크로블록을 예측하도록 시도한다. 매크로블록 및 그것의 예측 사이의 픽셀별 차이가 충분히 적은 경우, 이러한 차이(또는 나머지)는 그 매크로블록 자체와 다르게 인코딩된다. 실제 MB의 그리드 포지션과 관련하여 예측 블록의 상대적 변위는 별개로 코딩되는 모션 벡터에 의해 표시된다. 도 1은 양방향 예측의 경우에 대해 이것을 도시하며, 여기서 2개의 기준 픽쳐들(Pi, Pi+1)이 사용되고, (디스플레이 순서에서) 하나는 과거에 대한 것이고 하나는 미래에 대한 것이다. 이러한 방식들로 예측되는 (도 1에서 Bi와 같은) 픽쳐들은 B 픽쳐들로 불린다. 다른 방식으로, 과거만을 참조하여 예측되는 픽쳐들은 P 픽쳐들이라 불린다.
H.264/AVC를 통해, 이러한 기초적 개념들이 추가로 설명된다. 우선적으로, H.264/AVC에서 모션 보상은 다중 기준 픽쳐들 예측에 기초하고, 주어진 블록에 대한 매치는 유일하게 인접한 것들에 대신해서 더 먼 과거 또는 미래 픽쳐들에서 찾을 수 있다. 둘째로, H.264/AVC는 MB를 더 작은 블록들로 나눠서, 이러한 블록들 각각을 별개로 예측하도록 허용한다. 이것은 원칙적으로 제시된 MB에 대한 예측이 서로 다른 모션 벡터들을 통해 서로 다른 기준 픽쳐들로부터 검색된 서로 다른 블록들로 구성될 수 있다. 예측 블록들의 수, 사이즈, 및 방향은 인터 모드의 선택에 의해 유일하게 결정된다. 몇 개의 그러한 모드들은 블록 사이즈들 16x8, 8x8 등 아래로 4x4까지 허용하여 명시된다.
H.264/AVC에서 또 다른 개선은 모션 보상된 예측 신호가 인코더에 의해 명시된 양들에 따라 가중되고 오프셋되도록 허용한다. 이것은 이전 프레임들 P(i-n) 및 P(i-1)와, 다음의 프레임들 P(i+j) 및 P(i+m)으로부터 예측된 프레임 B(i)에 관한 양방향 예측의 경우에, 과거로부터의 예측 블록들 및 미래로부터의 예측 블록들이 전체 예측에 기여하는 동일하지 않은 양들을 인코더가 선택할 수 있다는 것을 의미한다. 이러한 특징은 페이드들을 포함하는 장면들에 대한 코딩 효율성을 급격하게 향상시키도록 허용한다.
그러나, 다음과 같은 문제점이 있다. 계산, 통신, 및 디지털 데이터 저장에 있어서 최근의 진보들은 꾸준히 증가하는 용량 및 콘텐츠 다양성에 의해 특징지어지는 큰 디지털 아카이브들의 엄청난 성장을 이끌어 내고 있다. 그러므로, 관심있는 저장된 정보를 빠르게 검색하기 위해 효율적인 방식들을 찾는 것이 매우 중요하다. 조직화되지 않고 저장된 데이터의 테라바이트들을 통해 수동으로 검색하는 것이 지루하며 시간 소모적이기 때문에, 자동화된 시스템들에서 검색 태스크들 및 정보 탐색을 전달할 필요성이 증가하고 있다. 구조화되지 않은 비디오 콘텐츠의 큰 아카이브들에서 탐색 및 검색은 상기 콘텐츠가 콘텐츠 분석 테크닉들을 사용하여 인텍싱된 후에 수행되는 것이 일반적이다. 이러한 테크닉들은 상기 비디오 콘텐츠의 기술, 비디오 소재의 주석들의 견해에서 자동적인 생성을 목적으로 하는 인공 지능, 패턴 인식, 및 이미지 처리와 같은 알고리즘들에 기초한다(그러한 주석들은 색상 및 텍스처와 같은 저레벨 신호 관련 속성들로부터 존재 및 페이스들의 위치와 같은 더 높은 레벨 정보로 변경된다).
가장 중요한 콘텐츠 기술자들 중 하나는 국제 특허 출원서 WO 01/03429 (PHF99593)과 같은 문서에서 알 수 있는 바와 같이 숏 경계 표시자(shot boundary indicator)이다. 숏은 단일 카메라를 연속적으로 사용하여 취해진 비디오 세그먼트이고, 숏들은 일반적으로 비디오를 구성하는 기본적 유닛들로 고려된다. 따라서, 숏 경계들을 검출하는 것은 거의 모든 기존 비디오 추상화 및 고레벨 비디오 분할 알고리즘들에 대해 그라운드를 차례로 제공하는 그러한 기초적 비디오 유닛들을 복구한다는 것을 의미한다(예를 들어, 1997년, 40(12), pp. 55-62, Communication of the ACM, R.Lienhart 등에 의한 문서 "비디오 추상(Video abstracting)" 참조).
비디오를 에디트하는 동안, 숏들은 적어도 2개의 클래스들, 갑작스런 전환들 및 점진적 전환들로 분류될 수 있는 숏 전환들을 사용하여 접속된다. 하드 컷들(hard cuts)로도 불리고 그 2개의 숏들의 어떠한 수정들 없이 획득되는 갑작스런 전환들은 검출하기 매우 쉬우며, 그것들은 모든 종류의 비디오 생성물에서 대부분을 차지한다. 페이드들과 같은 점진적 전환은 그 2개의 포함된 숏들에 어떠한 변환을 적용함으로써 획득된다. 비디오 생성 동안, 각각의 전환 형태는 비디오 시퀀스들의 콘텍스트 및 콘텐츠를 지원하도록 신중히 선택된다. 그러므로, 모든 그것들의 포지션들 및 형태들을 자동으로 복구하는 것은 고레벨 의미론을 추론하도록 머신을 도울 수 있다. 예를 들어, 장편 영화에서 디졸브들(dissolves)이 종종 시간의 경과를 전달하기 위해 사용된다. 또한, 디졸브들은 뉴스 방송, 스포츠, 코미디, 및 쇼들에서 보다 장편 영화, 다큐멘터리, 전기적 장면의 비디오 소재에서 훨씬 더 자주 발생한다. 반대로는 와이프들(wipes)에 대해 사실이다. 그러므로, 전환들의 자동 검출 및 그것들의 형태는 비디오 장르의 자동 인식을 위해 사용될 수 있다.
예정된 H.264/AVC 표준에 대한 큰 애플리케이션 영역 때문에, H.264/AVC 비디오 콘텐츠 분석에 대한 효율적인 솔루션들에 대한 점차적인 요구가 존재할 것이다. 최근 수년 동안, 몇 가지 효율적인 콘텐츠 분석 알고리즘들 및 방법들은 거의 배타적으로 압축된 도메인에서 동작하는 MPEG-2 비디오에 대해 논의되어 왔다. 하나의 방식에 따른 H.264/AVC가 상기 표시된 바와 같이 MPEG-2 구문의 초집합(superset)을 명시하기 때문에, 대부분의 이러한 방법들은 H.264/AVC로 확장될 수 있다. 그러나, MPEG-2의 제한들로 인해, 이러한 기존 방법들은 적절하거나 신뢰성 있는 성능을 제공하지 못할 수 있고, 그것이 전형적으로 픽셀 또는 오디오 도메인에서 동작하는 추가적이고 종종 값비싼 방법들을 포함하여 어드레싱되는 결함이다.
그러므로, 본 발명의 목적은 프레임들의 가중된 예측들이, 예측될 프레임의 과거 및 미래로부터의 동일하지 않은 양의 예측으로 발생하는 모든 경우들에서 상기 결점을 피하도록 허용하는 방법을 제안하는 것이다.
이를 위해, 본 발명은 매크로블록들로 나눠지는 연속적인 프레임들로 구성되는 비디오 스트림의 형태로 사용가능한 디지털 코딩된 비디오 데이터를 처리하는 방법에 관한 것이고, 상기 프레임들은 독립적으로 코딩된 적어도 I-프레임들과, 상기 I-프레임들 사이에 일시적으로 배치되고 적어도 하나의 이전 I 또는 P-프레임으로부터 예측된 P-프레임들과, I-프레임과 P-프레임 사이 또는 2개의 P-프레임들 사이에 일시적으로 배치되고 그것들이 배치되는 사이에 적어도 이러한 2개의 프레임들로부터 양방향으로 예측되는 B-프레임들을 포함하고, 상기 예측들은 과거 및 미래로부터의 동일하지 않은 양의 예측으로 가중된 예측에 의해 수행되며, 상기 처리 방법은,
현재 프레임의 각각의 연속적인 매크로블록에 대해, 만약 있다면, 상기 가중된 예측을 특징화하는 관련된 코딩 파라미터들을 결정하는 단계;
상기 파라미터들에 관련된 통계들을 전달하기 위해, 상기 현재 프레임의 모든 연속적인 매크로블록들에 대한 상기 파라미터들을 수집하는 단계;
예측의 방향에 대한 선호도의 변화를 결정하기 위해 상기 통계들을 분석하는 단계; 및
선호도의 변화가 결정될 때마다 프레임들의 시퀀스에서 점진적 장면 변화의 발생을 검출하는 단계를 포함한다.
보다 정확하게는, 본 발명에 따라, 상기 분석 단계는 상기 현재 프레임 내 전체 매크로블록들의 수와 관련하여 도출되는 미리 규정된 임계치에 대해 동일한 방향의 선호도 및 유사한 가중치를 갖는 매크로블록들의 수를 비교하도록 제공된다. 각각의 장면 변화의 지속 기간 및 위치에 대한 정보가 생성되어 파일 내에 저장되는 것이 바람직하다.
본 발명의 또 다른 목적은 상기 규정된 방법을 수행하도록 허용하는 처리 장치를 제안하는 것이다.
이를 위해, 본 발명은 매크로블록들로 나눠지는 계속되는 프레임들로 구성되는 비디오 스트림의 형태로 사용가능한 디지털 코딩된 비디오 데이터를 처리하는 장치에 관한 것으로, 상기 프레임들은 독립적으로 코딩된 적어도 I-프레임들과, 상기 I-프레임들 사이에 일시적으로 배치되고 적어도 하나의 이전 I 또는 P-프레임으로부터 예측되는 P-프레임들과, I-프레임과 P-프레임 사이 또는 2개의 P-프레임들 사이에 일시적으로 배치되고 그것들이 배치되는 사이에 적어도 이러한 2개의 프레임들로부터 양방향으로 예측되는 B-프레임들을 포함하고, 상기 예측들은 과거 및 미래로부터의 동일하지 않은 양의 예측으로 가중된 예측에 의해 수행되는, 상기 장치는,
현재 프레임의 각각의 연속적인 매크로블록에 대해, 만약 있다면, 상기 가중된 예측을 특징화하는 관련된 코딩 파라미터들을 결정하도록 제공되는 결정 수단;
상기 파라미터들에 관련된 통계들을 전달하기 위해, 상기 현재 프레임의 모든 연속적인 매크로블록들에 대한 상기 파라미터들을 수집하도록 제공되는 수집 수단;
예측의 방향에 대한 선호도의 변화를 결정하기 위해 상기 통계들을 분석하도록 제공되는 분석 수단; 및
선호도의 변화가 결정될 때마다 프레임들의 시퀀스에서 점진적 장면 변화의 발생을 검출하도록 제공되는 검출 수단을 포함한다.
본 발명은 첨부된 도면들을 참조로 하여 예를 통해 이제부터 기술될 것이다.
도 1은 양방향 예측의 종래의 예를 도시한 도면.
도 2는 H.264/AVC 표준의 경우에서 B-프레임에 대한 가중치 예측의 기초 원리를 도시한 도면.
도 3은 본 발명에 따른 처리 방법의 구현을 도시한 블록도.
상기 설명된 바와 같이 모션 예측에 관한 H.264/AVC의 일반적 개념들 및 특성들을 상기할 때, 모션 보상된 예측 신호는 인코더에 의해 명시되는 양들에 의해 가중될 수 있다. 가중된 예측은 과거 및 미래로부터의 예측 블록이 전체 예측 내에 동일하지 않은 양만큼 존재하는 경우, 양방향 예측(B 픽쳐들)을 달성하도록 사용될 수 있다(MPEG-2를 통해, 이것은 1/2의 인자에 의해 예측 신호들 모두를 가중시키는 하나의 가능성에 제한된다).
본 발명의 원리는 이러한 불균형 때문에 점진적 숏 전환의 존재가 한 방향으로부터 다른 방향까지 예측에 대한 선호도 내 점진적 변화에 의해 표시될 수 있다는 것이다. 예측의 방향에 대한 선호도의 그러한 변화는 가중된 예측을 특징화하는 관련된 코딩 파라미터들의 통계들을 분석하여 검출될 수 있다. 예를 들어, 이러한 분석은 픽쳐 내 매크로블록들의 전체 수와 관련하여 도출될 수 있는 주어진 임계치에 대해 동일한 방향의 선호도 및 유사한 가중치를 갖는 매크로블록들의 수를 비교하는 단계를 포함할 수 있다. 더욱이, 그러한 매크로블록들의 분포의 (국부적) 균일성은 예측에 대한 방향의 선호도 내 변화가 실제로 점진적 장면 전환의 결과라는 것을 확인하기 위해 검사될 수 있다. 또한, 몇몇의 추가적인 분석은 예로써 H.264/AVC에서 허용되는 바와 같이 가중된 예측에서 서브 매크로블록 모션 예측의 가능한 사용을 고려하도록 수행될 수 있다.
예로써 H.264/AVC에서 양방향 예측의 예는 이전 및 다음 픽쳐들(Pi -n, Pi -1, Pi+j, Pi +m)으로부터 픽쳐(Bi)의 예측을 나타내는 도 2에 도시되어 있다. MBPred라 불리고, B1 = alpha1.b1 + alpha2.b2(여기서 alpha1 및 alpha2는 계수들이다)를 통해 B1 "+" B2 "+" B3와 동일한 매크로블록 MB에 대한 예측은 매크로블록 MBPred의 하반부가 2개의 8x8 블록들(B2, B3)에 의해 예측되고, 상반부가 8x16 블록들(B1)에 의해 예측되는 것과 같이 3개의 예측 블록들로 구성된다. 각각의 이러한 예측 블록들은 H.264에서 허용되는 바와 같이 서로 다른 기준 픽쳐에 관련되고 명확한 모션 벡터(MV)를 갖는다. B2 및 B3와는 다르게, 블록(B1)은 가중된 예측을 사용하여 얻어지고, 즉 대응하는 가중 파라미터들(alpha1, alpha2)에 의해 제어되는 동일하지 않은 양에 따른 합으로 표현되는 2개의 블록들(b1, b2)의 합산을 수행함으로써 얻어진다. 이러한 가중 파라미터들(절대 값 및 부호)의 통계들은 모든 매크로블록들에 대해 수집되며, 복수의 매크로블록들에 걸쳐 통계 분포는 점진적 장면 전환들의 검출을 달성하기 위해 분석된다.
본 발명에 따른 처리 방법의 구현은 예를 들어 H.264/AVC 비트스트림의 경우에서 이전에 설명된 개념을 도시하는 도 3의 블록도에 도시되어 있지만, 상기 예는 본 발명의 범위에 제한되지 않는다. 예시된 코딩 장치에서, 디멀티플렉서(21)는 전송 스트림(TS)을 수신하고, 디멀티플렉싱된 오디오 및 비디오 스트림들(AS, VS)을 생성한다. 비디오 스트림은 일반적으로 디코딩된 비디오 스트림(DVS)과 같이 전달하기 위해 H.264/AVC 디코더(22)에 의해 수신된다. 상기 디코더(22)는 역 양자화 회로(221)(Q-1), 현재의 경우에 역 DCT 회로인 역변환 회로(222)(T-1), 및 모션 보상 회로(223)를 주로 포함한다. 또한, 수행된 가중 예측들을 특징화하는 수신된 코딩 파라미터들을 수집하도록 제공되는 이른바 NALU(224)(Network Abstraction Layer Unit)를 포함한다(예를 들어 몇 가지 관련된 코딩 파라미터들은 예측 샘플들의 오프셋 및 가중치를 특징화하는 방정식들에서 사용되는 "luma_weight", "luma_offset", "luma_log2_weight_denom" 등 일 수 있다). 상기 유닛(224)의 출력 신호들은 적절한 처리를 위해 분석 회로(23)에 의해 수신되는 가중된 예측 파라미터 통계들(WPPS)이다. 그 후에, 회로(23)에서 수행되는 처리 동작은 최초에 수신된 스트림에 내 점진적 장면 변화들의 지속 기간 및 위치에 대한 정보를 생성하고, 이 정보는 그 후에 예로써 공통으로 사용되는 CPI(Characteristic Point Information) 테이블의 형태로 파일(24) 내에 저장된다. 이러한 출력 정보는 이제 비디오 요약, 자동 챕터링(automatic chaptering) 등과 같은 애플리케이션들에 대해 사용가능하다.
하드웨어 또는 소프트웨어나(본 발명의 방법은 그에 따라 상기 처리 유닛으로 로딩될 때 이러한 처리 유닛이 상기 기술된 바와 같은 방법을 수행하도록 하는 명령어들의 세트를 포함하는 처리 유닛에 대한 컴퓨터 프로그램 제품에 의해 수행될 수 있다), 양자의 아이템들에 의한 기능들을 구현하는 수많은 방식들이 존재하 는 것으로 추가될 수 있다. 이와 관련하여, 도면들은 매우 개략적이며, 본 발명의 하나의 가능한 실시예만을 표현한다. 따라서, (현재의 경우, 도 3에서) 도면이 서로 다른 블록들에 따라 서로 다른 기능들을 도시하며, 이것은 하드웨어 또는 소프트웨어의 단일 아이템이 몇 가지 기능들을 수행한다는 것을 결코 배제하지 않는다. 하드웨어 또는 소프트웨어나 양자의 아이템들의 조합이 기능을 수행한다는 것 또한 배제하지 않는다. 이러한 견해들은 도면들과 관련하여 상세한 기술이 본 발명을 제한하기 보다는 예시하는 것이며, 첨부된 특허청구범위 내에 포함되는 것으로 상기하도록 의도된다. 단어 "포함하는(comprising)"은 특허청구범위 내에 열거된 것들과 다른 요소들 또는 단계들의 존재를 배제하지 않는다. 요소 또는 단계 앞의 단어 "하나('a' 또는 'an')"는 복수의 그러한 요소들 또는 단계들의 존재를 배제하지 않는다.

Claims (6)

  1. 매크로블록들로 나눠지는 연속적인 프레임들로 구성되는 비디오 스트림의 형태로 사용가능한 디지털 코딩된 비디오 데이터를 처리하는 방법으로서, 상기 프레임들은 독립적으로 코딩된 적어도 I-프레임들과, 상기 I-프레임들 사이에 일시적으로 배치되고 적어도 하나의 이전 I- 또는 P-프레임으로부터 예측된 P-프레임들과, I-프레임과 P-프레임 사이 또는 2개의 P-프레임들 사이에 일시적으로 배치되고 그것들이 배치되는 사이에 적어도 이러한 2개의 프레임들로부터 양방향으로 예측되는 B-프레임들을 포함하고, 상기 P- 및 B-프레임들의 예측들은 과거 및 미래로부터의 동일하지 않은 양의 예측으로 가중된 예측에 의해 수행되는, 상기 디지털 코딩된 비디오 데이터 처리 방법에 있어서,
    현재 프레임의 각각의 연속적인 매크로블록에 대해, 만약 있다면, 상기 가중된 예측을 특징화하는 관련된 코딩 파라미터들을 결정하는 단계;
    상기 파라미터들에 관련된 통계들을 전달하기 위해, 상기 현재 프레임의 모든 연속적인 매크로블록들에 대한 상기 파라미터들을 수집하는 단계;
    예측의 방향에 대한 선호도의 변화를 결정하기 위해 상기 통계들을 분석하는 단계; 및
    선호도의 변화가 결정될 때마다 프레임들의 시퀀스에서 점진적 장면 변화의 발생을 검출하는 단계를 포함하는, 디지털 코딩된 비디오 데이터 처리 방법.
  2. 제 1 항에 있어서, 상기 분석 단계는 상기 현재 프레임 내 전체 매크로블록들의 수와 관련하여 도출되는 미리 규정된 임계치에 대해 동일한 방향의 선호도 및 유사한 가중치를 갖는 매크로블록들의 수를 비교하도록 제공되는, 디지털 코딩된 비디오 데이터 처리 방법.
  3. 제 2 항에 있어서, 위치에 대한 정보 및 각각의 장면 변화의 지속 기간이 생성되어 파일 내에 저장되는, 디지털 코딩된 비디오 데이터 처리 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 처리된 비디오 스트림의 구문 및 의미론은 H.264/AVC 표준의 것들인, 디지털 코딩된 비디오 데이터 처리 방법.
  5. 매크로블록들로 나눠지는 연속적인 프레임들로 구성되는 비디오 스트림의 형태로 사용가능한 디지털 코딩된 비디오 데이터를 처리하는 장치로서, 상기 프레임들은 독립적으로 코딩된 적어도 I-프레임들과, 상기 I-프레임들 사이에 일시적으로 배치되고 적어도 하나의 이전 I 또는 P-프레임으로부터 예측되는 P-프레임들과, I-프레임과 P-프레임 사이 또는 2개의 P-프레임들 사이에 일시적으로 배치되고 그것들이 배치되는 사이에 적어도 이러한 2개의 프레임들로부터 양방향으로 예측되는 B-프레임들을 포함하고, 상기 P- 및 B-프레임들의 예측들은 과거 및 미래로부터의 동일하지 않은 양의 예측으로 가중된 예측에 의해 수행되는, 상기 디지털 코딩된 비디오 데이터 처리 장치에 있어서,
    현재 프레임의 각각의 연속적인 매크로블록에 대해, 만약 있다면, 상기 가중된 예측을 특징화하는 관련된 코딩 파라미터들을 결정하도록 제공되는 결정 수단;
    상기 파라미터들에 관련된 통계들을 전달하기 위해, 상기 현재 프레임의 모든 연속적인 매크로블록들에 대한 상기 파라미터들을 수집하도록 제공되는 수집 수단;
    예측의 방향에 대한 선호도의 변화를 결정하기 위해 상기 통계들을 분석하도록 제공되는 분석 수단; 및
    선호도의 변화가 결정될 때마다 프레임들의 시퀀스에서 점진적 장면 변화의 발생을 검출하도록 제공되는 검출 수단을 포함하는, 디지털 코딩된 비디오 데이터 처리 장치.
  6. 디지털 비디오 데이터 디코딩 장치를 위한 컴퓨터 프로그램 제품에 있어서,
    상기 디코딩 장치로 로딩될 때, 상기 디코딩 장치가 제 1 항 내지 제 4 항 중 어느 한 항에 따른 처리 방법의 단계들을 수행하도록 하는 명령어들의 세트를 포함하는, 컴퓨터 프로그램 제품.
KR1020067013514A 2004-01-05 2004-12-28 장면 변화 검출을 사용하는 처리 방법 및 장치 KR20060127024A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04300004.1 2004-01-05
EP04300004 2004-01-05

Publications (1)

Publication Number Publication Date
KR20060127024A true KR20060127024A (ko) 2006-12-11

Family

ID=34814430

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067013514A KR20060127024A (ko) 2004-01-05 2004-12-28 장면 변화 검출을 사용하는 처리 방법 및 장치

Country Status (5)

Country Link
EP (1) EP1704722A1 (ko)
JP (1) JP2007518303A (ko)
KR (1) KR20060127024A (ko)
CN (1) CN1902938A (ko)
WO (1) WO2005074297A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650830B (zh) * 2009-08-06 2012-08-15 中国科学院声学研究所 一种压缩域视频镜头突变与渐变联合自动分割方法
US8582952B2 (en) 2009-09-15 2013-11-12 Apple Inc. Method and apparatus for identifying video transitions
CN104581155A (zh) * 2014-12-02 2015-04-29 深圳市云宙多媒体技术有限公司 一种基于场景分析的编码方法及系统
ES2737845B2 (es) * 2016-07-05 2021-05-19 Kt Corp Metodo y aparato para procesar senal de video
CN108668169B (zh) * 2018-06-01 2021-10-29 北京市商汤科技开发有限公司 图像信息处理方法及装置、存储介质
CN111464810A (zh) * 2020-04-09 2020-07-28 上海眼控科技股份有限公司 视频预测方法、装置、计算机设备和计算机可读存储介质

Also Published As

Publication number Publication date
WO2005074297A1 (en) 2005-08-11
JP2007518303A (ja) 2007-07-05
EP1704722A1 (en) 2006-09-27
CN1902938A (zh) 2007-01-24

Similar Documents

Publication Publication Date Title
US20080267290A1 (en) Coding Method Applied to Multimedia Data
US20090052537A1 (en) Method and device for processing coded video data
KR100673282B1 (ko) 비디오/오디오 신호 처리 방법 및 비디오/오디오 신호처리 장치
US7986847B2 (en) Digital video camera with a moving image encoding feature and control method therefor, that selectively store decoded images as candidate reference images
JP4373606B2 (ja) 符号化システムを改善するために付随情報を使用する装置及び方法
US6618507B1 (en) Methods of feature extraction of video sequences
US20120013793A1 (en) Video importance rating based on compressed domain video features
US20070206931A1 (en) Monochrome frame detection method and corresponding device
JP2001527304A (ja) ディジタル動画の階層的要約及び閲覧方法
US8358700B2 (en) Video coding apparatus and method for supporting arbitrary-sized regions-of-interest
KR20040077444A (ko) 동화상 부호화 방법, 동화상 복호화 방법 및 데이터 기억매체
De Bruyne et al. A compressed-domain approach for shot boundary detection on H. 264/AVC bit streams
KR20060127024A (ko) 장면 변화 검출을 사용하는 처리 방법 및 장치
KR20040110755A (ko) 예측 모드 선택 방법과 그 장치, 그 방법을 이용한 동영상압축 방법과 그 장치를 포함한 동영상 부호화기 및 상기방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 기록매체
Dawood et al. Scene content classification from MPEG coded bit streams
US20090016441A1 (en) Coding method and corresponding coded signal
Shen et al. Adaptive weighted prediction in video coding
Jie et al. A novel scene change detection algorithm for H. 264/AVC bitstreams
Stütz et al. Inter-frame H. 264/CAVLC structure-preserving substitution watermarking
JP2006311078A (ja) 高能率符号化記録装置
Jiang et al. Adaptive scheme for classification of MPEG video frames
Lievens et al. Compressed-domain motion detection for efficient and error-resilient MPEG-2 to H. 264 transcoding

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid