KR20100093131A - 적응적 화상들 그룹 (agop) 구조 결정 - Google Patents

적응적 화상들 그룹 (agop) 구조 결정 Download PDF

Info

Publication number
KR20100093131A
KR20100093131A KR1020107016072A KR20107016072A KR20100093131A KR 20100093131 A KR20100093131 A KR 20100093131A KR 1020107016072 A KR1020107016072 A KR 1020107016072A KR 20107016072 A KR20107016072 A KR 20107016072A KR 20100093131 A KR20100093131 A KR 20100093131A
Authority
KR
South Korea
Prior art keywords
correlations
video
order cross
cross
frames
Prior art date
Application number
KR1020107016072A
Other languages
English (en)
Inventor
스코트 티. 스와지
세이풀라 할리트 오귀즈
아미트 로햇기
Original Assignee
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 콸콤 인코포레이티드 filed Critical 콸콤 인코포레이티드
Publication of KR20100093131A publication Critical patent/KR20100093131A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Television Systems (AREA)

Abstract

본 발명은 프레임들 간의 상호-상관성들에 기초하여 비디오 시퀀스에 포함된 다수의 프레임들 각각에 대한 화상 타입을 결정하기 위한 기술들에 관한 것이다. 상호-상관성들은 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들 및 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 포함한다. 1차 상호-상관성들은 프레임들 간의 비디오 전환 효과들을 검출하기 위해 분석될 수 있다. 1차 및 2차 상호-상관성들은 프레임들 간의 시간적인 유사성들을 결정하기 위해 비교방식으로 분석될 수 있다. 그러므로, 상관성-기반의 결정 기술들은 비디오 전환 효과들 및 시간적인 유사성들에 기초하여 프레임들에 대한 화상 타입들을 결정한다. 상관성-기반의 결정 기술들은 프레임들의 쌍들 내에 있는 이미지들 간의 1차 상호-상관성들, 또는 프레임들의 쌍들 각각에 대한 서브이미지들에 걸쳐 평균되는 그 프레임들의 쌍들 내에 있는 서브이미지들의 세트들 간의 1차 상호-상관성들을 계산할 수 있다.

Description

적응적 화상들 그룹 (AGOP) 구조 결정{ADAPTIVE GROUP OF PICTURES(AGOP) STRUCTURE DETERMINATION}
본 발명은 비디오 데이터의 코딩에 관한 것으로, 더 특별하게는, 비디오 데이터의 화상들 그룹(GOP) 구조를 적응적으로 결정하는 것에 관한 것이다.
디지털 비디오 시퀀스들을 코딩하기 위한 여러 상이한 비디오 코딩 표준들이 설정되었다. 예컨대 MPEG(Moving Picture Experts Group)은 MPEG-1(Part 2), MPEG-2(Part 2) 및 MPEG-4(Part 2)를 포함한 여러 표준들을 개발하였다. 다른 예들은 ITU-T(International Telecommunication Union) H.261 및 H.263 표준들과 ITU-T H.264 표준을 포함하는데, 그 ITU-T H.264는 "Advanced Video Coding, AVC"란 명칭의 MPEG-4 Part 10에 또한 설명되어 있다. 이러한 비디오 코딩 표준들은 일반적으로 압축 방식으로 데이터를 코딩함으로써 비디오 시퀀스들의 향상된 전송 및 저장 효율성을 지원한다. 압축은 비디오 프레임들의 효과적인 전송 또는 저장을 위해 전송되거나 저장될 필요가 있는 데이터의 전체적인 양을 감소시킨다. 유선 및 무선 전송 매체들을 통해 그리고 자기 및 광학 저장 매체들 모두 상에서, 비디오 스트리밍, 비디오 캠코더, 개인용 비디오 레코더(PVR), 디지털 비디오 레코더(DVR), 비디오 전화통신(VT), 비디오 회의, 비디오 CD(VCD) 및 디지털 다용도/비디오 디스크(DVD) 상의 디지털 비디오 분배, 및 비디오 브로드캐스트 애플리케이션들을 포함하는 많은 상황들에서 비디오 코딩이 사용된다.
MPEG-1, MPEG-2, MPEG-4, ITU-T H.261, ITU-T H.263, 및 ITU-T H.264 표준들은 인터-프레임 압축을 제공하기 위해서 시간적인 또는 인터-프레임 상관성으로 지칭되는 연속적인 비디오 프레임들 간의 유사성들을 활용하는 비디오 코딩 기술들을 지원한다. 이러한 표준들은 또한 인트라-프레임 압축을 제공하기 위해서 공간적인 또는 인트라-프레임 상관성으로서 지칭되는 개별적인 비디오 프레임들 내의 유사성들을 활용하는 비디오 코딩 기술들을 지원한다. 인터-프레임 압축 기술들은 비디오 프레임들의 픽셀-기반 표현들을 픽셀-블록-기반 전환 움직임 표현들로 변환함으로써 인접하거나 가까이 떨어져 있는 비디오 프레임들에 걸쳐 데이터 중복성을 활용한다. 인터-프레임 기술들을 사용하여 코딩된 비디오 프레임들은 P("predicted") 프레임들 또는 B("bi-predictive") 프레임들로 종종 지칭된다. I("intra") 프레임들로서 일반적으로 지칭되는 일부 프레임들은 비-예측적이거나(즉, 단지 pre-H.264 표준에서와 같은 변환 코딩에 기초함) 또는 예측적일 수 있는(즉, H.264에서와 같은 공간 예측 및 변환 코딩 모두에 기초함) 공간 압축을 사용하여 코딩된다. 게다가, 일부 프레임들은 인트라 및 인터-코딩된 블록들 양쪽 모두의 조합을 포함할 수 있다. 이러한 인코딩 표준들은 무선 비디오 브로드캐스팅 애플리케이션들에 매우 적절한 매우 효율적인 코딩을 제공한다.
위에서 설명된 효율적인 인코딩 표준들 중 임의의 표준을 사용하여 인코딩을 수행하기 이전에, 코딩 장치는 다수의 프레임들을 포함하는 화상들 그룹(GOP) 구조들로 수신된 비디오 시퀀스를 분할할 수 있다. 이어서, 코딩 장치는 전송 또는 저장을 위해 비디오 데이터를 인코딩하기 이전에 GOP 구조들에 포함된 프레임들 각각의 화상 코딩 타입을 결정할 수 있다. 화상 코딩 타입들을 갖는 GOP 구조의 결정은 코딩 효율성을 위해 중요하다. 그러므로, 사전에 압축되지 않은 미가공된(raw) 비디오 데이터에 대해서 행해지는 인코딩 방식들만이 GOP 구조 결정으로부터 유리한 것은 아니다. 사전에 압축된 비디오 데이터에 대해서 행해지는 트랜스코딩 방식들도 유리할 수 있다. 예컨대, 무선 비디오 브로드캐스팅을 위해 요구되는 일부 비디오 데이터, 예컨대 디지털 텔레비전 신호들은, 그들의 본래 형태에 있어서, 현재 가장 효율적인 압축을 제공하지 않는 MPEG-2(Part 2)와 같은 비디오 인코딩 표준들을 사용하여 코딩된다. 이러한 경우에, 트랜스코더는 무선 비디오 브로드캐스팅을 위해서 ITU-T H.264와 같은 더욱 효율적인 압축을 제공하는 인코딩 표준으로 비디오 데이터를 변환할 수 있다. 비디오 데이터를 변환하기 위해서, 트랜스코더는 제 1 인코딩 표준으로부터의 비디오 데이터를 제일 먼저 디코딩하고, 이어서 비디오 시퀀스를 GOP 구조들로 분할하고, 무선 비디오 브로드캐스팅을 위해 더욱 바람직한 제 2 인코딩 표준을 사용하여 비디오 데이터를 재인코딩하기 이전에 GOP 구조 결정을 수행할 수 있다.
비디오 신호가 시간에 따라 자신의 통계적인 특성을 변경하기 때문에, 코딩 장치는 가장 효율적인 압축을 위해 가능한 최대로 충분한 정도까지 이용가능한 시간적인 중복성을 활용하기 위해서 GOP 구조를 적응시켜야 한다. 일반적으로, 코딩 장치는 컷 신 변화들(cut scene changes), 플래시 프레임들, 크로스-페이드들(cross-fades), 및 카메라 팬들(pans) 및 스크롤들(scrolls)과 같은 비디오 전환 효과들의 식별 및 주변 프레임들의 컨텐트에 기초하여 GOP 구조 내의 후보 프레임들에 대한 화상 코딩 타입을 적응적으로 결정한다. 기존의 적응적 GOP(AGOP) 구조 결정 방법들은 히스토그램들 또는 변차 측정치들을 사용한 루미넌스(luminance) 및 크로미넌스(chrominance) 신호들 모두의 통계적인 특징들의 분석, 에지 결정 기반 알고리즘들, 움직임 벡터 필드 평가 또는 시간적인 예측 효율성 메트릭들(metrics)에 기초한 알고리즘들을 포함한다. 그러나, 기존의 AGOP 구조 결정 방법들은 점차적으로 복잡한 무선 비디오 브로드캐스팅 애플리케이션들을 위해 필요한 효율적인 압축을 달성하기에 충분히 정확하지 않을 수 있다.
일반적으로, 본 발명은 비디오 시퀀스에 포함된 다수의 프레임들 각각에 대한 화상 코딩 타입을 프레임들 간의 상호-상관성에 기초하여 결정하기 위한 기술들에 관한 것이다. 더 상세하게는, 그 기술들은 화상들 그룹(GOP) 구조에 포함된 프레임들에 대한 화상 타입들을 프레임들 간의 상호-상관성에 기초하여 적응적으로 결정할 수 있다. 그 상호-상관성들은 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들, 및 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 포함한다. 1차 상호-상관성들은 프레임들 간의 비디오 전환 효과들을 검출하기 위해서 분석될 수 있다. 1차 및 2차 상호-상관성들은 이웃 프레임들 간의 시간적인 유사성들을 결정하기 위해서 비교방식으로 분석될 수 있다. 그러므로, 상관성-기반 결정 기술들은 비디오 전환 효과들 및 시간적인 유사성들에 기초하여 P("predicted"), B("bi-predictive"), 또는 I("intra") 화상들 중 어느 하나로서 프레임들에 대한 화상 타입들을 결정한다.
일양상에 있어서는, 이미지 상관성-기반 결정 기술이 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지들 간의 1차 상호-상관성들을 계산한다. 그 이미지 상관성-기반 결정 기술은 전체 프레임들에 대한 화상 타입들을 결정할 수 있다. 다른 양상에 있어서는, 서브이미지 상관성-기반 결정 기술이 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 예컨대 매크로블록들과 같은 서브이미지들의 세트들 간의 1차 상호-상관성들을 계산하고, 프레임들의 쌍들 각각에 대한 서브이미지들 모두 또는 일부에 걸쳐 상호-상관성을 평균한다. 또한, 비디오 시퀀스에 포함된 프레임들 각각은 서브이미지 상관성-기반 결정 기술이 프레임들 각각의 개별적인 슬라이스들(slices)에 대한 화상 타입들을 결정할 수 있도록 하기 위해서 다수의 슬라이스들로 분할될 수 있다.
여기서 설명되는 기술들은 실시간 또는 비실시간 코딩 장치에 의해서 활용되는 상관성-기반의 적응적 화상들 그룹(AGOP) 구조 결정 모듈 내에서 실행될 수 있다. 일부 양상들에 있어서, 상관성-기반 AGOP 구조 결정 모듈은 실시간 코딩 장치에서 구현되는 다른 AGOP 구조 결정 모듈이 비교될 수 있는 오프라인 벤치마크(offline benchmark)로서 사용될 수 있다. 다른 양상에 있어서는, 상관성-기반 AGOP 구조 결정 모듈이 실시간 또는 비실시간 코딩 장치에서 구현될 수 있다. 실시간 코딩 장치의 경우에, 상관성-기반 AGOP 구조 결정 모듈은 화상 타입들의 실시간적인 결정을 가능하게 하기 위해서 적합한 복잡성 감소들을 통해 구현될 수 있다.
일예로서, 상관성-기반 AGOP 구조 결정 모듈은 사전에 압축된 비디오 데이터를 재인코딩하기 위한 실시간 또는 비실시간 트랜스코더에 의해서 활용될 수 있다. 트랜스코더는 ITU-T H.264와 같은 효율적인 인터-프레임 및 인트라-프레임 압축을 제공하는 인코딩 표준을 통해 비디오 데이터를 재인코딩할 수 있다. 그 기술들은 매우 효율적인 데이터 압축을 필요로 하는 무선 비디오 브로드캐스팅 애플리케이션들을 위해 특히 유용할 수 있다. 다른 예로서, 상관성-기반 AGOP 구조 결정 모듈은 앞서 비압축되어진 미가공된 비디오 데이터에 대해 동작하는 실시간 또는 비실시간, 단일-패스 또는 다중-패스 비디오 인코더에 의해서 활용될 수 있다.
일양상에 있어서, 본 발명은 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들을 계산하는 단계, 및 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하는 단계를 포함하는 방법을 제공한다. 그 방법은 상기 1차 및 2차 상호-상관성들에 기초하여 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입을 결정하는 단계를 더 포함한다.
다른 양상에 있어서, 본 발명은 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들을 계산하고 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하는 상관기를 포함하는 장치를 제공한다. 그 장치는 상기 1차 및 2차 상호-상관성들에 기초하여 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입을 결정하는 화상 타입 결정 모듈을 포함한다.
다른 양상에 있어서, 본 발명은 명령들을 포함하는 컴퓨터-판독가능 매체를 포함한 컴퓨터 프로그램 물건을 제공한다. 그 명령들은 컴퓨터로 하여금, 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들을 계산하도록 하고, 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하도록 하며, 상기 1차 및 2차 상호-상관성들에 기초하여 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입을 결정하도록 한다.
다른 양상에 있어서, 본 발명은 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들 및 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하기 위한 수단을 포함하는 장치를 제공한다. 그 장치는 또한 상기 1차 및 2차 상호-상관성들에 기초하여 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입을 결정하기 위한 수단을 포함한다.
다른 양상에 있어서, 본 발명은 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들을 계산하고 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하는 상관기를 포함하는 무선 통신 장치 핸드셋을 제공한다. 그 핸드셋은 상기 1차 및 2차 상호-상관성들에 기초하여 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입을 결정하는 화상 타입 결정 모듈을 더 포함한다.
다른 양상에 있어서, 본 발명은 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들을 계산하고, 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하며, 상기 1차 및 2차 상호-상관성들에 기초하여 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입을 결정하도록 구성된 적어도 하나의 프로세서를 포함하는 디지털 이미지 데이터 처리를 위한 집적 회로를 제공한다.
추가적인 양상에 있어서, 본 발명은 비디오 데이터를 다수의 프레임들을 포함하는 GOP 구조들로 분할하는 GOP 분할기 및 실시간적으로 GOP 구조에 포함된 프레임들에 대한 화상 타입들을 결정하는 AGOP 구조 결정 모듈을 구비한 코딩 장치를 포함하는 시스템을 제공한다. 그 시스템은 또한 프레임들의 쌍들 내에 포함된 이미지 정보 간의 1차 상호-상관성들 및 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들에 기초하여 GOP 구조들에 포함된 프레임들에 대한 벤치마크 화상 타입들을 결정하는, 트랜스코더 외부에 위치한 상관성-기반 AGOP 구조 결정 모듈을 포함한다. 그 시스템은 또한 코딩 장치에 통합된 AGOP 구조 결정 모듈의 정확성을 결정하기 위해서 화상 타입들을 벤치마크 화상 타입들에 비교하는 벤치마크 비교기를 포함한다.
다른 양상에 있어서, 본 발명은 비디오 데이터를 다수의 프레임들을 포함하는 GOP 구조들로 분할하는 GOP 분할기를 포함하는 코딩 장치를 제공한다. 그 코딩 장치는 또한 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들 및 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들에 기초하여 실시간적으로 GOP 구조에 포함된 프레임들에 대한 화상 타입들을 결정하는 상관성-기반 AGOP 구조 결정 모듈을 포함한다. 한 경우에 있어서, 그 코딩 장치는 사전에 압축된 비디오 데이터에 대해 동작하는 실시간 또는 비실시간 트랜스코더를 포함할 수 있다. 다른 경우에 있어서, 그 코딩 장치는 사전에 압축되지 않은 미가공된 비디오 데이터에 대해 동작하는 실시간 또는 비실시간 인코더를 포함할 수 있다.
본 발명에서 설명된 기술들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수 있다. 만약 소프트웨어로 구현된다면, 그 소프트웨어는 컴퓨터에서 실행될 수 있다. 그 소프트웨어는 명령들, 프로그램 코드 등으로서 초기에 저장될 수 있다. 따라서, 본 발명은 또한 컴퓨터-판독가능 매체를 포함하는 비디오 데이터 처리를 위한 컴퓨터 프로그램 물건도 고려하는데, 여기서 컴퓨터-판독가능 매체는 컴퓨터로 하여금 본 발명에 따른 기술들 및 기능들을 실행하도록 하기 위한 명령들을 포함한다. 대안적으로, 만약 하드웨어로 구현된다면, 이러한 하드웨어 구현들은 디지털적이거나, 아날로그적이거나, 또는 양쪽 모두일 수 있다. 본 발명의 양상들은 컴퓨터-판독가능 매체나 또는 그 컴퓨터-판독가능 매체를 포함하는 컴퓨터 프로그램 물건으로 구현될 수 있다. 그 컴퓨터 프로그램 물건은 패키징 물질들을 포함할 수 있다.
다양한 예들에 대한 추가적인 설명들이 첨부 도면들 및 아래의 설명에서 기술된다. 다른 특징들, 목적들, 장점들 및 예들이 설명 및 도면과 청구항들로부터 자명할 것이다.
도 1은 실시간 트랜스코더에 구현되는 AGOP 구조 결정 모듈이 비교될 수 있는 오프라인 벤치마크로서 상관성-기반 AGOP 구조 결정 모듈의 예시적인 구현을 나타내는 블록도이다.
도 2는 실시간 트랜스코더에 구현되는 상관성-기반 AGOP 구조 결정 모듈의 예시적인 구현을 나타내는 블록도이다.
도 3은 실시간 인코더에 구현되는 AGOP 구조 결정 모듈이 비교될 수 있는 오프라인 벤치마크로서 상관성-기반 AGOP 구조 결정 모듈의 예시적인 구현을 나타내는 블록도이다.
도 4는 실시간 인코더에 구현되는 상관성-기반 AGOP 구조 결정 모듈의 예시적인 구현을 나타내는 블록도이다.
도 5는 실시간 코딩 장치에 의해 활용되는 오프라인 벤치마크로서 도 1 및 도 3의 상관성-기반 AGOP 구조 결정 모듈의 예시적인 동작을 나타내는 흐름도이다.
도 6은 실시간 또는 비실시간 코딩 장치에 구현되는 도 2 및 도 4의 상관성-기반 AGOP 구조 결정 모듈의 예시적인 동작을 나타내는 흐름도이다.
도 7은 도 1 내지 도 4의 상관성-기반 AGOP 구조 결정 모듈을 더 상세히 나타내는 블록도이다.
도 8a 내지 도 8c는 비디오 시퀀스에 포함되는 프레임들 간의 1차 및 2차 상호-상관성들을 나타내는 그래프들이다.
도 9는 도 7의 상관성-기반 AGOP 구조 결정 모듈에 포함된 상관기의 예시적인 구현을 나타내는 블록도이다.
도 10은 도 7의 상관성-기반 AGOP 구조 결정 모듈에 포함된 상관기의 다른 예시적인 구현을 나타내는 블록도이다.
도 11은 도 7의 상관성-기반 AGOP 구조 결정 모듈에 포함된 상관성 분석기의 예시적인 구현을 나타내는 블록도이다.
도 12는 도 11의 상관성 분석기에 포함된 비디오 전환 검출기의 일부로서 콤팩트 지원 이벤트 검출기를 나타내는 블록도이다.
도 13은 도 11의 상관성 분석기에 포함된 비디오 전환 검출기의 일부로서 확장된 지원 이벤트 검출기를 나타내는 블록도이다.
도 14는 도 11의 상관성 분석기에 포함된 비디오 전환 검출기의 일부로서 글로벌 움직임 검출기를 나타내는 블록도이다.
도 15는 이미지 상호-상관성들에 기초하여 비디오 시퀀스에 포함된 프레임들에 대한 화상 타입들을 결정하는 상관성-기반 AGOP 구조 결정 모듈의 예시적인 동작을 나타내는 흐름도이다.
도 16은 서브이미지 상호-상관성들에 기초하여 비디오 시퀀스에 포함된 프레임들에 대한 화상 타입들을 결정하는 상관성-기반 AGOP 구조 결정 모듈의 예시적인 동작을 나타내는 흐름도이다.
도 17은 컷 신 변화 핑거프린트(cut scene change fingerprint) 및 플래시 프레임 핑거프린트(flash frame fingerprint)를 포함하는 도 12의 콤팩트 지원 이벤트 검출기의 출력을 나타내는 도면이다.
도 18은 부분적인 신 변화 핑거프린트를 포함하는 도 12의 콤팩트 지원 이벤트 검출기의 출력을 나타내는 도면이다.
도 19는 크로스-페이드 핑거프린트를 포함하는 도 13의 확장된 지원 이벤트 검출기의 출력을 나타내는 도면이다.
도 20a 및 도 20b는 카메라 팬 핑거프린트 및 카메라 스크롤 핑거프린트를 포함하는 도 14의 글로벌 움직임 검출기의 출력을 나타내는 도면들이다.
본 발명은 비디오 시퀀스에 포함된 다수의 프레임들 각각에 대한 화상 타입을 그 프레임들 간의 상호-상관성들에 기초하여 결정하기 위한 기술들을 설명한다. 상호-상관성들은 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들, 및 그 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 포함한다. 1차 상호-상관성들은 컷 신 변화들, 플래시 프레임들, 크로스-페이드들, 및 카메라 팬들 및 스크롤들과 같은 프레임들 간의 비디오 전환 효과들(video transitional effects)을 검출하기 위해 분석될 수 있다. 1차 및 2차 상호-상관성들은 프레임들 간의 시간적인 유사성들을 결정하기 위해 비교방식으로 분석될 수 있다. 그러므로, 상관성-기반 결정 기술들은 비디오 전환 효과들 및 시간적인 유사성들에 기초하여 프레임들에 대한 화상 타입들을 결정한다. 상관성-기반 결정 기술들은 프레임들의 쌍들 내에 있는 이미지들 간의 1차 상호-상관성, 또는 프레임들의 쌍들 각각에 대한 서브이미지들 모두나 또는 일부에 걸쳐 평균되는 프레임들의 쌍들 내에 있는 예컨대 매크로블록들과 같은 서브이미지들의 세트들 간의 1차 상호-상관성을 계산할 수 있다.
더 상세하게는, 그 기술들은 프레임들 간의 상호-상관성들에 기초하여 화상들 그룹(GOP) 구조에 포함된 프레임들에 대한 화상 타입들을 적응적으로 결정할 수 있다. GOP 구조들은 인트라-프레임 및 인터-프레임 코딩 기술들에 기초하여 비디오 데이터의 긴 시퀀스들을 관리가능한 데이터 세트들로 분할한다. 예컨대, GOP 구조들은 통상적으로 이전 I 및 P 프레임들을 지칭하는 P("predicted") 프레임들이 후속하는 I("intra") 프레임이나, 또는 후속 I 및 P 프레임들을 지칭하는 B("bi-predictive") 프레임들로 시작한다. 일부 경우들에 있어서, GOP 구조들은 GOP 구조에 포함된 프레임들이 그 GOP 구조의 밖에 있는 프레임들을 참조하지 않고 완전히 디코딩될 수 있는 독립형 유닛(self contained unit)을 형성하도록 클로즈될 수 있다. 다른 경우들에 있어서, GOP 구조들은 GOP 구조에 포함된 프레임들이 GOP 구조의 밖에 있는 프레임들을 참조할 수 있도록 하기 위해서 오픈될 수 있다.
여기서 설명된 기술들은 상관성-기반의 적응적 화상들 그룹(AGOP) 구조 결정 모듈 내에서 실행될 수 있는데, 그 모듈은 GOP 구조에 포함된 다수의 프레임들 각각에 대한 화상 타입들을 결정할 수 있고, 그 프레임들 각각에 대한 결정된 화상 타입들을 명시하기 위해 GOP 구조를 업데이팅할 수 있다. 여기서 설명된 상관성-기반의 AGOP 구조 결정 기술들은, 코딩 효율성 관점에서, GOP 구조들에 포함된 프레임들에 대한 화상 타입들을 결정할 때 높은 레벨들의 정확성을 달성할 수 있고, AGOP 구조 결정 기술들을 위한 "골드 표준(gold standard)"으로 간주될 수 있다. 상관성-기반의 AGOP 결정 모듈의 출력은 시간적인 유사성 메트릭의 직관적인 행태를 설명하고, 높은 민감도를 갖는 상관성 다이내믹들에 대한 정보를 제공한다. 또한, 상관성-기반의 AGOP 결정 모듈의 성능은 프레임 컨텐트, 레이트-왜곡 최적화 특징들, 및 인코딩 대역폭 제도 특징들에 상당히 의존적이다.
도 1은 실시간 트랜스코더(10)에 구현되는 AGOP 구조 결정 모듈(18)이 비교될 수 있는 오프라인 벤치마크로서 상관성-기반의 AGOP 구조 결정 모듈(22)의 예시적인 구현을 나타내는 블록도이다. 트랜스코더(10)는 집적 회로 장치로서 총괄적으로 지칭될 수 이는 하나 이상의 집적 회로 장치들로서 적어도 부분적으로 형성될 수 있다. 일부 양상들에 있어서, 트랜스코더(10)는 이동 전화기와 같은 무선 통신 장치 핸드셋의 일부를 형성할 수 있다. 도 1에 도시된 바와 같이, 트랜스코더(10)는 디코더(11), 사전-프로세서(12) 및 인코더(14)를 포함한다. 사전-프로세서(12)는 GOP 분할기(16)를 포함하고, 인코더(14)는 AGOP 구조 결정 모듈(18)을 포함한다. 다른 구현들에 있어서, AGOP 구조 결정 모듈(18)의 기능들은 사전-프로세서(12) 및 인코더(14) 간에 분할될 수 있다.
트랜스코더(10)는 코딩된 비디오 데이터를 포함하는 비디오 시퀀스를 비디오 데이터 제공자로부터 수신한다. 비디오 시퀀스는 연속적인 프레임들 간의 또는 단일 프레임 내의 유사성들을 가장 효과적으로 활용하는 알고리즘들을 지원하지 않는 비디오 인코딩 표준을 사용하여 코딩된 비디오 데이터를 포함할 수 있다. 예컨대, 비디오 시퀀스는 MPEG-2(Part 2)를 사용하여 인코딩된 디지털 텔레비전 데이터를 포함할 수 있는데, 이는 현재 가장 효율적인 인터-프레임 및 인트라-프레임 압축을 제공하지 않는다. 그러나, 많은 비디오 애플리케이션들, 특히 무선 비디오 브로드캐스팅 애플리케이션들은 더욱 정교한 알고리즘들에 의해 프레임들에 걸쳐 그리고 프레임들 내에서 데이터 중복성을 이용하는 ITU-T H.264와 같은 더욱 개선된 인코딩 표준들에 의해서 제공된 매우 효율적인 데이터 압축을 필요로 한다. 그러므로, 트랜스코더(10)는 비디오 시퀀스를 다른 더욱 개선된 인코딩 표준으로 변환할 수 있다. 예컨대, 트랜스코더(10)는 무선 비디오 브로드캐스팅, 효율적인 저장, 또는 매우 효율적인 데이터 압축을 원하는 다른 애플리케이션들 또는 서비스들을 위한 비디오 프레임들을 준비하기 위해서 비디오 시퀀스를 재인코딩할 수 있다.
비디오 시퀀스를 변환하기 위해서, 디코더(11)는 덜 효율적인 본래 코딩 표준으로부터 비디오 시퀀스를 디코딩한다. 이어서, 사전-프로세서(12) 내의 GOP 분할기(16)는 디코딩된 비디오 시퀀스를 다수의 프레임들을 포함하는 GOP 구조들로 분할한다. GOP 분할기(16)는 비디오 시퀀스를 위한 균일한 I 프레임 간격을 가능하게 하는 랜덤 액세스에 기초한 미리 결정된 GOP 구조 크기에 따라서나 혹은 비디오 시퀀스 내의 I 프레임들을 가능하게 하는 랜덤 액세스의 랜덤한 분할에 따라서 디코딩된 비디오 시퀀스를 프레임들이 그룹들로 분할할 수 있다. 예컨대, GOP 분할기(16)는 디코딩된 비디오 시퀀스를 대략 30개의 프레임들의 그룹들로 분할할 수 있는데, 각각의 그룹은 I 프레임으로 시작한다.
인코더(14) 내의 AGOP 구조 결정 모듈(18)은 GOP 분할기(16)에 의해 생성되는 GOP 구조들에 포함된 프레임들 각각에 대한 화상 타입을 결정한다. AGOP 구조 결정 모듈(18)은 임의의 비상관성-기반의 AGOP 구조 결정 기술을 실행할 수 있다. 예컨대, AGOP 구조 결정 모듈(18)은 히스토그램들 또는 변차 측정치들을 사용한 루미넌스(luminance) 및 크로미넌스(chrominance) 신호들 모두의 통계적인 특징들의 분석, 에지 결정 기반 알고리즘들, 움직임 벡터 필드 평가 또는 시간적인 예측 효율성 메트릭들(metrics)에 기초한 알고리즘들을 수행하여, GOP 구조들에 포함된 프레임들에 대한 화상 타입들을 결정할 수 있다. 이어서, 인코더(14)는 원하는 인코딩 표준을 사용하여 프레임들을 재인코딩하고, 상기 재인코딩된 프레임들을 무선 비디오 브로드캐스팅을 위한 전송기, 저장을 위한 저장 장치, 또는 매우 효율적인 데이터 압축을 원하는 애플리케이션들 또는 서비스들을 위한 다른 장치들에 전송한다.
본 발명의 양상에 따르면, 상관성-기반의 AGOP 구조 결정 모듈(22)은 트랜스코더(10)에 구현된 AGOP 구조 결정 모듈(18)이 비교될 수 있는 오프라인 벤치마크로서 트랜스코더(10)의 외부에 위치될 수 있다. 상관성-기반의 AGOP 구조 결정 모듈(22)은 GOP 분할기(16)에 의해 생성되는 GOP 구조에 포함된 프레임들 각각에 대한 벤치마크 화상 타입을 그 프레임들 간의 상호-상관성들에 기초하여 결정한다.
상관성-기반의 AGOP 구조 결정 모듈(22)에 의해서 수행되는 상호-상관성 계산들은 GOP 구조들에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성, 및 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 포함할 수 있다. 1차 상호-상관성 계산들은 픽셀 도메인에서 계산될 수 있다. 1차 상호-상관성들은 프레임들 간의 비디오 전환 효과들을 검출하기 위해서 분석될 수 있다. 1차 및 2차 상호-상관성들은 이웃 프레임들 간의 시간적인 유사성들을 결정하기 위해서 비교방식으로 분석될 수 있다. 이러한 방식으로, 상관성-기반의 AGOP 구조 결정 모듈(22)은 비디오 전환 효과들 및 시간적인 유사성들에 기초하여 프레임들에 대한 화상 타입들을 결정한다.
비디오 전화 효과들은 비디오 시퀀스의 현재 신으로부터 동일한 비디오 시퀀스의 다른 신(scene)이나 다른 비디오 시퀀스의 다른 신으로 전환하는데 사용되는 시각적인 비디오 효과들을 지칭한다. 일반적으로, 비디오 전환 효과들은 다음과 같은 3개의 카테고리들로 분할될 수 있다: 컷 신 변화들, 슛 경계들(shot boundaries) 및 플래시 프레임들과 같은 콤팩트 지원 효과들, 크로스-페이드들 및 디졸브들(dissolves)과 같은 확장된 지원 효과들, 및 카메라 팬들 및 카메라 스크롤들과 같은 글로벌 움직임 효과들. 시간적인 유사성들은 현재 프레임과 이웃 프레임들 간의 이미지 컨텐트 또는 세부사항 반복의 레벨을 지칭한다. 시간적인 유사성들을 측정하는 것은 현재 프레임이 P, B, 또는 I 화상과 같은 인코딩에 적합한 컨텐트를 포함하는지 여부를 결정하는데 도움을 줄 수 있다. 예컨대, 만약 현재 프레임이 임의의 이웃 프레임들과 유사하지 않다면, 현재 프레임은 I 화상으로서 인코딩되어야 한다. 만약 현재 프레임이 이전의 이웃 프레임과는 유사하지만 후속하는 이웃 프레임과는 유사하지 않다면, 현재 프레임은 P 화상으로서 인코딩되어야 한다. 만약 현재 프레임이 이전의 이웃 프레임 및 후속하는 이웃 프레임 양쪽 모두와 유사하다면, 현재 프레임은 P 화상 또는 B 화상 중 어느 하나로서 인코딩되어야 한다.
일양상에 있어서, 상관성-기반의 AGOP 구조 결정 모듈(22)은 GOP 구조들에 포함된 프레임들의 쌍들 내에 있는 이미지들 간의 1차 상호-상관성을 계산한다. 1차 이미지 상호-상관성들은 프레임들의 쌍들 간의 글로벌한, 즉, 전체적인 유사성 및 글로벌한 움직임의 양들을 식별하지만, 서브이미지들의 더 작은 스케일로 프레임들 내에서 발생한 움직임은 식별하지 않는다. 이러한 경우에, 상관성-기반의 AGOP 구조 결정 모듈(22)은 전체 프레임들에 대한 화상 타입들을 결정할 수 있다.
다른 양상에 있어서, 상관성-기반의 AGOP 구조 결정 모듈(22)은 GOP 구조들에 포함된 프레임들의 쌍들 내에 있는 예컨대 매크로블록들과 같은 서브이미지들의 세트들 간의 1차 상호-상관성을 계산하고, 프레임들의 쌍들 각각에 대한 서브이미지들 전체나 또는 그 중 일부에 걸쳐 상호-상관성들을 평균한다. 1차 서브이미지 상호-상관성들은 프레임들의 쌍들 간의 움직임 양들 및 서브이미지 유사성을 식별하고, 그 프레임들 내의 어느 곳에서 움직임이 발생했는지를 식별한다. 이러한 경우에, 상관성-기반의 AGOP 구조 결정 모듈(22)은 공통 이미지 크기를 달성하기 위해서 패딩(padding) 픽셀들을 추가함으로써 서브이미지들의 세트에 서브이미지를 패딩한다. 이러한 방식으로, 상관성-기반의 AGOP 구조 결정 모듈(22)은 제 1 프레임 내의 패딩된 서브이미지들 각각을 제 2 프레임 내의 잠재적으로 상이한 본래 크기를 갖는 패딩된 서브이미지와 상호-상관시킬 수 있다. 예컨대, 서브이미지는 64×64 이미지에 패딩될 수 있는 16×16 매크로블록을 포함할 수 있다. 다른 예들에서, 서브이미지는 16×8, 8×16, 8×8 또는 더 작은 픽셀 블록을 포함할 수 있다. 게다가, 비디오 시퀀스에 포함된 프레임들 각각은 상관성-기반의 AGOP 구조 결정 모듈(22)이 프레임들 각각의 개별적인 슬라이스들에 대한 화상 타입들을 결정할 수 있다.
상관성-기반의 AGOP 구조 결정 모듈(22)은 GOP 구조들에 포함된 프레임들에 대한 화상 타입들을 결정할 때 코딩 효율성 관점에서 높은 레벨의 정확성을 달성하고, 그럼으로써 그것은 다른 AGOP 결정 기술들의 평가를 위한 "골드 표준"으로서 간주될 수 있다. 벤치마크 비교기(20)는 실시간 트랜스코더(10)에 통합되는 AGOP 구조 결정 모듈(18)의 정확성을 결정하기 위해서, AGOP 구조 결정 모듈(18)에 의해 실시간적으로 결정되는 화상 타입들을 상관성-기반의 AGOP 구조 결정 모듈(22)에 의해 결정되는 벤치마크 화상 타입들에 비교한다. 이러한 방식으로, AGOP 구조 결정 모듈(18)에 대한 변화들이 트랜스코더(10) 내에서의 구현에 앞서 상관성-기반의 AGOP 구조 결정 모듈(22)의 "골드 표준"에 대해 테스트될 수 있다.
GOP 구조들에 포함된 프레임들에 대한 화상 타입들을 정확히 결정하는 것은 필요한 인코딩 비트-레이트들을 감소시키고, 프레임들의 효율적인 압축을 가능하게 한다. 예컨대, I, P 및 B 프레임들의 GOP 구조를 정확히 결정하는 것은 인코더(14)로 하여금 프레임들의 상이한 중복성 타입들 및 종속성 구조들을 이용하고, 프레임들의 상이한 복잡성들에 대한 압축 도구들(tools)의 적합한 세트들을 활용하며, 브로드캐스트 애플리케이션들을 위한 채널 스위칭과 같은 애플리케이션 특정 요건들을 지원함으로써 그 프레임들을 효율적으로 인코딩하도록 허용한다. 이러한 방식으로, 인코더(14)는 트랜스코더(10) 내에서의 레이트-왜곡 트레이드오프를 향상시킬 수 있다. 또한, 컨텐트 종속 화상 타입 결정은 인코더(14)로 하여금 향상된 비디오 전환들의 더 나은 처리 및 향상된 코딩 효율성을 위해 신호 상관성들을 더 잘 활용할 수 있게 한다.
인코더(14)는 MPEG-2(Part 2), MPEG-4(Part 2), ITU-T H.263, 또는 ITU-T H.264/MPEG-4(Part 10) Advanced Video Coding(AVC)과 같은 비디오 압축 표준에 따라 동작할 수 있다. 비록 도 1에는 도시되지 않았지만, 일부 양상들에 있어서, 인코더(14)는 오디오 디코더 및 인코더와 통합될 수 있고, 공통 데이터 스트림 또는 별도의 데이터 스트림들에 있는 오디오 및 비디오 양쪽 모두의 인코딩을 처리하기 위해서 적합한 MUX-DEMUX 유닛들 또는 다른 하드웨어 및 소프트웨어를 포함할 수 있다. 만약 적용가능하다면, MUX-DEMUX 유닛들은 ITU-T H.223 멀티플렉서 프로토콜, 또는 사용자 데이터그램 프로토콜(UDP)과 같은 다른 프로토콜을 따를 수 있다.
H.264/MPEG-4 Part 10(AVC) 표준은 ISO/IEC MPEG(Moving Picture Experts Group)와 함께 ITU-T VCEG(Video Coding Experts Group)에 의해서 JVT(Joint Video Team)으로 공지된 총괄적인 파트너쉽(partnership)의 결과(product)로서 공식화되었다. H.264 표준은 2005년 3월에 ITU-T Study Group에 의한 ITU-T Recommendation H.264의 "Advanced video coding for generic audiovisual services"에 설명되어 있고, 이는 H.264 표준 또는 H.264 규격, 또는 H.264/AVC 표준 또는 규격으로서 여기서 지칭될 수 있다.
JVT(Joint Video Team)는 H.264/MPEG-4 AVC로의 스케일가능한 비디오 코딩(SVC) 확장에 대해서 계속하여 기능한다. evolving SVC 확장의 규격은 JD(Joint Draft)의 형태를 갖는다. JVT 구현들에 의해서 생성되는 JSVM(Joint Scalable Video Model)은 스케일가능한 비디오 코딩에 있어 사용하기 위한 도구를 만드는데, 이는 본 발명에서 설명되는 다양한 코딩 작업들을 위해 트랜스코더(10) 내에서 사용될 수 있다. FGS(Fine Granular Scalability) 코딩에 관한 세부적인 정보는 Joint Draft 문헌들, 예컨대 Joint Draft 6(SVC JD6)(Thomas Wiegand, Gary Sullivan, Julien Reichel, Heiko Schwarz, 및 Mathias Wien, "Joint Draft 6: Scalable Video Coding", JVT-S 201, 2006년 4월, 제네바) 및 Joint Draft 9(SVC JD9)(Thomas Wiegand, Gary Sullivan, Julien Reichel, Heiko Schwarz, 및 Mathias Wien, "Joint Draft 9 of SVC Amendment", JVT-V 201, 2007년 1월, 모르코의 마라케시)에서 찾아볼 수 있다.
일부 양상들에 있어서는, 비디오 브로드캐스팅의 경우, 본 발명에서 설명된 기술들은 기술 표준 TIA-1099("FLO 규격")으로서 공개될 FLO(Forward Link Only) 에어 인터페이스 규격 "Forward Link Only Air Interface Specification for Terrestrial Mobile Multimedia Multicast"를 사용하는 지상 이동 멀티미디어 멀티캐스트(TM3)에서 실시간 비디오 서비스들을 전달하기 위해 개선된 H.264 비디오 코딩에 적용될 수 있다. FLO 규격은 FLO 에어 인터페이스를 위해 적절한 비트스트림 신택스 및 시맨틱스들(semantics)과 디코딩 처리들을 정의하는 예들을 포함한다. 대안적으로, 비디오는 DVB-H(digital video broadcast-handheld), ISDB-T(integrated services digital broadcast-terrestrial), 또는 DMB(digital multimedia broadcasting)와 같은 다른 표준들에 따라 브로드캐스팅될 수 있다. 따라서, 코딩된 비디오 데이터의 비디오 시퀀스는 이동 무선 단말기, 비디오 스트리밍 서버, 또는 비디오 브로드캐스트 서버로부터 전송될 수 있다. 그러나, 본 발명에서 설명된 기술들은 임의의 특정 타입의 브로드캐스트, 멀티캐스트, 유니캐스트 또는 다른 포인트-투-포인트 시스템으로 제한되지 않는다. 브로드캐스트의 경우, 비디오 데이터 제공자는 코딩된 비디오 데이터의 수 개의 채널들을 다수의 수신 장치들에 브로드캐스팅할 수 있다.
도 2는 실시간 트랜스코더(24)에 구현되는 상관성-기반의 AGOP 구조 결정 모듈(22)의 예시적인 구현을 나타내는 블록도이다. 도 2의 예에서, 상관성-기반의 AGOP 구조 결정 모듈(22)은 도 1에서처럼 상이한 GOP 구조 결정 모듈을 평가하기 위해 벤치마크로서 사용되는 대신에 트랜스코딩을 위해서 사용된다. 트랜스코너(24)는 집적 회로 장치로서 총괄하여 지칭될 수 있는 하나 이상의 집적 회로 장치들로서 적어도 부분적으로 형성될 수 있다. 일부 양상들에 있어서, 트랜스코더(24)는 이동 전화기와 같은 무선 통신 장치 핸드셋의 일부를 형성할 수 있다.
도 2에 도시된 바와 같이, 트랜스코더(24)는 디코더(25), 사전-프로세서(26) 및 인코더(28)를 포함한다. 사전-프로세서(26)는 GOP 분할기(30) 및 복잡성 감소 모듈(32)을 포함한다. 인코더(28)는 상관성-기반의 AGOP 구조 결정 모듈(22)을 포함한다. 도 2에 도시된 구현에 있어서, 상관성-기반의 AGOP 구조 결정 모듈(22) 전체는 인코더(28)에 포함된다. 다른 구현들에 있어서, 상관성-기반의 AGOP 구조 결정 모듈(22)의 기능들은 사전-프로세서(26)와 인코더(28) 간에 분할될 수 있다. 예컨대, 상관성-기반의 AGOP 구조 결정 모듈(22)은 사전-프로세서(26) 내에서의 상호-상관성을 계산할 수 있고, 인코더(28) 내에서의 상관성 분석 및 화상 타입 결정들을 수행할 수 있다.
트랜스코더(24)는 코딩된 비디오 데이터를 포함하는 비디오 데이터 제공자로부터 비디오 시퀀스를 수신한다. 도 1을 참조하여 위에서 설명된 바와 같이, 비디오 시퀀스는 예컨대 MPEG-2(Part 2)를 사용하여 인코딩된 디지털 텔레비전 데이터와 같은 단일 프레임 내에서 유사성 또는 연속적인 프레임들 간의 유사성들을 가장 효과적으로 활용하는 알고리즘들을 지원하지 않는 비디오 인코딩 표준을 사용하여 코딩된 비디오 데이터를 포함할 수 있다. 트랜스코더(24)는 ITU-T H.264와 같은 다른 더욱 개선된 인코딩 표준으로 비디오 시퀀스를 변환할 수 있다. 예컨대, 트랜스코더(24)는 무선 비디오 브로드캐스팅, 효율적인 저장, 또는 매우 효율적인 데이터 압축을 원하는 다른 애플리케이션들이나 서비스들을 위해 비디오 프레임들을 준비하기 위해 비디오 시퀀스를 재인코딩할 수 있다.
비디오 시퀀스를 변환하기 위해서, 디코더(25)는 덜 효율적인 본래 코딩 표준으로부터 비디오 시퀀스를 디코딩한다. 이어서, 사전-프로세서(26) 내의 GOP 분할기(30)는 디코딩된 비디오 시퀀스를 다수의 프레임들을 포함하는 GOP 구조들로 분할한다. GOP 분할기(30)는 비디오 시퀀스를 위한 균일한 I 프레임 간격을 가능하게 하는 랜덤 액세스에 기초하여 미리 결정된 GOP 크기에 따라서 또는 비디오 시퀀스 내의 I 프레임들을 가능하게 하는 랜덤 액세스의 랜덤한 위치결정에 따라서, 디코딩된 비디오 시퀀스를 프레임들의 그룹들로 분할할 수 있다. 예컨대, GOP 분할기(30)는 디코딩된 비디오 시퀀스를 대략 30개의 프레임들의 그룹들로 분할할 수 있는데, 각각의 그룹은 I 프레임으로 시작한다.
도 1을 참조하여 위에서 설명된 바와 같이, 상관성-기반의 AGOP 구조 결정 모듈(22)은 상호-상관성 계산들이 비실시간적으로 수행될 때 AGOP 결정 기술들을 위한 "골드 표준"으로서 간주될 수 있다. 그러므로, 상관성-기반의 AGOP 구조 결정 모듈(22)이 비실시간 트랜스코더 내에서 구현되는 경우에 있어서, 상관성-기반의 AGOP 구조 결정 모듈(22)은 어떠한 복잡성 감소도 없이 비실시간적으로 화상 타입들을 결정할 수 있다. 그러나, 도 2에 도시된 양상에 있어서, 트랜스코더(24)가 실시간 트랜스코더를 포함하는 경우, 트랜스코더(24) 내에 구현된 상관성-기반의 AGOP 구조 결정 모듈(22)은 화상 타입들의 실시간적인 결정을 가능하게 하기 위해서 복잡성 감소들이 이루어질 수 있다.
도 2에 도시된 구현에 있어서, 사전-프로세서(26)는 상관성-기반의 AGOP 구조 결정 모듈(22)로 하여금 최소 손실의 정확성을 통해 실시간적으로 상호-상관성을 계산할 수 있도록 하기 위해서 일정한 복잡성 감소들을 수행하는 복잡성 감소 모듈(32)을 포함한다. 예컨대, 복잡성 감소 모듈(44)은 GOP 구조에 포함된 프레임들 내의 이미지 정보의 해상도를 감소시킬 수 있다. 복잡성 감소 모듈(32)은 또한 상관성-기반의 AGOP 구조 결정 모듈(22)이 임의의 정해진 프레임에 대한 화상 타입을 결정할 때 계산할 수 있는 상호-상관성 계산들의 수를 제한할 수 있다. 일부 구현들에 있어서, 복잡성 감소 모듈(32)은 상관성-기반의 AGOP 구조 결정 모듈(22)의 실시간적인 기능들이나 또는 비디오 데이터 중 어느 하나에 대해 다른 복잡성 감소들을 수행할 수 있다.
일단 복잡성 감소 모듈(44)이 필요한 복잡성 감소들을 수행하였다면, 인코더(24) 내의 상관성-기반의 AGOP 구조 결정 모듈(22)은 GOP 분할기(30)에 의해 생성되는 GOP 구조들에 포함된 프레임들 각각에 대한 실시간적인 화상 타입을 그 프레임들 간의 상호-상관성에 기초하여 결정한다. 이어서, 인코더(28)는 원하는 인코딩 표준을 사용하여 프레임들을 재인코딩하고, 무선 비디오 브로드캐스팅을 위한 전송기, 저장을 위한 저장 장치, 또는 매우 효율적인 데이터 압축을 원하는 애플리케이션들 또는 서비스들을 위한 다른 장치들에 그 재인코딩된 프레임들을 전송한다.
상관성-기반의 AGOP 구조 결정 모듈(22)은 도 1을 참조하여 위에서 설명된 바와 같이 동작한다. 도 2에 도시된 예에서, 상관성-기반의 AGOP 구조 결정 모듈(22)의 동작은 복잡성 감소가 이루어질 수 있다. 그러나, 도 2에 도시된 예는 제한하기 위한 것으로 의도되지 않는다. 다른 예들에서, 트랜스코더(24)는 실시간적으로 그리고 어떠한 복잡성 감소들도 없이 상관성-기반의 AGOP 구조 결정 모듈(22)을 구현하기 위해서, 단위 시간 성능들마다의 지원되는 수의 계산들에 있어 충분히 강력한 소프트웨어, 하드웨어, 및/또는 펌웨어 플랫폼을 포함할 수 있다.
상호-상관성들은 GOP 구조에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들, 및 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 포함한다. 1차 상호-상관성들은 픽셀 도메인에서 계산될 수 있다. 1차 상호-상관성들은 프레임들 간의 비디오 전환들을 검출하기 위해 분석될 수 있다. 상기 1차 및 2차 상호-상관성들은 이웃 프레임들 간의 시간적인 유사성들을 결정하기 위해서 비교방식으로 분석될 수 있다. 이러한 방식으로, 상관성-기반의 AGOP 구조 결정 모듈(22)은 비디오 전환들 및 시간적인 유사성들에 기초하여 프레임들에 대한 화상 타입들을 결정한다.
일양상에 있어서, 상관성-기반의 AGOP 구조 결정 모듈(22)은 GOP 구조에 포함된 프레임들의 쌍들 내에 있는 이미지들 간의 1차 상호-상관성들을 계산한다. 1차 이미지 상호-상관성들은 프레임들의 쌍들 간의 글로벌한, 즉, 전체적인 유사성 및 글로벌한 움직임의 양들을 식별하지만, 더 작은 스케일의 서브이미지들의 프레임들 내에서 발생하는 움직임을 식별하지 않는다. 이러한 경우에, 상관성-기반의 AGOP 구조 결정 모듈(22)은 전체 프레임들에 대한 화상 타입들을 결정할 수 있다.
다른 양상에 있어서, 상관성-기반의 AGOP 구조 결정 모듈(22)은 GOP 구조에 포함된 프레임들의 쌍들 내에 있는 예컨대 매크로블록들과 같은 서브이미지들의 세트들 간의 1차 상호-상관성들을 계산하고, 프레임들의 쌍들 각각에 대한 서브이미지들 전체 또는 그 중 일부에 걸쳐 상호-상관성들을 평균한다. 1차 서브이미지 상호-상관성들은 프레임들의 쌍들 간의 움직임의 양들 및 서브이미지 유사성을 식별하고, 프레임들 내의 어디에서 움직임이 발생하였는지를 식별한다. 이러한 경우에, 상관성-기반의 AGOP 구조 결정 모듈(22)은 공통 이미지 크기를 달성하기 위해서 패딩 픽셀들을 추가함으로써 서브이미지들의 세트에 각각의 서브이미지를 패딩한다. 이러한 방식으로, 상관성-기반의 AGOP 구조 결정 모듈(22)은 제 1 프레임 내의 패딩된 서브이미지들 각각을 제 2 프레임 내의 잠재적으로 상이한 본래 크기의 패딩된 서브이미지들과 상호-상관시킬 수 있다. 예컨대, 서브이미지는 64×64 이미지에 패딩될 수 있는 16×16 매크로블록을 포함할 수 있다. 다른 예들에서, 서브이미지는 16×8, 8×16, 8×8 또는 더 작은 픽셀 블록을 포함할 수 있다. 추가적으로, 비디오 시퀀스에 포함된 프레임들 각각은 다수의 슬라이스들로 분할될 수 있음으로써, 상관성-기반의 AGOP 구조 결정 모듈(22)이 프레임들 각각의 개별적인 슬라이스들에 대한 화상 타입들을 결정할 수 있다.
상관성-기반의 AGOP 구조 결정 모듈(22)은 코딩 효율성 관점에서, GOP 구조들에 포함된 프레임들에 대한 화상 타입들의 정확한 실시간 결정을 가능하게 한다. GOP 구조들에 포함된 프레임들의 화상 타입들을 정확하게 결정하는 것은 인코딩 비트-레이트들을 감소시키고, 프레임들의 효율적인 압축을 가능하게 한다. 예컨대, I, P, 및 B 프레임들의 GOP 구조를 정확하게 결정하는 것은 인코더(28)로 하여금 프레임들의 상이한 중복성 타입들 및 의존성 구조들을 이용하고, 프레임들의 상이한 복잡성들에 대한 압축 도구들의 적합한 세트들을 활용하며, 브로드캐스트 애플리케이션들을 위한 채널 스위칭과 같은 애플리케이션 특정 요건들을 지원함으로써 프레임들을 효율적으로 인코딩하도록 허용한다. 이러한 방식으로, 인코더(28)는 트랜스코더(24) 내에서의 레이트-왜곡 트레이드오프를 향상시킬 수 있다. 또한, 컨텐트 종속 화상 타입 결정은 인코더(28)로 하여금 비디오 전환들의 더 나은 처리 및 향상된 코딩 효율성을 위한 신호 상관성들을 더 잘 활용할 수 있게 한다. 인코더(28)는 도 1의 인코더(14)와 실질적으로 유사하게 동작할 수 있다. 그러므로, 코딩된 비디오 데이터의 비디오 시퀀스는 이동 무선 단말기, 비디오 스트리밍 서버, 또는 비디오 브로드캐스트 서버일 수 있다. 브로드캐스트의 경우에, 비디오 데이터 제공자는 코딩된 비디오 데이터의 수개의 채널들을 다수의 수신 장치들에 브로드캐스팅할 수 있다.
다른 양상에 있어서, 트랜스코더(24)는 도 1의 AGOP 구조 결정 모듈(18)과 유사한 AGOP 구조 결정 모듈 및 상관성-기반의 AGOP 구조 결정 모듈(22) 양쪽 모두를 포함할 수 있다. 이러한 방식으로, 트랜스코더(24)는, 상호-상관성들에 기초하여 실시간적으로 화상 타입들을 결정하기에 충분한 자원들이 이용가능할 때, 상관성-기반의 AGOP 구조 결정 모듈(22)을 활용할 수 있다. 그러나, 자원이 부족할 때는, 트랜스코더(24)는 그 대신에 비상관성-기반의 AGOP 구조 결정 모듈을 활용할 수 있고, 이는 화상 타입들에 대한 실시간적인 결정에 있어 더 빠르긴 하지만 덜 정확할 수 있다.
도 3은 실시간 인코더(36)에 구현되는 AGOP 구조 결정 모듈(40)이 비교될 수 있는 오프라인 벤치마크로서 상관성-기반의 AGOP 구조 결정 모듈(22)의 예시적인 구현을 나타내는 블록도이다. 인코더(36)는 집적 회로 장치로서 총괄적으로 지칭될 수 있는 하나 이상의 집적 회로 장치들로서 적어도 부분적으로 형성될 수 있다. 일부 양상들에 있어서, 인코더(36)는 이동 전화기와 같은 무선 통신 장치 핸드셋의 일부를 형성할 수 있다.
도 3에 도시된 바와 같이, 인코더(36)는 GOP 분할기(38) 및 AGOP 구조 결정 모듈(40)을 포함한다. 인코더(36)는 단일-패스 또는 다중-패스 비디오 인코더를 포함할 수 있다. 인코더(36)는 MPEG-2(Part 2), MPEG-4(Part 2), ITU-T H.263, 또는 ITU-T H.264/MPEG-4(Part 10) AVC(Advanced Video Coding)과 같은 비디오 압축 표준에 따라 동작할 수 있다.
인코더(36)는 사전에 압축되지 않은 미가공된 비디오 데이터를 포함하는 비디오 시퀀스를 비디오 데이터 제공자로부터 수신한다. 많은 비디오 애플리케이션들, 특히 무선 비디오 브로드캐스팅 애플리케이션들은 더욱 정교한 알고리즘에 의해 프레임들에 걸쳐 그리고 프레임들 내에서 데이터 중복성을 이용하는 ITU-T H.264와 같은 개선된 인코딩 표준들에 의해 제공되는 매우 효율적인 데이터 압축을 필요로 한다. 예컨대, 인코더(36)는 무선 비디오 브로드캐스팅, 효율적인 저장, 또는 매우 효율적인 데이터 압축을 원하는 다른 애플리케이션들 또는 서비스들을 위한 비디오 프레임들을 준비하기 위해서 비디오 시퀀스를 인코딩할 수 있다.
비디오 시퀀스를 인코딩하기 위해서, GOP 분할기(38)는 비디오 시퀀스를 다수의 프레임들을 포함하는 GOP 구조들로 분할한다. GOP 분할기(38)는 비디오 시퀀스를 위한 균일한 I 프레임 간격을 가능하게 하는 랜덤 액세스에 기초하여 미리 결정되는 GOP 구조 크기에 따라서 또는 비디오 시퀀스 내의 I 프레임들을 가능하게 하는 랜덤 액세스의 랜덤한 위치결정에 따라서 비디오 시퀀스를 프레임들의 그룹들로 분할할 수 있다. 예컨대, GOP 분할기(38)는 비디오 시퀀스를 대략 30개의 프레임들의 그룹들로 분할할 수 있는데, 각각의 그룹은 I 프레임으로 시작한다. 다른 경우들에 있어서, GOP 분할기(38)는 기초가 되는 전송 방식들의 물리 층 패킷화 및 데이터 버스트 특징들에 기초한 고려사항들에 따라 프레임들의 그룹들로 비디오 시퀀스를 분할할 수 있다. 통계적인 멀티플렉싱 방식 및 그것의 설계의 존재는 또한 GOP 분할기(38)가 비디오 시퀀스를 프레임들의 그룹들로 분할하는 방식에 영향을 줄 수 있다.
인코더(36) 내의 AGOP 구조 결정 모듈(40)은 GOP 분할기(38)에 의해 생성되는 GOP 구조들에 포함된 프레임들 각각에 대한 화상 타입을 결정한다. AGOP 구조 결정 모듈(40)은 임의의 비상관성-기반의 AGOP 구조 결정 기술을 실행할 수 있다. 이어서, 인코더(36)는 원하는 인코딩 표준을 사용하여 프레임들을 인코딩하며, 무선 비디오 브로드캐스팅을 위한 전송기, 저장을 위한 저장 장치, 또는 매우 효율적인 데이터 압축을 원하는 애플리케이션들 또는 서비스들을 위한 다른 장치들에 인코딩된 프레임들을 전송한다.
본 발명의 일양상에 따르면, 상관성-기반의 AGOP 구조 결정 모듈(22)은 인코더(36)에 구현되는 AGOP 구조 결정 모듈(40)이 비교될 수 있는 오프라인 벤치마크로서 인코더(36)의 외부에 위치될 수 있다. 상관성-기반의 AGOP 구조 결정 모듈(22)은 프레임들 간의 상호-상관성들에 기초하여 GOP 분할기(38)에 의해 생성되는 GOP 구조들에 포함된 프레임들 각각에 대한 벤치마크 화상 타입을 결정한다. 상관성-기반의 AGOP 구조 결정 모듈(22)은 도 1을 참조하여 위에서 설명된 바와 같이 동작한다.
상관성-기반의 AGOP 구조 결정 모듈(22)은 코딩 효율성 관점에서, GOP 구조들에 포함된 프레임들에 대한 화상 타입들을 결정할 때 높은 레벨의 정확성을 달성할 수 있고, 그럼으로써 그것은 다른 AGOP 결정 기술들의 평가를 위한 "골드 표준"으로서 간주될 수 있다. 벤치마크 비교기(42)는 AGOP 구조 결정 모듈(40)에 의해 실시간적으로 결정되는 화상 타입들을 상관성-기반의 AGOP 구조 결정 모듈(22)에 의해 결정되는 벤치마크 화상 타입들에 비교함으로써, 실시간 인코더(36)에 통합된 AGOP 구조 결정 모듈(40)의 정확성을 결정한다. 이러한 방식으로, AGOP 구조 결정 모듈(40)에 대한 변화들이 인코더(36) 내에서의 구현에 앞서 상관성-기반의 AGOP 구조 결정 모듈(22)의 "골드 표준"에 대해 테스트될 수 있다.
도 4는 실시간 인코더(44)에 구현되는 상관성-기반의 AGOP 구조 결정 모듈(22)의 예시적인 구현을 나타내는 블록도이다. 도 4의 예에서, 상관성-기반의 AGOP 구조 결정 모듈(22)은 도 3에서처럼 상이한 GOP 구조 결정 모듈을 평가하기 위해 벤치마크로서 사용되는 대신에 인코딩을 위해 사용된다. 인코더(44)는 집적 회로 장치로서 총괄적으로 지칭될 수 있는 하나 이상의 집적 회로 장치들로서 적어도 부분적으로 형성될 수 있다. 일부 양상들에 있어서, 인코더(44)는 이동 전화기와 같은 무선 통신 장치 핸드셋의 일부를 형성할 수 있다.
도 4에 도시된 바와 같이, 인코더(44)는 GOP 분할기(46), 복잡성 감소 모듈(48), 및 상관성-기반의 AGOP 구조 결정 모듈(22)을 포함한다. 인코더(44)는 단일-패스 또는 다중-패스 비디오 인코더를 포함할 수 있다. 인코더(44)는 MPEG-2(Part 2), MPEG-4(Part 2), ITU-T H.263, 또는 ITU-T H.264/MPEG-4(Part 10) AVC(Advanced Video Coding)과 같은 비디오 압축 표준에 따라 동작할 수 있다.
인코더(44)는 사전에 압축되지 않은 미가공된 비디오 데이터를 포함하는 비디오 시퀀스를 비디오 데이터 제공자로부터 수신한다. 인코더(32)는 무선 비디오 브로드캐스팅, 효율적인 저장, 또는 매우 효율적인 데이터 압축을 원하는 다른 애플리케이션들 또는 서비스들을 위한 비디오 프레임들을 준비하기 위해서 비디오 시퀀스를 인코딩할 수 있다. 비디오 시퀀스를 인코딩하기 위해서, GOP 분할기(46)는 비디오 시퀀스를 다수의 프레임들을 포함하는 GOP 구조들로 분할한다. 위에서 설명된 바와 같이, 상관성-기반의 AGOP 구조 결정 모듈(22)은 상호-상관성 계산들이 비실시간적으로 수행될 때 AGOP 결정 기술들을 위한 "골드 표준"으로서 간주될 수 있다. 그러므로, 상관성-기반의 AGOP 구조 결정 모듈(22)이 비실시간 인코더 내에서 구현되는 경우에, 상관성-기반의 AGOP 구조 결정 모듈(22)은 어떠한 복잡성 감소들도 없이 비실시간적으로 화상 타입들을 결정할 수 있다. 그러나, 도 4에 도시된 양상에 있어서, 인코더(44)가 실시간 인코더를 포함하는 경우, 인코더(44) 내에 구현되는 상관성-기반의 AGOP 구조 결정 모듈(22)은 화상 타입들의 실시간 결정을 가능하게 하기 위해서 복잡성 감소들이 이루어질 수 있다.
도 4에 도시된 구현에 있어서, 복잡성 감소 모듈(48)은 정확성의 최소 손실을 통해 실시간적으로 상호-상관성 계산들을 수행하기 위해서 상관성-기반의 AGOP 구조 결정 모듈(22)을 가능하게 하기 위해 일정한 복잡성 감소들을 수행한다. 복잡성 감소 모듈(48)은 도 2의 트랜스코더(24)의 사전-프로세서(26) 내에 있는 복잡성 감소 모듈(32)과 실질적으로 유사하게 동작한다.
상관성-기반의 AGOP 구조 결정 모듈(22)은 도 1을 참조하여 위에서 설명된 바와 같이 동작한다. 도 4에 도시된 예에서, 상관성-기반의 AGOP 구조 결정 모듈(22)의 동작은 복잡성 감소들이 이루어질 수 있다. 그러나, 도 4에 도시된 예는 제한을 위한 것으로 의도되지 않는다. 다른 예들에서, 인코더(44)는 실시간으로 그리고 어떠한 복잡성 감소들도 없이 상관성-기반의 AGOP 구조 결정 모듈(22)을 구현하기 위해서 단위 시간 성능들마다 지원되는 수의 계산들에 있어 충분히 강력한 소프트웨어, 하드웨어, 및/또는 펌웨어 플랫폼을 포함할 수 있다.
도 5는 실시간 트랜스코더(10)에 의해 활용되는 오프라인 벤치마크로서 상관성-기반의 AGOP 구조 결정 모듈(22)의 예시적인 동작을 나타내는 흐름도이다. 도 5의 흐름도는 도 1의 실시간 트랜스코더(10)와 관련하여 설명될 것이다. 일단 사전-프로세서(12)가 디코더(11)로부터 디코딩된 비디오 데이터를 수신하면, GOP 분할기(16)는 비디오 데이터를 GOP 구조들로 분할하는데, 각각의 GOP 구조는 다수의 프레임들을 포함한다(50).
실시간 트랜스코더(10)에 구현되는 AGOP 구조 결정 모듈(18)은 GOP 구조들에 포함된 프레임들에 대한 화상 타입들을 실시간적으로 결정한다(52). 실시간 트랜스코더(10)의 외부에 위치한 상관성-기반의 AGOP 구조 결정 모듈(22)은 GOP 구조에 포함된 프레임들에 대한 벤치마크 화상 타입들을 결정한다(54). 상관성-기반의 AGOP 구조 결정 모듈(22)의 출력은 화상 타입 결정 기술들의 "골드 표준"으로서 간주될 수 있다. 그러므로, 벤치마크 비교기(20)는 AGOP 구조 결정 모듈(18)의 정확성을 결정하기 위해서, AGOP 구조 결정 모듈(18)에 의해 결정되는 실시간 계산된 화상 타입들을 상관성-기반의 AGOP 구조 결정 모듈(22)에 의해서 결정된 벤치마크 화상 타입들에 비교한다(55).
도 6은 실시간 트랜스코더(24)에 구현되는 상관성-기반의 AGOP 구조 결정 모듈(22)의 예시적인 동작을 나타내는 흐름도이다. 도 6의 흐름도는 도 2의 실시간 트랜스코더(24)와 관련하여 설명될 것이다. 일단 사전-프로세서(26)가 디코더(25)로부터 디코딩된 비디오 데이터를 수신한다면, GOP 분할기(30)는 비디오 데이터를 GOP 구조들로 분할하는데, 각각의 GOP 구조는 다수의 프레임들을 포함한다(56).
복잡성 감소 모듈(32)은 GOP 구조들에 포함된 프레임들 내에 있는 이미지 정보의 해상도를 감소시킨다(57). 일부 경우들에 있어서, 복잡성 감소 모듈(32)은 또한 임의의 정해진 프레임에 대한 화상 타입을 결정할 때 상관성-기반의 AGOP 구조 결정 모듈(22)이 계산할 수 있는 상호-상관성들의 수를 제한할 수 있다. 이어서, 실시간 트랜스코더(24)에 구현된 상관성-기반의 AGOP 구조 결정 모듈(22)은 GOP 구조들에 포함된 프레임들에 대한 화상 타입들을 실시간적으로 결정한다.
도 7은 상관성-기반의 AGOP 구조 결정 모듈(22)을 더욱 상세하게 나타내는 블록도이다. 위에서 설명된 바와 같이, 상관성-기반의 AGOP 구조 결정 모듈(22)은 실시간 코딩 장치의 외부에 있는 오프라인 벤치마크로서 사용될 수 있거나(도 1 및 도 3), 실시간 코딩 장치에 구현될 수 있다(도 2 및 도 4). 도 7에 도시된 바와 같이, 상관성-기반의 AGOP 구조 결정 모듈(22)은 분석 윈도우 위치결정 모듈(60), 상관기(62), 상관성 분석기(64), 화상 타입 결정 모듈(66), 및 평가 모듈(68)을 포함한다.
일반적으로, 상관성-기반의 AGOP 구조 결정 모듈(22)은 GOP 구조들에 포함된 프레임들을 수신하고, 프레임들의 쌍들 내에 있는 이미지 정보 간의 상호-상관성에 기초하여 프레임들 각각에 대한 화상 타입들을 결정한다. 분석 윈도우 위치결정 모듈(60)은 후보 프레임에 중심을 둔 GOP 구조 내에 미리 결정된 프레임 카운트 폭의 분석 윈도우를 위치시킨다. 예컨대, 분석 윈도우는 5개의 프레임들로 이루어진 시간적인 폭을 가질 수 있음으로써, 후보 프레임에 중심을 둘 때 분석 윈도우는 또한 후보 프레임의 2개의 이전의 이웃 프레임들 및 2개의 후속하는 이웃 프레임들을 포함한다.
상관기(62)는 분석 윈도우에 포함된 프레임들의 쌍들 내에 있는 이미지들 간의 1차 상호-상관성들을 계산한다. 이러한 방식으로, 분석 윈도우는 상관기(62)가 후보 프레임에 대한 화상 타입을 결정하기 위해 계산하는 1차 상호-상관성들의 수를 제한한다. 일양상에 있어서, 상관기(62)는 전체 프레임 이미지들 간의 1차 상호-상관성들을 계산한다. 1차 이미지 상호-상관성들은 프레임들이 쌍들 간의 글로벌한, 즉, 전체적인 유사성 및 글로벌한 움직임의 양들을 식별하지만, 더 작은 스케일의 서브이미지들의 프레임들 내에서 발생한 움직임은 식별하지 않는다. 이어서, 상관기(62)는 1차 이미지 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산한다.
다른 양상에 있어서, 상관기(62)는 프레임들의 쌍들 내의 서브이미지들의 세트들 간의 1차 상호-상관성들을 계산한다. 프레임들 각각 내의 이미지들은 매크로블록들과 같은 다수의 서브이미지들로 분할될 수 있다. 예컨대, 서브이미지는 16×16, 16×8, 8×16 또는 더 작은 픽셀 블록을 포함할 수 있다. 이어서, 제 1 프레임의 서브이미지들 각각은 공통 이미지 크기에 패딩되고, 제 2 프레임으로부터의 패딩된 서브이미지와 상호-상관된다. 상관기(62)는 프레임들의 쌍들 각각에 대한 서브이미지들의 전체나 또는 그 중 일부에 걸쳐 피크 서브이미지 상호-상관성 값들을 평균함으로써 1차 상호-상관성들을 생성한다. 1차 서브이미지 상호-상관성들은 프레임들의 쌍들 간의 움직임의 양들 및 서브이미지 유사성을 식별하고, 프레임들 내의 어디에서 움직임이 발생하였는지를 식별한다. 이어서, 상관기(62)는 1차 서브이미지 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산한다.
상관성 분석기(64)는 상관기(62)로부터 1차 및 2차 상호-상관성들을 수신한다. 상관성 분석기(64)는 1차 상호-상관성들에 기초하여 분석 윈도우 내에서 프레임들 간의 비디오 전환 효과들을 검출한다. 비디오 전환 효과들은 비디오 시퀀스의 현재 신(scene)으로부터 동일한 비디오 시퀀스의 다른 신이나 또는 다른 비디오 시퀀스의 다른 신으로 전환하는데 사용되는 가시적인 비디오 효과들을 지칭한다. 예컨대, 상관성 분석기(64)는 컷 신 변화들, 슛 경계들, 플래시 프레임들, 및 부분적인 신 변화들을 포함하는 콤팩트 지원 비디오 효과들을 검출할 수 있다. 컷 신 변화는 비디오 시퀀스가 동일한 컨텐트 채널 상의 컨텐트의 변화로 인해서나 또는 채널 또는 카메라 스위칭으로 인해서 비디오 신마다 바뀔 때, 발생할 수 있다. 부분적인 장면 변화는, 프레임 구성의 일부가 신마다 바뀌고 그 프레임 구성의 나머지 부분, 예컨대 경계들, 그래픽 및 텍스트 오버레이들(overlays)은 정적일 때, 발생할 수 있다. 플래시 프레임은, 비디오 시퀀스가 비디오 레코딩된 이벤트에서 플래시 포토그래피로 인해 루미넌스 값들을 변경할 때, 발생할 수 있다.
상관성 분석기(64)는 또한 페이드-인들(fade-in) 및 페이드-아웃들(fade-outs)을 특수한 경우들로서 포함하고 또한 줌-인들(zoom-in) 및 줌-아웃(zoom-out)을 포함하는 크로스-페이드들 및 디졸브들을 포함한 확장된 지원 비디오 효과들을 검출할 수 있다. 크로스-페이드는, 예컨대 나라의 지역마다 바뀌는 날씨 맵과 같은 컨텐트의 변화로 인해 비디오 시퀀스가 한 비디오 시퀀스로부터 상이한 비디오 시퀀스로 점차적으로 변할 때, 발생할 수 있다. 또한, 상관성 분석기(64)는 카메라 팬들 및 카메라 스크롤들을 포함하는 글로벌한 움직임 비디오 효과들을 검출할 수 있다. 카메라 팬은, 비디오 카메라의 수평 이동으로 인해 비디오 시퀀스가 한 비디오 시퀀스로부터 상이한 비디오 시퀀스로 점차적으로 변할 때, 발생할 수 있다. 카메라 스크롤은, 비디오 카메라의 수직 이동으로 인해 비디오 시퀀스가 한 비디오 시퀀스로부터 상이한 비디오 시퀀스로 증가적으로 변할 때, 발생할 수 있다.
상이한 비디오 전환 효과들은 분석 윈도우에 포함된 이웃 프레임들과 후보 프레임 간의 세부사항 반복 및 이미지 데이터의 상이한 레벨들을 나타낸다. 예컨대, 만약 컷 신 변화가 후보 프레임에서 발생한다면, 그 후보 프레임은 비디오 시퀀스가 완전하게 변하기 때문에 I 화상으로서 인코딩되어야 한다. 후보 프레임에서 발생하는 부분적인 신 변화의 경우에, 정적인 경계, 그래픽 또는 텍스트 오버레이를 포함하는 후보 프레임의 일부는 P 슬라이스로서 인코딩될 수 있고, 변한 활성 비디오 시퀀스를 포함하는 그 후보 프레임의 일부는 I 슬라이스로서 인코딩될 수 있다. 만약 플래시 프레임, 크로스-페이드, 줌-인 또는 줌-아웃, 또는 카메라 팬 또는 스크롤이 후보 프레임에서 발생한다면, 그 후보 프레임은 비디오 시퀀스가 이전 프레임들 및 어쩌면 후속하는 프레임들에 대한 의존도에 있어 약간 또는 점차적으로 변하기 때문에 P 화상 또는 B 화상 중 어느 하나로서 인코딩될 수 있다.
상관성 분석기(64)는 또한 1차 상호-상관성들 및 2차 상호-상관성들 간의 비교 분석을 수행하고, 그 비교 분석에 기초하여 분석 윈도우 내에 있는 이웃 프레임들 간의 시간적인 유사성들을 결정한다. 그 시간적인 유사성들은 분석 윈도우에 포함된 이웃 프레임들 및 후보 프레임 간의 이미지 세부사항 반복의 레벨을 지칭한다. 시간적인 유사성들의 양은 후보 프레임에 대한 화상 타입을 의미한다. 예컨대, 만약 후보 프레임이 임의의 이전의 이웃 프레임과는 유사하지 않지만 후속하는 이웃 프레임과는 유사하다면, 그 후보 프레임은 I 화상으로서 인코딩되어야 한다. 만약 후보 프레임이 이전의 이웃 프레임과는 유사하지만 후속하는 이웃 프레임과는 유사하지 않다면, 그 후보 프레임은 P 화상으로서 인코딩되어야 한다. 만약 후보 프레임이 이전의 이웃 프레임 및 후속하는 이웃 프레임 양쪽 모두와 유사하다면, 그 후보 프레임은 P 화상 또는 B 화상 중 어느 하나로서 인코딩되어야 한다. 이러한 경우에, 분석 윈도우에 포함된 이웃 프레임들 간의 1차 상호-상관성들 및 2차 상호-상관성들은 후보 프레임이 P 화상으로서 인코딩되어야 하는지 또는 B 화상으로서 인코딩되어야 하는지 여부를 결정하는데 도움을 줄 수 있다. 예컨대, 만약 이전의 이웃 프레임이 후속하는 이웃 프레임과 유사하다면, 그 후보 프레임은 P 화상으로서 인코딩되어야 한다.
화상 타입 결정 모듈(66)은 상관성 분석기(64)로부터 비디오 전환 효과 정보 및 시간적인 유사성 정보를 수신한다. 화상 타입 결정 모듈(66)은 분석 윈도우 내에서 검출되는 비디오 전환 효과들 및 분석 윈도우에 포함된 프레임들 간의 시간적인 유사성들에 기초하여 후보 프레임에 대한 화상 타입을 결정한다. 상관기(62)가 이미지 상호-상관성들을 계산하는 구현에 있어서, 화상 타입 결정 모듈(66)은 후보 프레임에 대한 화상 타입을 전체로서 결정할 수 있다. 상관기(92)가 서브이미지 상호-상관성들을 계산하는 구현에 있어서, 후보 프레임은 다수의 슬라이스들로 분할될 수 있고, 그럼으로써 화상 타입 결정 모듈(66)은 후보 프레임의 개별적인 슬라이스들 각각에 대한 화상 타입을 결정할 수 있다.
평가 모듈(68)은 프레임 컨텐트, 레이트-왜곡 향상 특징들, 및 인코딩 대역폭 제도 특징들에 대한 화상 타입 결정 모듈(66)의 종속성에 기초하여 그 화상 타입 결정 모듈(66)의 성능을 측정한다. 평가 모듈(68)은 GOP 구조에서 결정된 P, B 및 I 화상들의 갯수 및 시간적인 위치들에 따라서 PSNR 향상 모델 또는 코딩 이득 모델을 활용할 수 있다. PSNR 향상 모델에서의 사용을 위해, 그 결정된 화상 타입들은 시간적인 예측을 위해 이용가능한 기준 화상들의 유효 카운트의 형태로 요약될 수 있다. 평가 모듈(68)의 출력은 상관성-기반의 AGOP 구조 결정 모듈(22)에 의한 화상 타입 결정들의 정확성을 더욱 향상시키기 위해 사용될 수 있다. 평가 모듈(68)의 출력은 수치 값들 또는 표들의 형태일 수 있다. 평가 모듈(68)은 상관성-기반의 AGOP 구조 결정 모듈(22)이 실시간 코딩 장치(도 2 및 도 4) 내에 구현되는 구현에서 특히 유용할 수 있다.
비디오 데이터가 베이스 층 및 인핸스먼트 층으로 인코딩되는 구현에 있어서, 즉, SVC(scalable video coding)의 경우에, 상관성-기반의 AGOP 구조 결정 모듈(22)은 인핸스먼트 층에 기초하여 베이스 층에서 프레임 타입 결정들에 대한 변화들을 가능하게 하는 층형성 모듈(layering module)(도 7에 미도시)을 포함할 수 있다. 예컨대, 베이스 층에 포함된 특정 프레임 타입들은 베이스 층 및 인핸스먼트 층 간의 대역폭 균형을 향상시킬 수 있다. 그러므로, 그 층형성 모듈은 대역폭 균형을 향상시키기 위해서 인핸스먼트 층 내의 프레임 타입에 기초하여 베이스 층 인코딩 내의 프레임 타입을 변경할 수 있다.
도 8a 내지 도 8c는 비디오 시퀀스에 포함된 프레임들 간의 1차 및 2차 상호-상관성들을 나타내는 그래프들이다. 일양상에 있어서, 도 7의 상관기(62)는 분석 윈도우(70)에 포함된 프레임들의 쌍들 내에 있는 이미지들 간의 여기서 설명된 1차 상호-상관성들을 계산한다. 다른 양상에 있어서, 상관기(62)는 분석 윈도우(70)에 포함된 프레임들의 쌍들 내에 있는 예컨대 매크로블록들과 같은 서브이미지들의 세트들 간의 여기서 설명된 1차 상호-상관성들을 계산하고, 프레임들의 쌍들 각각에 대한 서브이미지들의 전체 또는 그 중 일부에 걸쳐 상호-상관성들을 평균한다.
도 8a는 도 7의 분석 윈도우 위치결정 모듈(60)에 의해서 GOP 구조 내에 분석 윈도우(70)의 위치를 결정하는 것을 나타낸다. 도 8a에 도시된 바와 같이, 분석 윈도우(70)는 후보 프레임(fk)(72)에 중심을 둔 GOP 구조 내에 위치되고, 미리 결정된 이웃 프레임들의 수를 포함한다. 예컨대, 분석 윈도우(70)는 5개의 프레임들로 이루어진 미리 결정된 시간적인 폭을 갖고, 그럼으로써 후보 프레임(fk)(72)에 중심을 둘 때, 분석 윈도우는 또한 후보 프레임(fk)(72)의 2개의 이전 이웃 프레임들(fk -1 및 fk -2) 및 2개의 후속하는 이웃 프레임들(fk +1 및 fk +2)을 포함한다. 이러한 방식으로, 상관기(62)는 후보 프레임(72)의 화상 타입을 결정하기 위해 분석 윈도우(70)에 포함된 프레임들 간의 1차 상호-상관성들을 계산한다. 즉, 분석 윈도우(70)의 사용은 GOP 구조에 포함된 각 프레임에 대한 화상 타입을 결정하기 위해서 상관기(62)가 계산하는 1차 상호-상관성들의 수에 제한을 둔다.
도 8b는 분석 윈도우(70)에 포함된 프레임들 간에 상관기(62)에 의해서 수행되는 1차 상호-상관성 계산들을 나타낸다. 상관기(62)는 제 1 이전의 이웃 프레임(fk-1) 및 후보 프레임(fk)(72) 간의 제 1 순방향 상호-상관성(F1)(74)을 계산한다. 이어서, 상관기(62)는 제 2 이전의 이웃 프레임(fk-2) 및 후보 프레임(fk)(72) 간의 제 2 순방향 상호-상관성(F2)(75)을 계산한다. 상관기(62)는 또한 제 1 후속하는 이웃 프레임(fk +1) 및 후보 프레임(fk)(72) 간의 제 1 역방향 상호-상관성(B1)을 계산한다. 이어서, 상관기(62)는 제 2 후속하는 이웃 프레임(fk +2) 및 후보 프레임(fk)(72) 간의 제 2 역방향 상호-상관성(B2)(77)을 계산한다. 상관기(62)는 다음으로 제 1 이전의 이웃 프레임(fk -1) 및 제 1 후속하는 이웃 프레임(fk +1) 간의 제 1 대칭 상호-상관성 계산(S2)(78)을 계산한다. 이어서, 상관기(62)는 제 2 이전의 이웃 프레임(fk -2) 및 제 2 후속하는 이웃 프레임(fk +2) 간의 제 2 대칭 상호-상관성 계산(S4)(79)을 계산한다.
도 8c는 분석 윈도우(70) 내에서 1차 상호-상관성들 간에 상관기(62)에 의해서 수행되는 2차 상호-상관성 계산들을 나타낸다. 상관기(62)는 1차 제 1 순방향 상호-상관성(F1)(74) 및 1차 제 1 역방향 상호-상관성(B1)(76) 간의 2차 제 1 이웃 상호-상관성(O1)(80)을 계산한다. 이어서, 상관기(62)는 1차 제 2 순방향 상호-상관성(F2)(75) 및 1차 제 2 역방향 상호-상관성(B2)(77) 간의 2차 제 2 이웃 상호-상관성(O2)(81)을 계산한다.
일부 양상들에 있어서, 상관기(62)는 도 1 및 도 3에 도시된 바와 같이 실시간 코딩 장치의 외부에 있는 오프라인 벤치마크로서 상관성-기반의 AGOP 결정 모듈(22) 내에서 사용될 수 있다. 그 경우에, 상관기(62)는 비실시간적으로 여기서 설명된 1차 및 2차 상호-상관성들을 계산한다. 다른 양상들에 있어서, 상관기(62)는 도 2 및 도 4에 도시된 바와 같이 실시간 코딩 장치에 구현되는 상관성-기반의 AGOP 결정 모듈(22) 내에서 사용될 수 있다. 일부 경우들에 있어서, 복잡성 감소들은 상관기(62)가 후보 프레임(72)에 대한 화상 타입을 결정할 때 계산할 수 있는 상호-상관성들의 수를 제한할 수 있다. 예컨대, 분석 윈도우(70)가 5개의 프레임과 동일한 시간적인 폭을 가질 때, 상관기(62)는 단지 3개의 1차 상호-상관성들 및 2개의 2차 상호-상관성들을 계산할 수 있다. 예컨대, 상관기(62)는 제 1 순방향 상호-상관성(F1)(74), 제 1 대칭 상호-상관성(S2)(78), 제 2 대칭 상호-상관성(S4)(79), 2차 제 1 이웃 상호-상관성(O1)(80), 및 2차 제 2 이웃 상호-상관성(O2)(81)을 계산할 수 있다.
도 9는 상관성-기반의 AGOP 구조 결정 모듈(22)에 포함된 상관기(62)의 예시적인 구현을 나타내는 블록도이다. 도 9에 도시된 바와 같이, 상관기(62A)는 이미지 상호-상관성들을 수행하기 위해서 2차원 고속 푸리에 변환(2D FFT) 기반의 계산을 포함한다. 상관기(62A)는 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지들 간의 1차 상호-상관성들 및 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들 양쪽 모두를 계산할 수 있다.
상관기(62A)가 1차 이미지 상호-상관성들을 계산하고 있을 때, 사전 컨디셔닝 모듈(82)은 제 1 프레임 내의 이미지를 수신하고, 사전 컨디셔닝된 이미지를 푸리에 변환(F)(84)에 제공한다. 동시에, 사전 컨디셔닝 모듈(83)은 제 2 프레임 내의 이미지를 수신하고, 사전 컨디셔닝된 이미지를 복소공액(F*) 푸리에 변환(85)에 제공한다. 제 1 프레임 이미지의 변환 및 제 2 프레임 이미지의 복소공액 변환이 곱해져서 역푸리에 변환(F-1)(88)에 제공된다. 이어서, 정규화기(89)가 역변환 출력을 정규화하고, 최대 필터(90)는 제 1 프레임 및 제 2 프레임 내에 있는 이미지들 간의 정규화된 1차 상호-상관성의 최대 값을 결정한다. 이어서, 그 정규화된 1차 이미지 상호-상관성의 최대 값은 상관성 분석기(64)에 의해 사용할 특징 값으로서 보유된다.
상관기(62A)가 2차 상호-상관성들을 계산하고 있을 때, 사전 컨디셔닝 모듈(82)은 제 1 쌍의 프레임들 간의 1차 이미지 상호-상관성을 수신하고, 사전 컨디셔닝된 1차 이미지 상호-상관성을 푸리에 변환(F)(84)에 제공한다. 동시에, 사전 컨디셔닝 모듈(83)은 제 2 쌍의 프레임들 간의 1차 이미지 상호-상관성을 수신하고, 사전 컨디셔닝된 1차 이미지 상호-상관성을 복소공액(F*) 푸리에 변환(85)에 제공한다. 제 1 쌍의 프레임들 간의 이미지 상호-상관성의 변환 및 제 2 쌍의 프레임들 간의 이미지 상호-상관성의 복소공액 변환은 곱해져서, 역푸리에 변환(F-1)(88)에 제공된다. 이어서, 정규화기(89)는 역변환 출력을 정규화하고, 최대 필터(90)는 제 1 쌍의 프레임들 및 제 2 쌍의 프레임들 간의 1차 이미지 상호-상관성들 간의 정규화된 2차 상호-상관성의 최대 값을 결정한다. 이어서, 그 정규화된 2차 이미지 상호-상관성의 최대 값은 상관성 분석기(64)에 의한 사용을 위해서 특징 값으로서 보유된다.
도 10은 상관성-기반의 AGOP 구조 결정 모듈(22)에 포함된 상관기(62)의 다른 예시적인 구현을 나타내는 블록도이다. 도 10에 도시된 바와 같이, 상관기(62B)는 서브이미지 상호-상관성들을 수행하기 위해서 2차원(2D) FFT 기반의 계산을 포함한다. 상관기(62B)는 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 서브이미지들 간의 1차 상호-상관성들 및 상기 1차 서브이미지 상호-상관성들의 쌍들 간의 2차 상호-상관성들 양쪽 모두를 계산할 수 있다.
상관기(62B)가 1차 서브이미지 상호-상관성들을 계산하고 있을 때, 사전 컨디셔닝 모듈(92)은 제 1 프레임 내의 예컨대 매크로블록들의 세트와 같은 서브이미지를 수신하고, 사전 컨디셔닝된 서브이미지를 푸리에 변환(F)(94)에 제공한다. 사전 컨디셔닝 모듈(92)은 제 1 프레임 내의 서브이미지를 공통 이미지 크기에 패딩한다. 동시에, 사전 컨디셔닝 모듈(93)은 제 2 프레임 내의 예컨대 매크로블록들의 세트와 같은 서브이미지를 수신하고, 사전 컨디셔닝된 서브이미지를 복소공액(F*) 푸리에 변환(95)에 제공한다. 사전 컨디셔닝 모듈(93)은 제 2 프레임 내의 서브이미지를 공통 이미지 크기에 패딩한다. 제 1 프레임 패딩된 서브이미지의 변환 및 제 2 프레임 패딩된 서브이미지의 복소공액 변환이 곱해져서 역푸리에 변환(F-1)(98)에 제공된다. 이어서, 정규화기(99)가 역변환 출력을 정규화하고, 최대 필터(10)는 제 1 프레임 내의 서브이미지 및 제 2 프레임 내의 서브이미지 간의 정규화된 1차 상호-상관성의 최대 값을 결정한다. 이어서, 평균 모듈(102)은 제 1 프레임 내에 있는 서브이미지들의 세트의 서브이미지들 모두 또는 그 중 일부에 걸쳐 정규화된 상호-상관성들의 최대 값들을 평균한다. 이어서, 그 정규화된 1차 상호-상관성의 평균된 최대 값은 상관성 분석기(64)에 의해 사용할 특징 값으로서 보유된다.
상관기(62B)가 2차 상호-상관성들을 계산하고 있을 때, 사전 컨디셔닝 모듈(92)은 제 1 쌍의 프레임들 간의 1차 상호-상관성 서브세그먼트를 수신하고, 사전 컨디셔닝된 1차 상호-상관성 서브세그먼트를 푸리에 변환(F)(94)에 제공한다. 동시에, 사전 컨디셔닝 모듈(93)은 제 2 쌍의 프레임들 간의 1차 상호-상관성 서브세그먼트를 수신하고, 사전 컨디셔닝된 1차 이미지 상호-상관성 서브세그먼트를 복소공액(F*) 푸리에 변환(95)에 제공한다. 제 1 쌍의 프레임들 간의 1차 상호-상관성 서브세그먼트의 변환 및 제 2 쌍의 프레임들 간의 1차 상호-상관성 서브세그먼트의 복소공액 변환은 곱해져서, 역푸리에 변환(F-1)(98)에 제공된다. 이어서, 정규화기(99)는 역변환 출력을 정규화하고, 최대 필터(100)는 제 1 쌍의 프레임들 및 제 2 쌍의 프레임들 간의 1차 상호-상관성 세그먼트들 간의 정규화된 2차 상호-상관성의 최대 값을 결정한다. 이어서, 그 정규화된 2차 상호-상관성의 최대 값은 상관성 분석기(64)에 의한 사용을 위해서 특징 값으로서 보유된다.
도 11은 상관성-기반의 AGOP 구조 결정 모듈(22)에 포함된 상관성 분석기(64)의 예시적인 구현을 나타내는 블록도이다. 도 11에 도시된 바와 같이, 상관성 분석기(64)는 1차 상관성 분석기(104), 비교 분석기(106), 2차 상관성 분석기(108), 및 비디오 전환 효과 검출기(110)를 포함한다. 비디오 전환 효과 검출기(110)는 콤팩트 지원 이벤트 검출기(112), 확장된 지원 이벤트 검출기(114) 및 글로벌 움직임 검출기(116)를 포함한다.
상관성 분석기(64)는 상관기(62)로부터 1차 및 2차 상호-상관성들을 수신한다. 1차 상관성 분석기(104)는 1차 상호-상관성들을 컴파일하고(compile), 1차 상호-상관성들을 비디오 전환 효과 검출기(110) 및 비교 분석기(106)에 제공한다. 2차 상관성 분석기(108)는 2차 상호-상관성들을 컴파일하고, 2차 상호-상관성들을 비교 분석기(106)에 제공한다.
비디오 전환 효과 검출기(110)는 1차 상호-상관성들에 기초하여 현재 처리되는 GOP 구조의 프레임들 간의 비디오 전환 효과들을 검출한다. 도 12 내지 도 14를 참조하여 설명되는 바와 같이, 비디오 전환 효과 검출기(110)는 콤팩트 지원 이벤트 검출기(112), 확장된 지원 이벤트 검출기(114), 및 글로벌 움직임 검출기(116)를 통한 비디오 특수 효과들의 식별에 기초하여 비디오 전환 효과들을 검출한다. 더 특별하게는, 콤팩트 지원 이벤트 검출기(112)는 컷 신 변화 핑거프린트들, 플래시 프레임 핑거프린트들, 및 부분적인 신 변화 핑거프린트들을 1차 상호-상관성들로부터 식별한다. 확장된 지원 이벤트 검출기(114)는 페이드-인 및 페이드-아웃, 핑거프린트들, 및 줌-인 및 줌-아웃 핑거프린트들을 1차 상호-상관성들로부터 식별한다. 글로벌 움직임 검출기(116)는 카메라 팬 핑거프린트들 및 카메라 스크롤 핑거프린트들을 1차 상호-상관성들로부터 식별한다. 핑거프린트는 특정 비디오 전환 효과에 고유하게 매칭되는 매칭 필터로부터의 특정 응답을 의미하도록 여기서 정의되는데, 그러한 고유한 매칭에 의해서 그 특정 응답의 검출은 그것의 연관된 비디오 전환 효과의 검출과 동일하다.
이어서, 비디오 전환 효과 검출기(110)는 검출된 비디오 전환 효과를 화상 타입 결정 모듈(66)(도 7)에 출력한다. 만약, 예컨대, 컷 신 변화가 후보 프레임(72)에서 발생한다면, 후보 프레임(72)은 비디오 신이 완전하게 변하기 때문에 I 화상으로서 인코딩되어야 한다. 후보 프레임(72)에서 발생하는 부분적인 신 변화의 경우에, 정적인 경계, 그래픽 또는 텍스트 오버레이를 포함하는 후보 프레임(72)의 일부는 P 슬라이스로서 인코딩될 수 있고, 변한 활성 비디오 신을 포함하는 후보 프레임(72)의 일부는 I 슬라이스로서 인코딩될 수 있다. 만약 플래시 프레임, 크로스-페이드, 줌-인 또는 줌-아웃, 또는 카메라 팬 또는 스크롤이 후보 프레임에서 발생한다면, 후보 프레임(72)은 비디오 신이 이전 프레임들 및 어쩌면 후속하는 프레임들에 의존하여 약간 또는 점차적으로 변하기 때문에 P 화상 또는 B 화상으로서 인코딩될 수 있다.
비교 분석기(106)는 1차 상호-상관성들 및 2차 상호-상관성들 간의 비교 분석을 수행한다. 이어서, 비교 분석기(106)는 비교 분석에 기초하여 분석 윈도우(70) 내에 있는 이웃 프레임들 간의 시간적인 유사성들을 결정한다. 비교 분석을 수행할 때, 비교 분석기(106)는 후보 프레임(72)이 자신의 이전 및 후속하는 이웃 프레임들 모두와 얼마나 유사한지 및 그 이웃 프레임들이 서로 얼마나 유사한지를 결정하기 위해 프레임들 간의 상관성 레벨들을 비교한다. 이어서, 비교 분석기(106)는 시간적인 유사성들을 화상 타입 결정 모듈(66)(도 7)에 출력한다. 만약, 예컨대, 후보 프레임(72)이 후속하는 이웃 프레임들과는 좋은 상관성을 갖지만 이전의 이웃 프레임들과는 그렇지 않다면, 즉, 제 1 순방향 크로스-상관성(74)은 낮고 제 1 역방향 상호-상관성(76)은 높다면, 후보 프레임(72)은 이전 프레임들과 관련이 없으면서 후속 프레임들에 대한 기준으로서 기능하는 I 화상으로서 인코딩되어야 한다. 다른 예로서, 만약 후보 프레임(72)이 후속하는 이웃 프레임들 및 이전의 이웃 프레임들 모두와 좋은 상관성을 갖는다면, 후보 프레임(72)은 P 화상 또는 B 화상 중 어느 하나로서 인코딩되어야 한다. 그러나, 만약 후속하는 이웃 프레임들이 이전의 이웃 프레임들과 좋은 상관성을 갖는다면, 즉, 제 1 대칭 상호-상관성(78)이 높다면, 후보 프레임(72)은 P 화상으로서 인코딩될 수 있다.
도 12는 도 11의 상관성 분석기(64)에 포함된 비디오 전환 효과 검출기(110)의 일부로서 콤팩트 지원 이벤트 검출기(112)를 나타내는 블록도이다. 콤팩트 지원 이벤트 검출기(112)는 1차 상호-상관성 분석기(104)의 출력 내에서 콤팩트 지원 비디오 효과들과 연관된 핑거프린트들을 검출하기 위해 매칭 필터 뱅크들을 활용할 수 있다. 콤팩트 지원 비디오 효과들은 컷 신 변화들, 부분적인 신 변화들, 및 플래시 프레임들을 포함한다. 예컨대, 비디오 시퀀스 컨텐트가 동일 채널 상의 컨텐트의 변화로 인해서 또는 채널 스위칭으로 인해서 비디오 신마다 순간적으로 바뀔 때는, 컷 신 변화가 발생할 수 있다. 비디오 시퀀스에 있는 프레임 컨텐트의 일부가 비디오 신마다 바뀌고 그 비디오 시퀀스에 있는 프레임 컨텐트의 나머지 부분이 정적인 예컨대 경계들, 그래픽 또는 텍스트 오버레이들일 때는, 부분적인 신 변화가 발생할 수 있다. 비디오 시퀀스 컨텐트가 비디오 레코딩 이벤트에서 플래시 포토그래피로 인해 루미넌스 값들을 변경할 때, 플래시 메모리가 발생할 수 있다.
도 12에 도시된 예에서, 콤팩트 지원 이벤트 검출기(112)는 도 6의 1차 제 1 순방향 상호-상관성(F1)(74), 1차 제 1 대칭 상호-상관성(S2)(78), 및 1차 제 2 대칭 상호-상관성(S4)(79)의 출력들을 활용한다. 콤팩트 지원 이벤트 검출기(112)는 1차 상호-상관성 출력들 각각을 비선형 고대역 통과 필터들(120A-120C) 중 전용으로 사용되는 하나의 필터를 통과시킨다. 비선형 고대역 통과 필터들(120A-120C) 각각의 출력은 컷 신 변화 매칭 필터(122) 및 플래시 프레임 매칭 필터(124) 양쪽 모두로의 입력이다.
컷 신 변화 매칭 필터(122)는 컷 신 변화의 예상된 핑거프린트와 유사한 1차 상호-상관성들의 출력에 포함된 시간 시리즈 특징들을 분리한다. 예컨대, 컷 신 변화 핑거프린트는 도 17의 특징(180)에 의해 도시된 바와 같이 비디오 신의 완전한 변화로 인한 낮은 상관성의 단일 딥(dip)을 포함한다. 콤팩트 지원 이벤트 검출기(112)는 상기 특징들 중 어느 것이 컷 신 변화 핑거프린트들을 포함하는지를 정확하게 식별하기 위해서 컷 신 변화 매칭 필터(122)의 출력을 임계치 비교기(123)에 제공한다. 임계치 비교기(123)는 컷 신 변화 매칭 필터(122)에 의해 분리된 특징들을 예컨대 0.29와 같은 미리 결정된 값으로 설정된 임계 값(Tcsc)에 비교한다. 콤팩트 지원 이벤트 검출기(112)는 그 임계 값보다 큰 매핑 필터 응답들을 갖는 그러한 특징 위치들에서 컷 신 변화를 검출한다. 이어서, 임계치 비교기(123)는 만약 컷 신 변화가 검출된다면 자신의 Boolean 출력(Bcsc)을 1과 동일하게 설정하고, 만약 어떠한 컷 신 변화도 검출되지 않는다면 그것을 0으로 설정한다.
콤팩트 지원 이벤트 검출기(112)는 또한 컷 신 변화 매칭 필터(122) 및 임계치 비교기(123)를 사용함으로써 부분적인 신 변화를 검출할 수 있다. 부분적인 신 변화 핑거프린트는 컷 신 변화 핑거와 실질적으로 유사한 단일 딥을 포함하지만, 도 18의 특징(184)에 의해 도시된 바와 같은 비디오 신의 정적인 부분들로 인해 더 높은 상관성을 갖는다. 부분적인 신 변화 핑거프린트의 비교적 작은 딥은 콤팩트 지원 이벤트 검출기(112)에 의해 검출될 컷 신 변화 매칭 필터(122)로부터의 큰 충분한 응답을 트리거할 수 있다. 임계치 비교기(123)로의 임계 값(Tcsc) 입력은 부분적인 신 변화들의 검출을 가능하게 할 정도로 낮을 수 있지만, 이는 콤팩트 지원 비디오 효과들을 부정확하게 검출할 가능성을 증가시킴으로써, 즉, 허위-경고 레이트를 증가시킴으로써 추가적인 정확성 문제들을 야기할 수 있다. 대신에, 상관기(62)는 정적인 경계의 존재를 식별하기 위해 정적인 경계 검출을 수행하고, 비디오 신의 활성 부분에 상응하는 서브이미지들 간의 1차 상호-상관성들을 계산할 수 있다. 이러한 방식으로, 정적인 경계를 갖는 단지 활성 비디오 신의 완전한 변화가 컷 신 변화 핑거프린트와 동일한 핑거프린트를 제공할 수 있다.
플래시 프레임 매칭 필터(124)는 플래시 프레임의 예상된 핑거프린트와 유사한 1차 상호-상관성들의 출력에 포함된 시간 시리즈 특징들을 분리한다. 예컨대, 플래시 프레임 핑거프린트는 도 17의 특징(182)에 의해 도시된 바와 같이 비디오 신 내의 루미넌스 값들의 변화로 인해서 프레임들 간의 더 낮은 상관성의 연속적인 딥을 포함한다. 콤팩트 지원 이벤트 검출기(112)는 특징들 중 어느 것이 플래시 프레임 핑거프린트들을 포함하는지를 정확하게 식별하기 위해서 플래시 프레임 매칭 필터(124)의 출력을 임계치 비교기(125)에 제공한다. 임계치 비교기(125)는 플래시 프레임 매칭 필터(124)에 의해 분리된 특징들을 예컨대 0.20과 같은 미리 결정된 값으로 설정된 임계 값(TFF)에 비교한다. 콤팩트 지원 이벤트 검출기(112)는 그 임계 값보다 큰 매칭 필터 응답을 갖는 그러한 특징 위치들에서 플래시 프레임을 검출한다. 이어서, 임계치 비교기(125)는 만약 플래시 프레임이 검출된다면 자신의 Boolean 출력(BFF)을 1과 동일하게 설정하고, 만약 어떠한 플래시 프레임도 검출되지 않는다면 그것을 0과 동일하게 설정한다.
도 13은 도 11의 상관성 분석기(64)에 포함된 비디오 전환 효과 검출기(110)의 일부로서 확장된 지원 이벤트 검출기(114)를 나타내는 블록도이다. 확장된 지원 이벤트 검출기(114)는 1차 상호-상관성 분석기(104)의 출력 내에서 확장된 지원 비디오 효과들과 연관된 핑거프린트들을 검출하기 위해 다중-해상도 분석을 활용할 수 있다. 확장된 지원 비디오 효과들은 크로스-페이드들, 페이드-인들, 페이드-아웃들, 및 줌들을 포함한다. 예컨대, 나라의 지역마다 바뀌는 날씨 맵과 같은 컨텐트의 변화로 인해 비디오 시퀀스가 비디오 신마다 점차적으로 변할 때, 크로스-페이드가 발생할 수 있다.
도 13에 도시된 예에서, 확장된 지원 이벤트 검출기(114)는 도 6의 1차 제 1 순방향 상호-상관성(F1)(74), 1차 제 1 대칭 상호-상관성(S2)(78), 및 1차 제 2 대칭 상호-상관성(S4)(79)의 출력들을 활용한다. 확장된 지원 이벤트 검출기(114)는 1차 상호-상관성 출력들 각각을 비선형 저대역 통과 필터들(126A-126C) 중 전용으로 사용되는 하나의 필터를 통과시킨다. 비선형 저대역 통과 필터들(126A-126C) 각각의 출력은 다중-해상도 분석기들(128A-128C) 중 전용으로 사용되는 하나의 분석기로 입력된다. 다중-해상도 분석기들(128A-128C)은 크로스-페이드 또는 줌의 확장된 핑거프린트와 유사한 1차 상호-상관성들의 출력에 포함되는 특징들을 식별한다. 예컨대, 크로스-페이드 핑거프린트는 도 19의 특징(186)에 의해 도시된 바와 같이 비디오 신의 점차적인 변화로 인해서 프레임들 간의 낮은 상관성의 노치(notch)를 포함한다. 다중-해상도 분석기들(128A-128C)은 통일된 방식으로 상당히 가변적인 지속시간들을 갖는 특징들의 검출 및 그들의 실제 지속시간들의 결정을 가능하게 한다.
확장된 지원 이벤트 검출기(114)는 특징들 중 어느 것이 크로스-페이드 또는 줌 핑거프린트들을 포함하는지를 정확하게 식별하기 위해서 다중-해상도 분석기들(128A-128C)의 출력을 구성된 중요 피크 분석기(130)에 제공한다. 구성된 중요 피크 분석기(130)는 다중-해상도 분석기들(128A-128C) 각각에 의해 식별되는 특징들을 조합하고, 1차 상호-상관성들의 출력들 각각의 낮은 상관성의 노치들이 특정 순서에 따라 시간적으로 정렬되는지 여부를 결정한다. 확장된 지원 이벤트 검출기(114)는 만약 1차 크로스-상관성들의 노치들이 서로 시간적으로 정렬된다면 크로스-페이드를 선언할 수 있다. 또한, 그 노치들의 최소 값들은 1차 제 1 순방향 크로스-상관성(F1)(74)이 1차 제 1 대칭 상호-상관성(S2)(78)보다 크고 상기 1차 제 1 대칭 상호-상관성(S2)(78)이 1차 제 2 대칭 상호-상관성(S4)(79)보다 큰 것으로서 바람직하게 순서가 정해져야 한다.
도 14는 도 11의 상관성 분석기(64)에 포함된 비디오 전환 효과 검출기(110)의 일부로서 글로벌 움직임 검출기(116)를 나타내는 블록도이다. 글로벌 움직임 검출기(116)는 1차 상호-상관성 분석기(104)의 출력 내에서 글로벌한 움직임과 연관된 핑거프린트들을 검출하기 위해 글로벌 변위 추정들을 활용한다. 글로벌 움직임 비디오 효과들은 카메라 팬들, 카메라 스크롤들, 및 전체 비디오 신에 영향을 주는 다른 전환 움직임을 포함한다. 예컨대, 카메라 팬은 비디오 시퀀스가 비디오 카메라의 수평 이동으로 인해 비디오 신마다 점차적으로 바뀔 때 발생할 수 있다. 카메라 스크롤은 비디오 시퀀스가 비디오 카메라의 수직 이동으로 인해 비디오 신마다 점차적으로 변할 때 발생할 수 있다.
도 14에 도시된 예에서, 글로벌 움직임 검출기(116)는 1차 제 1 순방향 상호-상관성(F1)(74), 1차 제 1 대칭 상호-상관성(S2)(78), 및 도 6의 1차 제 2 대칭 상호-상관성(S4)(79)을 활용한다. 글로벌 움직임 검출기(116)는 1차 크로스-상관성 출력들 각각을 최대 위치 필터들(132A-132C) 중 전용으로 사용되는 하나의 필터에 통과시킨다. 최대 위치 필터들(132A-132C)은 카메라 팬 및 카메라 스크롤의 예상된 핑거프린트와 유사한 1차 상호-상관성들의 출력에 포함된 특징들을 식별한다. 예컨대, 카메라 팬 핑거프린트는 도 20a의 특징(188)에 의해 도시된 바와 같은 비디오 신의 점차적인 변화로 인해 최대 상호-상관성 값 위치에서 원점(origin)으로부터 시종일관 제공되는 중요(significant) 수평 시프트를 포함한다. 카메라 스크롤은 도 20b의 특징(200)에 의해 도시된 바와 같은 비디오 신의 증가적인 변화로 인해 최대 상호-상관성 값 위치에서 원점으로부터 시종일관 제공되는 중요 수직 시프트를 포함한다. 최대 위치 필터들(132A-132C) 각각은 연관된 1차 상호-상관성의 시간적인 거리에서 수평 변위 추정(h) 및 수직 변위 추정(v)을 출력한다.
그러나, 링잉(ringing) 및 블러(blur)와 같은 압축 결함들은 1차 상호-상관성들로부터의 변위 추정들의 정확성을 떨어뜨린다. 그러므로, 글로벌 움직임 검출기(116)는 압축 결함의 열화성 잡음-유형 영향에 대해 수평 및 수직 변위 추정들을 스무스(smooth)하게 하기 위해서 다중-채널 융합 모듈(134)을 활용한다. 또한, 콤팩트 지원 비디오 효과들 및 확장된 지원 비디오 효과들은 글로벌 움직임 변위 추정을 방해할 수 있고, 이는 비정상적인 변위 추정 값들을 초래할 수 있다. 다중-채널 융합 모듈(134)은 검출된 콤팩트 지원 및 확장된 지원 비디오 효과들에 걸쳐 변위 추정들의 비선형적인 스무싱(smoothing)을 수행함으로써 이러한 효과를 감소시키거나 제거할 수 있다.
도 14에 도시된 바와 같이, 다중-채널 융합 모듈(134)은 시간적인 거리 2에서는 변위 추정들에 대해 1/2 가중치들을 포함하고 시간적인 거리 4에서는 변위 추정들에 대해 1/4 가중치들을 포함함으로써, 상이한 변위 추정들과 연관된 상이한 시간적인 거리를 보상할 수 있다. 다중-채널 융합 모듈(134)은 또한 상이한 시간적인 거리들에서 변위 추정들의 강조를 등화시키기 위해서 변위 추정들 각각에 대한 균일한 가중치들(예컨대, 1/3)(136A-136C)을 포함한다. 다른 양상들에 있어서, 다중-채널 융합 모듈(134)은 선택 시간적인 거리에서 변위 추정들을 강조하기 위해 비균일한 가중치들을 사용할 수 있다. 마지막으로, 다중-채널 융합 모듈(134)은 시간적인 거리들 각각으로부터의 가중된 수평 변위 추정들을 더함으로써 단일의 스무싱된 수평 변위 추정 값을 생성하는 수평 가산기(142)를 포함한다. 다중-채널 융합 모듈(134)은 또한 시간적인 거리들 각각으로부터의 수직 변위 추정들을 더함으로써 단일의 스무싱된 수직 변위 추정 값을 생성하는 수직 가산기(144)를 포함한다.
도 15는 이미지 상호-상관성들에 기초하여 비디오 시퀀스에 포함된 프레임들에 대한 화상 타입들을 결정하는 상관성-기반의 AGOP 구조 결정 모듈(22)의 예시적인 동작을 나타내는 흐름도이다. 도 15의 흐름도는 도 7의 상관성-기반의 AGOP 결정 모듈(22), 도 8a 내지 도 8c의 분석 윈도우(70), 및 도 11의 상관성 분석기(64)와 관련하여 설명될 것이다.
분석 윈도우 위치결정 모듈(60)은 후보 프레임(fk)(72)에 중심을 두고 이전의 이웃 프레임들(fk -1 및 fk -2) 및 후속하는 이웃 프레임들(fk +1 및 fk +2)을 포함하는 GOP 구조 내에 분석 윈도우(70)를 위치시킨다(150). 상관기(62)는 분석 윈도우(70)에 포함된 프레임들의 쌍들 내에 있는 이미지들 간의 1차 상호-상관성들을 계산한다(152). 1차 상호-상관성들은 상기 이미지들의 픽셀 도메인 데이터에 대해 수행된다. 이러한 양상에 있어서, 상관기(62)는 전체 프레임 이미지들 간의 1차 상호-상관성들을 계산한다. 도 8b를 참조하여 위에서 설명된 바와 같이, 1차 상호-상관성들은 제 1 순방향 상호-상관성(74), 제 2 순방향 상호-상관성(75), 제 1 역방향 상호-상관성(76), 제 2 역방향 상호-상관성(77), 제 1 대칭 상호-상관성(78), 및 제 2 대칭 상호-상관성(79)을 포함할 수 있다. 1차 이미지 상호-상관성들은 프레임들의 쌍들 간의 글로벌한, 즉, 전체적인 유사성 및 글로벌한 움직임의 양들은 식별하지만, 더 작은 스케일의 서브이미지들에 있는 프레임들 내에서 발생한 움직임의 양들은 식별하지 않는다. 이어서, 상관기(62)는 1차 이미지 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산한다. 도 8c을 참조하여 위에서 설명된 바와 같이, 2차 상호-상관성들은 제 1 이웃 상호-상관성(80) 및 제 2 이웃 상호-상관성(81)을 포함할 수 있다.
상관성 분석기(64)는 상관기(62)로부터 1차 및 2차 상호-상관성들을 수신한다. 1차 상관성 분석기(104)는 1차 상호-상관성들을 컴파일하고, 1차 상호-상관성들을 비디오 전환 효과 검출기(110) 및 비교 분석기(106)에 제공한다. 2차 상관성 분석기(108)는 2차 상호-상관성들을 컴파일하고, 2차 상호-상관성들을 비교 분석기(106)에 제공한다.
비디오 전환 효과 검출기(110)는 1차 상호-상관성들에 기초하여 현재 처리되고 있는 GOP 구조 내의 프레임들 간의 비디오 전환 효과들을 검출한다(156). 도 10 내지 도 12를 참조하여 설명된 바와 같이, 비디오 전환 효과 검출기(110)는 콤팩트 지원 이벤트 검출기(112), 확장된 지원 이벤트 검출기(114), 및 글로벌 움직임 검출기(116)를 통해 비디오 효과들의 식별에 기초하여 비디오 전환 효과들을 검출한다. 더 상세하게는, 콤팩트 지원 이벤트 검출기(112)는 컷 신 변화 핑거프린트들, 플래시 프레임 핑거프린트들, 및 부분적인 신 변화 핑거프린트들을 1차 상호-상관성들로부터 식별한다. 확장된 지원 이벤트 검출기(114)는 페이드-인 및 페이드-아웃 핑거프린트들과 줌-인 및 줌-아웃 핑거프린트들을 1차 상호-상관성들로부터 식별한다. 글로벌 움직임 검출기(116)는 카메라 팬 핑거프린트들 및 카메라 스크롤 핑거프린트들을 식별한다.
비교 분석기(106)는 1차 상호-상관성들 및 2차 상호-상관성들 간의 비교 분석을 수행한다. 비교 분석기(106)는 이어서 비교 분석에 기초하여 분석 윈도우(70) 내에 있는 이웃 프레임들 간의 시간적인 유사성들, 그들의 강도 및 특성을 결정한다(158). 비교 분석을 수행할 때, 비교 분석기(106)는 후보 프레임(72)이 그것의 이웃 프레임들과 얼마나 유사한지 및 이웃 프레임들이 서로 간에 얼마나 유사한지를 결정하기 위해서 프레임들 간의 상관성 레벨들을 비교한다.
화상 타입 결정 모듈(66)은 비디오 전환 효과 검출기(110)로부터의 비디오 전환 효과 정보 및 비교 분석기(106)로부터의 시간적인 유사성 정보를 수신한다. 이어서, 화상 타입 결정 모듈(66)은 분석 윈도우(72) 내에서 검출되는 비디오 전환 효과들 및 분석 윈도우(70)에 포함된 프레임들 간의 시간적인 유사성들에 기초하여 후보 프레임(72)에 대한 화상 타입을 결정한다(160).
도 16은 서브이미지 상호-상관성들에 기초하여 비디오 시퀀스에 포함된 프레임들에 대한 화상 타입들을 결정하는 상관성-기반의 AGOP 구조 결정 모듈(22)에 대한 예시적인 동작을 나타내는 흐름도이다. 도 16의 흐름도는 도 7의 상관성-기반의 AGOP 결정 모듈(22), 도 8a 내지 도 8c의 분석 윈도우(70), 및 도 11의 상관성 분석기(64)와 관련하여 설명될 것이다.
분석 윈도우 위치결정 모듈(60)은 후보 프레임(fk)(72)에 중심을 두고 이전의 이웃 프레임들(fk -1 및 fk -2) 및 후속하는 이웃 프레임들(fk +1 및 fk +2)을 포함하는 GOP 구조 내에 분석 윈도우(70)를 위치시킨다(164). 상관기(62)는 분석 윈도우(70)에 포함된 프레임들의 쌍들 내에 있는 서브이미지들의 세트들 간의 1차 상호-상관성들을 계산한다(166). 서브이미지 1차 상호-상관성들이 상기 서브이미지들의 픽셀 도메인 데이터에 대해 수행된다. 프레임들 각각 내의 이미지들은 매크로블록들과 같은 다수의 서브이미지들로 분할될 수 있다. 이어서, 제 1 프레임의 서브이미지들 각각은 공통 이미지 크기에 패딩되고, 제 2 프레임의 서브이미지와 상호-상관된다. 예컨대, 서브이미지는 64×64 이미지에 패딩되는 16×16 매크로블록을 포함할 수 있다. 상관기(62)는 프레임들의 쌍들 각각에 대한 서브이미지들 모두나 또는 그 중 이루에 걸쳐 피크, 즉, 최대의 서브이미지 상호-상관성 값들을 평균함으로써 1차 상호-상관성들을 생성한다(168). 1차 서브이미지 상호-상관성들은 프레임들의 쌍들 간의 움직임 양들 및 서브이미지 유사성을 식별하고, 프레임들 내의 어디에서 움직임이 발생했는지를 식별한다. 이어서, 상관기(62)는 1차 서브이미지 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산한다(170).
상관성 분석기(64)는 1차 및 2차 상호-상관성들을 상관기(62)로부터 수신한다. 1차 상관성 분석기(104)는 1차 상호-상관성들을 컴파일하고, 1차 상호-상관성들을 비디오 전환 효과 검출기(110) 및 비교 분석기(106)에 제공한다. 2차 상관성 분석기(108)는 2차 상호-상관성들을 컴파일하고, 2차 상호-상관성들을 비교 분석기(106)에 제공한다. 비디오 전환 효과 검출기(110)는 1차 상호-상관성들에 기초하여 현재 처리되고 있는 GOP 구조 내의 프레임들 간의 비디오 전환 효과들을 검출한다(172). 비교 분석기(106)는 1차 상호-상관성들 및 2차 상호-상관성들 간의 비교 분석을 수행한다. 이어서, 비교 분석기(106)는 비교 분석에 기초하여 분석 윈도우(70) 내의 이웃 프레임들 간의 시간적인 유사성, 그들의 강도 및 특성을 결정한다.
화상 타입 결정 모듈(66)은 비디오 전환 효과 검출기(110)로부터의 비디오 전환 효과 정보 및 비교 분석기(106)로부터의 시간적인 유사성 정보를 수신한다. 후보 프레임(72)은 다수의 슬라이스들로 분할될 수 있고, 그럼으로써 화상 타입 결정 모듈(66)은 분석 윈도우(70) 내에서 검출되는 비디오 전환 효과들 및 분석 윈도우(70)에 포함된 프레임들 간의 시간적인 유사성들에 기초하여 후보 프레임(72)의 개별적인 슬라이스들 각각에 대한 화상 타입을 결정할 수 있다(176).
도 17은 컷 신 변화 핑거프린트(180) 및 플래시 메모리 핑거프린트(182)를 포함하는 도 12의 콤팩트 지원 이벤트 검출기(112)의 출력을 나타내는 도면이다. 컷 신 변화는, 비디오 시퀀스 컨텐트가 동일한 채널 상의 컨텐트의 변화로 인해서, 예컨대 선택된 카메라 피드(feed)의 변화로 인해서나 혹은 채널 스위칭으로 인해서 비디오 신마다 바뀔 때, 발생할 수 있다. 그러므로, 컷 신 변화 핑거프린트(180)는 비디오 신의 완전한 변화로 인해서 프레임들 간의 낮은 상관성의 단일 딥을 포함한다. 플래시 프레임은 비디오 시퀀스가 비디오 레코딩 이벤트에서 플래시 포토그래피로 인해 루미넌스 값들을 시시각각 변경할 때 발생할 수 있다. 그러므로, 플래시 프레임 핑거프린트(182)는 비디오 신 내에서 루미넌스 값들의 변화로 인해 프레임들 간의 더 낮은 상관성의 연속적인 딥들을 포함한다. 그 연속적인 딥들은 비디오 시퀀스에서 플래시가 감소되어진 증가된 밝기의 출현 및 사라짐에 의해서 생성된다. 플래시 메모리의 경우에는, 컷 신 변화의 단일 변화에 비교되는 매우 짧은 시간 프레임에서 이루어지는 2개의 변화들이 효과적으로 존재한다.
도 18은 부분적인 신 변화 핑거프린트(184)를 포함하는 도 12의 콤팩트 지원 이벤트 검출기(112)의 출력을 나타내는 도면이다. 비디오 시퀀스 프레임 컨텐트의 일부가 비디오 신마다 바뀌고 그 비디오 시퀀스 프레임 컨텐트의 나머지 부분이 예컨대 경계들, 그래픽 및 텍스트 오버레이들과 같이 정적일 때, 부분적인 신 변화가 발생할 수 있다. 그러므로, 부분적인 신 변화 핑거프린트(184)는 컷 신 변화 핑거프린트(180)와는 실질적으로 유사하지만 비디오 신의 정적인 부분들로 인해 더 높은 상관성을 갖는 단일 딥을 포함한다.
도 19는 크로스-페이드 핑거프린트(186)를 포함하는 도 13의 확장된 지원 이벤트 검출기(114)의 출력을 나타내는 도면이다. 비디오 시퀀스 프레임 컨텐트가 예컨대 나라의 지역마다 바뀌는 날씨 맵과 같은 컨텐트의 변화로 인해서 비디오 신마다 바뀔 때, 크로스-페이드가 발생할 수 있다. 그러므로, 크로스-페이드 핑거프린트(186)는 프레임들 간의 낮은 상관성의 노치들을 포함하고, 그럼으로써 상이한 상호-상관성 시간 시리즈들에서의 이러한 노치들은 비디오 신의 점차적인 변화로 인해 특정 순서에 따라 시간적으로 정렬된다.
도 20a 및 도 20b는 카메라 팬 핑거프린트(188) 및 카메라 스크롤 핑거프린트(200)를 포함하는 글로벌 움직임 검출기(116)의 출력을 나타내는 도면들이다. 카메라 팬은, 비디오 시퀀스 프레임 컨텐트가 비디오 카메라의 수평 이동으로 인해서 비디오 신마다 점차적으로 바뀔 때, 발생할 수 있다. 도 18a에 도시된 바와 같이, 카메라 팬 핑거프린트(188)는 비디오 신의 점차적인 글로벌 전환 변화로 인해서, 검출된 움직임의 수평 컴포넌트에 있어 0의 값으로부터의 시종일관 존재하는 중요 시프트 또는 변차, 즉, 최대 상호-상관성 값 위치에서 원점으로부터의 시종일관 존재하는 중요 수평 시프트를 포함한다. 상기 시프트들의 양들은 시간적인 유사성, 즉, 그 시프트들이 관측되거나 추정되는 특정의 1차 상호-상관성 시간 시리즈들뿐만 아니라 움직임의 양에 따라 좌우된다. 도 20a에서, 대략 -1.5 픽셀들, -3 픽셀들, 및 -6 픽셀들의 평균 시프트들이 1, 2 및 4 개의 시간 간격들의 시간적인 거리들에서 각각 관측될 수 있다.
카메라 스크롤은, 비디오 시퀀스 프레임 컨텐트가 비디오 카메라의 수직 이동으로 인해 비디오 신마다 점차적으로 바뀔 때, 발생할 수 있다. 도 20b에 도시된 바와 같이, 카메라 스크롤 핑거프린트(200)는 비디오 신의 점차적인 글로벌 전환 변화로 인해서, 검출된 움직임의 수평 컴포넌트에 있어 0의 값으로부터의 시종일관 존재하는 중요 시프트 또는 변차, 즉, 상호-상관성 피크 위치에서 원점으로부터의 시종일관 존재하는 중요 수평 시프트를 포함한다. 상기 시프트들의 양들은 시간적인 유사성, 즉, 그 시프트들이 관측되거나 추정되는 특정의 1차 상호-상관성 시간 시리즈들뿐만 아니라 움직임의 양에 따라 좌우된다. 도 20b에서는, 예컨대 가장 이른 딥, 즉, 10 내지 16의 프레임 인덱스들 주변에서 관측되는 0으로부터의 음의 변차가 1, 2 및 4개의 프레임 간격들의 시간적인 거리들에서 -1, -2 및 -4 픽셀들의 평균 시프트들에 각각 상응한다. 이러한 시간 간격들 동안에, 비디오 카메라는 짧은 흔들림으로 인해 어쩌면 갑작스런 짧은 수직 변위가 발생한다.
본 발명의 기술들은 프레임들 간의 상호-상관성들에 기초하여 비디오 시퀀스에 포함된 다수의 프레임들 각각에 대한 화상 타입을 결정하는 것에 관한 것이다. 더 상세히는, 그 기술들은 프레임들 간의 상호-상관성들에 기초하여 GOP 구조에 포함된 프레임들에 대한 화상 타입들을 적응적으로 결정하는 것에 관한 것이다. 상호-상관성들은 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성 및 그 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 포함한다. 1차 상호-상관성들은 프레임들 간의 비디오 전환 효과들을 검출하기 위해 분석될 수 있다. 1차 및 2차 상호-상관성들은 이웃 프레임들 간의 시간적인 유사성들을 결정하기 위해 비교방식으로 분석될 수 있다. 그러므로, 상관성-기반의 결정 기술들은 비디오 전환 효과들 및 시간적인 유사성들에 기초하여 프레임들에 대한 화상 타입들을 결정한다.
상관성-기반의 결정 기술들은 프레임들의 쌍들 내의 이미지들 간의 1차 상호-상관성들 및 프레임들의 쌍들 내의 예컨대 매크로블록들과 같은 서브이미지들의 세트들 간의 1차 상호-상관성들을 계산할 수 있는데, 그것의 통계치들, 예컨대 최대 값들이 이어서 프레임들의 쌍들 각각에 대한 서브이미지들 모두나 혹은 그 중 일부에 걸쳐 평균된다. 여기서 설명된 기술들은 ITU-T H.264와 같이 효율적인 인터-프레임 및 인트라-프레임 압축을 제공하는 인코딩 표준에 따른 비디오 데이터의 재인코딩을 위한 트랜스코더에 의해서 활용되는 상관성-기반의 AGOP 구조 결정 모듈 내에서 실행될 수 있다. 일양상에 있어서, 상관성-기반의 AGOP 구조 결정 모듈은 실시간 트랜스코더에 구현된 다른 AGOP 구조 결정 방법들이 비교될 수 있는 오프라인 벤치마크로서 사용될 수 있다. 다른 양상에 있어서, 적합한 복잡성 감소들을 갖는 상관성-기반의 AGOP 구조 결정 모듈이 실시간 트랜스코더에서 구현될 수 있다. 다른 양상에 있어서, 상관성-기반의 AGOP 구조 결정 모듈은 ITU-T H.264와 같이 효율적인 인터-프레임 및 인트라-프레임 압축을 제공하는 인코딩 표준에 따라 이전에 비압축되어진 미가공 비디오 데이터를 인코딩하기 위한 단일-패스 또는 다중-패스, 실시간 또는 비실시간 비디오 인코더에서 활용될 수 있다.
여기서 설명된 기술들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 결합으로 구현될 수 있다. 이러한 기술들은 범용 컴퓨터들, 무선 통신 장치 핸드셋들, 또는 무선 통신 장치 핸드셋들 및 다른 장치들에서의 애플리케이션을 포함하는 다중 사용들을 갖는 집적 회로 장치들과 같은 다양한 장치들 중 임의의 장치로 구현될 수 있다. 모듈들 또는 컴포넌트들로서 설명된 임의의 특징들은 집적 로직 장치에 함께 구현될 수 있거나 또는 별개이지만 상호동작가능한 로직 장치들로서 분리되어 구현될 수 있다. 만약 하드웨어로 구현된다면, 그 기술들은 디지털 하드웨어, 아날로그 하드웨어 또는 이들의 조합을 사용하여 구현될 수 있다. 만약 소프트웨어로 구현된다면, 그 기술들은 컴퓨터-판독가능 매체나 컴퓨터 프로그램 물건 상에 하나 이상의 저장되거나 전송되는 명령들 또는 코드에 의해서 적어도 부분적으로 구현될 수 있다. 컴퓨터-판독가능 매체들은 컴퓨터 저장 매체들, 통신 매체들, 또는 둘 모두를 포함할 수 있고, 한 장소로부터 다른 장소로 컴퓨터 프로그램의 전달을 용이하게 하는 임의의 매체를 포함할 수 있다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체들일 수 있다. 컴퓨터 프로그램 물건은 패키징 물질들을 포함할 수 있다.
일예일뿐 비제한적으로, 이러한 컴퓨터-판독가능 매체들은 SDRAM(synchronous dynamic random access memory)와 같은 RAM, ROM(read-only memory), NVRAM(non-volatile random access memory), PROM(programmable read-only memory), EPROM(erasable programmable read-only memory), EEPROM(electrically erasable programmable read-only memory), FLASH 메모리, CD-ROM 또는 다른 광학 디스크 저장, 자기 디스크 저장 또는 다른 자기 저장 장치들, 또는 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 전달 또는 저장하기 위해 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다.
또한, 임의의 접속 수단이 컴퓨터-판독가능 매체로 적절히 지칭된다. 예컨대, 만약 소프트웨어가 웹사이트, 서버, 또는 다른 원격 소스로부터 네트워크 케이블, 동축 케이블, 광섬유 케이블, 연선(twisted pair), 디지털 가입자 라인(DSL), 또는 적외선, 라디오 및 마이크로파와 같은 무선 기술들을 사용하여 전송된다면, 네트워크 케이블, 동축 케이블, 광섬유 케이블, 연선, DSL, 또는 적외선, 라디오 및 마이크로파와 같은 무선 기술들은 매체의 정의에 포함된다. disk 및 disc은, 여기서 사용되는 바와 같이, 콤팩트 disc(CD), 레이저 disc, 광 disc, DVD(digital versatile disc), 플로피 disk, 및 블루-레이 disc를 포함하며, 여기서 disk들은 일반적으로 데이터를 자기적으로 재생하지만, disc은 예컨대 레이저들을 통해 광학적으로 데이터를 재생한다. 위의 disk 및 disc의 조합들 역시 컴퓨터-판독가능 매체의 범위 내에 포함될 수 있다.
컴퓨터 프로그램 물건의 컴퓨터-판독가능 매체와 연관된 코드는 예컨대 하나 이상의 디지털 신호 프로세서(DSP들), 범용 마이크로프로세서들, ASIC들(application specific integrated circuits), 필드 프로그램가능 게이트 어레이들(FPGA들, 필드 프로그램가능 로직 어레이들(FPLA들)로 공지되었음), 또는 다른 등가의 집적 또는 이산 로직 회로와 같은 하나 이상의 프로세서들인 컴퓨터에 의해서 실행될 수 있다. 일부 양상들에 있어서, 여기서 설명된 기능은 인코딩 및 디코딩을 위해 구성되거나 결합된 비디오 인코더-디코더(CODEC)에 포함되는 전용 소프트웨어 모듈들 또는 하드웨어 모듈들 내에 제공될 수 있다.
그럼에도불구하고, 아래의 청구항들의 범위로부터 벗어나지 않고 설명된 기술들에 대한 다양한 변경들이 이루어질 수 있다.

Claims (100)

  1. 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들(first order cross-correlations)을 계산하는 단계;
    상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하는 단계; 및
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입을 결정하는 단계를 포함하는,
    방법.
  2. 제 1항에 있어서, 상기 프레임들 각각에 대한 화상 타입을 결정하는 단계는 상기 비디오 시퀀스에 포함된 프레임들 각각이 인트라 화상(intra picture), 예측 화상(predicted picture), 또는 양방향-예측 화상(bi-predictive picture)으로서 인코딩되어야 하는지 여부를 결정하는 단계를 포함하는,
    방법.
  3. 제 1항에 있어서, 상기 프레임들 각각에 대한 화상 타입을 결정하는 단계는,
    상기 1차 상호-상관성들의 출력에 포함된 특징들(features)을 비디오 효과 핑거프린트들(video effect fingerprints)로서 식별함으로써 상기 비디오 시퀀스에 포함된 프레임들 간의 비디오 전환 효과들(video transitional effects)을 검출하는 단계; 및
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들의 비교 분석에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 간의 시간적인 유사성들(temporal similarities)을 결정하는 단계를 포함하는,
    방법.
  4. 제 3항에 있어서,
    상기 비디오 전환 효과들을 검출하는 단계는 상기 1차 상호-상관성들에 기초하여 하나 이상의 콤팩트 지원 비디오 전환 효과들(compact support video transitional effects)을 검출하는 단계를 포함하고,
    상기 콤팩트 지원 비디오 전환 효과들은 컷 신 변화 비디오 효과들(cut scene change video effects), 부분적인 신 변화 비디오 효과들, 및 플래시 프레임 비디오 효과들(flash frame video effects)을 포함하고,
    상기 하나 이상의 콤팩트 지원 비디오 전환 효과들을 검출하는 단계는,
    콤팩트 지원 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하는 상기 콤팩트 지원 비디오 전환 효과들에 매칭된 필터들에, 상기 1차 상호-상관성들의 출력을 적용하는 단계; 및
    검출된 특징들 중 어느 것이 콤팩트 지원 비디오 효과 핑거프린트들인지를 식별하는 임계치 비교기들에 상기 매칭된 필터의 출력을 적용하는 단계를 포함하는,
    방법.
  5. 제 3항에 있어서,
    상기 비디오 전환 효과들을 검출하는 단계는 상기 1차 상호-상관성들에 기초하여 하나 이상의 확장된 지원 비디오 전환 효과들을 검출하는 단계를 포함하고,
    상기 확장된 지원 비디오 전환 효과들은 크로스-페이드(cross-fade) 비디오 효과들, 페이드-인(fade-in) 비디오 효과들, 페이드-아웃(fade-out) 비디오 효과들, 줌-인(zoom-in) 비디오 효과들 및 줌-아웃(zoom-out) 비디오 효과들을 포함하고,
    상기 하나 이상의 확장된 지원 비디오 전환 효과들을 검출하는 단계는,
    확장된 지원 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하는 다중-해상도 분석기들(multi-resolution analyzers)에, 상기 1차 상호-상관성들의 출력을 적용하는 단계; 및
    검출된 특징들 중 어느 것이 확장된 지원 비디오 효과 핑거프린트들인지를 식별하는 구성된 중요(significant) 피크 분석기에 상기 다중-해상도 분석기들의 출력을 적용하는 단계를 포함하는,
    방법.
  6. 제 3항에 있어서,
    상기 비디오 전환 효과들을 검출하는 단계는 상기 1차 상호-상관성들에 기초하여 하나 이상의 글로벌(global) 움직임 비디오 전환 효과들을 검출하는 단계를 포함하고,
    상기 글로벌 움직임 비디오 전환 효과들은 카메라 팬(pan) 비디오 효과들 및 카메라 스크롤(scroll) 비디오 효과들을 포함하며,
    상기 하나 이상의 글로벌 움직임 비디오 전환 효과들을 검출하는 단계는,
    글로벌 움직임 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하고, 상기 특징들 각각에 대한 수평 및 수직 변위 추정들을 결정하는 최대 위치 필터들에 상기 1차 상호-상관성들의 출력을 적용하는 단계; 및
    검출된 특징들 각각에 대한 상기 수평 및 수직 변위 추정들을 스무싱하고(smooth) 검출된 특징들 중 어느 것이 글로벌 움직임 비디오 효과 핑거프린트들인지를 식별하는 다중-채널 융합 모듈(multi-channel fusion module)에 상기 최대 위치 필터들의 출력을 적용하는 단계를 포함하는,
    방법.
  7. 제 1항에 있어서, 프레임 컨텐트에 대한 의존성, 레이트-왜곡 향상 특징들 및 인코딩 대역폭 제도(regime) 특징들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 결정된 화상 타입들의 정확성을 평가하는 단계를 더 포함하는,
    방법.
  8. 제 1항에 있어서,
    상기 비디오 시퀀스를 다수의 프레임들을 포함하는 화상들 그룹(GOP) 구조들로 분할하는 단계를 더 포함하고,
    상기 프레임들 각각에 대한 화상 타입을 결정하는 단계는,
    분석 윈도우(analysis window)가 후보 프레임에 중심을 두고 미리 결정된 수의 이웃 프레임들을 포함하도록, 상기 분석 윈도우를 상기 GOP 구조들 내에 위치시키는 단계;
    상기 분석 윈도우에 포함된 프레임들의 이미지 정보 간의 1차 상호-상관성들을 계산하는 단계;
    상기 분석 윈도우에 포함된 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하는 단계; 및
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여 상기 후보 프레임에 대한 화상 타입을 결정하는 단계를 포함하는,
    방법.
  9. 제 1항에 있어서,
    상기 1차 상호-상관성들을 계산하는 단계는 상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간에 2차원 고속 푸리에 변환-기반의 계산들을 수행하는 단계를 포함하고,
    상기 2차 상호-상관성들을 계산하는 단계는 1차 상호-상관성들의 쌍들 간에 2차원 고속 푸리에 변환-기반의 계산들을 수행하는 단계를 포함하는,
    방법.
  10. 제 1항에 있어서, 상기 1차 상호-상관성들을 계산하는 단계는 상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 전체 프레임 이미지들 간의 1차 상호-상관성들을 계산하는 단계를 포함하는,
    방법.
  11. 제 1항에 있어서, 상기 1차 상호-상관성들을 계산하는 단계는,
    상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 서브이미지들의 세트들의 서브이미지들을 공통 이미지 크기에 패딩(padding)하는 단계;
    상기 서브이미지들의 세트들 간의 1차 서브이미지 상호-상관성들을 계산하는 단계; 및
    상기 프레임들의 쌍들 각각에 대한 서브이미지들 중 적어도 일부에 걸쳐 서브이미지 상호-상관성들을 평균하는 단계를 포함하는,
    방법.
  12. 제 11항에 있어서, 상기 프레임들 각각에 대한 화상 타입을 결정하는 단계는,
    상기 비디오 시퀀스에 포함된 프레임들 각각을 다수의 슬라이스들(slices)로 분할하는 단계; 및
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각의 개별적인 슬라이스들에 대한 화상 타입들을 결정하는 단계를 포함하는,
    방법.
  13. 제 1항에 있어서,
    상기 프레임들 각각에 대한 화상 타입들을 결정하는 단계는 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 벤치마크(benchmark) 화상 타입들을 결정하는 단계를 포함하고,
    상기 방법은 실시간으로 결정되는 화상 타입들의 정확성을 결정하기 위해서 상기 실시간으로 결정되는 화상 타입들을 상기 벤치마크 화상 타입들에 비교하는 단계를 더 포함하는,
    방법.
  14. 제 1항에 있어서, 상기 프레임들 각각에 대한 화상 타입들을 결정하는 단계는 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입들을 실시간으로 결정하는 단계를 포함하는,
    방법.
  15. 제 14항에 있어서, 상기 화상 타입들의 실시간적인 결정을 가능하게 하기 위해서 복잡성 감소들을 수행하는 단계를 더 포함하는,
    방법.
  16. 제 1항에 있어서, 프레임에 대해 결정된 화상 타입에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각을 인코딩하는 단계를 더 포함하는,
    방법.
  17. 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들을 계산하고, 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하는 상관기; 및
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입을 결정하는 화상 타입 결정 모듈을 포함하는,
    장치.
  18. 제 17항에 있어서, 상기 화상 타입 결정 모듈은 상기 비디오 시퀀스에 포함된 프레임들 각각이 인트라 화상, 예측 화상, 또는 양방향-예측 화상으로서 인코딩되어야 하는지 여부를 결정하는,
    장치.
  19. 제 17항에 있어서,
    상관성 분석기를 더 포함하고,
    상기 상관성 분석기는,
    비디오 효과 핑거프린트들로서 식별된 상기 1차 상호-상관성들의 출력에 포함된 특징들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 간의 비디오 전환 효과들을 검출하는 비디오 전환 효과 검출기; 및
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들의 비교 분석에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 간의 시간적인 유사성들을 결정하는 비교 분석기를 포함하는,
    장치.
  20. 제 19항에 있어서,
    상기 비디오 전환 효과 검출기는 상기 1차 상호-상관성들에 기초하여 하나 이상의 콤팩트 지원 비디오 전환 효과들을 검출하는 콤팩트 지원 이벤트 검출기를 포함하고,
    상기 콤팩트 지원 비디오 전환 효과들은 컷 신 변화 비디오 효과들(cut scene change video effects), 부분적인 신 변화 비디오 효과들, 및 플래시 프레임 비디오 효과들(flash frame video effects)을 포함하고,
    상기 콤팩트 지원 이벤트 검출기는,
    콤팩트 지원 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하는 상기 콤팩트 지원 비디오 전환 효과들에 매칭된 필터들; 및
    상기 매칭된 필터들의 출력에서 검출된 특징들 중 어느 것이 콤팩트 지원 비디오 효과 핑거프린트들인지를 식별하는 임계치 비교기들을 포함하는,
    장치.
  21. 제 19항에 있어서,
    상기 비디오 전환 효과 검출기는 상기 1차 상호-상관성들에 기초하여 하나 이상의 확장된 지원 비디오 전환 효과들을 검출하는 확장된 지원 이벤트 검출기를 포함하고,
    상기 확장된 지원 비디오 전환 효과들은 크로스-페이드(cross-fade) 비디오 효과들, 페이드-인(fade-in) 비디오 효과들, 페이드-아웃(fade-out) 비디오 효과들, 줌-인(zoom-in) 비디오 효과들 및 줌-아웃(zoom-out) 비디오 효과들을 포함하고,
    상기 확장된 지원 이벤트 검출기는,
    확장된 지원 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하는 다중-해상도 분석기들; 및
    상기 다중-해상도 분석기들의 출력에서 검출된 특징들 중 어느 것이 확장된 지원 비디오 효과 핑거프린트들인지를 식별하는 구성된 중요(significant) 피크 분석기를 포함하는,
    장치.
  22. 제 19항에 있어서,
    상기 비디오 전환 효과 검출기는 상기 1차 상호-상관성들에 기초하여 하나 이상의 글로벌(global) 움직임 비디오 전환 효과들을 검출하는 글로벌 움직임 검출기를 포함하고,
    상기 글로벌 움직임 비디오 전환 효과들은 카메라 팬(pan) 비디오 효과들 및 카메라 스크롤(scroll) 비디오 효과들을 포함하며,
    상기 글로벌 움직임 검출기는,
    글로벌 움직임 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하고, 상기 특징들 각각에 대한 수평 및 수직 변위 추정들을 결정하는 최대 위치 필터들; 및
    상기 최대 위치 필터의 출력에서 검출된 특징들 각각에 대한 상기 수평 및 수직 변위 추정들을 스무싱하고(smooth), 검출된 특징들 중 어느 것이 글로벌 움직임 비디오 효과 핑거프린트들인지를 식별하는 다중-채널 융합 모듈을 포함하는,
    장치.
  23. 제 17항에 있어서, 프레임 컨텐트에 대한 의존성, 레이트-왜곡 향상 특징들 및 인코딩 대역폭 제도(regime) 특징들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각에 대해 상기 화상 타입 결정 모듈에 의해 결정된 화상 타입들의 정확성을 평가하는 평가 모듈을 더 포함하는,
    장치.
  24. 제 17항에 있어서,
    상기 비디오 시퀀스를 다수의 프레임들을 포함하는 화상들 그룹(GOP) 구조들로 분할하는 GOP 분할기; 및
    분석 윈도우가 후보 프레임에 중심을 두고 미리 결정된 수의 이웃 프레임들을 포함하도록, 상기 분석 윈도우를 상기 GOP 구조들 내에 위치시키는 분석 윈도우 위치결정 모듈을 더 포함하고,
    상기 상관기는 상기 분석 윈도우에 포함된 프레임들의 이미지 정보 간의 1차 상호-상관성들을 계산하고, 상기 분석 윈도우에 포함된 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하며,
    상기 화상 타입 결정 모듈은 상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여 상기 후보 프레임에 대한 화상 타입을 결정하는,
    장치.
  25. 제 17항에 있어서,
    상기 상관기는 상기 1차 상호-상관성들을 생성하기 위해서 상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간에 2차원 고속 푸리에 변환-기반의 계산들을 수행하고, 상기 2차 상호-상관성들을 계산하기 위해서 1차 상호-상관성들의 쌍들 간에 2차원 고속 푸리에 변환-기반의 계산들을 수행하는,
    장치.
  26. 제 17항에 있어서, 상기 상관기는 상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 전체 프레임 이미지들 간의 1차 상호-상관성들을 계산하는,
    장치.
  27. 제 17항에 있어서, 상기 상관기는,
    상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 서브이미지들의 세트들의 서브이미지들을 공통 이미지 크기에 패딩(padding)하고;
    상기 서브이미지들의 세트들 간의 1차 서브이미지 상호-상관성들을 계산하며;
    상기 1차 상호-상관성들을 생성하기 위해서 상기 프레임들의 쌍들 각각에 대한 서브이미지들 중 적어도 일부에 걸쳐 서브이미지 상호-상관성들을 평균하는,
    장치.
  28. 제 27항에 있어서, 상기 화상 타입 결정 모듈은,
    상기 비디오 시퀀스에 포함된 프레임들 각각을 다수의 슬라이스들(slices)로 분할하고;
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각의 개별적인 슬라이스들에 대한 화상 타입들을 결정하는,
    장치.
  29. 제 17항에 있어서, 상기 화상 타입 결정 모듈은 실시간으로 결정되는 화상 타입들의 정확성을 결정하기 위해서, 상기 실시간으로 결정되는 화상 타입들에 비교하기 위해 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 벤치마크 화상 타입들을 결정하는,
    장치.
  30. 제 17항에 있어서, 상기 화상 타입 결정 모듈은 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입들을 실시간으로 결정하는,
    장치.
  31. 제 30항에 있어서, 상기 화상 타입 결정 모듈이 상기 화상 타입들의 실시간적인 결정을 수행할 수 있도록 하기 위해서 복잡성 감소들을 수행하는 복잡성 감소 모듈을 더 포함하는,
    장치.
  32. 제 17항에 있어서, 프레임에 대해 결정된 화상 타입에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각을 인코딩하는 인코더를 더 포함하는,
    장치.
  33. 명령들을 포함하는 컴퓨터-판독가능 매체를 포함한 컴퓨터 프로그램 물건으로서, 상기 명령들은 컴퓨터로 하여금,
    비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들을 계산하도록 하고;
    상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하도록 하며; 및
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입을 결정하도록 하는,
    컴퓨터 프로그램 물건.
  34. 제 33항에 있어서, 상기 명령들은 상기 컴퓨터로 하여금 상기 비디오 시퀀스에 포함된 프레임들 각각이 인트라 화상, 예측 화상, 또는 양방향-예측 화상으로서 인코딩되어야 하는지 여부를 결정하도록 하는,
    컴퓨터 프로그램 물건.
  35. 제 17항에 있어서, 상기 명령들은 상기 컴퓨터로 하여금,
    비디오 효과 핑거프린트들로서 식별된 상기 1차 상호-상관성들의 출력에 포함된 특징들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 간의 비디오 전환 효과들을 검출하도록 하고;
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들의 비교 분석에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 간의 시간적인 유사성들을 결정하도록 하는,
    컴퓨터 프로그램 물건.
  36. 제 35항에 있어서,
    상기 명령들은 상기 컴퓨터로 하여금 상기 1차 상호-상관성들에 기초하여 하나 이상의 콤팩트 지원 비디오 전환 효과들을 검출하도록 하고,
    상기 콤팩트 지원 비디오 전환 효과들은 컷 신 변화 비디오 효과들(cut scene change video effects), 부분적인 신 변화 비디오 효과들, 및 플래시 프레임 비디오 효과들(flash frame video effects)을 포함하고,
    상기 컴퓨터로 하여금 하나 이상의 콤팩트 지원 비디오 전환 효과들을 검출하도록 하는 명령들은 상기 컴퓨터로 하여금,
    콤팩트 지원 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하는 상기 콤팩트 지원 비디오 전환 효과들에 매칭된 필터들에 상기 1차 상호-상관성들의 출력을 적용하도록 하고;
    검출된 특징들 중 어느 것이 콤팩트 지원 비디오 효과 핑거프린트들인지를 식별하는 임계치 비교기들에 상기 매칭된 필터들의 출력을 적용하도록 하는,
    컴퓨터 프로그램 물건.
  37. 제 35항에 있어서,
    상기 명령들은 상기 컴퓨터로 하여금 상기 1차 상호-상관성들에 기초하여 하나 이상의 확장된 지원 비디오 전환 효과들을 검출하도록 하고,
    상기 확장된 지원 비디오 전환 효과들은 크로스-페이드(cross-fade) 비디오 효과들, 페이드-인(fade-in) 비디오 효과들, 페이드-아웃(fade-out) 비디오 효과들, 줌-인(zoom-in) 비디오 효과들 및 줌-아웃(zoom-out) 비디오 효과들을 포함하고,
    상기 컴퓨터로 하여금 하나 이상의 확장된 지원 비디오 전환 효과들을 검출하도록 하는 명령들은 상기 컴퓨터로 하여금,
    확장된 지원 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하는 다중-해상도 분석기들에 상기 1차 상호-상관성들의 출력을 적용하도록 하고;
    상기 검출된 특징들 중 어느 것이 확장된 지원 비디오 효과 핑거프린트들인지를 식별하는 구성된 중요(significant) 피크 분석기에 상기 다중-해상도 분석기의 출력을 적용하도록 하는,
    컴퓨터 프로그램 물건.
  38. 제 35항에 있어서,
    상기 명령들은 상기 컴퓨터로 하여금 상기 1차 상호-상관성들에 기초하여 하나 이상의 글로벌(global) 움직임 비디오 전환 효과들을 검출하도록 하고,
    상기 글로벌 움직임 비디오 전환 효과들은 카메라 팬(pan) 비디오 효과들 및 카메라 스크롤(scroll) 비디오 효과들을 포함하며,
    상기 컴퓨터로 하여금 하나 이상의 글로벌 움직임 비디오 전화 효과들을 검출하게 하도록 하는 명령들은 상기 컴퓨터로 하여금,
    글로벌 움직임 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하고, 상기 특징들 각각에 대한 수평 및 수직 변위 추정들을 결정하는 최대 위치 필터들에 상기 1차 상호-상관성들의 출력을 적용하도록 하고;
    상기 검출된 특징들 각각에 대한 상기 수평 및 수직 변위 추정들을 스무싱하고(smooth), 검출된 특징들 중 어느 것이 글로벌 움직임 비디오 효과 핑거프린트들인지를 식별하는 다중-채널 융합 모듈에 상기 최대 위치 필터들의 출력을 적용하도록 하는,
    컴퓨터 프로그램 물건.
  39. 제 33항에 있어서, 상기 컴퓨터로 하여금 프레임 컨텐트에 대한 의존성, 레이트-왜곡 향상 특징들 및 인코딩 대역폭 제도(regime) 특징들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 결정된 화상 타입들의 정확성을 평가하도록 하는 명령들을 더 포함하는,
    컴퓨터 프로그램 물건.
  40. 제 33항에 있어서,
    상기 컴퓨터로 하여금 상기 비디오 시퀀스를 다수의 프레임들을 포함하는 화상들 그룹(GOP) 구조들로 분할하도록 하는 명령들;
    상기 컴퓨터로 하여금 분석 윈도우가 후보 프레임에 중심을 두고 미리 결정된 수의 이웃 프레임들을 포함하도록 하기 위해서 상기 분석 윈도우를 상기 GOP 구조들 내에 위치시키도록 하는 명령들;
    상기 컴퓨터로 하여금 상기 분석 윈도우에 포함된 프레임들의 이미지 정보 간의 1차 상호-상관성들을 계산하도록 하는 명령들;
    상기 컴퓨터로 하여금 상기 분석 윈도우에 포함된 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하도록 하는 명령들;
    상기 컴퓨터로 하여금 상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여 상기 후보 프레임에 대한 화상 타입을 결정하도록 하는 명령들을 더 포함하는,
    컴퓨터 프로그램 물건.
  41. 제 33항에 있어서, 상기 명령들은 상기 컴퓨터로 하여금,
    상기 1차 상호-상관성들을 생성하기 위해서 상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간에 2차원 고속 푸리에 변환-기반의 계산들을 수행하도록 하고,
    상기 2차 상호-상관성들을 계산하기 위해서 1차 상호-상관성들의 쌍들 간에 2차원 고속 푸리에 변환-기반의 계산들을 수행하도록 하는,
    컴퓨터 프로그램 물건.
  42. 제 33항에 있어서, 상기 명령들은 상기 컴퓨터로 하여금 상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 전체 프레임 이미지들 간의 1차 상호-상관성들을 계산하도록 하는,
    컴퓨터 프로그램 물건.
  43. 제 33항에 있어서, 상기 명령들은 상기 컴퓨터로 하여금,
    상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 서브이미지들의 세트들의 서브이미지들을 공통 이미지 크기에 패딩(padding)하도록 하고;
    상기 서브이미지들의 세트들 간의 1차 서브이미지 상호-상관성들을 계산하도록 하며;
    상기 1차 상호-상관성들을 생성하기 위해서 상기 프레임들의 쌍들 각각에 대한 서브이미지들 중 적어도 일부에 걸쳐 서브이미지 상호-상관성들을 평균하도록 하는,
    컴퓨터 프로그램 물건.
  44. 제 43항에 있어서, 상기 명령들은 상기 컴퓨터로 하여금,
    상기 비디오 시퀀스에 포함된 프레임들 각각을 다수의 슬라이스들(slices)로 분할하도록 하고;
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각의 개별적인 슬라이스들에 대한 화상 타입들을 결정하도록 하는,
    컴퓨터 프로그램 물건.
  45. 제 33항에 있어서, 상기 명령들은 상기 컴퓨터로 하여금 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 벤치마크 화상 타입들을 결정하도록 하고, 실시간으로 결정되는 화상 타입들의 정확성을 결정하기 위해서 실시간으로 결정되는 화상 타입들을 상기 벤치마크 화상 타입들에 비교하도록 하는,
    컴퓨터 프로그램 물건.
  46. 제 33항에 있어서, 상기 명령들은 상기 컴퓨터로 하여금 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입들을 실시간으로 결정하도록 하는,
    컴퓨터 프로그램 물건.
  47. 제 46항에 있어서, 상기 명령들은 상기 컴퓨터로 하여금 상기 화상 타입들의 실시간적인 결정을 가능하게 하기 위해서 복잡성 감소들을 수행하도록 하는,
    컴퓨터 프로그램 물건.
  48. 제 33항에 있어서, 상기 컴퓨터로 하여금 프레임에 대해 결정된 화상 타입에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각을 인코딩하도록 하는 명령들을 더 포함하는,
    컴퓨터 프로그램 물건.
  49. 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들 및 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하기 위한 수단; 및
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입을 결정하기 위한 수단을 포함하는,
    장치.
  50. 제 49항에 있어서, 상기 화상 타입을 결정하기 위한 수단은 상기 비디오 시퀀스에 포함된 프레임들 각각이 인트라 화상, 예측 화상, 또는 양방향-예측 화상으로서 인코딩되어야 하는지 여부를 결정하는,
    장치.
  51. 제 49항에 있어서,
    비디오 효과 핑거프린트들로서 식별되는 상기 1차 상호-상관성들의 출력에 포함된 특징들(features)에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 간의 비디오 전환 효과들을 검출하기 위한 수단; 및
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들의 비교 분석에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 간의 시간적인 유사성들을 결정하기 위한 수단을 더 포함하는,
    장치.
  52. 제 51항에 있어서,
    상기 비디오 전환 효과들을 검출하기 위한 수단은 상기 1차 상호-상관성들에 기초하여 하나 이상의 콤팩트 지원 비디오 전환 효과들을 검출하기 위한 수단을 포함하고,
    상기 콤팩트 지원 비디오 전환 효과들은 컷 신 변화 비디오 효과들(cut scene change video effects), 부분적인 신 변화 비디오 효과들, 및 플래시 프레임 비디오 효과들(flash frame video effects)을 포함하고,
    상기 하나 이상의 콤팩트 지원 비디오 전환 효과들을 검출하기 위한 수단은,
    콤팩트 지원 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하는 상기 콤팩트 지원 비디오 전환 효과들에 매칭된 필터들; 및
    상기 매칭된 필터들의 출력에서 검출된 특징들 중 어느 것이 콤팩트 지원 비디오 효과 핑거프린트들인지를 식별하는 임계치 비교기들을 포함하는,
    장치.
  53. 제 51항에 있어서,
    상기 비디오 전환 효과들을 검출하기 위한 수단은 상기 1차 상호-상관성들에 기초하여 하나 이상의 확장된 지원 비디오 전환 효과들을 검출하기 위한 수단을 포함하고,
    상기 확장된 지원 비디오 전환 효과들은 크로스-페이드(cross-fade) 비디오 효과들, 페이드-인(fade-in) 비디오 효과들, 페이드-아웃(fade-out) 비디오 효과들, 줌-인(zoom-in) 비디오 효과들 및 줌-아웃(zoom-out) 비디오 효과들을 포함하고,
    상기 하나 이상의 확장된 지원 비디오 전환 효과들을 검출하기 위한 수단은,
    확장된 지원 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하는 다중-해상도 분석기들; 및
    상기 다중-해상도 분석기들의 출력에서 검출된 특징들 중 어느 것이 확장된 지원 비디오 효과 핑거프린트들인지를 식별하는 구성된 중요(significant) 피크 분석기를 포함하는,
    장치.
  54. 제 51항에 있어서,
    상기 비디오 전환 효과들을 검출하기 위한 수단은 상기 1차 상호-상관성들에 기초하여 하나 이상의 글로벌(global) 움직임 비디오 전환 효과들을 검출하기 위한 수단을 포함하고,
    상기 글로벌 움직임 비디오 전환 효과들은 카메라 팬(pan) 비디오 효과들 및 카메라 스크롤(scroll) 비디오 효과들을 포함하며,
    상기 하나 이상의 글로벌 움직임 비디오 전환 효과들을 검출하기 위한 수단은,
    글로벌 움직임 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하고, 상기 특징들 각각에 대한 수평 및 수직 변위 추정들을 결정하는 최대 위치 필터들; 및
    상기 최대 위치 필터들의 출력에서 검출된 특징들 각각에 대한 상기 수평 및 수직 변위 추정들을 스무싱하고(smooth), 검출된 특징들 중 어느 것이 글로벌 움직임 비디오 효과 핑거프린트들인지를 식별하는 다중-채널 융합 모듈을 포함하는,
    장치.
  55. 제 49항에 있어서, 프레임 컨텐트에 대한 의존성, 레이트-왜곡 향상 특징들 및 인코딩 대역폭 제도(regime) 특징들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 결정된 화상 타입들의 정확성을 평가하기 위한 수단을 더 포함하는,
    장치.
  56. 제 49항에 있어서,
    상기 비디오 시퀀스를 다수의 프레임들을 포함하는 화상들 그룹(GOP) 구조들로 분할하기 위한 수단; 및
    분석 윈도우가 후보 프레임에 중심을 두고 미리 결정된 수의 이웃 프레임들을 포함하도록, 상기 분석 윈도우를 상기 GOP 구조들 내에 위치시키기 위한 수단을 더 포함하고,
    상기 계산하기 위한 수단은 상기 분석 윈도우에 포함된 프레임들의 이미지 정보 간의 1차 상호-상관성들을 계산하고, 상기 분석 윈도우에 포함된 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하며,
    상기 화상 타입을 결정하기 위한 수단은 상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여 상기 후보 프레임에 대한 화상 타입을 결정하는,
    장치.
  57. 제 49항에 있어서,
    상기 계산하기 위한 수단은 상기 1차 상호-상관성들을 생성하기 위해서 상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간에 2차원 고속 푸리에 변환-기반의 계산들을 수행하고, 상기 2차 상호-상관성들을 생성하기 위해서 1차 상호-상관성들의 쌍들 간에 2차원 고속 푸리에 변환-기반의 계산들을 수행하는,
    장치.
  58. 제 49항에 있어서, 상기 계산하기 위한 수단은 상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 전체 프레임 이미지들 간의 1차 상호-상관성들을 계산하는,
    장치.
  59. 제 49항에 있어서, 상기 계산하기 위한 수단은,
    상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 서브이미지들의 세트들의 서브이미지들을 공통 이미지 크기에 패딩(padding)하고;
    상기 서브이미지들의 세트들 간의 1차 서브이미지 상호-상관성들을 계산하며;
    상기 1차 상호-상관성들을 생성하기 위해서 상기 프레임들의 쌍들 각각에 대한 서브이미지들 중 적어도 일부에 걸쳐 서브이미지 상호-상관성들을 평균하는,
    장치.
  60. 제 59항에 있어서, 상기 화상 타입을 결정하기 위한 수단은,
    상기 비디오 시퀀스에 포함된 프레임들 각각을 다수의 슬라이스들(slices)로 분할하고;
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각의 개별적인 슬라이스들에 대한 화상 타입들을 결정하는,
    장치.
  61. 제 49항에 있어서,
    상기 화상 타입을 결정하기 위한 수단은 실시간으로 결정되는 화상 타입들에 대한 정확성을 결정하기 위해서 상기 실시간으로 결정되는 화상 타입들에 비교하기 위해 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 벤치마크 화상 타입들을 결정하는,
    장치.
  62. 제 49항에 있어서, 상기 화상 타입을 결정하기 위한 수단은 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입들을 실시간으로 결정하는,
    장치.
  63. 제 62항에 있어서, 상기 화상 타입 결정 모듈이 상기 화상 타입들의 실시간적인 결정을 수행할 수 있게 하기 위해서 복잡성 감소들을 수행하기 위한 수단을 더 포함하는,
    장치.
  64. 제 49항에 있어서, 프레임에 대해 결정된 화상 타입에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각을 인코딩하기 위한 수단을 더 포함하는,
    장치.
  65. 무선 통신 장치 핸드셋으로서,
    비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들 및 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하는 상관기; 및
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입을 결정하는 화상 타입 결정 모듈을 포함하는,
    무선 통신 장치 핸드셋.
  66. 제 65항에 있어서, 상기 화상 타입 결정 모듈은 상기 비디오 시퀀스에 포함된 프레임들 각각이 인트라 화상, 예측 화상, 또는 양방향-예측 화상으로서 인코딩되어야 하는지 여부를 결정하는,
    무선 통신 장치 핸드셋.
  67. 제 65항에 있어서,
    상관성 분석기를 더 포함하고,
    상기 상관성 분석기는,
    비디오 효과 핑거프린트들로서 식별되는 상기 1차 상호-상관성들의 출력에 포함된 특징들(features)에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 간의 비디오 전환 효과들을 검출하는 비디오 전환 효과 검출기; 및
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들의 비교 분석에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 간의 시간적인 유사성들을 결정하는 비교 분석기를 포함하는,
    무선 통신 장치 핸드셋.
  68. 제 67항에 있어서,
    상기 비디오 전환 효과 검출기는 상기 1차 상호-상관성들에 기초하여 하나 이상의 콤팩트 지원 비디오 전환 효과들을 검출하는 콤팩트 지원 이벤트 검출기를 포함하고,
    상기 콤팩트 지원 비디오 전환 효과들은 컷 신 변화 비디오 효과들(cut scene change video effects), 부분적인 신 변화 비디오 효과들, 및 플래시 프레임 비디오 효과들(flash frame video effects)을 포함하고,
    상기 콤팩트 지원 이벤트 검출기는,
    콤팩트 지원 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하는 상기 콤팩트 지원 비디오 전환 효과들에 매칭된 필터들; 및
    상기 매칭된 필터들의 출력에서 검출된 특징들 중 어느 것이 콤팩트 지원 비디오 효과 핑거프린트들인지를 식별하는 임계치 비교기들을 포함하는,
    무선 통신 장치 핸드셋.
  69. 제 67항에 있어서,
    상기 비디오 전환 효과들 검출기는 상기 1차 상호-상관성들에 기초하여 하나 이상의 확장된 지원 비디오 전환 효과들을 검출하는 확장된 지원 이벤트 검출기를 포함하고,
    상기 확장된 지원 비디오 전환 효과들은 크로스-페이드(cross-fade) 비디오 효과들, 페이드-인(fade-in) 비디오 효과들, 페이드-아웃(fade-out) 비디오 효과들, 줌-인(zoom-in) 비디오 효과들 및 줌-아웃(zoom-out) 비디오 효과들을 포함하고,
    상기 확장된 지원 이벤트 검출기는,
    확장된 지원 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하는 다중-해상도 분석기들; 및
    상기 다중-해상도 분석기들의 출력에서 검출된 특징들 중 어느 것이 확장된 지원 비디오 효과 핑거프린트들인지를 식별하는 구성된 중요(significant) 피크 분석기를 포함하는,
    무선 통신 장치 핸드셋.
  70. 제 67항에 있어서,
    상기 비디오 전환 효과 검출기는 상기 1차 상호-상관성들에 기초하여 하나 이상의 글로벌(global) 움직임 비디오 전환 효과들을 검출하는 글로벌 움직임 검출기를 포함하고,
    상기 글로벌 움직임 비디오 전환 효과들은 카메라 팬(pan) 비디오 효과들 및 카메라 스크롤(scroll) 비디오 효과들을 포함하며,
    상기 글로벌 움직임 검출기는,
    글로벌 움직임 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하고, 상기 특징들 각각에 대한 수평 및 수직 변위 추정들을 결정하는 최대 위치 필터들; 및
    상기 최대 위치 필터들의 출력에서 검출된 특징들 각각에 대한 상기 수평 및 수직 변위 추정들을 스무싱하고(smooth), 검출된 특징들 중 어느 것이 글로벌 움직임 비디오 효과 핑거프린트들인지를 식별하는 다중-채널 융합 모듈을 포함하는,
    무선 통신 장치 핸드셋.
  71. 제 65항에 있어서, 프레임 컨텐트에 대한 의존성, 레이트-왜곡 향상 특징들 및 인코딩 대역폭 제도(regime) 특징들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각에 대해 상기 화상 타입 결정 모듈에 의해서 결정되는 화상 타입들의 정확성을 평가하는 평가 모듈을 더 포함하는,
    무선 통신 장치 핸드셋.
  72. 제 65항에 있어서,
    상기 비디오 시퀀스를 다수의 프레임들을 포함하는 화상들 그룹(GOP) 구조들로 분할하는 GOP 분할기; 및
    분석 윈도우가 후보 프레임에 중심을 두고 미리 결정된 수의 이웃 프레임들을 포함하도록, 상기 분석 윈도우를 상기 GOP 구조들 내에 위치시키는 분석 윈도우 위치결정 모듈을 더 포함하고,
    상기 상관기는 상기 분석 윈도우에 포함된 프레임들의 이미지 정보 간의 1차 상호-상관성들을 계산하고, 상기 분석 윈도우에 포함된 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하며,
    상기 화상 타입 결정 모듈은 상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여 상기 후보 프레임에 대한 화상 타입을 결정하는,
    무선 통신 장치 핸드셋.
  73. 제 65항에 있어서,
    상기 상관기는 상기 1차 상호-상관성들을 생성하기 위해서 상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간에 2차원 고속 푸리에 변환-기반의 계산들을 수행하고, 상기 2차 상호-상관성들을 생성하기 위해서 1차 상호-상관성들의 쌍들 간에 2차원 고속 푸리에 변환-기반의 계산들을 수행하는,
    무선 통신 장치 핸드셋.
  74. 제 65항에 있어서, 상기 상관기는 상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 전체 프레임 이미지들 간의 1차 상호-상관성들을 계산하는,
    무선 통신 장치 핸드셋.
  75. 제 65항에 있어서, 상기 상관기는,
    상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 서브이미지들의 세트들의 서브이미지들을 공통 이미지 크기에 패딩(padding)하고;
    상기 서브이미지들의 세트들 간의 1차 서브이미지 상호-상관성들을 계산하며;
    상기 1차 상호-상관성들을 생성하기 위해서 상기 프레임들의 쌍들 각각에 대한 서브이미지들 중 적어도 일부에 걸쳐 서브이미지 상호-상관성들을 평균하는,
    무선 통신 장치 핸드셋.
  76. 제 75항에 있어서, 상기 화상 타입 결정 모듈은,
    상기 비디오 시퀀스에 포함된 프레임들 각각을 다수의 슬라이스들(slices)로 분할하고;
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각의 개별적인 슬라이스들에 대한 화상 타입들을 결정하는,
    무선 통신 장치 핸드셋.
  77. 제 65항에 있어서,
    상기 화상 타입 결정 모듈은 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입들을 실시간으로 결정하는,
    무선 통신 장치 핸드셋.
  78. 제 77항에 있어서, 상기 화상 타입 결정 모듈이 상기 화상 타입들의 실시간적인 결정을 수행할 수 있게 하기 위해서 복잡성 감소들을 수행하는 복잡성 감소 모듈을 더 포함하는,
    무선 통신 장치 핸드셋.
  79. 제 65항에 있어서, 프레임에 대해 결정된 화상 타입에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각을 인코딩하는 인코더를 더 포함하는,
    무선 통신 장치 핸드셋.
  80. 적어도 하나의 프로세서를 포함하는, 디지털 이미지 처리를 위한 집적 회로 장치로서, 상기 적어도 하나의 프로세서는,
    비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성들을 계산하고;
    상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하며;
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입을 결정하도록 구성되는,
    집적 회로 장치.
  81. 제 80항에 있어서, 상기 적어도 하나의 프로세서는 상기 비디오 시퀀스에 포함된 프레임들 각각이 인트라 화상, 예측 화상, 또는 양방향-예측 화상으로서 인코딩되어야 하는지 여부를 결정하도록 구성되는,
    집적 회로 장치.
  82. 제 80항에 있어서, 상기 적어도 하나의 프로세서는,
    비디오 효과 핑거프린트들로서 식별되는 상기 1차 상호-상관성들의 출력에 포함된 특징들(features)에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 간의 비디오 전환 효과들을 검출하고;
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들의 비교 분석에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 간의 시간적인 유사성들을 결정하도록 구성되는,
    집적 회로 장치.
  83. 제 82항에 있어서,
    상기 적어도 하나의 프로세서는 상기 1차 상호-상관성들에 기초하여 하나 이상의 콤팩트 지원 비디오 전환 효과들을 검출하도록 구성되고,
    상기 콤팩트 지원 비디오 전환 효과들은 컷 신 변화 비디오 효과들(cut scene change video effects), 부분적인 신 변화 비디오 효과들, 및 플래시 프레임 비디오 효과들(flash frame video effects)을 포함하고,
    상기 적어도 하나의 프로세서는,
    콤팩트 지원 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하는 상기 콤팩트 지원 비디오 전환 효과들에 매칭된 필터들에 상기 1차 상호-상관성들의 출력을 적용하고;
    상기 검출된 특징들 중 어느 것이 콤팩트 지원 비디오 효과 핑거프린트들인지를 식별하는 임계치 비교기들에 상기 매칭된 필터들의 출력을 적용하도록 구성되는,
    집적 회로 장치.
  84. 제 82항에 있어서,
    상기 적어도 하나의 프로세서는 상기 1차 상호-상관성들에 기초하여 하나 이상의 확장된 지원 비디오 전환 효과들을 검출하도록 구성되고,
    상기 확장된 지원 비디오 전환 효과들은 크로스-페이드(cross-fade) 비디오 효과들, 페이드-인(fade-in) 비디오 효과들, 페이드-아웃(fade-out) 비디오 효과들, 줌-인(zoom-in) 비디오 효과들 및 줌-아웃(zoom-out) 비디오 효과들을 포함하고,
    상기 적어도 하나의 프로세서는,
    확장된 지원 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하는 다중-해상도 분석기들에 상기 1차 상호-상관성들의 출력을 적용하고;
    상기 검출된 특징들 중 어느 것이 확장된 지원 비디오 효과 핑거프린트들인지를 식별하는 구성된 중요(significant) 피크 분석기에 상기 다중-해상도 분석기들의 출력을 적용하도록 구성되는,
    집적 회로 장치.
  85. 제 82항에 있어서,
    상기 적어도 하나의 프로세서는 상기 1차 상호-상관성들에 기초하여 하나 이상의 글로벌(global) 움직임 비디오 전환 효과들을 검출하도록 구성되고,
    상기 글로벌 움직임 비디오 전환 효과들은 카메라 팬(pan) 비디오 효과들 및 카메라 스크롤(scroll) 비디오 효과들을 포함하며,
    상기 적어도 하나의 프로세서는,
    글로벌 움직임 비디오 효과 핑거프린트들과 실질적으로 유사한 상기 1차 상호-상관성들의 출력 내의 다수의 특징들을 검출하고, 상기 특징들 각각에 대한 수평 및 수직 변위 추정들을 결정하는 최대 위치 필터들에 상기 1차 상호-상관성들의 출력을 적용하고;
    상기 검출된 특징들 각각에 대한 상기 수평 및 수직 변위 추정들을 스무싱하고(smooth), 검출된 특징들 중 어느 것이 글로벌 움직임 비디오 효과 핑거프린트들인지를 식별하는 다중-채널 융합 모듈에 상기 최대 위치 필터들의 출력을 적용하도록 구성되는,
    집적 회로 장치.
  86. 제 80항에 있어서, 상기 적어도 하나의 프로세서는 프레임 컨텐트에 대한 의존성, 레이트-왜곡 향상 특징들 및 인코딩 대역폭 제도(regime) 특징들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각에 대해 상기 결정되는 화상 타입들의 정확성을 평가하도록 구성되는,
    집적 회로 장치.
  87. 제 80항에 있어서, 상기 적어도 하나의 프로세서는,
    상기 비디오 시퀀스를 다수의 프레임들을 포함하는 화상들 그룹(GOP) 구조들로 분할하고;
    분석 윈도우가 후보 프레임에 중심을 두고 미리 결정된 수의 이웃 프레임들을 포함하도록, 상기 분석 윈도우를 상기 GOP 구조들 내에 위치시키며;
    상기 분석 윈도우에 포함된 프레임들의 이미지 정보 간의 1차 상호-상관성들을 계산하고;
    상기 분석 윈도우에 포함된 상기 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들을 계산하며;
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여 상기 후보 프레임에 대한 화상 타입을 결정하도록 구성되는,
    집적 회로 장치.
  88. 제 80항에 있어서, 상기 적어도 하나의 프로세서는,
    상기 1차 상호-상관성들을 생성하기 위해서 상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 이미지 정보 간에 2차원 고속 푸리에 변환-기반의 계산들을 수행하고,
    상기 2차 상호-상관성들을 생성하기 위해서 1차 상호-상관성들의 쌍들 간에 2차원 고속 푸리에 변환-기반의 계산들을 수행하도록 구성되는,
    집적 회로 장치.
  89. 제 80항에 있어서, 상기 적어도 하나의 프로세서는 상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 전체 프레임 이미지들 간의 1차 상호-상관성들을 계산하도록 구성되는,
    집적 회로 장치.
  90. 제 80항에 있어서, 상기 적어도 하나의 프로세서는,
    상기 비디오 시퀀스에 포함된 프레임들의 쌍들 내에 있는 서브이미지들의 세트들의 서브이미지들을 공통 이미지 크기에 패딩(padding)하고;
    상기 서브이미지들의 세트들 간의 1차 서브이미지 상호-상관성들을 계산하며;
    상기 1차 상호-상관성들을 생성하기 위해서 상기 프레임들의 쌍들 각각에 대한 서브이미지들 중 적어도 일부에 걸쳐 서브이미지 상호-상관성들을 평균하도록 구성되는,
    집적 회로 장치.
  91. 제 90항에 있어서, 상기 적어도 하나의 프로세서는,
    상기 비디오 시퀀스에 포함된 프레임들 각각을 다수의 슬라이스들(slices)로 분할하고;
    상기 1차 상호-상관성들 및 상기 2차 상호-상관성들에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각의 개별적인 슬라이스들에 대한 화상 타입들을 결정하도록 구성되는,
    집적 회로 장치.
  92. 제 80항에 있어서,
    상기 적어도 하나의 프로세서는 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 벤치마크 화상 타입들을 결정하고, 실시간으로 결정되는 화상 타입들의 정확성을 결정하기 위해서 상기 실시간으로 결정되는 화상 타입들을 상기 벤치마크 화상 타입들에 비교하도록 구성되는,
    집적 회로 장치.
  93. 제 80항에 있어서, 상기 적어도 하나의 프로세서는 상기 비디오 시퀀스에 포함된 프레임들 각각에 대한 화상 타입들을 실시간으로 결정하도록 구성되는,
    집적 회로 장치.
  94. 제 93항에 있어서, 상기 적어도 하나의 프로세서는 상기 화상 타입들의 실시간적인 결정을 가능하게 하기 위해서 복잡성 감소들을 수행하도록 구성되는,
    집적 회로 장치.
  95. 제 80항에 있어서, 상기 적어도 하나의 프로세서는 프레임에 대해 결정된 화상 타입에 기초하여, 상기 비디오 시퀀스에 포함된 프레임들 각각을 인코딩하도록 구성되는,
    집적 회로 장치.
  96. 비디오 데이터를 다수의 프레임들을 포함하는 화상들 그룹(GOP) 구조들로 분할하는 GOP 분할기, 및 실시간으로 상기 GOP 구조들에 포함된 프레임들에 대한 화상 타입들을 결정하는 적응적 화상들 그룹(AGOP) 구조 결정 모듈을 포함하는 코딩 장치;
    프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성 및 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들에 기초하여, 상기 GOP 구조들에 포함된 프레임들에 대한 벤치마크 화상 타입들을 결정하는, 상기 코딩 장치의 외부에 위치하는 상관성-기반의 AGOP 구조 결정 모듈; 및
    상기 코딩 장치에 통합된 상기 AGOP 구조 결정 모듈의 정확성을 결정하기 위해서 상기 화상 타입들을 상기 벤치마크 화상 타입들에 비교하는 벤치마크 비교기를 포함하는,
    시스템.
  97. 제 96항에 있어서, 상기 코딩 장치는 트랜스코더 또는 인코더 중 하나를 포함하는,
    시스템.
  98. 코딩 장치로서,
    비디오 데이터를 다수의 프레임들을 포함하는 화상들 그룹(GOP) 구조들로 분할하는 GOP 분할기; 및
    프레임들의 쌍들 내에 있는 이미지 정보 간의 1차 상호-상관성 및 1차 상호-상관성들의 쌍들 간의 2차 상호-상관성들에 기초하여, 실시간으로 상기 GOP 구조들에 포함된 프레임들에 대한 화상 타입들을 결정하는 상관성-기반의 적응적 화상들 그룹(AGOP) 구조 결정 모듈을 포함하는,
    코딩 장치.
  99. 제 98항에 있어서, 상기 GOP 구조들에 포함된 프레임들 내에 있는 이미지 정보의 해상도를 감소시키는 것 및 상기 상관성-기반의 AGOP 구조 결정 모듈에 의해 계산되는 1차 상호-상관성들의 수를 제한하는 것 중 적어도 하나를 수행하는 복잡성 감소 모듈을 더 포함하는,
    코딩 장치.
  100. 제 98항에 있어서, 상기 코딩 장치는 트랜스코더 또는 인코더 중 하나를 포함하는,
    코딩 장치.
KR1020107016072A 2007-12-17 2008-12-17 적응적 화상들 그룹 (agop) 구조 결정 KR20100093131A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/957,582 2007-12-17
US11/957,582 US9628811B2 (en) 2007-12-17 2007-12-17 Adaptive group of pictures (AGOP) structure determination

Publications (1)

Publication Number Publication Date
KR20100093131A true KR20100093131A (ko) 2010-08-24

Family

ID=40568323

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107016072A KR20100093131A (ko) 2007-12-17 2008-12-17 적응적 화상들 그룹 (agop) 구조 결정

Country Status (7)

Country Link
US (1) US9628811B2 (ko)
EP (1) EP2073554A3 (ko)
JP (1) JP2011507461A (ko)
KR (1) KR20100093131A (ko)
CN (1) CN101926174A (ko)
TW (1) TW200945899A (ko)
WO (1) WO2009079595A1 (ko)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0701202D0 (en) * 2007-01-22 2007-02-28 Wanzke Detlev Data analysis
WO2009017105A1 (ja) * 2007-07-30 2009-02-05 Nec Corporation 通信端末、配信システム、変換方法、及びプログラム
US8212720B2 (en) * 2008-09-24 2012-07-03 Texas Instruments Incorporated Detecting lack of movement to aid GNSS receivers
EP2438555B1 (en) * 2009-06-02 2017-03-08 Sofast GmbH Superresolution optical fluctuation imaging (sofi)
US9363534B2 (en) 2009-10-29 2016-06-07 Vestel Elektronik Sanayi Ve Ticaret A.S. Method and device for processing a video sequence
US9426477B2 (en) * 2010-02-25 2016-08-23 International Business Machines Corporation Method and apparatus for encoding surveillance video
US8928809B2 (en) * 2010-09-15 2015-01-06 Verizon Patent And Licensing Inc. Synchronizing videos
KR101181732B1 (ko) * 2010-11-22 2012-09-19 (주)엔써즈 동영상 핑거프린트 정보에 기반한 동영상 마크업 데이터 생성 방법 및 이를 이용한 정보 제공 방법 및 시스템
EP2458510B1 (en) * 2010-11-29 2014-05-07 NTT DoCoMo, Inc. Method and apparatus for performing a cross-correlation
CN103493481A (zh) * 2011-01-28 2014-01-01 艾艾欧有限公司 基于场景的适应性比特率控制
MX2013008755A (es) * 2011-01-28 2014-01-31 Eye Io Llc Codificacion de secuencias de video basada en el tipo de escena.
US10165274B2 (en) * 2011-01-28 2018-12-25 Eye IO, LLC Encoding of video stream based on scene type
US9159139B2 (en) * 2011-07-14 2015-10-13 Technische Universitat Berlin Method and device for processing pixels contained in a video sequence
EP2761597A4 (en) * 2011-10-01 2015-07-01 Intel Corp SYSTEMS, METHODS, AND COMPUTER PROGRAM PRODUCTS FOR INTEGRATED POST-PROCESSING AND PRE-PROCESSING IN VIDEO TRANSFORMING
US9071842B2 (en) * 2012-04-19 2015-06-30 Vixs Systems Inc. Detection of video feature based on variance metric
US9460204B2 (en) * 2012-10-19 2016-10-04 Sony Corporation Apparatus and method for scene change detection-based trigger for audio fingerprinting analysis
EP2876890A1 (en) * 2013-11-21 2015-05-27 Thomson Licensing Method and apparatus for frame accurate synchronization of video streams
US10178394B2 (en) * 2016-06-10 2019-01-08 Apple Inc. Transcoding techniques for alternate displays
CN109151469B (zh) * 2017-06-15 2020-06-30 腾讯科技(深圳)有限公司 视频编码方法、装置及设备
US10902825B2 (en) * 2018-12-21 2021-01-26 Arris Enterprises Llc System and method for pre-filtering crawling overlay elements for display with reduced real-time processing demands
US10970555B2 (en) 2019-08-27 2021-04-06 At&T Intellectual Property I, L.P. Data-driven event detection for compressed video
US20210352341A1 (en) * 2020-05-06 2021-11-11 At&T Intellectual Property I, L.P. Scene cut-based time alignment of video streams
CN116055715B (zh) * 2022-05-30 2023-10-20 荣耀终端有限公司 编解码器的调度方法及电子设备

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5508750A (en) * 1995-02-03 1996-04-16 Texas Instruments Incorporated Encoding data converted from film format for progressive display
JPH0974566A (ja) * 1995-09-04 1997-03-18 Sony Corp 圧縮符号化装置及び圧縮符号化データの記録装置
JP3530902B2 (ja) * 1995-10-30 2004-05-24 ミノルタ株式会社 画像再生装置
JPH09130732A (ja) * 1995-11-01 1997-05-16 Matsushita Electric Ind Co Ltd シーンチェンジ検出方法および動画像編集装置
US5767922A (en) * 1996-04-05 1998-06-16 Cornell Research Foundation, Inc. Apparatus and process for detecting scene breaks in a sequence of video frames
US6580829B1 (en) * 1998-09-25 2003-06-17 Sarnoff Corporation Detecting and coding flash frames in video data
US6771825B1 (en) 2000-03-06 2004-08-03 Sarnoff Corporation Coding video dissolves using predictive encoders
US20040125877A1 (en) * 2000-07-17 2004-07-01 Shin-Fu Chang Method and system for indexing and content-based adaptive streaming of digital video content
US6959044B1 (en) * 2001-08-21 2005-10-25 Cisco Systems Canada Co. Dynamic GOP system and method for digital video encoding
TWI238650B (en) * 2002-11-27 2005-08-21 Nat Kaohsiung First University A MPEG-II video encoder assembly
AU2003903511A0 (en) 2003-07-08 2003-07-24 Canon Kabushiki Kaisha Image registration method improvement
EP1690232A2 (en) * 2003-11-24 2006-08-16 Koninklijke Philips Electronics N.V. Detection of local visual space-time details in a video signal
US7664175B1 (en) * 2004-06-16 2010-02-16 Koplar Interactive Systems International, L.L.C. Mark-based content modulation and detection
US20070258702A1 (en) 2004-07-06 2007-11-08 Groupe Traimtech Inc. Encoding or Decoding Device and Recording/Reproduction Terminal
JP2004288222A (ja) 2004-07-13 2004-10-14 Nec Corp 画像照合装置及びその画像照合方法並びにその制御プログラムを記録した記録媒体
US7548259B2 (en) * 2004-08-12 2009-06-16 Microsoft Corporation System and method for producing a higher resolution still image from video information
US20060239347A1 (en) * 2005-04-25 2006-10-26 Ashish Koul Method and system for scene change detection in a video encoder
US9467659B2 (en) * 2005-09-27 2016-10-11 Qualcomm Incorporated Method and apparatus for progressive channel switching
US8948260B2 (en) 2005-10-17 2015-02-03 Qualcomm Incorporated Adaptive GOP structure in video streaming
WO2007072543A1 (ja) 2005-12-19 2007-06-28 Monolith Co., Ltd. 動画符号化方法
KR100739790B1 (ko) 2006-02-02 2007-07-13 삼성전자주식회사 인트라 예측 모드 결정 방법 및 장치
JP4730183B2 (ja) * 2006-04-17 2011-07-20 株式会社日立製作所 映像表示装置
JP2007300455A (ja) 2006-05-01 2007-11-15 Victor Co Of Japan Ltd 算術符号化装置、および算術符号化装置におけるコンテキストテーブル初期化方法
US8208556B2 (en) * 2007-06-26 2012-06-26 Microsoft Corporation Video coding using spatio-temporal texture synthesis
US20090109341A1 (en) * 2007-10-30 2009-04-30 Qualcomm Incorporated Detecting scene transitions in digital video sequences

Also Published As

Publication number Publication date
CN101926174A (zh) 2010-12-22
US9628811B2 (en) 2017-04-18
JP2011507461A (ja) 2011-03-03
TW200945899A (en) 2009-11-01
US20090154816A1 (en) 2009-06-18
WO2009079595A1 (en) 2009-06-25
EP2073554A2 (en) 2009-06-24
EP2073554A3 (en) 2009-08-19

Similar Documents

Publication Publication Date Title
US9628811B2 (en) Adaptive group of pictures (AGOP) structure determination
RU2682859C1 (ru) Выбор точности вектора движения
JP4373606B2 (ja) 符号化システムを改善するために付随情報を使用する装置及び方法
KR101032587B1 (ko) 적응형 비디오 프레임 보간법
TWI578757B (zh) 場景形式之視訊串流編碼
JP7297874B2 (ja) ビデオコーディングにおける条件付きデコーダ側動きベクトル精緻化のための装置および方法
US20150312575A1 (en) Advanced video coding method, system, apparatus, and storage medium
AU2006223416A1 (en) Content adaptive multimedia processing
US11743475B2 (en) Advanced video coding method, system, apparatus, and storage medium
EP1938615A1 (en) Adaptive gop structure in video streaming
TW201105145A (en) Adaptive picture type decision for video coding
KR20160007564A (ko) 높은 프레임 레이트 및 가변 프레임 레이트 캡처를 위한 비디오 압축 튜닝
US20110211637A1 (en) Method and system for compressing digital video streams
Uhl et al. Comparison study of H. 264/AVC, H. 265/HEVC and VP9-coded video streams for the service IPTV
KR20090046812A (ko) 비디오 압축 방법
KR100929607B1 (ko) 엠펙-2 메인 프로파일에서 h.264/avc 베이스라인프로파일로의 트랜스코딩 방법
JP2007228560A (ja) 動画像符号化方法および動画像符号化装置
US8503520B2 (en) Method and apparatus for encoding a flash picture occurring in a video sequence, and for decoding corresponding data for a flash picture
US20090067494A1 (en) Enhancing the coding of video by post multi-modal coding
Corrales-Garcia et al. Variable and constant bitrate in a DVC to H. 264/AVC transcoder
WO2016193949A1 (en) Advanced video coding method, system, apparatus and storage medium
Kapotas et al. Bit rate transcoding of H. 264 encoded movies by dropping frames in the compressed domain
CN118075475A (zh) 一种视频编码、解码方法及相关设备
Choupani et al. Video Coding and Transcoding: A Review
Usach et al. Content-based Dynamic Threshold Method for Real Time Keyframe Selecting

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application