KR100844816B1 - 간결한 트랜스코딩 힌트 메타데이터를 생성하는 방법 및장치 - Google Patents

간결한 트랜스코딩 힌트 메타데이터를 생성하는 방법 및장치 Download PDF

Info

Publication number
KR100844816B1
KR100844816B1 KR1020077009285A KR20077009285A KR100844816B1 KR 100844816 B1 KR100844816 B1 KR 100844816B1 KR 1020077009285 A KR1020077009285 A KR 1020077009285A KR 20077009285 A KR20077009285 A KR 20077009285A KR 100844816 B1 KR100844816 B1 KR 100844816B1
Authority
KR
South Korea
Prior art keywords
transcoding
content
frame
hint
format
Prior art date
Application number
KR1020077009285A
Other languages
English (en)
Other versions
KR20070063560A (ko
Inventor
피터 쿤
Original Assignee
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 가부시끼 가이샤 filed Critical 소니 가부시끼 가이샤
Publication of KR20070063560A publication Critical patent/KR20070063560A/ko
Application granted granted Critical
Publication of KR100844816B1 publication Critical patent/KR100844816B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream

Abstract

멀티미디어 디스크립션(description)의 간결한 표현 및 다른 (예를 들면, MPEG) 압축 콘텐츠 표현들 사이에서의 트랜스코딩(transcoding)을 위한 트랜스코딩 힌트 메타데이터를 추출하고, 프레임 비율, 비트 레이트, 세션(session) 크기, 양자화 파라미터들과 같은 (예를 들면, MPEG 압축된) 비트스트림 파라미터들, 및 화상 코딩 타입 구조(예를 들면, 화상들의 그룹 또는 "GOP" (Group Of Pictures))를 조작하고, A/V 콘텐츠를 분류하고, 또한 멀티미디어 정보를 검색하기 위한 오디오/비디오 (또는 시청각, "A/V") 신호 처리 장치 및 방법이 제공된다.
트랜스코딩 힌트, 메타데이터, 프레임 비율, 비트스트림, 인터레이스 포맷, 데이터 레이트

Description

간결한 트랜스코딩 힌트 메타데이터를 생성하는 방법 및 장치 {Method and apparatus for generating compact transcoding hints metadata}
도 1은 본 발명의 한 실시예에 따른 다양한 A/V 단말들을 갖춘 가정용 네트워크에서의 트랜스코딩 시스템(transcoding system)을 도시하는 시스템 개요도.
도 2는 본 발명의 한 실시예에 따른 트랜스코딩 힌트 추출 (Group of Pictures, "GOP")을 예시하는 도면.
도 3은 본 발명의 한 실시예에 따라 프레임 당 새로운 특징점들(featur points)의 수에 따라 트랜스코딩 상태를 선택하는 예를 예시하는 도면.
도 4는 본 발명의 한 실시예에 따라 3개의 상태를 갖는 트랜스코딩 힌트 상태도의 예를 도시하는 도면.
도 5는 본 발명의 한 실시예에 따라 압축 및 비압축 소스 콘텐츠로부터의 트랜스코딩 힌트 메타데이터의 추출을 예시하는 도면.
도 6은 본 발명의 한 실시예에 따라 비디오 분할 및 트랜스코딩 힌트 상태 선택 처리를 도시하는 도면.
도 7은 본 발명의 한 실시예에 따라 새로운 비디오 세그먼트 (또는 새로운 GOP)의 경계를 결정하는 방법을 도시하는 도면.
도 8은 본 발명의 한 실시예에 따라 트랜스코딩 힌트 상태를 선택하는 방법 에 대한 알고리즘을 도시하는 도면.
도 9는 본 발명의 한 실시예에 따른 트랜스코딩 힌트 메타데이터의 구조적인 조직의 개요도.
도 10은 본 발명의 한 실시예에 따른 일반 트랜스코딩 힌트 메타데이터 디스크립션의 구조적인 조직을 도시하는 도면.
도 11은 본 발명의 한 실시예에 따른 소스 포맷 규정에 대한 트랜스코딩 힌트 메타데이터를 도시하는 도면.
도 12는 본 발명의 한 실시예에 따른 타겟 포맷 규정에 대한 트랜스코딩 힌트 메타데이터를 도시하는 도면.
도 13은 본 발명의 한 실시예에 따른 일반 트랜스코딩 힌트 메타데이터 표현을 도시하는 도면.
도 14는 본 발명의 한 실시예에 따른 세그먼트-기반의 트랜스코딩 힌트 메타데이터를 도시하는 도면.
도 15는 본 발명의 한 실시예에 따른 부호화 복잡도 트랜스코딩 힌트 메타데이터를 도시하는 도면.
도 16은 본 발명의 한 실시예에 따른 트랜스코딩 힌트 상태 메타데이터를 도시하는 도면.
기술 분야
본 발명은, 다른 (예를 들면, MPEG) 압축 콘텐츠 표현들 간의 트랜스코딩 (transcoding)을 위해 멀티미디어 디스크립션(description) 및 트랜스코딩 힌트 메타데이터 (transcoding hints metadata)의 간결한 표현을 추출하고, 프레임 비율, 비트 레이트, 세션 (session) 크기, 양자화 파라미터와 같은 (예를 들어, MPEG 압축된) 비트스트림 파라미터들, 및 화상의 그룹 또는 "GOP (Group Of Pictures)"와 같은 화상 코딩 타입 구조를 조작하고, A/V 콘텐츠를 분류하고, 또한 멀티미디어 정보를 검색하는 오디오/비디오 (또는 시청각, "A/V") 신호 처리 방법 및 A/V 신호 처리 장치에 관한 것이다.
종래 기술
광, 무선, 및 유선 네트워크를 통해 A/V 콘텐츠가 증가적으로 전송되고 있다. 이들 네트워크는 다른 네트워크 대역폭 제한치에 의해 특징지워지기 때문에, 주관적인 시각적 신호 품질을 변화시키도록 유발하는 다른 비트 레이트로 A/V 콘텐츠를 표현할 필요가 있다. A/V 콘텐츠의 압축 표현에 대한 추가 요구조건은 화면 크기, 계산 능력, 및 A/V 단말의 메모리 제한치에 의해 부여된다.
따라서, 예를 들어 MPEG (Moving Pictures Experts Group)에 의해 규정된 압축 포맷으로 저장된 A/V 콘텐츠는 예컨대, 다른 비트 레이트, 프레임 비율, 화면 크기로 변환되어야 하며, 다른 A/V 단말들의 복호화 복잡도 및 메모리 제한치 변화에 따라 변환되어야 한다.
다른 네트워크 대역폭 및 다른 A/V 단말에 대해 동일한 A/V 콘텐츠의 다중 압축 표현들을 저장할 필요를 없애기 위해, 압축 MPEG 포맷으로 저장된 A/V 콘텐츠는 다른 MPEG 포맷으로 트랜스코딩 (transcoding) 될 수 있다.
비디오 트랜스코딩에 대해서는 다음을 참고한다:
WO09838800A1: O.H. Werner, N.D. Wells, M.J. Knee: 개선된 양자화의 디지털 압축 부호화 (Digital Compression Encoding with improved quantization), 1999, 적응적 양자화 구조를 제안;
US5870146: Zhu; Qin-Fan: 디지털 비디오 트랜스코딩을 위한 디바이스 및 방법 (Device and method for digital video transcoding), 1999;
WO09929113A1: Nilsson, Michael, Erling; Ghanbari, Mohammed: 트랜스코딩 (Transcoding), 1999;
US5805224: Keesman; Gerrit J, Van Otterloo; Petrus J.: 비디오 신호를 트랜스코딩하는 방법 및 디바이스 (Method and Device for Transcoding Video Signal), 1998;
WO09943162AL Golin, Stuart, Jay: 비디오 시퀀스를 트랜스코딩하는 모션 벡터 외삽법 (Motion vector extrapolation for transcoding video sequences), 1999;
US5838664: Polomski; Mark D.: 디지털 트랜스코딩을 갖춘 화상 회의 시스템 (Video teleconferencing system with digital transcoding), 1998:
WO09957673A2: Balliol, Nicolas: 데이터 스트림의 트랜스코딩 (Transcoding of a data stream), 1999;
US5808570: Bakhmutsky; Michael: 호프만-트랜스코딩 및 고성능 가변 길이 디코더를 이용하는 2-워드 비트스트림 분할과 이들을 쌍-정합시키는 디바이스 및 방법 (Device and Method for pair-matching Huffman-Transcoding and high performance variable length decoder with two-word bitstream segmentation which utilizes the same), 1998;
WO09905870A2: Lemaguet, Yann: 비디오 시퀀스들 간의 스위칭 방법 및 대응하는 디바이스(Method of Switching between Video Sequences and corresponding Device), 1999; 및
WO09923560A1: LUDWIG, Lester; BROWN, William; YUL, Inn, J.; VUONG, Anh, T.; VANDERLIPPE, Richard; BURNETT, Gerald; LAUWERS, Chris; LUI, Richard; APPLEBAUM, Daniel: 스케일링 가능한 네트워크화 멀티미디어 시스템 및 응용 (Scalable networked multimedia system and application), 1999.
그러나, 비디오 트랜스코딩에 대한 이들 특허 중 어떠한 것도, A/V 트랜스코딩을 용이하게 하는데 트랜스코딩 힌트 메타데이터 정보를 이용하는 것을 설명하거나 제안하지 않는다.
"SMPTE" (The Society of Motion Picture and Television)는 MPEG-2 비디오 기록 데이터 세트 상의 텔레비전에 대한 표준 (327M-2000)을 제안하였고, 이는 소스 포맷의 모든 매크로블록 (macroblock) 마다 256 비트를 이용하여 메타데이터를 재부호화하도록 제공된다. 그러나, 트랜스코딩 힌트 메타데이터의 이러한 추출 및 표현은 몇가지 단점을 갖는다. 예를 들어, 제안된 표준에 따라, 트랜스코딩 힌트 메타데이터 (GOP 구조, 양자화 셋팅, 모션 벡터 등과 같은)는 A/V 소스 콘텐츠의 모든 단일 프레임 및 매크로블록마다 추출된다. 이 방법은 상세하고 콘텐츠 적응 트랜스코딩 힌트를 제공하는 이점을 제공하여, 주관적인 A/V 이중성(duality)을 널리 보존하면서 트랜스코딩을 용이하게 한다. 그러나, 트랜스코딩 힌트 데이터는 매우 크다. 제안된 표준의 하나의 특정 실시에서, MPEG 비디오의 매크로블록 당 256 비트의 트랜스코딩 힌트 데이터가 저장된다. 이 많은 양의 트랜스코딩 힌트 메타데이터는 로컬 (예를 들면, 가정) A/V 콘텐츠 서버에 방송을 배급하는 것이 쉽지 않다. 결과적으로, 트랜스코딩 힌트 메타데이터에 대해 제안된 표준은 방송 스튜디오 응용에 제한된다.
트랜스코딩 힌트 메타데이터 추출 및 표현을 위한 또 다른 기술은 특정한 비트 레이트를 갖는 압축 A/V 소스 콘텐츠를 또 다른 압축 포맷 및 비트 레이트로 트랜스코딩하기 위해 일반 트랜스코딩 힌트 메타데이터를 수집하는 단계를 포함한다. 그러나, 이 기술은 트랜스코딩된 콘텐츠의 특징적인 특성을 고려하지 않는다는 단점이 있다. 예를 들어, 소스 콘텐츠에서, A/V 특성은 제한된 양의 모션 및 적은 상세들 (예를 들면, 뉴스 앵커 화면)을 갖는 A/V 세그먼트를 고속 모션 및 수많은 상세들 (예를 들면, 스포츠 이벤트 화면)을 갖는 또 다른 A/V 세그먼트로 변화시킬 수 있다. 이 기술에 따라, 비디오 세그먼트들 양자 모두의 다른 특성을 적절하게 표현하지 않은 잘못된 트랜스코딩 힌트 메타데이터가 선택되므로, A/V 신호 품질이 열악하고 잘못된 비트 레이트 할당을 제공하게 된다.
상기를 고려하여, 본 발명의 목적은 간결한 A/V-콘텐츠 적응 멀티미디어 디시크립션 및 트랜스코딩 힌트 메타데이터 표현(transcoding hints metadata representation)을 추출하는 방법 및 장치를 제공하는 것이다.
본 발명의 또 다른 목적은, 트랜스코딩 방법에 대한 요구조건 중 하나로 상당한 지연이 없는 실시간 실행 및 계산의 복잡도를 갖지 않는 트랜스코딩 방법 및 장치를 제공하는 것이다. 트랜스코딩 방법에 대한 제 2 요구조건은 주관적인 A/V 신호 품질을 가능한 한 많이 보전하는 것이다. 다양한 압축 타겟 포맷에 대한 이들 요구조건 모두를 달성하는 트랜스코딩 방법을 용이하게 하기 위해, 트랜스코딩 힌트 메타데이터는 미리 생성되어 압축 A/V 콘텐츠와 함께 또는 개별적으로 저장될 수 있다. 본 발명의 또 다른 목적은, 저장 크기를 감소시키고 멀티미디어 디스크립션 및 트랜스코딩 힌트 메타데이터의 배급 (예를 들면, 로컬 A/V 콘텐츠 서버에 대한 방송)을 용이하게 하도록 매우 간결한 표현을 제공하는 것이다.
따라서, 본 발명의 목적은: 1) 트랜스코딩 처리를 통해 A/V 신호 품질을 보전하고, 2) 최소 지연으로 실시간 응용을 가능하게 하기 위해 계산의 복잡도를 제한하는 트랜스코딩 시스템을 제공하는 것이다. 본 발명의 한 실시예에 따라, 트랜스코딩 힌트를 포함하는 추가 데이터 (메타데이터)는 압축 A/V 콘텐츠에 연관될 수 있다.
본 발명의 다른 목적 및 이점은 명세서 및 도면으로부터 일부 밝혀지고 명확해진다. 본 발명은 자동적인 트랜스코딩 힌트 메타데이터 추출 및 간결한 표현을 제공하는 장치 및 방법에 관한 것이다.
본 발명은 지원하는 트랜스코딩 메타데이터를 이용하여 압축 A/V 콘텐츠를 하나의 압축 포맷으로부터 또 다른 포맷의 A/V 콘텐츠로 트랜스코딩하는 분야에 관한 것이다. 용어 트랜스코딩은 압축 포맷을 변화시키는 것에 제한되지 않고 (예를 들면, MPEG-2 포맷에서 MPEG-4 포맷으로의 변환), 프레임-비율 변환, 비트 레이트-변환, 세션-크기 변환, 화면-크기 변환, 화상 코딩 타입 변환 등을 포함한다.
본 발명은 또한 비디오에서 다른 화면 활동의 등급으로 상술된 트랜스코딩 힌트 상태를 이용하여 자동적으로 비디오를 분류하는데 적용될 수 있다.
따라서, 본 발명은 다음의 상세한 설명에서 예시화된 바와 같이 여러 단계 및 다른 것에 대해 하나 이상의 이와 관련된 단계, 또한 이러한 단계를 실시하도록 구성된 구조 특성, 소자의 조합 및 부품 배열을 실현하는 장치를 구비하고, 본 발명의 범위는 청구항에서 표시된다.
본 발명의 더 완전한 이해를 위해, 다음의 설명 및 첨부한 도면을 참조한다.
도 1은 본 발명의 한 실시예에 따라 가정용 네트워크 환경에서 트랜스코딩하기 위한 시스템(100)의 일반적인 개요도를 도시한다. 도 1에 도시된 바와 같이, A/V 콘텐츠 서버(102)는 A/V 콘텐츠 저장기(103), A/V 트랜스코딩 유닛(106), 트랜스코딩 힌트 메타데이터 추출 유닛(104), 및 A/V 트랜스코딩 힌트 메타데이터 저장 버퍼(105)를 포함한다. A/V 콘텐츠 저장기(103)는, 비트 레이트를 변화시키고 주관적인 신호 품질을 변화시키는 동시에 다양한 소스로부터 압축 A/V 자료들을 저장한다. 예를 들어, AV 콘텐츠 저장기(103)는 휴대용 DV(Digital Video) 비디오 카 메라(111)로부터의 가정용 비디오, MPEG-4 인터넷 카메라(112)로부터의 매우 낮은 비트 레이트 (10 kbit/s)을 갖는 MPEG-4 압축 비디오, 및 일부 경우에서 이미 트랜스코딩 힌트 메타데이터와 연관되어 있는 방송 서비스(101)로부터 약 5 Mbit/s의 메인 레벨 ("MP@ML") 압축 방송 비디오에서의 MPEG-2 메인 프로파일을 포함할 수 있다. A/V 콘텐츠 서버(102)는 또한 상당히 더 높은 비트 레이트의 고선명도 압축 MPEG 비디오를 포함할 수 있다.
도 1에 도시된 바와 같이, A/V 콘텐츠 서버(102)는, 유선 기반 또는 무선 가정용 네트워크일 수 있는 네트워크(113)에 연결된다. 제한되지는 않지만, 무선 MPEG-4 A/V PDA (Personal Digital Assistant)(107), 고선명도 텔레비전 오락용 고선명도 A/V 단말(108), A/V 게임 콘솔 (console)(109), 및 ITU-T (International Telecommunications Union Technical Standards Group) 기반의 비디오폰(110)을 포함하는 네트워크(113)에는 다른 특성을 갖는 여러 A/V 단말이 또한 부착될 수 있다. A/V 단말(107, 108, 109, 110)은 다른 비트 레이트의 전송 특성으로 (케이블이나 무선 링크로 인하여) 가정용 네트워크(113)에 부착될 수 있다.
더욱이, 무선 비디오 PDA(107)는 예를 들어 계산 능력, 저장 메모리, 화면 크기, 비디오 프레임 비율, 및 네트워크 비트 레이트에 대해 제한될 수 있다. 그러므로, A/V 트랜스코딩 유닛(106)은 무선 전송을 위해, 예를 들어, European 25 fps (frames per second)의 5 Mbit/s MPEG-2 방송 비디오 및 A/V 콘텐츠 서버(102)에 포함된 720 x 480 pel을 MPEG-4 500 kbit/s 15 fps 비디오로 트랜스코딩하고 무선 MPEG-4 비디오 PDA(107)에 의한 352 x 240 pel 디스플레이 상에 디스플레이한 다. A/V 트랜스코딩 유닛(106)은 A/V 콘텐츠의 압축 소스 비트 레이트를 특정한 각 타겟 A/V 단말 (107, 108, 109, 및 110)의 특성으로 실시간 트랜스코딩하기 위해 버퍼(105)로부터의 트랜스코딩 힌트 메타데이터를 이용한다. 트랜스코딩 힌트 메타데이터는 트랜스코딩 힌트 메타데이터 추출 유닛(104)에서 생성되거나, 방송 서비스(101)에 의해 배급될 수 있다.
도 1에 도시된 바와 같이, 소스 포맷의 압축 비트스트림(116)은 (이후 "제1 비트스트림") A/V 콘텐츠 버퍼(103)로부터 A/V 트랜스코딩 유닛(106)으로 전달된다. 타겟 포맷의 비트스트림은 (이후 "제 2 비트스트림") 트랜스코딩 유닛(106)에서 트랜스코딩한 이후에 가정용 네트워크(113)로 전달된다. 가정용 네트워크(113)로부터, 예를 들어, 압축 DV 포맷의 콘텐츠는 링크(114)를 통해 A/V 콘텐츠 저장기(103)에 저장된다.
도 2는 본 발명의 한 실시예에 따른 트랜스코딩 힌트 추출, 트랜스코딩 힌트 저장, 및 트랜스코딩 처리를 설명한다. 도 2에 도시된 바와 같이, 버퍼(201)는 소스 포맷의 A/V 콘텐츠를 포함한다. 버퍼(202)는 비트 레이트, 압축 방법, GOP 구조, 화면 크기, 인터레이스 (interlace) 또는 순차 (progressive) 포맷 등과 같은 소스 포맷의 디스크립션을 포함한다. 버퍼(203)는 비트 레이트, 압축 방법, GOP 구조, 화면 크기, 인터레이스 또는 순차 포맷 등과 같은 타겟 포맷의 디스크립션을 포함한다. 트랜스코딩 힌트 추출 유닛(207)은 A/V 버퍼(201)로부터 압축 소스 포맷의 A/V 콘텐츠, 버퍼(202)로부터 소스 포맷 디스크립션, 및 버퍼(203)로부터 트랜스코딩 타겟 포맷 디스크립션을 판독한다. 트랜스코딩 힌트 추출 유닛(207)에 의해 트랜스코딩 힌트가 계산된 이후에, 트랜스코딩 힌트는 트랜스코딩 힌트 메타데이터 버퍼(206)에 저장된다. A/V 트랜스코딩 유닛(205)은 A/V 콘텐츠 버퍼(201)로부터 소스 포맷의 제1 비트스트림(204)을 판독하고, 버퍼(206)에 저장된 트랜스코딩 힌트 메타데이터를 통해 소스 포맷을 타겟 포맷으로 변환한다. A/V 트랜스코딩 유닛(205)은 새로운 압축 타겟 포맷의 제 2 비트스트림(208)을 A/V 타겟 버퍼 저장기(209)에 출력하여 저장한다.
도 3 및 도 4는 본 발명의 한 실시예에 따른 트랜스코딩 힌트 메타데이터 조직의 원리를 설명한다. MPEG-기반의 비디오 압축은 예측 가능한 방법을 이용하여, 연속적인 프레임 사이의 변화가 부호화된다. 한 프레임에서 다음 프레임 사이에 많은 수의 변화를 포함하는 비디오 콘텐츠는 프레임 사이의 변화가 작은 비디오 콘텐츠 보다 다른 재부호화 파라미터 셋팅을 요구한다 (비트 레이트를 제한하면서 주관적인 신호 품질을 유지하기 위해). 그러므로, 재부호화 파라미터를 미리 결정하는 것이 중요하다. 트랜스코딩 힌트 메타데이터 선택은 주로 예측 불가능한 시각 콘텐츠의 양과 특성에 의존하다. 새로운 시각 콘텐츠는 이전 프레임으로부터 예측될 수 없고, DCT-계수를 이용하여 비트 레이트 강조 부호화될 수 있다. 이와 같이, 본 발명의 방법은 프레임 당 새로운 콘텐츠의 양을 결정하기 위해 이전 프레임으로부터 현재 프레임까지 트래킹(tracking)되지 않은 새로운 특징점들의 수를 이용한다.
도 3은 비디오의 프레임수 (수평축, 시간축)에 따라 프레임 당 새로운 특징점의 수에 대한 그래프를 도시한다. 섹션(301)은 후속하는 프레임 사이에 매우 작 은 양의 새로운 콘텐츠만이 나타나는 경우의 비디오 세그먼트 일부이므로, 각 트랜스코딩 힌트 메타데이터 (예를 들면, 큰 GOP 크기, 낮은 프레임 비율, 낮은 비트 레이트, ...)가 선택될 수 있다. 섹션(302)은 프레임 당 약간 더 높은 새로운 특징점의 수를 포함하고, 이는 트랜스코딩 힌트 메타데이터를 설명하는 상태가 선택되어 이 상황에 최적의 트랜스코딩 파라미터를 제공함을 의미한다 (예를 들면, 약간 더 작은 GOP 크기, 더 높은 비트 레이트). 섹션(303)은 프레임 당 높은 새로운 특징점의 수를 갖는 트랜스코딩 메타데이터 힌트 상태(transcoding metadata hints state)를 설명하므로, 화면 당 높은 새로운 콘텐츠량을 갖는다. 이와 같이, 더 작은 M 값 (I/P-프레임 거리) 및 더 높은 비트 레이트가 선택된다.
도 4는 3개의 이산 트랜스코딩 힌트 메타데이터 상태로 구성된 트랜스코딩 힌트 메타데이터 상태도에 대한 기본 조직예를 도시한다. 모든 이산 트랜스코딩 상태는 GOP 구조, 양자화기 파라미터(quantizer parameter), 비트 레이트, 화면 크기 등에 대한 메타데이터를 포함할 수 있다. 이들 트랜스코딩 힌트 파라미터는 고정값을 갖거나 또 다른 파라미터의 함수일 수 있다. 예를 들어, GOP 길이는 프레임 당 새로운 특징점의 수에 대한 이산 함수가 될 수 있고, 양자화기 파라미터는 DCT 계수로부터 유도된 텍스처 액티비티(texture activity) 및 엣지 (edge)의 함수가 될 수 있다. 본 예에서 3개의 트랜스코딩 힌트 메타데이터 상태 각각은 3개의 다른 부호화 상황을 수용하도록 선택될 수 있다. 도 4에 도시된 바와 같이, 상태 "3"(403)은 프레임 당 높은 모션량과 낮은 새로운 콘텐츠량에 대해 선택되고, 이러한 콘텐츠에 대한 트랜스코딩 힌트 메타데이터의 최적 상태를 나타낸다. 상태 "2"(402)는 낮은 모션량과 높은 엣지 액티비티를 갖는 높은 콘텐츠량에 대해 선택되어, 높은 비트수가 소모될 것을 요구할 수 있다. 상태 "1"(401)은 예를 들어, 낮은 화면 액티비티를 갖는 A/V 콘텐츠에 대해 트랜스코딩 처리를 수용하도록 선택된다. 또한, 다른 크로스페이딩 (crossfading) 효과, 갑작스런 화면 변화, 또는 두 화면 사이의 흑색 화상과 같이, 비디오 편집 효과에 대해 제공되는 다른 특수한 트랜스코딩 힌트 메타데이터 상태가 있다. 비디오 편집 효과의 위치는 수동적으로, 반자동적으로, 또는 완전히 자동적으로 검출될 수 있다.
도 5는 본 발명의 한 실시예에 따라 압축 및 비압축 소스 콘텐츠로부터 트랜스코딩 힌트 메타데이터를 추출하는 것을 설명한다. 도 5에 도시된 바와 같이, 시스템(500)은 A/V 소스 콘텐츠 버퍼(501), 소스 포맷 디스크립션 버퍼(502), 및 타겟 포맷 디스크립션 버퍼(503)를 포함한다.
메모리(504)는 압축 또는 비압축 영역으로부터 특징점 추출, DCT-계수, 및 모션 벡터를 저장하도록 포함된다. 압축 영역에서, P- 및 B-매크로블록으로부터의 모션 벡터는 비트스트림으로부터 직접 추출될 수 있다. 그러나, 인트라-매크로블록 (Intra-macroblock)에 대해서는 모션 벡터가 없다. 그러므로, B- 및 P- 매크로블록에 대해 구해진 모션 벡터는 I-매크로블록에 대해 보간될 수 있다. (Roy Wang, Thomas Huang: "MPEG 영역에서의 고속 카메라 모션 분석 (Fast Camera motion Analysis in MPEG domain)", IEEE International Conference on Image Processing, ICIP 99, Kobe, Japan, 1999년 10월을 참고) 인트라-매크로블록의 블록에 대한 DCT 계수는 비트스트림으로부터 직접 추출될 수 있다. P- 및 B-매크로블록에 대 해, 제한된 수의 DCT-계수들 (DC 및 2AC 계수들)는 Shih-Fu Chang, David G. Messerschmid: "MC-DCT 압축 비디오의 조작 및 합성 (Manipulation and Composition of MC-DCT compressed video)", IEEE Journal on Selected Areas in Communications, vol. 8, 1996에 의해 설명된 방법에 의해 구해질 수 있다. 압축 영역 특징점 추출 및 모션 추정에 대한 모범적인 방법은, 여기서 참조로 통합된 Peter Kuhn: "압축 영역 특징점 등록 및 모션 추정을 위한 방법 및 장치 (Method and Apparatus for compressed domain feature point registration and motion estimation)", 1999년 12월, PCT 특허에 의해 개시된다. 일부 경우, AV 소스 콘텐츠는 MPEG-1, MPEG-2, MPEG-4, ITU-T H.261, 및 ITU-T H.263에 의해 이용되는 DCT 및 모션 보상 원리에 기초하지 않는 비압축 포맷 또는 압축 포맷에서만 이용가능하다. DV 포맷에 대해서는 DCT-계수만이 이용가능한 경우가 될 수 있다. 이들 경우, 모션 벡터는 예를 들어, Peter Kuhn: "MPEG-4 모션 추정을 위한 알고리즘, 복잡도 분석, 및 VLSI 구조 (Algorithms, Complexity Analysis and VLSI Architectures for MPEG-4 Motion Estimation)", Kluwer Academic Publishers, 1999의 모션 추정 방법에 의해 구해질 수 있다. DCT-계수는 K.R. Rao, P. Yip: "이산 코사인 변환 - 알고리즘, 이점, 응용 (Discrete Cosine Transform - Algorithms, Advantages, Applications)", Academic Press 1990의 블록-기반의 DCT-변환을 실행함으로써 구해질 수 있다. 펠 영역(pel domain ; 비압축 영역)에서의 특징점은 예를 들어 Bruce D. Lucas, Takeo Kanade: "스테레오 비젼에 대한 응용을 갖는 반복적 등록 기술 (An iterative registration technique with an application to stereo vision)", International Joint Conference on Artificial Intelligence, pp. 674-679, 1981에 의해 구해질 수 있다.
모션 분석 부분(505)은 메모리(504)내의 모션 벡터 표현으로부터 파라메트릭 모션 모델의 파라미터를 추출한다. 파라메트릭 모션 모델은 6 및 8개 파라미터를 갖고, 파라메트릭 모션 추정은 M. Tekalp: "디지털 비디오 처리 (Digital Video Processing)", Prentice Hall, 1995에서 설명된 방법에 의해 구해질 수 있다. 모션 표현을 이용하는 목적은 지연 및 속도를 이유로 하는 트랜스코더에서의 모션 추정을 제거하는 것이다. 그러므로, 소스 비트스트림으로부터의 모션에 대한 입력 표현은 출력 표현 (타겟 비트스트림)을 유도하는데 이용될 수 있다. 예를 들어, 화면-크기 재조정, 인터레이스-순차 변환(interlaced-progressive conversion) 등이 모션 표현에 많이 의존한다. 모션 표현에 대한 파라미터는 또한 GOP 구조에서의 코드화 결정에 이용될 수 있다. 텍스처/엣지 분석 부분(506)은 예를 들어, K.R. Rao, P Yip: "이산 코사인 변환 - 알고리즘, 이점, 응용 (Discrete Cosine Transform - Algorithms, Advantages, Applications)", Academic Press 1990 또는 K.W. Chum, K.W. Lim, H.D. Cho, J.B. Ra: "비디오 부호화에 대한 적응적 인지 양자화 알고리즘 (An adaptive perceptual quantization algorithm for video encoding)", IEEE Transactions on Consumer Electronics, Vol. 39, No. 3, 1993년 8월에서 설명된 바와 같이, 비트스트림으로부터 추출된 DCT-계수에 기초할 수 있다.
압축 영역에 대한 특징점 트래킹 부분(507)은 여기서 참고로 포함되는 Peter Kuhn: "압축 영역 특징점 등록 및 모션 추정을 위한 방법 및 장치 (Method and Apparatus for compressed domain feature point registration and motion estimation)", PCT 특허, 1999년 12월에서 설명된 기술을 이용한다. 프로세서(510)는 프레임 당 새로운 특징점의 수를 계산한다. 프로세서(509)는 임시 비디오 세그먼트를 계산하고, 프로세서(510)는 모든 세그먼트에 대한 트랜스코딩 힌트 상태를 계산한다. 본 발명의 한 실시예에 따른 이들 계산 방법은 도 6, 도 7, 및 도 8을 참고로 이후 상세히 설명된다.
메모리(511)는 모션-관련 트랜스코딩 힌트 메타데이터를 포함한다. 메모리(512)는 텍스처/엣지 관련 트랜스코딩 힌트 메타데이터를 포함하고, 메모리(513)는 특징점 트랜스코딩 힌트 메타데이터를 포함하며, 이들은 모두 도 15를 참고로 이후 상세히 설명된다. 메모리(514)는 비디오 세그먼트 트랜스코딩 힌트 선택 메타데이터를 포함하고, 이는 도 16을 참고로 설명된다. 이제는 트랜스코딩 힌트 메타데이터의 자동 추출, 간결한 표현, 및 용도가 설명된다.
도 6은 본 발명의 한 실시예에 따른 비디오 분할 및 트랜스코딩 힌트 상태 선택 처리를 설명한다. 단계(601)에서는 일부 변수가 초기화된다. 변수 "frame"은 소스 비트스트림의 현재 프레임수이고, "nframes"은 새로운 비디오 세그먼트 (또는 GOP, group of pictures)내에서의 프레임수이다. 다른 변수들은 이 루틴내에서면 이용된다. 단계(602)에서는 GOP내의 프레임수가 증가된다. 단계(603)에서는 새로운 세그먼트/GOP가 그 프레임내에서 시작되는지 여부를 결정하고, 이에 대한 상세한 내용은 도 7을 참고로 상세히 논의된다. 그런 경우 ("예"), 제어는 단 계(604)로 전해지고, 그렇지 않은 경우에는 단계(615)로 전해진다. 단계(604)에서는 변수 "last_gop_start"가 "new_gop_start"의 값으로 초기화된다. 단계 (608, 609)에서는 변수 "frame"이 1 보다 큰 경우 변수 "last_gop_stop"이 "frame-1"로 설정된다. 그렇지 않은 경우에는 단계(610)에서 "last_gop_stop"이 1로 설정된다. 도 8에서 상세히 설명되는 다음 단계(611)는 모션 파라미터(605), 텍스처/엣지 파라미터(606), 및 특징점 데이터(607)에 기초하여 트랜스코딩 힌트 상태를 결정한다. 단계(612)에서는 트랜스코딩 힌트 메타데이터가 트랜스코딩 힌트 메타데이터 버퍼로 출력된다. 본 발명의 한 실시예에 따라, 트랜스코딩 힌트 메타데이터는 "nframes" (GOP내에서의 프레임수), 모든 파라미터를 갖는 트랜스코딩 힌트 상태, 및 새로운 GOP의 시작 프레임수 ("new_gop_start")를 구비한다. 그 이후에, 변수 "nframes"는 0으로 설정되고, 현재 프레임수 "frame"에는 변수 "new_gop_start"가 주어진다. 이어서, 단계(615)에서는 소스 비트스트림의 모든 프레임이 처리되었나를 결정하도록 테스트된다. 그렇지 않은 경우 ("아니오")에는 제어가 단계(614)로 전해져 프레임수가 증가되고, 처리는 단계(602)로부터 시작되어 반복된다. 그렇지 않은 경우에는 처리가 종료된다.
도 7은 본 발명의 한 실시예에 따라 새로운 비디오 세그먼트 또는 GOP의 시작 프레임 및 끝 프레임을 결정하는 방법을 설명한다. 단계(701)에서는 도 6으로부터의 변수 "nframes"이 M (I/P 프레임 거리)의 정수 배수인가 여부를 결정한다. 그런 경우, "아니오"가 선택되고, 단계(702)에서는 현재 프레임 번호가 제1 프레임인가 여부를 결정한다. 그런 경우 ("아니오"), 제어는 단계(703)로 진행되어, "nframes"이 GOP내에서 프레임의 최소수 "gop_min" 보다 큰가 여부를 결정한다. 단계(702)에서 결과가 "예"인 경우, 새로운 GOP는 단계(705)에서 시작된다. 단계(703)에서 결과가 "예"인 경우, 새로운 GOP는 단계(705)에서 시작된다. 단계(703)에서 결과가 "아니오"인 경우, 제어는 단계(704)로 전해지고, "nframes"이 GOP내에서 프레임의 최대수 "gop_max" 보다 큰가 여부를 결정한다. 단계(704)에서 결과가 "예"인 경우, GOP는 단계(706)에서 폐쇄되고, 그렇지 않은 경우에는 처리가 종료된다.
도 8은 본 발명의 한 실시예에 따라 특정한 GOP 또는 A/V 세그먼트가 프레임 당 새로운 특징점의 수만을 고려하여 트랜스코딩 힌트 상태를 선택하는 처리를 설명한다. 설명되는 기본 개념에 기초하여, 상술된 파라메트릭 모션 추정으로부터의 모션 파라미터 뿐만 아니라 DCT-계수로부터 얻어진 텍스처/엣지 파라미터를 이용하여 유사한 결정 구조가 실시될 수 있다. 설명된 등급 또는 알고리즘은 또한 모션, 엣지 액티비티, 프레임 당 새로운 콘텐츠 등에 대해 A/V 자료들을 분류하여 더 높은 레벨의 A/V 분류에 이르는데 이용될 수 있음을 주목한다. 이러한 경우, 트랜스코딩 힌트 상태는 다른 자료들의 특정한 등급을 나타낸다. 이제 도 8을 참고로, 단계(801)에서는 변수 "frame_no", "last_gop_start", "sum", 및 "new_seg"가 초기화된다. 변수 "frame no"에는 "last_gop_start" 파라미터의 콘텐츠가 주어지고, 변수 "sum" 및 "new_seg"는 0으로 초기화된다. 이어서, 단계(802)에서는 변수 "sum"의 콘텐츠가 현재 프레임의 새로운 특징점의 수 ("frame_no") 만큼 증가된다. 단계(803)에서는 변수 "frame_no"가 변수 "last_gop_stop" 보다 작은가 여부를 결 정한다. 그런 경우 ("예"), 단계(802)가 반복되고, 그렇지 않은 경우에는 제어가 단계(804)로 전해진다. 단계(804)에서는 변수 "sum"의 값이 소정의 파라미터 "summax"의 1/8 보다 작은지 여부를 결정한다. 파라미터 "summax"는 프레임 "last_gop_start" 및 "last_gop_stop" 사이의 프레임 수 만큼 곱하여져 프레임에서 프레임으로 트래킹될 수 있는 특징점의 최대수를 나타내는 상수이다. 이는 본 발명의 한 실시예에 따라 값 200을 갖는다. 단계(804)에서의 결과가 "예"이면, 파라미터가 도 8의 도표 1에 도시된 바와 같인 단계(806)에서 트랜스코딩 힌트 상태(1)가 선택된다. 그렇지 않은 경우, 단계(805)에서는 변수 "sum"의 값이 미리 결정된 파라미터 "summax"의 1/4 보다 작은가 여부를 결정한다. 그런 경우 ("예"), 트랜스코딩 힌트 상태(2)는 도표 1에 도시된 바와 같이 단계(807)에서 선택된다. 그렇지 않은 경우 ("아니오")에는 트랜스코딩 힌트 상태(3) (도표 1에 도시된 바와 같이)가 단계(808)에서 선택되고, 처리는 종료된다. 단계 (804, 805)에서의 결정 임계값은 트랜스코딩 힌트 상태의 규정 및 수에 의존함을 주목하여야 한다.
트랜스코딩 힌트 메타데이터 디스크립션
메타데이터 디스크립션에서는 의사 C-코드 (pseudo C-code) 스타일이 이용될 수 있다. 긴급 MPEG-7 메타데이터 표준에서 규정된 바와 같이, 디스크립션에 대한 약자 D 및 디스크립션 구조(Description Schemes)에 대한 약자 DS가 이용된다.
도 9는 본 발명의 한 실시예에 따라 일반 A/V DS(901)내에서 트랜스코딩 힌트 메타데이터의 구조적인 조직을 도시한다. 도 9에 도시된 바와 같이, 세그먼트 DS(904) 및 미디어 정보 DS(902)는 일반 A/V DS(901)로부터 유도된다. 세그먼트 분해(906)는 세그먼트 DS(904)로부터 유도되고, 비디오 세그먼트 DS(907) 및 이동 영역 DS(907)은 세그먼트 분해(906)로부터 유도된다. 도 14를 참고로 상세히 설명될 세그먼트-기반의 트랜스코딩 힌트 DS(909)는 비디오 세그먼트 DS(907)로부터 유도된다. 비디오 세그먼트 DS(907)는 도 16을 참고로 상세히 설명될 하나 또는 수개의 트랜스코딩 힌트 상태 DS(911)를 액세스한다. 이동 영역 DS(908)로부터, 도 14를 참고로 상세히 설명될 세그먼트-기반의 트랜스코딩 힌트 DS(910)는 이동 영역에 대해 유도되고, 도 16을 참고로 상세히 설명될 하나 또는 수개의 트랜스코딩 힌트 상태 DS(912)를 액세스한다. 매체 정보 DS(902)에 대해, 매체 프로파일 DS(903)가 유도된다. 매체 프로파일 DS(903)로부터, 도 10을 참고로 설명될 일반 트랜스코딩 힌트 DS(905)가 유도된다.
도 10은 트랜스코딩 힌트 DS(1001)의 구조적인 조직을 도시하고, 이는 도 11을 참고로 설명될 소스 포맷 규정 DS(1002)의 한 예와, 도 12를 참고로 설명될 타겟 포맷 규정 DS(1003)에 대한 하나 또는 수개의 예로 구성된다. 부가하여, 트랜스코딩 힌트 DS(1001)는 도 13을 참고로 설명될 일반 트랜스코딩 힌트 DS(1004)의 한 선택적인 예와, 도 15를 참고로 설명될 한가지 선택적인 트랜스코딩 부호화 복잡도 DS(1005)로 구성된다.
도 11은 본 발명의 한 실시예에 따라 전체적인 A/V 콘텐츠 또는 특정한 A/V 세그먼트에 연관된 소스 포맷 규정 트랜스코딩 힌트 메타데이터 (예를 들면, 도 10의 소스 포맷 규정 DS(1002))를 도시한다. 도 11에 도시된 바와 같이, 관련된 디스크립터 및 설명 구조는 다음을 포함할 수 있다:
* bitrate는 타입 <int>이고, 소스 A/V 데이터 스트림의 초당 비트 레이트를 설명한다.
* size_of_pictures는 타입 <2*int>이고, x 및 y 방향으로 소스 A/V 포맷의 화상 크기를 설명한다.
* number_of_frames_per_second는 타입 <int>이고, 소스 콘텐츠의 초당 프레임의 수를 나타낸다.
* pel_aspect_ratio는 타입 <float>이고, 펠 종횡비를 설명한다.
* pel_colour_depth는 타입 <int>이고, 칼라 깊이를 설명한다.
* usage_of_progressive_interlaced_format은 크기 <1 비트>이고, 소스 포맷이 순차 또는 인터레이스 포맷인가 여부를 설명한다.
* usage_of_frame_field_pictures는 크기 <1 비트>이고, 프레임 또는 필드 화상이 이용되는지 여부를 설명한다.
* compression method는 타입 <int>이고, 소스 포맷에 이용되는 압축 방법을 규정하고, MPEG-1, MPEG-2, MPEG-4, DV, H.263, H.261 등을 포함하는 리스트로부터 선택될 수 있다. 모든 압축 방법에 대해, 여기서는 파라미터가 더 규정될 수 있다.
* GOP_structure는 I, P, B 상태의 런-길이 (run length) 부호화 데이터 필드이다. 예를 들어, MPEG-2 비디오에 I-프레임만이 있는 경우, 압축 영역에서 DV 포맷으로의 직접적인 변환이 가능하다.
도 12는 본 발명의 한 실시예에 따라 전체적인 A/V 콘텐츠 또는 특정한 A/V 세그먼트에 연관된 타겟 포맷 규정 트랜스코딩 힌트 메타데이터를 도시한다. 도 12에 도시된 바와 같이, 관련된 디스크립터 및 디스크립션 구조는 다음을 포함할 수 있다:
* bitrate는 타입 <int>이고, 타겟 A/V 데이터 스트림의 초당 비트 레이트를 설명한다.
* size_of_pictures는 타입 <2*int>이고, x 및 y 방향으로 타겟 A/V 포맷의 화상 크기를 설명한다.
* number_of_frames_per_second는 타입 <int>이고, 타겟 콘텐츠의 초당 프레임의 수를 나타낸다.
* pel_aspect_ratio는 타입 <float>이고, 펠 종횡비를 설명한다.
* pel_colour_depth는 타입 <int>이고, 칼라 깊이를 설명한다.
* usage_of_progressive_interlaced_format은 크기 <1 비트>이고, 타겟 포맷이 순차 또는 인터레이싱될 필요가 있는지 여부를 설명한다.
* usage_of_frame_field_pictures는 크기 <1 비트>이고, 프레임 또는 필드 화상이 이용되는지 여부를 설명한다.
* compression method는 타입 <int>이고, 타겟 포맷에 이용되는 압축 방법을 규정하고, MPEG-1, MPEG-2, MPEG-4, DV, H.263, H.261 등을 포함하는 리스트로부터 선택될 수 있다. 모든 압축 방법에 대해, 여기서는 파라미터가 더 규정될 수 있다.
* GOP_structure는 I, P, B 상태의 선택적인 런-길이 부호화 데이터 필드이 다. 이 선택적인 파라미터로, 고정된 GOP 구조가 강요될 수 있다. 고정된 GOP 구조는 예를 들어, 특정한 위치에 있는 I-프레임이 비디오 편집을 용이하게 시키는데 유용하다.
도 13은 본 발명의 한 실시예에 따라 전체적인 A/V 콘텐츠 또는 특정한 A/V 세그먼트에 연관된 일반 트랜스코딩 힌트 메타데이터 (예를 들면, 도 11의 일반 트랜스코딩 힌트 DS(1004))를 설명한다. 도 13에 도시된 바와 같이, 관련된 디스크립터 및 디스크립션 구조는 다음을 포함할 수 있다:
* use_region_of_interest_DS는 <1 비트>의 길이를 갖고, 관심있는 디스크립션 구조의 영역이 트랜스코딩 힌트로 이용가능한가 여부를 나타낸다.
* region_of_interest_DS가 이용되는 경우, motion_trajectory_D와 함께 shape_D (예를 들어 다음 중 하나가 될 수 있는: boundary_box_D, MB_shape_D, 또는 임의의 다른 shape_D)는 관심 영역을 공간적 및 시간적으로 설명하는데 이용될 수 있다. MB_shape_D는 객체 형상 디스크립션에 매크로블록 (16x16) 크기의 블록을 이용할 수 있다. Motion_trajectory_D는 이미 시간 표시를 포함하므로, region_of_interest_DS의 시작 프레임 및 종료 프레임이 규정될 수 있다. region_of_interest_DS는 각 shape_D의 크기 및 각 motion_trajectory_D의 크기를 가질 수 있다. 트랜스코딩 응용에서, region_of_interest_DS는 예를 들어, 배경 보다 관심있는 영역내의 블록에 더 많은 비트를 쓰는데 (또는 양자화기를 각각 수정하는데) 이용될 수 있다. MPEG-4에 대한 또 다른 트랜스코딩 응용은 분리된 MPEG-4 객체에 의해 관심있는 영역을 설명하고 배경과 같이 다른 MPEG-4 보다 관심 있는 영역에 더 높은 비트 레이트 및 더 높은 프레임 비율을 쓰는 것이다. region_of_interest_DS의 추출은 자동적으로 또는 수동적으로 실행될 수 있다.
* use_editing_effects_transcoding_hints_DS는 <1 비트>의 길이를 갖고, 정보가 편집 효과에 기초하여 트랜스코딩 힌트에 이용가능한가를 나타낸다.
* camera_flash는 카메라 플래쉬가 일어나는 경우 모든 엔트리가 프레임수를 설명하는 엔트리 (entry)의 리스트이다. 그러므로, 디스크립터의 길이는 <int>로 곱하여진 카메라 플래쉬 이벤트의 수이다. 트랜스코딩 응용에서는 Peter Kuhn: "MPEG-4 모션 추정에 대한 알고리즘, 복잡도 분석, 및 VLSI 설계 (Algorithms, Complecity Analysis and VLSI Architectures for MPEG-4 motion estimation)", Kluwer Academic Publishers, 1999에서 설명된 휘도(luminance) 차이에 기초하여 대부분의 비디오 (재) 인코더/트랜스코더가 모션 추정 방법을 이용하므로, camera_flash 디스크립터는 매우 유용하다. 휘도-기반의 모션 추규정 경우, 2개의 연속적인 프레임 (플래쉬를 가진 것, 플래쉬를 가지지 않은 것)의 2개 매크로블록 사이의 평균 절대 에러는 예측하기에 너무 높고, 카메라 플래쉬를 갖는 프레임이 높은 비트 레이트 비용을 갖는 인트라-프레임으로 부호화되어야 한다. 그러므로, 트랜스코딩 힌트 디스크립터 구조 ("DS")내에서 카메라 플래쉬를 나타내는 것은 예를 들어, 적절한 비트 레이트로 앵커 프레임으로부터 카메라 플래쉬를 갖는 프레임을 예측하는데 휘도 정정 모션 추정 방법 또는 다른 수단을 이용하도록 허용한다.
* cross_fading은 모든 엔트리가 크로스페이딩의 시작 프레임 및 종료 프레임을 설명하는 엔트리의 리스트이다. 그러므로, 이 디스크립터의 길이는 크로스페 이딩 이벤트의 수의 2배 <int>이다. 트랜스코딩 힌트 메타데이터에서 크로스페이딩 이벤트를 나타내는 것은 크로스페이딩 동안 비트 레이트/양자화기를 제어하는데 매우 유용하다. 크로스페이딩 동안, 예측은 일반적으로 제한된 용도이므로, 예측 에러 코딩에 대해 비트 레이트를 증가시킨다. 크로스페이딩 동안 화면이 통상적으로 흐려지므로, 비트 레이트 증가는 양자화기 스케일, 비트 레이트, 또는 비율 제어 파라미터를 각각 조정함으로써 제한될 수 있다.
*black_pictures는 모든 엔트리가 흑색 화상의 시퀀스의 시작 프레임 및 종료 프레임을 설명하는 엔트리의 리스트이다. 화면 사이에는 특히, 가정용 비디오에서 흑색 화상이 일어난다. 실험적으로, 일련의 흑색 화상은 예측이 단지 제한된 용도이기 때문에 모션-보상된 DCT 코드에서 비트 레이트를 증가시키는 것으로 나타난다. 그러므로, 이 트랜스코딩 힌트 디스크립터는 양자화기 스케일, 비트 레이트, 또는 비율 제어 파라미터를 각각 조정함으로써 흑색 화상 동안 비트 레이트를 제한시키는데 이용될 수 있다.
* fade_in은 cross_fading과 유사하고, 페이드인의 시작 프레임 및 종류 프레임을 결정하는 다수의 엔트리로 설명된다. 크로스페이딩과 비교하여, 페이드인은 흑색 화상으로부터 시작하므로, 양자화기 스케일, 비트 레이트, 또는 비율 제어 파라미터를 각각 조정함으로써, 일종의 눈에 대한 마스킹 (masking) 효과가 페이드인 동안 비트 레이트를 제한하는데 이용될 수 있다.
* fade_out은 장면 이후에, 일련의 흑색 화상이 설명되는 것을 제외하고 fade_in과 유사하다.
* abrupt_change는 페이딩이 나타나지 않고 어디서 갑작스런 장면 또는 샷 (shot)이 변하는지를 나타내는 타입 <int>의 단일 프레임수의 리스트에 의해 설명된다. 이들 이벤트는 예를 들어, 도 3의 매우 높고 예리한 피크에 의해 표시된다. 이들 피크는 새로운 카메라 샷 또는 장면의 시작을 나타낸다. abrupt_change 편집 효과는 페이딩 효과와 대조적이다. 두 비디오 세그먼트 사이에 갑작스런 변화가 일어날 때, 사람의 시각적 인지는 새로운 A/V 세그먼트의 상세한 내용을 인식하고 적응하는데 수 millisecond를 필요로 한다. 사람 눈의 이러한 지연 효과는 예를 들어, 장면 또는 샷의 갑작스런 변화 이후에 비트 레이트를 감소시키거나 비디오 세그먼트의 제1 프레임에 대한 양자화기 스케일을 수정하도록 비디오 트랜스코딩에 유리하게 이용될 수 있다.
* use_motion_transcoding_hints_DS는 <1 비트>의 길이를 갖고, 모션-관련 트랜스코딩 힌트 메타데이터의 이용을 나타낸다.
* number of regions는 후속하는 모션-관련 트랜스코딩 힌트 메타데이터가 유효한 영역의 수를 나타낸다.
* for_every_region은 <1 비트> 길이의 필드로, 영역이 직사각형 또는 임의의 형상인가 여부를 나타낸다. 영역이 임의의 형상인 경우, 영역 디스크립터 (예를 들어, 형상 디스크립터 및 모션 궤도 디스크립터로 구성된)가 이용된다. 직사각형 영역인 경우, 직사각형 영역의 크기가 이용된다. 이 영역내의 모션 필드는 파라메트릭 모션 모델에 의해 설명되고, 이는 프레임의 시퀀스 또는 모든 프레임에 대한 수개의 파라미터에 의해 결정된다. 트랜스코딩에서, 소스 비디오의 실제 모 션에 대한 모션 표현은 (재)부호화 부분의 계산적으로 복잡한 모션 추규정 검색 영역을 제한하고, 또한 빠르고 효과적인 인터레이스/디인터레이스 (프레임/필드) 변환을 위해 비디오 내의 모션량에 의존하여 GOP (Group of Pictures) 구조를 결정하는데 이용될 수 있다. 모션 표현은 또한 비디오의 크기 변환을 위해 유리하게 이용될 수 있다.
도 14는 본 발명의 한 실시예에 따라 일정한 특성을 도시하는 A/V 세그먼트에 대한 (재)부호화/트랜스코더 셋팅을 결정하는데 이용될 수 있는 세그먼트-기반의 트랜스코딩 힌트 메타데이터 (예를 들면, 도 9의 세그먼트-기반의 트랜스코딩 힌트 DS (909, 910)를 도시한다. 도 14에 도시된 바와 같이, 관련된 디스크립터 및 디스크립션 구조는 다음을 포함할 수 있다:
* start_frame은 타입 <int>이고, A/V 세그먼트의 트랜스코딩 힌트 메타데이터의 시작부에서 프레임수를 설명한다.
* nframes는 타입 <int>이고, A/V 세그먼트의 길이를 설명한다.
* I_frame_location은 A/V 세그먼트내에서 I-프레임의 위치를 설명하는데 몇가지 가능성을 제공한다.
* select_one_out_of_following은 크기 <2 비트>이고, 다음의 4가지 I-프레임 위치 설명 방법 중 하나를 선택한다.
* first frame은 크기 <1 비트>이고, 디폴트 (default) I-프레임 위치이다. 이 방법은 제1 프레임만이 A/V 세그먼트의 인트라 프레임으로 또 다른 예측을 위해 앵커로 이용되고 A/V 세그먼트내의 다른 모든 프레임이 P- 또는 B-프레임인 경우 A/V 세그먼트를 설명한다.
* List of frames는 A/V 세그먼트내에서 인트라-프레임의 프레임수의 리스트를 제공한다. 이 방법은 A/V 세그먼트내에서 인트라-프레임의 위치를 임의로 설명하도록 허용하다. 이 리스트 내의 k 프레임에 대해, 이 디스크립터의 크기는 <k*int>이다.
* first_frame_and_every_k_frames는 타입 <int>이고, 여기서 세그먼트내의 제1 프레임은 인트라이고 k는 A/V 세그먼트내에서 I-프레임의 간격을 설명한다.
* no_I_frame은 크기 <1 비트>이고, A/V 세그먼트내에서 I-프레임이 이용되지 않는 경우를 설명하고, 이는 A/V 세그먼트의 부호화가 이전 세그먼트에서의 앵커 (인트라-프레임)에 기초할 때 유용하다.
* quantizer_scale은 타입 <int>이고, A/V 세그먼트에 대한 초기 양자화기 스케일값을 설명한다.
* target_bitrate는 타입 <int>이고, A/V 세그먼트에서 초당 타겟 비트 레이트를 설명한다.
* target_min_bitrate는 크기 <int>이고, A/V 세그먼트에서 초당 최소 타겟 비트 레이트를 설명한다 (선택적).
* target_max_bitrate는 크기 <int>이고, A/V 세그먼트에서 초당 최대 타겟 비트 레이트를 설명한다 (선택적).
* use_transcoding_states는 크기 <1 비트>이고, 트랜스코딩 힌트 상태가 A/V 세그먼트에 이용되는지 여부를 설명한다.
* transcoding_state_nr은 타입 <int>이고, 세그먼트에 대한 트랜스코딩 힌트 메타데이터 상태를 제공한다. 트랜스코딩 힌트 메타데이터 상태는 트랜스코딩 힌트 상태의 테이블에서 엔트리에 대한 포인터이다. 트랜스코딩 힌트 상태의 테이블은 수개의 엔트리를 가질 수 있고, 여기서 새로운 엔트리는 트랜스코딩 힌트 파라미터에 의해 부가 또는 삭제될 수 있다. 단일 트랜스코딩 힌트 상태의 트랜스코딩 힌트 메타데이터는 도 16을 참고로 설명된다.
* add_new_transcoding_state는 크기 <1 비트>이고, 연관된 정보를 갖는 새로운 트랜스코딩 상태가 트랜스코딩 힌트 테이블에 부가되어야 하는지 여부를 설명한다. add_new_transcoding_state 신호가 "예"이면, 새로운 트랜스코딩 힌트 상태의 파라미터 리스트가 주어진다. 파라미터 리스트의 크기는 한 트랜스코딩 힌트 상태의 파라미터의 수와 트랜스코딩 힌트 상태의 수에 의해 결정된다.
* remove_transcoding_state는 트랜스코딩 상태가 제거될 수 있는지 여부를 나타내는 크기 <1 비트>의 플래그이다. 트랜스코딩 상태가 제거될 수 있는 경우, 제거되는 트랜스코딩 상태의 상태수 (타입:<int>)가 주어진다.
* use_encoding_complexity_description은 크기 <1 비트>이고, 도 15에서 규정된 바와 같이 보다 상세한 부호화 복잡도 설명이 이용되어야 하는지 여부를 알린다.
도 15는 본 발명의 한 실시예에 따라 전체적인 A/V 콘텐츠 또는 특정한 A/V 세그먼트에 연관될 수 있는 코드화 복잡도 트랜스코딩 힌트 메타데이터를 도시한다. 부호화 복잡도 메타데이터는 비율 제어에 이용될 수 있고, 양자화기 및 비트 레이트 셋팅을 결정한다.
* use_feature_points는 크기 <1 비트>이고, 특징점 기반의 복잡도 평가 데이터의 이용을 나타낸다.
* select_feature_point_method는 크기 <2 비트>이고, 특징점 방법을 선택한다.
* 프레임 당 number_of_new_feature_points는 도 3에 도시된 바와 같이 프레임 당 새로운 특징점의 수에 대한 리스트를 설명하고, 이는 크기 <nframes*int>이다. 이 메트릭(metric)은 프레임 당 새로운 콘텐츠의 양을 나타낸다.
* feature_point_metrics는 한 세그먼트내에서 프레임 당 새로운 특징점에 기초하여 메트릭의 리스트를 설명한다. 메트릭들은 다음 수단으로 <int> 값의 순서 리스트로 나타내진다: 프레임 당 새로운 특징점의 수에 대한 평균치, 최대치, 최소치, 분산, 표준 편차.
* use_equation_description은 프레임 당 부호화 복잡도의 수식-기반의 디스크립션에 대한 <int> 포인터이다.
* use_motion_description은 크기 <1 비트>이고, 모션-기반의 복잡도 디스크립션의 이용을 나타낸다.
* select_motion_method는 크기 <4 비트>이고, 모션 설명 방법을 선택한다.
* param_k_motion은 크기 <nframes*k*int>이고, 전반적인 파라메트릭 모션 모델의 모든 단일 프레임에 대해 k 파라미터를 설명한다.
* motion_metrics는 모션 벡터의 크기에 기초하여 전체적인 세그먼트에 대한 메트릭들의 리스트를 설명한다. 메트릭들은 다음 수단으로 <int> 값의 순서 리스트로 나타내진다: 매크로블록 모션 벡터의 평균치, 최대치, 최소치, 분산, 표준 편차.
* block_motion_field는 m*m 블록 크기의 모션 필드의 모든 벡터를 설명하고, 크기 <nframes*int*size_x*size_y/(m*m)>이다.
* use_texture_edge_metrics는 텍스처 또는 엣지 메트릭들이 이용될 때 설정되는 플래그이고, 크기 <1 비트>이다.
* select_texture_edge_metrics는 크기 <4 비트>이고, 다음으로부터 어떤 텍스처 메트릭이 이용되는지를 결정한다.
* DCT_block_energy는 한 블록의 모든 DCT-계수들의 합이고 프레임 내의 모든 블록에 대해 규정된다. 그 크기는 <size_y*size_X*nframes*int/64>이다.
* DCT_block_activity는 DC 계수 없이 한 블록의 모든 DCT-계수의 합으로 규정된다. 이는 프레임내에서 모든 블록에 대해 규정되고, 크기 <size_y*size_x *nframes*int/64>이다.
* DCT_energy_metric은 각 블록의 각 DCT 에너지에 기초하는 전체적인 세그먼트에 대한 메트릭들의 리스트를 설명한다. 메트릭들은 다음 수단으로 <int> 값의 순서 리스트로 나타내진다: 모든 각기 DCT 에너지 메트릭들의 평균치, 최대치, 최소치, 분산, 표준 편차. 디스크립터의 크기는 <6*int>이다. 이 디스크립터의 다른 실시는 비디오 세그먼트의 모든 단일 프레임에 대해 DCT 에너지 메트릭을 설명하는 것이다.
* DCT_activity_metric은 각 블록의 개별 DCT 모션에 기초하여 전체적인 세그먼트에 대한 메트릭들의 리스트를 설명한다. 메트릭들은 다음 수단으로 <int> 값의 순서 리스트로 나타내진다: 모든 각기 DCT 액티비티 메트릭들의 평균치, 최대치, 최소치, 분산, 표준 편차. 디스크립터의 크기는 <6*int>이다. 이 디스크립터의 다른 실시는 비디오 세그먼트의 모든 단일 프레임에 대해 DCT 액티비티 메트릭을 설명하는 것이다.
도 16은 본 발명의 한 실시예에 따라 전체적인 시청각 콘텐츠 또는 특정한 A/V 세그먼트에 연관된 트랜스코딩 힌트 상태 메타데이터를 도시한다. 관련된 디스크립터 및 디스크립션 구조는 다음을 포함할 수 있다:
* M은 타입 <int>이고, I-프레임/P-프레임 거리를 설명한다.
* bitrate_fraction_for_I는 타입 <float>이고, I 프레임에 이용가능한 A/V 세그먼트에 대해 규정된 비트 레이트 일부를 설명한다.
* bitrate_fraction_for_P는 타입 <float>이고, P 프레임에 이용될 수 있는 A/V 세그먼트에 대해 규정된 비트 레이트 일부를 설명한다. B-프레임에 대한 비트 레이트 일부는 100%의 퍼센트에서 나머지 부분이다.
* quantizer_scale_ratio_I_P는 타입 <float>이고, I- 및 P-프레임 사이에서 양자화기 스케일의 관계 (이 세그먼트에 대해 규정된 바와 같은)를 나타낸다.
* quantizer_scale_ratio_I_B는 타입 <float>이고, I- 및 P-프레임 사이에서 양자화기 스케일의 관계 (이 세그먼트에 대해 규정된 바와 같은)를 나타낸다. 비트 레이트 디스크립터 (bitrate_fraction_for_I < bitrate_fraction_for_P), quantizer _scale_ratio 디스크립터 (quantizer_scale_ratio_I_P, quantizer_scale_ ratio_I_B), 또는 다음의 비율-제어 파라미터가 필수적임을 주목한다.
* X_I, X_P, X_B는 frame_vbv_complexities로 각각 타입 <int>이고, 프레임 기반의 압축 타겟 포맷의 경우에 규정된다 (예를 들면, 도 12). 이들 및 다음의 VBV (Virtual Buffer Verifier) 복잡도 조정은 선택적이고, 소스 콘텐츠 특성 및 타겟 포맷 규정에 따라 비율 제어 구조를 수정하는데 이용될 수 있다.
* X_I top, X_P top, X_B top은 상단 필드에 대한 field_vbv_complexities로 각각 타입 <int>이고, 필드 기반의 압축 타겟 포맷의 경우에 규정된다 (예를 들면, 도 12).
* X_I bot, X_P bot, X_B bot는 바닥 필드에 대한 field_vbv_complexities로 각각 타입 <int>이고, 필드 기반의 압축 타겟 포맷의 경우에 규정된다 (예를 들면, 도 12).
이와 같이, 선행하는 설명으로부터 명백해지는 것 중에서, 상기에 설명된 목적들이 효과적으로 이루어짐을 볼 수 있고, 본 발명의 의도 및 범위에서 벗어나지 않고 설명된 구조에서 상기 방법을 실행할 때 특정한 변화가 일어날 수 있기 때문에, 상기 설명에 포함되고 첨부된 도면에 도시된 모든 내용은 제한적인 의미가 아니라 설명적인 의미로 해석되도록 의도된다.
또한, 다음의 청구항은 여기서 설명된 본 발명의 일반적인 특성 및 특정한 특성과 언어적인 문제로 그에 포함되는 것이라 말하여질 수 있는 본 발명의 범위에 대한 모든 언급을 모두 포함하도록 의도되는 것으로 이해하여야 한다.
본 발명은 트랜스코딩 처리를 통해 A/V 신호 품질을 보전하고, 최소 지연으로 실시간 응용을 가능하게 하기 위해 계산의 복잡도를 제한하는 트랜스코딩 시스템을 제공한다.

Claims (7)

  1. 제 1 포맷의 제 1 콘텐츠를 제 2 포맷의 제 2 콘텐츠로 변환하기 위한 장치로서:
    상기 제 1 콘텐츠를 수신하기 위한 콘텐츠-수신부;
    트랜스코딩을 위한 힌트를 나타내는 트랜스코딩-힌트를 수신하기 위한 트랜스코딩-힌트 수신부;
    상기 트랜스코딩-힌트에 기초하여 상기 제 1 콘텐츠를 상기 제 2 콘텐츠로 트랜스코딩하기 위한 트랜스코딩부를 포함하고,
    상기 트랜스코딩-힌트는 미리 결정된 프레임들 간의 거리의 기술을 포함하는, 변환 장치.
  2. 제 1 항에 있어서, 상기 미리 결정된 프레임은 I-프레임 또는 P-프레임인, 변환 장치.
  3. 제 1 항에 있어서, 상기 제 1 포맷은 비트 레이트, 압축 방법, GOP 구조, 화면 크기, 및 인터레이스(interlaced) 또는 순차(progressive) 포맷 중 적어도 하나를 포함하는, 변환 장치.
  4. 제 1 항에 있어서, 상기 제 2 포맷은 비트 레이트, 압축 방법, GOP 구조, 화면 크기, 및 인터레이스 또는 순차 포맷 중 적어도 하나를 포함하는, 변환 장치.
  5. 제 1 항에 있어서, 상기 트랜스코딩은 상기 압축된 포맷 변경, 프레임-레이트 변환, 비트-레이트 변환, 세션-크기 변환, 화면-크기 변환, 및 화상 코딩 타입 변환 중 적어도 하나를 포함하는, 변환 장치.
  6. 제 1 항에 있어서, 상기 트랜스코딩-힌트의 상태는 상기 제 1 콘텐츠의 모션 정보, 텍스처/엣지 정보, 특징점들(feature points) 및 상기 제 1 콘텐츠의 연관된 모션 정보 중 적어도 하나와 연관되는, 변환 장치.
  7. 제 1 항에 있어서, 상기 트랜스코딩-힌트에 기초하여 상기 제 1 콘텐츠를 상기 제 2 콘텐츠로 트랜스코딩하는 단계는, 상기 제 2 콘텐츠의 모션 정보를 외삽하기(extrapolate) 위해 상기 트랜스코딩-힌트를 이용하는, 변환 장치.
KR1020077009285A 2000-03-13 2001-03-13 간결한 트랜스코딩 힌트 메타데이터를 생성하는 방법 및장치 KR100844816B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2000068720 2000-03-13
JPJP-P-2000-00068720 2000-03-13
US20472900P 2000-05-16 2000-05-16
US60/204,729 2000-05-16

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020017014472A Division KR100776529B1 (ko) 2000-03-13 2001-03-13 간결한 트랜스코딩 힌트 메타데이터를 생성하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20070063560A KR20070063560A (ko) 2007-06-19
KR100844816B1 true KR100844816B1 (ko) 2008-07-09

Family

ID=26587321

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020077009285A KR100844816B1 (ko) 2000-03-13 2001-03-13 간결한 트랜스코딩 힌트 메타데이터를 생성하는 방법 및장치
KR1020017014472A KR100776529B1 (ko) 2000-03-13 2001-03-13 간결한 트랜스코딩 힌트 메타데이터를 생성하는 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020017014472A KR100776529B1 (ko) 2000-03-13 2001-03-13 간결한 트랜스코딩 힌트 메타데이터를 생성하는 방법 및 장치

Country Status (8)

Country Link
EP (1) EP1177691B1 (ko)
JP (1) JP4576783B2 (ko)
KR (2) KR100844816B1 (ko)
CN (1) CN100338956C (ko)
AU (2) AU780811B2 (ko)
CA (1) CA2374067C (ko)
HK (1) HK1051941A1 (ko)
WO (1) WO2001069936A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013147441A1 (en) * 2012-03-26 2013-10-03 Samsung Electronics Co., Ltd. Scheduling apparatus and method for load balancing when performing multiple transcoding operations

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9892606B2 (en) * 2001-11-15 2018-02-13 Avigilon Fortress Corporation Video surveillance system employing video primitives
US20050162515A1 (en) * 2000-10-24 2005-07-28 Objectvideo, Inc. Video surveillance system
EP1309181A1 (en) * 2001-11-06 2003-05-07 Thomson Licensing S.A. Device, method and system for multimedia content adaption
WO2003043326A1 (en) * 2001-11-10 2003-05-22 Thomson Licensing S.A. System and method for recording and displaying video programs for mobile handheld devices
EP1451722A2 (en) * 2001-11-26 2004-09-01 Interuniversitair Microelektronica Centrum Vzw Schema, syntactic analysis method and method of generating a bit stream based on a schema
US20030105880A1 (en) * 2001-12-04 2003-06-05 Koninklijke Philips Electronics N.V. Distributed processing, storage, and transmision of multimedia information
US7106366B2 (en) 2001-12-19 2006-09-12 Eastman Kodak Company Image capture system incorporating metadata to facilitate transcoding
EP1343327B1 (fr) 2001-12-28 2011-06-15 Koninklijke Philips Electronics N.V. Procédé pour effectuer un traitement sur un contenu multimedia
US8582031B2 (en) 2002-01-22 2013-11-12 Broadcom Corporation System and method of transmission and display of progressive video with hints for interlaced display
US7170936B2 (en) 2002-03-28 2007-01-30 Intel Corporation Transcoding apparatus, system, and method
GB2387287B (en) * 2002-04-05 2006-03-15 Snell & Wilcox Limited Video compression transcoding
CA2482431C (en) 2002-04-12 2013-03-19 Mitsubishi Denki Kabushiki Kaisha An apparatus to edit, reproduce, deliver, search and re-generate condition settings for metadata
DE10218813B4 (de) * 2002-04-26 2005-12-08 Siemens Ag Verfahren zur Transformation eines Medienstroms in einen zweiten Medienstrom, Vorrichtung und Programmprodukt zur Ausführung des Verfahrens
EP1361758A1 (en) * 2002-05-06 2003-11-12 Motorola, Inc. Image content reconfiguration for different device capabilities and methods therefor
US6937168B2 (en) * 2002-06-14 2005-08-30 Intel Corporation Transcoding media content from a personal video recorder for a portable device
EP1387584A1 (en) 2002-07-22 2004-02-04 Deutsche Thomson-Brandt Gmbh Method and apparatus for storing and transmiting audio-visual data
CN100428791C (zh) * 2002-11-27 2008-10-22 腾研科技股份有限公司 Mpeg数据格式转换方法及使用该方法的解码系统
JP2004178332A (ja) * 2002-11-28 2004-06-24 Satake Corp コンテンツ変換制御方法及びコンテンツ利用システム
US7263481B2 (en) 2003-01-09 2007-08-28 Dilithium Networks Pty Limited Method and apparatus for improved quality voice transcoding
EP1439707A3 (en) * 2003-01-17 2006-01-11 Broadcom Corporation Transmission and display of progressive video with hints for interlaced display
KR101009629B1 (ko) * 2003-03-13 2011-01-21 한국전자통신연구원 디지털 방송 프로그램 서비스를 제공하기 위한 확장메타데이터의 데이터 구조와 이를 이용한 적응적 프로그램서비스 제공 시스템 및 그 방법
US20040234140A1 (en) * 2003-05-19 2004-11-25 Shunichiro Nonaka Apparatus and method for moving image conversion, apparatus and method for moving image transmission, and programs therefor
JP2005071227A (ja) * 2003-08-27 2005-03-17 Sony Corp メタデータ流通管理システム,メタデータ流通管理装置,個人別メタデータ管理装置,クライアント端末,メタデータ流通管理方法およびコンピュータプログラム
WO2005029237A2 (en) * 2003-09-15 2005-03-31 Digital Networks North America, Inc. Method and system for adaptive transcoding and transrating in a video network
KR100927731B1 (ko) 2003-09-27 2009-11-18 한국전자통신연구원 패키지 메타데이터 및 이를 이용한 타겟팅과 동기화서비스 제공 시스템
US8165449B2 (en) 2003-10-01 2012-04-24 Microsoft Corporation DV metadata extraction
KR20050052717A (ko) * 2003-12-01 2005-06-07 엘지전자 주식회사 오디오 원본 보존 트랜스코딩 시스템 및 방법
US7580520B2 (en) * 2004-02-14 2009-08-25 Hewlett-Packard Development Company, L.P. Methods for scaling a progressively encrypted sequence of scalable data
US6989773B2 (en) * 2004-02-13 2006-01-24 Hewlett-Packard Development Company, L.P. Media data encoding device
US8832434B2 (en) * 2004-02-13 2014-09-09 Hewlett-Packard Development Company, L.P. Methods for generating data for describing scalable media
US7504968B2 (en) * 2004-02-13 2009-03-17 Hewlett-Packard Development Company, L.P. Media data decoding device
US7797454B2 (en) * 2004-02-13 2010-09-14 Hewlett-Packard Development Company, L.P. Media data transcoding devices
US7075460B2 (en) * 2004-02-13 2006-07-11 Hewlett-Packard Development Company, L.P. Methods for scaling encoded data without requiring knowledge of the encoding scheme
JP4528043B2 (ja) * 2004-07-12 2010-08-18 株式会社日立製作所 映像信号変換装置、変換方法及びこれを用いた映像信号記録装置
CN100493144C (zh) * 2004-09-10 2009-05-27 佳能株式会社 数据处理装置及其控制方法
JP4863438B2 (ja) * 2004-09-10 2012-01-25 キヤノン株式会社 データ処理装置及び処理方法
US7302159B2 (en) * 2004-11-12 2007-11-27 Pelco Apparatus and method of storing video data
US8780957B2 (en) 2005-01-14 2014-07-15 Qualcomm Incorporated Optimal weights for MMSE space-time equalizer of multicode CDMA system
JP2006246008A (ja) * 2005-03-03 2006-09-14 Ntt Docomo Inc 映像トランスコードシステム、映像取得装置、トランスコーダ装置、及び、映像トランスコーディング方法
AU2006223416A1 (en) 2005-03-10 2006-09-21 Qualcomm Incorporated Content adaptive multimedia processing
JP4561453B2 (ja) * 2005-04-19 2010-10-13 株式会社日立製作所 記録再生装置、記録再生方法
US9113147B2 (en) 2005-09-27 2015-08-18 Qualcomm Incorporated Scalability techniques based on content information
WO2007037726A1 (en) 2005-09-28 2007-04-05 Telefonaktiebolaget Lm Ericsson (Publ) Media content management
US7743363B2 (en) * 2005-10-13 2010-06-22 Microsoft Corporation Extensible meta-data
US8948260B2 (en) 2005-10-17 2015-02-03 Qualcomm Incorporated Adaptive GOP structure in video streaming
US8654848B2 (en) 2005-10-17 2014-02-18 Qualcomm Incorporated Method and apparatus for shot detection in video streaming
KR100775923B1 (ko) * 2005-11-14 2007-11-13 노키아 코포레이션 디지털 권리 관리 시스템들 간의 콘텐츠 전송
WO2007073616A1 (en) 2005-12-28 2007-07-05 Intel Corporation A novel user sensitive information adaptive video transcoding framework
JP4914093B2 (ja) * 2006-03-23 2012-04-11 住友電気工業株式会社 情報中継装置、情報中継方法、および、情報中継システム
WO2007114995A1 (en) * 2006-04-03 2007-10-11 Qualcomm Incorporated Preprocessor method and apparatus
US9131164B2 (en) 2006-04-04 2015-09-08 Qualcomm Incorporated Preprocessor method and apparatus
US7984477B2 (en) 2007-03-16 2011-07-19 At&T Intellectual Property I, L.P. Real-time video compression
JP5158085B2 (ja) * 2007-08-31 2013-03-06 富士通株式会社 信号出力装置、信号出力方法及び信号出力プログラム
KR101365596B1 (ko) * 2007-09-14 2014-03-12 삼성전자주식회사 영상 부호화장치 및 방법과 그 영상 복호화장치 및 방법
WO2009045178A1 (en) * 2007-10-05 2009-04-09 Agency For Science, Technology And Research A method of transcoding a data stream and a data transcoder
US8270739B2 (en) 2007-12-03 2012-09-18 Ecole De Technologie Superieure System and method for quality-aware selection of parameters in transcoding of digital images
KR101428671B1 (ko) 2007-11-02 2014-09-17 에꼴 드 테크놀로지 수페리에르 스케일링 및 퀄리티-컨트롤 파라미터의 변경에 의한 변환이 가능한 이미지의 파일 사이즈 예측 시스템 및 방법
FR2933837A1 (fr) * 2008-12-10 2010-01-15 Thomson Licensing Procede de codage, procede et dispositif de transcodage et flux de donnees image codees.
US8300961B2 (en) * 2008-12-12 2012-10-30 Ecole De Technologie Superieure Method and system for low complexity transcoding of images with near optimal quality
WO2010086021A1 (en) * 2009-01-30 2010-08-05 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for efficient downstream video processing based on upstream metric processing and provision
US20110013692A1 (en) * 2009-03-29 2011-01-20 Cohen Robert A Adaptive Video Transcoding
JP5553140B2 (ja) 2009-10-02 2014-07-16 ソニー株式会社 情報処理装置および方法
US8763068B2 (en) 2010-12-09 2014-06-24 Microsoft Corporation Generation and provision of media metadata
US20120265853A1 (en) * 2010-12-17 2012-10-18 Akamai Technologies, Inc. Format-agnostic streaming architecture using an http network for streaming
US8880633B2 (en) 2010-12-17 2014-11-04 Akamai Technologies, Inc. Proxy server with byte-based include interpreter
KR102013461B1 (ko) 2011-01-21 2019-08-22 인터디지탈 매디슨 페이튼트 홀딩스 콘텐츠 프로파일링을 사용한 강화된 원격 트랜스코딩을 위한 시스템 및 방법
EP2518719B1 (en) 2011-04-08 2016-05-18 Dolby Laboratories Licensing Corporation Image range expansion control methods and apparatus
US20120294366A1 (en) * 2011-05-17 2012-11-22 Avi Eliyahu Video pre-encoding analyzing method for multiple bit rate encoding system
US9432704B2 (en) 2011-11-06 2016-08-30 Akamai Technologies Inc. Segmented parallel encoding with frame-aware, variable-size chunking
JP6247286B2 (ja) * 2012-06-12 2017-12-13 コーヒレント・ロジックス・インコーポレーテッド ビデオコンテンツの符号化及び配信のための分散アーキテクチャ
US9282348B2 (en) * 2012-08-13 2016-03-08 Disney Enterprises, Inc. Content based partitioning of digital media content
JP2014175757A (ja) * 2013-03-07 2014-09-22 Kddi Corp 分割要素の結合による電子透かしを生成する電子透かし処理システム、サーバ、プログラム及び方法
US10609405B2 (en) 2013-03-18 2020-03-31 Ecole De Technologie Superieure Optimal signal encoding based on experimental data
US9661331B2 (en) 2013-03-18 2017-05-23 Vantrix Corporation Method and apparatus for signal encoding realizing optimal fidelity
US9338450B2 (en) 2013-03-18 2016-05-10 Ecole De Technologie Superieure Method and apparatus for signal encoding producing encoded signals of high fidelity at minimal sizes
KR20160054530A (ko) * 2013-09-06 2016-05-16 미쓰비시덴키 가부시키가이샤 동화상 부호화 장치, 동화상 트랜스코드 장치, 동화상 부호화 방법, 동화상 트랜스코드 방법 및 동화상 스트림 전송 시스템
US9485456B2 (en) 2013-12-30 2016-11-01 Akamai Technologies, Inc. Frame-rate conversion in a distributed computing system
US20150296215A1 (en) * 2014-04-11 2015-10-15 Microsoft Corporation Frame encoding using hints
GB201414204D0 (en) * 2014-08-11 2014-09-24 Advanced Risc Mach Ltd Data processing systems
US10453207B2 (en) * 2015-07-31 2019-10-22 Versitech Limited Method and system for global motion estimation and compensation
US11146608B2 (en) 2017-07-20 2021-10-12 Disney Enterprises, Inc. Frame-accurate video seeking via web browsers
CN110198474B (zh) * 2018-02-27 2022-03-15 中兴通讯股份有限公司 一种码流处理方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998052356A1 (en) * 1997-05-16 1998-11-19 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0457489A (ja) * 1990-06-26 1992-02-25 Nec Corp 動画像符号化器
NL9301358A (nl) * 1993-08-04 1995-03-01 Nederland Ptt Transcodeerinrichting.
CA2193109C (en) * 1994-06-17 2007-03-27 Michael James Knee Video compression using a signal transmission chain comprising an information bus linking encoders and decoders
KR100566049B1 (ko) * 1996-09-16 2007-04-25 코닌클리케 필립스 일렉트로닉스 엔.브이. 정보매체를통한동시녹화및재생용녹화및재생시스템
US6028639A (en) * 1997-12-19 2000-02-22 Thomson Consumer Electronics, Inc. Process and apparatus for converting an MPEG-2 bitstream into SMPTE-259 compatible bitstream
US6100940A (en) * 1998-01-21 2000-08-08 Sarnoff Corporation Apparatus and method for using side information to improve a coding system
JP3724205B2 (ja) * 1998-03-10 2005-12-07 ソニー株式会社 復号装置および方法、並びに記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998052356A1 (en) * 1997-05-16 1998-11-19 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013147441A1 (en) * 2012-03-26 2013-10-03 Samsung Electronics Co., Ltd. Scheduling apparatus and method for load balancing when performing multiple transcoding operations
US9304965B2 (en) 2012-03-26 2016-04-05 Samsung Electronics Co., Ltd Scheduling apparatus and method for load balancing when performing multiple transcoding operations

Also Published As

Publication number Publication date
JP4576783B2 (ja) 2010-11-10
AU780811B2 (en) 2005-04-21
AU4112201A (en) 2001-09-24
CN1372769A (zh) 2002-10-02
EP1177691A1 (en) 2002-02-06
WO2001069936A2 (en) 2001-09-20
JP2003527005A (ja) 2003-09-09
WO2001069936A3 (en) 2002-02-28
EP1177691B1 (en) 2011-01-26
CA2374067C (en) 2012-09-25
CA2374067A1 (en) 2001-09-20
CN100338956C (zh) 2007-09-19
KR20020006632A (ko) 2002-01-23
AU2005202313B2 (en) 2008-06-19
KR100776529B1 (ko) 2007-11-16
KR20070063560A (ko) 2007-06-19
HK1051941A1 (en) 2003-08-22
AU2005202313A1 (en) 2005-06-23

Similar Documents

Publication Publication Date Title
KR100844816B1 (ko) 간결한 트랜스코딩 힌트 메타데이터를 생성하는 방법 및장치
US7738550B2 (en) Method and apparatus for generating compact transcoding hints metadata
EP1145558B1 (en) System for editing compressed image sequences
AU726129B2 (en) Video coding
US20050232497A1 (en) High-fidelity transcoding
US20150312575A1 (en) Advanced video coding method, system, apparatus, and storage medium
KR100386583B1 (ko) 영상 변환 부호화 장치 및 방법
Wee et al. Compressed-domain reverse play of MPEG video streams
Haskell et al. Mpeg video compression basics
JP2006524460A (ja) 符号化されたビデオデータのコンテンツ分析
Meng et al. Buffer control techniques for compressed-domain video editing
Shen Fast fade-out operation on MPEG video
EP0927954B1 (en) Image signal compression coding method and apparatus
De Neve et al. Assessment of the compression efficiency of the MPEG-4 AVC specification
JP3652889B2 (ja) 映像符号化方法、映像符号化装置、記録媒体、及び映像通信システム
JP2006311078A (ja) 高能率符号化記録装置
KR20060016947A (ko) Mpeg 비디오 부호화 시스템 및 부호화 방법
Wang et al. Video coding standards
Rehan et al. Frame-Accurate video cropping in compressed MPEG domain
Ni et al. Adaptive motion vector re-sampling for fast fade and dissolve transitions on MPEG video
Richardson et al. Temporal filtering of coded video
Mandal et al. Digital video compression techniques
Choupani et al. Video Coding and Transcoding: A Review
Howard An Experimental analysis of the MPEG compression standard with respect to processing requirements, compression ratio, and image quality

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130621

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140623

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150619

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160628

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170623

Year of fee payment: 10