KR100825191B1 - Av 프로그램 인덱싱 방법 및 그래픽 유저 인터페이스 장치 - Google Patents

Av 프로그램 인덱싱 방법 및 그래픽 유저 인터페이스 장치 Download PDF

Info

Publication number
KR100825191B1
KR100825191B1 KR1020060020407A KR20060020407A KR100825191B1 KR 100825191 B1 KR100825191 B1 KR 100825191B1 KR 1020060020407 A KR1020060020407 A KR 1020060020407A KR 20060020407 A KR20060020407 A KR 20060020407A KR 100825191 B1 KR100825191 B1 KR 100825191B1
Authority
KR
South Korea
Prior art keywords
program
time
segment
broadcast
metadata
Prior art date
Application number
KR1020060020407A
Other languages
English (en)
Other versions
KR20060096362A (ko
Inventor
설상훈
김정림
김혁만
윤자천
전승수
Original Assignee
비브콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/071,895 external-priority patent/US20050203927A1/en
Application filed by 비브콤 인코포레이티드 filed Critical 비브콤 인코포레이티드
Publication of KR20060096362A publication Critical patent/KR20060096362A/ko
Application granted granted Critical
Publication of KR100825191B1 publication Critical patent/KR100825191B1/ko

Links

Images

Classifications

    • EFIXED CONSTRUCTIONS
    • E01CONSTRUCTION OF ROADS, RAILWAYS, OR BRIDGES
    • E01FADDITIONAL WORK, SUCH AS EQUIPPING ROADS OR THE CONSTRUCTION OF PLATFORMS, HELICOPTER LANDING STAGES, SIGNS, SNOW FENCES, OR THE LIKE
    • E01F8/00Arrangements for absorbing or reflecting air-transmitted noise from road or railway traffic
    • E01F8/0005Arrangements for absorbing or reflecting air-transmitted noise from road or railway traffic used in a wall type arrangement
    • E01F8/0023Details, e.g. foundations
    • EFIXED CONSTRUCTIONS
    • E01CONSTRUCTION OF ROADS, RAILWAYS, OR BRIDGES
    • E01FADDITIONAL WORK, SUCH AS EQUIPPING ROADS OR THE CONSTRUCTION OF PLATFORMS, HELICOPTER LANDING STAGES, SIGNS, SNOW FENCES, OR THE LIKE
    • E01F8/00Arrangements for absorbing or reflecting air-transmitted noise from road or railway traffic
    • E01F8/0005Arrangements for absorbing or reflecting air-transmitted noise from road or railway traffic used in a wall type arrangement
    • E01F8/0017Plate-like elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Architecture (AREA)
  • Civil Engineering (AREA)
  • Structural Engineering (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Sustainable Development (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명은 인덱싱 동안에 템플릿, AV 프로그램의 비주얼 시공간 패턴에 대한 세그먼트 마크 및 북마크를 이용한 방송 오디오-비주얼(AV) 프로그램에 대한 고속 메타데이터 인덱싱 및 전송에 관한 것이다. 방송 트랜스포트 스트림 상에 반송된 방송 시간은 녹화된 AV 프로그램의 특정 시간 위치로의 직접 접근을 가능하게 하는 로케이터로서 사용된다.

Description

AV 프로그램 인덱싱 방법 및 그래픽 유저 인터페이스 장치{FAST METADATA GENERATION USING INDEXING AUDIO-VISUAL PROGRAMS AND GRAPHICAL USER INTERFACE, AND RESUING SEGMENTATION METADATA}
도 1a, 도 1b 및 도 1c는 생방송 또는 사전 녹화된 방송 AV 프로그램에 대한 메타데이터 서비스를 제공하는 방법을 도시하는 블록도,
도 2a 및 도 2b는 생방송 AV 프로그램에 대한 실시간 인덱싱 시스템을 도시하는 블록도,
도 3a는 실시간 AV 인덱서에 대한 예시적인 그래픽 유저 인터페이스(GUI)를 도시하는 도면,
도 3b는 세그먼트 계층을 조작하는데 사용될 수 있는 모델링 동작을 도시하는 도면,
도 4a 및 도 4b는 단순한 시간 크기를 나타내는 시간 축에 마킹하는 것에 비해 비주얼 시공간 패턴을 나타내는 비주얼 시간 축 상에 마킹하는 것의 장점을 나타내는 도면,
도 5는 방송 시간을 이용하는 프로그램의 세그먼트 계층에 대한 예시적인 1-레벨 메타데이터를 도시하는 도면,
도 6a는 디지털/디지털화 AV 프로그램의 예시적인 실시간 인덱싱 시스템의 흐름도,
도 6b는 도 6a의 전처리를 나타내는 흐름도,
도 6c는 도 6a의 시공간 패턴 생성 프로세스를 나타내는 흐름도,
도 6d는 도 6a 및 도 6e의 주어진 마크를 확인하여 개선(refine)하는 예시적인 프로세스를 나타내는 흐름도,
도 6e는 도 6a의 후처리를 나타내는 흐름도,
도 7은 본 발명의 실시예에 따른 메타데이터 전송 시스템을 도시하는 개략도,
도 8 및 도 9는 본 발명에 따른 프로세스를 나타내는 흐름도로서, 도 8은 콘텐츠 획득 프로세스를 도시하며, 도 9는 방송 시간을 이용하는 프로그램의 세그먼트 계층에 대한 예시적인 1-레벨 메타데이터인 청구-지불 프로세스를 도시하는 도면,
도 10은 플래시 메모리 또는 하드 디스크 등의 메모리에 방송 오디오 프로그램을 녹화할 수 있는 예시적인 모바일 장치를 도시하는 블록도,
도 11은 어느 프로그램이 녹화되어야 하는지를 결정하는 예약 리스트를 체크하는 과정을 상세히 나타내는 흐름도,
도 12는 모바일 장치와 접속된 이동 지원국으로부터 검출될 수 있는 모바일 장치의 예시적인 이동(핸드 오프)을 나타내는 도면.
도면의 주요 부분에 대한 부호의 설명
102 : 방송국 104 : 방송 네트워크
106 : 인덱싱 시스템 108 : DVR
201 : 인덱싱 시스템 202 : 수신기
204 : 프레임 캡쳐 206 : AV 인코더
208 : AV 파일 210 : AV 인덱서
212 : 메타데이터
관련 출원의 참고
우선권을 주장하며 본 출원의 일부 계속 출원인 이하의 모든 관련 출원은 완전히 본 명세서에 참조로 포함된다.
본 출원은 미국 가출원 제 60/549,624 호(2004년 3월 3일 출원)를 우선권으로 주장한다.
본 출원은 미국 가출원 제 60/549,605 호(2004년 3월 3일 출원)를 우선권으로 주장한다.
본 출원은 미국 가출원 제 60/550,534 호(2004년 3월 5일 출원)를 우선권으로 주장한다.
본 출원은 미국 가출원 제 60/610,074 호(2004년 9월 15일 출원)를 우선권으로 주장한다.
본 출원은 이하의 5개 가특허 출원을 우선권으로 주장하는 2001년 7월 23일자 출원의 미국 특허 출원 제 09/911,293 호(2002년 6월 6일 US2002/0069218A1로 공개)의 일부 계속 출원이다.
미국 가출원 제 60/221,394 호(2000년 7월 24일 출원)
미국 가출원 제 60/221,843 호(2000년 7월 28일 출원)
미국 가출원 제 60/222,373 호(2000년 7월 31일 출원)
미국 가출원 제 60/271,908 호(2001년 2월 27일 출원)
미국 가출원 제 60/291,728 호(2001년 5월 17일 출원)
본 출원은 미국 가출원 제 60/359,566 호(2002년 2월 25일 출원)와 미국 가출원 제 60/434,173 호(2002년 12월 17일 출원)를 우선권으로 주장하는 미국 특허 출원 제 10/365,576 호(2003년 2월 12일 출원, 2004년 7월 1일 US2004/0128317로 공개)의 일부 계속 출원이다.
본 출원은 미국 특허 출원 제 10/369,333 호(2003년 2월 19일 출원, 2003년 9월 18일 US2003/0177503로 공개)의 일부 계속 출원이다.
본 출원은 미국 가출원 제 60/359,567 호(2002년 2월 25일 출원)를 우선권으로 주장하는 미국 특허 출원 제 10/368,304 호(2003년 2월 18일, 2004년 7월 1일 US2004/0125124로 공개)의 일부 계속 출원이다.
기술 분야
본 명세서는 오디오-비주얼(AV) 프로그램의 인덱싱 및 그래픽 유저 인터페이스를 사용한 빠른 메타데이터 생성 방법, 그리고 세그먼트화 메타데이터의 재사용 방법 및 시스템에 관한 것이다.
배경 기술
기술적인 진보는 인터넷뿐만 아니라 지상파, 케이블 및 위성 방송을 포함한 다양한 미디어를 통해 사용자에게 전송된 관련 데이터(이하, "프로그램" 또는 "콘텐츠"라 함)를 포함한 오디오, 비주얼, 및/또는 오디오비주얼(이하, "오디오-비주얼" 또는 "오디오비주얼"이라 함) 프로그램/콘텐츠의 광범위한 콘텐츠 및 서비스를 계속해서 생성하고 있다.
디지털 TV 대 아날로그 TV
1996년 12월에, 연방 통신 위원회(FCC)는 소비자가 현재 사용하고 있는 아날로그 TV 시스템을 대체하는 획기적인 디지털 TV(DTV)에 대한 미국 표준을 승인하였다. DTV 시스템에 대한 필요성은 TV 시청자가 필요로 하는 고화질 및 서비스 개선에 대한 요구로 인해 발생하였다. DTV는 한국, 일본 및 유럽 전체 등의 여러 나라에서 광범위하게 채택되었다.
DTV 시스템은 종래의 아날로그 TV 시스템에 비해 몇가지 장점을 가지고 있어서 TV 시청자의 요구를 충족시키고 있다. 표준 화질 TV(SDTV) 또는 고화질 TV(HDTV) 시스템에 의해 종래의 아날로그 TV 시스템에 비해 훨씬 선명한 화질을 시 청할 수 있다. HDTV 시청자는 아날로그의 종래의 아날로그 4×3의 종횡비에 비해 16×9 종횡비(폭-높이)를 가진 와이드 스크린 포맷(영화관에서 볼 수 있음)에 디스플레이되는 1920×1080 화소의 해상도로 고화질의 픽쳐를 수신할 수 있다. 종래의 TV 종횡비가 4×3이지만, 일반적으로 화상의 양 측면에서 각 픽쳐의 크로핑 부분만큼 픽쳐의 상부와 하부에서 공백 스크린 영역을 남기고 중앙의 4×3 영역만을 보여주는 레터 박스(letter box) 포맷으로 와이드 스크린 프로그램을 종래의 TV 스크린 상에서 여전히 볼 수 있다. 또한, DTV 시스템에 의해 다수의 TV 프로그램을 다중 방송할 수 있으며, 또한, 설명 자막, 옵션, 여러 또는 상이한 오디오 옵션(옵션 언어 등) 등의 보조 데이터, 보다 넓은 포맷(레터 박스 등) 및 추가 픽쳐를 포함할 수 있다. 예를 들어, 시청자가 보다 완벽한 "홈" 시어터 체험을 즐기게 하는 현재의 5.1 채널 콤팩트 디스크(CD)-품질의 서라운드 사운드 등의 보다 양호한 관련 오디오의 이점을 청취자가 가질 수 있다.
U.S. FCC는 각각의 지상 디지털 방송 채널에 대해 아날로그 NTSC 채널에 사용하는 것과 동일한 대역폭의 6 MHz(메가 헤르쯔) 대역폭을 할당하였다. MPEG-2 등의 비디오 압축 방법을 이용함으로써, 하나 이상의 고화질 프로그램이 동일 대역폭 내에서 전송될 수 있다. 따라서, DTV 방송국은 프로그램을 전송하기 위해서 여러 표준(예를 들어, HDTV 또는 SDTV) 중에서 선택할 수 있다. 예를 들어, ATSC는 그 예 및 설명이 2004년 5월 12일 "ATSC Standard A/53C with Amendment No. 1:ATSC Digital Television Standard" Rev. C(www.atsc.org를 참조)에 있을 수 있는 다양한 해상도, 종횡비, 프레임 비율의 18개의 상이한 포맷을 갖는다. 디지털 TV 시스템에서의 픽쳐는 순차 또는 비월 모드로 주사된다. 순차 모드에서, 프레임 픽쳐는 래스터 주사 순서로 주사되며, 비월 모드에서는, 프레임 픽쳐가 래스터 주사 순서로 각각이 주사되는 2개의 시간적으로 교대하는 필드 픽쳐로 구성되어 있다. 비월 모드와 순차 모드에 대한 보다 상세한 설명은 Barry G., Atul Puri , Arun N. Netravali 의 "Digital Video:An Introduction to MPEG-2 (Digital Multimedia Standards Series)"에 있다. SDTV가 화질면에서 HDTV에 비해 좋지 않지만, 현재 또는 과거의 아날로그 TV보다는 높은 화질의 픽쳐를 제공할 것이다.
디지털 방송은 완전히 새로운 옵션과 형태의 프로그래밍을 제공한다. 방송국은 추가 비디오, 화상 및/또는 오디오(다른 가능한 데이터 전송과 함께)를 제공하여 TV 시청자의 시청 체험을 향상시킬 수 있다. 예를 들어, 비디오(일반적으로 가능한 추가 데이터와 함께 조합된 비디오+오디오) 신호로 전송될 수 있는 하나 이상의 전자 프로그램 가이드(EPG)는 관심 있는 채널로 사용자를 안내할 수 있다. 대부분의 일반적인 디지털 방송 및 리플레이(예를 들어, 비디오 콤팩트 디스크(VCD) 또는 디지털 비디오 디스크(DVD)에 의한)는 프로그램 상연을 위한 압축 해제와 함께 저장 및/또는 방송을 위한 비디오 화상의 압축을 포함한다. 대부분의 일반적인 압축 표준(오디오 등의 관련 데이터에 또한 사용될 수 있음) 중에는 JPEG 및 다양한 MPEG 표준이 있다.
1. JPEG 서설
JPEG(Joing Photographic Experts Group)는 정지 화상 압축의 표준이다. JPEG 위원회는 정지 화상의 손실, 무손실 및 거의 무손실의 압축과, 연속 계조, 정 지 프레임, 단색 및 컬러 화상의 압축에 대한 표준을 개발하였다. JPEG 표준은 응용 프로그램이 그들의 조건을 만족시키는 구성 요소를 선택할 수 있는 3개의 메인 압축 기술을 제공한다. 3개의 메인 압축 기술은 (ⅰ) 베이스라인 시스템, (ⅱ) 확장 시스템 및 (ⅲ) 무손실 모드 기술이다. 베이스라인 시스템은 순차적인 모드의 8 비트/화소 입력으로 제한된 허프만 코딩을 이용한 단순하고 효율적인 이산 여현 변환(DCT) 기반의 알고리즘이다. 확장 시스템은 베이스라인 시스템을 개선시켜 계층적 및 순차적 모드의 12 비트/화소 입력으로 광범위한 응용 프로그램을 만족시키며, 무손실 모드는 허프만 또는 산술 코딩을 이용한 DCT에 의존하는 예측 코딩, DPCM(Differential Pulse Coded Modulation)을 기초로 한다.
2. JPEG 압축
JPEG 인코더 블록도의 예가 John Miano의 압축 화상 파일 포맷:JPEG, PNG, GIF, XBM, BMP(ACM 프레스)에 있으며, 더욱 완전한 기술적인 설명은 ISO/IEC 국제 표준 10918-1(www.jpeg.org/jpeg/를 참조)에 있다. 비디오 프레임 화상 등의 원 픽쳐는 8×8 화소 블록으로 분할되며, 각각의 블록은 DCT를 이용하여 개별적으로 변환된다. DCT는 공간 영역으로부터 주파수 영역으로의 변환 함수이다. DCT 변환은 MPEG-1, MPEG-2, MPEG-4 및 JPEG 등의 여러 손실 압축 기술에 사용된다. DCT 변환이 사용되어 화상 내의 주파수 성분을 분석하고, 사람의 눈으로 일반적으로 인식하지 못하는 주파수를 폐기한다. DCT에 대한 더욱 완전한 설명은 Alan V. Oppenheim, Ronald W. Schafer , John R. Buck의 "Discrete-Time Signal Processing"(Prentice Hall, 1999년 2월 제 2 판)에 있다. 모든 변환 계수는 사용 자 규정의 양자화 테이블(또한 q 테이블 또는 정규화 매트릭스이라 함)을 이용하여 균일하게 양자화된다. 인코딩 화상의 화질 및 압축 비율은 양자화 테이블의 원소를 변경함으로써 변경될 수 있다. 일반적으로, 2-D DCT 어레이의 좌상부의 DC 계수는 공간 블록의 평균 밝기에 비례하며, 현재 블록의 양자화된 DC 계수와 이전 블록의 양자화된 DC 계수간의 차이로부터 가변 길이 코딩된다. AC 계수는 지그재그 주사를 통해 1-D 벡터로 재배열되고 런 렝스(run-length) 코딩을 이용하여 인코딩된다. 최종적으로, 압축 화상은 허프만 코딩을 이용하는 것과 같이, 엔트로피 코딩된다. 허프판 코딩은 문자의 빈도수에 기초한 가변 길이 코딩이다. 가장 빈번한 문자는 소수의 비트로 코딩되고 드문 문자는 다수의 비트로 코딩된다. 허프만 코딩에 대한 보다 상세한 설명은 Khalid Sayood 의 "Introduction to Data Compressioon"(Morgan Kaufmann , 2000년 2월 제 2 판)에 있다.
JPEG 디코더는 역순으로 동작한다. 따라서, 압축 데이터가 엔트로피 디코딩되고 2차원 양자화 DCT 계수가 구해진 후에, 각각의 계수는 양자화 테이블을 이용하여 양자화 해제된다. JPEG 압축은 현재의 디지털 정지 카메라 시스템과 다수의 가라오케 "노래방" 시스템에서 일반적으로 찾을 수 있다.
웨이블릿(Wavelet)
웨이블릿은 데이터를 여러 주파수 성분으로 분할하는 변환 함수이다. 웨이블릿은 컴퓨터 비전의 다중 해상도 분석과, 오디오 및 비디오 압축에서의 대역 분할 코딩 기술과, 응용 수학에서의 웨이블릿 시리즈를 포함한 여러 상이한 분야에서 유용하다. 웨이블릿 압축은 DCT형 변환 압축의 대안 또는 부가물이며, MPEG-4 등 의 다양한 MPEG 표준에 있어서 고려되거나 채택된다. 더욱 완전한 설명은 Raghuveer M. Rao의 "Wavelet transforms: Introduction to Theory and Application"에 있다.
MPEG
MPEG(Moving Pictures Experts Group) 위원회는 콤팩트 디스크(CD) 용도로 비디오 및 오디오를 표준화하는 것을 목표로 시작하였다. 국제 표준 기구(ISO)와 국제 전기 기술 위원회(IEC)와의 회의는 1994년에 MPEG-2라는 제목으로 표준을 마무리하였고, 이는 현재 디지털 TV 방송의 비디오 코딩 표준으로서 채택되고 있다. MPEG는 예시적인 표준과 함께 www.mpeg.org에 더욱 완전히 기술되고 설명되어 있다. 추가로, MPEG-2는 Barry G. Haskell , Atul Puri , Arun N. Netravali 의 "Digital Video: An Introduction to MPEG-2(Digital Multimedia Standards Series)"에 기술되어 있으며, MPEG-4는 Touradj Ebrahimi , Fernando Pereira 의 "The MPEG-4 Book"에 기술되어 있다.
MPEG 압축
MPEG 표준 압축의 목표는 아날로그 또는 디지털 비디오 신호(및 오디오 신호 또는 텍스트 등의 관련된 데이터)를 획득하여 보다 효율적인 대역폭인 디지털 데이터의 패킷으로 변환하는 것이다. 디지털 데이터의 패킷을 생성함으로써, 선명도를 떨어뜨리지 않는 신호를 생성하고, 고화질의 픽쳐를 제공하고, 높은 신호 대 잡음비를 달성할 수 있다.
MPEG 표준은 정지 화상의 JPEG 표준으로부터 사실상 유추된다. MPEG-2 비디 오 압축 표준은 풀 프레임 비디오 화상에 대한 정보를 단지 가끔 생성함으로써 높은 데이터 압축비를 달성한다. 이들 풀 프레임 화상 또는 "인트라코딩" 프레임(픽쳐)은 "I-프레임"이라 한다. 각각의 I-프레임은 다른 프레임과는 무관하게 단일 비디오 프레임(화상 또는 픽쳐)의 완전한 설명을 포함하며, 사람의 눈의 특성을 이용하여 사람이 일반적으로 볼 수 없는 높은 주파수의 과다한 정보를 제거한다. 이들 "I-프레임" 화상은 MPEG-2 스트림 내에서 기준 화상으로서 작용하는 "앵커 프레임"(종종 "키 프레임" 또는 "기준 프레임"이라 함)으로서 작용한다. I-프레임 간에, 델타 코딩, 움직임 보상 및 다양한 보간/예측 기술이 사용되어 인터리빙 프레임을 생성한다. "상호 코딩된" B-프레임(양방향성의 코딩 프레임)과 P-프레임(예측 코딩 프레임)은 I-프레임 간에 인코딩된 "중간" 프레임의 예이며, I-프레임(기준 프레임)과 관련하여 그들이 나타내는 개재의 프레임 간의 차이에 대한 정보만을 저장한다. MPEG 시스템은 2개의 메인 층, 즉, 시스템 층(비디오 및 오디오를 동기화하는 타이밍 정보) 및 압축 층으로 구성되어 있다.
MPEG 표준 스트림은 비디오 시퀀스 층, GOP 층, 픽쳐층, 슬라이스층, 매크로블록층 및 블록층으로 구성된 층의 계층으로서 구성되어 있다.
비디오 시퀀스 층은 시퀀스 헤더(및 옵션으로 다른 시퀀스 헤더)로 시작하며, 일반적으로 하나 이상의 픽쳐를 포함하며, 종료 시퀀스 코드로 종료한다. 시퀀스 헤더는 코딩된 픽쳐의 크기, 차이가 있다면 디스플레이된 비디오 픽쳐의 크기, 프레임 비율, 비디오의 종횡비, 프로파일 및 레벨 식별, 비월 또는 순차 시퀀스 식별, 사적 사용자 데이터, 비디오와 관련된 다른 글로벌 파라미터 등의 기본적 인 파라미터를 포함한다.
GOP층은 헤더와, 임의 접근(random access), 고속 서치 및 편집을 가능하게 한 하나 이상의 일련의 픽쳐로 구성되어 있다. GOP 헤더는 특정의 레코딩 장치에 사용되는 시간 코드를 포함한다. GOP의 제 1의 인트라(I)-픽쳐 다음의 양방향성(B)-픽쳐가 폐쇄된 GOP로 불리는 임의 접근 이후에 디코딩될 수 있는지 여부를 나타내는 편집 플래그를 또한 포함한다. MPEG에서, 비디오 픽쳐는 일반적으로 일련의 GOP로 분할된다.
픽쳐층은 비디오 시퀀스의 비디오 시퀀스의 주된 코딩 유닛이다. 픽쳐는 휘도(Y)와 2개의 색차(Cb 및 Cr 또는 U 및 V)를 나타내는 3개의 직사각형 매트릭스로 구성되어 있다. 픽쳐 헤더는 화상의 픽쳐 코딩 유형(인트라(I), 예측(P), 양방향성(B) 픽쳐), 픽쳐의 구조(프레임, 필드 픽쳐), 지그재그 주사의 유형에 대한 정보와, 픽쳐의 디코딩에 관련된 다른 정보를 포함한다. 순차 모드 비디오에 있어서, 픽쳐는 프레임과 일치하며 상호 교환가능하게 사용될 수 있으며, 비월 모드 비디오에 있어서, 픽쳐는 프레임의 상부 필드 또는 하부 필드를 지칭한다.
슬라이스는 블록의 2×2 매트릭스로 일반적으로 구성된 일련의 연속적인 매크로블록으로 구성되어 있으며, 데이터 손상의 경우에 에러 탄력성(error resilience)을 인정한다. 에러 탄력적 환경에서 슬라이스가 존재하기 때문에, 손상되어 있는 전체 픽쳐 대신에 부분적인 픽쳐가 구성될 수 있다. 비트스트림이 에러를 포함하면, 디코더는 다음 슬라이스의 개시로 스킵할 것이다. 비트스트림내에 보다 많은 슬라이스가 있으면 양호한 에러를 은닉할 수 있지만, 이렇게 사용되지 않는다면 달리 화질을 개선하는데 사용될 수도 있는 공간을 사용한다. 슬라이스는 I-픽쳐에서의 모든 매크로블록이 전송되는 경우에 좌측에서 우측으로 또한 상부에서 하부로 전형적으로 이동하는 매크로블록으로 구성되어 있다. P-픽쳐와 B-픽쳐에서, 전형적으로, 슬라이스의 몇몇 매크로블록이 전송되며, 몇몇의 매크로블록은 그렇지 않으며, 즉, 몇몇의 매크로블록은 스킵된다. 그러나, 슬라이스의 맨 처음 매크로블록과 마지막 매크로블록은 항상 전송되어야 한다. 또한, 슬라이스는 겹치지 않아야 한다.
블록은 매크로블록에서 8×8 블록의 양자화된 DCT 계수에 대한 데이터로 구성된다. 공간 영역에서의 화소의 8×8 블록은 DCT에 의해 주파수 영역으로 변환되고 주파수 계수는 양자화된다. 양자화는 제한된 개수의 양자화 값 중 하나로서 각각의 주파수 계수를 근사치화하는 프로세스이다. 인코더는 8×8 블록에서의 각각의 주파수 계수가 얼마나 양자화되는지를 결정하는 양자화 매트릭스를 선택한다. 양자화 에러에 대한 사람의 인식은 높은 공간적 주파수(컬러 등)에 있어서는 더 낮아서, 고주파수가 전형적으로 보다 대략적으로(소수의 허용값으로) 양자화된다.
DCT와 양자화의 조합으로 특히 높은 공간적 주파수에서 주파수 계수의 대부분이 0으로 된다. 이를 최대한 이용하기 위해서, 계수는 지그재그 순서로 구성되어 긴 0의 길이를 생성한다. 그 다음, 계수는 일련의 길이-진폭 쌍으로 변환되고, 각각의 쌍은 다수의 0의 계수와 0인 아닌 계수의 진폭을 나타낸다. 이들 길이-진폭은 가변 길이 코드로 코딩되고, 이는 공통으로 발생하는 쌍에 대하여 짧은 코드를 이용하며, 보다 적은 공통 쌍에 대하여 긴 코드를 이용한다. 이러한 과정은 Barry G. Haskell , Atul Puri , Arun N. Netravali 의 "Digital Video: An Introduction to MPEG-2"(Chapman & Hall, December, 1996)에 상세히 설명되어 있다. 또한, "Generic Coding of Moving Pictures and Associated Audio Information - Part 2: Video", ISO/IEC 13818-2 (MPEG-2), 1994(www.mpeg.org를 참조)에 상세히 설명되어 있다.
상호 픽쳐 코딩
상호 픽쳐 코딩은 이전 프레임으로부터 이전 인코딩된 화소를 이용하여 픽쳐를 구성하는데 사용되는 코딩 기술이다. 이러한 기술은 비디오 내의 인접한 픽쳐는 일반적으로 매우 유사하다는 것을 기초로 한다. 픽쳐가 동체를 포함하고 있다면, 또한, 하나의 프레임 내에서의 그들의 이동의 추정이 가능하다면, 적절히 공간적으로 배치된 이전 프레임 내의 화소를 이용하는 시간적 예측이 적응된다. MPEG의 픽쳐 유형은 사용된 상호 예측의 유형에 따라서 3개 유형의 픽쳐로 분류된다. 상호 픽쳐 코딩에 대한 보다 상세한 설명은 Barry G. Haskell, Atul Puri, Arun N. Netravali의 "Digital Video: An Introduction to MPEG-2"(Chapman & Hall, December, 1996)에 있다.
픽쳐 유형
특히, MPEG 표준(MPEG-1, MPEG-2, MPEG-4)은 픽쳐(프레임) 인트라(I), 예측(P) 및 양방향성(B)의 3가지 유형을 규정한다.
전형적으로, 인트라(I) 픽쳐는 그들 자체적으로 공간 영역에서만 개별적으로 코딩된다. 인트라 픽쳐는 인코딩을 위해 다른 픽쳐를 참조하지 않고 그 픽쳐는 다 른 픽쳐의 수신과는 무관하게 인코딩될 수 있기 때문에, 인트라 픽쳐는 압축된 비디오에서의 액세스 포인트로서 사용된다. 인트라 픽쳐는 일반적으로 공간 영역으로 압축되고, 따라서, 다른 유형의 픽쳐에 비해 크기가 더 크다.
예측(P) 픽쳐는 바로 이전의 I-픽쳐 또는 P-픽쳐에 대하여 코딩되는 픽쳐이다. 이러한 기술을 전방 예측이라 한다. P-픽쳐에서, 각각의 매크로블록은 이전의 I-픽쳐 또는 P-픽쳐에서 기준으로 사용된 화소를 가르키는 하나의 움직임 벡터를 가질 수 있다. P-픽쳐는 B-픽쳐와 미래의 P-픽쳐에 대하여 기준 픽쳐로서 사용될 수 있기 때문에, 코딩 에러를 전파할 수 있다. 따라서, GOP에서의 P-픽쳐의 개수는 종종 제한되어 더욱 선명한 비디오를 가능하게 한다.
양방향성(B) 픽쳐는 바로 다음의 I-픽쳐 및/또는 P-픽쳐뿐만 아니라, 바로 이전의 I-픽쳐 및/또는 P-픽쳐를 이용하여 코딩되는 픽쳐이다. 이러한 기술을 양방향성 예측이라 한다. B-픽쳐에서, 각각의 매크로블록은 이전의 I-픽쳐 또는 P-픽쳐에서 기준으로서 사용되는 화소를 지칭하는 하나의 움직임 벡터와, 다음 I-픽쳐 또는 P-픽쳐에서 기준으로서 사용되는 화소를 지칭하는 다른 움직임 벡터를 가질 수 있다. 매크로블록은 움직임 벡터에 의해 기준으로 되는 2개의 매크로블록을 평균화하여 얻어지는 경우에, B-픽쳐에서의 각각의 매크로블록은 최대 2개의 움직임 벡터를 가질 수 있기 때문에, 결과적으로 노이즈가 감소한다. 압축의 효율성 측면에서, B-픽쳐는 가장 효율적이며, P-픽쳐는 다소 나쁘며, I-픽쳐는 가장 효율성이 적다. 전형적으로, B-픽쳐는 상호 예측에 있어서 기준 픽쳐로서 사용되지 않기 때문에, 에러를 전파하지 않는다.
비디오 스트림 합성
MPEG 스트림(MPEG-1, MPEG-2 및 MPEG-4)에서의 I-프레임의 개수는 임의 접근에 필요한 응용과 비디오 시퀀스에서의 장면 절단(scene cuts)의 위치에 따라서 변할 수 있다. 임의 접근이 중요한 응용에서는, I-프레임이 자주 사용되는데, 예를 들면, 초당 2회 사용될 수도 있다. 한 쌍의 기준(I 또는 P) 프레임 간의 B-프레임의 개수는 인코더의 메모리 용량과 인코딩되는 자료의 특성 등의 요인에 따라서 또한 변할 수 있다. 픽쳐의 전형적인 디스플레이 순서는 Barry G. Haskell , Atul Puri, Arun N. Netravali 의 "Digital Video: An Introduction to MPEG-2 (Digital Multimedia Standards Series)"와 "Generic Coding of Moving Pictures and Associated Audio Information - Part 2: Videos" ISO/IEC 13818-2 (MPEG-2), 1994(www.iso.org를 참조)에 있다. 픽쳐의 시퀀스는 B-프레임을 재구성하는데 필요한 기준 픽쳐가 관련 B-픽쳐에 앞서 전송되도록 인코더에서 재정렬된다. 픽쳐의 전형적인 인코딩된 순서는 Barry G. Haskell , Atul Puri , Arun N. Netravali 의 "Digital Video: An Introduction to MPEG-2 (Digital Multimedia Standards Series)""Generic Coding of Moving Pictures and Associated Audio Information - Part 2: Videos" ISO/IEC 13818-2 (MPEG-2), 1994(www.iso.org를 참조)에 있다.
움직임 보상
더욱 높은 압축비를 달성하기 위해서, 비디오의 시간적인 중복은 움직임 보상으로 불리는 기술에 의해 제거된다. 움직임 보상은 각각의 매크로블록이 기준 매크로블록과 코딩되는 매크로블록과의 움직임 벡터와, 기준 매크로블록과 코딩된 매크로블록과의 에러를 가지는 매크로 블록 레벨에서 P-픽쳐와 B-픽쳐에 사용된다. P-픽쳐에서의 매크로블록의 움직임 보상은 이전의 기준 픽쳐(I-픽쳐 또는 P-픽쳐)에서의 매크로블록만을 이용할 수 있으며, B-픽쳐에서의 매크로블록은 이전 픽쳐와 미래 픽쳐 둘 다의 조합을 기준 픽쳐(I-픽쳐 또는 P-픽쳐)로서 사용할 수 있다. 움직임 보상의 관점에 대한 보다 확대된 설명은 Barry G. Haskell , Atul Puri , Arun N. Netravali 의 "Digital Video: An Introduction to MPEG-2 (Digital Multimedia Standards Series)"와 "Generic Coding of Moving Pictures and Associated Audio Information - Part 2: Videos" ISO/IEC 13818-2 (MPEG-2), 1994(www.iso.org를 참조)에 있다.
MPEG-2 시스템 층
MPEG-2 시스템의 주된 기능은 몇몇 유형의 멀티미디어 정보를 하나의 스트림으로 조합하는 수단을 제공하는 것이다. 몇몇 기본 스트림(ES)으로부터의 데이터 패킷(오디오, 비디오, 텍스트 데이터 및 다른 데이터 등)은 단일 스트림 내에 인터리빙된다. ES는 패킷의 길이 또는 주파수를 단순히 변경함으로써 고정 비트율 또는 가변 비트율로 전송될 수 있다. ES는 단일 소스로부터의 압축된 데이터와 소스 정보의 동기화, 식별 및 특징화를 위해 필요한 보조 데이터로 구성되어 있다. ES 자체는 고정 길이 또는 가변 길이의 패킷으로 먼저 패킷화되어 패킷 기본 스트림(PES)을 형성한다.
MPEG-2 시스템 코딩은 2개의 형태, 즉, 프로그램 스트림(PS)과 트랜스포트 스트림(TS)으로 표시된다. PS는 DVD 미디어 등의 상대적으로 에러가 없는 환경에서 사용되며, TS는 디지털 방송 등과 같이 에러가 있을 수 있는 환경에서 사용된다. 일반적으로, PS는 프로그램이 여러 ES의 조합인 하나의 프로그램을 가지고 있다. PS는 다중화된 데이터의 팩으로 구성된다. 각각의 팩은 패킷 헤더와, 다양한 ES로부터의 여러 개수의 멀티플렉스 PES 패킷과, 다른 서술 데이터로 구성되어 있다. TS는 상대적으로 긴 가변 길이의 PES 패킷을 추가로 패킷화하는 188 바이트의 TS 패킷으로 구성되어 있다. 각각의 TS 패킷은 TS 헤더와, 옵션적으로 보조 데이터(적응 필드라 함)와, 전형적으로 하나 이상의 PES 패킷으로 구성되어 있다. 일반적으로, TS 헤더는 에러 검출, 타이밍 및 다른 기능을 위해서 동기(동기화) 바이트, 플래그 및 표시자, 패킷 식별자(PID) 및 다른 정보로 구성되어 있다. TS 패킷의 헤더 및 적응 필드는 스크램블되지 않아야 한다.
예를 들어, 오디오 및 비디오 스트림을 포함하는 ES 간의 적절한 동기화를 유지하기 위해서, 동기화는 타임 스탬프와 클록 기준을 사용하여 일반적으로 달성된다. 표현과 디코딩을 위한 타임 스탬프는 일반적으로 90kHz의 단위이며, 이는 특정 표현 단위(비디오 픽쳐 등)가 디코더에 의해 디코딩되어 출력 장치에 제공되어야 하는 27 MHz의 해상도를 가진 클록 기준에 따른 적절한 시간을 나타낸다. 오디오 및 비디오의 표현 시간을 포함하는 타임 스탬프는 일반적으로 PES 패킷 헤더에 존재할 수 있는 표현 타임 스탬프(PTS)라 하며, 디코딩된 픽쳐가 디스플레이를 위한 출력 장치에 전달되는 시간을 표시하며, 디코딩 시간을 나타내는 타임 스탬프는 디코딩 타임 스탬프(DTS)라 한다. 트랜스포트 스트림(TS) 내의 프로그램 클록 기준(PCR)과 프로그램 스트림(PS) 내의 시스템 클록 기준(SCR)은 시스템 시간 클록의 샘플링 값을 나타낸다. 일반적으로, PCR과 SCR의 규정은 구별이 있지만 동일한 것으로 간주할 수 있다. TS 패킷의 적응 필드 내에 존재할 수 있는 PCR은 하나의프로그램에 대해 클록 기준을 제공하며, 여기서, 프로그램은 공통의 시간 베이스를 가진 ES 세트로 구성되며, 동기화된 디코딩 및 표현을 위한 것이다. 하나의 TS 내에 다수의 프로그램이 있을 수 있으며, 각각은 독립적인 시간 베이스와 개별적인 세트의 PCR를 가질 수 있다. 디코더의 예시적인 동작에 대한 설명으로서, 디코더의 시스템 시간 클록은 전송된 PCR(또는 SCR)의 값으로 설정되며, 프레임은 디코더의 시스템 시간 클록이 프레임의 PTS의 값과 일치할 때 디스플레이된다. 일관성 및 명확성을 위해서, 이하의 명세서는 PCR의 용어를 사용할 것이다. 그러나, 특별히 설명하지 않는 한 등가의 설명 및 응용 프로그램을 SCR 또는 다른 등가 또는 대체물에 적용한다. MPEG-2 시스템 층에 대한 더욱 확대된 설명은 "Generic Coding of Moving Pictures and Associated Audio Information - Part 2: Systems" ISO/IEC 13818-1 (MPEG-2) 1994에 있다.
MPEG-1과 MPEG-2의 차이
MPEG-2 비디오 표준은 순차 주사 비디오와 비월 주사 비디오 둘 다를 지원하며, MPEG-1 비디오 표준은 순차 주사 비디오만을 지원한다. 순차 주사에서, 비디오는 순차적인 래스터 주사 프레임의 스트림으로서 디스플레이된다. 각각의 프레임은 순차적으로 디스플레이의 상부로부터 하부까지 디스플레이되는 스캔 라인과 함께 픽쳐를 완전히 채우는 화상 데이터를 포함한다. "프레임 비율"은 비디오 스 트림에서의 초당 프레임 개수를 나타낸다. 비월 주사에서, 비디오는 각각의 프레임을 구성하는 2개의 필드와 함께, 프레임 비율을 2회로 교대의 비월(또는 인터리빙된) 상부 및 하부 래스터 필드의 스트림으로서 디스플레이된다. 상부 필드("상위 필드" 또는 "홀수 필드"라 함)는 홀수의 스캔 라인(디스플레이의 상부에서 스캔 라인 1로 시작함)에 대한 비디오 화상 데이터를 포함하며, 하부 필드는 짝수 스캔 라인에 대한 비디오 화상을 포함한다. 상부와 하부 필드는 전송되어 교번 방식으로 디스플레이되며, 각각의 디스플레이된 프레임은 상부 필드와 하부 필드를 포함한다. 비월 주사 비디오는 비월 주사를 사용하지 않는 비디오와는 상이하며, 각각의 라인을 스크린 상에 순서대로 페인트한다. 비월 비디오 방법은 신호를 전송할 때 대역폭을 보존하도록 개발되었지만, 결과적으로는 비교할만한 비비월(순차) 비디오보다 덜 상세한 화상으로 될 수 있다.
또한 MPEG-2 비디오 표준은 DCT 블록 코딩 및 움직임 예측에 대해 프레임 기반 및 필드 기반의 방법 모두를 지원하며, MPEG-1 비디오 표준은 DCT에 대해 프레임 기반의 방법만을 지원한다. 전형적으로, 필드 DCT 방법에 의해서 코딩된 블록은 프레임 DCT 방법에 의해 코딩된 블록에 비해 큰 움직임 성분을 갖는다.
MPEG-4
MPEG-4는 장면 합성을 위해서 계층적으로 구성된 객체에 대한 개선된 그래픽 콘텐츠를 생성하는 광범위한 툴 세트를 이용하여 양방향성을 생성하여 가능하게 하는 시청각(AV) 인코더/디코더(코덱) 프레임워크이다. MPEG-4 비디오 표준은 비디오 압축의 목적으로 1993년에 시작하였고 새로운 세대의 코딩된 장면 표현을 제공 하는 것이다. 예를 들어, MPEG-4는 비주얼 객체의 집합체로서 장면을 인코딩하며, 여기서, 객체(자연 또는 합성)는 개별적으로 코딩되어 합성을 위해 장면의 설명과 함께 전송된다. 따라서, MPEG-4는 각각의 VO가 형태, 텍스트 및 움직임 등의 특성으로 특징화되는 MPEG-4에 규정된 비디오 객체(VO)를 기반으로 한 비디오 데이터의 객체 기반 표현에 의존한다. 이들 VO의 합성을 기술하여 시청각 장면을 생성하기 위해서, 몇몇 VO는 그래프의 노드가 VO인 장면 그래프로서의 멀티미디어 시나리오의 모델링을 가능하게 하는 BIFS(Binary Format for Scene)를 가진 장면을 형성하도록 구성되어 있다. BIFS는 양방향성, 합성 및 자연 오디오 또는 비디오의 혼합/정합, 스케일링, 로테이션, 드래그, 드랍 등을 포함하는 객체의 조작/합성을 제공하기 위해 요구에 따라 장면 그래프로부터 노드를 동적으로 추가 또는 제거하는 계층 구조의 형태로 장면을 기술한다. 따라서, MPEG-4 스트림은 BIFS 구문, 비디오/오디오 객체 및 동기화 구성, 디코더 구성 등의 다른 기본적 정보로 구성된다. BIFS는 스케쥴링, 시간 및 공간 영역에서의 좌표화, 동기화, 양방향성의 처리에 대한 정보를 포함하기 때문에, MPEG-4 스트림을 수신하는 클라이언트는 오디오/비디오 ES를 합성하는 BIFS 정보를 먼저 디코딩할 필요가 있다. 디코딩된 BIFS 정보에 기초하여, 디코더는 다른 가능한 보충 데이터뿐만 아니라 관련 시청각 데이터에 접근한다. MPEG-4 객체 기반 표현을 장면에 적용하기 위해서, 장면에 포함된 객체를 먼저 검출하여, 현 기술의 화상 분석 기술을 이용하여 쉽게 자동화할 수 없도록 세그먼트화되어야 한다.
H.264(AVC)
AVC 또는 MPEG-4 파트 10으로 불리는 H.264는 가장 새로운 국제 비디오 코딩 표준이다. MPEG-2 등의 비디오 코딩 표준은 위성, 케이블 및 지상파 송출을 통해 HDTV 신호를 전송할 수 있게 하며, 여러 디지털 저장 장치(디스크 드라이브, CD 및 DVD 등)에 비디오 신호를 저장할 수 있게 한다. 그러나, H.264에 대한 필요성은 MPEG-2 등의 종래의 비디오 코딩 표준에 비해 코딩 효율성을 향상시키기 위해서 발생하였다.
종래의 비디오 코딩 표준에 비해, H.264는 비디오 코딩 효율성을 향상시키는 특징을 가지고 있다. H.264는 종래의 비디오 코딩 표준에 비해 움직임 보상 블록 크기와 형태의 선택에 있어서 더 많은 융통성을 가질 수 있는 4×4 만큼 작은 블록 크기로 가변 블록 크기의 정확한 쿼터 샘플 움직임 보상을 가능하게 한다.
H.264는 인접한 미래 픽쳐와 이전 픽쳐의 조합을 단순히 참조하는 MPEG-1 및 MPEG-2에서의 P-픽쳐 또는 B-픽쳐에 비해 움직임 보상을 참조하는 픽쳐를 인코더가 선택할 수 있는 개량된 기준 픽쳐 선택 기술을 갖는다. 따라서, 종래의 비디오 코딩 표준에서의 움직임 보상에 대한 픽쳐의 배열 사이의 엄격한 의존도에 비해 참조와 디스플레이 목적의 픽쳐 배열에 보다 높은 융통성이 제공된다.
다른 비디오 코딩 표준에는 없는 H.264의 다른 기술은 H.264가 인코더에 의해 지시된 양만큼 움직임 보상 예측 신호를 가중하고 오프셋하여, 코딩 효율적으로 상당히 개선할 수 있다는 점이다.
종래의 모든 주요 코딩 표준(JPEG, MPEG-1, MPEG-2 등)은 변환 코딩을 위해 8×8의 블록 크기를 이용하지만, H.264 설계는 변환 코딩을 위해 4×4의 블록 크기 를 이용한다. 이로써, 인코더는 보다 적응적인 방식으로 신호를 나타내어, 보다 정확한 움직임 보상과 아티팩트 감소를 가능하게 한다. 또한, H.264는 컨텍스트 기반의 적응성을 이용하여 종래 표준에 비해 엔트로피 코딩의 성능을 향상시키는 2개의 엔트로피 코딩 방법(컨텍스트-적응성 가변 길이 코딩(CAVLC)과 컨텍스트-적응성 2진 산술 코딩(CABAC)이라 함)을 이용한다.
H.264는 여러 네트워크 환경에 있어서의 데이터 에러/손실에 대한 강건성을 제공한다. 예를 들어, 파라미터 세트 설계는 보다 유연한 방식으로 핸들링하기 위해 개별적으로 전송된 강건한 헤더 정보에 대해 제공하여, 몇 비트의 정보가 전송 동안에 손실될 지라도, 디코딩 프로세스에서의 심한 충격이 관측되지 않게 한다. 데이터 강건성을 제공하기 위해서, H.264는 픽쳐를 슬라이스 그룹으로 분할하며, 여기서, 각각의 슬라이스는 MPEG-1 및 MPEG-2와 유사하게 다른 슬라이스와 별개로 디코딩될 수 있다. 그러나, MPEG-2에서의 슬라이스 구조는 H.264에 비해 덜 유연하여, 헤더 데이터 양의 증가와 예측 효과성의 감소로 인해 코딩 효율성을 감소시킨다.
강건성을 향상시키기 위해서, H.264는 픽쳐와 관련된 주된 정보가 손실되면, 손실 영역에 대한 중복 정보를 수신하여 픽쳐를 복원할 수 있도록, 픽쳐의 영역이 중복 인코딩되도록 한다. 또한, H.264는 전송을 위한 코딩 정보의 중요도에 따라서 각각의 슬라이스의 구문을 다수의 상이한 구획으로 분리한다.
ATSC/DVB
ATSC는 디지털 HDTV 및 SDTV를 포함한 DTV에 대한 국제적으로 비영리 조직이 개발한 자발적 표준이다. ATSC 디지털 TV 표준, 개정 B(ATSC 표준 A/53B)는 MPEG-2 인코딩에 기초한 디지털 비디오에 대한 표준을 규정하며, 예를 들어, 19,29Mbps에서 1920×1080 화소/셀(2,073,600 화소)만큼 큰 비디오 프레임을 가능하게 한다. 디지털 비디오 방송 프로젝트(DVB - 35 나라에 걸친 300개의 방송국, 제작업체, 네트워크 운영자, 소프트웨어 개발업자, 규제 기관 등)는 DTV에 대한 유사한 국제 표준을 제공한다. 유럽 내에서의 케이블, 위성 및 지상파 TV 네트워크의 디지털화는 디지털 비디오 방송(DVB) 계열의 표준을 기반으로 하지만, 미국과 한국은 디지털 TV 방송을 위해 ATSC를 이용한다.
ATSC와 DVB 호환의 디지털 스트림을 보기 위해서, 사용자의 TV 세트와 내부적으로 연결 또는 연관되어 있는 디지털 STB는 TV 시장을 침투하기 시작했다. 본 명세서에 있어서, STB 용어는 퍼스널 컴퓨터(PC)와 모바일 장치를 포함한, TV 프로그램의 일부분을 수신, 저장, 처리, 반복, 편집, 수정, 디스플레이, 재생 또는 수행하기 위한 모든 이러한 디스플레이, 메모리, 또는 인터페이스 장치를 지칭한다. 이러한 새로운 소비자 장치를 이용하여, TV 시청자는 방송 프로그램을 그들의 디지털 비디오 리코더(DVR)의 로컬 또는 다른 관련 데이터 저장부에 MPEG-2 등의 디지털 비디오 압축 형태로 기록할 수 있다. 일반적으로, DVR은 예를 들어, 관련 저장부 또는 자신의 로컬 저장부 또는 하드 디스크에 기록 기능을 가진 STB로서 생각된다. DVR에 의해, TV 시청자는 그들이 원하는 방식으로(시스템의 제한 범위 내에서), 또한, 그들이 원하는 시간에(일반적으로, "온 디멘드"라고 함), 프로그램을 시청할 수 있다. 디지털 기록된 비디오의 성질로 인해서, 시청자는 고속 재생 및 되감기 등의 종래의 비디오 카셋트 리코더(VCR) 타입 제어에 추가로, 기록된 프로그램의 특정 포인트에 직접 접근(direct access)하는 기능("임의 접근(random access)"이라고도 함)을 가질 수 있다.
표준 DVR에서, 입력 장치는 고주파(RF) 튜너, 일반적인 네트워크(예, 인터넷, WAN, 및/또는 LAN), 또는 CD와 DVD 등의 보조 판독 전용 디스크로부터 ATSC, DVB, 디지털 멀티미디어 방송(DMB) 및 디지털 위성 시스템(DSS)(이들 대부분은 MPEG-2 TS를 기반으로 함) 등의 다수의 디지털 형태로 비디오 스트림을 획득한다.
일반적으로, DVR 메모리 시스템은 입력 장치의 디멀티플렉서를 또한 제어할 수 있는 프로세서의 제어하에 동작한다. 일반적으로, 프로세서는 시청자가 조작한 사용자 제어 장치로부터 수신한 커맨드에 응답하도록 프로그래밍된다. 디멀티플렉서에게 임의 접근 메모리에 압축 형태로 조립된 동조 및 복조된 채널 신호로부터 프레임의 하나 이상의 시퀀스를 공급하라는 커맨드 신호를 전송하여, 디스플레이 장치에 디스플레이하기 위해 메모리를 통해 압축 해제기/디코더에 공급되는 것과 같이, 사용자 제어 장치를 이용하여, 시청자는 시청할 (또한 버퍼에 기록된) 채널을 선택할 수 있다.
DVB 서비스 정보(SI)와 ATSC 프로그램 특정 정보 프로토콜(PSIP)은 제각기 DVB와 ATSC에서 DTV 신호를 함께 보유한 글루(glue)이다. ATSC(또는 DVB)는 PSIP(또는 SI)가 방송 신호를 수반하게 하며, 디지털 STB와 시청자가 증가된 개수의 디지털 서비스를 네비게이팅하는 것을 돕고자 하는 것이다. ATSC-PSIP와 DVB-SI는 "ATSC Standard A/53C with Amendment No. 1:ATSC Digital Television Standard", Rev. C, "ATSC Standard A/65B: Program and System Information Protocol for Terrestrial Broadcast and Cable" Rev. B 2003년 3월 18일(www.atsc.org를 참조), "ETSI EN 300 468 Digital Video Broadcasting (DVB); Specification for Service Information (SI) in DVB Systems"(www.etsi.org를 참조)에 상세히 설명되어 있다.
DVB-SI와 ATSC-PSIP 내에서, 이벤트 정보 테이블(EIT)은 프로그램("이벤트") 정보를 제공하는 수단으로서 특히 중요하다. DVB와 ATSC의 호환성에 있어서, 현재 방영 프로그램과 다음 프로그램에 대한 정보를 제공하는 것이 필수적이다. EIT는 프로그램 타이틀, 시작 시간, 방영 시간, 설명 및 성인 등급 등의 정보를 제공하는데 사용될 수 있다.
"ATSC Standard A/65B: Program and System Information Protocol for Terrestrial Broadcast and Cable" Rev. B, 2003년 3월 18일(www.atsc.org를 참조) 문헌에서, PSIP는 ATSC의 자발적 표준이며, 그 표준의 제한 부분만이 연방 통신 위원회(FCC)에서 현재 요구하는 것이라는 것을 알아야 한다. PSIP는 디지털 TV의 지상파 방송을 위해 TS 내에서 동작하도록 설계된 테이블의 집합체이다. 그 용도는 특정 TS에 있는 모든 가상 채널에 대한 시스템과 이벤트 레벨에서의 정보를 기술하는 것이다. 일반적으로, 베이스 테이블의 패킷은 베이스 패킷 식별자(PID 또는 베이스 PID)로 라벨 표기된다. 베이스 테이블은 시스템 타임 테이블(STT), 등급 지역 테이블(RRT), 마스터 가이드 테이블(MGT), 가상 채널 테이블(VCT), EIT 및 익스텐트 텍스트 테이블(ETT)을 포함하며, PSIP 테이블의 집합체는 전형적인 디지털 TV 서비스의 구성 요소를 설명한다.
STT는 일자에 대한 기준을 수신기에 표시하기 위한 가장 단순하고 가장 소형의 PSIP 내의 테이블이다. 시스템 시간 테이블은 하나의 TS 패킷에 맞는 소형의 데이터 구조이며 일자 기능의 기준으로서 동작한다. 수신기 또는 STB는 이러한 테이블을 이용하여 디스플레이 일자뿐만 아니라 여러 동작 및 스케줄 이벤트를 관리할 수 있다. 일자 기능의 기준은 1초 내의 정확도로 1980년 1월 6일 오전 12시 정각부터, 현재의 GPS 시간에 기초하여 STT 내의 system_time 필드에 의해 시스템 시간으로 주어진다. DVB는 시간 및 일 테이블(TDT)로 불리는 유사한 테이블을 가진다. 시간의 TDT 기준은, " ETSI EN 300 468 Digital Video Broadcasting (DVB); Specification for Service Information (SI) in DVB systems" (www.etsi.org를 참조)에 부록 C로 기재되어 있는 바와 같이, 협정 세계시(UTC)와 개정된 율리우스 일(MJD)을 기초로 한다.
등급 지역 테이블(RTT)은 시스템 등을 구비한 각 국가에서 사용하기 위한 등급 시스템을 전송하도록 설계되었다. 미국에서, 이 등급 시스템은 부적절하지만 종종 "V-칩" 시스템이라 하며, 적절한 타이틀은 "TVPG(Televison Parental Guidelines)"이다. 다국간 시스템에 대한 규정이 또한 만들어졌다.
마스터 가이드 테이블(MGT)은 PSIP 표준을 포함하는 다른 테이블에 대한 인덱싱 정보를 제공한다. 또한, 디코딩 동안에 메모리 할당에 필요한 테이블 크기를 규정하고, 갱신될 필요가 있는 테이블을 식별하는 버전 번호를 규정하고, 테이블에 라벨 표시하는 패킷 식별자를 생성한다. 예시적인 마스터 가이드 테이블(MGT)과 그 용도는 "ATSC Standard A/65B: Program and System Information Protocol for Terrestrial Broadcast and Cable, Rev.B 18 March 2003"(www.atsc.org를 참조)에서 찾을 수 있다.
또한, 지상파 VCT(TVCT)로 불리는 가상 채널 테이블(VCT)은 온라인 상태 또는 온라인 상태일 수 있는 모든 채널의 리스트와, 그들의 속성을 포함한다. 주어진 속성 중에는 채널 명과, 채널 번호와, 캐리어 주파수와, 서비스가 물리적으로 전달되는 방법을 식별하는 변조 모드가 있다. 또한, VCT는 특정의 로컬 채널을 나타내는데 중요한 소스 식별자(ID)를 포함한다. 각각의 EIT는 각각이 3시간 동안 자신의 프로그래밍을 어느 마이너 채널이 가지는지를 식별하는 소스 ID를 포함한다. 따라서, 소스 ID는 프로그래밍 서비스를 타깃로 하는데 사용될 수 있는 URL 방법으로 간주할 수 있다. 소스 ID 유형 URL 등의 통상의 인터넷 URL에서의 인터넷 도메인 명과 같은 대다수는 자기 자신을 기준 서비스의 물리적인 위치와 관련시킬 필요가 없으며, 소스 ID의 규정에 새로운 레벨의 유연성을 제공한다. 또한, VCT는 아날로그 TV, 디지털 TV 또는 다른 데이터가 공급되고 있는지를 나타내는 서비스 유형에 대한 정보를 포함한다. 또한, 서비스의 패킷을 식별하는 PID를 나타내는 기술어와, 확장된 채널명 정보에 대한 기술어를 포함한다.
EIT 테이블은 각각의 가상 채널에 대한 프로그램 스케줄 정보에 관한 정보를 가진 PSIP 테이블이다. 일반적으로, EIT의 각각의 경우는 3시간의 범위를 커버하고, 이벤트 방영 시간, 이벤트 타이틀, 옵션 프로그램 콘텐츠 조언 데이터, 옵션 자막 서비스 데이터 및 오디오 서비스 기술어 등의 정보를 제공한다. 현재, EIT-0 내지 EIT-127까지의 최대 128개의 EIT가 있으며, 이들 각각은 3시간의 시간 간격 동안에 이벤트 또는 TV 프로그램을 기술한다. EIT-0은 프로그래밍의 "현재" 3시간을 나타내며, 일반적으로, 현재 프로그래밍에 대한 자막, 등급 정보 및 다른 필수적이고 옵션의 데이터를 포함할 때 몇몇 특수한 조건을 가진다. EIT의 현재 최대 개수는 128이기 때문에, 프로그래밍의 최대 16일은 사전에 광고한다. 최하로, 처음 4개의 EIT는 모든 TS에 항상 존재해야 하며, 24개는 추천된다. 각각의 EIT-k는 다수의 경우를 가지며, 각각의 경우는 VCT의 가상 채널을 갖는다. 현재의 EIT 테이블은 방송되고 있고 미래에 제한된 시간 동안 입수할 수 있는 현재 이벤트와 미래의 이벤트에 대한 정보만을 포함한다. 그러나, 사용자는 이전에 방송한 프로그램에 대해 보다 상세히 알고자 한다.
ETT 테이블은 이벤트 및/또는 채널에 대한 다양한 언어의 상세한 설명을 포함하는 옵션 테이블이다. ETT 테이블에서의 상세한 설명은 고유 식별자에 의해 이벤트 또는 채널에 매핑된다.
"ATSC Standard A/65B: Program and System Information Protocol for Terrestrial Broadcast and Cable" Rev.B, 18 March 2003(www.atsc.org를 참조)의 문헌에는, 다수의 ETT와, VCT 내의 가상 채널을 설명하는 하나 이상의 채널 ETT 섹션과, 각각이 EIT-k내의 이벤트를 설명하는 ETT-k가 있다는 것을 기재하고 있다. 타이틀에 대한 문자의 개수가 EIT에서 제한되어 있기 때문에, 전체 이벤트에 대한 추가 정보를 전송하고자 하는 경우에는 ETT가 사용된다. 이들 ETT는 모두 MGT 내에 리스트되어 있다. ETT-k는 관련 EIT-k에서 각각의 이벤트에 대한 테이블 예를 포함한다. 명칭은 암시하기 때문에, ETT의 목적은 텍스트 메시지를 반송(carry)하 는 것이다. 예를 들어, VCT의 채널에 있어서, 메시지는 채널 정보, 비용, 개봉 박두 및 다른 관련 데이터를 기술할 수 있다. 유사하게, EIT에 리스트된 영화 등의 이벤트에 있어서, 전형적인 메시지는 영화 자체를 설명하는 단문의 단락일 수 있다. ETT는 ATSC 시스템에서는 옵션이다.
PSIP 테이블은 짧은 반복 사이클을 가진 짧은 테이블과 긴 사이클 시간을 가진 큰 테이블의 조합을 갖는다. 하나의 테이블의 전송은 다음 섹션이 전송되기 전에 완료되어야 한다. 따라서, 큰 테이블의 전송은, 고속 사이클 테이블이 지정된 시간에 달성할 있도록 단시간 내에 완료되어야 한다. 이에 대해서는 "ATSC Recommended Practice: Program and System Information Protocol Implementation Guidelines for Broadcasters"(www.atsc.org/standards/a_69.pdf를 참조)에 충분히 설명되어 있다.
DVD
디지털 비디오(또는 다목적) 디스크(DVD)는 엔터테인먼트 및 컴퓨터 사용 모두에 적합한 다용도 광 디스크 저장 기술이다. 엔터테인먼트 제품으로서의 DVD는 일반적으로 VCR, 디지털 테이프 및 CD 등의 대체물에 비해 양호하게 고화질의 비디오로 홈 시어터를 경험할 수 있게 한다.
DVD는 엔터테인먼트를 위해서 소비자가 사전 녹화된 영화 장치를 이용하는 방식에 급격한 변화를 가져왔다. MPEG-2 등의 비디오 압축 표준을 이용하여, 콘텐츠 제공업자는 하나의 DVD 디스크 상에 2시간 이상의 고화질 비디오를 일반적으로 저장할 수 있다. 양면의 이중층 디스크에서는, DVD가 VHS TV 화질 비디오의 대략 30 시간에 해당하는 대략 8시간의 압축 비디오를 수용할 수 있다. 또한, DVD는 와이드 스크린 영화 지원과, 각각이 8개의 채널만큼 많이 갖고 있는 최대 8개의 디지털 오디오 트랙과, 온 스크린 메뉴와 단순한 대화식 특징과, 최대 9개의 카메라 앵글과, 즉시 되감기 및 고속 재생 기능과, 타이틀명의 다국어 식별 텍스트와, 비디오의 앨범명, 노래명 및 자동 심리스-브랜칭(Seamless-Branching) 등의 개선된 기능을 갖는다. 또한, DVD는 화상과 텍스트 등의 추가 정보와 함께 세그먼트의 시작과 지속 시간을 규정함으로써(제한되지 않지만, 효과적인 임의 접근 뷰잉을 제공), 구획 선택 특징으로 그들의 원하는 장면을 획득하는 유용한 대화식 방법을 사용자가 갖게 한다. 광학 포맷으로서, DVD 화질은 비디오 테이프(자기 저장 미디어)에 비해, 시간이 지남에 따른 또한 반복 사용으로 인한 저하는 없다. 현재의 DVD 녹화 포맷은 NTSC 아날로그 콤포지트 비디오보다는, 4:2:2 컴포넌트 디지털 비디오를 이용하여, 현재의 종래의 NTSC와 비교하여 화질을 상당히 개선시킨다.
TV-Anytime 및 MPEG-7
TV 시청자는 현재 방송되고 있고 방송될 타이틀, 시작 시간 및 종료 시간 등의 프로그램 정보를 예를 들어 EPG를 통해 현재 제공받고 있다. 이때에, EPG는 방송되고 있고 미래에 제한된 시간 동안 입수할 수 있는 현재 및 미래의 이벤트에 대한 정보만을 포함한다. 그러나, 사용자는 이미 방송된 프로그램에 대해 보다 상세히 알고자 할 것이다. 이러한 요구는 방송 프로그램의 녹화를 가능하게 한 DVR의 기능으로 인해 발생하였다. TiVo (www.tivo.com를 참조) 회사에서 하는 것처럼, EPG 데이터 포멧 특허에 기초한 상업적 DVR 서비스가 이용 가능하다.
EPG 방법을 통해 현재 전달된 프로그램 타이틀 또는 대강의 줄거리 등의 단순한 서비스 정보는 사용자가 채널을 선택하고 프로그램을 녹화하도록 안내하기에 충분할 것으로 보인다. 그러나, 사용자는 DVR의 녹화된 프로그램 내에서 특정의 세그먼트에 신속하게 접근하고자 한다. 현재의 DVD 영화의 경우에는, 사용자가 "막별 장면 선택" 인터페이스를 통해 비디오의 특정 부분에 접근할 수 있다. 녹화된 프로그램의 특정 세그먼트로의 접근은 "비디오 인덱싱"으로 불리는 프로세스를 통해 생성될 수 있는 각 세그먼트의 타이틀, 카테고리, 시작 위치 및 지속 시간의 세그먼트 정보를 필요로 한다. 프로그램의 세그먼트 정보 없이 특정의 세그먼트에 접근하기 위해서, 시청자는 현재 고속 재생 버튼을 이용하는 것과 같이, 시작부부터 프로그램 전체를 선형으로 탐색해야 하며, 이러한 탐색은 성가시고 시간 소비적인 프로세스이다.
TV-Anytime
개인 사용자에 의해 접근 가능한 소비자 전자 장비에 대한 AV 콘텐츠와 데이터의 로컬 저장은 다양한 잠재적인 새로운 응용 프로그램과 서비스를 가능하게 한다. 현재, 사용자는 방송 프로그램 스케줄을 이용하여 그들의 관심 콘텐츠를 쉽게 녹화하여 프로그램을 나중에 시청할 수 있으며, 이로써, 지상파, 케이블, 위성, 인터넷 등의 여러 입력 소스에 접속된 장치를 통해 보다 고급 및 개인 맞춤형 콘텐츠 및 서비스를 이용할 수 있다. 따라서, 이들 종류의 소비자 장치는 새로운 비즈니스 모델을 3개의 주 공급자 그룹, 즉, 콘텐츠 작성자/소유자, 서비스 제공업자/방송국 및 관련된 제 3 자 등에게 제공한다. 글로벌 TV-Anytime 포럼(www.tv- anytime.org를 참조)은 소비자 전자 플랫폼의 대중 시장의 고용량 디지털 로컬 저장에 기초하여 시청각 서비스 및 다른 서비스를 가능하게 하는 사양을 개발하고자 하는 기관 협회이다. 포럼은 1999년 9월에 형성된 이후 일련의 공개 사양을 개발해 왔다.
TV-Anytime 포럼은 새로운 잠재적인 비즈니스 모델을 확인하고, 사용자가 그들의 개인 저장 시스템 상의 콘텐츠를 탐색, 선택 및 올바르게 이용할 수 있는 CRID 식별자를 이용한 콘텐츠 식별 방법을 소개하였다. CRID는 특히 특정의 새로운 비즈니스 모델을 가능하게 하기 때문에, TV-Anytime 시스템의 중요 부분이다. 그러나, 하나의 잠재적인 이슈는, 상술한 3개의 주 공급자 그룹 간에 규정된 비즈니스 관계가 없는 경우에는, 콘텐츠로의 매핑이 부정확하고/하거나 미승인될 수 있다는 것이다. 이는 결과적으로 사용자 체험을 빈약하게 한다. 콘텐츠 식별의 주 개념은 실제 콘텐츠 아이템(예를 들어, 로케이터)을 검색하는데 필요한 정보로부터 콘텐츠 아이템(예를 들어, CRID)으로의 식별을 분리하는 것이다. CRID에 의한 분리로 콘텐츠 식별과 콘텐츠의 위치 간의 1 대 다수 매핑이 가능하다. 따라서, 탐색 및 선택은 CRID를 생성하고, 이는 다수의 CRID 또는 다수의 로케이터로 리졸빙된다. TV-Anytime 시스템에서, 주 공급자 그룹은 CRID를 발신하여 리졸빙할 수 있다. 이상적으로, 콘텐츠 메타데이터의 유연성과 재활용 가능성을 제공하기 때문에, 방송 시스템으로의 CRID의 도입이 바람직하다. ATSC-PSIP와 DVB-SI 등의 기존의 방송 시스템에서, EIT 테이블 내의 각 이벤트(즉, 프로그램)는 고정 16 비트 이벤트 식별자(EID)로 식별된다. 그러나, CRID는 고급의 리졸빙 메카니즘을 필요로 한다. 리졸빙 메카니즘은 공급자 그룹이 보유한 리졸빙 서버에 소비자 장치를 접속하는 네트워크에 일반적으로 의존한다. 불행하게도, 리졸빙 서버와 네트워크를 적절히 설립하는 데에는 오랜 시간이 걸릴 수 있다.
또한, TV-Anytime은 공급자 그룹과 소비자 장치 간에 교환될 수 있는 메타데이터의 메타데이터 포맷을 규정한다. TV-Anytime 환경에서, 메타데이터는 타이틀, 대강의 줄거리, 스케줄 방송 시간 및 세그먼트 정보 등의 콘텐츠에 대한 기술 데이터뿐만 아니라 사용자 기호와 이력에 대한 정보를 포함한다. 특히, 기술 데이터는 전자 콘텐츠 가이드로서 간주되기 때문에 TV-Anytime 시스템에서는 필수적인 구성 요소이다. TV-Anytime 메타데이터에 의해, 소비자는 상이한 형태의 콘텐츠를 브라우징, 네비게이팅 및 선택할 수 있다. 몇몇 메타데이터는 로컬 및 원격으로 전체 콘텐츠 범위에 대한 심오한 기술, 개인 맞춤형 추천 및 상세한 설명을 제공할 수 있다. TV-Anytime 메타데이터에서, 프로그램 정보와 스케줄 정보는 스케줄 정보가 CRID를 통해 대응 프로그램 정보를 참조하는 방식으로 분리된다. TV-Anytime에서 프로그램 정보를 스케줄 정보로 분리하면, 각각의 실례가 프로그램 정보의 공통 세트를 공유할 수 있기 때문에, 프로그램이 반복되거나 재방송될 때마다 유용한 효율성 이득을 또한 제공한다.
TV-Anytime 메타데이터의 스키마 또는 데이터 포맷은 일반적으로 XML 스키마로 기술되며, TV-Anytime 메타데이터의 모든 실례는 XML로 또한 기술된다. XML은 장황하기 때문에, TV-Anytime 메타데이터의 실례는 대용량의 데이터 또는 고대역폭을 필요로 한다. 예를 들어, TV-Anytime 메타데이터의 실례의 크기는 ATSC-PSIP 또는 DVB-SI 사양에 따른 등가의 EIT(이벤트 정보 테이블) 테이블보다 5 내지 20 배 클 수 있다. 대역폭 문제를 해결하기 위해서, TV-Anytime은 TV-Anytime 메타데이터를 등가의 2진 포맷으로 변환하는 압축/인코딩 메카니즘을 제공한다. TV-Anytime 압축 사양에 따르면, TV-Anytime 메타데이터의 XML 구조는 MPEG-7에 의해 채택된 XML의 효율적인 2진 인코딩 포맷의 BiM을 이용하여 코딩된다. 시간/일자 및 로케이터 필드는 또한 자신의 지정 코덱을 가진다. 또한, 효율적인 Zlib 압축이 전달층에서 달성되도록 하기 위해서, 스트링은 각각의 전달 유닛 내에서 연결된다. 그러나, TV-Anytime에서 3개의 압축 기술을 이용함에도 불구하고, 압축된 TV-Anytime 메타데이터 실례의 크기는, 스트링이 짧을 때, 특히 100보다 적은 문자일 때 Zlib의 성능이 빈약하기 때문에, ATSC-PSIP 또는 DVB-SI의 등가의 EIT보다 심하게 작다. TV-Anytime에서의 Zlib 압축은 세그먼트의 타이틀 또는 디렉터의 기술 등의 작은 데이터 단위인 각각의 TV-Anytime 단편에 대해 실행되기 때문에, 일반적으로 Zlib의 양호한 성능을 기대할 수 없다.
MPEG-7
통상 "멀티미디어 콘텐츠 기술 인터페이스"로 불리는 MPEG-7은 멀티미디어 콘텐츠를 기술하기 위해 다양한 세트의 툴을 제공하는 표준이다. MPEG-7은 멀티미디어 콘텐츠로의 효과적이고 효율적인 접근(탐색, 필터링 및 브라우징)을 가능하게 하는 메타데이터의 구성 요소와 그들의 구성 및 관계에 대한 포괄적인 시청각 기술 툴 세트를 제공한다. MPEG-7은 XML 스키마 언어를 DDL로서 이용하여 기술어와 기술 스키마 모두를 규정한다. 사용자 이력 등의 MPEG-7 사양의 일부는 TV-Anytime 사양에 포함된다.
비주얼 리듬 생성
비주얼 리듬(VR)은 비디오의 비주얼 콘텐츠에 대한 정보를 포함(전달)하는 단일 화상(비주얼 타임라인)을 생성하고, 비디오가 프레임 단위로 서브샘플링되는 공지의 기술이다. VR은 예를 들어, 샷 검출에 있어서 유용하다. 비주얼 리듬 화상은 각 프레임을 횡단하는 사선 등의 샘플링 경로를 따라 존재하는 샘플링 화소에 의해 통상적으로 획득된다. 라인 화상은 프레임에 맞게 생성되고, 최종 라인 화상은 하나 다음에, 통상적으로 좌측에서 우측으로 적층된다. 단일의 화소 폭을 가진 비주얼 리듬의 각 수직 슬라이스는 소정의 경로를 따라 화소의 서브세트를 샘플링함으로써 각 프레임으로부터 획득된다. 이러한 방식으로, 비주얼 리듬 화상은 시청자/운영자가 커트, 와이프, 디졸브, 페이드, 카메라 움직임, 객체 움직임, 프래쉬광, 줌 등을 포함하는 여러 상이한 형태의 비디오 효과를 구별하고 분류(편집 및 다른 방법으로)할 수 있는 패턴 또는 비주얼 특징을 포함한다. 상이한 비디오 효과는 비주얼 리듬 화상에서 상이한 패턴으로서 자기 자신을 표명한다. 샷 경계와 샷 간의 변이는 비디오로부터 생성된 비주얼 리듬 화상을 관측함으로써 검출될 수 있다. 비주얼 리듬은 공동 소유이면서 공동 계류중인 미국 특허 출원 제 09/911,293 호(2001년 7월 23일 출원, 2002/0069218로 공개)에 추가로 설명되어 있다.
쌍방향 TV
쌍방향 TV는 TV 시청자의 시청 경험을 개선하기 위해 다양한 매체와 서비스 를 조합하는 기술이다. 쌍방향 TV를 통해서, 시청자는 아날로그 TV에서와 같이 픽쳐에 디스플레이되는 것을 수동적으로 시청하는 종래의 방식이 아니라, 콘텐츠/서비스 공급자가 의도한 방식으로 TV 프로그램에 참여할 수 있다. 쌍방향 TV는 뉴스 틱커, 주식 시세, 날씨 서비스 및 T 커머스 등의 다양한 종류의 쌍방향 TV 응용 프로그램을 제공한다. 쌍방향 TV에 대한 공개 표준 중 하나는 쌍방향 디지털 응용 프로그램과 응용 프로그램을 수신하여 방영하는 단말기(예, DVR)와의 일반적인 인터페이스를 제공하는 멀티미디어 홈 플랫폼(MHP)(미국에서는, MHP가 ACAP의 등가물과, ATSC 활동성과, OCAP에서 오픈케이블 컨소시엄이 지정한 오픈 케이블 응용 프로그램 플랫폼을 구비함)이다. 콘텐츠 제작자는 MHP 응용 프로그램 인터페이스(API) 세트를 이용하여 대부분 JAVA로 기록된 MHP 응용 프로그램을 제작한다. MHP API 세트는 프리미티브 MPEG 액세스, 미디어 제어, 튜너 제어, 그래픽, 통신 등을 위해서 다양한 API 세트를 포함한다. MHP 방송국과 네트워크 운영자는 MHP 호환의 가전 제품 또는 STB를 가진 사용자에게 전달될 수 있도록, 콘텐츠 제작자에 의해 생성된 MHP 응용 프로그램을 패킹하여 전달할 책임이 있다. MHP 응용 프로그램은 MHP 기반의 서비스를 디지털 저장 미디어-커맨드 및 제어(DSM-CC) 객체 주기 전송 형태의 MPEG-2 TS에 삽입함으로써 STB에 전달된다. 그 다음, MHP 호환의 DVR은 자바 비주얼 머신을 이용하여 MPEG-2 TS의 MHP 응용 프로그램을 수신하여 처리한다.
TV 프로그램의 실시간 인덱싱
생방송의 "신속 메타데이터 서비스"로 불리는 시나리오는 상술한 미국 특허 출원 제 10/369,333 호(2003년 2월 19일 출원)와 미국 특허 출원 제 10/368,304 호 (2003년 2월 18일 출원)에 기재되어 있으며, 여기에서는, 프로그램이 방송되고 녹화되고 있는 동안에 방송 프로그램의 기술 메타데이터가 DVR에 또한 전달된다. 축구 등의 스포츠 게임의 생방송의 경우에, TV 시청자는 라이브 게임을 시청하면서 그들의 좋아하는 선수의 플레이뿐만 아니라 게임의 하이라이트 이벤트를 선택적으로 시청하고 검토하고자 한다. 프로그램을 기술하는 메타데이터 없이는, 시청자가 고속 재생 등의 종래의 제어 방식을 이용하여 하이라이트 이벤트 또는 객체(예를 들어, 스포츠 게임의 경우에는 선수 또는 특정 장면 또는 영화의 배우)에 대응하는 비디오 세그먼트를 알아내는 것은 쉽지 않다.
본 명세서에 기재된 바와 같이, 메타데이터는 의미론적으로 중요한 하이라이트 이벤트 또는 객체에 대응하는 각 비디오 세그먼트에 대한 시작 시간 위치 등의 시간 위치, 지속 시간 및 텍스트 기술을 포함한다. 메타데이터는 소정의 간격으로 또는 새로운 하이라이트 이벤트 또는 객체가 발생할 때마다 또는 방송할 때마다 실시간으로 생성되어 시청자에게 점진적으로 전달되면, 하이라이트 이벤트 또는 객체에 의한 콘텐츠의 네비게이션 등과 같은 보다 많은 정보 및 쌍방향의 TV 시청 경험을 위해서 메타데이터가 DVR의 로컬 저장부 또는 다른 장치에 저장될 수 있다. 또한, 녹화된 비디오의 전체 또는 일부는 이러한 추가 데이터를 이용하여 재생될 수 있다. 대응하는 방송 TV 프로그램이 종료한 후 메타데이터를 한번에 전달할 수 있으며, 또는 이전에 전달된 메타데이터를 갱신, 확장 또는 정정하여 연속적으로 메타데이터 자료를 전달할 수 있다. 대안으로, 메타데이터는 이벤트(사전 녹화된 영화 등)의 방송에 앞서 전달되며, 방송될 때 프로그램과 연관된다. 또한, 이로써, 메타데이터의 방송 전, 방송 후 및 방송 동안의 여러 조합이 본 명세서에 의해서 고려된다.
신속 메타데이터 서비스의 중요 구성 요소 중 하나는 방송 TV 프로그램의 실시간 인덱싱이다. 비디오를 쌍방향 인덱싱 및 브라우징하는 시스템을 기재한 미국 특허 제 6,278,446 호("Liou")와 비디오 카탈로그 편집자 시스템을 기재한 미국 특허 제 6,360,234 호("Jain") 등에서, 비디오 인덱싱의 여러 방법을 제안하였다. 그러나, 이들 현존 및 기존의 시스템 및 방법은 특히 실시간 인덱싱 시스템에 있어서 그들의 공언하고 의도한 타깃을 충족시키는데 부족하다.
종래의 다양한 방법이 자막 텍스트를 디코딩하고, 샷을 검출하여 클러스터링하고, 키 프레임을 선택하고, 페이스 또는 음성을 인식하려고 시도(이들 모두는 비디오와 동기화될 수 있음)함으로써 기껏해야 낮은 레벨의 메타데이터를 생성할 수 있다. 그러나, 화상 이해와 음성 인식에 대한 현 상태의 기술을 이용하여도, 여러 어쩔수 없는 이유로 하이라이트를 정확하게 검출하고, 이벤트 또는 객체의 의미론적으로 중요하고 실행상 유용한 하이라이트 요약을 생성하기 어렵다.
첫 번째로, 상술한 바와 같이, 의미론적으로 중요한 다양한 하이라이트를 자동으로 인식하는 것이 어렵다. 예를 들어, "터치다운"의 키워드는 터치다운 하이라이트를 자동으로 찾기 위해서 디코딩된 자막 텍스트로부터 식별되며, 그 결과 다수의 오류 알람이 발생한다. 따라서, 본 명세서에 따르면, 의미론적으로 중요하고 실행상 유용한 하이라이트를 생성하기 위해서는 처음의 대략 메타데이터 전달을 위해서 일반적으로는 방송 후에, 바람직하게는 방송 동안에(일반적으로 방송 이벤트로부터 약간 지연됨), 사람 또는 다른 복잡한 분석 시스템 운영자의 개입을 여전히 필요로 한다. 보다 많은 확대된 메타데이터 세트가 나중에 제공되며, 물론 사전 녹화된 이벤트는 프로그램 방송 전, 방송 동안 및 방송 후에 전달된 대략 또는 확대된 메타데이터 세트를 가질 수 있다. 원하는 경우에, 나중에 전달된 메타데이터 세트는 이미 전송된 메타데이터, 나중에 전송된 메타데이터를 증가, 주석을 달거나 대체할 수 있다.
두 번째로, 종래의 방법은 실시간의 구별된 하이라이트를 수동으로 마킹하는 효율적인 방법을 제공하지 못한다. 일련의 하이라이트가 단기간에 발생하는 경우를 고려하자. 새로운 하이라이트의 타이틀 및 추가의 텍스트를 기술하기 위해 운영자가 타이핑하는 시간이 걸리기 때문에, 바로 다음의 이벤트를 놓칠 가능성이 있다.
미디어 로컬리제이션
주어진 시간적 오디오-비주얼 스트림 또는 파일 내에서의 미디어 로컬리제이션은 스트림의 시간 포인트를 지정하는 바이트 위치 정보 또는 미디어 시간 정보 중 하나를 이용하여 일반적으로 기술하였다. 환언하면, 오디오-비주얼 스트림 내의 특정 비디오 프레임의 위치를 기술하기 위해서, 바이트 오프셋(예를 들어, 비디오 스트림의 시작부로부터 스킵되는 바이트의 개수)이 사용되었다. 대안으로, 오디오-비주얼 스트림의 시작부로부터의 상대적인 시간 포인트를 기술하는 미디어 시간이 또한 사용되었다. 예를 들어, 쌍방향 인터넷 또는 초고속 네트워크를 통한 비디오 온 디멘드(VOD)의 경우에, 각각의 오디오-비주얼 프로그램의 시작 위치와 종료 위치는, 각각의 프로그램이 VOD 서버의 저장부에 개별적인 미디어 파일의 형태로 저장되고 각각의 오디오-비주얼 프로그램이 각각의 클라이언트의 요구에 따라 스트리밍을 통해 전달되기 때문에, 오디오-비주얼 프로그램의 길이와 0의 미디어 시간 용어로 명백하게 규정된다. 따라서, 클라이언트 측에서의 사용자는 메다데이터에서 설명한 바와 같이, 선택된 오디오-비주얼 스트림 내의 적절한 시간적 위치 또는 비디오 프레임으로 접근할 수 있다.
그러나, TV 방송에 있어서, 디지털 스트림 또는 아날로그 스트림은 계속해서 방송되기 때문에, 각각의 방송 프로그램의 시작과 종료 위치는 명확하게 규정되지 않는다. 미디어 시간 또는 바이트 오프셋은 미디어 파일의 시작을 참조하여 일반적으로 규정되기 때문에, 쌍방향 응용 프로그램 또는 이벤트를 관련시키기 위해서, 또한, 오디오-비주얼 프로그램 내의 특정 위치로 접근하기 위해서, 미디어 시간 또는 바이트 오프셋을 이용하여 방송 프로그램의 특정 시간의 위치를 기술하는 것은 애매하다.
방송 스트림에서의 프레임의 정확한 미디어 로컬리제이션 또는 접근하는 기존의 해결책 중 하나는 PTS를 이용하는 것이다. PTS는 MPEG-2에서 규정된 바와 같이 PES 패킷 헤더에 존재할 수 있는 필드이며, 이는 표현 단위가 시스템 타겟 디코더에 제공되는 시간을 나타낸다. 그러나, PTS만을 이용하는 것은 PTS의 최대값이 대략 26.5 시간에 해당하는 제한된 시간을 단순히 나타낼 수 있기 때문에, 방송 프로그램의 특정 시간 포인트 또는 프레임의 고유 표현을 제공하기에는 충분하지 않다. 따라서, 방송 스트림 내의 주어진 프레임을 단독으로 나타내기 위해서는 추가 정보가 필요할 것이다. 한편, 프레임의 정확한 표현 또는 액서스가 필요하지 않으면, PTS를 이용할 필요가 없으며, 따라서, 다음의 이슈를 피할 수 있다. PTS의 사용은 PES 층의 분석을 필요로 하며, 따라서, 계산적으로 비용이 많이 든다. 또한, 방송 스트림이 스크램블되면, PTS에 접근하기 위해서는 디스크램블 프로세스가 필요하다. MPEG-2 시스템 사양은 페이로드에 포함된 PES가 스크램블되는지 여부를 표시하는 TS 패킷 페이로드의 스크램블 모드에 대한 정보를 포함한다. 또한, 대부분의 디지털 방송 스트림은 스크램블되기 때문에, 실시간 인덱싱 시스템이 경향이 스크램블 되는 경우에 인증된 디스크램블러 없이 프레임 정확도로 스트림에 접근할 수 없다.
방송 프로그램의 미디어 로컬리제이션의 다른 기존의 해결책은 미디어 단편에 기지의 시간 기준을 제공하는 MPEG-2 DSM-CC NPT(Normal Play Time)를 이용하는 것이다. MPEG-2 DSM-CC NPT는 "ISO/IEC 13818-6 Information technology - Generic coding of moving pictures and associated audio information -- Part 6: Extensions for DSM -CC"(www.iso.org를 참조)에 충분히 설명되어 있다. DVB-MHP 방송 환경에서의 TV-Anytime 메타데이터의 응용 프로그램에 있어서, NPT는 시간 설명을 위해서 사용되어야 한다고 제안되었고, 이에 대해서는 " ETSI TS 102 812:DVB Multimedia Home Plateform ( MHP ) Specification"(www.etsi.org를 참조)와, A McParland, J.Morris, M. Leban , S. Rarnall , A. Hickman , A. Ashley, M. Haataja , F.dejong의 " MyTV : A practical implementation of TV-Anytime on DVB and the internet"(International Broadcasting Convention, 2001)에 상세히 설명되어 있 다. 그러나, 제안된 구현예에서는, 헤드엔드와 수신 클라이언트 장치 둘 다는 NPT를 적절히 조정하여 시간에 대해서 매우 복잡하게 제어된다.
메타데이터 생성, 비디오 인덱싱/네비게이션 및 방송 모니터링의 방법이 공지되어 있다. 이들의 예는 미국 특허 제 6,357,042 호와, 미국 특허 출원 제 10/756,858 호(2001년 1월 10일 출원, US 2001/0014210 A1로 공개)와, 미국 특허 제 5,986,692 호에서 찾을 수 있다.
메타데이터 인덱싱 및 전송
최근에, DVR은 TV 세대를 침투하기 시작했다. 이러한 새로운 소비제 장치로, TV 시청자는 방송 프로그램을 그들의 DVR의 로컬 저장부에 MPEG-2 등의 디지털 비디오 압축 포맷으로 녹화할 수 있다. DVR에 의해 TV 시청자는 그들이 원하는 방식과 그들이 원하는 시간에 시청할 수 있다. 디지털 녹화 비디오의 특성으로 인해, 시청자는 고속 재생 및 재감기 등의 종래의 VCR 제어에 추가로 녹화 프로그램의 특정 포인트에 직접 접근할 수 있다.
또한, 녹화된 AV 프로그램/스트림의 세그먼트 메타데이터를 이용가능하면, 시청자는 녹화된 프로그램의 몇몇 소정의 비디오 세그먼트를 선택하여, 녹화된 프로그램뿐만 아니라 세그먼트를 플레이함으로써, 프로그램을 브라우징할 수 있다. 본 명세서에 사용된 바와 같이, 세그먼트화는 텍스트 정보 스트림 등의 추가 데이터로, 오디오 데이터를 가지거나 갖지 않는 비주얼을 포함하는 AV 내의 시간 간격(즉, 세그먼트)을 정의, 접근 및 조작할 수 있다. 녹화된 프로그램의 세그먼트화 메타데이터는 방송 네트워크 또는 쌍방향 네트워크 등을 통해 TV 서비스 공급자 또 는 제 3 자 서비스 공급자에 의해 DVR에 전송될 수 있다. 전송된 메타데이터는 시청자가 추후 사용하기 위해 DVR의 로컬 저장부에 저장될 수 있다. 메타데이터는 MPEG-7 또는 TV-Anytime 등의 국제 공개 표준 명세서 또는 전용 포맷에 기재될 수 있다.
용어집
다른 방식으로 언급되어 있지 않으면, 그들의 사용의 콘텐츠로부터 자명한 바와 같이, 본 명세서에 사용된 용어, 약어, 두문자어 또는 과학적인 기호 및 표기는 명세서와 가장 관련된 기술 분야에서의 통상의 의미로 주어진다. 다음의 용어, 약어 및 두문자어는 본 명세서에 포함된 설명에 사용될 수 있다.
ACAP
ACAP(Advanced Common Application Platform)는 OCAP(CableLabs OpenCable) 표준과 ATSC의 이전의 DTV 응용 프로그램 소프트웨어 환경(DASE) 사양과의 조합의 결과이다. ACAP에 대한 보다 상세한 설명은 "Candidate Standard: Advanced Common Application Platform (ACAP)"(www.atsc.org를 참조)에서 찾을 수 있다.
API
API(Application Program Interface)는 2개의 소프트웨어 응용 프로그램 간에 인터페이스를 제공하는 수단으로서 응용 프로그램에 의해 참조될 수 있는 소프트웨어 콜 및 루틴 세트이다. API에 대한 설명 및 예는 Dan Appleman의 "Dan Appleman's Visual Basic Programmer's guide to the Win32 API"(Sams, February, 1999)에서 찾을 수 있다.
ATSC
ATSC(Advanced Television Systems Committee.Inc)는 디지털 TV의 자발적인 표준을 개발하는 국제적인 비영리 기관이다. 미국과 한국 등의 국가는 디지털 방송을 위해서 ATSC를 채택하고 있다. ATSC에 대한 보다 상세한 설명은 "ATSC Standard A/53C with Amendment No. 1: ATSC Digital Television Standard, Rev.C"(www.atsc.org를 참조)에서 찾을 수 있다. 보다 상세한 설명은 Richard S.Chernock, Regis J.Crinon, Michael A.Dolan,Jr., John R. Mick, Richard Chernock, Regis Crinonm의 "Data Broadcasting: Understanding the ATSC Data Broadcast Standard"(McGraw-Hill Professional, April 2001)에서 찾을 수 있다. 또한, Mark Massel의 "Digital Television, DVB-T COFDM 및 ATSC 8-VSB"(Digitaltvbook.com, October 2000)에서 또한 입수가능하다. 대안으로, 디지털 비디오 방송(DVB)은 디지털 TV와 데이터 서비스의 글로벌 방송을 위해서, 유럽 및 다른 국가에서 채택한 글로벌 표준을 설계하는데 전념한 업계 콘소시엄이다.
AV
시청각
AVC
AVC(Advanced Video Coding)(H.264)는 ITU-T VCEG와 ISO/IEC MPEG의 가장 최근의 비디오 코딩 표준이다. AVC에 대한 설명은 Wiegand, T., Sullivan, G.J., Bjntegaard, G., Luthra, A.의 "Overview of the H.264/AVC video coding standard"의 비디오 기술의 회로 및 시스템, IEEE 트랜잭션, 권 13, Issue:7, 2003 년 7월, 페이지 560-576에서 찾을 수 있으며, 다른 설명은 "ISO/IEC 14496-10: Information technology - Coding of audio-visual objects - Part 10: Advanced Video Coding"(www.iso.org를 참조)에서 찾을 수 있으며, 또 다른 설명은 (Wiley) Lain E.G.Richardson의 "H.264 and MPEG-4 Video Compression"에서 찾을 수 있으며, 이들 모두는 본 명세서에서 참조로 포함된다. MPEG-1와 MPEG-2는 AVC의 대안 또는 파생물이며, 디지털 비디오 압축용으로 고려되거나 채택되고 있다.
BIFS
BIFS(Binary Format For Scene)는 비디오 객체를 합성하여 MPEG-4의 장면을 형성하는 방법을 기술한 계층적 구조의 형태의 장면 그래프이다. BIFS의 상세한 설명은 Iain E.G.Richardson의 "H.264 and MPEG-4 Video Compression"(John Wiley & Sons, August, 2003)와, Touradj Ebrahimi, Fernando Pereira의 "The MPEG-4 Book"(Prentice Hall PTR, July, 2002)에서 찾을 수 있다.
BiM
MPEG-7의 2진 메타데이터(BiM) 포맷. BiM의 상세한 설명은 "ISO/IEC 15938-1: Multimedia Context Description Interface - Part 1 Systems"(www.iso.ch를 참조)에서 찾을 수 있다.
BNF
BNF(Backus Naur Form)는 프로그래밍 언어 등의 구조문 언어의 구문론과 문법을 기술하는 정상적인 메타데이터 구문이다. BNF의 상세한 설명은 M.Marcotty & H.Ledgard의 "The world of Programming Languages"(Springer-Verlag 1986)에서 찾 을 수 있다.
bslbf
비트 스트링, 좌측 비트 우선. 비트 스트링은 좌측을 우선 순위로 1과 0의 스트링으로 기록된다. bslbf에 대한 상세한 설명은 "Generic Coding of Moving Pictures and Associated Audio Information - Part 1: Systems" ISO/IEC 13818-1 (MPEG-2), 1994(http://iso.org)에서 찾을 수 있다.
CA
CA(Conditional Access)는 시청자만이 시청하기 위해 지불한 프로그램을 시청할 수 있도록 비디오, 오디오 등의 콘텐츠에 미승인 사용자가 접근하는 것을 차단하기 위한 시스템이다. CA에 대한 상세한 설명은 MarketResearch.com의 "Conditional access for digital TV: Opportunities and challenges in Europe and the US"(2002)에서 찾을 수 있다.
CAT
조건 접근 테이블(CAT)은 다중화된 데이터 스트림에 사용된 조건 접근 시스템에 대한 정보를 제공하는 테이블이다. CAT에 대한 상세한 설명은 "ETSI EN 300 468 Digital Video Broadcasting (DVB); Specification for Service Information (SI) in DVB systems"(www.etsi.org를 참조)에서 찾을 수 있다.
CC-텍스트
자막 텍스트(CC-text)는 청각 장애인을 돕기 위해서 주로 개발된 TV, 영화 또는 컴퓨터 표현의 대사 부분의 텍스트 버전이다. 이러한 텍스트는 다양한 언어 또는 여러 문자 세트를 이용할 수 있으며, 상이한 옵션 간에 스위칭되거나 디스에이블(시청 불가능)될 수 있다.
CDMA
코드 분할 다중화 접근 방식
codec
enCOder/DECoder는 인코더와 디코더의 단축 단어이다. 인코더는 데이터 압축을 위해서 데이터를 인코딩하는 장치이다. 압축기는 인코더를 대신에 사용되는 단어이다. 디코더는 데이터 압축을 위해서 인코딩되는 데이터를 디코딩하는 장치이다. 압축 해제기는 디코더 대신에 사용되는 단어이다. 코덱은 다른 형태의 코딩 및 디코딩 장치로 불린다.
COFDM
COFDM(Coded Octal Frequency Division Multiplex)은 유럽에서 대부분 사용되는 변조 방식이며, 디지털 비디오 방송(DVB)의 표준 세트에 의해 지원된다. 미국에서, ATSC는 등가의 변조 표준으로서 8-VSB(8 레벨 잔류 측파대)를 선택하였다. COFDM에 대한 상세한 설명은 Mark Massel의 "Digital Television, DVB-T COFDM and ATSC 8-VSB"(Digitaltvbook.com, October 2000)에서 찾을 수 있다.
CRC
CRC(Cyclic Redundancy Check)는 전송동안에 데이터에 에러가 발생하였는지 여부를 체크하는 32 비트 값으로서, ISO/IEC 13818-1의 부록 A(www.iso.org를 참조)에 추가로 설명되어 있다.
CRID
CRID(Content Reference IDentifier)는 다양한 네트워크에 걸쳐 분포된 프로그램의 위치와 프로그램의 메타데이터 간을 브리지하도록 고안된 식별자이다. CRID에 대한 상세한 설명은 "Specification Series:S-4 N: Content Referencing" (http://tv-anytime.org)에서 찾을 수 있다.
DAB
라디오를 통해 콤팩트 디스크(CD) 음질의 사운드, 텍스트, 데이터 및 비디오를 제공하는 지상파 네트워크의 디지털 오디오 방송(DAB). DAB에 대한 상세한 설명은 www.worlddab,org/about.aspx에서 찾을 수 있다. 보다 상세한 설명은 W.Hoeg, Thomas Lauterbach의 "Digital Audio Broadcasting: Principles and Applications of Digital Radio"(John Wiley and Sons, Ltd)에서 또한 찾을 수 있다.
DASE
DTV 응용 프로그램 소프트웨어 환경(DASE)은 셋톱 박스 등의 디지털 TV 수신기에서의 개선된 기능의 플랫폼을 규정하는 ATSC의 표준이다. DASE에 대한 상세한 설명은 "ATSC Standard A/100: DTV Application Software Environment - Level 1 (DASE-1)"(www.atsc.org를 참조)에서 찾을 수 있다.
DCT
DCT(Discrete Cosine Transform)는 공간 도메인으로부터 주파수 도메인으로의 변환 함수, 임의 유형의 변환 코딩이다. DCT에 대한 상세한 설명은 Alan V.Oppenheim, Ronald W.Schafer, John R.Buck의 "Discrete-Time Signal Processing"(Prentice Hall, 2nd edition, February 1999)에서 찾을 수 있다. 웨이블릿 변환은 JPEG-2000와 AVC(Advanced Video Coding) 등의 여러 압축 표준의 대체 또는 파생물이다. 웨이블릿에 대한 상세한 설명은 C. Sidney Burrus, Ramesh A. Gopinath의 "Introduction on Wavelets and Wavelets Transforms"(Prentice Hall, 1st edition, August 1997)에서 찾을 수 있다. DCT는 MPEG-4 표준에서와 같이, 비디오 압축 등의 다른 변환 기능과 웨이블릿과 조합될 수 있으며, Iain E.G.Richardson의 "H.264 and MPEG-4 Video Compression"(John Wiley & Sons, August 2003)와 Touradj Ebrahimi, Fernando Pereira의 "The MPEG-4 Book"(Prentice Hall, July 2002)에 충분히 기재되어 있다.
DDL
DDL(Description Definition Language)은 새로운 기술 방법과 가능하다면, 기술어를 생성할 수 있는 언어로서, 기존의 기술 방법을 확장하고 변경할 수 있다. DDL에 대한 상세한 설명은 B. S. Manjunath, Philippe Salembier와 Thoma Sikora의 "Introduction to MPEG-7: Multimedia Content Description Language"(John Wiley & Sons, June 2002)에서 찾을 수 있다. 특히 대안으로, DDL은 데이터베이스 설계자 또는 데이터베이스 관리자가 데이터베이스 방법을 규정하는데 사용되는 데이터 정의 언어로서 해석될 수 있다. DDL에 대한 상세한 설명은 R.Elmasri와 S.B.Navathe의 "Fundamentals of Database Systems"(Addison Wesley, July 2003)에서 찾을 수 있다.
DirecTV
DirecTV는 TV용 디지털 위성 서비스를 제공하는 회사이다. DirecTV에 대한 상세한 설명은 www.directv.com/에서 찾을 수 있다. Dish Network (www. dishnetwork.com), Voom(www.voom.vom) 및 SkyLife(www.skylife.co.kr)는 다른 디지털 위성 서비스를 제공하는 다른 회사이다.
DMB
한국에서 상업화된 디지털 멀티미디어 방송(DMB)은 고속으로 이동하는 휴대용 수신기(소형 TV, PDA 및 휴대 전화)에 다양한 정보(예를 들어, 뉴스, 교통 정보)뿐만 아니라 CD 음질의 오디오, 비디오, TV 프로그램을 제공하는 새로운 멀티미디어 방송 서비스이다.
DRR
디지털 무선 리코더
DSM-CC
디지털 저장 미디어 - 커맨드 및 제어(DSM-CC)는 멀티미디어 광대역 서비스의 전송을 위해 개발된 표준이다. DSM-CC에 대한 상세한 설명은 "ISO/IEC 13818-6, Information technology - Generic coding of moving pictures and associated audio information -- Part 6: Extensions for DSM-CC"(www.iso.org를 참조)dptj 찾을 수 있다.
DSS
디지털 위성 시스템(DSS)은 디지털 데이터를 방송하는 위성 네트워크이다. DSS의 일예는 디지털 TV 신호를 방송하는 DirecTV이다. DSS는 특히 TV와 컴퓨터가 정보와 엔터테인먼트의 조합 또는 단일 매체로 집중할 때 더 중요하게 될 것으로 기대된다(www.webopedia.com를 참조).
DTS
디코딩 타임 스탬프(DTS)는 디코딩의 의도 시간을 나타내는 타임 스탬프이다. DTS에 대한 보다 상세한 설명은 "Generic Coding of Moving Pictures and Associated Audio Information-Part 1:Systems" ISO/IEC 13818-1 (MPEG-2), 1994(http://iso.org)에서 찾을 수 있다.
DTV
디지털 TV(DTV)는 오디오, 비디오 및/또는 관련 정보를 나타내는 아날로그 신호보다는 디지털 신호를 수신하는 것을 특징으로 하는 현재의 아날로그 TV를 확대하거나 대체한 대안의 오디오-비주얼 디스플레이 장치이다. 비디오 디스플레이 장치는 음극선관(CRT), 액정 디스플레이(LCD), 플라즈마 및 여러 프로젝션 시스템을 포함한다. 디지털 TV는 Herve Benoit의 "Digital Television: MPEG-1, MPEG-2 and Principles of the DVB System"(Butterworth-Heinemann, June, 1997)에 충분히기재되어 있다.
DVB
디지털 비디오 방송은 유럽 등 여러 국가에서 주로 채택한 디지털 TV 방송의 사양이다. DVB에 대한 상세한 설명은 Ulrich Reimers의 "DVB: The Family of International Standards for Digital Video Broadcasting"(www.dvb.org를 참조)에 서 찾을 수 있다. ATSC는 DVB의 대체 또는 파생물로서, 미국과 한국 등의 여러 국가에서 디지털 방송을 위해서 고려되거나 채택되고 있다.
DVD
디지털 비디오 디스크(DVD)는 비디오, 멀티미디어, 게임, 오디오 및 다른 응용 프로그램 용의 고용량의 CD 크기의 저장 매체 디스크이다. DVD에 대한 상세한 설명은 "An Introduction to DVD Formats"(www.disctronics.co.uk/downloads/ tech_docs/dvdintroduction.pdf를 참조)와 Tony Hendley의 "Video Discs Compact Discs and Digital Optical Discs Systems"(Information Today, June 1985)에서 찾을 수 있다. CD(콤팩트 디스크), 미니디스크, 하드 드라이브, 자기 테이블, 회로 기반(플래쉬 RAM) 데이터 저장 매체는 아날로그 또는 디지털 포맷으로 저장하기 위한 DVD의 대체 또는 파생물이다.
DVI
디지털 비주얼 인터페이스
DVR
디지털 비디오 리코더(DVR)는 일반적으로 예를 들어, 관련 저장부 또는 로컬 저장부 또는 하드 디스크에서의 녹화 기능을 가진 STB로서 간주된다. DVR에 대한 상세한 설명은 Yankee Group의 "Digital Video Recorders: The Revolution Reamins On Pause"(MarketReaerch.com, April 2001)에서 찾을 수 있다.
EIT
이벤트 정보 테이블(EIT)은 소정의 가상 채널 상에서의 시작 시간, 지속 시 간, 타이틀 등의 이벤트에 관련된 필수 정보를 포함하는 테이블이다. EIT에 대한 상세한 설명은 "ATSC Standard A/65B: Program and System Information Protocol for Terrestrial Broadcast and Cable" Rev.B, 18 March 2003(www.atsc.org를 참조)에서 찾을 수 있다.
EPG
전자 프로그램 가이드(EPG)는 짧은 설명과 함께 현재 프로그램과 미래의 프로그램에 대한 정보를 제공한다. EPG는 인쇄된 TV 프로그램 가이드와 등가의 전자 장치이다.
ES
기본 스트림(ES)은 시퀀스 헤더 및 시퀀스의 하위 부분과 함께 비디오 또는 오디오 데이터르 포함하는 스트림이다. ES에 대한 상세한 설명은 "Generic Coding of Moving Pictures and Associated Audio Information - Part 1: Systems" ISO/IEC 13818-1 (MPEG-2), 1994(www.iso.org를 참조)에서 찾을 수 있다.
ETM
확장형 텍스트 메시지(ETM)는 몇몇 상이한 언어로 설명을 나타내는데 사용되는 스트링 데이터 구조이다. ETM에 대한 상세한 설명은 "ATSC Standard A/65B: Program and System Infromation Protocol for Terrestrial Broadcast and Cable" Rev.B, 18 March 2003(www.atsc.org를 참조)에서 찾을 수 있다.
ETT
확장형 텍스트 테이블(ETT)은 필요할 때 가상 채널과 이벤트의 보충 설명을 제공하는 확장형 텍스트 메시지(ETM) 스트림을 포함한다. ETM에 대한 상세한 설명은 "ATSC Standard A/65B: Program and System Information Protocol for Terrestrial Broadcast and Cable" Rev.B, 18 March 2003"(www.atsc.org를 참조)에서 찾을 수 있다.
FCC
연방 통신 위원회(FCC)는 연방 의회에서 직접 관할하는 독립적인 미국 정부 기관이다. FCC는 1934년에 통신 법령에 의해 설립되어 라디오, 텔레비젼, 유선, 위성 및 케이블에 의한 주간 및 국제 통신을 조정하는 역할을 하고 있다. 보다 많은 정보는 그들의 웹 사이트(www.fcc.gov/aboutus.html를 참조)에서 찾을 수 있다.
F/W
펌웨어(F/W)는 예를 들어, 전자 장치 또는 시스템 상에서 프로그램을 동작(또는 운용)하기 위해 전자 제어기 장치(마이크로제어기 또는 마이크로프로세서 등)와 연결될 수 있는 상태 메모리(프로그래밍가능 판독 전용 메모리(PROM))에 내장된 컴퓨터 프로그램 등의, 하드웨어(H/W)와 소프트웨어(S/W)의 조합이다. 보다 상세한 설명은 Ed Sutter의 "Embedded Systems Firmware Demystified"(CMP Books 2002)에서 찾을 수 있다.
GPS
GPS(Global Positioning Satellite)는 3차원 위치와 시각 정보를 제공하는 위성 시스템이다. GPS 시간은 1차 시간 소스로서 확대되어 사용된다. UTC(협정 세계시), NTP(네트워크 타임 프로토콜) 프로그램 클록 기준(PCT) 및 개정된 율리우 스 일(MJD)은 GPS 시간의 대체 또는 파생물으로서 시간 정보를 제공하기 위해 고려되거나 채택되고 있다.
GUI
GUI(Graphical User Interface)는 윈도우, 버튼, 스크롤 바, 화상, 영화, 마우스 등의 구성 요소를 이용하는 전자 장치와 사용자 간의 그래픽 인터페이스이다.
HDMI
고화질 멀티미디어 인터페이스
HDTV
HDTV(High Definition Televison)는 우수한 디지털 화질(해상도)을 제공하는 디지털 TV이다. 1080i(비월의 1920×1080 화소), 1080p(순차 1920×1080 화소) 및 720p(16:9 종횡비의 순차 포맷의 1280×720 화소)는 일반적으로 채택된 HDTV 포맷이다. "비월" 또는 "순차"는 HDTV의 주사 모드를 지칭하며, 이에 대해서는 "ATSC Standard A/53C with Amendment No. 1: ATSC Digital Television Standard" Rev.C, 21 May 2004(www.atsc.org를 참조)에 상세히 설명되어 있다.
Huffman Coding
허프만 코딩(Huffman Coding)은 다른 영역에서뿐만 아니라, 디지털 화상 및 비디오에서의 다른 변환 기능 또는 인코딩 알고리즘(DCT, 웨이블릿 등)과의 조합하여 또는 단독으로 사용될 수 있는 데이터 압축 방법이다. 허프만 코딩에 대한 상세한 설명은 Khalid Sayood의 "Introduction to Data Compression"(Morgan Kaufmann, Second Edition, Febraury, 2000)에서 찾을 수 이TEk.
H/W
하드웨어(H/W)는 전자 또는 다른 장치의 물리적인 구성 요소이다. H/W에 대한 상세한 설명은 Steve Ettlinger의 "The Hardware Cyclopedia (Running Press Book, 2003)에서 찾을 수 있다.
JPEG
JPEG(Joint Photographic Experts Group)는 정지 화상 압축의 표준이다. JPEG에 대한 상세한 설명은 "ISO/IEC International Standard 10918-1"(www.jpeg.org/jpge/를 참조)에서 찾을 수 있다. 여러 MPEG, 휴대용 네트워크 그래픽(PNG), GIF, XBM(X 비트맵 포맷), 비트맵(BMP)은 JPEG의 대체 또는 파생물이며, 여러 화상 압축에서 고려되거나 채택된다.
key frame
키 프레임(키 프레임 화상)은 복수의 화상을 포함하는 비디오 프로그램으로부터 유추된 단일의 정지 화상이다. 키 프레임에 대한 상세한 설명은 Hyun Sung Chang, Sanghoon Sull, Sang Uk Lee의 "Efficient video indexing scheme for content-based retrieval"(Transactions on Circuit and System for Video Technology, April, 2002)에서 찾을 수 있다.
IP
IETF RFC791에 의해 정의된 인터넷 프로토콜(IP)은 컴퓨터가 서로 통신할 수 인터넷의 기초가 되는 통신 프로토콜이다. IP에 대한 상세한 설명은 IETF RFC 791 인터넷 프로토콜 다파 인터넷 프로그램 프로토콜 사양(www.ietf.org/rfc/rfc0791 .txt를 참조)에서 찾을 수 있다.
ISO
ISO(국제 표준화 기구)는 표준을 조정하는 국제 표준 협회이다. 보다 많은 정보는 그들의 웹 사이트(www.iso.org를 참조)에서 찾을 수 있다.
ITU-T
ITU-T(International Telecommunication Union(ITU) Telecommunication Standardization Sector(ITU-T))는 원격 통신 분야의 표준으리 규정하는 ITU의 3개의 섹터 중 하나이다. 보다 많은 정보는 그들의 웹 사이트(www.real.com itu.int/ITU-T를 참조)에서 찾을 수 있다.
LAN
LAN(Local Area Network)은 상대적으로 작은 영역에 걸친 데이터 통신 네트워크이다. 대부분의 LAN은 단일 빌딩 또는 빌딩 그룹으로 한정되어 있다. 그러나, 하나의 LAN이 예를 들어, 전화 회선과 무선파 등을 통해 임의의 거리에 걸쳐 다른 LAN에 접속되어 WAN(Wide Area Network)를 형성할 수 있다. 보다 많은 정보가 Charles E.Spurgeon의 "Ethernet: The Definitive Guide"(O'Reilly & Associates)에서 찾을 수 있다.
MHz(Mhz)
초당 백만 사이클을 나타내는 신호 주파수의 측정 단위
MGT
MGT(마스터 가이드 테이블)는 PSIP를 포함하는 테이블에 대한 정보를 제공한 다. 예를 들어, MGT는 갱신될 필요가 있는 테이블을 확인하는 버전수와, 메모리 할당을 위한 테이블 크기와 트랜스포트 스트림에서 테이블을 확인하는 패킷 식별자를 제공한다. MGT에 대한 상세한 설명은 "ATSC Standard A/65B: Program and System Information Protocol for Terrestrial Broadcast and Cable" Rev.B, 18 March 2003(www.atsc.org를 참조)에서 찾을 수 있다.
MHP
MHP(멀티미디어 홈 플랫폼)는 쌍방향 디지털 응용 프로그램과 단말기 간의 표준 인터페이스이다. MHP에 대한 상세한 설명은 "ETSI TS 102 812: DVB Multimedia Home Platform (MHP) Specification"(www.etsi.org를 참조)에서 찾을 수 있다. OCAP(Open Cable Application Platform), ACAP(Advanced Common Application Platform), DAVIC(Digital Audio Visual Council) 및 HAVi(Home Audio Video Interoperability)는 MHP의 대체 또는 파생물로서 여러 디지털 응용 프로그램에 있어서의 인터페이스 옵션으로서 고려되거나 채택된다.
MJD
MJD(개정된 율리우스 일)는 율리우스 달력으로부터 유추되는 일 넘버링 시스템이다. 개시일을 12시간 대신에 0시간으로 설정하고, 일 넘버링시에 디지트의 개수를 감소시키는 것이 소개되었다. UTC(협정 세계시), GPS(위성 항법 시스템) 시간, 네트워크 타임 프로토콜(NTP) 및 프로그램 클록 기준(PCR)은 PCR의 대체 또는 파생물로서 시간 정보를 제공하는데 있어서 고려되거나 채택된다.
MP3
MPEG 오디오층-3 (MP3)은 오디오 데이터의 압축을 위한 코딩 표준이다.
MPEG
MPEG(Moving Picture Experts Group)는 주로 콤팩트 디스크에서의 디지털 동화상 인코딩 전용의 표준 기관이다. 보다 많은 정보는 그들의 웹 사이트(www.mpeg.org를 참조)를 참조하라.
MPEG-2
MPEG-2(Moving Picture Experts Group - Standard 2)는 비월/비비월 프레임을 코딩하기 위해 설계된 디지털 비디오 압축 표준이다. MPEG-2는 현재 DTV 방송 및 DVD에 사용되고 있다. MPEG-2에 대한 상세한 설명은 www.mpeg.org에서 찾을 수 있으며, 또한, Barry G.Haskell, Atul Puri, Arun N. Netravali의 "Digital Video: An Introduction to MPEG-2 (Digital Multimedia Standards Series)"(Springer, 1996)에서 찾을 수 있다.
MPEG-4
MPEG-4(Moving Picture Experts Group - Standard 4)는 저자가 멀티미디어 표현으로 미디어 객체를 작성하고 정의할 수 있게 함으로써 쌍방향성과, 미디어 객체가 동기화되고 전송시에 서로 관련되는 방법과, 사용자가 미디어 객체와 상호 작용할 수 있는 방법을 지원하는 비디오 압축 표준이다. MPEG-4에 대한 상세한 설명은 Iain E.G. Richardson의 "H.264 and MPEG-4 Video Compression"(John Wiley & Sons, August, 2003)와, Touradj Ebrahimi, Fernando Pereira의 "The MPEG-4 Book"(Prentice Hall PTR, July, 2002)에서 찾을 수 있다.
MPEG-7
"MCDI(Multimedia Content Description Interface)"로 일반적으로 불리는 MPEG-7(Moving Picture Experts Group - Standard 7)는 멀티미디어 콘텐츠 데이터를 기술하기 위한 표준이다. MPEG-7에 대한 상세한 설명은 B.S.Manjunath, Philippe Salembier 및 Thomas Sikora의 "Introduction to MPEG-7: Multimedia Content Description Language"(John Wiley & Sons, June, 2002)와, "ISO/IEC 15938-5:2003 Information technology -- Multimedia content description interface -- Part 5: Multimedia description schemes"(www.iso.ch를 참조)뿐만 아니라, MPEG 홈 페이지(http://mpeg.tilab.com)와, MPEG-7 콘소시엄 웹사이트(www.mp7c.org)와 MPEG-7 연합 웹 사이트(www.mpeg-industry.com)에서 찾을 수 있다.
NPT
NPT(정상 플레이타임)는 미디어 단편에 기지의 시간 기준을 제공하기 위해 MPEG-2 민간 부서의 특정의 기술어에 내장된 타임 코드이다. NPT에 대한 상세한 설명은 "ISO/IEC 13818-6, Information Technology - Generic Coding of Moving Pictures and Associated Audio Information -- Part 6: Extensions for DSM-CC"(www.iso.org를 참조)에서 찾을 수 있다.
NTP
네트워크 타임 프로토콜(NTP)은 전송 제어 프로토콜/인터넷 프로토콜(TCP/IP) 네트워크를 통해 시간을 송신 및 수신하는 신뢰할 수 있는 방법을 제공하 는 프로토콜이다. NTP에 대한 상세한 설명은 "RFC(Request for Comments) 1305 Network Time Protocol (Version 3) Specification"(www.faqs.org/rfcs/rfc1305. html를 참조)에서 찾을 수 있다. UTC(협정 세계시), GPS 시간, 프로그램 클록 기준(PCR) 및 수정된 율리우스일(MJD)은 NTP에 대한 대체 또는 파생물이며, 시간 정보를 제공하기 위해 고려되거나 채택된다.
NTSC
NTSC(National Television System Committee)는 미국에서 텔레비전과 비디오 표준을 설정하는 역할을 한다(유럽 및 다른 국가에서는, 주된 TV 표준은 PAL 및 SECAM이다). 보다 상세한 정보는 www.ntsc-tv.com 상의 설명 프로그램(tutorial)을 보고 얻게 된다.
OpenCable
CableLabs에 의해 관리되는 OpenCable는 케이블을 통해 쌍방향 서비스를 제공하는 리서치 및 개발 콘소시엄이다. 보다 많은 정보는 그들의 그들의 웹 사이트 www.opencable.com를 참조하여 얻을 수 있다.
PC
퍼스널 컴퓨터(PC)
PCR
트랜스포트 스트림(TS)의 프로그램 클록 기준(PCR)은 오디오와 비디오의 올바른 표시와 디코딩 시간을 위해 사용될 수 있는 시스템 타임 클록의 샘플링 값을 나타낸다. PCR에 대한 상세한 설명은 "Generic Coding of Moving Pictures and Associated Audio Information Part 1:System" ISO/IEC 13818-1 (MPEG-2), 1994(http://iso.org)에서 찾을 수 있다. SCR(시스템 클록 기준)은 MPEG 프로그램 스트림에 사용된 PCR의 대체 또는 파생물이다.
PDA
개인 정보 단말기
PES
패킷화된 기본 스트림(PES)은 기본 스트림(ES)으로부터의 바이트를 수반하는 PES 패킷 헤더로 구성된 스트림이다. PES에 대한 상세한 설명은 "Generic Coding of Moving Pictures and Associated Audio Information Part 1:System" ISO/IEC 13818-1 (MPEG-2), 1994(http://iso.org)에서 찾을 수 있다.
PID
패킷 식별자(PID)는 단일 또는 다중 프로그램 트랜스포트 스트림(TS) 내의 프로그램 또는 보조 데이터의 기본 스트림(ES)을 식별하는데 사용된 고유 정수값이다. PID에 대한 상세한 설명은 "Generic Coding of Moving Pictures and Associated Audio Information Part 1:System" ISO/IEC 13818-1 (MPEG-2), 1994(http://iso.org)에서 찾을 수 있다.
PMT
프로그램 맵 테이블(PMT)은 프로그램을 구성하는 구성 요소(비디오, 오디오 등)와 프로그램을 맵핑하는 MPEG의 테이블이다. PMT에 대한 상세한 설명은 "Generic Coding of Moving Pictures and Associated Audio Information - Part 1:Systems" ISO/IEC 13818-1 (MPEG-2), 1994(http://iso.org)에서 찾을 수 있다.
PS
MPEG-2 시스템 층이 지정하는 프로그램 스트림(PS)은 DVD 미디어 등의 상대적으로 에러가 없는 환경에서 사용된다. PS에 대한 상세한 설명은 "Generic Coding of Moving Pictures and Associated Audio Information Part 1:System" ISO/IEC 13818-1 (MPEG-2), 1994(http://iso.org)에서 찾을 수 있다.
PSIP
디지털 방송을 위해 ATSC를 이용하는 국가(미국과 한국 등)에서 DVR 등의 소비자 장치에 EPG 정보를 전송하기 위한 ATSC 데이터 테이블의 프로그램 및 시스템 정보 프로토콜(PSIP). 디지털 비디오 방송 시스템 정보(DVB-SI)는 ATSC-PSIP의 대체 또는 파생물이며 유럽에서 사용되는 디지털 비디오 방송(DVB) 용도로 고려되거나 채택된다. PSIP에 대한 상세한 설명은 "ATSC Standard A/65B: Program and System Information Protocol for Terrestrial Broadcast and Cable" Rev.B, 18 March 2003(www.atsc.org를 참조)에서 찾을 수 있다.
PTS
표현 타임 스탬프(PTS)는 오디오 및/비디오의 표현 시간을 나타내는 타임 스탬프이다. PTS에 대한 상세한 설명은 "Generic Coding of Moving Pictures and Associated Audio Information Part 1:System" ISO/IEC 13818-1 (MPEG-2), 1994(http://iso.org)에서 찾을 수 있다.
PVR
퍼스널 비디오 리코더(PVR)는 DVR과 호환가능하게 공통으로 사용되는 용어이다.
ReplayTV
ReplayTV는 사용자의 TV 시청 경험을 최대화하는 DVR 업계를 선도하는 회사이다. ReplayTV에 대한 상세한 설명은 http://digitalnetworksna.com과 http://replaytv.com에서 찾을 수 있다.
RF
고주파(RF)는 고주파 전파와 연관된 전자기 스펙트럼 내의 임의의 주파수를 지칭한다.
RRT
등급 지역 테이블(RRT)은 ATSC 표준에서의 프로그램 등급 정보를 제공하는 테이블이다. RRT에 대한 상세한 설명은 "ATSC Standard A/65B: Program and System Information Protocol for Terrestrial Broadcast and Cable" Rev.B, 18 March 2003(www.atsc.org를 참조)에서 찾을 수 있다.
SCR
프로그램 스트림(PS)의 시스템 클록 기준(SCR)은 오디오와 비디오의 올바른 표현과 디코딩 시간에 사용될 수 있는 시스템 시각 클록의 샘플링 값을 나타낸다. SCR에 대한 상세한 설명은 "Generic Coding of Moving Pictures and Associated Audio Information Part 1:System" ISO/IEC 13818-1 (MPEG-2), 1994(http://iso.org)에서 찾을 수 있다. PCR(프로그램 클록 기준)은 SCR의 대체 또는 파생물이다.
SDTV
표준 화질 TV(SDTV0는 HDTV의 비디오 화질을 얻지 못하지만 NTSC 픽쳐에 비해 적어도 동일 또는 우수한 디지털 TV의 동작의 하나의 모드이다. SDTV는 일반적으로 4:3 또는 16:9의 종횡비를 가지며, 일반적으로 서라운드 사운드를 포함한다. 초당 프레임(fps)의 변화, 해상도의 라인 및 480p와 480i의 다른 요인은 ATSC 표준의 12 SDTV 포맷을 구성한다. 480p와 480i 각각은 ATSC Standard A/53C with Amendment No. 1: ATSC Digital Television Standard, Rev.C 21 May 2004(www.atsc.org를 참조)에 상세히 설명된 480 순차 및 480 비월 포맷을 나타낸다.
SGML
표준화된 범용 표시 언어(SGML)는 텍스트를 전자 형태로 나타내는 방법과는 독립적인 장치와 시스템의 정의에 대한 국제 표준이다. SGML에 대한 상세한 설명은 "Learning and Using SGML"(www.w3.org/MarkUp/SGML/를 참조)와 David Hunter의 "Beginnig XML"(Wrox, December, 2001)에서 찾을 수 있다.
SI
DVB에 대한 시스템 정보(DVB-SI)는 DVB 호환 디지털 TV에 EPG 정보 데이터를 제공한다. DVB-SI에 대한 상세한 설명은 "ETSI EN 300 468 Digital Video Broadcasting (DVB); Specification for Service Information (SI) in DVB Systems"(www.etsi.org를 참조)에서 찾을 수 있다. ATSC-PSIP는 DVB-SI의 대체 또 는 파생물이며, 미국과 한국 등의 ATSC를 이용하는 국가에 서비스 정보를 제공하는데 고려되거나 채택된다.
STB
셋톱 박스(STB)는 퍼스널 컴퓨터(PC)와 휴대 장치를 포함한, 프로그램의 DFL부를 수신, 저장, 처리, 반복, 편집, 수정, 디스플레이, 재생 또는 수행하도록 된 디스플레이, 메모리 또는 인터페이스 장치이다.
STT
시스템 타임 테이블(STT)은 시각과 일자 정보를 ATSC에 제공하도록 정의된 소형의 테이블이다. 디지털 비디오 방송(DVB)은 시각 및 일자 테이블(TDT)로 불리는 유사한 테이블을 갖는다. STT에 대한 상세한 설명은 "ATSC Standard A/65B: Program and System Information Protocol for Terrestrial Broadcast and Cable" Rev.B, 18 March 2003(www.atsc.org를 참조)에서 찾을 수 있다.
S/W
소프트웨어는 전자 장치가 특정의 활동을 동작 또는 실행할 수 있게 하는 컴퓨터 프로그램 또는 명령어 집합이다. S/W에 대한 상세한 설명은 Robert W.Sebesta의 "Concepts of Programming Languages"(Addison Wesley)에서 찾을 수 있다.
TCP
전송 제어 프로토콜(TCP)은 신뢰할 수 있는 스트림 전송 및 가상 접속 서비스를 응용 프로그램에 제공하기 위해 인터넷 엔지니어링 태스크 포스(IETF) RFC(Request for Comments) 793에 의해 정의된다. TCP에 대한 상세한 설명은 "Transmission Control Protocol Darpa Internet Program Protocol Specification" (www.ietf.org/rfc/rfc0793.txt를 참조)에서 찾을 수 있다.
TDT
TDT(Time Date Table)는 디지털 비디오 방송(DVB)에서 시각과 일자를 나타내는 것과 관련된 정보를 제공하는 테이블이다. STT는 시각과 일자 정보를 ATSC에 제공하기 위한 TDT의 대체 또는 파생물이다. TDT에 대한 상세한 설명은 "ETSI EN 300 468 Digital Video Broadcasting (DVB); Specification for Service Information (SI) in DVB systems"(www.etsi.org를 참조)에서 찾을 수 있다.
TiVo
TiVo는 개척된 소비자 DVR에 방송을 통한 디지털 콘텐츠를 제공하는 회사이다. TiVo에 대한 상세한 설명은 http://tivo.com에서 찾을 수 있다.
TOC
TOC(Table of Contents)는 바람직하게 원하는 특정 부분 또는 하위 부분 또는 세그먼트를 신속하게 배치하고 접근하기 위해 단일 표현(책, 비디오, 오디오, AV 또는 다른 기준 또는 엔터테인먼트 프로그램 또는 콘텐츠 등)의 일부 또는 하위 부분에 대한 특징, 위치 또는 기준의 목록화를 지칭한다.
TS
MPEG-2 시스템 층에 의해 지시된 트랜스포트 스트림(TS)은 에러가 있음직한 환경, 예를 들어, 방송 네트워크에 사용된다. PES 패킷을 추가로 패킷화하는 TS 패킷은 188 바이트 길이를 갖는다. TS에 대한 설명은 "Generic Coding of Moving Pictures and Associated Audio Information Part 1:System" ISO/IEC 13818-1 (MPEG-2), 1994(http://iso.org)에서 찾을 수 있다.
TV
TV, 일반적으로, 픽쳐 및 오디오 표현 또는 출력 장치. 일반적인 형태는 일반적으로 스피커를 구비한 음극선관(CRT), 플라즈마, 액정 및 다른 프로젝트 및 다이렉트 시청 시스템을 포함한다.
TV-Anytime
TV-Anytime은 TV-Anytime 포럼에 의해 개발된 오디오-비주얼 및 다른 데이터 서비스를 가능하게 하는 공개 사양 또는 표준의 시리즈이다. TV-Anytime에 대한 상세한 설명은 TV-Anytime 포럼의 홈 페이지(www.tv-anytime.org를 참조)에서 찾을 수 있다.
TVPG
TVPG(Televison Parental Guidelines)는 TV 프로그램의 콘텐츠 및 연령 적절성에 대한 보다 많은 정보를 부모에게 제공하는 가이드라인이다. TVPG에 대한 상세한 설명은 www.tvguidelines.org/default.asp에서 찾을 수 있다.
uimsbf
uimsbf(unsigned integer, most significant-bit first). 부호없는 정수는 최상위 비트 우선(최좌측 비트가 최상위 비트임)의 순서로 하나 이상의 1과 0으로 구성된다. uimsbf에 대한 상세한 설명은 "Generic Coding of Moving Pictures and Associated Audio Information Part 1:System" ISO/IEC 13818-1 (MPEG-2), 1994(http://iso.org)에서 찾을 수 있다.
UTC
그리니치 평균시와 같은 협정 세계시(UTC)는 전세계의 상이한 시간대에 사용되는 공식적인 시간이다.
VCR
비디오 카세트 리코더(DVR). DVR은 VCR의 대체 또는 파생물이다.
VCT
가상 채널 테이블(VCT)은 ATSC와 DVB에서 가상 채널의 네비게이팅과 튜닝에 필요한 정보를 제공하는 테이블이다. VCT에 대한 상세한 설명은 "ATSC Standard A/65B: Program and System Information Protocol for Terrestrial Broadcast and Cable" Rev.B, 18 March 2003(www.atsc.org를 참조)에서 찾을 수 있다.
VOD
비디오 온 디멘드(VOD)는 TV 시청자가 비디오 프로그램을 선택할 수 있고 케이블 또는 위성 TV 네트워크 등의 네트워크를 통한 채널을 통해 그들에게 전송된 비디오 프로그램을 얻을 수 있게 하는 서비스이다. 보다 많은 정보는 Charles E. Spurgeon의 "Ethernet: The Definitive Guide"(O'Reilly & Associates)에서 찾을 수 있다.
W3C
월드 와이드 웹 콘소시엄(W3C)은 웹 경험을 개선하는 다양한 기술을 개발한 기관이다. W3C에 대한 상세한 설명은 www.w3c.org에서 찾을 수 있다.
XML
W3C에 의해 정의된 XML(eXtensible Markup Language)는 SGML으로부터 유추된 단순하고 유연한 텍스트 포맷이다. XML에 대한 상세한 설명은 "Extensible Markup Language (XML)"(www.w3.org/XML를 참조)에서 찾을 수 있다.
XML 스키마
XML 문서의 구조, 내용 및 구문을 정의하는 수단을 제공하기 위해 W3C에 의해 정의된 스키마 언어. XML 스키마에 대한 상세한 설명은 "XML Schema"(www.w3.org/XML/Schema#resources)에서 찾을 수 있다.
Zlib
하드웨어 및 소프트웨어와는 무관하게 사용하기 위한 프리의 범용 무손실 데이터 압축 라이버리이다. 보다 많은 정보는 www.gzip.org/zlib에서 얻을 수 있다.
일반적으로, 본 발명은 인덱싱 동안에 템플릿(template), AV 프로그램의 비주얼 시공간 패턴(visual spatio-temporal pattern)에 대한 세그먼트 마크(segment mark) 및 북마크(bookmark)의 사용을 위한 기법을 제공한다.
일반적으로, AV 프로그램의 비주얼 시공간 패턴은 장면 경계를 사람이 검출 또는 자동으로 검출하는 것을 보다 용이하게 하는 AV 프로그램을 형성하는 이미지 스트림의 "파생물"이다. 장면 경계를 검출하는 것은 인덱싱을 기반으로 한다. AV 프로그램 자체를 보는 것 대신 또는 보는 것과 결합하여 비주얼 시공간 패턴을 이용하는 것은 AV 프로그램을 인덱싱하는 프로세스를 용이하게 하고 인덱싱 속도를 높일 수 있다.
본 명세서에 기재된 기법에 따르면, 오디오-비주얼(AV) 프로그램을 인덱싱하는 방법은 AV 프로그램을 세그먼트화 메타데이터(segmentation metadata)로 인덱싱하는 단계 - AV 프로그램의 특정 위치 및 간격은 타임-인덱스로 표현됨 - 와, 인덱싱 동안에 템플릿, AV 프로그램의 비주얼 시공간 패턴에 대한 세그먼트 마크 및 북마크로 구성된 그룹으로부터 선택된 적어도 하나의 기법을 이용하여 세그먼트 계층을 형성하는 단계를 포함한다. 세그먼트 계층은 인덱싱되는 AV 프로그램에 대한 세그먼트의 트리 뷰를 포함할 수 있다. 세그먼트 계층에 대한 템플릿은 AV 프로그램에 대하여 미리 정의된 대표적인 세그먼트 계층을 포함할 수 있다.
본 명세서에 기재된 기법에 따르면, AV 프로그램의 실시간 인덱서에 대한 그래픽 유저 인터페이스(GUI)는 비주얼 시공간 패턴, 세그먼트 마크 버튼 및 북마크 버튼을 포함한다. GUI는 연속적인 프레임의 리스트와, 텍스트로 기술된 세그먼트 계층과, 세그먼트 트리 계층의 동일 레벨에 있는 키 프레임의 리스트와, 정보 패널과, AV/미디어 플레이어와, 세그먼트 계층의 템플릿 중 하나 이상을 포함할 수 있다.
본 명세서에 기재된 기법에 따르면, AV 프로그램을 인덱싱하는 방법은 세그먼트 계층에 대한 템플릿을 이용하는 단계를 포함한다. 본 방법은 비주얼 시공간 패턴을 이용하는 단계와, 시공간 패턴 상에 관심 위치를 시각적으로 마킹하는 단계 를 더 포함한다. 본 방법은 템플릿 세그먼트 계층의 특정 위치에 대응하는 위치에 세그먼트 계층의 새로운 세그먼트를 자동으로 생성하는 단계를 더 포함할 수 있다.
본 명세서에 기재된 기법에 따르면, 동일 방송 채널 또는 상이한 방송 채널 또는 상이한 유형의 전송 네트워크를 통해서 상이한 회수로 전송된 주어진 AV 프로그램에 대한 세그먼트화 메타데이터를 재사용하는 방법은 AV 프로그램에 대한 세그먼트화 메타데이터의 타임-인덱스를 조정하는 단계와 세그먼트화 메타데이터를 전송하는 단계를 포함하며, 여기서, 세그먼트화 메타데이터에서의 AV 프로그램의 특정 위치는 타임-인덱스로 표현된다. 타임-인덱스를 조정하는 단계는 타임-인덱스를 방송 시간으로 변형하는 단계를 포함할 수 있다. 타임-인덱스를 조정하는 단계는 AV 프로그램의 방송 시간으로 표현되는 시작 시각에 상대적인 미디어 시각으로 타임-인덱스를 변형하는 단계를 포함할 수 있다.
본 명세서에 기재된 기술의 다른 목적, 특징 및 장점은 다음의 상세한 설명으로부터 자명해질 것이다.
본 명세서에 기재된 기술의 실시예에 대한 상세한 설명은 첨부 도면을 기준으로 설명될 것이다. 도면은 제한하는 것이 아니라 예시적인 것이며, 예시된 실시예에 대한 기술을 한정하지 않는 것으로 이해해야 한다.
예를 들어, 사용자의 TV 세트 내부에 접속되거나 연결될 수 있는 STB 등과 같이 전송된 콘텐츠를 처리하여 디스플레이하기 위해서 여러 장치가 사용될 수 있 다. 전형적으로, 오늘날의 STB 기능은 임의 개수의 채널로 프로그램을 제공할 수 있는 방송국으로부터 아날로그 및/또는 디지털 신호를 수신하는 기능과, 수신된 신호를 디코딩하는 기능과 디코딩된 신호를 디스플레이하는 기능을 포함한다.
미디어 로컬리제이션
인덱싱 시스템과 클라이언트 DVR 모두에 유일하게 접근(access) 가능한 방송 프로그램(또는 스트림)에서의 위치를 표현하거나(represent) 가리키는(locate) 것은 비디오 브라우징, TV 광고 교체 및 특정 프레임에 관련된 정보 서비스를 포함하는 다양한 응용에서 중요하다. 방송 프로그램을 로컬리제이션할 때의 기존의 문제점을 극복하기 위해서, 방송 스트림에 대한 미디어 로케이터로서 방송 시간을 이용하는 해결책이 상술의 미국 특허 출원 제 10/369,333 호(2003년 2월 19일)에 기재되어 있으며, 이는 DVB-MHP내의 DSM-CC NPT의 구현의 복잡성을 요구하고 PTS의 단순 이용의 비유일성 문제점을 야기하는 방법에 비해 방송 스트림 내의 타임 라인을 나타내는 단순하고 이해가능한 방법이다.
방송 시간(broadcasting time)은 프로그램을 방송용으로 현재 방영하는 현재 시간이다. 지상파 DTV 방송국, 위성/케이블 DTV 서비스 공급자 및 DMB 서비스 공급자에 의해 MPEG-2 TS 또는 다른 전용 또는 등가의 트랜스포트 패킷 구조로 다중화 또는 방송되는 시각 또는 위치 마커의 정보를 활용하여 방송 시간을 얻는 방법이 본 명세서에 기재되어 있다. 예를 들어, 각각 ATSC/OpenCable의 STT의 system_time 필드(일반적으로 매초당 한번 방송) 또는 DVB의 TDT의 UTC_time 필드(30초당 한번 방송)에서 방송 스트림에 반송되는 시각에 대한 정보를 이용하는 기 술이 기재되어 있다. 디지털 오디오 방송(DAB), DMB 또는 다른 등가의 방송에 있어서, 그들의 TS에서 방송되는 시각에 대한 유사한 정보가 이용될 수 있다. 본 명세서에서, 방송 스트림(예를 들어, STT의 system_time 필드 또는 상술한 다른 등가의 필드)에서 반송된 시각에 대한 이러한 정보를 총칭적으로 "시스템 타임 마커"라고 부른다.
방송 스트림에서의 특정 위치 또는 프레임을 로컬리제이션하기 위해 방송 시간을 얻는 예시적인 기술은 주기적으로 방송되는 STT 내의 system_time 필드(TDT 또는 다른 등가의 UTC_time 필드)를 이용하는 것이다. 보다 상세하게는, 프레임의 방송 시간은, 비디오 스트림 내의 대응하는 PTS에 따라서 프레임이 제공되거나 디스플레이되는 순간으로부터 STT 내의 가장 근접한(대안으로, 가장 근접하지만 프레임의 시간적인 위치에 앞서는) system_time를 이용함으로써 기술되어 로컬리제이션될 수 있다. 대안으로, 프레임의 방송 시간은 프레임의 인코딩된 데이터가 시작하는 비트 스트림 위치로부터 가장 근접한 STT 내의 system_time를 이용함으로써 얻을 수 있다. 이러한 system_time 필드의 단순한 이용은 일반적으로, STT의 전송 간격이 1초 내이며 이러한 STT 내에서 반송되는 system_time 필드가 1초 내에서 정확하기 때문에서, 프레임이 정확하게 스트림에 접근할 수 없게 한다는 것을 알아야 한다. 따라서, 스트림은 1초의 정확도 내에서만 접근될 수 있으며, 이는 대부분의 실제 응용에서 만족스럽다. STT 내의 system_time 필드를 이용하여 얻은 프레임의 방송 시간이 1초내에서 정확함에도 불구하고, 로컬리제이션된 프레임 위치 전의 임의의 시각에 플레이되어 특정의 프레임이 디스플레이될 수 있게 한다는 것을 알아 야 한다. 또한, 방송 STT 또는 다른 등가에 대한 정보는 나중에 로컬리제이션을 위해서 이용하기 위해서, AV 스트림 자체와 함께 저장될 수 있다는 것을 알아야 한다.
방송 스트림에서의 특정 위치 또는 프레임에 대한 (근접의) 프레임의 정확한 접근 또는 로컬리제이션을 달성하는 다른 방법이 기재되어 있다. 디스플레이되는 특정 위치 또는 프레임은 STT 내의 system_time(또는 TDT 또는 다른 등가의 UTC_time)을 타임 마커 및 타임 마커에 대한 상대적인 시각으로서 이용함으로써 로컬리제이션된다. 보다 상세하게는, 특정 위치에 대한 로컬리제이션은 로컬리제이션되는 특정 위치 또는 프레임에 앞서는 바람직하게 먼저 발생하고 가장 근접한 특정 위치인 STT 내의 system_time를 타임 마커로서 이용하여 달성된다. 추가로, 본 명세서에서 단독으로 사용된 타임 마커는 일반적으로 프레임 정확도를 제공하지 못하기 때문에, 타임 마커에 대한 특정 위치의 상대적인 시각은 이러한 정확도 또는 다른 등가의 정확도로 이용가능하다면 PCR, STB의 내부 시스템 클록 등의 클록을 이용하여 바람직하게 최소한 또는 대략 30Hz의 해상도로 계산된다. 대안으로, 특정 위치에 대한 방송 시간은 이러한 정확도 또는 다른 등가의 정확도로 이용가능하다면 PCR, STB의 내부 시스템 클록 등의 클록을 이용하여 바람직하게 최소한 또는 대략 30Hz의 해상도로 STT 내의 system_time의 값(또는 TDT의 UTC_time 또는 다른 등가)을 삽입 또는 외삽함으로써 달성될 수 있다.
프레임의 정확한 방송 시간의 다른 예시적인 방법은 STT 내의 system_time(또는 TDT의 UTC_time 또는 다른 등가)와 PCR 모두를 이용하는 것이다. 디스플레이 되는 특정 위치 또는 프레임에 대한 로컬리제이션 정보는 기술되는 위치 또는 프레임에 대한 PTS 및 STT 내의 system_time를 이용하여 달성된다. 일반적으로, PCR의 값은 27MHz의 해상도로 선형으로 증가하기 때문에, 프레임의 정확한 접근에 이용될 수 있다. PCR이 선형으로 증가하는 33 비트로 표현되는 90kHz 클록이기 때문에, 프레임의 정확한 접근에 사용될 수 있다. 그러나, PCR은 최대 비트 카운트가 달성될 때 다시 0으로 되돌아가기 때문에, 프레임을 고유하게 식별하는 타임 마커로서 프레임의 PTS에 앞서는 바람직하게 가장 근접한 STT 내의 system_time를 이용할 수 있다. 방송 STT에 대한 정보 또는 다른 등가는 로컬리제이션을 위해서 나중에 이용하기 위해서 AV 스트림 자체와 함께 또한 저장되어야 한다는 것을 알아야 한다.
메타데이터 생성 및 전송
도 1a, 도 1b 및 도 1c는 동일 참조 부호는 동일 구성 요소를 지칭하는 생방송 또는 사전 녹화된 방송 AV 프로그램에 대한 메타데이터 서비스를 제공하는 방법을 도시하며, 기술 메타데이터뿐만 아니라 방송 AV 프로그램을 DVR이 수신하는 방법을 도시한다.
도 1a는 헤드엔드에서의 방송 스트림에 메타데이터를 다중화하여 메타데이터를 하나 이상의 DVR(108)에 전송하기 위해서, 메타데이터를 헤드엔드로 송신하기 위해서, DTV 방송국/서비스 공급자의 헤드엔드(102)로부터 방송 AV 프로그램을 인덱싱하고, 인덱싱 시스템(106)에서 메타데이터를 실시간으로 생성하는 구조를 도시한다. AV 프로그램은 프로그램의 특정 위치 및 간격이 타임 인덱스로 표현되는 세그먼트화 메타데이터에 의해 기술된다. 메타데이터에 포함된 타임 인덱스는 방송 시간, 또는 그 등가의 표현(예를 들어, EPG에 기술된 프로그램의 시작 시각이 미디어 시각의 기준 시각 포인트로서 사용되는 기준 시각 포인트로부터 상대적인 시각으로서 정의된 미디어 시각)으로 표현될 수 있다. 도 1a에 도시된 구조에서, 실시간 인덱싱 시스템(106)은 현재의 방송 AV 프로그램을 분석하고, AV 프로그램의 각 시간 위치를 방송 시간과 연관시켜 타임 인덱스를 포함하는 세그먼트화 메타데이터를 생성한다. 실시간으로 생성된 메타데이터는 헤드엔드(102)로 전송되고, 헤드엔드에서의 방송 스트림에 메타데이터를 삽입/다중화함으로써, 부분적으로 또는 전체적으로 DVR(108)에 전송된다. 따라서, 바람직하게, DVR에 전송된 최종 방송 스트림은 AV 프로그램, 메타데이터, 방송 시간 정보 및 EPG를 포함한다. 따라서, 최종 방송 스트림이 클라이언트 DVR에 저장되면, 사용자는 메타데이터의 타임-인덱스에 의해 지정된 프로그램의 특정 위치 또는 세그먼트에 직접 접근함으로써 프로그램을 추후에 브라우징할 수 있으며, 여기서, 직접 접근은 저장된 방송 스트림의 방송 시간을 얻음으로써 효율적으로 구현될 수 있다.
도 1b는 사전 녹화된 방송 AV 프로그램의 메타데이터 서비스 구조를 도시하며, 여기서, 프로그램은 방송에 앞서 세그먼트화 메타데이터를 생성하도록 인덱싱될 수 있다(사전 녹화된 프로그램이 방송에 앞서 인덱싱되지 않을 때, 도 1a의 구조가 적용될 수 있다). 그 다음, 메타데이터는, 메타데이터를 DTV 헤드엔드(102)에서의 방송 스트림에 삽입/다중화함으로써, 부분적으로 또는 전체적으로 DVR(108)에 전송된다. 따라서, DVR에 전송된 최종 방송 스트림은 AV 프로그램, 그 메타데이터, 방송 시간 정보 및 EPG를 포함한다. 따라서, 최종 방송 스트림이 클라이언 트 DVR에 저장되면, 사용자는 프로그램을 추후에 브라우징할 수 있다.
방송에 앞서 생성된 "원 메타데이터" 내의 타임-인덱스는 일반적으로, 사전 녹화된 프로그램의 개시부에 대응하는 기준 시각 포인트로부터의 상대적인 시각을 표시하는 미디어 시각으로 일반적으로 표현된다. EPG내의 프로그램의 시작 시각은 미디어 시각의 기준 시각 포인트로서 사용될 수 있다. EPG내의 스케줄의 프로그램의 시작 시각이 프로그램의 실제 방송 시작 시각과 다르면, 헤드엔드로부터 방송된 EPG 시작 시각은 갱신되어야 한다. DVR에 의해 수신된 메타데이터에 포함된 타임 인덱스(미디어 시각으로 표현되는 경우)는 EPG 내에 프로그램의 실제 시작 시각을 추가함으로써 방송 시간으로 변환될 수 있으며, 저장된 방송 스트림으로부터 얻은 방송 시간을 이용함으로써 타임 인덱스에 의해 지정된 위치에 고속으로 접근할 수 있다. 대안으로, 프로그램의 실제 방송 시작 시각 또는 기준 시작 시각은 메타데이터에 포함될 수 있으며, 메타데이터는 전송된 메타데이터에 포함된 타임-인덱스(미디어 시각으로 표현되는 경우)가 메타데이터에 또한 포함된 프로그램의 실제 방송 시작 시각 또는 기준 시작 시각을 추가함으로써 방송 시간으로 변환될 수 있는 DVR로 전송된다.
대안으로, 원 메타데이터에 포함된 타임-인덱스 모두는 실제 방송 시작 시각을 추가함으로써 대응하는 실제 방송 시간으로 용이하게 변경되어, 결국 "조정된 메타데이터"로 된다. 이러한 조정된 메타데이터는 DVR로 전송된다. 또한, 원 메타데이터 내의 모든 타임-인덱스는 타깃 프로그램내의 예상되는 광고나 다른 휴지(break) 또는 중단에 따라서 조정될 수 있다는 것을 알아야 한다.
상술한 단락에서, 프로그램의 실제 시작 시각은 프로그램 스케줄러에 의해 얻을 수 있다. 대안으로, 도 1c는 적절한 비디오 매칭 기술에 의해 프로그램의 정확한 시작 시각을 추정하는 구조를 도시한다. 예를 들어, 방송되고 있는 대응하는 비디오 세그먼트와 매칭하기 위해서, 방송에 앞서 인덱싱하는데 사용된 프로그램의 비디오 세그먼트의 연속적인 샷의 지속 시간 집합(a set of time durations)이 이용될 수 있다. 프로그램이 방송되기 시작할 때, 방송 프로그램은 헤드엔드(102) 또는 다른 곳에서 분석되고, 비디오 세그먼트의 연속적인 샷의 시간 집합이 생성되고, 방송 프로그램과 인덱싱에 사용되는 프로그램 간의 시간 오프셋은 2개의 시간을 비교함으로써 계산된다. 대안으로, 시간 집합을 이용하는 대신에, 비주얼 패턴 매칭 기술이 사용될 수 있으며, 이 기술에서는, 방송 프로그램의 비디오 세그먼트의 시공간 패턴이 시간 오프셋을 결정하기 위해서 인덱싱에 사용된 프로그램의 패턴과 비교된다.
예를 들어, 지상파 등의 특정 유형의 방송 네트워크에 있어서, 도 1a, 도 1b, 및 도 1c에 도시된 구조 중 하나를 이용하여, AV 프로그램의 세그먼트화 메타데이터가 생성되면, 세그먼트화 메타데이터는 위성, 케이블 및 인터넷 등의 다른 유형의 전송 네트워크를 통해 전송된 동일 AV 프로그램에 대해서 재사용될 수 있다. 예를 들어, 인터넷 VOD(다른 유형이 사용될 수 있지만)를 통해 전송된 동일 AV 프로그램에 있어서, 상술한 메타데이터의 방송 시간으로 표현되는 타임-인덱스는 프로그램의 실제 시작 시간을 방송 시간으로부터 감산하여 미디어 시간으로 변환된다. 또한, 위성 또는 케이블 방송 시스템 등의 다른 방송 네트워크를 통해 방 송된 동일 AV 프로그램에 있어서, 상술한 메타데이터의 방송 시간으로 표현되는 타임-인덱스는 각 방송 네트워크에 의해 방송된 프로그램의 시작 시각에 따라서 조정되며, 여기서, 각 방송 네트워크의 프로그램의 시작 시각은 프로그램 스케줄러 또는 적절한 비디오 매칭 기술 또는 다른 적절한 수단에 의해 얻을 수 있다.
도 1a, 도 1b 및 도 1c에 도시된 모든 구조에 있어서, 세그먼트화 메타데이터는 그 메타데이터를 MPEG-2 TS 또는 다른 전용 트랜스포트 패킷 구조로 반송함으로써 DVR에 전송된다. 보다 상세하게는, 예를 들어, 4개의 예시적인 메타데이터 전송 방법이 있을 수 있다. 첫 번째로, 메타데이터는 세그먼트화 메타데이터의 새로운 기술어를 기존의 EPG에 첨부함으로써 ATSC-PSIP 및 DVB-SI 등의 기존의 EPG 데이터와 함께 DVR에 전송될 수 있다. 두 번째로, 메타데이터는 DVB-MHP, ACAP 및 ATSC-ACAP 등의 데이터 방송 채널을 통해 DVR에 전송될 수 있다. 세 번째로, 메타데이터는 새로운 패킷 ID(PID)를 정의함으로써 DVR에 전송될 수 있다. 최종적으로, 메타데이터는 MPEG-2 PES(패킷화된 기본 스트림) 패킷이 수반하는 DSM-CC(디지털 저장 미디어 - 커맨드 및 제어) 섹션을 이용하여 DVR에 전송될 수 있다. 대안으로, 메타데이터는 인터넷, 인트라넷, 공중 교환식 전화망, 다른 LAN 또는 WAN 등을 포함하는 백 채널을 통해 DVR에 전송될 수 있다.
디지털화된/디지털 AV 스트림의 실시간 인덱싱 시스템
도 2a 및 도 2b는 동일 참조 부호는 동일 구성 요소를 나타내는 방송 AV 프로그램의 2개의 실시간 인덱싱 시스템(201)의 블록도이다. 방송 AV 프로그램/스트림은 디지털 STB 등의 수신기(202)에 전송되어 디코딩되며, 디지털 비주얼 인터페 이스(DVI) 및 고화질 멀티미디어 인터페이스(HDMI) 등과 같이, 아날로그 신호(예를 들어, 콤포지트 비디오, 좌우 오디오) 또는 미압축 디지털 신호의 형태로 출력된다. 아날로그 출력(214)은 아날로그-디지털 변환기(ADC) 또는 프레임 캡쳐(204)에 의해 먼저 디지털화되고, 저가의 실시간 인덱서가 용이하게 다룰 수 있도록, AV 인코더(206)에 의해 낮은 비트율의 디지털 스트림으로 인코딩/압축된다. 대안으로, 수신기(202)로부터의 디지털 신호(218)는 인코더(206)에 직접 전송된다. AV 인코더(206)는 ADC(204)로부터 또는 직접 수신기(202)로부터의 일련의 디지털의 미압축된 원 프레임을 인코딩한다. 인코딩된 AV 프레임은 현재의 방송 AV 프로그램의 AV 파일로서 로컬 또는 관련 데이터 저장부(208)에 점진적으로(incrementally) 저장된다. 도 1a에 도시된 바와 같이, 현재의 방송 AV 프로그램에 대한 메타데이터는 AV 인덱서(210)에 의해 생성되어 DVR에 전송된다. 도 1b 및 도 1c에 도시된 바와 같이, 사전 녹화된 AV 방송 프로그램의 메타데이터는 방송에 앞서 오프라인으로 유사하게 인덱싱되어 DVR에 전송될 수 있다.
도 2a에 도시된 제 1 인덱싱 시스템에서, AV 인덱서(210)는 인코더(206)에 의해 저장부(208)에 현재 기록되어 있는 AV 파일을 판독하고, 방송되었던 AV 프로그램의 일부에 대응하는 AV 파일의 메타데이터를 생성하고, 그 메타데이터를 로컬 저장부(212)에 저장한다. 바람직하게, AV 파일의 메타데이터를 생성하는 프로세스는 비주얼 리듬으로 불리는 비주얼 시공간 패턴을 구성하는 자동 단계와, 샷 경계를 검출하는 자동 단계와, 각 검출된 샷에 대한 키 프레임을 생성하는 자동 단계를 포함한다. 예시적인 비주얼 리듬 구조가 상술한 미국 특허 출원 제 10/365,576 호 에 기재되어 있다.
또한, AV 파일은 인덱싱 조작자에게 방송 프로그램을 나타내는데 사용된다. 비주얼 시공간 패턴을 이용하면, 인덱싱 조작자는 시공간 패턴을 시각적으로 체크함으로써 자동 샷 경계 검출 결과의 올바름을 쉽게 확인할 수 있다. 도 2a의 시스템은 AV 인덱서가 원격 컴퓨터 상에서 실행될 수 있다는 점에서 유연성이 있다는 것을 알아야 한다. 그러나, 그 시스템은 현재의 AV 프로그램을 실시간으로 인덱싱할 때 비디오 인코딩과, 저장부(208) 내의 파일 시스템에 의한 버퍼링과, 비디오 디코딩으로 인한 지연 등의 약간의 대기 시간을 가지고 있다.
도 2b에 도시된 다른 인덱싱 시스템은 디지털화된 아날로그 신호(214) 또는 디지털 신호(218)의 압축되지 않은 프레임이 AV 인덱서(210)에 직접 전송된다는 점을 제외하고, 도 2a의 시스템과 유사하며, 바람직하게, 현재의 방송 프로그램을 인덱싱 조작자에게 나타내기 위해, 비주얼 시공간 패턴을 구성하기 위해, 샷 경계/장면 커트를 검출하기 위해, 지연 없이 키 프레임을 생성하기 위해서 사용된다. 클록(220)은 AV 인덱서에 직접 입력된 디지털화된 아날로그 스트림(214) 또는 디지털 스트림(218)을 AV 인코더(206)에 의해 인코딩된 저장된 스트림(208)과 동기화하는데 사용될 수 있다. 결과적으로, 현재의 방송 AV 프로그램의 메타데이터는 실시간으로 생성될 수 있다. 또한, 바람직하게, AV 인덱서(210)는 이미 방송된 AV 프로그램의 일부에 접근하기 위해서 저장부(208)의 AV 파일을 이용하여, 인덱싱 조작자는 실시간 인덱싱 결과/메타데이터를 확인하고 새롭게 할 수 있다.
도 3a는 도 2a 및 도 2b의 참조 번호(210)와 같이, 실시간 AV 인덱서의 예시 적인 그래픽 유저 인터페이스(GUI)의 스크린 샷을 도시한다. GUI는 다음의 대화 윈도우, 즉, 비주얼 시공간 패턴(302), 연속적인 프레임 리스트(310)(연속적인 번호의 프레임 21928, 21929,... 21937), 텍스트로 기술된 세그먼트 계층(312), 세그먼트 트리 계층의 동일 레벨에 있는 키 프레임 리스트(320), 정보 패널(324), AV/미디어 플레이어(326), 세그먼트 계층의 템플릿(330), 세그먼트 마크 버튼(332) 및 북마크 버튼(334)을 포함한다(비고: 효율적인 비디오 북마크의 예가 미국 특허 출원 제 09/911,293 호(2001년 7월 23일 출원, 2002년 6월 6일 US2002/0069218A1으로 공개)에 기재되어 있다). 생방송 프로그램이 방송중에 있거나, GUI에 의해 재시청되고 있는 동안에, AV 인덱서는, 새로운 샷/장면이 실시간으로 검출될 때마다, 비주얼 시공간 패턴(302)을 생성하고, 샷 경계를 검출하고, 키 프레임을 생성한다. AV 인덱서는 인덱싱 조작자에게 현재의 방송 프로그램을 AV 플레이어(326) 상에 보여주고, 프로그램의 새로운 중요한 세그먼트가 발생하거나 시작할 때마다, 조작자는 세그먼트 마크 버튼(332)을 선택적으로 클릭한다.
비디오의 비주얼 콘텐츠에 대한 정보를 전송하는 비디오의 비주얼 시공간 패턴(302)은 바람직하게 단일 이미지, 즉, 각 프레임의 특정 그룹의 화소를 샘플링함으로써 또한 시간축을 따라서 샘플을 시간적으로 축적함으로써 구성된 비디오의 전체 3차원 콘텐츠의 2차원 요약이다. 자동 샷 검출 및 검출된 샷의 비주얼 확인 모두에서 특히 유용하다. 비주얼 시공간 패턴의 상부 상의 삼각형(306) 영역은 적절한 방법을 이용하여 샷 경계를 자동으로 찾는 위치를 나타낸다. 프레임(308)에 대응하는 수직선(도 3a에서 프레임 21932로서 표시)이 시공간 패턴(302) 상에서 선택될 때, 선택된 프레임(308)이 중앙에 있는 연속적인 프레임 리스트(310)가 디스플레이되고, 조작자는 연속적인 프레임의 시퀀스를 단순히 조사함으로써 프레임 불연속성(또는 샷 경계)을 쉽게 확인할 수 있으며, 이로써, 조작자는 누락된 경우에 새로운 샷 경계를 생성하거나, 잘못 검출된 경우에 샷 경계를 삭제할 수 있다. 원형 마크(303)는, 플레이어(326)를 통해 AV 프로그램을 시청하는 동안에 새로운 중요한 세그먼트가 시작하거나 발생할 때, 세그먼트 마크 버튼(332)을 이용하여 인덱싱 사용자에 의해 마킹된 비주얼 시공간 패턴 상의 위치를 나타낸다. 원형 마크(304)는 추후에 재방문하기 위해서, 북마크 버튼(334)을 이용하여 인덱싱 조작자에 의해 북마킹된 비주얼 시공간 패턴(302) 상의 위치를 나타낸다. 비주얼 시공간 패턴(302) 상의 세그먼트 마크와 북마크는, 바람직하게, 샷 경계와 세그먼트 계층을 확인하여 새롭게 하기 위해서, 인덱싱 조작자가 추후에 재방문하기를 원하는, 현재 인덱싱되고 있는 AV 프로그램의 위치를 시각적으로 나타낸다.
세그먼트 계층(segment hierarchy)의 템플릿(330)은 AV 프로그램의 세그먼트의 사전정의된 대표적인 계층을 나타낸다. 예를 들어, 뉴스 세그먼트는 앵커가 요약을 소개하는 앵커 샷/장면과 상세한 뉴스를 리포팅하는 다음 장면으로 전형적으로 구성되어 있으며, 따라서, 뉴스 프로그램에 대한 세그먼트 계층의 템플릿은 "앵커" 및 "리포팅"의 반복 패턴에 의해 쉽게 생성될 수 있다. 프로그램은 인덱싱되는 프로그램이 템플릿과 동일 또는 유사한 세그먼트 계층을 가지고 있는 한, 그 템플릿을 이용하여 효율적으로 인덱싱될 수 있다. 뉴스의 예에서, 템플릿 내의 "앵커" 세그먼트(336)에 대응하는 뉴스 "앵커" 장면이 참조 번호(326)를 통해 방송 뉴스를 시청하는 동안에 "2분 리포트" 이후에 시작할 때, 조작자는 세그먼트 마크 버튼(332)을 클릭할 수 있다. 세그먼트 마크 버튼(332)을 클릭하면, 세그먼트 마크(303)가 시공간 패턴(302) 상에 나타나며, 템플릿 계층 내의 "앵커" 세그먼트(336)와 동일한 타이틀 및 위치를 가진 새로운 세그먼트(314)가 세그먼트 계층(312) 내에 형성된다.
AV 프로그램은 세그먼트 마크 버튼(332)과 북마크 버튼(334)을 이용하여 쉽게 인덱싱될 수 있다. AV 플레이어(326)를 통해 AV 프로그램을 시청하는 동안에 인덱싱 조작자가 새로운 중요한 세그먼트의 시작(예를 들어, 뉴스 프로그램 동안에 새로운 토픽을 보고하는 앵커 장면/샷의 시작)을 관측하는 순간에 세그먼트 마크 버튼을 단순히 클릭함으로써, 조작자는 시공간 패턴(302) 상의 대응하는 시간 위치(예를 들어, 원형 마크(303))를 시각적으로 마킹할 수 있으며, 세그먼트 계층(312) 내에 새로운 세그먼트(예를 들어, 314)를 생성할 수 있다. 새로운 세그먼트의, 미디어 시간 또는 방송 시간 또는 등가의 시간으로 표현되는 시작 시간은 시간 간격이 세그먼트 마크 버튼(332)을 클릭하는 순간을 포함하는 샷의 시작 시각으로 자동 설정된다. 그러나, 도 4a에 도시된 바와 같이, 올바른 샷 경계가 자동으로 검출되지 않았다면, 샷의 시작 시각은 조작자에 의해 정정되어야 한다. 새로운 세그먼트 바로 전의 세그먼트의 지속 시간은 이전 세그먼트의 시작 시각과 현재의 세그먼트의 시작 시각 사이의 시간차로서 결정된다. 세그먼트 계층의 템플릿이 인덱싱 동안에 이용가능하면, 새로운 세그먼트(예를 들어, 앵커 세그먼트(314))는 템플릿 세그먼트 계층의 위치에 대응하는 세그먼트 계층의 위치(예를 들어, 템플릿의 앵커 세그먼트(336))에 자동으로 생성되며, 새로운 세그먼트의 디폴트 타이틀은 템플릿 내의 대응하는 세그먼트로부터 얻어진다. 템플릿이 이용불가능하면, 타이틀이 없는 새로운 세그먼트가 세그먼트 계층 내에 형성되고, 조작자는 적절한 세그먼트 타이틀로 타이핑한다. 시공간 패턴(302)의 윈도우 세그먼트 마크(303)에 의해, 예를 들어, 조작자는 세그먼트 계층을 추후에 쉽게 확인하여 새롭게 할 수 있으며, 샷 경계 검출기에 의해 누락된 특정 세그먼트의 제 1 샷의 가능한 경계를 조사할 수 있다.
북마크 버튼(334)은 조작자가 예를 들어, 추후에 재방문하여 몇몇 이유로 북마킹된 위치를 재생할 수 있도록, 시공간 패턴(302) 윈도우 상에 관심 있는 시간 포인트(예를 들어, 304)를 마킹하는데 사용될 수 있다. 방송 프로그램을 실시간으로 인덱싱할 때, 조작자는 현재의 방송 스트림의 인덱싱에 집중해야 하며, 조작자는 방송 프로그램의 특정 부분을 인덱싱하는데 많은 시간을 소비할 수 없다. 이러한 문제점을 해결하기 위해서, 추후에 조작자가 방송 프로그램의 북마킹된 위치를 신속하게 접근할 수 있게 하는 북마크 버튼(334)을 이용하는 것이 본 명세서에 기재되어 있다. 환언하면, 북마크 버튼(334)은 조작자가 몇몇 중요하거나 흥미있거나 또는 의심스러운 위치를 관측하여 추후에 재방문할 때 사용될 수 있다.
세그먼트 계층(312)은 현재 인덱싱되고 있는 AV 프로그램에 대한 세그먼트의 트리 뷰를 도시한다. 트리 노드를 확장하고 축약하는 예시적인 방법은 잘 알려진 마이크로소프트 윈도우 상의 윈도우 탐색기와 유사하다. 세그먼트 트리(312) 내의 노드가 현재의 세그먼트로서 조작자에 의해 선택될 때, 현재의 세그먼트의 키 프레임이 정보 패널(324) 내에 시작 시각 및 지속 시간 등의 특성과 함께 디스플레이되며, 현재의 세그먼트(320)의 모든 서브 세그먼트의 키 프레임의 리스트가 디스플레이된다. 일반적으로, 세그먼트는 연속적인 샷 집합으로 구성되며, 샷은 시각적 또는 구문적으로 유사한 장면 특성을 가진 연속적인 프레임의 집합으로 구성된다. 세그먼트의 키 프레임은 세그먼트의 프레임 중 하나, 예를 들어, 세그먼트의 제 1 프레임을 선택하여 얻게 된다. 세그먼트 트리(312)의 리프(leaf) 노드가 현재의 세그먼트로서 조작자에 의해 선택될 때, 현재의 세그먼트(320)에 포함된 모든 샷의 키 프레임의 리스트가 디스플레이된다. 샷 경계는 바람직하게 적절한 방법을 이용하여 자동으로 검출되며, 각 샷의 키 프레임은 샷의 프레임 중 하나를 선택하여 얻게 된다. 새로운 샷이 검출될 때, 그 키 프레임은 세그먼트 계층의 적절한 위치에 등록된다. 아이콘 등의 여러 비주얼 식별자가 사용될 수 있으며, 몇몇 예가 기재되어 있다. 키 프레임 상의 직사각형(321)은 키 프레임이 전체 비디오를 나타냄을 표시한다. 환언하면, 직사각형의 키 프레임은 세그먼트 계층의 루트 노드에 대응한다. 키 프레임 상의 십자형(322)은 키 프레임에 대응하는 세그먼트가 자(子) 세그먼트를 가짐을 나타낸다. 환언하면, 세그먼트는 하나 이상의 자 세그먼트로 구성되어 있다.
트리 뷰(312)에 도시된 세그먼트 계층은 도 3b에 도시된 바와 같이, 그룹(group), 그룹해제(ungroup), 병합(merge) 및 분할(split) 등의 계층을 조작하기 위한 일반적인 4개의 동작을 갖는다. 그룹 동작은 구문적으로 관련된 세그먼트가 그루핑(grouping)되는 새로운 노드를 생성하는데 사용된다. 예를 들어, 뉴스 프로 그램에서, "정치", "경제", "사회", "스포츠" 등의 동일 카테고리 내에 몇몇 리포트가 있을 수 있다. 이러한 경우에, 정치와 관련된 리포트는 그룹 동작에 의해 새로운 노드 "정치" 아래에 함께 그루핑된다. 그룹해제 동작은 그룹 동작의 반대이다. 병합 동작은 새로운 노드를 생성하지 않는다는 것을 제외하고 그룹 동작과 유사하다. 따라서, 리포트가 "풋볼", "축구", "야구" 등의 소형 카테고리로 그루핑하고, 인텍싱 조작자가 레벨 개수를 변경하지 않고 리포트를 큰 카테고리로 그루핑하기를 원할 때, 병합 동작은 단일의 카테고리 "스포츠"로 병합된 리포트를 만든다. 분할 동작은 병합 동작의 반대이다.
AV 플레이어 윈도우(326)는 방송되고 있거나, 또는 달리 제공되고 있는 AV 프로그램을 디스플레이하고(예를 들어, 도 2b의 216 또는 218에서 이용가능함), 저장부(208)에 이미 저장된 AV 프로그램의 일부의 선택된 세그먼트를 재생하는데 사용된다. 또한, 바람직하게, 재생, 중단, 중지, 고속 재생, 고속 되감기 등의 VCR형 제어와 연관되어 있다.
본 명세서에 기재된 바와 같이, 도 3a의 참조 번호(302) 등의 시공간 패턴 상에 관심 있는 위치를 시각적으로 마킹하는 기술은 방송 프로그램을 실시간으로 인덱싱하는 도중에 조작자에게 큰 도움이 된다. 도 4a 및 도 4b는 단일의 시간 크기를 나타내는 시간 축(422) 상에 마킹하는 것에 비해 시공간 패턴을 나타내는 비주얼 시간 축(402) 상에 마킹하는 것의 장점을 나타낸다. 도 4a 및 도 4b는 적절한 방법에 의해 바람직하게 자동으로 검출되는 2개의 샷 경계(404, 406)와, 도 4a의 비주얼 시간 축(402)(도 3a에서는 시공간 패턴(302)에 대응)과 도 4b의 시간 축 (422) 상의 그들의 대응하는 시간 포인트(t1, t2)에서의 그들의 키 프레임(412, 414) 각각을 나타낸다. 에러 없이, 특히 현 기술 상태의 샷 경계 검출 방법을 이용하여 "디졸브", "와이프", "페이드 인" 및 "페이드 아웃" 등의 점진적인 변이에 의해 발생된 에러로 인해 모든 샷 경계를 완전히 검출하는 것은 어렵기 때문에 예를 들어, 점진적인 장면 변이로 인해 시간 t3에서의 샷 경계는 자동으로 검출되지 않는다. 따라서, 조작자 본인이 자동 샷 경계 검출의 결과를 수동으로 확인하여 수정할 필요가 있으며, 확인 및 수정을 위해서 비디오를 신속하게 스키밍(skimming)하는 방법이 있을 경우에 바람직하다. 프로그램의 키 프레임(412, 416)을 가진 2개의 새로운 세그먼트가 각각 t1(408), t3(410)에서 시작한다고 가정한다. 먼저, 도 4a에 도시된 비주얼 시간 축(402)이 사용되는 경우를 고려한다. 도 3a의 AV 플레이어(326)를 통해서 프로그램을 보고 있는 조작자는 새로운 세그먼트가 t1(408)에서 시작할 때 세그먼트 마크 버튼(332)을 클릭하고, 세그먼트 마크(418)가 비주얼 시간 축(402) 상에 나타난다. 시작 시간(t1)을 가진 새로운 세그먼트와 t1에서의 키 프레임(412)은 세그먼트 계층(312)에 자동으로 첨부되며, 조작자는 비주얼 시간 축(402) 상의 세그먼트 마크(418) 바로 전의 t1에서의 자동 검출된 샷 경계(404)를 명백히 볼 수 있기 때문에 새로운 세그먼트의 시작 시간(t1)을 수정하지 않아도 된다. 다른 새로운 세그먼트가 t3에서 시작할 때, 조작자는 세그먼트 마크 버튼(332)을 다시 클릭하고, 세그먼트 마크(420)는 비주얼 시간 축(402) 상에 나타나며, 결과적으로, 시작 시간(t2)을 가진 새로운 세그먼트로 되며, t2에서의 키 프레임(414)은 세그먼트 계층(312)에 자동으로 첨부된다. 그러나, 이러한 경우에, 조작자가 비주얼 시간 축(402) 상의 세그먼트 마크(420)의 바로 전의 자동 검출된 샷 경계를 볼 수 없기 때문에, 새로운 세그먼트의 시작 시간은 올바르지 않다는 것은 조작자에게 명백하다. 따라서, 조작자는 세그먼트 마크(420) 주변의 새로운 세그먼트 경계의 존재를 추측할 수 있고, 세그먼트 마크(420) 주변의 비주얼 시간 축 또는 시공간 패턴(402)을 신속하게 살펴봄으로써 새로운 세그먼트 경계를 형성하는 위치를 결정하고, t3(410)에서의 새로운 세그먼트의 시작 시간과 세그먼트 계층의 프레임(416)에 대한 키 프레임을 갱신할 수 있다. 즉, 세그먼트 마크(420) 주변의 의심스러운 부분을 재생하지 않고, 조작자는 샷 경계 검출기가 예를 들어, 점진적인 변이로 인해 자동으로 찾는데 실패한 누락 샷 경계를 식별할 수 있다. 예를 들어, 인덱싱 동작은 "와이프" 편집 효과를 이용하여 일부가 편집되는 세그먼트 마크(420) 주변의 마킹된 부분을 재생하지 않고 식별할 수 있고, 따라서, 새로운 세그먼트 경계가 발생할 수 있다. 조작자가 의심스러운 부분을 수동으로 검색하고 세그먼트 경계가 있는 위치를 결정하는데 필요한 시간을 상당히 감소시킬 수 있다. 또한, 조작자는 세그먼트 마크(420)(예를 들어, 도 3a의 연속적인 프레임(310)의 리스트를 봄)에 의해 표시된 시간 포인트 부근의 프레임에 쉽게 접근할 수 있으며, 조작자가 세그먼트 마크 부근의 일부를 검사할 시간이 있을 때마다, 또는 인덱싱되는 프로그램 종료후 샷 경계에 대한 추측을 검증할 수 있다. 반면, 단순한 시간 스케일을 보여주는 도 4b의 시간축(422)이 시각적 시간선(402) 대신 이용될 경우, 세그먼트 마크(420) 가까이의 세그먼트 경계를 신속히 위치 결정하기가 쉽지 않다. 환언하면, 도 4b의 AV 인덱서 인터페이스의 경우, 인덱싱 조작자는 세 그먼트 마크(420) 주변의 새로운 세그먼트 경계가 어디인지 신속히 결정할 수 없어서, 마킹된 부분을 재생하여야 하고, 이는 방송 프로그램을 실시간 인덱싱함에 있어 장애 요소가 된다.
도 5는 방송 시간을 이용하여 교육 프로그램의 세그먼트 계층에 대한 예시적인 1-레벨 메타데이터를 도시한다. 프로그램은 거의 동일한 구조(504)를 이용하여 매일 방송되기 때문에, 조작자는 프로그램에 대한 세그먼트 계층의 템플릿을 사전 생성할 수 있다. 프로그램을 인덱싱하기 전에, 조작자는 도 2a 및 도 2b의 AV 인덱서(210)에 사전 정의된 템플릿을 로딩한다. 그 다음, 조작자가 방송 프로그램을 시청하는 동안에 템플릿에 의해 표시되는 새로운 세그먼트(예를 들어, 도 5의 "오늘의 대화")를 관측할 때마다, 조작자는 세그먼트 마크 버튼(332)을 바로 클릭함으로써, 세그먼트 계층(312) 내의 방송 시간(502)에서의 시작 시각으로 새로운 세그먼트를 쉽게 생성할 수 있다. 조작자가 인덱싱 중에 세그먼트를 누락하거나 의심스러운 부분이 있어서 추후에 방문하고자 한다면, 조작자는 북마크 버튼(334)을 바로 클릭하여 비주얼 시간 축(302) 상에 그 위치를 마킹한다. 조작자는 대응하는 시간 포인트에 바로 액세스함으로써 세그먼트 마크 버튼(332) 및 북마크 버튼(334)에 의해 마킹된 프로그램의 위치를 나중에 조사할 수 있고, 필요한 경우에 구축된 세그먼트 계층을 갱신/편집할 수 있다. 따라서, 본 발명을 이용하여, 인덱싱 조작자는 세그먼트 계층을 확인하고, 정확한 세그먼트화 메타데이터를 생성하고, 최소 시간 지연 내에서 적절한 횟수로 그 메타데이터를 방송국에 전송할 수 있다.
도 6a는 디지털/디지털화된 AV 프로그램에 대한 기재된 실시간 인덱싱 시스템의 흐름도를 나타낸다. 실시간 인덱싱 프로세스는 단계(602)에서 시작하고, 그 다음에 단계 604에서 이용가능한 경우에, 적절한 템플릿을 로딩하는 전처리가 도 6a에 도시된 바와 같이 수행된다. 도 6c에 그 프로세스가 도시된 시공간 패턴의 생성(638)을 위한 스레드가 단계(606)에서 포크(fork)되고, 입력된 디지털/디지털화된 생방송 프로그램은 시작되어 단계(608)에서 도 3a의 플레이어 윈도우(326)에 디스플레이된다. 단계(610)에서, 시스템은 "세그먼트 마크", "북마크" 및 "확인-개선(verify-refine)" 등의 조작자 동작을 대기한다. 조작자는 발생 또는 시작하는 새로운 중요한 세그먼트를 대기하는 동안 AV 플레이어(326)를 통해 방송 프로그램을 모니터링한다. 먼저, 새로운 세그먼트가 발생할 때, 조작자는 도 3a의 세그먼트 마크 버튼(332)을 클릭하며, 단계(612)에서, 동작 유형은 "세그먼트 마크"로 결정된다. 그 다음, 새로운 세그먼트 마크(303)는 도 3a의 시공간 패턴 윈도우(302) 상에 나타나며, 단계(614)에서 마킹 세그먼트의 바로 앞의 샷에 의해 설정된 시작 시각과 관련 정보는 로컬 저장부에 저장된다. 시스템은 단계(616)로 진행하고, 템플릿(330)이 프로그램에 대해서 이용가능한지를 체크한다. "예"이면, 각각 단계(618) 및 (620)에서, 새로운 세그먼트가 템플릿에 의해 표시된 위치에서 계층에 부가되며, 세그먼트 타이틀은 템플릿으로부터 복사된다. 그렇지 않다면, 단계(622) 및 (624)에서 각각, 새로운 세그먼트는 루트의 자 노드로서 계층에 부가되고, 조작자는 세그먼트 타이틀을 수동으로 타이핑한다 두 번째로, 세그먼트 경계로서 간주되지 않을 지라도, 조작자가 관심 있는 위치를 찾게 되면, 조작자는 도 3a의 북마크 버튼(334)을 클릭하고, 단계(612)에서 동작 유형은 "북마크"로서 결정된다. 그 다음, 새로운 북마크(304)가 시공간 패턴(302) 상에 디스플레이되고, 단계(626)에서, 시간 위치 및 다른 관련 정보가 로컬 저장부에 저장된다. 세 번째로, 단계(612)에서 조작자가 시간이 있을 때마다, 조작자는 저장된 마킹 위치 중 하나를 방문할 수 있으며, 여기서, 동작 유형은 "확인-개선"으로서 결정된다. 그 다음, 조작자는 도 6d에 상세히 설명되어 있는 바와 같이, 단계(628)에서 마크를 확인하여 개선할 수 있다. 각각의 동작이 수행된 후에, 단계(630)에서, 시스템은 TV-Anytime 등에 지시된 중간 메타데이터를 생성하고, 도 2a 및 도 2b의 로컬 저장부(212)에 저장하고, 도 1a, 도 1b 및 도 1c에 도시된 방송국으로 전송한다. 시스템은 단계(632)로 진행하여 AV 프로그램이 종료되는지 여부를 결정한다. 그렇다면, 시스템은 단계(634)에서 도 6e에 도시된 후처리를 수행하고, 단계(636)에서 종료한다. 그렇지 않다면, 프로세스는 단계(610)로 진행한다.
도 6b는 템플릿을 로딩하는 전처리 프로세스의 흐름도이다. 프로세스는 단계(642)에서 시작하고, 단계(644)에서 이용가능한 템플릿이 존재하는지를 체크한다. 존재하면, 프로세스는 단계(646)에서 모든 이용가능한 템플릿의 리스트를 디스플레이하고, 그렇지 않으면, 앞선 프로세스로 진행한다. 단계(648)에서, 프로세스는 템플릿이 선택되는지 여부를 체크한다. 템플릿이 선택되면, 단계(650)에서, 프로세스는 템플릿을 로딩하고 도 3a의 윈도우(330)에 디스플레이한다. 그렇지 않으면, 프로세스는 앞선 프로세스로 진행하는 단계(652)로 진행한다.
도 6c는 시공간 패턴을 생성하는 프로세스의 흐름도이다. 스레드는 단계(662)에서 시작하고, 디지털/디지털화 입력의 생방송 스트림으로부터 프레임을 판 독하고, 단계(664)에서 프레임으로부터 화소 집합을 샘플링하고, 화소 집합을 수직 열로 변환하고, 단계(666)에서 수직 열 또는 라인을 시공간 패턴에 첨부한다. 프레임에 대응하는 수직 라인을 시공간 패턴에 첨부하여 디스플레이하는 것은 도 3a의 AV 플레이어(326)를 통해 도 6a의 단계(608)에서 프레임을 디스플레이하는 것과 동기화된다는 것을 알아야 한다. 단계(668)에서, 스레드는 단계(664)에서 판독된 프레임에 대응하는 첨부된 라인 부근에서 적절한 방법을 이용하여 검출된 샷 경계가 존재하는지를 체크한다. "아니오"이면, 스레드는 단계(676)로 진행한다. "예"이면, 단계(670)에서 스레드는 새로운 샷의 키 프레임을 생성하고, 단계(672)에서 키 프레임 리스트에 저장하고, 단계(674)에서 도 3a의 시공간 패턴(302) 상에 샷 마크(306)를 배치한다. AV 프로그램이 종료되는지 여부를 결정하기 위해서 스레드는 단계(676)로 진행한다. "예"이면, 스레드는 단계(678)에서 종료하고, 그렇지 않으면, 단계(674)로 진행하여 계속해서 시공간 패턴을 생성한다.
도 6d는 주어진 세그먼트 마크 또는 주어진 북마크를 확인하고 개선(refine)하는 도 6a의 블록(628) 및 도 6e의 블록(734)에 사용되는 예시적인 프로세스의 흐름도이다. 프로세스는 단계(702)에서 시작한다. 조작자는 세그먼트 마크 또는 북마크인지 상관없이 마킹된 위치에 방문하거나 접근하고, 마킹된 위치 주변의 시공간 패턴의 일부가 단계(704)에서 윈도우(302)에 디스플레이된다. 단계(706)에서, 조작자는 마킹된 위치 부근에 세그먼트 경계가 있는지 여부를 체크하거나 확인한다. 세그먼트 경계가 존재한다면, 사람의 감각 응답에 의해 발생되는 피할 수 없는 짧은 지연으로 인해 세그먼트 경계는 비주얼 시간 축 상의 마크가 된 지점 바로 직전이 될 것이다. "아니오"이면, 프로세스는 단계(708)로 진행하여 주어진 마크의 유형을 찾는다. 주어진 마크가 세그먼트 마크이면, 새로운 세그먼트로서 잘못 결정된 세그먼트는 계층으로부터 제거되고, 단계(710)에서, 세그먼트 마크는 추후에 사용하기 위해 삭제되거나 북마크로 변경된다. 단계(708)에서, 주어진 마크가 북마크이면, 프로세스는 앞선 단계로 진행한다. 마킹된 위치 부근에 세그먼트 경계가 있다고 조작자가 확신하면, 조작자는 단계(712)에서 주어진 마크 부근의 새로운 세그먼트의 선두 샷의 경계가 적절한 방법에 의해 올바르게 검출되었는지를 체크한다. 샷 경계가 자동으로 검출되었다면, 프로세스는 단계(714)에서 마크가 세그먼트 마크인지 북마크인지를 체크한다. 마크가 세그먼트 마크이면, 프로세스는 앞선 단계로 진행하는 단계(726)로 진행한다. 단계(714)에서 주어진 마크가 북마크이면, 단계(712)에서 조작자에 의해 체크된 샷 경계로 그 경계가 설정된 세그먼트는 단계(712)에서 도 3a의 세그먼트 계층(312) 내의 적절한 위치에 예를 들어, 이전 세그먼트의 형제(sibling)로서 삽입된다. 단계(712)에서, 조작자가 샷 경계는 자동으로 검출되지 않았다고 판정하면, 단계(716)에서, 조작자는 샷 경계를 수동으로 생성하고, 키 프레임 및 관련 정보를 생성한다. 단계(718)에서, 도 3a의 파란 삼각형(306) 등의 샷 마커는 시공간 패턴(302)에 부가된다. 프로세스는 단계(720)에서 주어진 마크의 유형을 체크한다. 주어진 마크가 세그먼트 마크이면, 프로세스는 시작 시각 및 키 프레임 및 다른 관련 세그먼트의 정보를 포함한 세그먼트의 정보를 갱신한다. 주어진 마크가 북마크이면, 프로세스는 단계(716)에서 얻은 시작 시각 및 키 프레임을 가진 새로운 세그먼트를 세그먼트 계층(312) 내의 적절한 위치에 삽입하고, 단계(724에서 북마크를 세그먼트 마크로 변경한다. 단계(726)에서, 프로세스는 부모 과정으로 진행한다. 부모 과정으로 진행하기 전에, 그룹, 그룹해제, 병합 및 분할 등의 세그먼트 계층에 대한 모델링 동작을 조작자가 수행할 수 있다는 것을 알아야 한다.
도 6e는 후처리의 흐름도이다. 프로세스는 단계(732)에서 시작한다. 단계(734) 및 단계(736)에서 모든 마크가 방문되고, 확인되고 개선된 후에, 조작자는 단계(738)에서 그룹, 그룹해제, 병합 및 분할 등의 모델링 동작을 수행함으로써 세그먼트 계층을 구축 또는 편집한다. 프로세스는 단계(740)에서 입력 AV 프로그램의 세그먼트화 메타데이터의 완전한 버전을 생성한다. 후처리의 프로세스는 단계(762)로 진행한다.
기재된 실시간 인덱싱 시스템 및 방법은 AV 프로그램이 생방송이든 또는 녹화/저장된 것이든 관계없이 그 AV 프로그램에 적용될 수 있다.
메타데이터의 과금
이제 사용자에 의해 사용된 메타데이터를 청구하는 방법을 알아보기로 한다. 메타데이터의 사용을 청구하는 전형적인 접근 방법은 서비스 공급자가 메타데이터 사용자에게 매달 청구서로 청구하는 것이다. 그러나, 사용된 메타데이터의 유형은 특히, 성인 영화 또는 게임과 관련된 경우에 가족 내의 TV 시청자 간에 비밀 문제일 수 있어서, 무료가 아닌 메타데이터의 이용을 제한할 수 있다. 따라서, 대부분의 사람들은 그들 자신의 셀룰러 폰을 소유하고 있고 그들의 청구 정보는 비밀로 공개될 수 있기 때문에, 셀룰러 폰 네트워크 회사를 통해 메타데이터의 이용을 청 구함으로써 이러한 프라이버시의 문제점을 피하는 새로운 방법이 제공된다.
도 7은 본 발명의 실시예에 따른 메타데이터 전송 시스템을 도시하는 개략도이다. 이 목적을 달성하기 위해서, 본 발명의 제 1 측면은 메타데이터를 전송하는 메타데이터 전송 유닛(708)과, 메타데이터 전송 유닛(708)으로부터 메타데이터를 수신하는 메타데이터 수신 유닛(703)과, 모바일 통신 네트워크(707)를 통해 네트워크에 접속된 모바일 단말기(704)와, 인증코드 데이터를 준비하는 인증코드 관리 회사(706)와, 모바일 통신 네트워크(707)와 그 서비스를 관리하는 모바일 단말기 네트워크 회사(709)를 포함하는 메타데이터 전송 시스템(701)을 제공한다. 메타데이터 전송 시스템(701)은 방송 네트워크(예를 들어, 위성 또는 케이블)(710)를 통해 메타데이터 공급자(702)에 제공된 메타데이터를 전송할 책임이 있는 메타데이터 전송 유닛(708)과, 사용자에게 속하는 메타데이터 수신 유닛으로서 동작하는 DVR(703)과, 모바일 단말기 네트워크 회사(709)에 의해 관리되는 셀룰러 폭 네트워크 또는 모바일 통신 네트워크(707)와, 인증코드 관리 회사(706)를 포함한다.
상술한 구조로, 인증코드 관리 회사(706)는 셀룰러 폰 네트워크 관리 회사가 사용자가 사용한 메타데이터의 청구에 대해 사용자에게 청구할 수 있도록 셀룰러 폰 네트워크(707)의 관리 회사(709)에 등록한다.
DVR에서 사용하기 위한 메타데이터를 수신하기 위해서, 사용자는 셀룰러 폰(704)을 이용하여 해당 메타데이터에 대한 인증 권한을 가진 인증코드 관리회사에 접근한다. 메타데이터를 이용하기 위해 접속한 후에, 인증코드 관리 회사는 개인용 인증코드 데이터(711)를 준비하고 그 데이터를 모바일 단말기(704)의 디스플레 이 장치에 디스플레이한다. 셀룰러 폰 네트워크(709)의 관리 회사는 인증코드 관리 회사를 통해 인증코드 데이터를 수신하는 사용자에게 청구한다. 인증코드 관리 회사(706)는 셀룰러 폰 네트워크(709)의 관리 회사를 통해서 통신 캐리어를 얻으며, 셀룰러 폰 네트워크의 관리 회사가 사용자에게 청구된 금액에서 몇 퍼센트의 커미션을 공제함으로써 청구액을 축적한다. 따라서, 인증코드 관리 회사(706)의 커미션은 개인용 인증코드 데이터(711)를 생성하고 운영하는데 따른 금액이다. 인증코드 데이터의 성공적인 수신시에, 사용자는 메타데이터 수신 유닛(703)의 원격 제어를 통해 인증코드 데이터를 입력한다. 예를 들어, 인증코드 데이터는 모바일 단말기(704)의 디스플레이 장치 상에 디스플레이되는 4 자리 번호일 수 있으며, DVR의 원격 제어기를 통해 입력된다. 개인 인증코드가 성공적이면, 메타데이터 정보를 사용하여 DVR 사용자를 관심 있는 세그먼트로 안내한다.
도 8 및 도 9는 본 발명에 따른 프로세스를 나타내는 흐름도로서, 도 8은 콘텐츠 획득 프로세스를 도시하며, 도 9는 청구-지불 프로세스를 도시한다. 도 8의 단계(802)에서, 사용자는 DVR로부터 사용되는 메타데이터를 먼저 선택한다. 즉, 응답하여, 단계(804)에서, DVR은 인증코드 관리 회사의 사이트 주소와, 사용되는 메타데이터를 식별하기 위한 고유 식별자를 디스플레이한다. 그 다음, 사용자는 모바일 단말기를 통해서 인증코드 관리 회사 사이트에 접근하고, 단계(806)에서 고유 식별자를 입력한다. 고유 식별자가 입력된 후에, 인증코드 관리 회사는 개인 인증코드 데이터를 준비한다. 단계(808)은 접속을 완료한다. 접속이 이루어진 후에, 단계(810)에서, 준비된 개인 인증코드 데이터는 모바일 단말기로 전송되어 단 말기에 디스플레이된다. 단계(812)에서, 사용자는 디스플레이된 인증코드 데이터를 DVR에 입력하고 메타데이터를 사용하여 DVR 사용자를 관심 있는 세그먼트로 안내한다.
도 9는 청구-지불 프로세스를 나타낸다. 도 9의 단계(902)에서, 셀룰러 폰 네트워크의 관리 회사는 사용자에게 메타데이터에 대해 청구한다. 단계(904)는 셀룰러 폰 네트워크 관리 회사에 사용자가 지불한 메타데이터 금액으로부터 셀룰러 폰 네트워크 관리 회사의 몇 퍼센트의 커미션을 공제하고, 인증코드 데이터를 준비하는 인증코드 관리 회사에 차감 금액을 지불한다. 단계(906)에서, 인증코드 관리 회사는 몇 퍼센트의 커미션을 지불된 차감 금액으로부터 공제하고, 차감 금액을 메타데이터 공급자에게 지불한다. 결과적으로, 셀룰러 폰 네트워크의 관리 회사는 인증코드 관리 회사의 이용에 대한 커미션을 받고, 인증코드 관리 회사는 개인 인증코드 데이터에 대한 커미션을 받는다. 메타데이터 공급자는 전송된 메타데이터에 대한 청구금으로서 차감 금액을 받는다.
모바일 장치의 오디오 메타데이터 서비스
모바일 폰과 PDA 등의 모바일 장치가 MP3 수금 등의 음악 파일을 수신하고, 저장하고, 재생하기 위해 방송 수신기, 대용량 메모리 및 고속의 프로세서를 점차 구비함에 따라서, 디지털 무선 리코더(DRR) 소프트웨어는 추가의 응용 프로그램으로서 부가될 것이다.
DRR 기능을 가진 모바일 장치에 의해 사용자는 방송 오디오를 그들의 메모리에 녹화하여, 녹화된 오디오를 자신이 원하는 시간에 재생할 수 있다. 사용자는 모바일 장치에 탑재된 통신 네트워크를 통해 무선 방송국 또는 제 3 자 메타데이터 서비스 공급자에 의해 전송된 텍스트 메타데이터를 이용하여 그들의 모바일 장치 내의 녹화된 오디오를 찾고, 네비게이팅하고, 관리할 수 있다. 특히, 방송 오디오 내의 시간 위치 또는 간격으로 판단하는 메타데이터의 세그먼트화 정보에 의해 사용자는 계층 또는 하이라이트 브라우징을 제공하는 메타데이터에 따라서 브라우징할 수 있다. 따라서, 전송된 메타데이터를 그들의 모바일 장치에 녹화된 오디오의 세그먼트와 연관시킬 필요가 있다.
대응하는 미디어(오디오 프로그램)에 대한 메타데이터의 미디어 로컬리제이션에 있어서, 방송되고 있는 프로그램의 현재 시각을 나타내는 방송 시간은 아날로그 오디오 방송에서도 이용된다. 예를 들어, 방송 시간은 IS-95 A/B/C 코드 분할 다중 접속(CDMA) 표준에 정의된 동기 채널 상에 반송된 GPS 시각으로부터 획득될 수 있다. 또한, 장치가 인터넷 접속을 지원하면, 방송 시간은 협정 세계시(UTC)를 제공하는 인터넷에 접속된 타임 서버로부터 획득될 수 있다.
따라서, 방송 시간을 이용함으로써, 아날로그 오디오 방송 프로그램이 인덱싱될 수 있으며, 그들의 세그먼트 정보는 특히 DRR 기능을 가진 모바일 장치의 메타데이터에 따라서 브라우징될 수 있다.
또한, 모바일 장치는 어느 곳이든 이동하고, 무선 방송국의 주파수는 방송 지역에 따라서 변할 수 있기 때문에, 프로그램 가이드 정보는 관련 지역의 주파수를 반송할 수 있어야 하며, 모바일 장치는 임의의 지역에서 방송국의 적절한 주파수를 동조할 수 있다. 이러한 목적으로, 모바일 장치에 대해서 특히 설계된 프로 그램 가이드 정보를 제공할 필요가 있다.
도 10은 아날로그 튜너와 DRR 기능을 구비한 모바일 장치의 예시적인 블로도이다.
튜너/디지타이저의 모듈(1001)은 방송 오디오 신호를 수신하여 디지털화 방송 신호로 변환한다.
녹화된 방송 프로그램의 예약 시각일 때, 미디어 인코더(1002)는 디지털화 방송 신호를 인코딩하여 메모리(1003)에 저장한다.
클록(1004)은 통신(1006)을 통해 수신된 UTC(그리니치 평균시(GMT)로서 알려짐)와 동기화된다. 예를 들어, 모바일 폰의 경우에, 로컬 클록은 IS-95 A/B/C CDMA 표준에 정의된 동기 채널 상에 반송된 시스템 시각과 동기화된다. 또한, 인터넷 접속을 지원하는 장치의 경우에, 장치의 로컬 클록은 네트워크 타임 프로토콜을 통해 타임 서버에 제공된 UTC와 동기화될 수 있다.
스케줄러(1005)는 사용자가 프로그램을 선택하여 추후에 녹화되는 프로그램을 예약하도록 그래픽 유저 인터페이스를 사용자에게 제공한다. 스케줄러(1005)는 어느 프로그램이 녹화되고 중지되는지를 알기 위해서 예약 리스트를 체크한다. 과정의 상세한 설명이 도 11을 참조하여 설명될 것이다.
통신(1006)은 모바일 폰의 경우에, 콜 셋업 신호와, 모바일 장치 시스템 타임 신호와, 디지털화된 음성 신호 등의 모바일 장치 통신에 사용된다. 추가로, 메타데이터는 한국의 네이트 및 매직 엔 서비스 호스트 등의 서비스 공급자의 호스트를 상호 접속하는 통신을 통해 전송될 수 있다. PDA의 경우에, 인터넷 프로토콜은 통신(1006)을 통해 지원될 수 있다.
미디어 플레이어(1007)는 메모리(1003)에 저장된 녹화 프로그램을 디코딩한다. 녹화 프로그램을 디코딩한 후에, 미디어 플레이어(1007)는 디코딩된 신호를 출력 장치(1010)에 전송한다.
브라우저(1008)는 통신(1006)을 통해 메타데이터 공급자로부터 수신된 메타데이터에 따라서 녹화 프로그램의 세그먼트 정보를 디스플레이한다. 브라우저는 세그먼트를 재생할 수 있다.
입력(1009) 및 출력(1010) 모듈은 각각 스피커와 디스플레이 등의 사용자 출력과 버튼 등의 사용자 입력 역할을 한다.
도 11은 스케줄러(1005)의 녹화 과정의 흐름도이다. 여기서, 프로그램 가이드 정보뿐만 아니라 메타데이터는 서비스 공급자의 호스트를 상호 접속하는 통신(1006)을 통해 푸시(push) 서비스 또는 풀(pull) 서비스를 이용하여 모바일 장치에 전송될 수 있다. 도 11의 단계(1102)에서, 스케줄러(1005)는 예약 리스트에 리스트된 프로그램의 예약된 녹화 시작 시각과 현재의 시각을 비교하는 예약 리스트를 체크하여, 어느 프로그램이 녹화되는지를 결정한다. 녹화될 프로그램이 결정되면, 스케줄러(1005)는 통신을 통해 수신된 프로그램 가이드 정보로부터 프로그램의 주파수 정보(채널 정보)를 추출하고, 튜너/디지타이저(1001)는 단계(1104)에서 그 주파수로 동조한다. 단계(1106)에서, 미디어 인코더(1002)는 방송 오디오를 인코딩하여 메모리(1003)에 저장하기 시작하고, 스케줄러는 파일명 또는 파일 식별자 등의 프로그램 식별자와 함께 현재 시각을 연관 테이블에 저장한다. 예시적인 연관 테이블이 표 1에 도시되어 있다. 추후에, 연관 테이블을 이용하여, 브라우저(1008)는 방송 시간에 따라서 녹화 오디오 프로그램의 세그먼트 정보를 디스플레이할 수 있다. 프로그램을 녹화하는 동안에, 스케줄러(1005)는 프로그램 종료 시각을 체크하고, 단계(1108)에서 녹화 과정이 중단되는지 여부를 결정한다. 프로그램이 끝나면, 스케줄러는 단계(1110)에서 녹화를 중단하고 단계(1102)로 진행하여 예약 리스트를 체크한다.
Figure 112006015491965-pat00001
또한, 모바일 장치는 오디오 프로그램을 인코딩하고 리코딩할 때, 인코딩된 스트림과 함께 시스템 시각을 저장하는 것이 중요하다. 한가지 가능한 방법은 오디오 신호를, 예를 들어, ATSC-PSIP에 정의된 STT 등의 현재 시각에 대한 MPEG-2 사적 섹션과 같은 시스템 정보를 포함한 MPEG-2 트랜스포트 스트림의 형태로 인코딩하는 것이다. 미국 특허 출원 제 10/369,333 호(2003년 2월 19일 출원)에 기재된 바와 같이, 다른 방법은 리코딩 스트림에 대한 파일의 대응하는 바이트 위치와, 방송 시간 또는 미디어 시각 등의 시간적으로 샘플링된 기준 시각 세트를 포함하는 바이트 오프셋 테이블을 이용하는 것이다. 따라서, 리코딩된 스트림 내에 포함된 시스템 시각을 조사하거나, 바이트 오프셋 테이블을 이용함으로써, 모바일 장치는 메타데이터에 따른 시간 위치에 접근할 수 있다.
모바일 장치는 어느 곳이든 이동하고, 무선 방송국의 주파수는 방송 지역에 따라서 변할 수 있기 때문에, 프로그램 가이드 정보는 모바일 장치가 임의 지역의 방송국의 적절한 주파수와 동조하도록 그들 주파수를 반송해야 한다.
모바일 장치는 모빌리티 지원국(Mobility Support Station: MSS)의 신호로부터 그 지역을 검출할 수 있다. 도 12에 도시된 바와 같이, 예를 들어, 모바일 폰의 경우에, 모바일 장치의 이동(핸드 오프)은 모바일 장치가 접속되는 모빌리티 지원국으로부터 검출될 수 있다. 따라서, 모바일 장치는 모바일 장치가 새로운 지역에 있는 지와, 모바일 장치가 새로운 프로그램 가이드 정보를 수신해야 하는지를 결정할 수 있다. 예를 들어, 모바일 장치가 방송국의 방송 프로그램을 수신하고 방송국의 무선 주파수가 이전 지역과 다른 새로운 지역으로 핸드 오프할 때, 모바일 장치는 동일 방송국에 대한 새로운 지역의 무선 주파수 정보를 공급하는 프로그램 가이드 정보를 이용할 수 있다.
채널 번호, 방송 시간 및 프로그램 타이틀 등의 전형적인 정보에 추가로 모바일 장치의 경우에, 프로그램 가이드 정보는 지역 정보 및 프로그램에 대한 로컬 주파수를 포함해야 한다.
표 2는 2개 부분으로 구성된 예시적인 프로그램 가이드 정보를 나타낸다. 하나는 프로그램 정보이며, 다른 하나는 채널 정보이다. 프로그램 정보는 응용 프로그램이 채널 정보에 접근할 수 있는 채널 식별자를 갖는다. 채널 정보는 채널 식별자, 채널 명, 라디오 FM 또는 AM 등의 미디어 유형, 지역 식별자, 및 지역 로컬 주파수를 포함한다.
Figure 112006015491965-pat00002
이러한 방식으로, 모바일 장치에 맞게 특별히 설계된 프로그램 가이드 정보와 DRR에 대한 방송 시간을 이용하는 방법은 또한, 방송 시간이 시스템 정보, 즉, ATSC-PSIP에 정의된 STT에 대한 MPEG-2 비밀 섹션 등의 방송 스트림으로부터 반송 또는 얻게 될 수 있는 디지털 오디오/멀티미디어 방송(DAB/DMB)에 적용될 수 있다.
당업자라면 본 명세서에 기재된 기술에 대해 다양한 수정 및 변경이 행해질 수 있다는 것을 알 수 있다. 따라서, 다양한 수정 및 변경이 첨부한 청구 범위 및 그 등가의 범위 내에 있다면, 본 발명은 기술의 수정 및 변경을 커버한다.
본 발명에 따르면, 인덱싱 동안에 템플릿, AV 프로그램의 비주얼 시공간 패턴에 대한 세그먼트 마크 및 북마크에 사용하기 위한 기술을 제공할 수 있다.

Claims (20)

  1. 오디오-비주얼(AV) 프로그램을 세그먼트화 메타데이터(segmentation metadata)로 인덱싱하는 방법 - 상기 AV 프로그램의 특정 위치 및 간격은 타임-인덱스로 표현됨 - 에 있어서,
    상기 AV 프로그램의 비주얼 콘텐츠에 대한 정보를 나타내는 비주얼 시공간 패턴을 제공하는 단계와,
    세그먼트 마크 또는 북마크 기술을 이용하여, 상기 AV 프로그램의 특정 부분이 선택되면 상기 선택된 부분을 상기 비주얼 시공간 패턴 상에 시각적으로 마킹하는 단계와,
    상기 선택된 부분의 세그먼트를 이용하여 세그먼트 계층을 형성하는 단계
    를 포함하는 AV 프로그램 인덱싱 방법.
  2. 제 1 항에 있어서,
    상기 세그먼트 계층은 인덱싱되는 상기 AV 프로그램에 대한 세그먼트의 트리 뷰를 포함하는
    AV 프로그램 인덱싱 방법.
  3. 제 1 항에 있어서,
    상기 세그먼트 계층에 대한 템플릿을 이용하는 단계를 더 포함하되, 상기 세그먼트 계층에 대한 템플릿은 AV 프로그램에 대하여 미리 정의된 대표적인 세그먼트 계층을 포함하는
    AV 프로그램 인덱싱 방법.
  4. 제 3 항에 있어서,
    상기 세그먼트 계층에 대한 템플릿이 인덱싱 동안에 이용가능할 때, 상기 템플릿 세그먼트 계층의 특정 위치에 대응하는 상기 세그먼트 계층의 위치에 새로운 세그먼트를 자동으로 생성하는
    AV 프로그램 인덱싱 방법.
  5. 제 3 항에 있어서,
    상기 세그먼트 계층에 대한 템플릿이 인덱싱 동안에 이용가능하지 않을 때, 세그먼트 계층의 자 노드(child)로서 새로운 세그먼트를 생성하는
    AV 프로그램 인덱싱 방법.
  6. 제 1 항에 있어서,
    녹화된 AV 프로그램의 특정 시간 위치로의 직접 접근을 가능하게 하는 로케이터로서 방송 트랜스포트 스트림 상에 수반된 방송 시간을 이용하는 단계를 더 포함하는
    AV 프로그램 인덱싱 방법.
  7. AV 프로그램을 실시간으로 인덱싱하기 위한 장치에 있어서,
    상기 AV 프로그램의 비주얼 콘텐츠에 대한 정보를 나타내는 비주얼 시공간 패턴(a visual spatio-temporal pattern)을 표시하는 수단과,
    세그먼트 마크 또는 북마크 기술을 이용하여 상기 AV 프로그램 내의 특정 위치를 선택하는 수단 -상기 선택 수단에 의해 선택된 위치는 상기 비주얼 시공간 패턴상에 시각적으로 마킹됨- 과,
    상기 선택 수단에 의해 선택된 위치를 포함하는 세그먼트를 세그먼트 계층 형식으로 표시하는 수단
    을 포함하는 AV 프로그램 실시간 인덱싱 장치.
  8. 제 7 항에 있어서,
    상기 선택 수단에 의해 마킹된 시간 포인트 부근의 프레임들을 연속적으로 나타내는 연속적인 프레임 리스트를 표시하는 수단과,
    상기 세그먼트 계층의 동일 레벨에 있는 키 프레임을 나타내는 키프레임 리스트 표시 수단과,
    현재의 키 프레임을 디스플레이하는 정보 패널 수단과,
    상기 AV 프로그램을 제공하는 AV/미디어 플레이 수단과,
    상기 세그먼트 계층에 대한 템플릿을 표시하는 세그먼트 계층 템플릿 표시 수단
    중 하나 이상을 더 포함하는 AV 프로그램 실시간 인덱싱 장치.
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 제 4 항에 있어서,
    상기 새로운 세그먼트의 타이틀은 상기 템플릿의 대응하는 세그먼트의 타이틀을 디폴트 타이틀로 하는
    AV 프로그램 인덱싱 방법.
  14. 삭제
  15. 제 1 항에 있어서,
    상기 세그먼트는 연속적인 샷(consecutive shots)의 집합을 포함하며,
    각각의 샷은 유사한 장면 특성을 가진 연속적인 프레임의 집합을 포함하되,
    상기 세그먼트 내의 프레임 중 하나를 선택하여 그 세그먼트에 대한 키 프레임을 얻는 단계를 더 포함하는
    AV 프로그램 인덱싱 방법.
  16. 제 1 항에 있어서,
    상기 세그먼트 계층을 조작하는 단계를 더 포함하는
    AV 프로그램 인덱싱 방법.
  17. 제 16 항에 있어서,
    상기 세그먼트 계층의 조작은 그룹, 그룹해제, 병합 및 분할을 포함하는
    AV 프로그램 인덱싱 방법.
  18. 삭제
  19. 삭제
  20. 삭제
KR1020060020407A 2005-03-03 2006-03-03 Av 프로그램 인덱싱 방법 및 그래픽 유저 인터페이스 장치 KR100825191B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/071,895 US20050203927A1 (en) 2000-07-24 2005-03-03 Fast metadata generation and delivery
US11/071,895 2005-03-03

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020070097567A Division KR100849274B1 (ko) 2005-03-03 2007-09-27 세그먼트화 메타데이터의 재사용 방법

Publications (2)

Publication Number Publication Date
KR20060096362A KR20060096362A (ko) 2006-09-11
KR100825191B1 true KR100825191B1 (ko) 2008-04-24

Family

ID=37623992

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020060020407A KR100825191B1 (ko) 2005-03-03 2006-03-03 Av 프로그램 인덱싱 방법 및 그래픽 유저 인터페이스 장치
KR1020070097567A KR100849274B1 (ko) 2005-03-03 2007-09-27 세그먼트화 메타데이터의 재사용 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020070097567A KR100849274B1 (ko) 2005-03-03 2007-09-27 세그먼트화 메타데이터의 재사용 방법

Country Status (1)

Country Link
KR (2) KR100825191B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030067133A (ko) * 2002-02-07 2003-08-14 (주)지토 동영상의 자동분할 기술을 응용한 지능형 디지털 영상녹화기 시스템
KR20040104481A (ko) * 2002-03-05 2004-12-10 캐논 가부시끼가이샤 동화상 관리 방법 및 장치
KR20050002681A (ko) * 2000-07-24 2005-01-10 비브콤 인코포레이티드 멀티미디어 북마크와 비디오의 가상 편집을 위한 시스템및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6003039A (en) 1997-06-27 1999-12-14 Platinum Technology, Inc. Data repository with user accessible and modifiable reuse criteria
KR100499037B1 (ko) * 2003-07-01 2005-07-01 엘지전자 주식회사 디지털 텔레비젼 수신기의 립 싱크 테스트 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050002681A (ko) * 2000-07-24 2005-01-10 비브콤 인코포레이티드 멀티미디어 북마크와 비디오의 가상 편집을 위한 시스템및 방법
KR20030067133A (ko) * 2002-02-07 2003-08-14 (주)지토 동영상의 자동분할 기술을 응용한 지능형 디지털 영상녹화기 시스템
KR20040104481A (ko) * 2002-03-05 2004-12-10 캐논 가부시끼가이샤 동화상 관리 방법 및 장치

Also Published As

Publication number Publication date
KR20060096362A (ko) 2006-09-11
KR100849274B1 (ko) 2008-07-29
KR20070111413A (ko) 2007-11-21

Similar Documents

Publication Publication Date Title
US20050203927A1 (en) Fast metadata generation and delivery
KR100904098B1 (ko) 다수의 비디오 스트림의 리스팅 및 네비게이팅 방법, 장치및 시스템
KR100904100B1 (ko) 프레임 관련 정보 제공 방법, 프레임 관련 정보 수신 방법및 프레임 관련 정보 검색 시스템
US20050210145A1 (en) Delivering and processing multimedia bookmark
US20050193425A1 (en) Delivery and presentation of content-relevant information associated with frames of audio-visual programs
US20050193408A1 (en) Generating, transporting, processing, storing and presenting segmentation information for audio-visual programs
US20050204385A1 (en) Processing and presentation of infomercials for audio-visual programs
JP6335145B2 (ja) メディアメタデータを相関させる方法および装置
US7170936B2 (en) Transcoding apparatus, system, and method
KR100317303B1 (ko) 방송 프로그램 녹화 및 재생시 a/v와 데이터간 동기화장치
CN102415095B (zh) 记录并且呈现由拼接的段形成的节目的数字视频录像机
US20080112690A1 (en) Personalized local recorded content
KR100711608B1 (ko) 홈단말에서 실시간 필터링된 방송 비디오 관리 시스템 및그 방법
KR20100126405A (ko) 녹화된 오디오/비디오 스트림의 오디오 데이터를 대체하는 방법 및 장치
KR101181777B1 (ko) 방송 시스템 및 방법
WO2013011696A1 (ja) 送信装置、受信再生装置、送信方法及び受信再生方法
JP2004536480A (ja) 多視点即時リプレイ機能を実現するシステムと方法
WO2007087325A2 (en) Thematic grouping of program segments
Kang et al. Metadata broadcasting for personalized service: A practical solution
WO2010046971A1 (ja) データ伝送装置およびデータ受信装置
KR100825191B1 (ko) Av 프로그램 인덱싱 방법 및 그래픽 유저 인터페이스 장치
US20050083976A1 (en) Embedding tv anytime crids
JP2004193673A (ja) 受信装置及び方法、再生装置及び方法、並びに記録再生装置及び方法
KR102076275B1 (ko) 디지털 미디어 콘텐츠 재생 제어 방법 및 그 장치
KR100959184B1 (ko) 디지털 tv 방송 저장 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120416

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130329

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee