KR19990072265A

KR19990072265A - 디지털비디오스트림을위한데이터애노테이션시스템

Info

Publication number: KR19990072265A
Application number: KR1019990001032A
Authority: KR
Inventors: 샤파프랭크안드레; 세이드만데이비드이스라엘
Original assignee: 포만 제프리 엘; 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 1998-02-27
Filing date: 1999-01-15
Publication date: 1999-09-27
Also published as: KR100312481B1; JP3548037B2; JPH11341357A

Abstract

본 발명은 멀티미디어 데이터 처리 방법에 있어서, 애노테이션 데이터(annotation data)를 비디오/오디오 스트림(stream)에 삽입하는 방법 및 그 시스템에 관한 것으로서, 멀티미디어 데이터를 디지털 비디오/오디오 스트림(stream)에 삽입하기 위한 시스템에 대하여 설명된다. 상기 시스템을 사용하면, 비디오/오디오 스트림이 멀티미디어 데이터 아이템을 부가하기 위해 애노테이션될(annotated) 수 있다. 멀티미디어 데이터가 삽입되면, 비디오, 오디오 및 데이터는 단일 전송 스트림에서 반송된다. 삽입된 데이터 내용("데이터 애노테이션")을 시간적으로 그리고 공간적으로 상기 비디오/오디오 스트림의 내용과 결합시키는 방식으로 데이터가 삽입된다. 비디오 또는 오디오 내용을 간섭하지 않거나 상기 내용의 디코딩(decoding)을 방해하지 않는 방식으로, 데이터 아이템의 삽입이 수행된다. 본 발명은 데이터/비디오/오디오 객체 연관에 사용되는 스크린 구역을 정의하고, 화면 "전후관계(context)"를 재호출하며, 표시된 스크린 구역 사이에서 보간(補間)(interpolating)하며, 또한 애노테이션 정보를 표시된 비디오/오디오 내용(즉, 비디오/오디오 스트림의 객체나 소리)의 서브셋에 결합하기 위한 데이터 구조와 기능에 대하여 설명한다.

Description

디지털 비디오 스트림을 위한 데이터 애노테이션 시스템 {A DATA ANNOTATION SYSTEM FOR DIGITAL VIDEO STREAMS}

본 발명은 멀티미디어 스트림에 디지털 애노테이션 정보를 삽입하기 위한 방법 및 그 시스템에 관한 것이다.

디지털 및 아날로그의 비디오를 편집하는 시스템이 알려져 있다. 미국 특허 제5,577,191호, 제5,559,562호 및 제5,647,7047호에 개시된 것과 같은 시스템들은 실재하는 비디오 내용으로부터 새로운 비디오 제재(製材)를 창작하거나 저작(authoring)하고, 스플라이싱(splicing), 페이딩(fading) 및 다른 특수 효과와 같은 특성 기능을 가지도록 설계되어 있다. 미국 특허 제5,649,171호의 제어(control) 정보 또는 미국 특허 제5,012,334호의 비디오 색인 정보와 같은 비디오와 관련된 데이터는 상기 비디오의 내용으로부터 분리되어 있다.

미국 특허 제5,585,858호, 제5,589,892호 및 제5,027,400호를 포함하는 현재의 많은 비디오 분배 시스템은 신호(signal)를 반송하고 데이터를 제어하기 위해서 아날로그 비디오 방송의 "수직 공백 간격"("vertical blanking interval" : VBI) 주기를 활용한다. 반송되는 상기 신호는, (미국 특허 제5,543,852호에서처럼) 아날로그 또는 디지털이거나, (미국 특허 제4,855,827호에서처럼) 둘 중 어느 것이어도 좋다. 이러한 형식의 데이터 삽입의 일반적인 용도는 아날로그 비디오 방송에서 폐쇄 캡션 텍스트(closed-captioning text)를 전송하는 것이다. 이와는 대조적으로, 본 발명은 디지털 비디오 내에서 제어 데이터 및 기타 데이터를 전송하는 것에 초점을 맞추고 있다. 상기 데이터의 전송은 비디오/오디오 내용 그 자체의 전송과 동일하며, 데이터에 대한 잠재적 대역폭은 VBI의 사용으로 얻을 수 있는 대역폭보다 훨씬 크다.

비디오 전용 시청(video-only viewing)의 향상을 위한 일부 시스템은 분리된 데이터와 비디오 소스(source)를 필요로 하며(예컨대, 미국 특허 제5,589,892호), 비디오 프로그램과 관련된 상태 정보(status information)를 제공한다.

1997년 7월 7일 출원된 미국 특허 출원 제08/888,572호인 "A SCHEME FOR THE DISTRIBUTION OF MULTIMEDIA FOLLOW-UP INFORMATION"에서는, 부가 데이터(supplementary data)의 분배를 위한 디지털 비디오 프로그램에서 부가 정보를 삽입하기 위한 방법을 설명하고, 삽입이 실제적으로 어떻게 수행되는지는 특별하게 다루고 있지 않다. 상기 삽입을 수행하는데 사용되는 방법, 예를 들어 MPEG-2 스트림에서 임의의 데이터를 위한 내밀 데이터 스트림(private data stream)의 사용은 널리 알려져 있다. 1997년 11월 12일 출원된 미국 특허 출원 제08/968,404호인 "A SYSTEM FOR TWO-WAY DIGITAL MULTIMEDIA DIGITAL MULTIMEDIA BROADCAST AND INTERACTIVE SERVICE" )에서는, 시청자의 요구에 응답하여 주문 제작 데이터(customizing data)를 동적으로 제공하는 국면(context)에서 상기 삽입 방법이 역시 활용되고 있다.

1997년 5월 9일 출원된 미국 특허 출원 제08/854,227호인 "METHOD FOR PROVIDING INDIVIDUALLY CUSTOMIZED CONTENT IN A NETWORK" 및 1997년 5월 9일 출원된 미국 특허 출원 제08/854,225호인 "METHOD FOR DISTRIBUTING ADVERTIZING IN A DISTRIBUTED WEB MODIFICATION SYSTEM"은, 웹 페이지(Web page), 비디오 스트림(video stream), 또는 다른 매체에서 표적 광고와 같은 주문 내용을 사용자에게 제공하는 것을 설명하고 있다.

전술된 상기 네 개의 특허 출원, 즉, 제08/888,574호, 제08/968,404호, 제08/854,227호 및 제08/854,225호는 참고 목적으로 여기에 인용한다.

본 발명은 사용의 편의를 제공하고 삽입 프로세스(embedding process)를 용이하게 하는 특징을 가진 디지털 비디오 스트림(stream)을 위한 저작 시스템(authoring system)의 필요성을 충족시켜 준다. 본 발명은 디지털 비디오 스트림에 임의의 데이터 내용을 삽입하기 위한 향상된 방법과 시스템을 제안한다. 여기에서 제안된 저작 시스템, 또는 "애노테이션(annotation)" 시스템은, 각 비디오 프레임(frame)의 수작업 편집(hand-editing)에 의한 내밀(private) 데이터 처리 능력을 활용한 "브루트 포스(brute force)" 방법과는 대조적으로, 보다 효과적이고 시간을 절약하는 데이터 애노테이션(annotation)을 수행하기 위한 수단을 제공한다.

본 발명의 한 특징인 비디오 화면의 전후관계 전환(context switching of video scene) 및 비디오에서 표시된 위치의 보간(補間)과 보외(補外) 등에 의하여, 비디오/데이터 프로그램의 작성자(즉, "편집자")가 각 삽입에 관하여 지정할 것을 요하는 대신에, 시스템에 의하여 삽입의 대부분이 자동적으로 수행될 수 있게 된다. 따라서, 프로그램의 편집은 종래의 시스템에서보다 훨씬 더 적은 시간과 노력을 소비하면서도 수행할 수 있게 되었다. 상기 시스템은 주문형 비디오(Video-on-Demand)와 방송 비디오 환경에 모두 적용될 수 있다.

본 발명의 목적은 비디오/데이터 스트림에 데이터를 애노테이션함으로써, 애노테이션된 비디오/데이터 스트림을 작성기 위한 시스템을 제공함에 있다.

본 발명의 다른 목적은, 수작업으로 각 프레임 또는 서브 프레임(sub-frame)을 애노테이션하는 "브루트 포스" 방법과 대조적으로, 시스템의 사용자(편집자)로부터 시간 및 노력을 덜어주는 애노테이션 시스템을 제공함에 있다.

본 발명의 또 다른 목적은, 데이터 삽입을 위하여 (시간적으로 또한 공간적으로) 비디오가 "표시(marking)"되는 프로세스를 자동화 - 상기 자동화에 의하여, 편집자가 만든 표시(markings)로부터 보간(補間)과 보외(補外)를 통한 표시가 제공됨 - 함으로써 시간과 노력을 덜어주는 것에 있다.

본 발명의 또 다른 목적은, 편집자가 이전의 비디오 화면의 전후관계(context)를 재호출(recall)하는 것을 가능하게 함으로써, 이전의 화면과 유사한 화면에 대하여 애노테이션을 재작성하는 노력을 덜어준다.

본 발명은 애노테이션 데이터를 스트림에 삽입하고, 상기 애노테이션된 데이터를 상기 스트림의 내용의 서브셋(subset)과 결합(coordinate)시키는 방법을 설명한다. 여기에서 제시된 시스템에 의하여 서비스 제공자는, 매우 간단하게 시청자에게 제시하고 시청자가 그것을 추출할 수 있도록, 애노테이션 데이터를 디지털 비디오/오디오(또는 오디오만) 스트림으로 삽입할 수 있게 된다. 삽입은, 이를 비디오/데이터 편집자가 편집 어플리케이션을 사용하여 오프 라인(off line)으로 수행한다.

상기 편집자는 비디오/오디오 내용의 서브셋(예컨대, 사람이나 빌딩과 같은 비디오에서 보여지는 객체)을 저장된 멀티미디어 파일들("애노테이션 데이터 아이템(annotation data item)"이라고도 불림)과 연관(associate)시킨다. 비디오에 보이는 상기 객체들은 사용자로 하여금 상기 객체들과 관련된 데이터를 요구하게 하는 가시 아이콘(visual icon)으로 사용된다. 선택적 사항으로, 애노테이션 데이터 아이템은, 말이나 음악과 같은 오디오 정보 또는 프로그램의 시간 구획(time segment) 또는 전체 프로그램 등과 연관될 수 있다.

따라서, 본 발명은 애노테이션이 데이터 스트림의 내용과 결합되어 있는 비디오/오디오 스트림을 애노테이션하기 위한 방법이다. 본 발명에 의하면, 상기 스트림의 데이터 내용의 서브셋(subset)의 표시가 각 서브셋을 식별하기 위해 작성되고, 각 서브셋은 서브셋 식별자(subset identifier ; ID)로 지정된다. 각 서브셋 ID는 차례로 파일 식별자와 함께 식별되고, 파일 식별자와 결합된 각 파일은 애노테이션 정보를 포함하고 있다. 새로운 서브셋 식별자는 편집자에 의하여 명시적으로 지정된 파일 식별자들 간을 보간(補間)함으로써 또는 그들로부터 보외(補外)함으로써 시스템에 의해 자동적으로 생성될 수 있다.

일단 애노테이션(그리고 자동 식별자의 생성)이 수행되면, 상기 파일들은 해당 서브셋 식별자(즉, 서브셋 ID)들에 의하여 지정되는 스트림의 위치에서 상기 스트림으로 삽입된다.

용어 "애노테이션 데이터(annotation data)"는 편집자가 비디오/오디오 스트림의 특정 위치와 시점에서 비디오/오디오 내용과 연관되기를 바라는 임의의 형식의 임의의 데이터를 의미함을 주의하여야 한다. 이러한 내용은 텍스트, 비디오, 오디오 또는 다른 소스 제재가 될 수 있다.

도 1은 디지털 비디오/오디오 스트림(stream)에 멀티미디어 데이터를 삽입하는데 사용되는 편집 스테이션(station)을 도시한 도면.

도 2는 편집 시스템의 삽입 어플리케이션(application) 및 보간기 (interpolator)/보외기 (extrapolator)를 도식적으로 설명한 도면.

도 3은 클라이언트의 구내(client's premise)에서 상기 스트림으로부터 삽입된 멀티미디어 데이터를 추출하는 것을 도시한 도면.

도 4는 본 발명의 바람직한 한 실시예에 의하여, 스트림의 표시된 구역들 사이에서 보간(補間)(interpolation)이 수행되는 방법을 도시한 도면.

도 5는 본 발명의 바람직한 실시예에 의하여, 스크린 구역 테이블(Screen Region Table)에 대한 데이터 구조를 도시한 도면.

도 6은 데이터 애노테이션(data-annotating) 비디오 편집자의 사용자 인터페이스(user interface)의 작동을 도시한 흐름도.

도 7은 편집자가 삽입된 데이터가 연관될 구역을 선택할 때, 상기 데이터 애노테이션 비디오 편집자의 사용자 인터페이스의 작동을 도시한 흐름도.

도 8은 삽입 어플리케이션의 작동을 도시한 흐름도.

도 9는 애노테이션 동안의 화면 재호출을 위한 알고리즘(algorithm)을 도시한 흐름도.

도 10은 표시된 지역의 보간(補間)을 위한 알고리즘을 도시한 흐름도.

도 11은 표시된 지역의 보외(補外)를 위한 알고리즘을 도시한 흐름도.

* 도면의 주요 부분의 부호의 설명

4 : 포인팅 장치10 : 헤드 엔드 서버

11 : 셋탑 박스 33 : 보간(補間)기/보외(補外)기

도 1 내지 도 3은 애노테이션 데이터를 디지털 비디오/오디오 스트림에(또한 그로부터) 삽입(및 추출)하는 일련의 과정을 보여주고 있다. 도 1은 편집 스테이션에서 편집자가 어디에서 그리고 언제 비디오/오디오와 결합되는가를 나타내기 위하여, 애노테이션 데이터가 어떻게 스트림을 표시하는가를 보여준다. 이러한 표시들은 디스크에 저장된 표시 파일에서 수집된다. 도 2는 상기 표시 파일을 근거로 하여, 자동적인 새로운 표시의 생성과 비디오/오디오 스트림에 데이터를 삽입하기 위하여 상기 표시 파일의 표시들에 대한 보간(補間)과 보외(補外)를 보여준다. 상기 애노테이션된 스트림은 헤드 엔드(head end)로부터 셋탑 박스(set-top box ; STB)(도 3 참조)로 보내지고, 상기 STB에 의해 사용자의 제어로 데이터는 추출된다.

도 1에서 보는 바와 같이, 삽입 과정에서, 편집자는 디스크 1에 저장된 비디오/오디오 파일을 선택한다. 편집자가 파일을 애노테이션하기 위해 사용하는 상기 편집 시스템(2)은, 비디오 플레이어(5), 삽입 애플리케이션(6)(도 2 참조), 보간(補間)기/보외(補外)기(33)(도 2 참조), 사용자 인터페이스(7), 키보드(3), 모니터(9) 및 포인팅 장치(4)로 구성된다. 상기 시스템(아래에 상세히 기술됨)을 사용하여, 상기 편집자는 프로그램을 작동시키고, 데이터를 객체들과 연관시킴으로써 애노테이션하기 원하는 프로그램에 나타난 비디오 또는 오디오 객체를 선택한다. 상기 애노테이션은 비디오 객체인 경우 사용자 인터페이스의 사용으로 비디오를 멈추거나 포인팅(pointing) 장치의 사용으로 상기 필요한 비디오 객체 주위의 사각형(8)을 작도함(describing)으로써 수행된다. 상기 사각형은 애노테이션 데이터와 연관되는 프로그램의 비디오 내용에 있는 스크린 구역(비디오 내용의 서브셋이라고도 함)을 정의한다. 사용자 인터페이스는 편집자에게 상기 스크린 구역과 연관될 데이터와 상기 연관이 유효한 시간 구역(time period)에 관하여 기술하는 정보에 관하여 지시한다. (서로 다른 연관된 데이터를 갖는) 복수의 구역이 스크린에 정의될 수 있다. 각 서브셋은 서브셋 식별자(subset identifier ; subset ID)를 할당받는다.

오디오 객체의 경우에, 편집자는 애노테이션될 오디오 객체(말이나 음악)가 들리는 시간에 비디오 객체 대신에 "오디오 애노테이션"(audio annotation) 아이콘(icon)을 선택한다.

시간 세그먼트(time segment) 연관은 프로그램 수행 동안 데이터를 주어진 시간 구역에 연관시키는 것을 포함한다. 예를 들면, 일반적인 프로그램 정보(타이틀, 길이, 제작정보 등)는 전체 프로그램과 연관될 수 있으며 (또한 주기적으로 삽입될 수 있고), 또한 상기 프로그램에서 보여지는 위치와 관련되는 데이터(가령 집이나 풍경)는 이 위치가 상기 비디오와 관련되는 때에는 그것이 스크린 상에 있지 않더라도, 그 때의 시간 세그먼트 동안에 연관될 수도 있으며 삽입될 수도 있다.

상기 디지털 비디오 편집 시스템을 사용함으로써, 편집자는 화면(scene)에서 사람을 둘러싸고 있는 사각형과 같은 스크린 구역과 애노테이션 데이터를 연관시키기 위하여 특정의 화면을 "표시(mark)"한다. 이러한 "표시" 프로세스는 스크린 구역 명칭, 사각형의 좌표, 화면의 시간 스탬프(time stamp) 및 상기 연관된 애노테이션 데이터 아이템을 연관시킨다.

도 6은 편집시스템을 사용할 때 포함되는 단계들을 자세히 설명하고 있다. 일단 시작(35)되면, 편집자는 시스템 상에서 비디오 파일을 디스플레이하는 것을 보고(36), 하나를 선택한다(37). 상기 비디오를 플레이(play)하기 위해(38), 하나의 요구가 상기 비디오 플레이어(player)로 보내진다(5). 편집자가 (애노테이션 하고자하는 객체 근처의) 스크린을 클릭하면, 애노테이션에 대한 요구는 도 7에서 설명하는 바와 같이 수행된다(40)(후술함).

도 7에서 보는 바와 같이, 애노테이션이 수행될 때 잠시 멈춤 요구는 상기 비디오 플레이의(5)에 보내진다(43). 만약에 개방되지 않으면, 표시파일은 편집자에 의해 만들어진 애노테이션을 기록하기 위해 개방된다(44). 장면의 재호출이 애노테이션을 위해 요구될 때(45), 상기 애노테이션은 도 9에서 설명되는 바와 같이 수행된다(46)(후술함). 정상적인 애노테이션일 경우, 편집자의 클릭의 결합은 저장된다(47). 사각형은 편집자가 두 번째로 클릭할 때까지(49), 상기 위치로부터 커서(cursor)의 현재 위치까지 그려진다(48). 상기 변동은 저장되고(50) 현재의 제시 시간 스탬프(presentation timestamp ; PTS)는 비디오 플레이어로부터 얻어진다(51). 상기 편집자는 상기 애노테이션 데이터 파일 명칭에 대하여 지시를 받는다(52). 상기 PTS가 저장되고(53), "최종 애노테이션(end annotation)" 아이콘이 스크린에 만들어진다. 상기 비디오 플레이어에게 재생(55) 요구를 송신한다(55) 상기 편집자는 "최종 애노테이션" 아이콘에 클릭함으로써 애노테이션 데이터 연관이 종결되는 때를 나타낸다. 이렇게 함으로써 PTS는 얻어지고(57) 저장된다(58).

모든 필요한 구역이 애노테이션 데이터 아이템(annotation data item)과 연관되면, 표시 파일 디스크 1에 기록된다. 도 2를 참조하면, 상기 표시 파일은 전술한 바와 부가하여 새로운 표시의 자동적 생성을 위하여 보간(補間)기/보외(補外)기로 입력된다(33). 이 표시들과 상기 원래의 표시들은, 애노테이션된 비디오/오디오 파일(또는 비디오/오디오/데이터 파일)을 작성하기 위하여, 저장된 애노테이션 데이터 파일을 원래의 비디오/오디오 정보흐름 파일로 삽입할 것을 지시하기 위해 상기 표시를 사용하는 삽입 어플리케이션(6)에 입력된다. 상기 삽입 어플리케이션(6)은 삽입된 데이터와의 연관을 위해 표시되어진 스크린 구역의 설명을 포함하는 패킷(packet)을 발생시킨다.

삽입 어플리케이션(6)은, 연관된 객체와 관련되어 클라이언트(client)의 요구에 따라 즉시 클라이언트에게 활용가능하게 되도록 저장하기 위해서, 객체의 출현에 충분히 앞서, 애노테이션 데이터를 스트림의 위치에 있는 비디오/오디오 스트림으로 삽입한다.

상기 삽입은 스트림의 비트 전송률에서 혼잡을 피하기 위해 혼잡(bursty) 방식보다는 원할(smooth) 방식으로 수행된다. 예를 들면, 1 Kbyte의 애노테이션 데이터 파일은 각 200 byte의(혹은 이보다 작은) 패킷으로 분리되며, 상기 패킷들은 스트림에서, 1 Kbps보다 큰 데이터 패킷의 혼잡을 피하기 위하여 비디오와 오디오 패킷 사이에 산재하게 된다.

스크린 구역의 정의를 포함하는 테이블의 내용과 구조는 아래에 자세히 설명되고 있다.

삽입 과정은 여러 기능들을 포함한다.:

- 데이터 아이템과 연관되어 있는 구역을 표시하기 위해 비디오 파일 편집

- 표시된 구역 내에서의 보간(補間)

- 하나의 표시된 구역을 다른 것으로 보외(補外)

- 클라이언트 시스템에 현재의 활동중인 구역을 통지하기 위해 제어 패킷을 생성

- 애노테이션 데이터가 활용가능함을 통지하며 시청자에게 디스플레이될 텍스트 메시지 또는 아이콘을 포함하는 제어 패킷을 생성

- 정의된 구역과 연관되어 있는 애노테이션 데이터를 위해 내밀의 데이터 스트림을 생성

- 스트림의 적절한 위치에서 제어 및 데이터 패킷을 비디오와 오디오 패킷과 함께 다중화.

도 8은 삽입과정(6)에 있어서의 일련의 이벤트(event)들을 보여준다. 시작이 되면(59), 어플리케이션은 출력 파일을 열고(60), 이것은 애노테이션된 비디오/오디오/데이터 스트림이나 파일("출력 파일"이라 함)을 포함한다. 입력 비디오/오디오 파일을 읽고(62), 각 패킷화된 기초 시스템(packetized elementary system ; PES)의 헤더(header)를 찾는다. 이러한 헤더는 상기 표시 파일의 아이템에 의하여 참조로서 사용되는 상기 PTS를 포함한다. 입력 파일에서 읽혀진 PTS가 표시 파일에서 현재 아이템 것과 대응한다면(63), "시작 애노테이션(begin annotation)" 패킷은 상기 출력 파일에 기록된다. 애노테이션 데이터는 패킷화되고, 상기 패킷들은 그것들이 다 소모될 때까지(66) 출력 파일에 기록되며(68), 이때 이미 읽혀진 PES 헤더를 포함하는 패킷이 출력 파일에 기록된다(67). 따라서 애노테이션 데이터는 편집자에 의해 지정된 "시작 PTS"에서 출력 파일에 기록된다. 이것은 "엔드 PTS"까지 유효하며, 삽입기(embedder)는 상기 PTS를 가지고 있는 PTS 패킷을 찾으며(69), 발견 될 때에 출력 파일에 "엔드 애노테이션(end annotation)" 패킷을 기록한다(71).

상기 애노테이션된 비디오/오디오/데이터 프로그램은 연속적인 전송을 위해 디스크에 저장된다. 도 3에서 보는 바와 같이, 상기 프로그램이 케이블이나 인공 위성과 같은 전송 매체를 통해 "헤드 엔드(head end)"(10) 서버 (server)로부터 전송되는 것이 개시되었다. 상기 신호는 비디오와 오디오 내용을 디코딩(decoding)하는 셋탑 박스(set-top box)(11)에 의해 클라이언트의 구내(client premise)에서 수신되고, 디스플레이(12)에 비디오가 제시된다.

셋탑 박스에서 상기 삽입된 제어 정보가 추출되고, 스크린 구역 정보는 재구성된다. 제어 패킷에 포함된 메시지는 애노테이션 데이터의 활용가능성을 나타내기 위해 사용자에게 디스플레이된다. 상기 디스플레이는 스크린 구역에서 스크린상의(on-screen) 텍스트(text) 형태이거나 스크린상의 아이콘 형태이다.

상기 프로그램이 나타내지고 삽입된 데이터가 활용가능한 포인트에 이를 때, 사용자의 디스플레이는 활용가능성을 나타내는 스크린상의 메시지를 보여준다. 상기 사용자는 관심이 있거나 애노테이션 데이터와 결합되기로 지시된 비디오 객체(16)를 지시하기 위해 스크린상의 커서(14)를 움직이는 선택 사양을 가지고 있다. 스크린상의 커서의 움직임은 적외선 원격제어(13)에 의해 수행된다. 본 발명의 바람직한 한 실시예에 의하면, 이것은 원격제어 유니트의 전용 커서 버튼(dedicated "cursor" button)(101)을 사용함으로써 수행된다.

원격제어에서 전용 "데이터" 버튼(34)을 사용하는 비디오 객체에 대해 "클릭"함으로써, 커서의 아래에 있는 비디오 객체와 연관된 데이터는 그것의 활용가능성에 대해 문의를 받을 수 있다. 상기 점선(100)은 원격제어 유니트로부터 STB(11)까지의 적외선 신호를 나타낸다. 상기 데이터가 활용가능하고 시청자가 객체에 대한 애노테이션 데이터를 요청한다면, "데이터" 버튼(34)을 사용함으로써 상기 데이터를 요청할 수 있다. 상기 데이터는 디스플레이되거나, 출력 포트(output port)로 송신되거나, 또는 임의의 셋탑 박스 디스크 기억장치에 이후의 사용을 위해 저장될 수 있다. 점선(15)을 참조하기 바란다.

오디오 객체에 대하여는, 오디오 객체와 연관된 데이터를 액세스(access)하기 위하여 동일한 원격제어에 의하여 사용자의 스크린의 "오디오 정보(audio information)" 아이콘을 선택할 수 있다. 사용자가 요구하면, 상기 애노테이션 데이터는 추출되어 스크린 상에 디스플레이되거나, 연속적인 사용을 위해 저장된다.

프로그램에서 시간 세그먼트(time segment)와 연관된 일반적인 정보에 대해서, "일반적 정보(general information)" 아이콘이 유사하게 사용될 수 있다. 일반적 정보 중 하나 이상의 아이템(item)이 활용가능하므로, 아이템의 메뉴(menu)는 상기 아이콘과 연관되고, 그것이 선택될 때 디스플레이된다.

추출 과정은 아래의 단계들을 포함한다.:

- 제어 패킷을 역다중화함(demultiplexing)

- 제어 패킷으로부터 추출된 스크린 구역 정보를 유지

- 사용자에게 애노테이션 데이터 활용가능성을 통지하는 스크린상의 텍스트 메시지(on-screen text message)를 디스플레이

- 데이터 요청을 위한 사용자 클릭시 적외선 인터페이스와 상호작용

- 내밀의 데이터 스트림 패킷을 역다중화

- 스크린에 요청된 데이터를 디스플레이함(스크린 텍스트 정보의 경우)

- 요청된 데이터를 디스크에 저장

- 요청된 비디오 및/또는 오디오를 디스플레이함 및/또는 저장함

SRT 엔트리에 있는 상기 "스크린 식별자"(또는 그룹 식별자)(31) 파라미터에 의하여, 전후관계 전환(context switching)의 형태인 이전 화면을 위해 정의된 구역의 재사용이 가능하게 된다. 이것은, 원래의 화면으로 되돌아갈 때, 화면으로부터 빠른 장면전환(cut-away)"의 경우에 유용하다. 주어진 화면을 위해 정의된 모든 구역들은 "장면 저장" ("scene store") 프리미티브(primitive)를 사용함으로써 메모리 내에 보유되는데, 이것은 상기 "화면 전후관계(scene context)"를 하나의 유니트(unit)로 하여 저장한다. 상기 화면 전후관계는 필요한 화면 ID 숫자와 연관되어 "화면 복구" 프리미티브(primitive)로써 복구될 수 있다. 파라미터 0을 갖는 장면 복구 프리미티브는 활동중인 구역이 없다는 것을 지시하며, 즉 SRT는 클리어(clear)된다.

예를 들면, 편집자는 주어진 장면에서 몇 사람을 표시하고, 각각의 사람을 애노테이션 데이터 파일과 연관시킨다. 상기 화면(화면 A)은 10 초 동안 지속되고, 한 사람의 클로즈업(close-up)(화면 B)이 뒤따르고 나서, 화면 A로 되돌아간다. 화면 재호출은, 브루트 포스 방법에서 필요한 것처럼 상기화면이 되돌아갈 화면 A를 편집자가 재애노테이션 하는 것을 요구하기보다는, 편집자로 하여금 화면 A의 화면 전후관계(즉, 애노테이션 그리고 결합)를 저장하고 (이것이 재등장할 때를 위한 적절한 변형과 함께) 이를 재사용하는 것을 허락한다.

도 9는 화면 재호출 알고리즘을 보여주고 있다. 편집 시스템의 사용자 인터페이스가 시작될 때(46), 다음과 같은 단계가 수행된다. 즉,

- 그룹 또는 화면 식별자에 의하여 기입되는 저장된 화면의 메뉴는 편집자에 디스플레이된다.

- 상기 편집자는 화면을 선택하고, 상기 화면은 디스크 저장 장치로부터 읽혀진다.

- 상기 편집 시스템은 현재의 타임 스탬프(PTS)에 관하여 비디오 플레이어(5)에 문의한다.

- SRT에 있는 "타임 스탬프 시작(time stamp start)" 아이템(29)은 화면에 표시된 모든 아이템에 대해 현재의 PTS를 반영하기 위하여 변형된다.

- 재호출된 화면에서 아이템의 지속 기간은, 화면에 표시되는 모든 아이템에 대해 SRT에 있는 "타임 스탬프 엔드"("timestamp end") 아이템을 변형하기 위해 계산되고 사용된다.

- 상기 변형된 아이템은 표시 파일에 대해 기록된다.

한 광경에서 상호 그룹화되는 객체들(가령 멀리서 보여지는 일군의 집들)은 이후의 광경에서 몇 개의 명료한 객체들로 갈라질 수 있기 때문에, SRT 정보를 저장하는데 사용되는 본래의 데이터 구조는 트리(tree)이다.

애노테이션 데이터 파일뿐만 아니라 SRT 엔트리도 프로그램에 의하여 패킷화되고 비디오/오디오 소스 파일(source file)로 다중화된다. 또한, 제어 패킷들도 생성되고 다중화된다. 이러한 제어 패킷은 애노테이션 데이터의 활용가능성을 나타내기 위해 시청자에게 디스플레이되는 텍스트 메시지(또는 아이콘 비트 맵(icon bitmap))를 포함한다.

본 발명의 바람직한 한 실시예에 의하면, 상기 표시된 화면과 또 다른 표시된 화면 사이의 연속적이고 단조로운 움직임 및/또는 그 구역의 확장/축소(expansion/contraction)가 있으면, 상기 프로그램은 중간의 화면들에 구역의 크기와 위치를 보간(補間)할 수 있다. 상기 능력은 단순한 움직임의 객체뿐만 아니라, "패닝"과 "주밍"("zooming")이 일어나는 화면에서는 매우 유용하다. 표시된 화면들 사이에서의 상기 보간(補間)은 도 4에서 설명되고 있다.

도 4에서 보는 바와 같이, 시각 0:10과 0:40에 각각 나타나는 표시된 제1번 화면(scene #1)과 제2번 화면(scene #2)처럼 시간상으로 서로 인접하지 않은 화면에 나타나는 객체들에 대하여 구역을 정의할 수 있다. 두 개의 표시된 비디오 객체, 즉 "존 두(Jone Doe)"라는 사람(17)과 포드 승용차(18)가 도시되었다.

만약에 도 4의 포드(Ford)의 경우처럼 정의된 구역 사이에 연속적이고 단조로운 움직임이 있다면, 상기 구역은 그 사이에 보간(補間)이 수행되어야 하는 "종료 포인트(end point)"로 확인될 수 있다. 상기 삽입 어플리케이션은, 개재하는 테마들에서 "포드"의 예상되는 위치를 계산함으로써, 상기 종료 포인트 화면 구역에 대하여 명시적으로 지정된 서브셋 ID의 표시들 사이의 관계에 대하여 반응한다. 따라서, 상기 편집자는 개재하는 화면을 표시하는데 포함되는 노력을 면하게 된다. 상기 삽입 어플리케이션은 이 화면들에서 그것의 예상되는 위치를 계산함으로써 (0:11에서 0:39시간에) 개재되는 화면들에 포드의 구역을 표시하게끔 지시되고, 그리하여 편집자는 개재하는 화면을 표시하는데 포함되는 노력을 절약한다. 이 경우에, 표시되는 화면의 크기는 제1번 화면, 제2번 화면 및 개재하는 모든 화면들에 대해 일정하다.

표시된 사람("존 두")(17)은 표시된 제1번 화면 및 제2번 화면 사이에서 스크린을 가로질러 왼쪽에서 오른쪽으로 움직이고, 포드의 경우에서처럼 종료 포인트 사이에서 보간(補間)할 수 있다. 표시된 제2번 화면 및 제3번 화면(21) 사이에 카메라가 "존 두"를 줌인(zoom in)하고, 객체의 크기는 선형 방식으로 확대된다(scale up). 이 경우에, 줌(zoom)에 대응하기 위해 선형 방식으로 팽창하는 표시된 구역에 대하여, 개재하는 화면을 위한 표시된 제2번 화면 및 제3번 화면의 표시된 "존 두" 객체들 사이에서 보간을 수행할 수 있다.

도 10은 보간(補間)이 보간기/보외기(33)에 의해 어떻게 수행되는가를 보여준다. 원래의 표시 파일이 입력되고, 보간(보외)의 결과는 원래의 표시에 추가되어 출력 표시 파일(output marking file ; OMF)에 저장된다. OMF가 개방되고(74), 각 표시 아이템은 차례로 읽혀진다(75). 아이템이 종료 포인트이면(즉, 보간이 지시되면), 다음 아이템을 읽고(78), 그것은 대응하는 종료 포인트일 것으로 예기된다. 만약 그렇지 않다면, 오류(error)가 지시된다(81).

아이템이 보간을 위해 표시되지 않는다면, 그것은 보외를 위해 표시되거나 또는 다른 특별한 취급을 위한 표시를 갖지 않는다. 후자의 경우, 그것은 단순히 OMF로 기록된다. 전자의 경우, 보외는 아래에서 설명되는 것처럼 수행된다(79).

만약 종료 포인트의 한 쌍이 발견되면(80), 첫 번째는 OMF에 기록되고, 그리고 자동적으로 생성되는 표시 아이템의 숫자 N이 계산된다(83). 이 아이템에 대한 크기와 위치가 계산되고 OMF로 순서대로 기록된다(84). N 아이템 후에, 종료하는 포인트는 OMF로 기록된다(86).

특별한 객체가 복수의 화면에 재등장하고, 편집자가 이러한 등장에 대해 동일한 데이터 연관을 이루고자 한다면, 상기 객체에 대한 애노테이션은 저장되고 재호출될 수 있으며, 그리하여 이전의 표시로부터 보외될 수 있다. 보외는 비디오/오디오 내용에서 특정 객체의 애노테이션을 재사용함으로써 수행된다. 예를 들면, 편집자가 광범한 정보를 가지고 있는 비디오에서 한 사람을 애노테이션한다면, 원래의 애노테이션 동안에 할당된 파일 식별자를 참조함으로써, 이 사람의 이후의 모든 등장이 유사하게 애노테이션될 수 있다. 이 방법은 편집자로부터, 브루트 포스 방법에서는 매 등장마다 필요할 이 사람에 대한 재애노테이션의 노력을 덜어 준다. STB가 충분한 저장 능력을 가지고 있음을 알고 있다면, 애노테이션 데이터의 주어진 아이템을 간혹 삽입하는 것이 가능할 수 있으며, 그러나 캐싱(caching)을 통해서 프로그램에서 여러 번 활용하도록 하는 것은 가능하다.

도 11은 보외가 어떻게 수행되는가를 보여준다. 상기 보외 알고리즘은 보외 준비(extrapolation-ready)로 지시되는 표시에 마주칠 때 보간기/보외기에 의하여 개시된다. 이 경우에(79), 참조 표시의 서브셋 ID는 현재 표시에 포함된다. 상기 보간기/보외기는, 서브셋 ID를 가진 참조 아이템을 위한 표시 파일의 이전 아이템 중에서 수행되는 검색을 수행함으로써, 서브셋 ID의 표시에 반응한다. 이전 표시 파일이 발견되었을 때, 그것의 사본(copy)이 스크래치(scratch) 메모리에서 만들어진다. 새로운 표시 아이템은 참조 아이템과는 다른 시간과 위치 파라미터를 가지고 있기 때문에, 이들은 사본에서 변형된다(90). 상기 변형된 아이템은 출력 표시 파일로 기록된다(91).

본 발명의 다른 실시예에 의하면, 스트림이 처음 편집되었을 때 만들어진 원래의 데이터 연관과 객체 표시를 분리하는 것이 허용된다. 이러한 방법으로, 프로그램에 있는 많은 객체들이 표시되고 주어진 집합의 애노테이션 데이터와 연관되는 한 번의 편집을, 표시된 객체와 연관된 서로 다른 집합의 애노테이션 데이터를 각각 갖는 다수의 비디오/오디오/데이터 방송을 위해 사용할 수 있다. 이를 위해서, 표시된 스트림은 새로운 데이터 아이템 세트와 재연관되어야 하며 삽입 어플리케이션은 재수행되어야 하지만, 객체는 재표시될 필요가 없다.

상기 시스템은 임의의 디지털 비디오 포맷(format)과 함께 사용될 수 있다. 디지털 비디오의 높은 비트 전송률 요건 때문에, 네트워크를 통해 전송되기 전에 일반적으로 비디오에 압축 방식이 적용된다. 본 발명의 바람직한 한 실시예에 의하면, 비디오(및 오디오) 내용은, 비디오에 대해서는 ISO/IEC 13818-2, 오디오에 대해서는 ISO/IEC 13818-3에서 규정된 MPEG-2(Motion Pictures Experts Group) 압축을 사용하여 압축이 이루어진다. MPEG-2를 사용해 압축된 비디오 스트림에 대한 전형적인 비트 전송률은 3 내지 15 메가비피에스(Mbps)에 이른다. 본 발명은 MPEG-2 스트림을 사용하는 것에 국한되지는 않는다.

상기 MPEG-2 표준은 (오디오 및 비디오 기초 스트림으로 구성되어 있는) 프로그램이 어떻게 "전송 스트림(transport stream)"에서 다중화될 수 있는가를 규정한다. 이것은 MPEG-2 시스템 규정(System Specification), 즉 ISO/IEC 13818-1에서 규정된다. 상기 MPEG-2 시스템 규정은 "내밀 데이터" 스트림을 사용함으로써, 프로그램의 전송 스트림에 비디오도 아니고 오디오도 아닌 스트림을 포함하는 것을 가능하게 한다. 모든 전송 스트림 패킷은 내용에는 관련 없이 같은 크기(188 바이트) 같은 포맷이다. 전송 스트림에서 반송되는 "프로그램 고유 정보"("Program-Specific Information")는, 어느 것에 대해 기본적인 스트림이 전송 스트림에서 다중화되는지, 내용의 어떤 형식이 반송되는지, 어떻게 역다중화되는지에 대한 정보를 반송한다.

(헤드 엔드로부터 클라이언트 구내까지의) 하류 부문 방향으로는, 케이블 TV 시설과 같은 공유된 방송 매체가 상기 바람직한 실시예에서 사용된다. 변조 방식에는 직교 진폭 변조(quadrature amplitude modulation ; QAM) 및 잔류 측파대(vestigial side-band ; VSB) 변조가 포함된다. 상기 변조 방식에 쓰이는 칩(chipset)은 널리 사용되어서 비싸지 않다. 본 발명의 바람직한 실시예에서 이 방향에 요구되는 주파수 대역폭은 기껏해야 10 Kbits/s이다.

삽입된 멀티미디어 데이터를 추출할 수 있는 방송 분배 네트워크에서의 STB의 사용은 동일한 네트워크에서 통상적인 STB의 사용에 지장을 주지 않는다.

MPEG-2 역다중화기, MPEG-2 오디오 디코더, MPEG-2 비디오 디코더들이 현재 활용가능하다. 본 발명의 바람직한 실시예는 도 3에서 보여지는 셋탑 박스에서 지시된 기능을 수행하기 위해 STB에서 이러한 집적 회로를 사용한다. 오디오 및 비디오 디코더가 통합되지 않으면, 비디오의 경우에 디지털을 아날로그로 바꾸고, 요구되는 비디오 아날로그 신호 포맷(즉, NTSC, PAL, SECAM)으로 바꾸기 위해 IC가 중간에 필요하다. 이 IC로부터의 S-video 출력은 선택 사양이다. 본 발명의 바람직한 실시예에서 사용되는 MPEG-2 비디오 디코더는 "스크린상의 디스플레이(on-screen display)" 능력을 가지고 있다.

STB에 쓰이는 마이크로콘트롤러(microcontroller)는 클록(clock) 및 명령 저장 장치(instruction storage)를 위한 EPROM을 필요로 한다. 본 발명의 바람직한 실시예에서, 클록 속도는 25 MHz, EPROM의 크기는 256 Kbytes이다. 상기 마이크로콘트롤러는 MPEG-2 역다중화기가 오디오 및 비디오 패킷을 위해 생성된 것에 부가하여 애노테이션 데이터를 위한 큐(queue)를 생성하는 프로그램을 가지고 있다. 상기 애노테이션 데이터 큐는 마이크로프로세서의 폴링 및 인터럽트(polling and interrupt)에 의하여 모니터 된다. 상기 큐가 비어 있지 않음이 발견될 때, 그것의 내용은 마이크로프로세서에 의하여 읽혀진다. 이들이 메시지 패킷이면, 그 내용은 스크린상의 디스플레이를 위해 비트맵으로 변환된다. 상기 디스플레이는 마이크로프로세서가 위치, 크기, 그리고 비트맵의 다른 파라미터에 대해 비디오 디코더를 프로그램하도록 한다. 시청자(viewer)는 데이터 활용가능성 메시지의 디스플레이를 디스에이블 시킨다.

본 발명의 바람직한 실시예에 의하면, STB에 필요한 RAM의 크기는 (최소한) 4 Kbytes이다. 비용 절감을 위해서, DRAM(dynamic RAM)이 사용된다. 적은 량(1 Kbyte)의 비휘발성 RAM이 STB 전원이 꺼졌을 때 반드시 보존되어야 하는 데이터(즉, 시청자 프로필)를 위해 사용된다. 상기 RAM을 위해서 그리고 일일 시간 타이머(time-of-day timer)를 유지하기 위해 배터리가 필요하다.

전원이 차단되는 경우에 대비하여 RAM의 데이터를 보존하기 위하여, 또는 RAM 크기보다 큰 파일을 보존하기 위하여, STB의 데이터 포트는 데이터를 PC에 전송할 수 있도록 사용된다. 상기 포트는 큰 이력 보고서(historical report)를 PC로부터 STB로, 또한 그 도중에 헤드 엔드(head end)로 전송할 수 있도록 사용된다. 본 발명의 바람직한 실시예에서 사용되는 데이터 포트는 RS-232 병렬 포트이다.

본 발명의 바람직한 실시예에 의하면, 오디오 신호는 (돌비 잡음 감쇠(Dolby noise reduction) 및 서라운드 사운드(surround sound)의 선택 사양을 가지고) 두 개의 채널로 인코딩 및 디코딩되며, 상기 STB 출력에 복수의 스피커를 필요로 한다.

본 발명의 바람직한 실시예에 의하면, MPEG-2가 정의하는 제시 시간 스탬프(MPEG-2-defined presentation time stamp ; PTS)는 비디오의 표시된 구역과 연관된 데이터 활용가능성의 시간을 참조하기 위해 사용된다.

본 발명의 바람직한 실시예에 의하면, 모든 스크린 구역 정의 정보는, 데이터와 결합하는 화면상에 모든 구역을 정의하는 스크린 구역 테이블(screen region table ; SRT)(도 5 참조)을 위해 엔트리 형식으로 스트림에 삽입된다. 상기 SRT의 각 엔트리는 다음의 영역을 포함한다. 즉,

- 구역 번호(22)

- 구역 좌표(사각형 구역 - (x1,y1) 및 (x2,y2))(23)

- 디스플레이 좌표(사각형 디스플레이 - (x3,y3) 및 (x4,y4))(24)

- 객체 명칭(25)

- 애노테이션 데이터 파일 식별자(26)

- 애노테이션 데이터 형식(0 = 화면 텍스트, 1 = 파일 텍스트, 2 = 오디오 전용, 3 = 비디오 전용, 4 = 비디오/오디오, 5 = 전화 번호, 등)(27)

- 애노테이션 데이터에 대한 설명(28)

- 데이터 활용 가능성의 시작을 위한 PTS(29)

- 데이터 활용 가능성의 종료를 위한 PTS(30)

- 화면 식별 번호(31)

- 단일 파일/복수 파일 플래그(32) - 이 구역과 연관되는 것이 하나의 애노테이션 데이터 파일인지 복수의 애노테이션 데이터 파일인지를 나타냄

복수의 구역이 한 구역과 연관되면, 사용자로 하여금 파일의 선택을 나타내도록 두 번째로 클릭하는 것을 허용하기 위하여, 스크린상의 디스플레이는 원래의 구역이 클릭될 때 두 번째 구역의 맵(secondary region map)이나 메뉴(menu)를 나타낸다.

전술한 것에 부가하여, 사용자에게 디스플레이할 목적으로 선택 사항인 "구역 맵"("region map") 비트맵이 화면 구역 테이블(Screen Region Table ; SRT)에 포함될 수 있다. 상기 맵은 스크린 주변에 디스플레이되는 것으로서, 스크린에서 현재 활성화된 구역의 작고 단순한 다이어그램이다.

본 발명은 사용의 편의를 제공하고 삽입 프로세스(embedding process)를 용이하게 하는 특징을 가진 디지털 비디오 스트림(stream)을 위한 저작 시스템의 필요성을 충족시켜 주며, 디지털 비디오 스트림에 임의의 데이터 내용을 삽입하기 위한 향상된 방법과 시스템을 제안한다. 여기에서 제안된 저작 시스템, 또는 "애노테이션(annotation)" 시스템은 보다 효과적이고 시간을 절약하는 데이터 애노테이션(annotation)을 수행하기 위한 수단을 제공한다.

Claims

애노테이션(annotation)된 비디오/오디오 스트림(video/audio stream)을 생성하기 위한 방법에 있어서,

a) 각 서브셋(subset)을 식별하기 위하여, 상기 스트림의 내용의 서브셋의 표시(marking)를 작성하는 단계 - 상기 각 서브셋에는 서브셋 식별자(subset identifier)가 할당됨 - ;

b) 각 서브셋 식별자를 파일 식별자(file identifier)와 연관시키는 단계 - 상기 파일 식별자는 애노테이션 정보 파일을 식별함 - ;

c) 명시적으로 규정된 서브셋 식별자들 사이의 관계를 규정하는 단계 - 상기 서브셋 식별자들은 다른 서브셋 식별자를 자동적으로 생성하는데 사용됨 ; 및

d) 해당 서브셋 식별자에 의하여 규정된 상기 스트림에서의 위치에서 상기 파일을 상기 스트림에 삽입(embedding)하는 단계

를 포함하는 비디오/오디오 스트림 생성 방법.
제 1 항에 있어서,

다수의 상기 서브셋들이,

상기 서브셋 중에서 다른 표시된 서브셋들 사이에 시간적 및 공간적으로 보간(interpolating)함으로써 표시되는

비디오/오디오 스트림 생성 방법.
제 1 항에 있어서,

상기 서브셋 중 임의의 서브셋이,

상기 서브셋 중에서 다른 표시된 서브셋의 표시로부터 보외(extrapolating)함으로써 표시되는

비디오/오디오 스트림 생성 방법.
표시(marking)의 집합을 저장하고 재호출하는 방법에 있어서 - 상기 표시의 각 집합은 그룹 식별자와 연관됨 - ,

상기 그룹 식별자를 사용하여 이전에 표시된 서브셋을 모사(replicating)함으로써 다수의 상기 서브셋이 표시되는

표시 집합 저장 및 재호출 방법.
제 1 항에 있어서,

a) 상기 내용의 상기 서브셋의 집합을 그룹 식별자와 연관시키는 단계; 및

b) 각 집합의 이전에 표시된 서브셋을 모사(replicating)함으로써 상기 집합의 각각을 형성하는 단계 - 상기 집합 중 임의의 하나는 상기 그룹 식별자의 각각을 사용함으로써 재호출되거나 저장될 수 있음 -

를 더 포함하는 비디오/오디오 스트림 생성 방법.
제 5 항에 있어서,

상기 서브셋의 각 집합은 비디오 파일의 화면인

비디오/오디오 스트림 생성 방법.
제 1 항에 있어서,

상기 다수의 서브셋이 동일한 파일 식별자와 연관되는

비디오/오디오 스트림 생성 방법.
제 1 항에 있어서,

각 서브셋은 비디오 프레임의 객체를 포함하며,

각 서브셋이 상기 객체를 둘러싸는 기하학적 형상의 좌표에 의하여 표시되며, 또한 상기 비디오 프레임을 식별하는 시간 스탬프(time stamp)에 의하여 표시되는

비디오/오디오 스트림 생성 방법.
제 1 항에 있어서,

상기 객체가 다수의 비디오 프레임에서 등장하고, 상기 객체가 상기 다수의 프레임의 동일한 파일 식별자와 연관되는

비디오/오디오 스트림 생성 방법.