KR100645300B1

KR100645300B1 - 시청각 프리젠테이션의 컨텐츠를 요약화하여 색인화하는방법 및 장치

Info

Publication number: KR100645300B1
Application number: KR1020040063817A
Authority: KR
Inventors: 윌리엄 첸; 자우-유엔 첸
Original assignee: 세이코 엡슨 가부시키가이샤
Priority date: 2003-09-26
Filing date: 2004-08-13
Publication date: 2006-11-15
Also published as: JP2005108225A; CN1601531A; EP1519343A3; KR20050030849A; EP1519343A2; US7372991B2; US20050078868A1

Abstract

시청각 프리젠테이션의 요약을 생성하는 방법은 시청각 프리젠테이션의 프레임을 세그먼트화하는 것으로 시작된다. 다음, 세그먼트화된 프레임의 슬라이드 영역이 식별된다. 다음, 슬라이드 영역에서 라인들을 나타내는 히스토그램이 생성된다. 다음, 히스토그램으로부터 연속 프레임들과 연관하여 움직임 영역들이 억제된다. 컴퓨터 판독가능 매체, 회의의 실시간 요약화를 제공하는 시스템, 및 집적 회로 또한 제공된다.

Description

시청각 프리젠테이션의 컨텐츠를 요약화하여 색인화하는 방법 및 장치{METHOD AND APPARATUS FOR SUMMARIZING AND INDEXING THE CONTENTS OF AN AUDIO-VISUAL PRESENTATION}

도 1은 본 발명의 일 실시예에 따른 시청각 프리젠테이션에 대한 컨텐츠의 테이블의 생성과 연관된 모듈들을 도시하는 고레벨 블록도이다.

도 2는 종래의 이미지 세그먼트화 시스템이 어떠한 방법으로 화소들을 인과 순서로 4개의 선임자(predecessor)들과 비교하는 것에 제한되는 지를 도시하는 개략도이다.

도 3은 본 발명의 일 실시예에 따라 기준 화소와, 현재 프레임과 인과 순서로 이전 프레임으로부터의 5개의 이웃들과 비교하는 기술을 도시하는 개략도이다.

도 4는 본 발명의 일 실시예에 따라 비디오 데이터의 프레임을 처리할 때, 스캔 라인 순서의 예시적인 표현이다.

도 5a 내지 도 5c는 도 3과 표 1을 참조하여 설명된 색 세그먼트화 스캔으로부터 세그먼트화 결과들을 도시한다.

도 6은 본 발명의 일 실시예에 따라 슬라이드 영역에 대한 1-비트 표현을 생성하는 모듈들을 도시하는 개략도이다.

도 7은 본 발명의 일 실시예에 따라 도 6의 움직임 억제 모듈의 보다 상세한 개략도이다.

도 8은 본 발명의 일 실시예에 따른 움직임 마스크의 그림을 도시한다.

도 9는 본 발명의 일 실시예에 따라 비디오 표현의 다양한 프레임들 중의 슬라이드 천이들을 나타내는 비디오 트레이스이다.

도 10은 본 발명의 일 실시예에 따른 템플릿 매칭 모듈을 나타내는 개략도이다.

도 11은 프리젠테이션으로부터 비디오를 캡처링하여 요약화할 수 있으며, 이 요약을 유저에게 전자 메일로 보낼 수 있는 시스템의 고레벨 개략도이다.

도 12는 본 발명의 일 실시예에 따른 시청각 프리젠테이션의 요약을 생성하는 단계들을 나타내는 흐름도이다.

* 도면의 주요부분에 대한 부호의 설명 *

100 : 비디오 102 : 슬라이드 세그먼트화 모듈

104 : 샷 검출 모듈 106 : 템플릿 매칭 모듈

120f ~120i : 화소 위치들 124 : 비디오 데이터

126b : 슬라이드 영역 160a-1~160g-1 : 비디오 프레임들

162 : 히스토그램 스트레칭 모듈 164 : 공간적 프로젝션 모듈

172 : 랩탑 컴퓨터 174 : 미디어 서버

176 : PDA 178 : 컨텐츠 테이블

본 발명은 일반적으로 정보 처리에 관한 것이며, 더욱 자세하게는 시청각 프리젠테이션의 컨텐츠를 요약화하여 색인화하는 방법 및 장치에 관한 것이다.

포멀(formal) 프리젠테이션들은 중요하며 대중화된 커뮤니케이션의 수단에 이바지한다. 학계 및 산업에서, 이후의 온라인 방영(viewing)을 위한 이러한 프리젠테이션들의 캡처는 원거리 교육 및 기술 훈련과 같은 적용들에 대하여 의례적이 되어 왔다. 세미나를 녹화하고, 컨텐츠 온라인을 주문하는 것은, 유저에게 인터넷의 편재하는(ubiquitous) 성질로 인하여 어디서나, 어느 때에도, 누구라도 볼 수 있는 이점을 제공한다. 또한, 동시에 행해지는 다수의 프리젠테이션들을 가지는 세미나는, 개인이 동시에 행해지는 프리젠테이션들 중 하나 이상에 참가하고 싶을 수도 있을 때, 개인이 다수의 프리젠테이션들 중 하나에 참가하도록 선택하기를 강요한다.

자동 비디오 요약화에 대한 이전 작업은, 세그먼트화(segmentation), 분석, 및 프리젠테이션의 3가지 광범위한 영역들 중 하나인 것을 특징으로 할 수도 있다. 세그먼트화는 비디오의 프레임의 구획화(partitioning)를 포함한다. 시청각 프리젠테이션들의 도메인에 대하여, 세그먼트화는 조명 조건, 화자 움직임, 및 카메라 팬/줌의 변화의 고려를 요한다. 시청각 프리젠테이션들을 세그먼트화하는 유용한 기술들의 단점들 중 하나는, 조명 조건, 화자 움직임, 및 카메라 팬/줌의 변화를 효과적으로 취급할 수 없다는 것이다. 또한, 컨텐츠가 세그먼트화된다면 시청각 컨텐츠를 색인화할 수 있는 유용한 기술이 존재하지 않고, 또한 유저에 의한 용이한 검색을 위하여 컨텐츠를 요약화하는 어떠한 기술도 존재하지 않는다. 유저가 제한된 계산 리소스들을 가지는 휴대용 장치를 통하여 비디오 데이터를 액세스할 때, 문제점들은 더욱 심각해진다.

그 결과, 유저가 소망되는 정보를 효율적으로 위치시키도록 하는 시청각 프리젠테이션의 컨텐츠를 요약화하는 자동 색인화 및 효율적인 설계(scheme)를 가능하게 하기 위하여 종래 기술의 문제점들을 해결할 필요가 있다.

광범위하게 말하면, 본 발명은 실시간으로 시청각 프리젠테이션의 컨텐츠를 자동으로 요약화할 수 있는 방법 및 시스템을 제공함으로써 이들 니즈를 만족시킨다. 본 발명은, 방법으로서, 시스템, 컴퓨터 판독가능 매체 또는 장치를 포함하는 다양한 방식으로 실현될 수 있다는 것이 이해되어야 한다. 본 발명의 일부 독창적인 실시예들이 이하에 설명된다.

일 실시예에서, 이미지 데이터를 세그먼트화하는 방법이 제공된다. 본 방법은 이미지 데이터의 현재 프레임과 연관된 화소를 식별하는 것으로 개시된다. 다음, 이웃 화소들은 현재 프레임과 연관된 화소 주위로 정의된다. 이웃을 정의하는 단계는 3차원 이웃을 생성하는 단계를 포함한다. 다음, 현재 프레임과 연관된 화소와, 이웃 화소들과 연관된 각 화소 간의 거리가 비교되어, 최단 거리를 결정한다. 다음, 현재 프레임과 연관된 화소가 이미지 데이터의 현재 세그먼트에 속하는 지의 여부는 최단 거리에 기초하여 판정된다.

다른 실시예에서, 시청각 프리젠테이션의 요약을 생성하는 방법이 제공된다. 본 방법은 시청각 프리젠테이션의 프레임을 세그먼트화하는 것으로 개시된다. 다음, 세그먼트화된 프레임의 슬라이드 영역이 식별된다. 다음, 슬라이드 영역에서 라인들을 나타내는 히스토그램이 생성된다. 다음, 히스토그램으로부터 연속적인 프레임들에 연관하여 움직임 영역들이 억제된다.

다른 실시예에서, 이미지 데이터를 세그먼트화하는 프로그램 명령들을 가지는 컴퓨터 판독가능 매체가 제공된다. 컴퓨터 판독가능 매체는 이미지 데이터의 현재 프레임과 연관된 화소를 식별하기 위한 프로그램 명령들을 포함한다. 현재 프레임과 연관된 화소 주위에 이웃 화소들을 정의하는 프로그램 명령들이 제공되며, 이웃을 정의하는 상기 프로그램 명령들은 3차원 이웃을 생성하기 위한 프로그램 명령들에 대한 프로그램 명령들을 포함한다. 최단 거리를 결정하기 위하여, 현재 프레임과 연관된 화소와, 이웃 화소들과 연관된 각 화소 간의 거리를 비교하는 프로그램 명령들이 포함된다. 현재 프레임과 연관된 화소가 이미지 데이터의 현재 세그먼트에 속하는 지를 최단 거리에 기초하여 판정하는 프로그램 명령들이 또한 포함된다.

다른 실시예에서, 시청각 프리젠테이션의 요약을 생성하는 프로그램 명령들을 가지는 컴퓨터 판독가능 매체가 제공된다. 컴퓨터 판독가능 매체는 시청각 프리젠테이션의 프레임을 세그먼트화하는 프로그램 명령들을 포함한다. 세그먼트화된 프레임의 슬라이드 영역을 식별하는 프로그램 명령들이 제공된다. 슬라이드 영역에서 라인들을 나타내는 히스토그램을 생성하는 프로그램 명령들과, 히스토그램으로부터 연속적인 프레임들에 연관하여 움직임 영역들을 억제하는 프로그램 명령들이 포함된다.

다른 실시예에서, 시청각 프리젠테이션을 캡처링하여 요약화하도록 구성된 시스템이 제공된다. 시스템은 프리젠테이션으로부터 오디오 및 비디오 신호들을 캡처링할 수 있는 기록 장치를 포함한다. 기록 장치와 통신하는 계산 장치가 포함된다. 계산 장치는 시청각 프리젠테이션의 시청각 데이터로의 액세스를 가진다. 계산 장치는 단일 패스 색 세그먼트화 설계(single pass color segmentation scheme)에 따라 비디오 신호들의 프레임으로부터 슬라이드 영역을 추출하도록 구성된 슬라이드 세그먼트화 모듈을 포함한다.

다른 실시예에서, 회의의 실시간 요약화를 제공하도록 구성된 시스템이 제공된다. 시스템은 회의와 연관된 프리젠테이션을 캡처링하도록 구성된 이미지 캡처 장치를 포함한다. 이미지 캡처 장치로부터 캡처링된 프리젠테이션 데이터를 수신하도록 구성된 미디어 서버가 포함된다. 미디어 서버는 회의용으로 사용되는 프리젠테이션 미디어의 카피들로의 액세스를 가진다. 미디어 서버는 캡처링된 프리젠테이션 데이터로부터 프리젠테이션에 대응하는 요약 데이터를 생성하도록 더 구성된다. 요약 데이터는 회의의 프리젠테이션 미디어 천이점들과 연관된다. 미디어 서버와 통신하는 클라이언트 또한 포함된다. 클라이언트는 요약 데이터를 수신할 수 있다.

또다른 실시예에서, 집적 회로가 제공된다. 집적 회로는 이미지 데이터의 프레임을 영역들로 세그먼트화하도록 구성된 세그먼트화 회로소자를 포함한다. 세그먼트화 회로소자는 각 영역들과 연관된 색 특성 및 형상 특성의 분석을 통하여 영역들 중 하나를 슬라이드 영역으로서 식별할 수 있다. 슬라이드 영역의 에지 정보의 분석을 통한 프레임과 연관된 프레임들 그룹을 이미지 데이터의 인접 프레임들과 동일시하도록 구성된 샷 검출 회로소자가 또한 포함된다.

본 발명의 다른 태양들 및 이점들은 본 발명의 원리의 예로써 도시하는 첨부된 도면들과 함께, 다음의 상세한 설명으로부터 명백해질 것이다.

본 발명은 첨부된 도면을 참조하여 다음의 상세한 설명에 의하여 이해될 것이며, 유사한 도면 번호는 유사한 구성 요소들을 나타낸다.

본 발명은 시청각 프리젠테이션의 요약화를 자동으로 생성하는 시스템 및 방법에 대하여 설명한다. 그러나, 본 개시의 관점에서, 본 발명이 이들의 일부 또는 모든 특정 상세 없이 실행될 수도 있다는 것이, 당업자에게 명백할 것이다. 다른 예에서는, 본 발명을 불필요하게 혼란스럽게 하지 않기 위하여, 공지된 처리 동작들은 상세히 설명되지 않았다.

여기서 설명된 실시예들은 실시간으로 시청각 프리젠테이션을 캡처링하여 자동으로 요약화하는 방법 및 시스템을 제공한다. 비디오, 오디오, 및 슬라이드 프리젠테이션으로부터, 대응하는 슬라이드들과 비디오 파일들로의 링크들을 가지는 키 토픽들을 특히 밝게 하는 컨텐츠 테이블(TOC)이 자동으로 생성된다. 따라서, 프리젠테이션의 시청각 기록, 즉 슬라이드 프리젠테이션과, 기억된 프리젠테이션 머티리얼로의 액세스로, TOC가 프리젠테이션용으로 구축되어, 유저가 프리젠테이션의 특정 세그먼트를 선택할 수도 있다. 또한, TOC를 통한 프리젠테이션의 요약화, 또는 일부 다른 적합한 요약화 기술은, 휴대용 장치, 예컨대 PDA(personal digital assistant), 셀룰러 전화, 웹 테블릿 등을 가지는 유저가 요약화 페이지를 볼 수 있게 한다. 그 후, 유저는, 소비자 휴대용 장치들의 제한된 계산 성능을 넘어선 것일, 프리젠테이션의 비디오 스트림에 반하는 것으로서, 휴대용 장치의 제한된 리소스들에 의하여 처리될 수 있는 비디오의 특정 프레임을 다운로드할 수도 있다.

이하에 보다 상세히 설명되는 바와 같이, 시스템의 키 모듈들은 슬라이드 세그먼트화 모듈, 샷 검출 모듈, 및 템플릿 매칭 모듈을 포함한다. 슬라이드 세그먼트화 모듈은 프리젠테이션을 기록하는, 예컨대 캠코더인 디지털 기록 장치의 각 프레임으로부터 슬라이드 영역을 추출하도록 구성된다. 다음, 샷 검출 모듈은 슬라이드 천이들에 따라 비디오 프레임들의 그룹들을 식별한다. 다음, 템플릿 매칭 모듈은 추출된 슬라이드 영역의 분석을 통하여 대응하는 비디오 샷에 기억된 슬라이드를 링크시킨다.

시스템으로의 입력은, 프리젠테이션 또는 회의의 기록, 예컨대 디지털 캠코더 또는 임의의 다른 적합한 디지털 비디오 리코더로부터 생성된 시청각 신호들과, 슬라이드 프리젠테이션과 같은 원래의 프리젠테이션 미디어로부터의 텍스트 정보와의 조합이다. 일 실시예에서, 슬라이드 프리젠테이션은 POWERPOINT 프리젠테이션이다. 시스템으로의 입력에 대하여, 시청각 기록과 프리젠테이션으로부터의 원래의 프리젠테이션 미디어로의 액세스가 사용가능하다고 가정된다. 또한, 프리젠테이션 미디어의 투사된 슬라이드들은 디지털 비디오 기록에 의하여 캡처링된다.

도 1은 본 발명의 일 실시예에 따른 시청각 프리젠테이션에 대한 컨텐츠 테 이블의 생성과 연관된 모듈들을 도시하는 고레벨 블록도이다. 비디오(100)의 프레임은 슬라이드 세그먼트화 모듈(102)에 의하여 수신된다. 슬라이드 세그먼트화 모듈(102)은 이하에 보다 상세히 설명되는 바와 같이, 템플릿 매칭에 대한 비디오(100)의 프레임으로부터 슬라이드를 추출하도록 구성된다. 도시된 바와 같이, 슬라이드 세그먼트화 모듈(102)은, 슬라이드 영역을 위치시키는 모듈(110)과 연관된다. 일 실시예에서, 슬라이드 세그먼트화는 비디오의 각 프레임에 대해 색 세그먼트화를 우선 적용함으로써 수행된다. 다음, 슬라이드 영역은 소형(예컨대, 슬라이드에 대하여 직사각 형상비)의 지배적이며, 코히어런트(coherent)인 색 영역으로서 식별된다.

다음, 도 1의 샷 검출 모듈은, 슬라이드 세그먼트화 모듈(102)로부터 추출된 슬라이드와 연관된 비디오 데이터의 세그먼트의 모든 프레임들을 식별하기 위하여 차이에 대한 비디오 데이터의 연속적인 프레임들을 비교한다. 이하에 더 설명되는 바와 같이, 샷 검출 모듈(104)은, 각 프레임의 동일한 슬라이드를 가지는 비디오 데이터의 세그먼트를 식별하기 위하여 슬라이드 천이들이 검출되는 모듈(112)과 연관된다. 본질적으로, 샷 검출 모듈(104)은 슬라이드 천이들에 기초하여 비디오를 샷들로 분석한다. 각 샷은 단일 슬라이드로부터 컨텐츠를 발표하는 화자를 효율적으로 캡처링한다. 일 실시예에서, 강건성(robustness)을 위하여, 슬라이드 영역은 에지 검출과 2진 스레시홀딩을 이용하여 1-비트 표현으로 변환된다. 다음, 1-비트 표현은 허프(Hough) 파라미터 도메인으로 변환되고, 에지 히스토그램은 허프 파라미터들로부터 생성된다. 에지 히스토그램들 간의 상관은 슬라이드 유사성의 트레 이스를 생성하는 데 사용된다. 이 트레이스의 피크들은 슬라이드 천이들과 샷 경계들을 검출하는 데 사용된다. 슬라이드 영역을 가로지르며, 잘못된 슬라이드 천이들을 유발하는 움직임 대상들, 예컨대 화자 또는 화자에 의하여 제어되는 대상의 영향을 감소시키도록 구성된 움직임 억제 모듈이다.

도 1을 계속 참고하여, 샷 검출 모듈(104)에 의하여 캡처링된 비디오 데이터의 세그먼트를 나타내는 키 프레임은 탬플릿 매칭 모듈(106)을 통하여 기억된 슬라이드(108)와 매칭된다. 즉, 모듈(114)을 통하여 원래의 슬라이드들에 링크된 매칭 알고리즘은 샷 검출 모듈(104)로부터 키 프레임 데이터를 처리하여, 원래의 슬라이드들(108) 중 하나를 결정하고 이것과 매칭한다. 여기서, 막 추출된 슬라이드 영역을 포함하는 키 프레임이 템플릿으로서 사용되고, 원래의 슬라이드들(또는 원래의 슬라이드들의 카피들) 각각에 대하여 매칭된다. 강건성을 위하여, 매칭 알고리즘은 에지 검출과 2진 스레시홀딩을 사용하여 키프레임과 원래의 슬라이드들을 1-비트 표현으로 선처리한다. 다음, 1-비트 표현은 공간적 X/Y 투사를 이용하여 에지 히스토그램으로 변환된다. 키프레임과 원래의 슬라이드들 간의 유사성은 대응하는 에지 히스토그램들에 카이 제곱 메트릭(chi-squared metric)을 이용하여 측정된다. 그 후, 비디오 프리젠테이션의 요약은 모듈(116)을 통하여 생성된다.

도 2는 종래의 이미지 세그먼트화 시스템이 어떤 방법으로 화소들과, 인과 순서로 4개의 선임자들과 비교하는 것에 제약되는 지를 도시하는 개략도이다. 여기서, 화소(i,j)(120e)는 화소 위치들(120a 내지 120d)과 연관된 선임자 라벨들을 포함하는 비디오 데이터의 프레임과 연관된다. 그러나, 화소 위치들(120f 내지 120i)과 연관된 라벨들은 이 때 알 수 없다. 그러므로, 종래의 방법은, 제1 단계가 프레임을 스캔하여 데이터를 얻은 후, 제2 스캔이 사용되어 세그먼트화를 행하는 2단계 처리를 사용할 수도 있다. 또는, 종래의 처리는 화소 위치들(120f 내지 120i)의 미래 데이터를 무시할 수도 있다. 어느 한쪽의 방법에서, 인과 제약들은, 종래의 이미지 세그먼트화 시스템이, 상술된 바와 같은 인과 순서로 4개의 선임자들과 화소들을 단지 비교하는 것으로 제한한다.

도 3은 본 발명의 일 실시예에 따라 인과 순서로 현재 프레임과 이전 프레임으로부터 기준 화소를 5개의 이웃들과 비교하는 기술을 나타내는 구성도이다. 여기서, 2차원, 즉 x와 y 좌표가 현재 프레임에서 표현되며, 1차원, 즉 이전 프레임이 시간으로 표현되는 3차원 이웃이 생성된다. 따라서, 이웃에서 공간적 및 시간적 특성들이 고려된다. 위치들(122a, 122b)과 연관된 화소들이 이들이 알려진 바와 같이 현재 프레임으로부터라는 것이 이해되어야 한다. 반면, 위치들(122c, 122d, 122e)과 연관된 화소들은 이전 프레임으로부터이다. 따라서, 위치들(122c 내지 122e)과 연관된 화소들은 이전 프레임으로부터 미래의 정보를 빌려 온다. 당업자는, 이전 프레임 화소들이 대응하는 현재 프레임 화소들에 비교하여 현저하게 상이하지 않으며, 따라서, 이전 프레임 화소들은 여기에 설명된 색 세그먼트화 기술에 대한 양호한 근사값으로서 작용한다는 것을 이해할 것이다.

도 4는 본 발명의 일 실시예에 따라 비디오 데이터의 프레임을 처리할 때, 스캔 라인 순서의 예시적인 표현이다. 여기서, 스캔 라인은 도 4에 도시된 바와 같이, 프레임(123)의 좌측 상부에서 시작하여, 전체 프레임을 통하여 지그재그로 진행한다. 스캔 라인 순서는 예시적인 목적으로만 도시되었으며, 임의의 적합한 스캔 라인 순서가 사용될 수도 있으므로, 제한하고자 함이 아니라는 것이 당업자에거 명백할 것이다. 또한, 5개의 선임자들의 이웃은 예시적이며, 임의의 적합한 수의 선임자들이 여기의 실시예들에서 사용될 수도 있으므로, 제한하고자 함이 아니다.

표 1은 비디오 세그먼트화에 대한 상술된 5개의 선임자들을 사용하도록 구성된 하나의 패스 세그먼트화 알고리즘을 도시한다.

표 1

상부 좌측 화소로부터 시작하여, 하나의 패스 알고리즘은 도 4에 설명된 바와 같은 전체 프레임을 통하여 지그재그로 진행한다. 각 화소(i,j;k)에 대하여, 알고리즘은 도 3에 설명된 바와 같이, 화소(i,j;k)와, 화소의 인과 선임자의 라벨 간의 거리를 비교한다. 여기서 사용된 "화소들 간의 거리(distance between pixels)"이라는 문구는 대응하는 화소들 간의 유클리디언(Euclidean) 거리에 관한 것이라는 것을 이해해야 한다. 물론, 화소들과 연관된 색 모델이 거리 계산을 위 하여 고려된다. 다음, 일 실시예에서, 최단 거리는, 화소(i,j;k)가 현재 세그먼트에 속하는지를 결정하기 위하여 스레시홀드와 비교된다. 화소가 현재의 세그먼트에 속하지 않으면, 알고리즘은 모든 라벨(i)을 통하여 체크하여, 화소가 이전 세그먼트에 속하는 지를 결정하기 위하여 더 낮은 스레시홀드와 비교한다. 사실상, 이것은, 세그먼트들이 연결되지 않으므로, 생성된 작고, 고립된 세그먼트들의 수를 감소시킨다. 화소가 임의의 세그먼트에 여전히 속하지 않으면, 화소(i,j;k) 만을 포함하는 새로운 세그먼트가 생성된다.

합병(merge) 처리는 통상적으로 이미지 세그먼트화에서 세그먼트화의 제1 라운드 후에 사용된다. 그러나, 합병 처리는 통상적으로 반복 접근법으로 구성된다. 종래의 합병 처리가 요하는 예측불가능한 시간을 방지하기 위하여, 여기서 설명된 실시예들은, 이전 프레임으로부터의 라벨(i,j,k-1)을 현재의 프레임으로부터의 라벨(i-1,j,k)과 라벨(i,j-1,k)을 비교함으로써 다음 프레임에서 세그먼트들을 합병하는 머지-인-타임(merge-in-time) 접근법을 채용한다. 이 접근법은 긴 실행 시간의 위험성없이 단편들(fragments)을 안전하게 합병한다.

도 5a 내지 도 5c는 도 3과 표 1을 참조하여 설명된 색 세그먼트화 스캔으로부터의 세그먼트화 결과들을 나타낸다. 도 5a는 비디오 데이터(124)의 프레임을 나타낸다. 비디오 데이터(124)의 프레임은 슬라이드 프리젠테이션을 포함한다. 슬라이드 프리젠테이션은 프로젝터로부터 반사(128)와 같은 아티팩트(artifact)들을 포함할 수도 있다. 도 5b는, 상술된 색 세그먼트화 기술, 즉 슬라이드 세그먼트화가 적용되었던 후에 도 5a로부터의 비디오 데이터(124)의 프레임을 나타낸다. 도 5b 내에 상이한 음영(shading)을 가지는 영역들은 색 세그먼트화 기술을 통하여 식별된다. 예컨대, 영역(126a)은 하나의 지배적이며 코히어런트인 영역을 나타내고, 영역(126b)은 다른 지배적이며 코히어런트인 영역을 나타낸다. 영역(126c)은 다른 지배적이며 코히어런트인 영역을 나타낸다. 도 5c는 도 5b로부터 추출된 슬라이드 영역(126b)을 나타낸다. 즉, TABLE 1의 알고리즘과 같은 하나의 패스 세그먼트화 알고리즘의 적용을 통하여, 슬라이드 영역이 식별될 수도 있다. 상술된 바와 같이, 세그먼트화된 영역들 각각은 지배적이며, 코히어런트인 결맞는 색 형태로서 식별될 수도 있다. 다음, 슬라이드 영역은 슬라이드 영역을 식별하도록 구성된 형상비(shape ratio)를 이용함으로써 남아있는 영역으로부터 식별될 수도 있다. 또한, 스레시홀드값이 형상비에 대한 체킹 이전에 작은 영역들을 폐기하는 데 사용될 수도 있다. 추출된 슬라이드 영역(126b)은 어두운 조명 조건들로 인한 불량한 콘트라스트를 가지며, 프로젝터로부터 반사(128)와 같은 아티팩트들을 포함한다는 것은 당업자들에게 명백할 것이다.

도 6은 본 발명의 일 실시예에 따라 슬라이드 영역에 대한 일-비트 표현을 생성하는 모듈들을 나타내는 개략도이다. 매칭을 찾기 위하여 데이터베이스 슬라이드로의 직접 비교를 위하여 추출된 슬라이드 영역을 사용한다라기 보다, 추출된 슬라이드 영역과 기억된 프리젠테이션 슬라이드를 보다 효율적으로 매칭시키기 위하여, 도 6의 모듈들을 통하여 추출된 슬라이드 영역이 소거된다. 슬라이드 영역(126b)과 연관된 콘트라스트는 모듈(132)에서 스트레칭된다. 일 실시예에서, 휘도 히스토그램이 슬라이드 영역에 걸쳐 생성되어, 휘도 히스토그램이 0~255의 범위를 커버할 때 까지 히스토그램의 2개의 종점들에서 스트레칭된다. 모듈(132)의 콘트라스트 스트레치는 슬라이드 컨텐츠의 선예도(sharpness)를 대폭 증가시킨다는 것은 당업자들에게 명백할 것이다. 다음, 에지 검출기가 모듈(134)에서 생성된 휘도 히스토그램에 적용된다. 일 실시예에서, 에지 검출기는 우수한 에지 검출기이나, 에지 검출기는 임의의 적합한 에지 검출기일 수도 있다. 모듈(134)의 에지 검출기는 슬라이드 영역의 텍스트와 그림들의 중요한 아웃라인들을 캡처링하도록 구성된다는 것을 당업자는 이해할 것이다. 다음, 에지 검출기의 출력은, 일-비트 표현의 에지들과 라인들이 허프 변환을 이용하여 파라미터 스페이스로 변환되는 모듈(136)로의 입력이다.

일반적으로 공지된 바와 같이, 허프 변환은 기하학적 원색들을 추출하는 보편화된 방법이다. 여기서 설명된 실시예들에 관하여, 슬라이드 영역 내의 텍스트와 그림들의 아웃라인들에 관심을 가진다. 허프 변환은 다음 식에 따라 x-y 공간적 도메인으로부터의 라인들을 (ρ,Φ) 파라미터 도메인으로 변환시킨다.

ρ= x^*cos(Θ) + y^*sin(Θ) (1)

여기서, ρ는 라인에서 기원(origin)까지의 거리이고, Θ는 축 x와 기원에서 라인까지 가리키는 라인 벡터에의 수선과의 각이다. 이미지의 모든 화소는 일부 라인들에 속할 수도 있으므로, 라인 파라미터들(ρ,Θ)의 강도를 측정하는 축적기(A(ρ,Θ))가 유지된다. 다음, 축적기 값들은 라인들과 노이즈 특성들 간을 구별하기 위하여 스레시홀딩된다. 다음, 일-차원 히스토그램이 축적기로부터 생성되어, 슬라이드 영역에 라인들을 나타낸다.

도 5c의 슬라이드 영역(126c)에서의 불량한 콘트라스트 및 조명 외에, 화자는 슬라이드 영역 앞에서 이동하고 있을 수도 있으므로, 텍스트 영역들을 차단하여(occluding), 그림자를 생성한다는 것이 이해되어야 한다. 이 차단 및 그림자는 허프 변환에 의하여 캡처링된 에지들과 라인들을 생성할 수도 있다. 이 차단 및 그림자에 대하여 보상하기 위하여, 움직임 마스크가 움직임 억제 모듈(138)을 통하여 형성된다. 움직임 마스크는 후술되는 바와 같이 움직임 영역들을 검출한 후, 에지 히스토그램(140)으로부터 이들을 억제한다.

도 7은 본 발명의 일 실시예에 따른 도 6의 움직임 억제 모듈의 보다 상세한 개략도이다. 슬라이드 영역(126b)은, 인접 프레임들 간의 휘도 채널들의 프레임 차가 결정되는 모듈(150)로 전달된다. 또한, 프레임 차의 2진 스레시홀딩이 계산되어, 그 결과가 실루엣을 생성하는 데 사용된다. 모듈(150)의 출력은, 실루엣이 분리된 이미지로 카피되고, 가장 최근의 타임스탬프의 값이 할당된 모듈(152)로 전달된다. 타임 델타는, 스레시홀드 미만의 화소들이 영(zero)으로 설정되도록 설정된다. 이 복합 움직임 히스토리 이미지(MHI)는 이제 타임스탬프들에 의하여 함께 그루핑된 움직임 영역들을 포함한다. 다음, 모듈(152)에 대한 복합 움직임 히스토리 이미지는, 하향 스테핑 플러드 필(downward stepping flood fill)이 가장 최근의 움직임 영역들을 움직임 마스크(156)로 그루핑하고 세그먼트화하는 데 사용되는 모듈(154)로 전달된다. 이제, 움직임 마스크 내에 위치된 에지들이 움직임 억제 모듈을 통하여 도 6을 참조하여 에지 히스토그램으로부터 배제된다는 것은 당업자들에게 명백할 것이다.

도 8은 본 발명의 일 실시예에 따른 움직임 마스크의 그림 도면을 나타낸다. 여기서, 비디오의 연속 프레임들(142, 144, 146)은 프리젠터의 손이 슬라이드 영역(126b) 위로 움직이는 슬라이드 영역(126b)을 포함한다. 도시된 바와 같이, 손 이미지(144a 내지 144n)는 비디오 데이터의 연속 프레임들을 통하여 하향 방향으로 이동하여, 슬라이드 영역(126b)의 일부를 차단한다. 움직임 억제 모듈들은, 도 7을 참조하여, 도 8의 움직임 마스크(156)를 생성하는 데 사용된다. 따라서, 연속 프레임들을 통한 손 움직임이 캡처링되어, 여기에 설명된 실시예들이 손 이미지의 움직임을 통하여 도입된 아티팩트들을 무시하도록 한다. 일 실시예에서, 움직임 억제 모듈(138)은 잘못된 슬라이드 천이들을 억제하는 것을 원조하며, 이하에 더 설명될 것이다.

도 9는 본 발명의 일 실시예에 따라 비디오 프리젠테이션의 다양한 프레임들 중의 슬라이드 천이들을 나타내는 비디오 트레이스이다. 여기서, 피크들(160a 내지 160g), 및 대응하는 비디오 프레임들(160a-1 내지 160g-1)은, 슬라이드가 변하고 있는 천이점들을 나타낸다. 따라서, 비디오 프레임들(160a-1 내지 160g-1)과 연관된 슬라이드 영역들은 원래의 슬라이드를 대응하는 비디오 샷에 링크하기 위한 템플릿으로서 사용될 수도 있는 키 프레임들을 나타낸다. 인접 프레임들로부터의 에지 히스토그램들은 식 (2)에 설명된 바와 같이 상관 측정을 이용하여 비교된다.

(2)

식 (2)로부터 유도된 상관 값들은 비디오 트레이스를 생성하는 데 사용되며, 트레이스의 피크들은 샷 천이들에 대응한다. 움직임 억제는 상관 비교로부터 움직임 영역들을 제거함으로써 도 9에서 프레임들(3000~4000) 간의 잘못된 피크들을 감소하도록 돕는다.

도 10은 본 발명의 일 실시예에 따른 템플릿 매칭 모듈을 나타내는 개략도이다. 여기서, 슬라이드 영역(126b)은, 도 6을 참조하여 콘트라스트 스트레칭 모듈(132)과 유사하게 기능하는 히스토그램 스트레칭 모듈(162)을 통하여 처리된다. 모듈(162)의 출력은 상술된 바와 같이 에지 검출이 수행되는 모듈(134)에 전달된다. 다음, 에지 검출 모듈(134)의 출력은 공간적 프로젝션 모듈(164)로 전달된다. 여기서, x 및 y축에 에지 크기를 투사함으로써 1-차원 히스토그램이 생성된다. 이 히스토그램을 원래의 프리젠테이션 미디어, 예컨대 슬라이드의 그것과 비교하기 위하여, 슬라이드들로부터 생성된 이미지들에 유사한 처리가 수행된다. 즉, 에지 검출, 공간적 비교 및 상관 비교가 원래의 프리젠테이션 미디어로 수행된다. 다음, 원래의 슬라이드는, 상관 비교를 통하여 가장 근접하게 상관하는 슬라이드 영역, 즉 키 프레임과 매칭된다. 원래의 프리젠테이션 미디어는 원래의 프리젠테이션 미디어로서 적용된 히스토그램 스트레칭을 가질 필요가 없으며, 또는 그 카피는 충분한 품질 레벨을 가지는 것이 이해되어야 한다.

도 11은 프리젠테이션으로부터 비디오를 캡처링하여 요약화할 수 있으며, 이 요약을 클라이언트나 유저에게 전자 메일로 보낼 수 있는 시스템의 고레벨 개략도이다. 이미지 캡처 장치(173)는 프리젠테이션(170)의 비디오 이미지를 캡처링한다. 캡처링된 비디오 데이터는 랩탑 컴퓨터(172)에 전송된다. 랩탑 컴퓨터(172) 는 상술된 바와 같은 슬라이드 세그먼트화, 샷 검출, 및 템플릿 매칭 모듈들을 실행하도록 구성될 수도 있다. 물론, 랩탑 컴퓨터(172)는 여기서 설명된 기능성을 실행하도록 구성된 임의의 적합한 계산 장치일 수도 있다. 랩탑 컴퓨터(172)는 미디어 서버(174)와 통신한다. 일 실시예에서, 랩탑 컴퓨터는 비디오를, 프리젠테이션의 원래의 슬라이드들에 대응하는 샷들로 세그먼트화한다. 다음, 비디오 샷들은, 예컨대 MPEG(Motion Picture Expert Group)으로 또는 어떠한 다른 적합한 오디오 비디오 압축 표준으로 인코드되어, 미디어 서버(174)에 기억된다. 다른 실시예에서, 컨텐츠 테이블(178)로서 구성된 웹 페이지 요약이 생성되어, 미디어 서버(174)에 기억된다.

또한 도 11을 참조하여, 컨텐츠 테이블(178)은, 각 인덱스가 슬라이드의 타이틀(178a), 슬라이드의 섬네일(178c), 및 대응하는 비디오 스트림에 링크하는 키 프레임(178b)을 포함하는 다수의 인덱스들을 포함한다. 따라서, 전자 메일링된 데이터를 수신하도록 구성된 계산 장치(클라이언트)를 가지는 유저에게 미디어 서버(174)로부터 기억된 웹 페이지가 전자 메일링될 수도 있다. 예컨대, PDA(Personal Digital Assistant)(176), 랩탑(180), 또는 전자 메일을 수신할 수 있는 임의의 다른 적합한 장치가 웹 페이지의 수신자일 수도 있다. 클라이언트가 웹 페이지를 수신하기만 하면, 유저는 TOC를 신속하게 브라우징하여 프리젠테이션의 개요를 얻을 수 있다. 유저는 섬네일을 통하여 섬네일(178c)의 풀 스크린 버전을 또한 액세스할 수도 있거나, 키 프레임(178b)을 통하여 대응하는 비디오 샷을 다운로드할 수도 있다. 제한된 리소스들을 가지는 수신 장치, 즉 휴대용 전자 장치는, 전체 비디오 스트림을 수신하는 것에 반하는 것으로, 키 프레임 또는 비디오 샷을 이제 볼 수 있으며, 이것은 휴대용 장치의 성능을 넘어선 것일 것임은 당업자에게 명백할 것이다. 일 실시예에서, 여기에 설명된 자동화된 요약화 기술은 랩탑(172)이라기 보다는 미디어 서버(174)에서 수행될 수도 있다.

상술된 실시예들은 소프트웨어 또는 하드웨어에서 실행될 수도 있다는 것이 이해되어야 한다. 당업자는, 상기 논의된 기능성을 제공하도록 구성된 논리 게이트들을 포함하는 반도체 칩으로서 모듈들이 내장될 수도 있다는 것을 이해할 것이다. 예컨대, HDL(hardware description language), 예컨대 VERILOG는 여기에 설명된 필수적인 기능성을 제공하기 위하여, 펌웨어와 논리 게이트의 레이아웃을 합성하기 위하여 채용될 수 있어서, 자동 요약화 기술들의 하드웨어 실행 및 연관된 기능성을 제공한다.

도 12는 본 발명의 일 실시예에 따라 시청각 프리젠테이션의 요약을 생성하는 단계들을 나타내는 흐름도이다. 본 발명은, 시청각 프리젠테이션의 프레임이 세그먼트화되는 동작(190)으로 개시한다. 여기서, 도 3 내지 도 5c를 참조하여 상술된 색 세그먼트화 기술은 시청각 프리젠테이션의 프레임을 지배적이고 코히어런트인 영역들로 세그먼트화하는 데 사용될 수도 있다. 다음, 본 방법은 세그먼트화된 프레임의 슬라이드 영역이 식별되는 동작(192)으로 진행한다. 여기서, 특정 특징들, 즉 형상비와 같은 특징들이 슬라이드 영역을 식별하는 데 사용된다. 또한, 비디오 프레임의 작은 영역들을 제거하기 위하여 스레시홀드 값이 사용될 수도 있다.

다음, 도 12의 방법은 슬라이드 영역에서의 라인들을 나타내는 히스토그램이 생성되는 동작(194)으로 진행한다. 여기서, 히스토그램을 생성하기 위하여 샷 검출 모듈이 사용될 수도 있다. 다음, 본 방법은 연속된 프레임과 연관하여 움직임 영역들이 히스토그램으로부터 억제되는 동작(196)으로 이동한다. 일 실시예에서, 움직임 억제가 상술된 바와 같이 적용되어, 슬라이드 영역을 가로지르는 움직임 대상물의 영향을 감소시키고, 샷 검출 중에 잘못된 알람을 생성하는 것을 감소시킨다. 또한, 상관 비교를 통하여 슬라이드 영역과, 슬라이드의 기억된 원본 또는 카피와 매칭하기 위하여, 템플릿 매칭이 히스토그램에 수행될 수도 있다. 따라서, 슬라이드 영역을 포함하는 비디오 프레임과 상관된 슬라이드의 원본 또는 카피가, 도 11을 참조한 요약화와 같은 요약화를 생성하는 데 사용된다.

요약하여, 상술된 발명은 시청각 프리젠테이션의 실시간 요약화를 제공한다. 이 요약화에 의하여 유저는 긴 세미나 또는 프리젠테이션을 브라우징할 수 있으며, 특정 컨텐츠를 신속하고 효율적으로 볼 수 있다. 또한, 기록된 컨텐츠는 서버에 기억될 수도 있어서, 인터넷을 통한 유저 액세스를 가능하게 한다. 요약화는, 제한된 리소스들을 가지는 클라이언트들이 프리젠테이션의 특정 샷들을 볼 수 있도록 하며, 그렇지 않으면 클라이언트는 풀 비디오 스트림을 처리할 수 없을 것이다. 따라서, 비디오 기록 장치는 프리젠테이션을 캡처링하여, 이 캡처링된 데이터를 프리젠테이션용으로 사용되는 슬라이드들로의 액세스를 가지는 컴퓨터로 전송하는 데 사용될 수도 있다. 슬라이드 세그먼트화 모듈, 샷 검출 모듈, 및 템플릿 매칭 모 듈을 통하여, 프리젠테이션의 요약화가 제공된다. 일 실시예에서, 요약화는 컨텐츠 테이블의 형태이다.

상기 실시예들을 염두에 두어, 본 발명은 컴퓨터 시스템에 기억된 데이터를 포함하는 다양한 컴퓨터-실행 동작들을 채용할 수도 있다는 것이 이해되어야 한다. 이들 동작들은 물리적 양의 물리적 조작을 요하는 동작들을 포함한다. 일반적으로, 필수적이지는 않지만, 이들 양은 기억되고, 전달되고, 병합되고, 비교되고, 그렇지 않으면 조작될 수 있는 전기 또는 자기 신호들의 형태를 취한다. 또한, 수행된 조작은 종종 생성, 식별, 판정 또는 비교와 같은 용어에 관한 것이다.

상술된 발명은 휴대용 장치, 마이크로프로세서 시스템, 마이크로프로세서-기반 또는 프로그래머블 소비자 일렉트로닉스, 마이크로컴퓨터, 메인프레임 컴퓨터 등을 포함하는 다른 컴퓨터 시스템 구성으로 실행될 수도 있다. 본 발명은, 통신 네트워크를 통하여 링크된 원격 처리 장치들에 의하여 태스크가 수행되는 계산 환경들을 분배할 때 수행될 수도 있다.

본 발명은 또한, 컴퓨터 판독가능 매체에 컴퓨터 판독가능 코드로서 구현될 수 있다. 컴퓨터 판독가능 매체는, 컴퓨터 시스템에 의하여 그후 판독될 수 있는 데이터를 기억할 수 있는 임의의 데이터 기억 장치이다. 컴퓨터 판독가능 매체는 또한, 컴퓨터 코드가 포함되는 전자기 캐리어파를 또한 포함한다. 컴퓨터 판독가능 매체의 예들은, 하드 드라이브, NAS(network attached storage), 리드-온리 메모리, 랜덤-억세스 메모리, CD-ROMs, CD-Rs, CD-RWs, 자기 테이프, 및 다른 광학적 및 비광학적 데이터 기억 장치를 포함한다. 컴퓨터 판독가능 매체는 또한 네트워 크 접속된 컴퓨터 시스템에 걸쳐 분포될 수 있어서, 컴퓨터 판독가능 코드가 기억되어, 분배 방식으로 실행된다.

본 발명이 명확한 이해를 목적으로 다소 상세하게 설명되었으나, 첨부된 청구항의 범위 내에서 특정 변경 및 변형이 실행될 수도 있다는 것이 명백할 것이다. 따라서, 본 실시예들은 제한적이 아니라 예시적으로서 간주되어야 하며, 본 발명은 여기에 주어진 상세에 제한되지 않으나, 첨부된 청구항의 범위 및 등가물 내에서 변형될 수도 있다. 청구항에서, 소자들 및/또는 단계들은, 청구항에 명백하게 기재되어 있지 않으면, 동작의 임의의 특정 순서를 내포하지 않는다.

Claims

이미지 데이터를 세그먼트화하는 방법에 있어서,

이미지 데이터의 현재 프레임과 연관된 화소를 식별하는 단계;

3차원 이웃을 생성하는 단계를 포함하며, 현재 프레임과 연관된 화소 주위의 이웃 화소들을 정의하는 단계;

최단 거리를 결정하기 위하여, 현재 프레임과 연관된 화소와, 이웃 화소들과 연관된 각 화소 간의 거리를 비교하는 단계; 및

최단 거리에 기초하여 현재 프레임과 연관된 화소가 이미지 데이터의 현재 세그먼트에 속하는 지를 판정하는 단계를 구비하는, 이미지 데이터의 세그먼트화 방법.
제 1 항에 있어서, 현재 프레임과 연관된 화소가 이미지 데이터의 현재 세그먼트에 속하는 지를 판정하는 상기 단계는,

스레시홀드를 확립하는 단계; 및

최단 거리와 스레시홀드를 비교하는 단계를 포함하여,

최단 거리가 스레시홀드보다 작으면, 현재 프레임과 연관된 화소가 현재 세그먼트에 속하는, 이미지 데이터의 세그먼트화 방법.
제 1 항에 있어서, 3차원 이웃을 생성하는 상기 단계는,

이웃의 현재 프레임의 미래 화소 값 대신에, 과거 프레임 화소와 연관된 화소 값을 사용하는 단계를 포함하는, 이미지 데이터의 세그먼트화 방법.
제 1 항에 있어서, 3차원 이웃은 현재 프레임으로부터의 2차원과 과거 프레임으로부터의 1차원을 포함하는, 이미지 데이터의 세그먼트화 방법.
제 1 항에 있어서, 상기 단계들은 이미지 데이터의 현재 프레임을 통하여 단일 패스로 완료되는, 이미지 데이터의 세그먼트화 방법.
시청각 프리젠테이션의 요약을 생성하는 방법에 있어서,

시청각 프리젠테이션의 프레임을 세그먼트화하는 단계;

세그먼트화된 프레임의 슬라이드 영역을 식별하는 단계;

슬라이드 영역에서 라인들을 나타내는 히스토그램을 생성하는 단계; 및

히스토그램으로부터 연속적 프레임들과 연관하여 움직임 영역들을 억제하는 단계를 구비하는, 시청각 프리젠테이션의 요약 생성 방법.
제 6 항에 있어서,

슬라이드 영역과 연관된 기억된 슬라이드로부터 히스토그램을 생성하는 단계; 및

슬라이드 영역의 라인들을 나타내는 히스토그램과 기억된 슬라이드로부터의 히스토그램을 매칭하는 단계를 더 구비하는, 시청각 프리젠테이션의 요약 생성 방법.
제 6 항에 있어서, 세그먼트화된 프레임의 슬라이드 영역을 식별하는 상기 단계는,

슬라이드 영역의 형상비를 결정하는 단계를 포함하는, 시청각 프리젠테이션의 요약 생성 방법.
제 6 항에 있어서, 슬라이드 영역에서 라인들을 나타내는 히스토그램을 생성하는 상기 단계는,

슬라이드 영역의 텍스트와 그림들의 에지들을 검출하는 단계; 및

에지들을 나타내는 데이터를 파라미터 스페이스로 변환시키는 단계를 포함하는, 시청각 프리젠테이션의 요약 생성 방법.
제 6 항에 있어서, 히스토그램으로부터 연속 프레임들과 연관하여 움직임 영역들을 억제하는 상기 단계는,

전경(foreground) 실루엣을 캡처링하는 단계;

전경 실루엣을 카피하는 단계;

카피된 전경 실루엣에 가장 최근의 타임스탬프를 할당하는 단계; 및

움직임 마스크 내에 위치된 에지들이 히스토그램으로부터 배제되는 움직임 마스크를 생성하는 단계를 포함하는, 시청각 프리젠테이션의 요약 생성 방법.
제 6 항에 있어서, 시청각 프리젠테이션의 프레임을 세그먼트화하는 상기 단계는,

프레임의 각 화소 값과, 인과 순서로 이웃 화소 값들과 비교하는 단계를 포함하는, 시청각 프리젠테이션의 요약 생성 방법.
제 11 항에 있어서, 이웃 화소 값들은 5개의 이웃 화소 값들을 포함하는, 시청각 프리젠테이션의 요약 생성 방법.
제 12 항에 있어서, 5개의 이웃 화소 값들은 프레임으로부터 2개의 이전 인접 화소 값들, 이전 프레임으로부터의 대응하는 화소 값, 및 이전 프레임으로부터의 2개의 인접 화소 값들을 포함하는, 시청각 프리젠테이션의 요약 생성 방법.
이미지 데이터를 세그먼트화하는 프로그램 명령들을 가지는 컴퓨터 판독가능 매체에 있어서,

이미지 데이터의 현재 프레임과 연관된 화소를 식별하는 프로그램 명령들;

3차원 이웃을 생성하며, 현재의 프레임과 연관된 화소 주위의 이웃 화소들을 정의하는 프로그램 명령들;

최단 거리를 결정하기 위하여, 현재의 프레임과 연관된 화소와, 이웃 화소들과 연관된 각 화소 간의 거리를 비교하는 프로그램 명령들; 및

최단 거리에 기초하여, 현재의 프레임과 연관된 화소가 이미지 데이터의 현재의 세그먼트에 속하는 지를 판정하는 프로그램 명령들을 구비하는, 컴퓨터 판독가능 매체.
제 14 항에 있어서, 현재 프레임과 연관된 화소가 이미지 데이터의 현재 세그먼트에 속하는 지를 판정하는 상기 프로그램 명령은,

스레시홀드를 확립하는 프로그램 명령들; 및

스레시홀드와 최단 거리를 비교하는 프로그램 명령들을 포함하여,

최단 거리가 스레시홀드보다 작으면, 현재 프레임과 연관된 화소는 현재 세그먼트에 속하는, 컴퓨터 판독가능 매체.
제 14 항에 있어서, 3차원 이웃을 생성하는 상기 프로그램 명령들은,

이웃의 현재 프레임의 미래 화소 값 대신에, 과거 프레임 화소와 연관된 화소 값을 사용하는 프로그램 명령들을 포함하는, 컴퓨터 판독가능 매체.
시청각 프리젠테이션의 요약을 생성하는 프로그램 명령들을 가지는 컴퓨터 판독가능 매체에 있어서,

시청각 프리젠테이션의 프레임을 세그먼트화하는 프로그램 명령들;

세그먼트화된 프레임의 슬라이드 영역을 식별하는 프로그램 명령들;

슬라이드 영역에서 라인들을 나타내는 히스토그램을 생성하는 프로그램 명령들; 및

히스토그램으로부터 연속 프레임들과 연관하여 움직임 영역들을 억제하는 프로그램 명령들을 구비하는, 컴퓨터 판독가능 매체.
제 17 항에 있어서,

슬라이드 영역과 연관된 기억된 슬라이드로부터 히스토그램을 생성하는 프로그램 명령들; 및

슬라이드 영역의 라인들을 나타내는 히스토그램과, 기억된 슬라이드로부터의 히스토그램을 매칭하는 프로그램 명령들을 더 구비하는, 컴퓨터 판독가능 매체.
제 17 항에 있어서, 세그먼트화된 프레임의 슬라이드 영역을 식별하는 상기 프로그램 명령들은,

슬라이드 영역의 형상비를 결정하는 프로그램 명령들을 포함하는, 컴퓨터 판독가능 매체.
제 17 항에 있어서, 슬라이드 영역에서 라인들을 나타내는 히스토그램을 생성하는 상기 프로그램 명령들은,

슬라이드 영역의 텍스트와 그림들의 에지들을 검출하는 프로그램 명령들; 및

에지들을 나타내는 데이터를 파라미터 스페이스로 변환시키는 프로그램 명령들을 포함하는, 컴퓨터 판독가능 매체.
제 17 항에 있어서, 히스토그램으로부터 연속 프레임들과 연관하여 움직임 영역들을 억제하는 상기 프로그램 명령들은,

전경 실루엣을 캡처링하는 프로그램 명령들;

전경 실루엣을 카피하는 프로그램 명령들;

카피된 전경 실루엣에 가장 최근의 타임스탬프를 할당하는 프로그램 명령들; 및

움직임 마스크 내에 위치된 에지들이 히스토그램으로부터 배제되는 움직임 마스크를 생성하는 프로그램 명령들을 포함하는, 컴퓨터 판독가능 매체.
시청각 프리젠테이션을 캡처링하여 요약화하도록 구성된 시스템에 있어서,

프리젠테이션으로부터 오디오 및 비디오 신호들을 캡처링할 수 있는 기록 장치; 및

기록 장치와 통신하며, 시청각 프리젠테이션의 시청각 데이터로의 액세스를 가지며, 단일 패스 색 세그먼트화 설계에 따라 비디오 신호들의 프레임으로부터 슬라이드 영역을 추출하도록 구성된 슬라이드 세그먼트화 모듈을 포함하는 계산 장치를 구비하는, 시스템.
제 22 항에 있어서, 기록 장치는 캠코더인, 시스템.
제 22 항에 있어서, 계산 장치는 비디오 신호들의 인접 프레임들에 대한 슬 라이드 영역의 에지 정보를 비교하도록 구성된 샷 검출 모듈을 포함하는, 시스템.
제 24 항에 있어서, 샷 검출 모듈은 슬라이드 영역 앞에서의 움직임들로 유발된 아티팩트(artifact)들을 억제하도록 구성된 움직임 억제 모듈을 포함하는, 시스템.
제 22 항에 있어서, 슬라이드 세그먼트화 모듈은 현재의 프레임으로부터의 화소 값과, 현재의 프레임으로부터의 인접 화소 값들 및 이전 프레임으로부터의 인접 화소 값들 모두와 비교하도록 더 구성되며, 상기 이전 프레임으로부터의 인접 화소 값들은 현재의 프레임의 미래 화소 위치들에 대응하는, 시스템.
제 22 항에 있어서, 슬라이드 세그먼트화 모듈은, 슬라이드 영역의 추출시에 사용되기 위한 것이며, 현재 프레임에서의 2차원과 이전 프레임에서의 1차원을 포함하는 3차원 이웃을 생성하도록 더 구성되는, 시스템.
회의의 실시간 요약화를 제공하도록 구성된 시스템에 있어서,

회의와 연관된 프리젠테이션을 캡처링하도록 구성된 이미지 캡처 장치;

이미지 캡처 장치로부터 캡처링된 프리젠테이션 데이터를 수신하도록 구성되며, 회의용으로 사용되는 프리젠테이션 미디어의 카피들로의 액세스를 가지고, 캡처링된 프리젠테이션 데이터로부터, 프리젠테이션에 대응하며 회의의 프리젠테이션 미디어 천이점들과 연관된 요약 데이터를 생성하도록 더 구성된 미디어 서버; 및

미디어 서버와 통신하며, 요약 데이터를 수신할 수 있는 클라이언트를 구비하는, 시스템.
제 28 항에 있어서, 프리젠테이션 미디어는 슬라이드 프리젠테이션인, 시스템.
제 28 항에 있어서,

상기 시스템은 상기 이미지 캡처 장치 및 상기 미디어 서버와 통신하는 계산 장치를 더 포함하며,

상기 계산 장치는,

단일 패스 색 세그먼트화 설계에 따라 상기 프리젠테이션의 프레임으로부터 슬라이드 영역을 추출하도록 구성된 슬라이드 세그먼트화 모듈; 및

비디오 신호의 인접 프레임에 대하여 상기 슬라이드 영역의 에지 정보를 비교하도록 구성된 샷 검출 모듈을 포함하며,

상기 샷 검출 모듈은,

상기 슬라이드 영역 앞에서의 움직임에 의해 유발된 아티팩트들을 억제하도록 구성되는 움직임 억제 모듈을 포함하는, 시스템.
제 28 항에 있어서, 요약 데이터는 프리젠테이션 미디어의 대응하는 카피와연관된 프리젠테이션 미디어 천이점 이미지를 가지는 컨텐츠 테이블인, 시스템.
제 28 항에 있어서, 프리젠테이션 미디어 천이점은 슬라이드가 변화된 회의의 시점과 연관된, 시스템.
집적 회로에 있어서,

이미지 데이터의 프레임을 영역들로 세그먼트화하도록 구성되며, 영역들 각각에 연관된 색 특성 및 형상 특성의 분석을 통하여 영역들 중 하나를 슬라이드 영역으로서 식별할 수 있는 세그먼트화 회로소자; 및

슬라이드 영역의 에지 정보의 분석을 통하여 프레임과 연관된 프레임들 그룹을 이미지 데이터의 인접 프레임들과 동일시하도록 구성된 샷 검출 회로소자를 구비하는, 집적 회로.
제 33 항에 있어서,

프레임들 그룹을 나타내는 키 프레임과 원래의 슬라이드 영역을 매칭하도록 구성된 템플릿 매칭 회로소자를 더 구비하는, 집적 회로.
제 33 항에 있어서, 샷 검출 회로소자는,

슬라이드 영역 앞에서의 움직임들로 유발된 아티팩트들을 억제하도록 구성된 움직임 억제 회로소자를 더 포함하는, 집적 회로.
제 33 항에 있어서, 세그먼트화 회로소자는, 슬라이드 영역을 식별할 때 사용을 위한 것이며, 이미지 데이터의 현재 프레임의 2차원들과 이미지 데이터의 이전 프레임의 1차원을 포함하는 3차원 이웃을 정의하도록 더 구성되는, 집적 회로.
제 35 항에 있어서, 상기 움직임 억제 회로소자는,

전경 실루엣을 캡처링하는 회로소자;

전경 실루엣을 카피하는 회로소자;

카피된 전경 실루엣에 가장 최근의 타임스탬프를 할당하는 회로소자; 및

아티팩트들을 배제하기 위한 움직임 마스크를 생성하는 회로소자를 포함하는, 집적 회로.