KR101531783B1

KR101531783B1 - 특정한 사람을 포함하는 비디오 요약본

Info

Publication number: KR101531783B1
Application number: KR1020137033539A
Authority: KR
Inventors: 키이스 스톨 칸; 브루스 해럴드 필먼; 아론 토마스 디벌; 존 알 맥코이; 프랭크 라자비; 로버트 그렛징거
Original assignee: 인텔렉츄얼 벤처스 펀드 83 엘엘씨
Priority date: 2011-05-18
Filing date: 2012-05-14
Publication date: 2015-06-25
Also published as: BR112013029493A2; JP2014520424A; US9013604B2; US20120293687A1; EP2710795A1; US20140105500A1; WO2012158588A1; CN103535023B; CN108234883A; US8643746B2; KR20140010989A; JP5877895B2; CN103535023A

Abstract

방법을 이용하여 비디오 요약본을 제공하는 디지털 비디오 카메라 시스템이 개시되며, 상기 방법은 특정한 사람을 포함하는 기준 이미지를 지정(designating)하는 단계; 상기 이미지 센서를 이용하여 장면의 비디오 시퀀스를 캡쳐하는 단계 ― 상기 비디오 시퀀스는 이미지 프레임들의 시간 시퀀스를 포함함 ― ; 디지털 비디오 파일을 형성하기 위해 비디오 프로세싱 경로를 이용하여 캡쳐된 비디오 시퀀스를 프로세싱하는 단계; 상기 비디오 시퀀스의 프로세싱 동안 상기 특정한 사람을 포함하는 이미지 프레임들의 서브세트를 식별하도록 사람 인식 알고리즘을 이용하여 상기 캡쳐된 이미지 프레임들을 분석하는 단계; 상기 캡쳐된 비디오 시퀀스에서 상기 이미지 프레임들 전부보다 적은 이미지 프레임들을 포함하는 비디오 요약본을 형성하는 단계 ― 상기 비디오 요약본은 상기 특정한 사람을 포함하는 이미지 프레임들의 식별된 서브세트의 적어도 일부를 포함함 ― ; 상기 저장 메모리에 상기 디지털 비디오 파일을 저장하는 단계; 및 상기 저장 메모리에 상기 비디오 요약본의 표현(representation)을 저장하는 단계를 포함한다.

Description

특정한 사람을 포함하는 비디오 요약본{VIDEO SUMMARY INCLUDING A PARTICULAR PERSON}

본 발명은 디지털 비디오 프로세싱의 분야에 관한 것으로, 보다 구체적으로는 디지털 비디오 요약본을 형성하기 위한 시스템 및 방법에 관한 것이다.

다수의 디지털 캡쳐 디바이스들은 정지 이미지들은 물론 비디오를 캡쳐할 수 있다. 그러나 디지털 비디오 콘텐츠의 관리는 어려운 작업일 수 있다. 비디오들은 종종 비디오의 최초의 프레임의 섬네일 이미지(thumbnail image)로 시각적으로 표현된다. 이는 비디오 콘텐츠에 대한 많은 이해(insight)를 제공하지 않을 수 있다. 특유의 이벤트가 정해진 비디오에 포함되었는지를 결정하는 것은 종종 전체 비디오를 관람할 것을 요구한다. 긴 비디오에 대해서, 사용자는 비디오 전체를 관람할 필요 없이 비디오의 빠른 요약본(quick summary)을 획득할 수 있는 것을 선호할 수 있다.

디지털 비디오들은 또한 공유 관점으로부터 실제적인 문제를 제공할 수 있다. 다수의 디지털 캡쳐 디바이스들은 1920 × 1080 픽셀들만큼 높은 공간적 해상도들로 초당 30 또는 60 프레임들로 비디오를 레코딩한다. 압축되었을 때조차도, 생성된 데이터의 양은 비교적 상당히 짧은 비디오들을 공유하는 것을 실현 불가능하게 할 수 있다.

비디오 편집 소프트웨어는 보다 쉽게 공유될 수 있는 더 짧은 버전으로 비디오를 수동으로 요약하는데 이용될 수 있다. 그러나 수동 비디오 편집은 오래 걸리고 힘든 프로세스일 수 있고, 다수의 사용자들은 수동 편집에 관심이 없다. 자동 비디오 요약본 알고리즘들이 또한 존재한다. 이들 해결책들은 입력으로서 캡쳐된 비디오와 더불어 시작하고 비디오 요약본을 결정하기 위해 비디오를 분석한다. 발명의 명칭이 "Method for hierarchical summarization and browsing of digital video"이고 Ratakonda에 의한 미국 특허 제5,995,095호는 비디오 시퀀스의 핵심-프레임들에 기초하여 계층적 요약을 생성하기 위한 방법을 개시한다. 발명의 명칭이 "Scalable video summarization and navigation system and method"이고 Li 등에 의한 미국 특허 제7,035,435호는 비디오의 각각의 장면, 샷(shot) 및 프레임에 중요도 값을 할당하고 비디오 요약본에 대한 핵심 프레임들을 결정하기 위해 중요도 값들을 이용하기 위한 방법을 기술한다. 발명의 명칭이 "Automatic editing of a visual recording to eliminate content of unacceptably low quality and/or very little or no interest"이고 Edwards에 의한 미국 특허 제7,483,618호는 낮은 품질 또는 관심이 거의 없는 콘텐츠를 비디오로부터 제거하는 비디오 요약본을 결정하기 위한 방법을 개시한다.

그러나 비디오 요약본을 결정하기 위해 요구되는 분석을 수행하기 위해 비디오를 디코딩할 필요가 있기 때문에 자동 비디오 요약본 알고리즘들은 매우 복잡하다. 따라서 디지털 캡쳐 디바이스 상에서 방금-캡쳐한 비디오에 대응하는 비디오 요약본을 즉시 관람하는 것이 가능하지 않다. 이러한 단점은 캡쳐된 비디오들의 빠른 리뷰 및 공유를 용이하게 하는 것을 곤란하게 한다.

비디오 요약본을 생성할 때, 요약 내의 특유의 특징을 갖는 것이 종종 바람직하다. 비디오 요약본은 특징이 존재하는 비디오 콘텐츠 중 일부 또는 모두 다를 포함하도록 생성된다. 이러한 특징들의 예들은 사람, 애완동물, 이벤트들, 위치들, 활동들 또는 객체들을 포함할 수 있다. 맞춤 비디오 요약본(tailored video summary)과 같은 수동 생성은 지루한 프로세스일 수 있다. 이러한 맞춤 비디오 요약본을 생성하기 위해 데스크톱 소프트웨어를 이용하는 것은 비디오 요약본들을 빠르게 리뷰하고 공유하는 능력을 방해한다.

따라서 디지털 캡쳐 디바이스에서 비디오 요약본을 컴퓨팅하기 위한 시스템들 및 방법들을 제공하는 것이 바람직할 것이다. 특히, 비디오 캡쳐의 완료 시에 최소의 지연으로 디지털 캡쳐 디바이스 상에서 비디오 요약본이 생성되도록 허용하는 해결책을 제공하는 것이 바람직할 것이다. 또한, 사용자-특정된 특징을 포함하는 비디오 요약본을 제공하는 것이 바람직할 것이다.

본 발명은 비디오 시퀀스를 캡쳐(capture)하고 연관된 비디오 요약본(associated video summary)을 제공하기 위한 디지털 비디오 카메라 시스템을 제시하며, 이 카메라 비디오 시스템은,

디지털 이미지를 캡쳐하기 위한 이미지 센서;

상기 이미지 센서 상에 장면의 이미지를 형성하기 위한 광학 시스템;

데이터 프로세싱 시스템;

캡쳐된 비디오 시퀀스들을 저장하기 위한 저장 메모리; 및

상기 데이터 프로세싱 시스템에 통신 가능하게 연결되고 상기 데이터 프로세싱 시스템이 비디오 요약본을 형성하기 위한 방법을 구현하게 하도록 구성된 명령들을 저장하는 프로그램 메모리를 포함하고,

상기 방법은,

특정한 사람을 포함하는 기준 이미지를 지정(designating)하는 단계;

상기 이미지 센서를 이용하여 장면의 비디오 시퀀스를 캡쳐하는 단계 ― 상기 비디오 시퀀스는 이미지 프레임들의 시간 시퀀스를 포함함 ― ;

디지털 비디오 파일을 형성하기 위해 비디오 프로세싱 경로를 이용하여 캡쳐된 비디오 시퀀스를 프로세싱하는 단계;

상기 비디오 시퀀스의 캡쳐 동안 상기 특정한 사람을 포함하는 이미지 프레임들의 서브세트를 식별하도록 사람 인식 알고리즘을 이용하여 상기 캡쳐된 이미지 프레임들을 분석하는 단계;

상기 캡쳐된 비디오 시퀀스에서 상기 이미지 프레임들 전부보다 적은 이미지 프레임들을 포함하는 비디오 요약본을 형성하는 단계 ― 상기 비디오 요약본은 상기 특정한 사람을 포함하는 이미지 프레임들의 식별된 서브세트의 적어도 일부를 포함함 ― ;

상기 저장 메모리에 상기 디지털 비디오 파일을 저장하는 단계; 및

상기 저장 메모리에 상기 비디오 요약본의 표현(representation)을 저장하는 단계를 포함한다.

본 발명은 특정한 사람을 포함하는 비디오 프레임들의 서브세트를 결정하기 위해 캡쳐 시간에 비디오 프레임들을 분석한다는 이점을 가지며, 그에 의해 비디오 시퀀스가 생성되는 시간에 비디오 데이터를 압축해제할 필요성을 제거한다.

본 발명은 저장된 디지털 비디오 시퀀스를 압축해제할 필요 없이 저장 메모리에 비디오 요약본의 표현을 저장한다는 부가적인 이점을 갖는다. 이는 비디오 캡쳐의 완료 시에 비디오 요약본이 최소의 지연으로 디지털 캡쳐 디바이스 상에서 생성 및 관람되도록 허용한다.

몇몇 실시예들에서, 비디오 요약본은 비디오 요약본을 별개의 파일로서 인코딩할 필요 없이 메타데이터를 이용하여 디지털 비디오 파일에 인코딩된다. 이는 비디오 요약본이 종래의 재생기들에 투명하면서 비디오 요약본 메타데이터를 이해하는 "스마트" 비디오 재생기들을 통해 관람하도록 알맞게 이용 가능하게 된다는 이점을 갖는다.

도 1은 비디오 요약본을 형성하기 위한 시스템의 컴포넌트를 도시하는 고레벨도.
도 2는 비디오 요약본을 형성하기 위한 방법의 흐름도.
도 3은 디지털 비디오 시퀀스를 프로세싱하기 위해 2개의 상이한 비디오 프로세싱 경로들의 이용을 예시하는 흐름도.
도 4는 대안적인 실시예에 따라 디지털 비디오 시퀀스를 프로세싱하기 위한 2개의 상이한 비디오 프로세싱 경로들의 이용을 예시하는 흐름도.
도 5는 제 2 실시예에 따라 비디오 요약본들을 생성하기 위한 방법의 흐름도.
도 6은 제 3 실시예에 따라 비디오 요약본들을 생성하기 위한 방법의 흐름도.

다음의 설명에서, 본 발명의 바람직한 실시예는 보통 소프트웨어 프로그램으로서 구현되는 견지에서 기술될 것이다. 당업자들은 이러한 소프트웨어의 등가물이 하드웨어로 또한 구성될 수 있다는 것을 쉽게 인지할 것이다. 이미지 조작 알고리즘들 및 시스템들은 잘 알려져 있기 때문에, 본 설명은 특히 본 발명에 따른 시스템 및 방법의 부분을 형성하거나 그와 보다 더 직접적으로 협력하는 알고리즘들 및 시스템들에 관한 것이 될 것이다. 이러한 알고리즘들 및 시스템들, 및 그것에 수반되는 이미지 신호들을 생성 및 다른 방식으로 프로세싱하기 위한 하드웨어 또는 소프트웨어의 다른 양상들(여기서 구체적으로 도시되거나 기술되지 않음)은 당 분야에 알려진 이러한 시스템들, 알고리즘들, 컴포넌트들 및 엘리먼트들로부터 선택될 수 있다. 이어지는 자료들에서 본 발명에 따라 기술되는 바와 같은 시스템이 주어지면, 본 발명의 구현에 유용한, 여기서 구체적으로 도시되거나, 제안되거나 기술되지 않은 소프트웨어가 통상적이며 이러한 기술 분야에서 통상의 기술 범위 내에 있다.

여전히 추가로, 여기서 이용되는 바와 같이, 본 발명의 방법을 수행하기 위한 컴퓨터 프로그램은, 예를 들어, 자기 디스크(이를 테면, 하드 드라이브 또는 플로피 디스크) 또는 자기 테이프와 같은 자기 저장 매체들; 광학 디스크, 광학 테이프 또는 기계 판독 가능한 바코드와 같은 광학 저장 매체들; 랜덤 액세스 메모리(random access memory; RAM) 또는 판독 전용 메모리(read only memory; ROM)와 같은 고상 전자 저장 디바이스들; 또는 본 발명에 따른 방법을 실시하도록 하나 이상의 컴퓨터들을 제어하기 위한 명령들을 갖는 컴퓨터 프로그램을 저장하는데 이용되는 임의의 다른 물리적 디바이스 또는 매체를 포함할 수 있는 컴퓨터 판독 가능한 저장 매체에 저장될 수 있다.

본 발명은 여기서 기술된 실시예들의 조합들을 포함한다. "특정한 실시예" 등에 대한 참조는 본 발명의 적어도 하나의 실시예에서 제공된 특징들을 지칭한다. "일 실시예" 또는 "특정한 실시예들" 등에 대한 별개의 참조는 반드시 동일한 실시예 또는 실시예들을 참조할 필요는 없지만; 이러한 실시예들은 그렇게 표시되지 않으면 또는 당업자에게 쉽게 자명하게 되는 바와 같이 상호 배타적인지 않다. "방법" 또는 "방법들" 등에 대한 참조에 있어서 단수 또는 복수의 이용은 제한적이지 않다. 달리 명확히 주의가 없거나 맥락으로부터 요구되지 않으면, 단어 "또는" 비-배타적인 의미로 본 개시에서 이용된다는 것이 주의되어야 한다.

단일 캡쳐 및 프로세싱을 위한 이미징 디바이스들(imaging devices) 및 관련된 회로를 이용하는 디지털 카메라들 및 디스플레이는 잘 알려져 있기 때문에, 본 설명은 특히 본 발명에 따른 방법 및 장치의 부분을 형성하거나 또는 그와 보다 직접적으로 협력하는 엘리먼트들로 지향될 것이다. 여기서 구체적으로 도시되거나 기술되지 않는 엘리먼트들은 당 분야에 알려진 엘리먼트들로부터 선택된다. 기술되는 실시예들의 특정한 양상들은 소프트웨어로 제공된다. 다음의 자료들에서 본 발명에 따라 도시되고 기술되는 바와 같은 시스템이 주어지면, 본 발명의 구현에 유용한, 여기서 구체적으로 도시되고, 기술되거나 제안되지 않은 소프트웨어는 통상적이며 이러한 기술 분야에서 통상의 기술 범위 내에 있다.

디지털 카메라의 다음의 설명은 당업자에게 친밀할 것이다. 비용을 감소시키고, 특징들을 부가하거나 카메라의 성능을 개선하기 위해 선택되며 가능한 이러한 실시예의 다수의 변동물들이 있다는 것이 자명할 것이다.

도 1은 본 발명에 따라 비디오 이미지들을 캡쳐할 수 있는 디지털 카메라(10)를 포함하는 디지털 사진촬영 시스템(digital photography system)의 블록도를 도시한다. 바람직하게는, 디지털 카메라(10)는 이미지들을 캡쳐하고 리뷰할 때 사용자에 의해 쉽게 핸드헬드(handheld)되기에 충분히 작은 휴대용 배터리 동작 디바이스이다. 디지털 카메라(10)는 저장 메모리(30)를 이용하여 디지털 이미지 파일들로서 저장된 디지털 이미지들을 생성한다. 여기서 이용된 바와 같은 구문 "디지털 이미지" 또는 "디지털 이미지 파일"은 디지털 정지 이미지 또는 디지털 비디오 파일과 같은 임의의 디지털 이미지 파일을 지칭한다.

몇몇 구현들에서, 디지털 카메라(10)는 모션 비디오 이미지들(motion video images) 및 정지 이미지들 둘 다를 캡쳐한다. 다른 실시예들에서, 디지털 카메라(10)는 모션 비디오 이미지들만을 캡쳐하는 디지털 비디오 카메라이다. 디지털 카메라(10)는 또한 디지털 음악 재생기(예를 들어, MP3 재생기), 오디오 레코딩 디바이스, 모바일 전화, GPS 수신기 또는 프로그래밍 가능한 디지털 어시스턴스(programmable digital assistant; PDA)를 포함(그러나 이들로 제한되지 않음)하는 다른 기능들을 포함할 수 있다.

디지털 카메라(10)는 조정 가능한 개구 및 조정 가능한 셔터(6)를 갖는 렌즈(4)를 포함한다. 바람직한 실시예에서, 렌즈(4)는 줌 렌즈(zoom lens)이고, 줌 및 포커스 모터 드라이브들(8)에 의해 제어된다. 렌즈(4)는 장면(도시되지 않음)으로부터의 광을 이미지 센서(14), 예를 들어, 단일-칩 컬러 CCD 또는 CMOS 이미지 센서로 포커싱한다. 렌즈(4)는 이미지 센서(14) 상의 장면의 이미지를 형성하기 위한 일 타입의 광학 시스템(optical system)이다. 다른 실시예들에서, 광학 시스템은 가변 또는 고정 포커스를 갖는 고정 초점 길이 렌즈를 이용할 수 있다.

이미지 센서(14)의 출력은 아날로그 신호 프로세서(Analog Signal Processor; ASP) 및 아날로그-디지털(Analog-to-Digital; A/D) 변환기(16)에 의해 디지털 형태로 변환되고 버퍼 메모리(18)에 일시적으로 저장된다. 버퍼 메모리(18)에 저장된 이미지 데이터는 후속적으로 펌웨어 메모리(28)에 저장된 임베딩된 소프트웨어 프로그램들(예를 들어, 펌웨어)을 이용하여 프로세서(20)에 의해 조작된다. 몇몇 구현들에서, 소프트웨어 프로그램은 판독 전용 메모리(ROM)를 이용하여 펌웨어 메모리(28)에 영구적으로 저장된다. 다른 실시예들에서, 펌웨어 메모리(28)는 예를 들어, 플래시 EPROM 메모리를 이용함으로써 수정될 수 있다. 이러한 실시예들에서, 외부 디바이스는 유선 인터페이스(38) 또는 무선 모뎀(50)을 이용하여 펌웨어 메모리(28)에 저장된 소프트웨어 프로그램들을 업데이트할 수 있다. 이러한 실시예들에서, 펌웨어 메모리(28)는 또한 이미지 센서 교정 데이터, 사용자 세팅 선택들 및 카메라가 턴 오프될 때 보존되어야 하는 다른 데이터를 저장하는데 이용될 수 있다. 몇몇 실시예들에서, 프로세서(20)는 프로그램 메모리(도시되지 않음)를 포함하고, 펌웨어 메모리(28)에 저장된 소프트웨어 프로그램들은 프로세서(20)에 의해 실행되기 이전에 프로그램 메모리 내로 복사된다.

프로세서(20)의 기능들은 하나 이상의 디지털 신호 프로세서(digital signal processor; DSP) 디바이스들을 포함하는 다수의 프로그래밍 가능한 프로세서들에 의해 또는 단일의 프로그래밍 가능한 프로세서를 이용하여 제공될 수 있다는 것이 이해될 것이다. 대안적으로, 프로세서(20)는 맞춤형 회로(custom circuitry)(예를 들어, 특히 디지털 카메라들에서 이용하기 위해 설계된 하나 이상의 맞춤형 집적 회로들(IC들)에 의해) 또는 프로그래밍 가능한 프로세서(들) 및 맞춤형 회로들의 조합에 의해 제공될 수 있다. 도 1에서 도시된 다양한 컴포넌트들 중 일부 또는 모두 다로부터 프로세서(20) 간의 커넥터들은 공통 데이터 버스를 이용하여 형성될 수 있다는 것이 이해될 것이다. 예를 들어, 몇몇 실시예들에서, 프로세서(20), 버퍼 메모리(18), 저장 메모리(30) 및 펌웨어 메모리(28) 간의 접속은 공통 데이터 버스를 이용하여 이루어질 수 있다.

프로세싱된 이미지들은 이어서 저장 메모리(30)를 이용하여 저장된다. 저장 메모리(30)는 제거 가능한 플래시 메모리 카드, 내부 플래시 메모리 칩들, 자기 메모리, 또는 광학 메모리를 포함(그러나 이들로 제한되지 않음)하는, 당업자들에게 알려진 임의의 형태의 메모리일 수 있다는 것이 이해된다. 몇몇 실시예들에서, 저장 메모리(30)는 내부 플래시 메모리 칩들 및 시큐어 디지털(Secure Digital; SD) 카드와 같은 제거 가능한 플래시 메모리 카드에 대한 표준 인터페이스 둘 다를 포함할 수 있다. 대안적으로, 마이크로 SD 카드, 컴팩트 플래시(Compact Flash; CF) 카드, 멀티미디어 카드(MultiMedia Card; MMC), xD 카드 또는 메모리 스틱과 같은 상이한 메모리 카드 포맷이 이용될 수 있다.

이미지 센서(14)는 로우들(rows) 및 픽셀들을 선택하기 위해 다양한 클로킹 신호들을 생성하고 ASP 및 A/D 변환기(16)의 동작을 동기화하는 타이밍 생성기(12)에 의해 제어된다. 이미지 센서(14)는 예를 들어, 대략 4000 × 3000 픽셀들의 정지 이미지 파일을 제공하기 위해 예를 들어, 12.4 메가픽셀들(4088 × 3040 픽셀들)을 가질 수 있다. 컬러 이미지를 제공하기 위해, 이미지 센서는 일반적으로 컬러 필터 어레이와 오버레이되며, 이는 상이한 컬러 픽셀들을 포함하는 픽셀들의 어레이를 갖는 이미지 센서를 제공한다. 상이한 컬러 픽셀들은 다수의 상이한 패턴들로 배열될 수 있다. 일 예로서, 상이한 컬러 픽셀들은 발명의 명칭이 "Color imaging array"이고 Bayer에 의한, 공동 양도된 미국 특허 제3,971,065호에 기술된 바와 같이 잘-알려진 베이어 컬러 필터 어레이(Bayer color filter array)를 이용하여 배열될 수 있다. 제 2 예로서, 상이한 컬러 픽셀들은 발명의 명칭이 "image sensor with improved light sensitivity"이고 Compton 및 Hamilton에 의한, 공동 양도된 미국 특허 출원 번호 제2007/0024931호에서 기술된 바와 같이 배열될 수 있다. 이들 예들은 제한적이지 않으며, 다수의 다른 컬러 패턴들이 이용될 수 있다.

이미지 센서(14), 타이밍 생성기(12) 및 ASP 및 A/D 변환기(16)는 개별적으로 제조된 집적 회로들일 수 있거나, 또는 이들은 CMOS 이미지 센서들에서 공통으로 행해지는 바와 같이 단일의 집적 회로로서 제조될 수 있다는 것이 이해될 것이다. 몇몇 실시예들에서, 단일의 집적 회로는 프로세서(20)에 의해 제공되는 기능들 중 일부를 포함해서 도 1에서 도시된 다른 기능들 중 일부를 수행할 수 있다.

이미지 센서(14)는 이미지를 구성하기 위해 더 낮은 해상도 센서 이미지 데이터의 모션 시퀀스를 제공하기 위해 타이밍 생성기(12)에 의해 제 1 모드에서 작동될 때 유효하며, 이는 비디오 이미지들을 캡쳐할 때 그리고 또한 캡쳐될 정지 이미지를 프리뷰(preview)할 때 이용된다. 이 프리뷰 모드 센서 이미지 데이터는 예를 들어, 1280 × 720 픽셀들을 갖는 HD 해상도 이미지 데이터로서, 또는 예를 들어, 640x480 픽셀들을 갖는 VGA 해상도 이미지로서, 또는 이미지 센서의 해상도에 비해 상당히 더 적은 데이터의 컬럼(column)들 및 로우들을 갖는 다른 해상도들을 이용하여 제공될 수 있다.

프리뷰 모드 센서 이미지 데이터는 동일한 컬러를 갖는 가까운 픽셀들의 값들을 조합함으로써, 또는 픽셀 값들 중 일부를 제거함으로써 또는 다른 컬러 픽셀 값들을 제거하면서 몇몇 컬러 픽셀 값들을 조합함으로써 제공될 수 있다. 프리뷰 모드 이미지 데이터는 발명의 명칭이 "Electronic camera for initiating capture of still images while previewing motion images"이고, Parulski에 의한, 공동 양도된 미국 특허 제6,292,218호에서 기술되는 바와 같이 프로세싱될 수 있다.

이미지 센서(14)는 또한 고해상도 정지 이미지 데이터를 제공하기 위해 타이밍 생성기(12)에 의해 제 2 모드에서 작동될 때 유효하다. 이 최종 모드 센서 이미지 데이터는 높은 조명 레벨을 갖는 장면들에 대해 이미지 센서의 픽셀들 모두를 포함하는 고해상도 출력 이미지 데이터로서 제공되며, 예를 들어, 4000 × 3000 픽셀들을 갖는 12 메가픽셀 최종 이미지 데이터일 수 있다. 더 낮은 조명 레벨들에서, 최종 센서 이미지 데이터는 신호 레벨 및 그에 따른 센서의 "ISO 속도"를 증가시키기 위해 이미지 센서 상의 임의의 수의 유사-컬러 픽셀들을 "비닝(binning)"함으로써 제공될 수 있다.

줌 및 포커스 모터 드라이버들(8)은 적절한 초점 길이 세팅들을 제공하고 이미지 센서(14) 상에서 장면을 포커스하도록 프로세서(20)에 의해 공급되는 제어 신호들에 의해 제어된다. 이미지 센서(14)의 노출 레벨은 조정 가능한 개구 및 조정 가능산 셔터(6)의 수 및 노출 시간, 타이밍 생성기(12)를 통한 이미지 센서(14)의 노출 기간 및 ASP 및 A/D 변환기(16)의 이득(즉, ISO 속도) 세팅을 제어함으로써 제어된다. 프로세서(20)는 또한 장면을 조명할 수 있는 플래시(2)를 제어한다.

디지털 카메라(10)의 렌즈(4)는 발명의 명칭이 "Electronic Camera with Rapid Automatic Focus of an image upon a Progressive Scan image Sensor"이고, Parulski에 의한, 공동-양도된 미국 특허 5,668,597에 기술된 바와 같이, "쓰루-더-렌즈(through-the-lens)" 오토포커스(autofocus)를 이용함으로써 제 1 모드에서 포커싱될 수 있다. 이는 근처의 포커스 위치 내지 무한 포커스 위치 범위에 이르는 다수의 위치들로 렌즈(4)의 포커스 위치를 조장하기 위해 줌 및 포커스 모터 드라이버들(8)을 이용함으로써 달성되는 반면에, 프로세서(20)는 이미지 센서(14)에 의해 캡쳐된 이미지의 중앙 부분에 대해 피크 선명도 값(peak sharpness value)을 제공하는 최근접 포커스 위치를 결정한다. 최근접 포커스 위치에 대응하는 포커스 거리는 이어서 적절한 장면 모드를 자동으로 세팅하는 것과 같이 몇 개의 목적들을 위해 활용될 수 있고 다른 렌즈 및 카메라 세팅들과 함께 이미지 파일에서 메타데이터로서 저장될 수 있다.

프로세서(20)는 메뉴 및 디스플레이 메모리(36)에 일시적으로 저장되고 이미지 디스플레이(320) 상에 디스플레이되는 저해상도 컬러 이미지들을 생성한다. 이미지 디스플레이(32)는 통상적으로 활성 매트릭스 컬러 액정 디스플레이(liquid crystal display; LCD)이지만, 유기 발광 다이오드(organic light emitting diode; OLED) 디스플레이들과 같은 다른 타입들의 디스플레이들이 이용될 수 있다. 비디오 인터페이스(44)는 디지털 카메라(10)로부터 평판 HDTV 디스플레이와 같은 비디오 디스플레이(46)로 비디오 출력 신호를 제공한다. 프리뷰 모드 또는 비디오 모드에서, 버퍼 메모리(18)로부터의 디지털 이미지 데이터는 통상적으로 이미지 디스플레이(32) 상의 컬러 이미지들로서 디스플레이되는 일련의 모션 프리뷰 이미지들을 형성하기 위해 프로세서(20)에 의해 조작된다. 리뷰 모드에서, 이미지 디스플레이(32) 상에 디스플레이되는 이미지들은 저장 메모리(30)에 저장된 디지털 이미지 파일들로부터의 이미지 데이터를 이용하여 생성된다.

이미지 디스플레이(32) 상에 디스플레이되는 그래픽 사용자 인터페이스는 사용자 제어들(34)에 의해 제공된 사용자 입력에 응답하여 제어된다. 사용자 제어(34)는 비디오 캡쳐 모드, 정지 캡쳐 모드 및 리뷰 모드와 같은 다양한 카메라 모드들을 선택하고 정지 이미지들의 캡쳐 및 모션 이미지들의 레코딩을 개시하는데 이용된다. 몇몇 실시예들에서, 위에서 기술된 제 1 모드(즉, 정지 프리뷰 모드)는 사용자가 사용자 제어들(34) 중 하나인 셔터 버튼을 부분적으로 누를 때 개시되고 제 2 모드(즉, 정지 이미지 캡쳐 모드)는 사용자가 셔터 버튼은 완전히 누를 때 개시된다. 사용자 제어들(34)은 또한 카메라를 턴 온하고 렌즈(4)를 제어하고 사진 찍기 프로세스를 개시하는데 이용된다. 사용자 제어들(34)은 통상적으로 버튼들, 잠금 스위치들, 조이스틱들, 또는 회전 다이얼들의 임의의 조합을 포함한다. 몇몇 실시예들에서, 사용자 제어들(34) 중 일부는 이미지 디스플레이(32) 상의 터치 스크린 오버레이(touch screen overlay)를 이용함으로써 제공된다. 다른 실시예들에서, 부가적인 상태 디스플레이들 또는 이미지 디스플레이들이 이용될 수 있다.

사용자 제어들(34)을 이용하여 선택될 수 있는 카메라 모드들은 "타이머" 모드를 포함한다. "타이머" 모드가 선택되면, 사용자가 셔터 버튼을 완전히 누른 이후, 프로세서(20)가 정지 이미지의 캡쳐를 개시하기 이전에 짧은 지연(예를 들어, 10초)이 발생한다.

프로세서(20)에 연결된 오디오 코덱(22)은 마이크로폰(24)으로부터 오디오 신호를 수신하고 스피커(26)에 오디오 신호를 제공한다. 이들 컴포넌트들은 비디오 시퀀스 또는 정지 이미지와 함께 오디오 트랙을 레코딩 및 재생하게 될 수 있다. 디지털 카메라(10)가 조합 카메라 및 모바일 전화와 같은 다중-기능 디바이스인 경우, 마이크로폰(24) 및 스피커(26)는 전화 통화를 위해 이용될 수 있다.

몇몇 실시예들에서, 스피커(26)는 예를 들어, 사용자 제어가 눌러졌음을 또는 특정한 모드가 선택되었음을 표시하는 다양한 청취 가능한 신호들을 제공하기 위해 사용자 인터페이스의 부분으로서 이용될 수 있다. 몇몇 실시예들에서, 마이크로폰(24), 오디오 코덱(22), 및 프로세서(20)가 음성 인식을 제공하기 위해 이용될 수 있어서, 사용자는 사용자 제어들(34) 보단 오히려, 음성 커맨드를 이용함으로써 프로세서(20)에 사용자 입력을 제공할 수 있다. 스피커(26)는 또한 착신 전화 호(incoming phone call)를 사용자에게 통지하는데 이용될 수 있다. 이는 펌웨어 메모리(28)에 저장된 표준 링 톤(ring tone)을 이용하여 또는 무선 네트워크(58)로부터 다운로딩되고 저장 메모리(30)에 저장된 맞춤형 링-톤을 이용함으로써 행해질 수 있다. 또한, 진동 디바이스(도시되지 않음)는 착신 전화 호의 묵음 통지(예를 들어, 청취 가능하지 않음)를 제공하는데 이용될 수 있다.

몇몇 실시예들에서, 디지털 카메라(10)는 또한 카메라의 임의의 모션에 관련된 데이터를 제공하는 가속도계(27)를 포함한다. 바람직하게는, 가속도계(27)는 3개의 직교 방향들 각각에 대한 선형 및 회전 가속들(총 6개의 입력 차원들)을 검출한다.

프로세서(20)는 또한 저장 메모리(30) 내에 잘-알려진 Exif-JPEG 이미지 파일과 같이 "마무리된" 이미지 파일내에 압축되고 저장된 랜더링된 sRGB 이미지 데이터를 생성하기 위해 이미지 센서(14)로부터 이미지 데이터의 부가적인 프로세싱을 제공한다.

디지털 카메라(10)는 집 또는 사무실에 위치되는 데스크톱 컴퓨터 또는 휴대용 컴퓨터일 수 있는 컴퓨터(40)에 연결되는 인터페이스/재충전기(48)에 유선 인터페이스(38)를 통해 연결될 수 있다. 유선 인터페이스(38)는 예를 들어, 잘-알려진 USB 2.0 인터페이스 규격에 따를 수 있다. 인터페이스/재충전기(48)는 디지털 카메라(10)에서 재충전 가능한 배터리들(도시되지 않음)의 세트에 전력을 무선 인터페이스(38)를 통해 제공할 수 있다.

디지털 카메라(10)는 라디오 주파수 대역(52) 상에서 무선 네트워크(58)와 인터페이스하는 무선 모뎀(50)을 포함할 수 있다. 무선 모뎀(50)은 잘 알려진 802.11 무선 인터페이스 또는 잘-알려진 블루투스 무선 인터페이스와 같이 다양한 무선 인터페이스 프로토콜들을 이용할 수 있다. 컴퓨터(40)는 Kodak EasyShare Gallery와 같이 사진 서비스 제공자(72)에 인터넷(70)을 통해 이미지들을 업로드할 수 있다. 다른 디바이스들(도시되지 않음)은 사진 서비스 제공자(72)에 의해 저장된 이미지들에 액세스할 수 있다.

대안적인 실시예들에서, 무선 모뎀(50)은 디지털 카메라(10)로부터 디지털 이미지 파일들을 업로드하기 위해 인터넷(70)에 연결되는 3GSM 네트워크와 같은 모바일 전화 네트워크(도시되지 않음)와의 라디오 주파수(예를 들어, 무선) 링크를 통해 통신한다. 이들 디지털 이미지 파일들은 컴퓨터(40) 또는 사진 서비스 제공자(72)에 제공될 수 있다.

본 발명은 도 2를 참조하여 이제 기술될 것이다. 먼저, 디지털 카메라(10)(도 1)와 같은 디지털 비디오 캡쳐 디바이스는 이미지 센서(14)를 이용하여 디지털 비디오 시퀀스(205)를 캡쳐하기 위해 비디오 시퀀스 캡쳐 단계(200)에서 이용되며, 여기서 디지털 비디오 시퀀스(205)는 이미지 프레임들의 시간 시퀀스를 포함한다.

비디오 시퀀스 캡쳐 단계(200) 동안, 기준 이미지 캡쳐 단계(210)는 이미지 센서(14)를 이용하여 기준 이미지(215)를 캡쳐하도록 수행되며, 여기서 기준 이미지(215)는 특정한 사람을 포함한다. 기준 이미지(215)가 캡쳐된 디지털 비디오 시퀀스(205)로부터의 이미지 프레임일 수 있고, 기준 이미지(215)는 사용자 제어(34)의 이용을 통해 선택될 수 있다. 예를 들어, 비디오 캡쳐 동안, 사용자는 기준 이미지(215)로서 버퍼 메모리(18)에서 현재 비디오 프레임을 지정하도록 프로세서(20)에 신호를 송신하는 적절한 사용자 제어 버튼을 누름으로써 기준 이미지(215)의 캡쳐를 요청할 수 있다. 기준 이미지(215)는 관심있는 특정한 사람을 포함한다. 바람직한 실시예에서, 기준 이미지(215)는 안면 특징들(facial features)이 기준 이미지(215)로부터 결정되도록 허용하는 충분한 공간 해상도로 특정한 사람의 앞 얼굴을 포함한다. 몇몇 실시예들에서, 기준 이미지(215)는 단지 단일의 사람을 포함하고 특정한 사람은 기준 이미지(215) 내의 유일한 사람으로서 식별된다. 다른 실시예들에서, 기준 이미지(215)는 다수의 사람들을 포함할 수 있고, 특정한 사람은 가장 큰 사람의 선택, 기준 이미지(215)의 중앙에 가장 가까운 사람의 선택, 가장 큰 가시적인 얼굴을 갖는 사람의 선택 또는 적절한 사용자 인터페이스를 이용한 사람의 선택(예를 들어, 사용자가 포인팅 디바이스를 이용하여 얼굴을 선택하게 함으로써)을 포함하는 다수의 방편들 중 임의의 하나에 의해 선택될 수 있다. 대안적으로, 기준 이미지(215)에서 각각의 사람은 특정한 사람들이 되도록 지정될 수 있다. 몇몇 실시예들에서, 특정한 사람은 기준 이미지(215)에 존재하는 얼굴들을 얼굴 인식 데이터베이스 내의 알려진 얼굴들에 비교함으로써 그리고 알려진 얼굴을 선택함으로써 선택될 수 있다. 다른 실시예들에서, 사용자 인터페이스는 기준 이미지(215)에 포함된 특정한 사람을 사용자가 수동으로 지정하는 것을 가능하게 하도록 제공될 수 있다.

캡쳐된 비디오 시퀀스 프로세싱 단계(220)는 디지털 비디오 파일(225)을 형성하도록 비디오 프로세싱 경로를 이용하여 캡쳐된 디지털 비디오 시퀀스(205)를 프로세싱한다. 비디오 프로세싱 경로는 예를 들어, 비디오 압축 단계를 포함할 수 있다. MPEG 및 H.263 표준들에서 특정된 바와 같은 비디오 압축 알고리즘은 당업자들에게 잘 알려져 있다.

디지털 비디오 시퀀스(205)의 캡쳐 동안, 캡쳐된 이미지 프레임 분석 단계(240)는 특정한 사람을 포함하는 이미지 프레임들의 서브세트(245)를 식별하기 위해 사람 인식 알고리즘을 이용하여 캡쳐된 디지털 비디오 시퀀스(205) 내의 이미지 프레임들을 분석한다. 바람직한 실시예에서, 사람 인식 알고리즘은 얼굴 인식 알고리즘일 수 있고, 캡쳐된 이미지 프레임 분석 단계(240)는 기준 이미지에서 특정한 사람의 얼굴과 동일한 얼굴을 포함하는 이미지 프레임들을 선택한다. 얼굴 인식 알고리즘들은 당 분야에 잘 알려져 있다. 예를 들어, Turk 등에 의한 아티클 "Eigenfaces for Recognition" (Journal of Cognitive Neuroscience, Vol.3, pp.71-86, 1991)에서는 본 발명에 따라 이용될 수 있는 얼굴 인식 알고리즘을 기술한다. 대안적으로, 얼굴 인식 알고리즘은 기준 이미지(215) 내의 특정한 사람에 이미지 프레임 내의 사람을 매칭(match)시키는 임의의 알고리즘일 수 있다. 이러한 알고리즘은 성별 분류, 키 추정, 및 옷 분석의 단계들을 포함할 수 있고 당업자들에게 알려진 이러한 알고리즘들 중에서 선택될 수 있다.

비디오 요약본 형성 단계(250)는 캡쳐된 디지털 비디오 시퀀스(205)에서의 모든 이미지 프레임들보다 적은 프레임들을 포함하는 비디오 요약본(255)을 형성하며, 여기서 비디오 요약본(255)은 특정한 사람을 포함하는 이미지 프레임들의 식별된 서브세트(245)의 적어도 부분을 포함한다. 본 발명의 일 실시예에서, 비디오 요약본(255)은 특정한 사람을 포함하는 이들 이미지 프레임들만을 이용하여 형성된다.

몇몇 실시예들에서, 비디오 요약본(255)은 특정한 사람을 포함하는 이미지 프레임들의 서브세트(245)의 부분만을 포함한다. 예를 들어, 비디오 요약본(255)은 더 적은 미리 정의된 수의 이미지 프레임들을 포함하도록 제한될 수 있다. 대안적인 실시예에서, 비디오 요약본(255)은 이미지 프레임들의 서브세트(245)에서의 연속적인 이미지 프레임들의 각각의 그룹으로부터 단일의 이미지 프레임을 포함할 수 있다. 이러한 방식으로, 비디오 요약본(255)은 특정한 사람을 포함하는 이미지 프레임들(245)의 식별된 서브세트로부터 선택된 정지 이미지의 세트로 구성된 "슬라이드쇼(slideshow)"일 수 있다.

다른 실시예에서, 비디오 요약본(255)은 또한 특정한 사람을 포함하는 이미지 프레임들(245)의 식별된 서브세트 외에 부가적인 이미지 프레임들을 포함한다. 본 발명의 일 실시예에서, 부가적인 이미지 프레임들은 특정한 사람을 포함하는 이미지 프레임들(245)의 식별된 서브세트 내의 이미지 프레임들 바로 이전 또는 직후의 이미지 프레임들을 포함할 수 있다. 이러한 프레임들은 예를 들어, 비디오 요약본(255)의 일 섹션으로부터 다른 섹션으로의 천이의 기간을 허용하도록 천이 프레임들로서 선택될 수 있다. 이러한 프레임들은 또한 비디오 요약본(255)이 디지털 비디오 파일(225)로부터 쉽게 추출될 수 있는 화상들의 그룹들을 포함하도록 선택될 수 있다. 몇몇 프레임들이 독립적으로 인코딩되고(다른 프레임들을 참조함 없이) 시간적으로 순차적인 프레임들의 몇몇 그룹들 또는 화상들의 그룹들이 화상들의 그룹 외에 어떠한 프레임들도 참조함 없이 인코딩되도록 MPEG 인코드 비디오 시퀀스들과 같은 비디오 압축 표준들이 이용된다. 따라서 이러한 화상들의 그룹을 표현하는 압축된 비디오 데이터는 압축된 비디오 데이터를 디코딩할 필요 없이 압축된 디지털 비디오 파일(225)로부터 추출될 수 있다.

본 발명의 다른 실시예에서, 부가적인 이미지 프레임들은 중요한 부분으로 결정된 캡쳐된 디지털 비디오 시퀀스(205)의 다른 부분들을 포함한다. 디지털 비디오 시퀀스(205)의 이들 다른 중요한 부분들은 핵심-프레임 추출 또는 비디오 요약본 알고리즘을 실행함으로써 식별될 수 있다. 이러한 알고리즘들은 Deever에 의한, 2011년 12월 1일 공개되고 발명의 명칭이 "Method for determining key video frames"인 공동 양도된 동시-계류중인 미국 출원 공개 번호 제2011/0292288호 및 Deever에 의한, 발명의 명칭이 "Video summary method and system"인 공동-양도되고 동시-계류중인 미국 출원 공개 번호 제2011/0293018호에서 기술된다.

미국 출원 공개 번호 제2011/0293018호에서, 특징 값들을 결정하기 위해 이미지 프레임들이 캡쳐 시간에 분석되는 비디오 요약본을 형성하기 위한 방법이 개시된다. 이들 특징들은 비디오 요약본을 포함하는 핵심 비디오 스니핏(key video snippet)을 식별하기 위해 압축된 디지털 비디오 시퀀스를 압축해제함 없이 분석된다.

미국 출원 공개 번호 제2011/0292288호에서, 시간의 함수로서 중요도 값을 결정하기 위해 캡쳐 시간에 결정된 특징 값들을 이용하여 디지털 비디오 시퀀스가 분석되는 핵심 비디오 스니핏들을 결정하기 위한 방법이 개시된다. 중요도 값은 디지털 비디오 시퀀스에 대한 왜곡된-시간 표현(warped-time representation)을 형성하는데 이용된다. 왜곡된-시간 표현은 디지털 비디오 시퀀스 내의 몇몇 비디오 프레임들에 더 많은 시간적 가중치들을 제공하고 나머지들에게 더 적인 시간 가중치를 제공한다. 왜곡된-시간 디지털 비디오 시퀀스 표현은 등가의 시간 간격들의 세트로 분할된다. 핵심 비디오 프레임은 대응하는 시간 간격에서 비디오 프레임들과 연관된 특징 값들을 분석함으로써 각각의 시간 간격으로부터 선택된다. 이러한 기준들은 줌-인-프로세스(zoom-in process)의 완료 직후에 발생하는 핵심 비디오 프레임을 선택하거나 비디오 프레임의 중앙 영역에서 로컬 모션의 중간 레벨을 갖는 핵심 비디오 프레임을 선택하는 것을 포함할 수 있다.

몇몇 실시예들에서, 핵심 비디오 스니핏들은 핵심 비디오 프레임들 각각을 둘러싸는 비디오 프레임들의 세트를 선택함으로써 형성될 수 있다. 예를 들어, 핵심 비디오 스니핏은 핵심 비디오 프레임 이전 및 이후의 2초의 비디오 프레임들을 선택함으로써 형성될 수 있고, 이에 따라 4초 길이의 핵심 비디오 스니핏을 형성한다.

대안적으로, 핵심 비디오 프레임들이 랭크될 수 있고, 핵심 비디오 스니핏들은 가장 높게 랭크된 핵심 비디오 프레임들에 대응하는 핵심 비디오 프레임들의 서브세트에 대해서만 형성된다. 핵심 비디오 프레임들의 랭킹은 카메라 고정 패턴(camera fixation pattern)을 결정하기 위해 디지털 비디오 시퀀스를 분석하고 카메라 고정 패턴에 응답하여 핵심 비디오 프레임들을 랭킹하는 것을 포함할 수 있다. 글로벌 모션(global motion)에 대응하는 캡쳐 시간에 결정된 특징 값들은 디지털 비디오 시퀀스 전체에 걸쳐서 카메라의 고정 영역을 표시하는 글로벌 모션 트래이스(global motion trace)를 제공할 수 있다. 높은 고정의 영역들, 즉 가만히 있는 카메라는 전체적인 비디오 캡쳐의 높은 퍼센테이지 동안 고정된 영역에 대응하는 비디오 프레임들을 높게 랭크된다. 각각의 단계에서 다음 최고의 랭킹 핵심 비디오 프레임을 선택하는 랭킹 프로세스가 반복적으로 수행될 수 있고, 각각의 단계에서 프로세스는 랭킹 프로세스에 이미 포함된 고정 영역들을 표현하는 핵심 비디오 프레임들 위로 표현되지 않은 고정 영역들을 표현하는 핵심 비디오 프레임들을 조성할 수 있다. 핵심 비디오 프레임들이 일단 랭크되면, 최상위 랭킹 핵심 비디오 프레임들은 핵심 비디오 스니핏들에 포함되도록 선택될 수 있다. 이들 핵심 비디오 스니핏들에 의해 표현되는 부가적인 이미지 프레임들은 비디오 요약본을 형성하도록 특정한 사람을 포함하는 이미지 프레임들의 식별된 서브세트와 조합될 수 있다.

디지털 비디오 파일 저장 단계(230)는 디지털 비디오 파일(225)을 저장 메모리(30)에 저장하여 저장된 디지털 비디오 파일(235)을 생성한다. 비디오 요약본 표현 저장 단계(260)는 저장 메모리(30)에 비디오 요약본의 표현(265)을 저장한다. 일 실시예에서, 저장 메모리(30)에 비디오 요약본의 표현(265)을 저장하는 것은 비디오 요약본(255)에 대응하는 디지털 비디오 시퀀스(205) 내의 이미지 프레임들의 표시를 제공하는 프레임 식별 메타데이터를 저장하는 것을 포함한다. 프레임 식별 메타데이터는 저장된 디지털 비디오 파일(235)과 연관되게 저장될 수 있다. 예를 들어, 비디오 요약본의 표현(265)은 비디오 요약본에 포함된 스니핏들에 대응하는 일련의 시작 프레임 및 종료 프레임들을 표시하는 비디오 요약본 메타데이터로서 저장된 디지털 비디오 파일(235)에 저장될 수 있다. 이는 프레임 식별 메타데이터를 저장하는데 작은 양의 메모리를 요구하는 것 이외에, 어떠한 부가적인 물리적인 메모리도 이용함 없이 비디오 요약본의 표현(265)이 저장되도록 허용한다. 비디오 요약본(255)은 이어서 종래의 재생기들에 투명하면서 비디오 요약본 메타데이터를 이해하는 "스마트" 비디오 재생기를 이용하여 재생될 수 있다.

다른 실시예에서, 비디오 요약본의 표현(265)은 요약 디지털 비디오 파일이다. 이 실시예에서, 비디오 요약본(255)은 저장된 디지털 비디오 파일(235)로부터 별개의 디지털 비디오 파일로서 저장된다. 이 경우에, 비디오 요약본의 표현(265)은 저장된 디지털 비디오 파일(235)에 독립적으로 공유되거나 관람될 수 있는 요약 디지털 비디오 파일이다. 바람직한 실시예에서, 비디오 요약본의 저장된 표현(265)은 표준 비디오 재생기를 이용하여 재생되도록 적응된 포맷의 요약 디지털 비디오 파일이다.

몇몇 실시예들에서, 요약 디지털 비디오 파일은 비디오 시퀀스의 캡쳐가 완료된 이후 생성될 수 있다. 비디오 요약본의 원하는 프레임들은 저장된 디지털 비디오 파일(235)로부터 추출될 수 있다. 비디오 요약본의 원하는 프레임들이 독립적으로 인코딩된 화상들의 그룹들에 대응하도록 선택되는 경우, 요약 디지털 비디오 파일은 압축된 비디오 데이터를 디코딩하지 않고 원하는 프레임들에 대응하는 압축된 데이터를 추출함으로써 생성될 수 있다.

몇몇 실시예들에서, 요약 디지털 비디오 파일은 디지털 비디오 파일(225)을 형성하는데 이용되는 것과 상이한 비디오 프로세싱 경로를 이용하여 캡쳐된 디지털 비디오 시퀀스(205)의 이미지 프레임들로부터 형성된다. 예를 들어, 다수의 비디오 캡쳐 디바이스들은 2개의 비디오 스트림들을 동시에 캡쳐 및 인코딩할 수 있다. 이들 디바이스들에서, 단일의 이미지 센서(14)는 각각의 이미지 프레임을 캡쳐하는데 이용된다. 이어서 각각의 이미지 프레임은 2개의 상이한 프로세싱 경로들을 이용하여 프로세싱된다. 하나의 프로세싱 경로는 디지털 비디오 파일(225)을 생성할 수 있다. 제 2 프로세싱 경로는 비디오 요약본(255)을 저장하는데 이용되는 요약 디지털 비디오 파일을 생성할 수 있다. 제 2 프로세싱 경로는 각각의 이미지 프레임의 감소된 공간 해상도 버전을 생성하고 더 낮은 해상도 비디오를 인코딩할 수 있다는 점에서 제 1 프로세싱 경로와 상이할 수 있다. 다수의 비디오 캡쳐 디바이스들은 1080p 해상도 비디오 및 QVGA 해상도 비디오를 동시에 캡쳐할 수 있다.

도 3은 2개의 프로세싱 경로들을 갖는 비디오 캡쳐 프로세스를 예시한다. 캡쳐된 이미지 프레임(310)은 제 1 비디오 프로세싱 경로(320) 및 제 2 비디오 프로세싱 경로(330) 둘 다로 지향된다. 제 1 비디오 프로세싱 경로(320)는 제 1 공간 해상도로 제 1 인코딩된 이미지 프레임(350)을 제공하는 제 1 비디오 인코더(340)를 포함한다. 제 2 비디오 프로세싱 경로(330)는 제 2 공간 해상도를 갖는 수정된 이미지 프레임(370)을 생성하는 선택적인 이미지 리사이저(resizer)(360)를 포함한다. 제 2 비디오 프로세싱 경로(330)는 또한 수정된 이미지 프레임(370)을 인코딩하는 제 2 비디오 인코더(380)를 포함하여, 제 2 인코딩된 이미지 프레임(390)을 제공한다. 당업자들은 제 1 비디오 프로세싱 경로(320) 및 제 2 비디오 프로세싱 경로(330)가 또한 선택적으로 컬러 및 톤 스케일(tone scale) 프로세싱, 노이즈 감소, 샤프닝(sharpening) 및 이미지 안정화와 같은 다른 비디오 프로세싱 단계들(300)을 포함할 수 있다. 이들 다른 비디오 프로세싱 단계들(300)이 먼저 적용되는 것으로서 예시되지만, 이들은 제 1 비디오 프로세싱 경로(320) 및 제 2 비디오 프로세싱 경로(330) 내의 임의의 위치에 또는 심지어 다른 단계들 사이에 산재되게 적용될 수 있다는 것이 인지되어야 한다. 도 3은 2개의 비디오 프로세싱 경로들이 상이한 하나의 가능한 방식을 예시하지만, 본 발명의 범위 내에 있는 다른 차이점들이 가능하다는 것을 당업자들이 또한 인지할 것이다.

디지털 비디오 파일(225)(도 2)을 형성하는데 이용되는 것과 상이한 비디오 프로세싱 경로를 이용하면, 요약 비디오 파일은 디지털 비디오 파일(225)과 동시에 생성될 수 있다. 도 4는 2개의 비디오 파일들의 동시성 생성을 위해 이용될 수 있는 도 3에서 도시된 방법의 변동물을 예시한다. 도 3에서와 마찬가지로, 각각의 캡쳐된 이미지 프레임(310)은 제 1 인코딩된 이미지 프레임(350)을 생성하기 위해 제 1 비디오 인코더(340)를 포함하는 제 1 비디오 프로세싱 경로(320)를 통해 지향된다. 제 1 인코딩된 이미지 프레임(350)은 디지털 비디오 파일(225)에 포함된다.

캡쳐된 이미지 프레임(310)은 또한 제 2 비디오 프로세싱 경로(430)를 통해 지향된다. 제 2 비디오 프로세싱 경로(430)는 이미지가 특정한 사람을 포함하는지에 관한 테스트(460)의 부가를 제외하고, 도 3의 제 2 비디오 프로세싱 경로(330)와 유사하다. 이미지는 그것이 기준 이미지(215)로부터 특정한 사람을 포함하는지를 결정하기 위해 캡쳐된 이미지 프레임(310)을 분석하기 위해 사람 인식 알고리즘을 이용한다. 포함하지 않는 경우, 캡쳐된 이미지 프레임(310)은 이미지 폐기 단계(470)를 이용하여 폐기된다. 특정한 사람이 캡쳐된 이미지 프레임(310)에 존재하는 경우, 프로세싱은 수정된 이미지 프레임(370)을 결정하기 위해 이미지 리사이저(360)로 그리고 제 2 인코딩된 이미지 프레임(390)을 제공하기 위해 제 2 비디오 인코더(380)로 진행한다. 제 2 인코딩된 이미지 프레임(390)은 요약 디지털 비디오 파일에 포함된다. 대안적인 실시예들에서, 이미지 리사이저(360)는 이미지가 특정한 사람을 포함하는지 테스트(460)하기 이전에 제 2 비디오 프로세싱 경로에서 앞서 적용될 수 있다. 다른 실시예들에서, 이미지 리사이저(360)는 제 2 비디오 프로세싱 경로(430)에 전혀 존재하지 않을 수 있다.

도 4에서 예시된 제 1 비디오 프로세싱 경로(320) 및 제 2 비디오 프로세싱 경로(430)는 2개의 별개의 비디오 파일들을 생성하는데 이용된다. 제 1 비디오 파일(디지털 비디오 파일(225))은 모든 캡쳐된 이미지 프레임들(310)을 포함하고 제 1 공간 해상도로 인코딩된다. 제 2 비디오 파일(요약 디지털 비디오 파일)은 관심의 특정한 사람을 포함하는 캡쳐된 이미지 프레임들(310)만을 포함하고, 제 2 공간 해상도로 인코딩된다. 제 2 비디오 파일은 제 1 비디오 파일과 동시에 형성된다.

대안적으로, 요약 디지털 비디오 파일을 디지털 비디오 파일과 단지 부분적으로만 동시에 형성될 수 있다. 초기 요약 디지털 비디오 파일은 도 4에서 예시된 바와 같이 생성될 수 있다. 캡쳐가 완료된 이후, 요약 디지털 비디오 파일은 저장된 디지털 비디오 파일(235)로부터 추출된 부가적인 데이터를 갖도록 증대될 수 있다. 이 경우에, 요약 디지털 비디오 파일은 제 2 비디오 프로세싱 경로에 의해 원래 인코딩되지 않은 이미지 프레임을 포함하도록 확장될 수 있다. 이는 전체 요약 디지털 비디오 파일 포스트-캡쳐(entire summary digital video file post-capture)를 형성함으로써 요약 디지털 비디오 파일의 더 빠른 생성을 허용한다.

도 5는 본 발명의 대안적인 실시예를 예시한다. 이 경우에, 특정한 사람을 포함하는 기준 이미지(215)가 비디오 시퀀스 캡쳐 단계(200)와 동시에 캡쳐되는 것이 아니라, 비디오 시퀀스 캡쳐 단계(200) 이전 또는 이후 둘 중 하나에서 수행될 수 있는 독립적인 기준 이미지 캡쳐 단계(510)에서 캡쳐된다. 기준 이미지(215)는 정지 캡쳐 모드에서 획득되는 단일의 이미지일 수 있거나, 또는 기존의 캡쳐된 디지털 비디오 시퀀스로부터의 이미지 프레임일 수 있다. 몇몇 실시예들에서, 디지털 카메라는 디지털 카메라의 소유자에 대한 관심의 사람들의 세트에 대응하는 사람 이미지들의 세트(예를 들어, 사람 이미지는 각각의 가족 일원에 대해 저장될 수 있음)를 저장할 수 있고, 기준 이미지(215)는 적절한 사용자 인터페이스(예를 들어, 미리 정의된 사람들의 이름의 리스트)를 이용하여 사람 이미지들의 세트로부터 선택될 수 있다. 기준 이미지(215)는 디지털 카메라(10) 상에서 캡쳐될 수 있거나, 또는 대안적으로 별개의 이미지 캡쳐 디바이스 상에서 캡쳐되고 디지털 카메라(10)로 이식(import)될 수 있다.

몇몇 실시예들에서, 복수의 기준 이미지들(215)은 특정한 사람의 상이한 뷰들(views)을 포함하도록 지정될 수 있다. 캡쳐된 이미지 프레임 분석 단계(240)는 이미지 프레임이 특정한 사람을 포함하는지에 관한 보다 신뢰할 수 있는 결정을 내리는데 도움을 주도록 복수의 기준 이미지들(215)을 이용할 수 있다.

몇몇 실시예들에서, 캡쳐된 이미지 프레임 분석 단계(240)는 비디오 시퀀스 캡쳐 단계(200)와 동시에 발생하여서, 비디오 요약본(255)은 디지털 비디오 파일(225)의 생성과 동시에 형성된다. 다른 실시예들에서, 비디오 요약본(255)은 디지털 비디오 파일(225)이 캡쳐되고 저장된 이후 수행되는 포스트-프로세싱 동작을 이용하여 형성될 수 있다. 몇몇 경우들에서, 캡쳐된 이미지 프레임 분석 단계(240)는 디지털 카메라(10) 상에서 수행될 수 있다. 대안적으로, 이것은 또한 저장된 디지털 비디오 파일(235)이 호스트 컴퓨터와 같은 몇몇 다른 디바이스 상에 로딩된 이후 수행될 수 있다. 도 5의 잔여 엘리먼트들은 도 2의 실시예들에서 도시된 것들과 동등하다.

본 발명의 대안적인 실시예는 도 6을 참조하여 이제 기술될 것이다. 이 경우에, 기준 이미지(215)에 기초하여 캡쳐된 이미지 프레임들을 분석하는 것 보단, 캡쳐된 이미지 프레임 분석 단계(640)는 기준 데이터 특정 단계(610)에서 특정된 관심의 특징을 표시하는 기준 데이터(615)의 세트에 기초하여 이미지 프레임들의 서브세트(245)를 선택한다. 도 6의 방법에서의 잔여 엘리먼트들은 도 2의 실시예에서 도시된 것들과 동일하다.

기준 데이터(615)는 다수의 형태들로 이루어질 수 있다. 몇몇 실시예들에서, 기준 데이터(615)는 관심의 특징들의 텍스트 설명일 수 있다. 예를 들어, 기준 데이터(615)는 개인들, 객체들, 위치들 또는 이벤트들의 이름들일 수 있다. 몇몇 실시예들에서, 기준 데이터(615)는 관심의 특징들의 수학적 표현들일 수 있다. 예를 들어, 기준 데이터(615)는 컬러 홀로그램들, 고유값들, 템플릿들, 또는 임의의 다른 특징 벡터일 수 있다. 당업자들은 본 발명의 범위 내에서 이미지 정보가 표현될 수 있는 다수의 방법들이 있다는 것을 인지할 것이다. 몇몇 실시예들에서, 기준 데이터(615)는 비-이미지 정보와 연관될 수 있다. 예를 들어, 기준 데이터(615)는 오디오 신호들, 글로벌 포지셔닝 시스템(global positioning system; GPS) 데이터, 자동-포커스 데이터, 자동-노출 데이터, 자동-백색 밸런스 데이터(auto-white balance data), 줌 렌즈 데이터, 가속도계 데이터, 자이로스코프 데이터(gyroscope data) 또는 적외선 센서 데이터와 연관된 정보일 수 있다. 당업자들은 이미지 프레임들의 서브세트(245)를 식별하기 위해 캡쳐된 이미지 프레임들 분석 단계(640)에 의한 이용을 위해 기준 데이터(615)로서 제공될 수 있는 매우 다양한 타입들의 정보가 있다는 것을 인지할 것이다.

디지털 비디오 시퀀스(205)의 캡쳐 동안, 캡쳐된 이미지 프레임 분석 단계(640)는 기준 데이터(615)에 의해 특정된 바와 같이 관심의 특징을 포함하는 이미지 프레임들의 서브세트를 식별하기 위해 특징 인식 알고리즘을 이용하여 디지털 비디오 시퀀스(205) 내의 이미지 프레임들을 분석한다. 기준 데이터(615)에 의해 특정된 관심의 특징이, 예를 들어, 기준 얼굴 이미지가 이전에 특정된 특정한 이름의 사람인 경우, 얼굴 인식 알고리즘은 기준 얼굴 이미지를 참조하여 이미지 프레임을 분석함으로써 이미지 프레임이 특정한 이름의 사람을 포함하는지를 결정하는데 이용될 수 있다. 다른 예에서, 기준 데이터(615)에 의해 특정된 관심의 특징이 이벤트 라벨(예를 들어, "골프 스윙")인 경우, 특징 인식 알고리즘은 이미지 프레임이 특정된 이벤트에 대응하는지를 결정하는데 이용될 수 있다. 몇몇 경우들에서, 특징 인식 알고리즘은 적절한 이벤트 라벨(예를 들어, 어느 이미지 프레임들이 골프 스윙의 모션 특성을 포함하는지 검출하기 위해)을 결정하기 위해 일련의 이미지 프레임들을 분석할 필요가 있을 수 있다. 다른 예에서, 기준 데이터(615)에 의해 특정된 관심의 특징이 객체 라벨(예를 들어, "고래")인 경우, 특징 인식 알고리즘은 이미지 프레임이 특정된 객체를 포함하는지를 결정하는데 이용될 수 있다. 모든 이들 예들은 관심의 특징들이 비디오 요약본에 포함할 이미지 프레임들의 서브세트(245)를 결정하기 위해 캡쳐-시간에 식별될 수 있는 상황들이다.

몇몇 실시예들에서, 기준 데이터(615)에 의해 특정된 관심의 특징이 이미지 프레임들과 연관된 일반적인 특성에 대응할 수 있다. 예를 들어, 기준 데이터(615)에 의해 특정된 관심의 데이터는 낮은 연관된 카메라 모션을 갖는 이미지 프레임일 수 있다. 이 경우에, 특징 인식 알고리즘은 특정된 카메라 모션 조건을 충족하는 이미지 프레임들을 식별하도록 자이로스코프 데이터, 가속도계 데이터, 또는 이미지-기반 모션 추정 데이터를 분석하는데 이용될 수 있다. 유사하게, 기준 데이터(615)에 의해 특정된 관심의 특징은 카메라 줌 프로세스 이후에 후속하는 이미지 프레임일 수 있다. 이 경우에, 특징 인식 알고리즘은 카메라 줌이 막 완료된 이미지 프레임들을 식별하기 위해 이미지-기반 줌 추정 데이터 또는 줌 렌즈 데이터를 분석하는데 이용될 수 있다. 다른 예에서, 기준 데이터(615)에 의해 특정된 관심의 특징은 장면에서 큰 규모의 객체 모션을 갖는 이미지 프레임들일 수 있다. 이 경우에, 특징 인식 알고리즘은 객체 모션 조건을 충족하는 이미지 프레임들을 식별하기 위해 장면에서 객체 모션의 양을 정량화하는데 이용될 수 있다. 당업자들은 이들이 본 발명의 범위 내에 있는 특징 인식 알고리즘 및 관심의 다수의 특징들의 단지 예들일 뿐이라는 것을 인지할 것이다.

컴퓨터 프로그램 물건은 하나 이상의 저장 매체, 예를 들어, 자기 디스크(이를 테면, 플로피 디스크) 또는 자기 테이프와 같은 자기 저장 매체들; 광학 디스크, 광학 테이프 또는 기계 판독 가능한 바코드와 같은 광학 저장 매체들; 랜덤 액세스 메모리(random access memory; RAM) 또는 판독 전용 메모리(read only memory; ROM)와 같은 고상 전자 저장 디바이스들; 또는 본 발명에 따른 방법을 실시하도록 하나 이상의 컴퓨터들을 제어하기 위한 명령들을 갖는 컴퓨터 프로그램을 저장하는데 이용되는 임의의 다른 물리적 디바이스 또는 매체를 포함할 수 있다.

2 플래시
4 렌즈
6 조정 가능한 개구 및 조정 가능한 셔터
8 줌 및 포커스 모터 드라이버들
10 디지털 카메라
12 타이밍 생성기
14 이미지 센서
16 ASP 및 A/D 변환기
18 버퍼 메모리
20 프로세서
22 오디오 코덱
24 마이크로폰
25 압력 센서
26 스피커
27 가속도계
28 펌웨어 메모리
30 저장 메모리
32 이미지 디스플레이
34 사용자 제어들
36 디스플레이 메모리
38 유선 인터페이스
40 컴퓨터
42 틸트 센서
44 비디오 인터페이스
46 비디오 디스플레이
48 인터페이스/재충전기
50 무선 모뎀
52 라디오 주파수 대역
58 무선 네트워크
70 인터넷
72 사진 서비스 제공자
200 비디오 시퀀스 캡쳐 단계
205 디지털 비디오 시퀀스
210 기준 이미지 캡쳐 단계
215 기준 이미지
220 캡쳐된 비디오 시퀀스 프로세싱 단계
225 디지털 비디오 파일
230 디지털 비디오 파일 저장 단계
235 저장된 디지털 비디오 파일
240 캡쳐된 이미지 프레임 분석 단계
245 이미지 프레임들의 서브세트
250 비디오 요약본 형성 단계
255 비디오 요약본
260 비디오 요약본의 표현 저장 단계
265 비디오 요약본의 표현
300 다른 비디오 프로세싱 단계들
310 캡쳐된 이미지 프레임
320 제 1 비디오 프로세싱 경로
330 제 2 비디오 프로세싱 경로
340 제 1 비디오 인코더
350 제 1 인코딩된 이미지 프레임
360 이미지 리사이저
370 수정된 이미지 프레임
380 제 2 비디오 인코더
390 제 2 인코딩된 이미지 프레임
430 제 2 비디오 프로세싱 경로
460 이미지가 특정 사람을 포함하는지에 관한 테스트
470 이미지 폐기 단계
510 기준 이미지 캡쳐 단계
610 기준 데이터 특정 단계
615 기준 데이터
640 캡쳐된 이미지 프레임 분석 단계

Claims

이미지 캡쳐(capture) 시스템에 있어서,
디지털 이미지들을 캡쳐하도록 구성되는 이미지 센서; 및
메모리 및 이 메모리에 결합된 프로세서를 포함하는 프로세싱 시스템을 포함하고,
상기 프로세싱 시스템은,
특정한 사람을 포함하는 기준 이미지를 지정(designating)하고;
상기 이미지 센서를 이용하여 장면(scene)의 비디오 시퀀스 - 상기 비디오 시퀀스는 이미지 프레임들의 시간 시퀀스를 포함함 - 를 캡쳐하고;
상기 특정한 사람을 포함하는 이미지 프레임들의 서브세트를 식별하기 위해 사람 인식 알고리즘(person recognition algorithm)을 이용하여 상기 캡쳐된 비디오 시퀀스를 분석하고;
상기 캡쳐된 비디오 시퀀스 내의 이미지 프레임들 전부보다 적은 이미지 프레임들을 포함하는 비디오 요약본(video summary) - 상기 비디오 요약본은 상기 특정한 사람을 포함하는 이미지 프레임들의 식별된 서브세트의 적어도 일부 및 상기 특정한 사람을 포함하는 이미지 프레임들의 식별된 서브세트 내의 이미지 프레임들 직전 또는 직후의 부가적인 이미지 프레임들을 포함함 - 을 형성하고;
상기 캡쳐된 비디오 시퀀스를 상기 메모리에 저장하며;
개별 요약 디지털 비디오 파일로서 상기 비디오 요약본을 상기 메모리에 저장하도록 구성되고,
상기 비디오 시퀀스의 이미지 프레임들은 상기 디지털 비디오 파일 내의 저장을 위해 압축되고,
상기 특정한 사람을 포함하는 이미지 프레임들의 식별된 서브세트 내의 이미지 프레임들 직전 또는 직후의 부가적인 이미지 프레임들은, 상기 비디오 요약본이 상기 압축된 이미지 프레임들을 디코딩할 필요 없이 상기 디지털 비디오 파일로부터 추출될 수 있는 이미지 프레임들의 그룹들을 포함하도록 선택되는, 이미지 캡쳐 시스템.
제 1 항에 있어서,
상기 프로세싱 시스템은 또한, 상기 이미지 센서를 이용하여 상기 기준 이미지를 캡쳐하도록 구성되는, 이미지 캡쳐 시스템.
제 2 항에 있어서,
상기 기준 이미지의 선택을 수신하도록 구성되는 사용자 인터페이스를 더 포함하는, 이미지 캡쳐 시스템.
제 1 항에 있어서,
상기 프로세싱 시스템은 또한, 상기 기준 이미지를 다운로드하도록 구성되는, 이미지 캡쳐 시스템.
제 1 항에 있어서,
상기 프로세싱 시스템은 또한, 디지털 비디오 파일을 형성하기 위하여 비디오 프로세싱 경로를 사용하여 상기 캡쳐된 비디오 시퀀스를 프로세싱하도록 구성되며,
상기 요약 디지털 비디오 파일은, 상기 디지털 비디오 파일을 형성하는데 이용되는 것과 상이한 비디오 프로세싱 경로를 이용하여 상기 캡쳐된 비디오 시퀀스의 이미지 프레임들로부터 형성되는, 이미지 캡쳐 시스템.
제 1 항에 있어서,
상기 프로세싱 시스템은 또한, 디지털 비디오 파일을 형성하기 위하여 비디오 프로세싱 경로를 사용하여 상기 캡쳐된 비디오 시퀀스를 프로세싱하도록 구성되며,
상기 요약 디지털 비디오 파일은 적어도 부분적으로 상기 디지털 비디오 파일과 동시에 형성되는, 이미지 캡쳐 시스템.
삭제
삭제
제 1 항에 있어서,
상기 프로세싱 시스템은 또한, 상기 비디오 시퀀스의 캡쳐 동안 상기 캡쳐된 비디오 시퀀스를 분석하도록 구성되는, 이미지 캡쳐 시스템.
이미지 프레임들의 시간 시퀀스를 포함하는 비디오 시퀀스를 수신하는 단계;
특정한 사람을 포함하는 기준 이미지에 관한 지정(designation)을 수신하는 단계;
상기 특정한 사람을 포함하는 이미지 프레임들의 서브세트를 식별하기 위해 사람 인식 알고리즘(person recognition algorithm)을 이용하여 상기 비디오 시퀀스의 이미지 프레임들을 자동으로 분석하는 단계;
상기 비디오 시퀀스 내의 이미지 프레임들 전부보다 적은 이미지 프레임들을 포함하는 비디오 요약본(video summary) - 상기 비디오 요약본은 상기 특정한 사람을 포함하는 이미지 프레임들의 식별된 서브세트의 적어도 일부 및 상기 특정한 사람을 포함하는 이미지 프레임들의 식별된 서브세트 내의 이미지 프레임들 직전 또는 직후의 부가적인 이미지 프레임들을 포함함 - 을 형성하는 단계;
상기 비디오 시퀀스를 메모리에 저장하는 단계; 및
요약 디지털 비디오 파일로서 상기 비디오 요약본을 상기 메모리에 저장하는 단계를 포함하고,
상기 비디오 시퀀스의 이미지 프레임들은 상기 디지털 비디오 파일 내의 저장을 위해 압축되고,
상기 특정한 사람을 포함하는 이미지 프레임들의 식별된 서브세트 내의 이미지 프레임들 직전 또는 직후의 부가적인 이미지 프레임들은, 상기 비디오 요약본이 상기 압축된 이미지 프레임들을 디코딩할 필요 없이 상기 디지털 비디오 파일로부터 추출될 수 있는 이미지 프레임들의 그룹들을 포함하도록 선택되는 것인, 방법.
제 10 항에 있어서,
상기 요약 디지털 비디오 파일과 별개인 디지털 비디오 파일을 형성하기 위해 비디오 프로세싱 경로를 사용하여 상기 비디오 시퀀스를 프로세싱하는 단계를 더 포함하는, 방법.
제 11 항에 있어서,
상기 디지털 비디오 파일 내의 저장을 위하여 상기 비디오 시퀀스의 이미지 프레임들을 압축하는 단계를 더 포함하며,
상기 비디오 요약본의 이미지 프레임들은 상기 요약 디지털 비디오 파일 내의 저장을 위해 압축되지 않는, 방법.
제 10 항에 있어서,
상기 요약 디지털 비디오 파일은, 상기 디지털 비디오 파일을 형성하는데 이용되는 것과 상이한 비디오 프로세싱 경로를 사용하여 상기 수신된 비디오 시퀀스의 이미지 프레임들로부터 형성되는, 방법.
제 10 항에 있어서,
상기 비디오 요약본은 상기 이미지 프레임들의 식별된 서브세트 내에 포함되지 않는 부가적인 이미지 프레임들을 또한 포함하는, 방법.
제 10 항에 있어서,
상기 사람 인식 알고리즘은 상기 특정한 사람을 포함하는 이미지 프레임들의 서브세트를 식별하기 위하여 적어도 얼굴 인식 기법(facial recognition technique)들을 사용하는, 방법.
삭제
삭제
삭제