KR101512584B1 - 비디오 시퀀스로부터의 제한된 콘텍스트 기반 식별 키 프레임 - Google Patents

비디오 시퀀스로부터의 제한된 콘텍스트 기반 식별 키 프레임 Download PDF

Info

Publication number
KR101512584B1
KR101512584B1 KR1020137017856A KR20137017856A KR101512584B1 KR 101512584 B1 KR101512584 B1 KR 101512584B1 KR 1020137017856 A KR1020137017856 A KR 1020137017856A KR 20137017856 A KR20137017856 A KR 20137017856A KR 101512584 B1 KR101512584 B1 KR 101512584B1
Authority
KR
South Korea
Prior art keywords
frame
frames
score
received
key frame
Prior art date
Application number
KR1020137017856A
Other languages
English (en)
Other versions
KR20130101126A (ko
Inventor
시아오후이 시에
시아오 젱
잉페이 리우
얀밍 조우
콩퀴아오 왕
지쳉 자오
애니 카이
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20130101126A publication Critical patent/KR20130101126A/ko
Application granted granted Critical
Publication of KR101512584B1 publication Critical patent/KR101512584B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

예시적 장치는 복수의 프레임들의 비디오 시퀀스를 수신하며, 프레임들의 적어도 일부의 각각 수신될 때 그러나 프레임들의 모두가 수신되기 전에 다수의 동작들을 수행하게 된다. 장치는 프레임에 대한 점수를 계산하고 프레임에 대한 점수를 소정의 임계값과 비교하게 된다. 장치는 프레임이 지정된 기간 내에서 수신되고 프레임에 대한 점수가 소정의 임계값을 초과하는 경우에 키 프레임으로서 프레임을 출력시킨다. 그렇지 않으면, 지정된 기간 내에서 수신된 프레임들에 대한 점수들 중 어떤 것도 소정의 임계값을 초과하지 않는 경우에 장치는 키 프레임으로서 지정된 기간 내에서 수신된 프레임들 중 하나를 출력시킨다.

Description

비디오 시퀀스로부터의 제한된 콘텍스트 기반 식별 키 프레임{LIMITED-CONTEXT-BASED IDENTIFYING KEY FRAME FROM VIDEO SEQUENCE}
본 발명은 일반적으로 비디오 시퀀스를 브라우징(browsing)하는 것에 관한 것으로서, 특히 각각의 키 프레임들에 기반한 비디오 시퀀스들의 브라우징을 용이하게 하기 위해 비디오 시퀀스로부터 키 프레임을 식별하는 것에 관한 것이다.
모바일 데이터 저장소(storage)가 증대되며 카메라 이미징(imaging) 품질이 향상됨에 따라, 사용자들은 점점 더 그들의 모바일 디바이스들로 비디오를 캡처링하고 공유하고 있다. 그러나, 원하는 비디오 클립(clip) 또는 시퀀스에 대해 그래픽 사용자 인터페이스를 브라우징하는 동안 비디오의 증대하는 이용의 하나의 중요한 문제점이 발생한다. 비디오 요약은 각각 하나 이상의 프레임들을 포함하는 하나 이상의 장면(scene)들을 포함하는 비디오 시퀀스의 요약을 생성하기 위한 기술들의 패밀리이다. 요약은 다수의 다른 형태들 중 어느 형태를 취할 수 있으며, 다양한 경우들에서 장면 레벨 또는 프레임 레벨에서 비디오 시퀀스를 컷팅하는 것을 포함할 수 있다. 장면 레벨에서 비디오를 컷팅하는 상황에서, 비디오 요약은 예컨대 일부 장면들을 포함하지만 다른 장면들을 컷팅하는 비디오 스킴(skim)으로서 제공될 수 있다. 프레임 레벨에서 비디오를 컷팅하는 상황에서, 비디오 요약은 예컨대 비디오 시퀀스의 키 프레임들의 고속 포워드 기능으로서 또는 하나 이상의 키 프레임들의 정지한 또는 움직이는 스토리보드(storyboard) 또는 하나 이상의 키 프레임들의 섬네일(thumbnail)들로서 제공될 수 있다. 비디오 시퀀스의 요약은 다른 비디오 시퀀스들의 다수의 유사한 요약들 중으로부터 원하는 비디오 시퀀스를 사용자가 식별하는 것을 용이하게 할 수 있다. 또한, 사용자가 원하는 비디오를 보다 용이하게 식별할 수 있기 때문에 요약은 비디오 시퀀스의 보다 효율적인 메모리 리콜(recall)을 용이하게 할 수 있다.
다수의 비디오 요약 기술들이 개발되어 왔지만, 현존하는 기술들을 개선하는 것이 일반적으로 바람직하다.
전술한 배경을 고려하여, 본 발명의 예시적 실시예들은 복수의 프레임들을 포함하는 비디오 시퀀스의 하나 이상의 키 프레임들을 식별하기 위한 개선된 장치, 방법 및 컴퓨터 판독 가능 저장 매체를 제공한다. 본 발명의 예시적 실시예들의 하나의 양태는 적어도 하나의 프로세서 및 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 포함하는 장치에 관한 것이다. 메모리/메모리들 및 컴퓨터 프로그램 코드는 프로세서(들)를 사용하여 장치가 다수의 동작들을 적어도 수행하게 하도록 구성된다.
장치는 복수의 프레임들의 비디오 시퀀스를 수신하며, 프레임들의 적어도 일부의 각각이 수신될 때 그러나 프레임들의 모두가 수신되기 전에 다수의 동작들을 수행하게 된다. 이와 관련하여, 장치는 프레임의 사진의 각각의 하나 이상의 특성들의 값의 함수로서 프레임에 대한 점수(score)를 계산하게 된다. 이러한 특성들은 예컨대 프레임의 사진의 휘도, 에지(edge)점 검출, 그레이스케일 엔트로피(grayscale entropy) 또는 컬러 엔트로피 중 하나 이상을 포함할 수 있다. 장치는 프레임에 대한 점수를 소정의 임계값과 비교하며, 프레임이 지정된 기간 내에서 수신되며 프레임에 대한 점수가 소정의 임계값을 초과하는 경우에 키 프레임으로서 프레임을 출력시킨다. 그렇지 않으면, 지정된 기간 내에서 수신된 프레임들에 대한 점수들 중 어떤 것도 소정의 임계값을 초과하지 않는 경우에, 장치는 키 프레임으로서 지정된 기간 내에서 수신된 프레임들 중 하나를 출력시킨다. 이러한 경우에, 키 프레임으로서 출력된 프레임은 지정된 기간 내에서 수신된 프레임들 중의 최고 점수를 갖는 프레임이다.
프레임의 적어도 일부의 각각 키 프레임의 출력 후 수신될 때, 장치는 또한 프레임에 대한 점수를 계산하며 프레임에 대한 가중된 점수를 키 프레임에 대한 점수와 비교하게 될 수 있으며, 여기서 가중된 점수는 중량 계수에 의해 가중된 프레임에 대한 점수를 포함한다. 장치는 그 후 프레임에 대한 가중된 점수가 키 프레임에 대한 점수보다 큰 경우에 프레임으로 키 프레임의 업데이팅을 발생시키게 될 수 있다.
추가적으로 또는 대안으로, 장치는 키 프레임으로서 비디오 시퀀스의 수신된 프레임을 선택하기 위해 사용자 입력을 수신하게 될 수 있으며, 여기서 사용자 입력은 비디오 시퀀스의 프레임들의 모두가 수신되기 전에 수신된다. 사용자 입력의 수신에 응답하여, 장치는 키 프레임으로서 수신된 프레임들 중 하나를 출력시킬 수 있다. 예컨대 장치는 복수의 수신된 프레임들 중 최고 점수를 갖는 수신된 프레임들 중의 하나를 출력시킬 수 있다.
다양한 경우들에서, 비디오 시퀀스는 각각 복수의 프레임들을 포함하는 긴 세그먼트(segment) 및/또는 복수의 세그먼트들을 포함할 수 있다. 이러한 경우들에서, 장치는 긴 세그먼트에 대한, 또는 비디오 시퀀스의 세그먼트들 중 적어도 일부의 각각에 대한 복수의 경우들에서 키 프레임으로서 프레임의 출력을 발생시키는 것을 포함하여 다양한 동작들을 수행하게 될 수 있다. 또한 이러한 경우들에서, 비디오 시퀀스의 프레임들의 적어도 일부가 수신되지만 모두가 수신되기 전에, 장치는 또한 세그먼트들의 적어도 일부를 검출하게 될 수 있다.
장치가 세그먼트들의 적어도 일부를 검출하게 되는 것은 하나 이상의 연속적인 쌍들의 프레임들의 사진들 간의 프레임간 차이를 계산하며, 프레임간 차이가 제 2 임계값(예컨대 T d )을 초과하는 경우에 한 쌍의 프레임들을 세그먼트들 간의 경계로서 식별하여 하나의 세그먼트의 종료 및 다음 세그먼트의 시작을 검출하는 것을 포함할 수 있다. 이와 관련하여, 프레임간 차이는 각각의 프레임들의 사진들의 각각의 하나 이상의 제 2 특성들의 값들의 함수로서 계산될 수 있다.
보다 특정한 실시예에 있어서, 장치가 한 쌍의 프레임들을 세그먼트들 간의 경계로서 식별하게 되는 것은 프레임간 차이가 제 2 임계값을 초과하는 경우에 세그먼트들 간의 잠재적 경계로서 한 쌍의 프레임들을 식별하게 되는 것을 포함할 수 있다. 장치는 그 후 식별된 쌍의 프레임들 또는 식별된 쌍의 프레임들 이후의 하나 이상의 연속적인 쌍들의 프레임들 중 적어도 하나에 대한 모션(motion) 정보를 계산하게 될 수 있다. 그리고, 장치는 적어도 하나가 모션 정보의 함수인 하나 이상의 조건들을 프레임들의 쌍이 만족시키는 경우에 프레임들의 쌍을 세그먼트들 간의 실제 경계로서 식별하게 될 수 있다.
장치는 또한 각각의 복수에서 프레임들 중 적어도 2개가 유사하다는 식별에 기반하여 키 프레임들로서 출력된 적어도 하나의 복수의 프레임들을 그룹화하게 될 수 있다. 이러한 경우들에서, 각각의 프레임들은 각각의 프레임들의 사진들의 하나 이상의 제 3 특성들의 값들에 기반하여 유사한 것으로 식별될 수 있다. 제 3 특성들은 예컨대 블록 히스토그램(block histogram), 컬러 히스토그램 또는 순서 시퀀스 중 하나 이상을 포함할 수 있다.
이와 같이 일반적 용어들로 본 발명을 설명하였으며, 이제 첨부 도면들을 참조할 것이며, 이 도면들은 반드시 축척에 따라 도시되지 않는다.
도 1은 본 발명의 예시적 실시예들에 따른 시스템의 블록도이다.
도 2는 본 발명의 예시적 실시예들에 따른 도 1의 시스템의 장치의 개략적 블록도이다.
도 3은 본 발명의 예시적 실시예들에 따른 도 2의 장치의 기능적 블록도이다.
도 4는 본 발명의 예시적 실시예들에 따른 비디오 시퀀스의 세그먼트를 검출하는 방법에서의 다양한 동작들의 흐름도들을 도시한다.
도 5는 본 발명의 예시적 실시예들에 따른 다이아몬드 검색 방법을 도시한다.
도 6은 본 발명의 예시적 실시예들에 따른 비디오 시퀀스의 세그먼트로부터 하나 이상의 키 프레임들을 식별하는 방법에서의 다양한 동작들의 흐름도들을 도시한다.
도 7은 본 발명의 예시적 실시예들에 따른 비디오 시퀀스의 세그먼트의 키 프레임을 업데이팅하는 방법에서의 다양한 동작들을 도시하는 흐름도이다.
도 8은 본 발명의 예시적 실시예들에 따른 비디오 시퀀스의 키 프레임들을 그룹화하는 방법에서의 다양한 동작들의 흐름도들을 도시한다.
도 9는 본 발명의 예시적 실시예들에 따른 다수의 시퀀스들의 순서 시퀀스 및 최대 공통 문자열(longest common subsequence(LCS))을 계산하는 예를 도시한다.
도 10은 본 발명의 예시적 실시예들에 따른 키 프레임들을 그룹화하는 예를 도시한다.
도 11은 본 발명의 예시적 실시예들에 따른 비디오 시퀀스의 세그먼트의 키 프레임의 선택을 수신하고 이것으로서 선택된 프레임을 출력하는 방법에서의 다양한 동작들의 흐름도들을 도시한다.
도 12-15는 본 발명의 예시적 실시예들에 따른 장치에 의해 제공될 수 있는 예시적 디스플레이들이다.
이제 본 발명의 예시적 실시예들이 첨부 도면들을 참조하여 이후 보다 충분히 설명될 것이며, 이 도면에서 일부이지만 모두가 아닌 본 발명의 실시형태들이 도시된다. 실제로, 본 발명은 많은 다른 형태들로 구현될 수 있고 본 명세서에서 설명되는 실시예들에 제한되는 것으로 해석되지 않아야 하며; 오히려, 이 실시예들은 본 명세서가 적용 가능한 법적 자격 요건을 만족시키도록 제공된다. 동일한 참조번호들은 전체에서 동일한 요소들을 지칭한다. 특정 시스템, 아키텍처(architecture) 등에 특정한 용어들이 본 명세서에서 참조될 수 있지만, 본 발명의 예시적 실시예들이 다른 유사한 시스템들, 아키텍처들 등에 동등하게 적용 가능할 수 있다는 것이 이해되어야 한다.
용어들 "데이터(data)", "콘텐츠(content)", "정보(information)", 및 유사한 용어들은 본 발명의 일부 예시적 실시예들에 따라 송신될 수 있는, 수신될 수 있는, 동작될 수 있으며/있거나 저장될 수 있는 데이터를 지칭하도록 상호 교환 가능하게 이용될 수 있다. 용어 "네트워크(network)"는 상호 접속된 컴퓨터들 또는 다른 컴퓨팅 디바이스들의 그룹을 지칭할 수 있다. 네트워크 내에서 이 컴퓨터들 또는 다른 컴퓨팅 디바이스들은 하나 이상의 스위치들, 라우터(router)들, 게이트웨이(gateway)들, 액세스 포인트들 등을 통해 포함하는 다양한 수단들에 의해 직접적으로 또는 간접적으로 상호 접속될 수 있다.
또한, 본 명세서에서 사용되는 바와 같이, 용어 "회로(circuitry)"는 이하의 것 중 임의의 것 또는 모두를 지칭한다: (a) 하드웨어만의 회로 구현들(아날로그 및/또는 디지털 회로만으로의 구현들과 같은); (b) 아래와 같은(적용 가능한 바와 같은) 회로들 및 소프트웨어(및/또는 펌웨어)의 조합들: (i) 프로세서(들)의 조합 또는 (ii) 모바일 폰 또는 서버와 같은 장치가 다양한 기능들을 수행하게 하도록 함께 동작하는 프로세서(들)/소프트웨어의 일부들(디지털 신호 프로세서(들)을 포함하는), 소프트웨어 및 메모리/메모리들; 및 (c) 소프트웨어 또는 펌웨어가 물리적으로 존재하지 않더라도 동작을 위해 소프트웨어 또는 펌웨어를 필요로 하는 마이크로프로세서(들) 또는 마이크로프로세서(들)의 일부와 같은 회로들.
"회로"의 이러한 정의는 임의의 청구항들을 포함하여 본 출원에서의 이 용어의 모든 사용들에 적용된다. 추가적인 예로서, 본 출원에서 사용되는 바와 같이, 용어 "회로"는 또한 단지 프로세서(또는 다수의 프로세서들) 또는 프로세서의 일부와 그것의(또는 그것들의) 수반하는 소프트웨어 및/또는 펌웨어의 구현을 포함할 것이다. 용어 "회로"는 또한 예컨대 그리고 특정 청구항 구성 요소에 적용 가능하다면 모바일 폰을 위한 기저대역(baseband) 집적 회로 또는 애플리케이션 프로세서 집적 회로, 서버, 셀룰러 네트워크 디바이스, 또는 다른 네트워크 디바이스에서의 유사한 집적 회로를 포함할 것이다.
또한, 본 명세서에서 설명되는 바와 같이, 다양한 메세지들 또는 다른 통신은 하나의 구성 요소 또는 장치로부터 다른 구성 요소 또는 장치로 송신되거나 그렇지 않으면 전달될 수 있다. 메세지 또는 다른 통신을 송신하는 것은 메세지 또는 다른 통신의 송신을 포함할 수 있을 뿐만 아니라, 송신하는 장치 또는 송신하는 장치의 다양한 수단들에 의한 메세지 또는 다른 통신의 마련을 포함할 수도 있다는 것이 이해되어야 한다.
도 1을 참조하면, 본 발명으로부터 유익할 수 있는 일 시스템이 도시된다. 본 발명의 예시적 실시예들의 시스템, 방법 및 컴퓨터 프로그램 제품은 주로 시스템, 방법 및 컴퓨터 프로그램 제품이 동작하는 환경을 고려하지 않고 설명될 것이다. 그러나, 시스템, 방법 및 컴퓨터 프로그램 제품이 이동식 및/또는 고정된 환경들, 유선 및/또는 무선 환경들, 독립된 및/또는 네트워크화된 환경들 등을 포함하는 다수의 다른 환경들에서 동작할 수 있다는 것이 이해되어야 한다. 예컨대, 본 발명의 예시적 실시예들의 시스템, 방법 및 컴퓨터 프로그램 제품은 하나 이상의 모바일 네트워크들 내에서 동작하는 모바일 단말기들이 비디오 시퀀스들의 하나 이상의 소스들을 포함하거나 그렇지 않으면 이것들과 통신하는 이동 통신 환경들에서 동작할 수 있다.
시스템(100)은 비디오 소스(102) 및 프로세싱 장치(104)를 포함한다. 별개의 구성 요소들로서 도시되었지만, 일부 실시예들에 있어서 단일 장치가 논리적으로 분리되었지만 각각의 엔티티(entity) 내에서 함께 위치된 비디오 소스 및 프로세싱 장치 양자를 지원할 수 있다는 것이 이해되어야 한다. 예컨대, 모바일 단말기는 논리적으로 분리되었지만 함께 위치된 비디오 소스 및 프로세싱 장치를 지원할 수 있다. 그러나, 시스템을 구현하는 방식에 관계없이 비디오 소스는 비디오의 하나 이상의 시퀀스들을 제공할 수 있는 다수의 다른 구성 요소들 중 임의의 것을 포함할 수 있다. 비디오 소스와 같이, 프로세싱 장치는 본 발명의 예시적 실시예들에 따른 비디오 소스로부터 비디오 시퀀스들을 프로세싱하도록 구성되는 다수의 다른 구성 요소들 중 임의의 것을 포함할 수 있다. 비디오 소스에 의해 제공되는 비디오의 각 시퀀스는 복수의 프레임들을 포함할 수 있으며, 이것들의 각각은 하나 이상의 객체들을 묘사할 수 있거나 묘사하지 않을 수 있는 샷(shot) 또는 장면(일반적으로 "장면(scene)"으로 지칭됨)의 이미지, 사진, 슬라이스(slice) 등(일반적으로 "사진(picture)"으로 인칭됨)을 포함할 수 있다. 시퀀스는 예측된 사진 프레임들(P-프레임들) 및/또는 양방향 예측 사진 프레임들(B-프레임들)과 같은 상호 코딩된 프레임들과 함께 배치될 수 있는 인트라(intra) 코딩된 프레임들(I-프레임들)과 같은 다른 타입들의 프레임들을 포함할 수 있다.
비디오 소스(102)는 예컨대 이미지 캡처 디바이스(예컨대 비디오 카메라), 비디오 카세트 레코더(video cassette recorder(VCR)), 디지털 다기능 디스크(digital versatile disc(DVD)) 플레이어, 메모리에 저장되거나 네트워크로부터 다운로딩된 비디오 파일 등을 포함할 수 있다. 이와 관련하여, 비디오 소스는 예컨대, 제 3 세대 플랫폼(Third Generation Platform(3GP)), AVI(오디오 비디오 인터리브(Audio Video Interleave)), 윈도우즈 미디어®(Windows Media®), MPEG(동영상 전문가 그룹(Moving Pictures Expert Group)), 퀵타임®(QuickTime®), 리얼비디오®(RealVideo®), 쇼크웨이브®(플래시®)(Shockwave®(Flash®)) 등을 포함하는 다수의 다른 형식들로 하나 이상의 비디오 시퀀스들을 제공하도록 구성될 수 있다.
이제 도 2를 참조하며, 이것은 본 발명의 예시적 방법들을 수행하기 위해 프로세싱 장치(104)로서 기능하도록 구성될 수 있는 장치(200)를 도시한다. 일부 예시적 실시예들에 있어서, 장치는 유선 또는 무선 통신 기능들을 갖는 통신 디바이스로서 구현되거나, 이것의 구성 요소로서 포함될 수 있다. 예시적 장치는 하나 이상의 프로세서들(202), 메모리 디바이스들(204), 입력/출력(I/O) 인터페이스들(206), 통신 인터페이스들(208) 및/또는 사용자 인터페이스들(210)을 포함할 수 있거나 그렇지 않으면 이것들과 통신할 수 있다(각각의 하나가 도시됨).
프로세서(202)는 예컨대 마이크로프로세서, 보조 프로세서, 제어기, 예컨대 ASIC(주문형 반도체(application specific integrated circuit), FPGA(필드 프로그램 가능 게이트 어레이(field programmable gate array)), DSP(디지털 신호 프로세서(digital signal processor)) 또는 하드웨어 가속기와 같은 특수 목적 집적 회로, 프로세싱 회로 또는 다른 유사한 하드웨어 중 하나 이상을 포함하는 본 발명의 예시적 실시예들의 다양한 기능들을 구현하기 위한 다양한 수단들로서 구현될 수 있다. 하나의 예시적 실시예에 따르면, 프로세서는 개별적으로 또는 협력하여 동작하는 복수의 프로세서들, 또는 하나 이상의 멀티 코어 프로세서들을 나타낼 수 있다. 멀티 코어 프로세서는 단일의 물리적 패키지 내에서의 멀티프로세싱을 가능하게 해준다. 멀티 코어 프로세서의 예들은 2개, 4개, 8개 또는 보다 큰 개수의 프로세싱 코어들을 포함한다. 또한, 프로세서는 본 명세서에서 설명되는 기능의 수행을 용이하게 하기 위해 복수의 트랜지스터들, 로직 게이트들, 클럭(예컨대, 오실레이터(oscillator)), 다른 회로 등으로 구성될 수 있다. 프로세서는 하나 이상의 수반하는 디지털 신호 프로세서들(digital signal processors(DSPs))을 포함할 수 있지만, 이것을 포함하는 것을 필요로 하지는 않는다. DSP는 예컨대 프로세서와는 관계없이 실시간으로 실세계의(real-world) 신호들을 프로세싱하도록 구성될 수 있다. 마찬가지로, 수반하는 ASIC은 예컨대 보다 더 일반적인 목적의 프로세서에 의해 용이하게 수행되지 않는 특수한 기능들을 수행하도록 구성될 수 있다. 일부 예시적 실시예들에 있어서, 프로세서는 메모리 디바이스에 저장된 명령어들 또는 프로세서에 달리 액세스 가능한 명령어들을 실행하도록 구성된다. 프로세서는장치가 본 명세서에서 설명된 다양한 기능들을 수행하게 하기 위해 동작하도록 구성될 수 있다.
하드웨어 단독으로 또는 컴퓨터 판독 가능 저장 매체 상에 저장된 명령어들을 통해 구성되던지 또는 그것들의 조합에 의해 구성되던지, 프로세서(202)는 상응하여 구성됨과 동시에 본 발명의 실시예들에 따른 동작들을 수행하도록 구성된 장치일 수 있다. 따라서, 예시적 실시예들에 있어서 프로세서가 ASIC, FPGA 등으로서 구현되거나 이것들의 일부인 경우, 프로세서는 본 명세서에서 설명된 동작들을 행하기 위해 특수하게 구성된 하드웨어이다. 대안으로, 예시적 실시예들에 있어서, 프로세서가 컴퓨터 판독 가능 저장 매체 상에 저장된 명령어들의 실행자로서 구현되는 경우, 명령어들은 본 명세서에서 설명된 알고리즘들 및 동작들을 수행하는 프로세서를 구체적으로 구성한다. 일부 예시적 실시예들에 있어서, 프로세서는 본 명세서에서 설명된 알고리즘들, 방법들 및 동작들을 수행하기 위해 실행된 명령어들을 통해 프로세서의 추가적인 구성에 의해 본 발명의 예시적 실시예들을 채용하기 위해 구성된 특정 디바이스의 프로세서이다.
메모리 디바이스(204)는 휘발성 그리고/또는 비휘발성 메모리를 포함할 수 있는 하나 이상의 컴퓨터 판독 가능 저장 매체일 수 있다. 일부 예시적 실시예들에 있어서, 메모리 디바이스는 동적 그리고/또는 정적 RAM, 온-칩 또는 오프-칩 캐시 메모리(on-chip or off-chip cache memory) 등을 포함하는 랜덤 액세스 메모리(Random Access Memory(RAM))를 포함한다. 또한, 메모리 디바이스는 비휘발성 메모리를 포함할 수 있으며, 이것은 내장되며/되거나 제거 가능할 수 있으며, 예컨대 읽기 전용 메모리(Read-Only Memory(ROM)), 플래시 메모리, 자기 저장 디바이스들(예컨대 하드 디스크들, 플로피 디스크 드라이브들, 자기 테이프 등), 광 디스크 드라이브들 및/또는 매체, 비휘발성 랜덤 액세스 메모리(non-volatile random access memory(NVRAM)) 등을 포함할 수 있다. 메모리 디바이스는 데이터의 임시적 저장을 위한 캐시 영역을 포함할 수 있다. 이와 관련하여, 적어도 일부의 또는 전체의 메모리 디바이스가 프로세서(202) 내에 포함할 수 있다.
또한, 본 명세서에 설명된 본 발명의 예시적 실시예들에 따라, 프로세서(202) 및 예시적 장치(200)가 다양한 기능들을 수행하는 것을 가능하게 하기 위해 메모리 디바이스(204)는 정보, 데이터, 애플리케이션들, 컴퓨터 판독 가능 프로그램 코드 명령어들 등을 저장하도록 구성될 수 있다. 예컨대, 메모리 디바이스는 프로세서에 의한 프로세싱을 위해 입력 데이터를 버퍼링하도록 구성될 수 있다. 추가적으로 또는 대안으로, 메모리 디바이스는 프로세서에 의한 실행을 위해 명령어들을 저장하도록 구성될 수 있다. 메모리는, 그 안에 저장된 데이터의 무결성이 확보되면서, 안전하게 보호될 수 있다. 이와 관련하여, 데이터는 액세스는 인증이 확인되고 액세스 제어 정책들에 기반하여 승인될 수 있다.
I/O 인터페이스(206)는 통신 인터페이스(208) 및/또는 사용자 인터페이스(210)와 같은 다른 회로 또는 디바이스들을 가지면서 프로세서(202)를 인터페이싱하도록 구성되는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 구현되는 임의의 디바이스, 회로 또는 수단일 수 있다. 일부 예시적 실시예들에 있어서, 프로세서는 I/O 인터페이스를 통해 메모리 디바이스와 인터페이싱할 수 있다. I/O 인터페이스는 프로세서에 의해 해석될 수 있는 형태로 신호들 및 데이터를 변환하도록 구성될 수 있다. I/O 인터페이스는 또한 프로세서의 동작을 지원하는 입력들 및 출력들의 버퍼링을 수행할 수 있다. 일부 예시적 실시예들에 따르면, 프로세서 및 I/O 인터페이스는 본 발명의 예시적 실시예의 다양한 기능들을 수행하도록, 또는 장치(200)가 수행하게 하도록 구성된 단일 칩 또는 집적 회로 상에 조합될 수 있다.
통신 인터페이스(208)는 하나 이상의 네트워크들(212) 및/또는 예시적 장치 (200)와 통신하는 임의의 다른 디바이스 또는 모듈로부터/로 데이터를 수신 및/또는 송신하도록 구성된 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 구현된 임의의 디바이스 또는 수단일 수 있다. 프로세서(202)는 또한 예컨대 통신 인터페이스 내에 포함되는 하드웨어를 제어함으로써 통신 인터페이스를 통해 통신들을 용이하게 하도록 구성될 수 있다. 이와 관련하여, 통신 인터페이스는 예컨대 하나 이상의 안테나들, 송신기, 수신기, 송수신기 및/또는 예컨대 통신들을 가능하게 하기 위한 프로세서를 포함하는 지원 하드웨어를 포함할 수 있다. 통신 인터페이스를 통해, 예시적 장치는 장치 대 장치 방식으로 및/또는 간접적인 통신들을 통해 다양한 다른 네트워크 요소들과 통신할 수 있다.
통신 인터페이스(208)는 다수의 유선 또는 무선 통신 표준들 중 임의의 것에 따라 통신들을 제공하도록 구성될 수 있다. 통신 인터페이스는 다중 입력 다중 출력(multiple input multiple output(MIMO)) 환경들과 같은 다중 안테나 환경들에서 통신들을 지원하도록 구성될 수 있다. 또한, 통신 인터페이스는 직교 주파수 분할 다중(orthogonal frequency division multiplexed(OFDM)) 시그널링을 지원하도록 구성될 수 있다. 일부 예시적 실시예들에 있어서, 통신 인터페이스는 상술한 바와 같이, 다수의 제 2 세대(2G), 제 3 세대(3G), 제 4 세대(4G) 또는 그 이상 세대의 이동 통신 기술들 중 임의의 것, 무선 주파수(radio frequency(RF)), 적외선 데이터 협회(infrared data association(IrDA)) 또는 다수의 다른 무선 네트워킹 기술들 중 임의의 것을 포함하는 다양한 기술들에 따라 통신하도록 구성될 수 있다. 통신 인터페이스는 또한 가능하게는 인터넷 프로토콜(Internet Protocol (IP))을 통해 네트워크 계층에서 통신들을 지원하도록 구성될 수 있다.
사용자 인터페이스(210)는 사용자 인터페이스를 통해 사용자 입력을 수신하고/하거나 예컨대 가청의, 가시의, 기계적인 또는 다른 출력 지시들 같은 사용자에의 출력을 제공하도록 프로세서(202)와 통신할 수 있다. 사용자 인터페이스는 예컨대 키보드, 마우스, 조이스틱, 디스플레이(예컨대 터치 스크린 디스플레이), 마이크로폰, 스피커, 또는 다른 입력/출력 메커니즘들을 포함할 수 있다. 또한, 프로세서는 사용자 인터페이스의 하나 이상의 요소들 중 적어도 일부의 기능들을 제어하도록 구성된 사용자 인터페이스 회로를 포함하거나, 이것과 통신할 수 있다. 프로세서 및/또는 사용자 인터페이스 회로는 프로세서에 액세스 가능한 메모리(예컨대 메모리 디바이스(204)) 상에 저장된 컴퓨터 프로그램 명령어들(예컨대 소프트웨어 및/또는 펌웨어)을 통해 사용자 인터페이스의 하나 이상의 요소들의 하나 이상의 기능들을 제어하도록 구성될 수 있다. 일부 예시적 실시예들에 있어서, 사용자 인터페이스 회로는 디스플레이의 이용을 통해 장치(200)의 적어도 일부 기능들의 사용자 제어를 용이하게 하도록 구성되고 사용자 입력들에 응답하도록 구성된다. 프로세서는 또한 사용자 인터페이스의 적어도 일부를 디스플레잉하도록 구성된 디스플레이 회로, 디스플레이 및 장치의 적어도 일부 기능들의 사용자 제어를 용이하게 하도록 구성된 디스플레이 회로를 포함하거나 이것들과 통신할 수 있다.
몇몇 경우들에서, 예시적 실시예들의 장치(200)가 칩 또는 칩 세트 상에 구현될 수 있다. 예시적 실시예에 있어서, 칩 또는 칩 세트는 본 명세서에서 설명된 바와 같이 하나 이상의 방법들 중의 하나 이상의 동작들을 수행하도록 프로그래밍될 수 있으며, 예컨대 하나 이상의 프로세서들(202), 메모리 디바이스들(204), I/O 인터페이스들(206) 및/또는 하나 이상의 물리적 패키지들(예컨대, 칩들)에 통합된 다른 회로 구성 요소들을 포함할 수 있다. 예로서, 물리적 패키지는 물리적 강도, 크기의 보존 및/또는 전기적 상호작용의 제한과 같은 하나 이상의 특성들을 제공하는 구조적 어셈블리(예컨대, 베이스보드(baseboard)) 상의 하나 이상의 재료들, 구성 요소들 및/또는 와이어들의 배열을 포함한다. 특정 실시예들에서 칩 또는 칩 세트가 단일 칩으로 구현될 수 있다는 것이 고려된다. 특정 실시예들에서 칩 또는 칩 세트가 단일의 "시스템 온 칩(system on a chip)"으로 구현될 수 있다는 것이 또한 고려된다. 특정 실시예들에서 별개의 ASIC가 이용되지 않을 수 있다는 것, 그리고 예컨대 본 명세서에 개시된 바와 같이 모든 관련된 동작들이 프로세서 또는 프로세서들에 의해 수행될 수 있다는 것이 또한 고려된다. 칩 또는 칩 세트, 또는 그것의 일부는 본 명세서에서 설명된 바와 같이 하나 이상의 방법들 중의 하나 이상의 동작들을 수행하기 위한 수단을 구성할 수 있다.
하나의 예시적 실시예에 있어서, 칩 또는 칩 세트는 칩 또는 칩 세트의 구성 요소들 중에서 정보를 전달하기 위한 버스와 같은 통신 메커니즘을 포함한다. 하나의 예시적 실시예에 따르면, 프로세서(202)는 예컨대 메모리 디바이스(204)에 저장되는 명령어들 및 프로세스 정보를 실행하기 위해 버스에 접속된다. 장치(200)가 다수의 프로세서들을 포함하는 경우들에서, 프로세서들은 명령어들의 독립된 실행, 파이프라이닝(pipelining) 및 멀티스레딩(multithreading)을 가능하게 하기 위해 버스를 통해 직렬로 동작하도록 구성될 수 있다. 하나의 예시적 실시예에 있어서, 칩 또는 칩 세트는 단지 하나 이상의 프로세서들을 지원하며/하거나 이것들에 관련되며/되거나 이것들을 위한 하나 이상의 프로세서, 소프트웨어 및/또는 펌웨어를 포함한다.
배경 기술 부분에서 설명된 바와 같이, 비디오 요약은 각각 하나 이상의 프레임들을 포함하는 하나 이상의 장면들을 포함하는 비디오 시퀀스의 요약을 생성하기 위한 기술들의 패밀리이다. 본 발명의 예시적 실시예들은 비디오 시퀀스의 수신 동안 비디오 시퀀스의 복수의 프레임들 중의 하나 이상의 키 프레임들을 식별하기 위한 기술을 제공한다. 본 발명의 예시적 실시예들은 사용자가 또한 비디오 시퀀스의 하나 이상의 프레임들을 키 프레임들로서 수동으로 선택하는 것을 허용한다. 이 키 프레임(들)은 고속 브라우징, 태깅(tagging), 요약 등과 같은 비디오 시퀀스에의 유연한 조작을 사용자에게 제공하는 다수의 다른 방식들로 그 후 이용될 수 있다.
이제 도 3을 참조하며, 이것은 본 발명의 예시적 방법들을 수행하기 위해 프로세싱 장치(104)로서 기능하도록 구성될 수 있는 장치(300)의 기능적 블록도를 도시한다. 일반적으로, 그리고 아래에 보다 상세히 설명되는 바와 같이 장치는 비디오 미디어 파일 또는 라이브 비디오 스트림의 형태로와 같이 비디오 시퀀스를 수신하도록 구성될 수 있다. 장치는 비디오 시퀀스의 하나 이상의 키 프레임들을 식별하고, 식별된 키 프레임(들)을 출력하기 위해 비디오 시퀀스를 분석하도록 구성될 수 있다.
장치(300)는 세그먼트(segment) 검출기(302), 키 프레임 추출기(304), 키 프레임 업데이트 모듈(306), 긴 세그먼트 판단 모듈(308), 키 프레임 그룹화 모듈(310) 및/또는 수동 태깅 모듈(312)을 포함하는 다수의 모듈들을 포함할 수 있으며, 이것들의 각각은 다양한 수단들에 의해 구현될 수 있다. 이 수단들은, 단독으로 또는 하나 이상의 컴퓨터 프로그램 코드 명령어들, 프로그램 명령어들 또는 컴퓨터 판독 가능 저장 매체(예컨대, 메모리 디바이스)로부터의 실행 가능한 컴퓨터 판독 가능 프로그램 코드 명령어들의 지시 하에서, 예컨대 프로세서(202), 메모리 디바이스(204), I/O 인터페이스(206), 통신 인터페이스(208)(예컨대, 송신기, 안테나 등) 및/또는 사용자 인터페이스(210)를 포함할 수 있다.
아래에 보다 상세히 설명되는 바와 같이, 세그먼트 검출기(302)는 비디오 시퀀스의 하나 이상의 세그먼트들을 검출하거나 그렇지 않으면 식별하도록 구성된다. 각 세그먼트는 비디오 시퀀스의 하나 이상의 프레임들의 별개의 서브세트(subset)를 포함하며, 비디오 시퀀스의 장면 또는 장면의 일부를 나타낼 수 있다. 본 발명의 예시적 실시예들에 따르면, 세그먼트 검출기는 프로세싱 장치(104)가 소스(102)로부터 비디오 시퀀스를 수신할 때 세그먼트 검출기가 비디오 시퀀스의 세그먼트를 분석하고 식별할 수 있거나 그렇지 않으면 전체 비디오 시퀀스의 이용을 필요로 하지 않는 제한된 콘텍스트 기반 기술을 구현할 수 있다. 즉, 프로세싱 장치가 비디오 시퀀스의 프레임을 수신할 때, 세그먼트 검출기는 프레임을 하나 이상의 이전 프레임들(또는 하나 이상의 이전 프레임들로부터의 정보)과 함께 실시간으로 분석하도록 구성될 수 있으며, 시퀀스에서의 임의의 후속 프레임들을 필요로 하지 않는다. 그리고 이러한 분석에 기반하여, 세그먼트 검출기는 2개의 세그먼트들 간의 경계를 식별하거나 그렇지 않으면 세그먼트의 시작을 식별하도록 구성될 수 있다.
키 프레임 추출기(304)는 세그먼트 검출기(302)에 의해 검출된 각 세그먼트의 프레임들을 분석하며, 분석에 기반하여 각 세그먼트의 하나 이상의 키 프레임들을 식별하도록 구성될 수 있다. 세그먼트 검출기가 제한된 콘텍스트 기반 기술을 구현할 수 있는 것처럼, 키 프레임 추출기에 의해 구현된 기술이 또한 제한된 콘텍스트에 기반할 수 있다. 즉, 키 프레임 추출기는 프로세싱 장치(104)가 소스(102)로부터 비디오 시퀀스를 수신할 때 비디오 시퀀스의 세그먼트의 프레임들을 분석하고 키 프레임(들)을 식별하거나 그렇지 않으면 전체 비디오 시퀀스의 이용을 필요로 하지 않도록 구성될 수 있다. 키 프레임 추출기는 또한 지정된 기간(예컨대 2 초) 내에서 키 프레임을 식별하며 사용자 인터페이스 상의 각 세그먼트의 식별된 키 프레임을 직접 디스플레잉하도록 구성될 수 있다.
키 프레임 추출기(304)가 제한된 콘텍스트를 가지면서 그리고 지정된 시간 프레임 내에서 세그먼트의 키 프레임을 식별할 수 있지만, 세그먼트의 다른 후속 프레임이 세그먼트를 보다 잘 나타내는 경우가 있을 수 있다. 따라서, 세그먼트의 키 프레임을 식별한 후에도, 키 프레임 추출기(304)는 세그먼트의 후속 프레임(들)을 분석하는 것을 지속하도록 구성될 수 있다. 다양한 경우들에서, 키 프레임 업데이트 모듈(306)은 세그먼트의 키 프레임을 세그먼트의 다른 프레임으로 업데이팅하도록 구성될 수 있다. 즉, 키 프레임 업데이트 모듈은 후속 프레임(들)의 분석을 식별된 키 프레임의 분석과 비교하며, 다양한 경우들에서 식별된 키 프레임을 후속 프레임(들) 중의 하나로 대체하도록 구성될 수 있다. 키 프레임 업데이트 모듈은 이전의 식별된 키 프레임을 사용자 인터페이스 상의 업데이팅된 키 프레임으로 대체하는 것에 의한 바와 같이 그 후 사용자 인터페이스 상의 업데이팅된 키 프레임의 디스플레이를 지시할 수 있다. 키 프레임 추출기 및 키 프레임 업데이트 모듈은 키 프레임을 업데이팅한 후에서도 세그먼트에 대한 그것들의 각각의 동작들을 지속할 수 있으며, 따라서 키 프레임 업데이트 모듈은 키 프레임 추출기에 의해 식별된 후의 하나 이상의 경우들에서 세그먼트의 키 프레임을 업데이팅할 수 있다.
다양한 경우들에서, 비디오 시퀀스의 세그먼트는 현저한 복수의 프레임들을 포함할 수 있으며, 이들은 긴 장면을 나타낼 수 있다. 따라서 긴 세그먼트 판단 모듈(308)은 임계 수의 프레임들을 초과하는 다수의 프레임들을 포함하는 세그먼트과 같은 긴 세그먼트를 식별하며, 세그먼트의 추가적 키 프레임을 식별하는 것을(그리고, 적절하다면, 업데이팅하는 것을) 키 프레임 추출기(304)(그리고 따라서 키 프레임 업데이트 모듈(306))에 지시하도록 구성될 수 있다. 긴 세그먼트 판단 모듈은 한 번 또는 세그먼트의 임계 수의 프레임들의 각 시퀀스 서브세트마다 추가적 키 프레임의 식별을 지시하도록 구성될 수 있다. 따라서, 예컨대 긴 세그먼트 판단 모듈은 20개를 초과하는 프레임들을 포함하는 세그먼트의 하나의 추가적 키 프레임의 식별을 지시하도록 구성될 수 있거나, 세그먼트의 20개의 프레임들의 각 시퀀스 서브세트의 추가적 키 프레임의 식별을 지시할 수 있다.
위에 표시된 바와 같이, 비디오 시퀀스의 세그먼트는 비디오 시퀀스의 장면의 일부를 나타낼 수 있다. 이러한 경우들에서, 비디오 시퀀스의 장면은 다수의 의미상 관련된 세그먼트들로 구성될 수 있다. 예컨대, 두 명의 화자들이 대화를 나누고 있으며, 비디오 시퀀스가 화자들 간을 전환하는 다수의 보다 짧은 샷들을 포함하는 비디오 시퀀스의 장면을 고려한다. 이러한 경우들에서, 각 샷은 화자들 중 한 명에 초점을 맞출 수 있으며, 별개의 세그먼트로서 세그먼트 검출기(302)에 의해 검출될 수 있다. 따라서, 키 프레임 그룹화 모듈(310)은 공통의 장면을 나타내는 임의의 복수의 세그먼트들을 식별하며 각각의 세그먼트들의 키 프레임(들)을 그룹화하도록 구성될 수 있다. 키 프레임 그룹화 모듈은 후속 세그먼트(들)이 그룹의 키 프레임들의 세그먼트들에 의미상 관련되는 경우들에서 그룹에 후속 세그먼트(들)의 키 프레임(들)을 추가하도록 구성될 수 있거나, 후속 세그먼트(들)이 각각의 세그먼트들에 의미상 관련되지 않는 경우 키 프레임(들)에 대한 신규의 그룹을 시작할 수 있다.
수동 태깅 모듈(312)은 비디오 시퀀스의 세그먼트의 프레임의 사용자 선택을 수신하고, 선택된 프레임을 세그먼트의 키 프레임으로서 설정하도록 구성될 수 있다. 이러한 수동 설정 키 프레임은 세그먼트의 추가적 키 프레임으로서 설정될 수 있거나, 다양한 경우들에서, 세그먼트의 다른 키 프레임을 대체할 수 있다.
도 4(4a 및 4b를 포함함)는 본 발명의 예시적 실시예들에 따른 장치(300)의 세그먼트 검출기(302)에 의해서와 같이 프로세싱 장치(104)의 다양한 수단들에 의해 수행될 수 있는 비디오 시퀀스의 세그먼트를 검출하는 방법에서의 다양한 동작들의 흐름도를 도시한다. 일반적으로, 방법은 비디오 시퀀스의 연속적인 쌍들의 프레임들을 수신하는 단계 및 분석하는 단계를 포함하고, 분석에 기반하여 비디오 세그먼트 중의 2개의 세그먼트들 간의 경계를 식별하거나 그렇지 않으면 비디오 시퀀스의 하나의 세그먼트의 시작을 식별할 수 있다. 방법은 잠재적 세그먼트 경계 단계, 모니터링 단계 및 세그먼트 경계 판단 단계를 포함하는 다수의 단계들로 나누어질 수 있다.
도 4a의 블록(400)에 도시된 바와 같이, 방법은, i = 1과 같이, 프레임 카운터 i를 개시하는 단계를 포함할 수 있다. 방법은 그 후 잠재적 세그먼트 경계 단계로 들어갈 수 있으며, 이것은 일반적으로 세그먼트들 간의 경계, 즉 하나의 세그먼트의 종료 및/또는 다른 세그먼트의 시작을 정의할 수 있는 비디오 시퀀스의 프레임들의 서브세트를 식별한다. 이러한 잠재적 경계 프레임들은 연속적인 프레임들의 쌍들 간의 분석에 기반하여 식별될 수 있다. 예컨대, 잠재적 경계 프레임들은 연속적인 프레임들의 쌍들 간의 차이, 또는 특히, 연속적인 프레임들의 쌍들의 사진들의 하나 이상의 특성들의 값들 간의 차이에 기반하여 식별될 수 있다. 따라서, 블록들(402 및 404)에서 도시된 바와 같이, 잠재적 세그먼트 경계 단계는 현재 프레임 i를 수신하는 단계 및 현재 프레임 i과 바로 이전하는 프레임 i-1 사이의 프레임간 차이를 계산하는 단계를 포함할 수 있다. 특히, 예컨대 프레임간 차이를 계산하는 단계는 각각의 프레임들의 사진들의 하나 이상의 특성들의 값들 간의 프레임간 차이 D i ,i- 1 를 계산하는 단계를 포함할 수 있다. 이러한 특성들은 예컨대, 픽셀 값 및 컬러 히스토그램을 포함할 수 있다.
픽셀 값 g은 프레임 사진의 픽셀의 그레이 값(gray value)(예컨대 0-255)으로 나타내어질 수 있다. 컬러 사진에 대해, 픽셀의 값(픽셀 값)은 이하의 방식에서와 같이 그것의 적색 R, 녹색 G 및 청색 B 구성 요소 컬러들(일반적으로 "RGB")로부터 계산될 수 있다:
Figure 112013061267572-pct00001
i = 0에 대해, 모든 픽셀들의 픽셀 값이 0으로 설정될 수 있다.
프레임 사진의 컬러 히스토그램은 일반적으로 사진에서의 컬러들의 분포의 표현이며, 그것의 RGB 구성 요소의 컬러들에 따라 사진의 각 픽셀을 우선 양자화함으로써 발생될 수 있다. 하나의 예시적 실시예에 있어서, 픽셀의 각 구성 요소 컬러 R, G, B는 데이터의 바이트(byte)로 표현될 수 있다:
Figure 112013061267572-pct00002
이러한 예시적 실시예에 있어서, 픽셀에 대한 컬러 히스토그램 값은 4:4:4 비트들로 픽셀의 RGB 구성 요소 컬러들을 우선 양자화함으로써 계산될 수 있다. 프레임에 대한 컬러 히스토그램 H는 다수의 빈(bin)들(예컨대 48)의 각각의 서브세트(예컨대, 16) 중 하나에 프레임의 사진의 각 픽셀의 각 양자화된 구성 요소 컬러를 배치하고 그 후 각각의 빈들에서의 픽셀들의 수를 카운팅함으로써 계산될 수 있다. i-1 = 0에 대해, 모든 픽셀들, 및 따라서 컬러 히스토그램의 RGB 구성 요소 컬러들은 0으로 설정될 수 있다.
RGB 구성 요소 컬러들이 4:4:4 비트들로 양자화된 일례에 있어서, 컬러 히스토그램은 각각의 구성 요소 컬러들의 양자화된 비트들(3개의 구성 요소 컬러들에 대해 16빈들을 점유하는 4비트들)을 점유하기 위해 16빈들의 3개의 서브세트들을 포함하는 48빈들을 채용할 수 있다. 따라서, 예컨대 픽셀에 대한 4-비트 적색 구성 요소 컬러는 빈들 1-16 중의 각각의 하나에 배치될 수 있고, 픽셀에 대한 4-비트 녹색 구성 요소 컬러는 빈들 17-32 중의 각각의 하나에 배치될 수 있으며, 픽셀에 대한 4-비트 청색 구성 요소 컬러는 빈들 13-48 중의 각각의 하나에 배치될 수 있다. 프레임에 대한 컬러 히스토그램은 그 후 각각의 빈들에서의 픽셀들의 수를 카운팅함으로써 계산될 수 있다.
프레임들 ii-1의 사진들 간의 프레임간 차이는 픽셀 값들 및 각각의 프레임에 대한 컬러 히스토그램들의 함수로서 계산될 수 있다. 일례에서, 프레임간 차이 D i ,i- 1 는 이하에 따라 계산될 수 있다:
Figure 112013061267572-pct00003
전술한 것에서, bin은 컬러 히스토그램의 빈들 중 각각의 하나에 배치된 픽셀들의 수를 나타내고, Bin은 히스토그램에서의 빈들의 총 개수(예컨대, 48)를 나타내고, wh는 사진의 폭 및 높이(픽셀들 단위의)를 나타내며, x, y는 픽셀의 좌표들을 나타낸다.
프레임간 차이 D i ,i- 1 를 계산한 후, 블록(406)에 도시된 바와 같이 뚜렷한 변화가 각각의 프레임들 간에서 발생하는지 여부를 판단하기 위해 차이가 임계값 T d 와 비교될 수 있다. 임계값은 다수의 다른 방식들 중 임의의 것으로 다수의 다른 값들 중 임의의 것(예컨대 40)으로 설정될 수 있으며, 비디오 콘텐츠로 조정되거나 이것에 적응될 수 있다. 일례에서, 임계값은 초기에 설정되며, 각각의 다음 프레임에 대해 콘텐츠의 활동(activity)을 반영하는 이전 번호(예컨대, 100)의 프레임간 차이 값들에 따라 조정될 수 있다. 일례에서 임계값은 특정 번호(예컨대, 10)의 구간들로 조정될(증대될/감소될) 수 있다. 초기에 설정된 또는 현재의 임계값(예컨대 90 최대 임계값)을 초과하는 현저한 수의 차이 값들은 높은 활동의 콘텐츠를 나타낼 수 있으며, 임계값이 증대될 수 있거나; 초기에 설정된 또는 현재의 임계값(예컨대 30 최소 임계값)의 미만의 현저한 수의 차이 값들은 낮은 활동의 콘텐츠를 나타낼 수 있으며, 임계값이 감소될 수 있다.
다른 예에서, 임계값 T d 는 초기에 설정되며, 각각의 다음 프레임에 대해 일반적으로 사진들이 초점 거리가 증대함에 따라 덜 안정적이 될 경우가 될 수 있으므로 각각의 프레임의 초점 거리에 따라 조정될 수 있다. 다음 프레임의 사진이 현재 프레임의 사진보다 긴 초점 거리를 가지는 경우에(절대적으로 또는 특정한 양에 의해), 줌잉(zooming) 동작을 반영할 수 있는 방식으로와 같이 초기에 설정된 또는 현재의 임계값은 증대될 수 있다. 대안으로, 다음 프레임의 사진이 현재 프레임의 사진보다 짧은 초점 거리를 가지는 경우에(절대적으로 또는 특정한 양에 의해), 초기에 설정된 또는 현재의 임계값은 감소될 수 있다.
프레임간 차이 D i ,i-1 가 임계값 T d 보다 작거나 동등한 경우에, 현재 및 다음 프레임들은 세그먼트 경계를 한정하는 것으로 간주되지 않을 수 있다. 이러한 경우에, 블록들(408, 402 및 404)에 도시된 바와 같이, 프레임 카운터가 증분될 수 있고, 다음의 연속적인 프레임이 수신될 수 있으며 지금의 현재 프레임(이전의 다음 프레임)과 다음의 연속적인 프레임 사이의 프레임간 차이를 계산하는 프로세스가 반복된다.
프레임간 차이 D i ,i-1 가 임계값 T d 보다 큰 경우에, 블록(410)에 도시된 바와 같이, 현재 및 다음 프레임들은 잠재적 세그먼트 경계로서 식별될 수 있다. 이러한 경우에, 블록(412)에 도시된 바와 같이, 각각의 프레임들 간의 모션 정보가 계산될 수 있으며, 프로세스는 모니터링 단계로 들어갈 수 있다. 아래에 설명되는 바와 같이, 유사한 모션 정보가 또한 현재 프레임을 추종하는 하나 이상의 쌍들의 연속적인 프레임들 간에서 계산될 수 있다. 현재 및 다음 프레임들, 그리고 현재 프레임을 추종하는 하나 이상의 연속적인 쌍들의 프레임들에 대한 모션 정보가 축적될 수 있다. 이러한 축적된 모션 정보는 다양한 경우들에서 비디오 시퀀스를 캡처링하는 동안 현저한 카메라의 움직임을 반영할 수 있으며, 의미 없는 카메라 흔들림을 제거하거나 카메라 이동에 상응하는데 이용될 수 있다.
현재 프레임 i과 이전 프레임 i-1 사이의 모션 정보가 다수의 다른 방식들로 계산될 수 있다. 일례에서, 각각의 프레임의 사진은 일정수의 동등한 비중첩의 블록들(예컨대, 8×8 행렬의 블록들)로 분할될 수 있으며, 이것들은 각각의 블록들에 대한 모션 벡터들을 구하기 위해 서로 비교될 수 있다. 특히, 현재 프레임 i의 각 블록에 대해, 현재 프레임까지 이전의 프레임들마다 계산된 모션 벡터들에 기반하여 예측된 모션 벡터가 얻어질 수 있으며; 이전 프레임 i-1의 예측된 블록은 여기로부터 현재 프레임의 블록까지 예측된 모션 벡터가 지적하는 프레임으로서 식별될 수 있다.
다이아몬드 검색 방법이 그 후 현재 프레임 i의 각각의 블록에 대해 이전 프레임 i-1에서 가장 근접하게 부합하는 블록을 찾기 위해 채용될 수 있다. 도 5에 도시된 바와 같이(도 5a-5d를 포함함), 예컨대 다이아몬드 검색 방법은 2개의 패턴들 즉, 작은 다이아몬드 패턴에 의해 추종되는 큰 다이아몬드 패턴을 채용할 수 있다. 도 5a에 나타낸 바와 같이, 현재 프레임 i의 각각의 블록에 대해, 큰 다이아몬드 패턴은 이전 프레임의 각각의 예측된 블록에 대한 이전 프레임 i-1의 제 1 복수(예컨대, 9)의 검색 블록들을 포함한다. 도면들에서의 각각의 블록은 점으로 표현될 수 있다. 각각의 검색 블록에 대해, 절대 차이들의 합(sum of absolute differences(SAD)) 동작은, 이하에 따라서와 같이, 예측된 블록 blk cur 과 각각의 검색 블록 blk srch 사이의 SAD를 계산하기 위해 수행될 수 있다:
Figure 112013061267572-pct00004
전술한 것에서, blk cur (x b , y b ) 및 blk srch (x b , y b )은 각각 예측된 블록 및 검색 블록의 대응하는 픽셀들 (x b , y b)의 하나 이상의 특성들의 값을 나타내며; w b h b 은 각각의 블록들의 폭 및 높이(픽셀들로)를 나타낸다.
도 5b에 예로서 도시된 바와 같이, 예측된 블록과 함께 최소 SAD를 구비하는 검색 블록은 다음의 큰 다이아몬드 패턴의 중심으로 선택될 수 있으며, 이것은 이전의 큰 다이아몬드 패턴과 함께 공통으로 하나 이상의 지점들을 가질 수 있다. 방법은 그 후 예측된 블록과 다음의 큰 다이아몬드 패턴의 각각의 검색 블록들 사이의 SAD를 계산함으로써 하나 이상의 추가적인 반복들에 대해 반복될 수 있지만, 또한 각각의 패턴의 검색 블록으로서 다음의 큰 다이아몬드 패턴의 중심 블록을 포함한다. 도 5c에 도시된 바와 같이, 예측된 블록과 함께 최소 SAD를 구비하는 검색 블록이 큰 다이아몬드 패턴의 중심 블록과 동일할 때까지 하나 이상의 추가적인 반복들이 수행될 수 있다. 이러한 경우에, 도 5d에 도시된 바와 같이, 방법은 큰 다이아몬드 패턴의 추가적인 반복들과 유사한 방식으로 지속될 수 있지만, 최종 큰 다이아몬드 패턴의 중심 블록에 대한 제 2 복수(예컨대, 4 개)의 검색 블록들을 포함하는 작은 다이아몬드 패턴을 이용한다. 즉, SAD가 예측된 블록과 작은 다이아몬드 패턴의 각각의 검색 블록들(그것의 중심 블록을 포함함) 사이에서 계산될 수 있다. 예측된 블록과 함께 최소 SAD를 구비하는 작은 다이아몬드 패턴의 검색 블록은 그 후, 현재 프레임 i의 블록에 가장 근접하게 부합하는 이전 프레임 i-1의 블록으로 선택될 수 있으며, 각각의 블록들의 위치들 간의 거리는 그 후 현재 프레임의 블록에 대한 모션 벡터로서 계산될 수 있다. 방법은 그 후 현재 프레임의 다른 블록들에 대해 반복될 수 있다.
현재 프레임 i의 블록들의 모션 벡터들을 계산한 후, 모션 벡터들은 현재 프레임 i 및 이전 프레임 i-1에 대한 모션 정보를 형성하기 위해 축적될 수 있다. 이러한 모션 정보는 모니터링 단계 동안 하나 이상의 추가적인 연속적인 쌍들의 프레임들에 대해 계산된 유사한 모션 정보와 이후의 축적을 위해 캐싱(caching)되거나 그렇지 않으면 저장될 수 있다.
도 4b는 모니터링 단계에서의 다양한 동작들을 도시한다. 블록(414 및 416)에 도시된 바와 같이, 모니터링 단계는 프레임 카운터를 증분하는 단계 및 다음의 그리고 지금의 현재 프레임을 수신하는 단계를 포함할 수 있다. 블록(418)에 도시된 바와 같이, 현재 프레임 i 및 이전 프레임 i-1에 대한 모션 정보는 글로벌(global) 모션 파라미터(parameter)를 형성하기 위해, 위에서 설명된 것들과 유사한 방식으로와 같이, 계산되고 캐싱된 모션 정보와 함께 축적될 수 있다. 이러한 축적된 모션 정보는, 적절한 대로, 하나 이상의 이후의 연속적인 쌍들의 프레임들과의 추가적인 축적을 위해 마찬가지로 캐싱될 수 있다.
모니터링 단계는 N개의 연속적인 프레임들 ii-1의 사진들 간의 프레임간 차이 D i ,i-1 가 임계값 T d 보다 작거나 동등할 때까지 지속할 수 있다. 따라서, 블록들(420 및 422)에 도시된 바와 같이, 모니터링 단계는 또한 현재 프레임 i과 바로 이전 프레임 i-1 사이의 프레임간 차이를 계산하는 단계, 그리고 차이를 임계값과 비교하는 단계를 포함할 수 있다. 프레임간 차이가 임계값보다 큰 경우에, 블록들(414, 416, 418, 420 및 422)에 도시된 바와 같이, 프레임 카운터가 다시 증분될 수 있고, 다음의 연속적인 프레임이 수신될 수 있으며, 프로세스는 계산하고 글로벌 모션 파라미터과 함께 더 축적하는 것이 반복되고, 프레임 차이를 계산하고 임계값과 비교한다. 프레임간 차이가 임계값보다 작거나 동등한 경우에, 블록(424)에 도시된 바와 같이, N개의 연속적인 프레임들이 마찬가지로 임계값보다 작거나 동등한 프레임간 차이를 구비하는지 여부에 대해 판단이 행해질 수 있다. 그렇지 않으면, 프로세스는 조건이 만족될 때까지 반복될 수 있으며, 이 시점에서 모니터링 단계는 종료된다.
도 4a를 다시 참조하면, 블록(426)에 도시된 바와 같이, 모니터링 단계를 추종하여, 세그먼트 경계 판단 단계는 잠재적 세그먼트 경계 단계가 실제의 세그먼트 경계로서 자격을 얻는 동안 프레임들이 잠재적 세그먼트 경계로서 식별되는지 여부를 판단하기 위해 수행될 수 있다. 실제의 세그먼트 경계로서 자격을 얻기 위해, 다수의 조건들 중 하나 이상이 만족될 수 있어야 한다. 제 1 조건으로서, 비디오 시퀀스를 캡처링하는 동안 카메라 이동이 충분한 거리를 커버하는 경우 신규의 세그먼트가 발생할 수 있으므로, 모션 정보의 폭은 그것이 적어도 소정의 값인지 여부를 판단하기 위해 판단될 수 있다. 제 2 조건으로서, 모션 정보의 방향은 이전 모니터링 단계로부터의 모션 정보의 방향과 비교되어 이에 의해 카메라가 동일한 방향을 따라 이동할 수 있는 2개의 인접한 세그먼트 경계들을 제거할 수 있다. 그리고 제 3 조건으로서, 모니터링 단계의 종료에서의 현재 프레임 i는 모니터링 단계가 시작하기 전에 그것이 현재 프레임과 다른지 여부를 판단하기 위해 판단될 수 있다. 이러한 제 3 조건은 세그먼트 경계의 전후 프레임들이 뚜렷해야 한다는 사실에 기반하여 세그먼트 경계를 추가적으로 인증할 수 있다. 식 (3)으로 위에 나타낸 각각의 프레임들의 사진들의 컬러 히스토그램들 간의 차이 HistDiff는 제 3 조건의 목적을 위해 프레임들 간의 차이를 측정하는 데 이용될 수 있다.
블록(428)에 도시된 바와 같이, 잠재적 경계를 비디오 시퀀스의 세그먼트들 간의 실제 경계로서 식별한 후, 비디오 시퀀스가 추가적인 프레임들을 포함하는 경우에, 프레임 카운터는 증분될 수 있으며, 세그먼트를 검출하는 방법은 다음 세그먼트의 경계를 식별하는 것이 반복될 수 있다. 또한 실제의 세그먼트 경계를 식별한 후, 세그먼트의 프레임들은 분석될 수 있으며, 분석에 기반하여 세그먼트의 하나 이상의 키 프레임들이 식별될 수 있다.
도 6(도 6a 및 6b를 포함함)은, 본 발명의 예시적 실시예들에 따른, 비디오 시퀀스의 세그먼트로부터 하나 이상의 키 프레임들을 식별하는 방법에서의 다양한 동작들의 흐름도를 도시하며, 이것은 장치(300)의 키 프레임 추출기(304)에 의해서와 같이 프로세싱 장치(104)의 다양한 수단들에 의해 수행될 수 있다. 일반적으로, 방법은 비디오 시퀀스의 세그먼트의 프레임들을 수신하는 단계 및 분석하는 단계를 포함하고, 분석에 기반하여, 고도의 정보 및 지각 값을 구비할 수 있는 하나 이상의 키 프레임들을 식별할 수 있다. 도 6a의 블록들(600 및 602)에 도시된 바와 같이, 방법은 세그먼트 프레임 카운터 i s 를 개시하는 단계(예컨대 i s = 1) 및 세그먼트의 현재 프레임 i s 을 수신하는 단계를 포함할 수 있다. 도 6b의 블록들(604, 606, 608 및 610)에 도시된 바와 같이, 방법은 그 후 사진의 휘도, 에지점 검출, 그레이스케일 엔트로피 및/또는 컬러 엔트로피의 값들과 같은 사진의 하나 이상의 특성들의 값들의 함수로서 현재 프레임에 대한 점수를 계산하는 단계를 포함할 수 있다.
사진의 휘도(블록(604))는 일반적으로 단위 면적당 주어진 방향에서의 표면의 발광 강도의 크기를 나타내며, 점수로의 그것의 산입(inclusion)은 원하는 것보다 어두운 프레임을 키 프레임으로서 식별하는 것을 회피하는 것을 가능하게 해줄 수 있다. 프레임 i s 의 사진의 휘도 L는 다수의 다른 방식들로 계산될 수 있지만, 일례에서, 프레임에서의 픽셀 값 g(x,y)의 평균으로서 계산될 수 있다:
Figure 112013061267572-pct00005
여기서 픽셀 값
Figure 112013061267572-pct00006
은 식 (1)에 따라 계산될 수 있다.
사진에서의 에지점 검출 값들(블록(606))은 에지점 검출 기법에 따라 계산될 수 있다. 일반적으로, 에지는 사진에서의 경계를 한정할 수 있으며, 사진의 강도가 급격한 변화(불연속)을 드러내는 사진에서의 지점 또는 픽셀로 간주될 수 있다. 에지 검출은 사진이 객체를 묘사하는지 여부를 판단하는데 유용할 수 있다. 본 발명의 예시적 실시예들에서 채용될 수 있는 하나의 적합한 에지 검출 기법이 로버트의 크로스 연산자(Roberts' Cross operator)이며, 이것은 이하와 같이 표현될 수 있다:
Figure 112013061267572-pct00007
여기서 E R (x,y) 는 그레디언트 크기(gradient magnitude)를 나타내며, p x ,y 는 픽셀(x,y)의 강도를 나타낸다. 임계값 TH _ E R 을 초과하는 에지점들의 수를 나타내는 통계값 E R (에지점 검출 값)은 이하와 같이 계산될 수 있다:
Figure 112013061267572-pct00008
사진의 엔트로피는 일반적으로 사진 내에서의 정보의 조직화의 정도를 나타낸다. 사진의 그레이스케일 엔트로피 I gray (블록 608)는 이하에 따라 계산될 수 있다:
Figure 112013061267572-pct00009
여기서, 한번 더, g는 복수의 픽셀 값들(예컨대 0-255) 중의 픽셀 값을 나타내고, P g 는 사진의 임의의 픽셀이 g번째 픽셀 값을 구비할 확률을 나타낸다. 마찬가지로, 사진의 컬러 엔트로피 I color (블록 610)는 식 (9)와 유사한 방식이지만, 추가적으로 각각의 RGB 구성 요소 컬러들의 엔트로피들을 합산함으로써 계산될 수 있다:
Figure 112013061267572-pct00010
식 (10)에서, p c 는 사진의 임의의 픽셀의 임의의 양자화된 RGB 구성 요소 컬러가 컬러 히스토그램의 빈들 중의 bin번째 빈에 배치될 확률을 나타낸다. 이러한 식에서, 구성 요소 컬러가 빈들의 각각의 서브세트의 빈에 배치될 수 있을 때, 구성 요소 컬러가 다른 서브세트들의 빈들에 배치될 확률은 영일 수 있다는 것을 알게될 것이다.
휘도 L, 그레디언트 크기 통계량 E R 및 엔트로피들 I gray I color 을 계산한 후, 블록(612)에 도시된 바와 같이, 점수 S는 사진의 각각의 특성들의 계산된 값들로부터 계산될 수 있다. 하나의 예시적 실시예에 있어서, 필터 점수는, 이하에 따라서와 같이, 특성들의 값들의 가중 합으로서 계산될 수 있다:
Figure 112013061267572-pct00011
전술한 것에서, w lum , w edge , w gray _ entropy w color _ entropy 는 중량 계수들을 나타낸다. 이러한 계수들은 다수의 다른 방식들로 선택될 수 있으며, 하나의 예시적 실시예에 있어서 이하의 조건에 종속된다: w lum +w edge +w gray _ entropy +w color _ entropy = 1.
점수 S를 계산 한 후, 블록(614)에 도시된 바와 같이 방법은 점수를 소정의 임계값과 비교하는 단계를 포함할 수 있다. 점수가 소정의 임계값을 초과하는 경우에, 블록(616)에 도시된 바와 같이 프레임은 비디오 시퀀스의 세그먼트의 키 프레임으로서 출력될 수 있으며, 이것은 고속 브라우징, 태깅, 요약 등을 위한 것과 같은 다수의 다른 방식들로 수행될 수 있다. 그렇지 않으면, 필터 점수가 소정의 임계값 이하에 있는 경우에, 프레임 카운터는 블록(620)에 도시된 바와 같이 증분될 수 있으며, 프로세스는 세그먼트의 다음(그리고 지금의 현재) 프레임을 수신하는 단계, 프레임에 대한 점수를 계산하는 단계 및 점수를 소정의 임계값과 비교하는 단계에 의해 반복된다. 이와 관련하여, 지정된 기간(예컨대 2 초) 내에서 프레임을 키 프레임으로서 출력하는 것이 바람직할 수 있다. 소정의 임계값을 초과하는 점수를 구비하는 프레임이 지정된 기간 내에서 식별되는 경우에, 각각의 프레임은 프레임으로서 출력될 수 있다. 그러나, 블록(618)에 도시된 바와 같이, 소정의 임계값을 초과하는 점수를 구비하는 프레임이 지정된 기간 내에서 식별되지 않는 경우에, 세그먼트의 현재 또는 이전에 분석된 프레임이 키 프레임으로서 출력될 수 있다. 키 프레임으로서의 프레임 출력은 그 점수들이 소정의 임계값을 초과하지 않는 지정된 기간 내에서 분석된 하나 이상의 프레임들 중에서 최고 점수를 갖는 프레임을 선택함으로써와 같은, 임의의 다수의 다른 방식들로 선택될 수 있다.
다양한 경우들에서, 세그먼트의 다른 프레임이 도 6a 및 6b의 방법에 따라 키 프레임 출력으로서 출력되는 프레임보다 세그먼트를 더 표현할 수 있다. 따라서, 키 프레임 또는 이전 업데이트가 출력된 후의 하나 이상의 경우들에서 세그먼트의 키 프레임은 세그먼트의 다른 프레임으로 업데이팅될 수 있다. 이제 도 7을 참조하며, 이것은 본 발명의 예시적 실시예에 따른, 장치(300)의 키 프레임 업데이트 모듈(306)에 의한 것과 같이 프로세싱 장치 (104)의 다양한 수단들에 의해 수행될 수 있는 비디오 시퀀스의 세그먼트의 키 프레임을 업데이팅하는 방법에서의 다양한 동작들을 도시하는 흐름도이다.
세그먼트의 키 프레임을 출력한 후(도 6a, 블록(614) 참조), 키 프레임을 업데이팅하는 방법은 블록들(700 및 702)에 도시된 바와 같이 세그먼트 프레임 카운터 i s 를 증분하는 단계 및 세그먼트의 현재 프레임 i s 을 수신하는 단계를 포함할 수 있다. 이와 관련하여, 세그먼트 프레임 카운터는 키 프레임의 출력을 추종하여 재설정 또는 초기화되지 않아서, 이에 의해 도 6a 및 6b에 따라 아직 분석되지 않았던 프레임들과 키 프레임의 비교를 허용할 수 있다. 방법은 블록들(604, 608, 610 및 612)에 도시된 바와 같이 식 (11)에 따르는 것과 같이 현재 프레임에 대한 점수를 계산하는 단계를 포함할 수 있다. 그 후, 블록들(704 및 706)에 도시된 바와 같이, 이하에 따르는 것과 같이 현재 프레임의 가중된 점수가 키 프레임의 것보다 큰 지 여부를 판단하기 위한 것과 같이 현재 프레임의 가중된 점수 S cur 는 그 후 출력된 그리고 따라서 현재의 키프레임의 점수 S key 와 비교될 수 있다:
Figure 112013061267572-pct00012
여기서, W cur 는 중량 계수를 나타낸다. 현재 프레임의 점수의 중량 계수는 특정 값으로 초기화될 수 있다(예컨대, w cur = 1). 중량 계수는 키 프레임 점수가 현재 프레임 점수보다 현저히 큰 경우들로 값으로 주기적으로 조정될 수 있으며, 이것은 키 프레임이 현저한 범위를 가지며 심지어 세그먼트에서의 다음 현재 프레임의 절대 점수가 현재 프레임의 점수보다 큰 경우에도 유지되어야 한다는 것을 의미할 수 있다. 이 경우에, 중량 계수는 다음 현재 프레임의 점수가 식 (12)의 부등식을 만족시키기 위해 키 프레임의 점수보다 훨씬 크게 되는 것을 요구하도록 저감될 수 있다.
블록(708)에 도시된 바와 같이, 가중된 현재 프레임 점수가 키 프레임 점수를 초과하는 경우에, 키 프레임은 현재 프레임으로 업데이팅될 수 있다. 이러한 업데이트는 예컨대 키 프레임으로서 출력된 프레임을 현재 프레임으로 대체하며 키 프레임으로서 현재 프레임을 출력하는 것을 포함할 수 있다. 가중된 현재 프레임 점수가 키 프레임 점수의 이하인 경우에, 키 프레임은 유지될 수 있다. 블록(710)에 도시된 바와 같이, 프레임 카운터가 증분될 수 있고, 세그먼트의 다음(지금의 현재) 프레임이 수신될 수 있으며, 프레임에 대한 가중된 점수가 현재 키 프레임의 점수(업데이팅된 대로)와 비교될 수 있는 프로세스가 그 후 세그먼트에서의 다른 프레임들에 대해 반복될 수 있다.
다양한 경우들에서, 세그먼트가 임계수를 초과하는 프레임들을 포함할 수 있으며, 이것이 긴 장면을 나타낼 수 있는 경우 키 프레임으로서 하나를 초과하는 프레임을 출력하는 것이 바람직할 수 있다. 따라서, 블록(712)에 도시된 바와 같이, 세그먼트 카운터가 임계수의 프레임들에 도달하는 경우에 키 프레임을 업데이팅하는 방법이 종료될 수 있다. 이와 관련하여, 세그먼트의 각각의 임계수의 프레임들은 임계수 미만의 임의의 잔여 프레임들이 또한 일부로 간주된 상태에서 세그먼트의 일부로 간주될 수 있다. 본 발명의 예시적 실시예들의 방법은 따라서 현재 키 프레임을 세그먼트의 제 1 부분의 키 프레임으로서 설정하며, 다음의 제 2 부분의 세그먼트에 대한 키 프레임을 식별하며 적절하다면 업데이팅을 수행하기 위해 도 6a, 6b 및 7의 방법들을 반복할 수 있다. 이러한 프로세스는 제 1 부분 이후의 하나 이상의 부분들에 대해 반복될 수 있지만, 일례에서 제 1 부분 이후의 각각의 부분에 대해 반복될 수 있다. 본 발명의 예시적 실시예들에 따라, 프로세스는 장치(300)의 긴 세그먼트 판단 모듈(308)에 의해서와 같은 프로세싱 장치(104)의 다양한 수단들에 의해 또한 수행될 수 있다.
본 발명의 예시적 실시예들은 서로 유사한 것으로 식별되는 키 프레임들을 그룹화하는 방법을 또한 제공할 수 있으며, 이것은 공통의 장면을 나타내는 세그먼트들을 나타낼 수 있다. 도 8(도 8a, 8b 및 8c를 포함함)은 본 발명의 예시적 실시예들에 따라 장치(300)의 키 프레임 그룹화 모듈(310)에 의해서와 같은 프로세싱 장치(104)의 다양한 수단들에 의해 수행될 수 있는 비디오 시퀀스의 키 프레임들을 그룹화하는 방법에서의 다양한 동작들의 흐름도를 도시한다. 일반적으로, 방법은 복수의 세그먼트들의 키 프레임들을 수신하는 단계 및 분석하는 단계, 그리고 분석에 기반하여, 유사한 키 프레임들을 그룹화하는 단계를 포함할 수 있다.
도 8a의 블록들(800 및 802)에 도시된 바와 같이, 방법은 현재 키 프레임 i k 및 이전 키 프레임 i k -n을 수신하는 단계를 포함할 수 있다. 전술한 것에서, 변수 n은 이전 키 프레임 카운터이고, 현재 키 프레임 이전의 다수의 키 프레임들을 나타내어 이에 의해 유사한 프레임(들)에 대한 검색 창을 한정하며, 다수의 다른 값들 중 임의로 초기화될 수 있다(예컨대, n = 3). 일례에서, 변수 n은 시간 슬롯에서 i k 로부터 추출된 이전 프레임들을 나타낼 수 있으며, 이것은 경험적 파라미터(예컨대, 마지막 2분)가 될 수 있다. 이전 키 프레임 카운터는 다양한 경우들에서 프레임들 또는 시간의 수의 면에서 고려될 수 있다. 키 프레임 인덱스(index) k가 1보다 큰 다수의 다른 값들 중 임의에서 초기화될 수 있으며, 하나의 예시적 실시예에서 값 n+1로 초기화될 수 있다.
현재 및 이전 키 프레임들 i k , i k -n을 수신한 후, 방법은 현재 및 이전 키 프레임들의 사진들의 하나 이상의 특성들의 값들을 계산하는 단계를 포함할 수 있다. 이러한 특성들은 예컨대 블록 히스토그램, 컬러 히스토그램 및 순서 시퀀스를 포함할 수 있으며, 그것들의 각각의 계산들은 도 8b의 블록들(804, 806, 및 808)에 도시된다.
프레임 사진의 블록 히스토그램(블록(804))은 일정수의 동등한 보다 작은 블록들(예컨대, 6개의 블록들)로 사진을 분할하며 각각의 블록에 대해 히스토그램 및 통계 특성들(예컨대, 평균 μ 및 분산 σ)을 계산함으로써 생성될 수 있다. 컬러 히스토그램과 마찬가지로, 사진의 블록 히스토그램은 동일한 강도 값들을 구비하는 블록의 다른 수들의 픽셀들을 나타낼 수 있다. 블록의 히스토그램은 동일한 강도 값을 갖는 블록의 픽셀들(예컨대, 그레이스케일화된 픽셀들)을 그룹화하며 동일한 값을 갖는 픽셀들의 수 대 그것들의 각각의 강도 값들을 나타냄으로써 계산될 수 있다. 평균 μ및 분산 σ과 같은 블록의 통계 특성들은 그 후 이하에 따라서와 같이 히스토그램으로부터 계산될 수 있다(히스토그램은 가우시안 분포(Gaussian distribution)를 따른다고 추정함):
Figure 112013061267572-pct00013
전술한 것에서, H( inten )는 강도 inten를 구비하는 사진 내에서의 픽셀들의 수의 합을 나타내며, 강도 I의 히스토그램 높이를 형성한다.
프레임 사진의 컬러 히스토그램 H(블록(806))은 사진의 RGB 구성 요소 컬러들이 양자화될 수 있는 위에 설명된 방식으로와 같은 다수의 다른 방식들로 계산될 수 있다. 컬러 히스토그램에 대한 통계 특성들(예컨대, 평균 μ 및 분산 σ)은 그 후 식 (13)과 유사한 방식으로와 같이 사진의 픽셀들에 걸쳐 양자화된 값 c로부터 계산될 수 있다.
프레임 사진의 순서 시퀀스(블록(808))를 계산하는 단계는 블록 히스토그램 계산된 보다 작은 블록들 및 각각의 블록에 대한 히스토그램 통계 특성들을 활용할 수 있다. 예컨대, 사진의 블록들은 최저 평균을 갖는 블록에서부터 최고 평균을 갖는 블록까지와 같이 그것들의 평균값들 μ에 따라 순위가 정해질 수 있다. 이것은 2개의 프레임들의 사진들에 대한 도 8에 도시된다. 도 9의 예에서, 사진들은 각각 최저 평균값에서부터 최고 평균값까지 그것들의 각각의 평균값들에 따라 1부터 6까지 순위가 정해질 수 있는 6개의 블록들을 포함한다. 도면에 도시된 상단 사진에 대해, 12와 214의 평균값들 구비하는 블록들은 각각 1과 6의 순위들이 할당될 수 있고; 하단 사진에 대해, 11과 255의 평균값들을 갖는 블록들은 각각 1과 6의 순위들이 할당될 수 있다. 사진들의 잔여 블록들은 마찬가지로 그것들의 각각의 평균값들에 따라 2-5의 순위들이 할당될 수 있다.
순서 시퀀스는 그 후 좌측에서 우측으로, 상단에서 하단으로와 같이 사진에서의 블록들의 순서로 블록들의 순위를 정렬하며; 그 정렬한 것에 블록들의 순위들의 반복된 정렬한 것을 연결함으로써 계산될 수 있다. 도 9의 예를 다시 참조하면, 좌측에서 우측으로, 상단에서 하단으로, 상단 사진의 블록들의 순위들이 이하와 같이 정렬되고 반복될 수 있다: 412635412635. 마찬가지로, 하단 사진의 블록들의 순위들이 이하와 같이 정렬되고 반복될 수 있다: 532461532461.
현재 및 이전 키 프레임들 i k , i k -n의 사진들 중의 하나 이상의 특성들의 값들을 계산하는 단계 후, 방법은 블록(810)에 도시된 바와 같이 각각의 프레임들의 특성들의 값들을 서로 비교하는 단계, 및 현재 키 프레임이 이전 키 프레임과 유사한지 여부의 판단을 용이하게 하기 위해 비교를 나타내는 하나 이상의 값들을 계산하는 단계를 포함할 수 있다. 현재 및 이전 키 프레임들 간의 비교 값들은 각각의 프레임들의 히스토그램 평균값들 간의 절대값 차(absolute difference) diff - mean를 포함할 수 있으며, 이것은 각각의 프레임들에 대해 프레임의 블록들의 평균들로부터 계산될 수 있다(블록(804)). 비교 값들은 추가적으로 또는 대안으로 프레임과 참조 프레임의 컬러 히스토그램 평균값들 간의 절대값 차 diff - color - mean를 포함할 수 있으며, 이것은 각각의 프레임에 대해 각각의 프레임들의 컬러 히스토그램들로부터 계산될 수 있다(블록(806)).
비교 값들은 추가적으로 또는 대안으로 현재 및 이전 키 프레임들 i k , i k -n 간의 순서 시퀀스 비교 order - seq를 포함할 수 있다. 순서 시퀀스 비교는 각각의 프레임들의 순서 시퀀스들 간의 최장 공통 서브시퀀스(longest common subsequence(LCS))를 계산하며(블록(808)) LCS에 계단 함수(staircase function)를 적용함으로써 계산될 수 있다. 제 1 시퀀스 X = (x 1 ,x 2 ,... x m )와 제 2 시퀀스 Y = (y 1 ,y 2 ,...y n )에 대한 LCS는 이하와 같이 계산될 수 있다:
Figure 112013061267572-pct00014
전술한 것에서, LCS(X i , Y j )는 프리픽스(prefix)들 X i Y j 의 최장 공통 서브시퀀스의 집합을 나타낸다. 예컨대 도 9에서 2개의 순서 시퀀스들 간의 LCS의 예가 도시된다.
현재 및 이전 키 프레임들 i k , i k -n 간의 비교를 나타내는 값들을 계산하는 단계 후, 방법은 블록(812)에 도시된 바와 같이 각각의 값들로부터 현재 키 프레임에 대한 판별 점수(discriminator score) S discriminator 를 계산하는 단계를 포함할 수 있다. 하나의 예시적 실시예에 있어서, 판별 점수는 이하에 따라서와 같이 비교 값들의 가중 합으로서 계산될 수 있다:
Figure 112013061267572-pct00015
전술한 것에서, w diff - mean , w diff - color - mean w order - seq 은 중량 계수들을 나타낸다. 이 계수들은 다수의 다른 방식들로 선택될 수 있고, 하나의 예시적 실시예에 있어서 이하의 조건에 종속된다: w diff - mean +w diff - color - mean +w order - seq = 1. 또한, 하나의 예시적 실시예에 있어서, 각각의 프레임들의 히스토그램 및 컬러 히스토그램 평균값들 간의 차이들 diff - meandiff - color - mean이 상단 및 하단에 계단들을 갖는 선형 함수들로서 계산될 수 있다. 이러한 예에서, 소정의 하위 값 미만의 차이들은 소정의 하위 값으로 설정되고, 소정의 상위 값을 초과하는 차이들은 소정의 상위 값으로 설정된다.
판별 점수 S discriminator 를 계산하는 단계 후, 방법은, 블록(814)에 도시된 바와 같이, 판별 점수를 소정의 임계값과 비교하는 단계를 포함할 수 있다. 판별 점수가 소정의 임계값을 초과하는 경우에, 현재 키 프레임은 이전 키 프레임과 다른 것으로 식별될 수 있으며 프레임들은 함께 그룹화될 수 없다. 도 8c에 도시된 바와 같이, 다른 이전 키 프레임들 i m (k-n m k-1)이 현재 및 이전 키 프레임들 i k ,i k -n 간에 위치되는 경우들에서, 블록들(822, 824 및 802)에 도시된 바와 같이, 이전 키 프레임 카운터 n가 증분될 수 있으며, 다음의 이전 키 프레임이 수신될 수 있다. 프로세스는 그 후 현재 키 프레임에 관련하여 다음의 이전 키 프레임(단지 지금의 이전 키 프레임)에 대해 반복될 수 있다. 그러나, 어떤 다른 이전 키 프레임들도 현재 및 이전 키 프레임들 간에 위치되지 않는 경우들에서, 블록들(826, 828 및 830)에 도시된 바와 같이, 현재 키 프레임을 추종하는 임의의 키 프레임들에 대해 이전 키 프레임 카운터 n가 재설정될 수 있고, 키 프레임 카운터 i k 가 증분될 있으며, 전체 프로세스는 그것의 이전 키 프레임(들)에 관련하여 다음 키 프레임(지금의 현재 키 프레임)에 대해 반복될 수 있다.
도 8a를 다시 참조하면, 판별 점수 S discriminator 가 소정의 임계값 이하에 있는 경우에, 블록(816)에 도시된 바와 같이 현재 키 프레임 i k 및 이전 키 프레임 i k -n은 이전 키 프레임이 이미 키 프레임들의 그룹의 일부인지 여부에 따라 함께 그룹화될 수 있다. 이전 키 프레임 i k -n이 이미 그룹의 일부인 경우에, 블록(818)에 도시된 바와 같이, 현재 키 프레임 i k 은 그룹에 추가될 수 있다. 대안으로, 이전 키 프레임 i k -n이 아직 그룹의 일부가 아닌 경우에, 블록(820)에 그리고 예시적으로 도 10에 도시된 바와 같이 현재 및 이전 키 프레임들 i k , i k -n은 현재 및 이전 키 프레임들 i k , i k -n 간의 임의의 개재 키 프레임들 i m (k-nmk-1)과 함께 그룹화될 수 있다. 현재 및 이전 프레임(들)을 그룹화하는 것 중의 어느 하나의 경우에, 전체 프로세스는 그 후 현재 키 프레임을 추종하는 임의의 키 프레임들에 대해 반복될 수 있다. 즉, 도 8c의 블록들(826, 828 및 830)에 도시된 바와 같이, 이전 키 프레임 카운터 n이 재설정될 수 있고, 키 프레임 카운터 i k 가 증분될 수 있으며, 전체 프로세스는 그것의 이전 키 프레임(들)에 관련하여 다음 키 프레임(지금의 현재 키 프레임)에 대해 반복될 수 있다.
본 발명의 예시적 실시예들은 또한 상술한 바와 같이 키 프레임으로서 식별된 프레임에 추가하여 또는 이것 대신에, 비디오 시퀀스의 세그먼트의 프레임의 키 프레임으로서의 사용자 선택을 허용할 수 있다. 도 11(도 11a 및 11 b를 포함함)은 본 발명의 예시적 실시예들에 따라 장치(300)의 수동 태깅 모듈(312)에 의해서와 같은 프로세싱 장치(104)의 다양한 수단들에 의해 수행될 수 있는 비디오 시퀀스의 세그먼트의 키 프레임의 선택을 수신하며 이것으로서 선택된 프레임을 출력하는 방법에서의 다양한 동작들의 흐름도들을 도시한다. 도시된 바와 같이, 방법은 그것들의 점수 S와 함께 비디오 시퀀스의 캐싱 프레임들을 포함할 수 있다. 특히, 예컨대, 블록들(1100, 1102, 1104 및 1106)에 도시된 바와 같이, 방법은 프레임 카운터 i를 초기화하는 단계, 현재 프레임 i을 수신하는 단계, 현재 프레임에 대한 점수를 계산하거나 그렇지 않으면 수신하는 단계 및 현재 프레임과 그것의 점수를 캐싱하는 단계를 포함할 수 있다. 점수는 예컨대 식 (11)에 대해 상술한 것과 유사한 방식으로 계산되거나, 장치(300)의 키 프레임 추출기(304)로부터와 같이 수신될 수 있다.
프레임들 및 그것들의 점수들을 캐싱하는 프로세스는 비디오 세그먼트 또는 그렇지 않으면 비디오 시퀀스의 각 프레임에 대해 반복될 수 있다. 그러나, 하나의 예시적 실시예에 있어서, 블록들(1108 및 1110)에 도시된 바와 같이, 프로세스가 각각의 r번째 프레임이 반복되도록 프로세스는 낮은 샘플링 주파수를 가지면서 반복될 수 있다. 샘플링 구간 r은 다수의 다른 방식들로 선택될 수 있지만, 일례에서, 5의 샘플링 구간이 선택되어 각각의 다섯 번째 프레임 및 그것의 점수가 캐싱될 수 있다.
비디오 시퀀스의 프레임들이 수신되고 프레임들 및 그것들의 점수들의 일부 또는 모두가 캐싱될 때, 블록들(1112 및 1114)에서 도시된 바와 같이 프레임 t 동안 사용자의 선택이 수신될 수 있으며, 그것에 응답하여 프레임 t에서의 또는 이것에 가장 근접한 캐싱된 프레임 d이 위치될 수 있다. 이러한 프레임 d은 비디오 시퀀스 또는 비디오 시퀀스의 세그먼트의 키 프레임으로서 출력될 수 있지만, 하나의 예시적 실시예에 있어서, 보다 적절한 프레임이 대신에 키 프레임으로서 출력될 수 있다. 이와 관련하여, 방법은 또한 블록(1116)에 도시된 바와 같이 프레임 d까지 소정수의 캐싱된 프레임들까지 위치시키는 단계를 포함할 수 있다. 이러한 추가적으로 위치된 캐싱된 프레임들은 인덱스 d-(r×u)에 의해 표현될 수 있으며, 여기서 u = 1,2,...,U이다. 일례에서, 프레임들의 다른 수들도 또한 가능하지만, 소정수의 프레임들은 6으로 설정될 수 있다.
캐싱된 프레임들을 위치시키는 단계 후, 블록(1118)에 도시된 바와 같이 위치된 캐싱된 프레임들의 점수들이 최고 점수를 가진 것을 식별하기 위해 비교될 수 있다. 최고 점수를 갖는 위치된 캐싱된 프레임은, 블록(1120)에 도시된 바와 같이, 그 후 시퀀스 또는 시퀀스의 세그먼트에 대한 키 프레임으로서 출력될 수 있다. 다양한 경우들에서, 프레임은 세그먼트 또는 시퀀스에 대한 다른 키 프레임에 추가하여 또는 이것에 대신하여 키 프레임으로서 출력될 수 있다.
상술한 바와 같이, 비디오 시퀀스의 하나 이상이 프레임들은 키 프레임들로 출력될 수 있으며, 이것의 하나 이상이 고속 브라우징, 태깅, 요약 등과 같은 다양한 경우들에서 업데이팅될 수 있다. 키 프레임들은 다수의 다른 방식들 중 임의의 것으로 장치(100)(예컨대, 장치(200))의 메모리 디바이스(예컨대, 메모리 디바이스(204))으로와 같이 출력/업데이팅될 수 있다. 추가적으로 또는 대안으로, 예컨대 키 프레임들이 장치의 사용자 인터페이스(예컨대, 사용자 인터페이스(210))의 디스플레이로 출력/업데이팅될 수 있다. 이와 관련하여, 도 12-15는 본 발명의 예시적 실시예들에 따른 장치에 의해 제공될 수 있는 예시적 디스플레이들이다. 도 12-14의 디스플레이들은 특히 이미지 캡처 디바이스(비디오 소스(102))에 의해 비디오 시퀀스를 캡처링하는 동안 제공될 수 있다. 그러나, 동일한 또는 유사한 디스플레이들이 이전에 캡처링된 비디오 시퀀스의 수신 동안 동등하게 제공될 수 있다는 것이 이해되어야 한다.
도 12를 참조하면, 비디오 시퀀스가 캡처링되거나 그렇지 않으면 수신될 때, 장치는 비디오 시퀀스(1200)를-또는 오히려 비디오 시퀀스의 프레임들을- 장치(100)의 디스플레이로 출력할 수 있다. 디스플레이로 비디오 시퀀스를 출력하는 것에 더하여, 장치는 또한 비디오 시퀀스 디스플레이를 오버레잉(overlaying)할 수 있는 키 프레임(들)의 섬네일들의 형태와 같이 디스플레이로 비디오 시퀀스의 키 프레임(들)을 출력할 수 있다. 이와 관련하여, 도 12는 2개의 키 프레임들(1202a, 1202b)의 섬네일들을 도시한다. 도시된 키 프레임들은 비디오 시퀀스의 다른 세그먼트들의 키 프레임들일 수 있거나, 비디오 시퀀스의 동일한 긴 세그먼트의 키 프레임들일 수 있으며, 이것들 중 어느 하나 또는 양자는 사용자에 의해 수동으로 선택되었을 수 있다. 또한, 장치가 키 프레임들을 식별하거나 사용자가 수동으로 키 프레임들을 선택할 때 키 프레임들이 디스플레이로 출력될 수 있다.
도 13(도 13a-13d를 포함함)은 본 발명의 예시적 실시예들에 따라 장치(100)에 의해 제공될 수 있는 디스플레이들의 시퀀스를 도시하며, 디스플레이들은 키 프레임 추출을 예시하며 예시적 실시예들의 양태들을 업데이팅한다. 도 13a에 도시된 바와 같이, 비디오 시퀀스가 캡처링되거나 그렇지 않으면 수신될 때, 장치는 비디오 시퀀스(1300) 및 시퀀스의 세그먼트의 키 프레임(1302a)의 섬네일을 장치의 디스플레이로 출력할 수 있다. 세그먼트가 긴 세그먼트라는 것을 검출하는 것 또는 그렇지 않으면 신규의 세그먼트를 검출하는 것에 응답하여, 도 13b에 도시된 바와 같이 장치는 다른 키 프레임을 식별하며 다른 키 프레임(1302b)의 섬네일을 디스플레이로 출력할 수 있다.
키 프레임(1302b)을 추종하는 또 다른 프레임이 세그먼트를 보다 더 표현할 수 있을 때, 장치는 하나 이상의 경우들에서 각각의 키 프레임을 세그먼트의 추가적인 프레임들로 업데이팅할 수 있다. 이러한 추가적인 프레임들 중 제 1의 것은 현재 키 프레임을 대체할 수 있으며, 임의의 후속의 추가적인 프레임들은 그것 이전의 그 후 현재의 키 프레임을 대체할 수 있다. 따라서, 예컨대 도 13c는 키 프레임(1302b)을 다른 후속 프레임(1302b')으로 업데이팅하며 현재 키 프레임의 섬네일을 업데이팅된 키 프레임의 것으로 대체하는 장치를 도시한다. 마찬가지로, 예컨대 도 13d는 키 프레임(1302b')을 다른 후속 프레임(1302b")으로 업데이팅하며 이전의 업데이팅된(그리고 그 후 현재의)키 프레임의 섬네일을 현재 업데이팅된 키 프레임의 것으로 대체하는 장치를 도시한다.
도 14(도 14a 및 14b 를 포함함)는 본 발명의 예시적 실시예들에 따른 장치(100)에 의해 제공될 수 있는 디스플레이들의 시퀀스를 도시하며, 디스플레이들은 키 프레임 추출을 예시하며 예시적 실시예들의 양태들을 업데이팅한다. 도 13a의 디스플레이와 마찬가지로, 도 14a에 도시된 바와 같이, 비디오 시퀀스가 캡처링되거나 그렇지 않으면 수신됨에 따라, 장치는 비디오 시퀀스(1400) 및 시퀀스의 세그먼트의 키 프레임(1402a)의 섬네일을 장치의 디스플레이로 출력할 수 있다. "태그(Tag)" 소프트 키를 실행함으로써와 같이 프레임의 사용자 선택 또는 사용자 선택을 반영하는 다른 입력에 응답하여, 도 14b에 도시된 바와 같이, 장치는 다른 키 프레임을 식별하고 출력하며, 다른 키 프레임(1402b)의 섬네일을 디스플레이로 출력할 수 있다.
도 15(도 15a, 15b 및 15c를 포함함)는 본 발명의 예시적 실시예들에 따른 장치(100)에 의해 제공될 수 있는 디스플레이들의 시퀀스를 도시하며, 디스플레이들은 키 프레임들의 브라우징의 양태들 및 하나 이상의 비디오 시퀀스들의 세그먼트들의 키 프레임들의 그룹들을 도시한다. 도 15a에 도시된 바와 같이, 장치는 하나 이상의 비디오 시퀀스들 중의 하나 이상의 세그먼트들의 키 프레임들의 섬네일들(1500)을 포함하는 디스플레이를 제공할 수 있다. 장치는 비디오 시퀀스(들)의 모든 키 프레임들을 제공할 수 있거나, 하나 이상의 복수들의 키 프레임들이 함께 그룹화되는 일례에서 장치는 각각의 하나 이상의 그룹들 중의 키 프레임들의 모두보다 적은 것을 제공할 수 있다. 마찬가지로, 다수의 비디오 시퀀스들을 포함하는 경우들에서, 장치는 시퀀스들의 키 프레임들의 모두를 제공할 수 있거나, 일례에서 장치는 각각의 하나 이상의 시퀀스들 중의 키 프레임들의 적어도 하나지만 모두 보다는 적은 것을 제공할 수 있다.
사용자는 섬네일 디스플레이(1500)에서의 키 프레임들 중 하나를 선택할 수 있다. 도 15b에 도시된 바와 같이, 키 프레임들 중의 하나의 사용자 선택에 응답하여, 장치는 섬네일 디스플레이(1500)로의 오버레이에서와 같이 선택된 키 프레임 및 그것과 연관된 임의의 키 프레임들을 포함하는 제 2의 서브디스플레이의 디스플레이(1502)를 제공할 수 있다. 연관된 키 프레임들은 다양한 경우들에서 동일한 시퀀스, 세그먼트 또는 그룹의 키 프레임들일 수 있다
섬네일 디스플레이(1500)에서의 키 프레임들 중 하나를 사용자가 선택하는 것과 유사한 방식으로, 사용자는 서브디스플레이(1502)에서 키 프레임들 중 하나를 선택할 수 있다. 이에 대응하여, 장치는 도 15c에 도시된 바와 같이 선택된 키 프레임의 지점에서 시작하는 선택된 키 프레임을 포함하는 비디오 시퀀스(1504)를 디스플레이하는 것을 시작할 수 있다. 원한다면, 장치는 키 프레임들의 서브디스플레이를 유지할 수 있지만, 도 15c에 또한 도시된 바와 같이, 일례에서 다른 위치로 서브디스플레이를 이동시킬 수 있다.
본 발명의 예시적 실시예들의 하나의 양태에 따라, 도 4, 6-8 및 11의 흐름도들에 의해 도시된 것들과 같은 프로세싱 장치(104), 장치(200) 및/또는 장치(300)에 의해 수행되는 기능들은 다양한 수단들에 의해 수행될 수 있다. 흐름도들의 각각의 블록 또는 동작, 및/또는 흐름도들에서의 블록들 또는 동작들의 조합들이 다양한 수단들에 의해 구현될 수 있다는 것이 이해될 것이다. 흐름도들의 블록들 또는 동작들, 흐름도들에서의 블록들 또는 동작들의 조합들, 또는 본 명세서에서 설명된 본 발명의 예시적 실시예들의 다른 기능을 구현하기 위한 수단들은 단독으로 또는 하나 이상의 컴퓨터 프로그램 코드 명령어들의 지시하에서 하드웨어, 프로그램 명령어들 또는 컴퓨터 판독 가능 저장 매체로부터 실행 가능한 컴퓨터 판독 가능 프로그램 코드 명령어들을 포함할 수 있다. 이와 관련하여, 프로그램 코드 명령어들은 예시적 장치의 메모리 디바이스(204)와 같은 메모리 디바이스 상에 저장되며, 예시적 장치의 프로세서(202)와 같은 프로세서에 의해 실행될 수 있다. 이해되는 바와 같이, 임의의 이러한 프로그램 코드 명령어들은 특정 기계 장치를 형성하도록 컴퓨터 판독 가능 저장 매체로부터 컴퓨터 또는 다른 프로그램 가능 장치(예컨대 프로세서, 메모리 디바이스 등) 상에 로딩될 수 있어서, 그 결과 특정 기계 장치는 흐름도들의 블록(들) 또는 동작(들)로 지정된 기능들을 구현하기 위한 수단들이 된다. 이러한 프로그램 코드 명령어들은 또한 컴퓨터, 프로세서, 또는 다른 프로그램 가능 장치가 특정 방식으로 기능하도록 지시할 수 있는 컴퓨터 판독 가능 저장 매체에 저장되어 이에 의해 특정 기계 장치 또는 제품의 특정 물품을 형성할 수 있다. 컴퓨터 판독 가능 저장 매체에 저장되는 명령어들은 제품의 물품을 형성할 수 있으며, 여기서 제품의 물품은 흐름도들의 블록(들) 또는 동작(들)로 지정된 기능들을 구현하기 위한 수단이 된다. 프로그램 코드 명령어들은 컴퓨터 판독 가능 저장 매체로부터 검색되고, 컴퓨터, 프로세서, 또는 다른 프로그램 가능 장치로 로딩되어, 컴퓨터, 프로세서, 또는 다른 프로그램 가능 장치가 컴퓨터, 프로세서, 또는 다른 프로그램 가능 장치 상에서 또는 이들에 의해 수행될 동작들을 실행하도록 구성할 수 있다. 프로그램 코드 명령어들의 검색, 로딩, 및 실행은 하나의 명령어가 한번에 검색되고, 로딩되며, 실행되도록 순차적으로 수행될 수 있다. 일부 예시적 실시예들에 있어서, 검색, 로딩 및/또는 실행은 다수의 명령어들이 함께 검색, 로딩, 및/또는 실행되도록 병렬로 수행될 수 있다. 프로그램 코드 명령어들의 실행은 컴퓨터, 프로세서 또는 다른 프로그램 가능 장치에 의해 실행되는 명령어들이 흐름도들의 블록(들) 또는 동작(들)에서 지정된 기능들을 구현하기 위한 동작들을 제공하도록 컴퓨터 구현 프로세스를 생성할 수 있다.
따라서, 프로세서에 의한 흐름도들의 블록들 또는 동작들과 연관된 명령어들의 실행, 또는 컴퓨터 판독 가능 저장 매체에서의 흐름도들의 블록들 또는 동작들과 연관된 명령어들의 저장은 지정된 기능들을 수행하기 위한 동작들의 조합들을 지원한다. 또한 흐름도들의 하나 이상의 블록들 또는 동작들, 및 흐름도들에서의 블록들 또는 동작들의 조합들이 지정된 기능들을 수행하는 특수 목적 하드웨어 기반 컴퓨터 시스템들 및/또는 프로세서들, 또는 특수 목적의 하드웨어 및 프로그램 코드 명령어들의 조합들에 의해 구현될 수 있다는 것이 이해될 것이다.
본 명세서에서 설명된 발명들의 많은 변경들 및 다른 실시예들은 이 발명들이 전술한 설명들 및 관련된 도면들에서 제공된 교시들의 이익을 보유하면서 당업자에게 상기될 것이다. 따라서 발명들이 개시된 특정 실시예들에 한정되지 않아야 하며 변경들 및 다른 실시예들이 첨부된 청구항들의 범위 내에 포함되도록 의도된다는 것이 이해되어야 한다. 또한, 전술한 설명들 및 연관된 도면들이 요소들 및/또는 기능들의 특정 예시적 조합들의 맥락에서 예시적 실시예들을 설명하지만, 요소들 및/또는 기능들의 다른 조합들이 첨부된 청구범위로부터 벗어나지 않으면서 대안적 실시예들에 의해 제공될 수 있다는 것이 이해되어야 한다. 이와 관련하여, 예컨대 위에 명시적으로 설명된 것들이 아닌 요소들 및/또는 기능들의 다른 조합들이 또한 첨부된 청구범위의 일부로 설명될 수 있는 것으로 이해된다. 특정 용어들이 본 명세서에서 사용되었지만, 그것들은 단지 포괄적인 그리고 기술적인 의미로 사용되며 제한의 목적으로 사용되지 않는다.

Claims (40)

  1. 비디오 시퀀스로부터 키 프레임을 식별하는 장치 -상기 비디오 시퀀스는 긴 세그먼트(long segment) 또는 복수의 세그먼트 중 적어도 하나를 포함하되, 복수의 세그먼트의 각각은 복수의 프레임을 포함함- 로서,
    적어도 하나의 프로세서와,
    컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 포함하며,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 사용하여 상기 장치로 하여금, 적어도
    상기 비디오 시퀀스를 수신하고, 상기 프레임의 적어도 일부의 각각이 수신될 때 그러나 상기 프레임의 모두가 수신되기 전에
    상기 프레임의 사진의 하나 이상의 특성(properties)의 각각의 값의 함수로서 상기 프레임에 대한 점수(score)를 계산하고,
    상기 프레임에 대한 상기 점수를 소정의 임계값과 비교하며,
    상기 프레임이 지정된 기간 내에서 수신되고 상기 프레임에 대한 상기 점수가 상기 소정의 임계값을 초과하는 경우에 상기 프레임을 키 프레임으로서 출력시키거나, 또는 그렇지 않으면
    상기 지정된 기간 내에서 수신된 프레임에 대한 상기 점수 중 어떤 것도 상기 소정의 임계값을 초과하지 않는 경우에 키 프레임으로서 상기 지정된 기간 내에서 수신된 프레임 중 하나의 프레임- 상기 하나의 프레임은 상기 지정된 기간 내에서 수신된 프레임 중의 최고 점수를 갖는 프레임임- 을 출력시키고,
    상기 세그먼트의 적어도 일부를 검출하게 하도록 구성되되, 상기 검출하는 것은
    하나 이상의 연속적인 쌍의 프레임의 사진 간의 프레임간 차이를 계산하는 것 - 상기 프레임간 차이는 상기 각각의 프레임의 상기 사진의 하나 이상의 제 2 특성의 각각의 값의 함수로서 계산됨 - 과,
    상기 프레임간 차이가 제 2 임계값을 초과하는 경우에 한 쌍의 프레임을 세그먼트 간의 경계로서 식별하여 하나의 세그먼트의 종료 및 다음 세그먼트의 시작을 검출하는 것을 포함하는
    키 프레임 식별 장치.
  2. 제1항에 있어서,
    상기 하나 이상의 특성은 상기 프레임의 사진의 휘도(luminance), 에지(edge)점 검출, 그레이스케일 엔트로피(grayscale entropy) 또는 컬러 엔트로피 중 하나 이상을 포함하는
    키 프레임 식별 장치.
  3. 제1항 또는 제2항에 있어서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 또한 상기 적어도 하나의 프로세서를 사용하여 그리고 상기 프레임의 적어도 일부의 각각이 상기 키 프레임의 출력 후 수신될 때 상기 장치로 하여금
    상기 프레임에 대한 상기 점수를 계산하고,
    상기 프레임에 대한 가중된 점수를 상기 키 프레임에 대한 상기 점수와 비교하되, 상기 가중된 점수는 중량 계수에 의해 가중된 상기 프레임에 대한 상기 점수를 포함하며,
    상기 프레임에 대한 가중된 점수가 상기 키 프레임에 대한 상기 점수보다 큰 경우에 상기 프레임으로 상기 키 프레임의 업데이팅을 발생시키게 하도록 구성되는
    키 프레임 식별 장치.
  4. 제1항 또는 제2항에 있어서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 사용하여 상기 장치로 하여금 또한
    키 프레임으로서 상기 비디오 시퀀스의 수신된 프레임을 선택하기 위해 사용자 입력을 수신하되, 상기 사용자 입력은 상기 비디오 시퀀스의 상기 프레임이 모두 수신되기 전에 수신되며, 이것에 응답하여
    상기 수신된 프레임 중 하나를 키 프레임으로서 출력시키도록 구성되는
    키 프레임 식별 장치.
  5. 제4항에 있어서,
    상기 장치로 하여금 상기 수신된 프레임 중 하나를 출력시키도록 구성된 것은 상기 장치로 하여금 복수의 상기 수신된 프레임 중 최고 점수를 갖는 수신된 프레임 중 하나를 출력시키도록 구성되는 것을 포함하는
    키 프레임 식별 장치.

  6. 제1항 또는 제2항에 있어서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 사용하여 상기 장치로 하여금 점수를 계산하고, 상기 점수를 비교하며, 상기 프레임에 대한 상기 점수가 상기 소정의 임계값을 초과하는 경우에 상기 프레임을 키 프레임으로서 출력시키거나 상기 긴 세그먼트에 대한 또는 상기 비디오 시퀀스의 상기 세그먼트 중 적어도 일부의 각각에 대한 복수의 경우에 지정된 기간 내에서 수신된 상기 프레임 중 하나를 출력시키도록 구성되는
    키 프레임 식별 장치.
  7. 삭제
  8. 제1항에 있어서,
    상기 장치로 하여금 한 쌍의 프레임을 세그먼트 간의 경계로서 식별하게 하도록 구성되는 것은, 상기 장치로 하여금
    상기 프레임간 차이가 상기 제 2 임계값을 초과하는 경우에 세그먼트 간의 잠재적 경계로서 한 쌍의 프레임을 식별하고,
    상기 식별된 쌍의 프레임 또는 상기 식별된 쌍의 프레임 이후의 하나 이상의 연속적인 쌍의 프레임 중 적어도 하나에 대한 모션(motion) 정보를 계산하며,
    적어도 하나가 상기 모션 정보의 함수인 하나 이상의 조건을 상기 프레임의 쌍이 만족시키는 경우에 상기 프레임의 쌍을 세그먼트 간의 실제 경계로서 식별하도록 구성되는 것을 포함하는
    키 프레임 식별 장치.

  9. 제6항에 있어서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 사용하여 상기 장치로 하여금 또한
    각각의 상기 복수의 프레임 중 적어도 2개가 서로 유사한 것으로 식별하는 것에 기반하여 키 프레임으로서 출력된 적어도 하나의 복수의 프레임을 그룹화하게 하도록 더 구성되되, 상기 각각의 프레임은 상기 각각의 프레임의 사진의 하나 이상의 제 3 특성의 값에 기반하여 유사한 것으로 식별되는
    키 프레임 식별 장치.
  10. 제9항에 있어서,
    상기 하나 이상의 제 3 특성은 블록 히스토그램(block histogram), 컬러 히스토그램 또는 순서 시퀀스 중 하나 이상을 포함하는
    키 프레임 식별 장치.
  11. 비디오 시퀀스로부터 키 프레임을 식별하는 장치 -상기 비디오 시퀀스는 긴 세그먼트(long segment) 또는 복수의 세그먼트 중 적어도 하나를 포함하되, 복수의 세그먼트의 각각은 복수의 프레임을 포함함- 로서,
    상기 비디오 시퀀스를 수신하기 위한 수단과,
    상기 프레임의 적어도 일부의 각각이 수신될 때 그러나 상기 프레임의 모두가 수신되기 전에
    상기 프레임의 사진의 각각의 하나 이상의 특성의 값의 함수로서 상기 프레임에 대한 점수를 계산하기 위한 수단과,
    상기 프레임에 대한 상기 점수를 소정의 임계값과 비교하기 위한 수단과,
    상기 프레임이 지정된 기간 내에서 수신되며 상기 프레임에 대한 상기 점수가 상기 소정의 임계값을 초과하는 경우에 키 프레임으로서 상기 프레임을 출력시키기 위한 수단과,
    상기 지정된 기간 내에서 수신된 프레임에 대한 상기 점수 중 어떤 것도 상기 소정의 임계값을 초과하지 않는 경우에 키 프레임으로서 상기 지정된 기간 내에서 수신된 프레임 중 하나의 프레임 - 상기 하나의 프레임은 상기 지정된 기간 내에서 수신된 프레임 중의 최고 점수를 갖는 프레임임- 을 출력시키기 위한 수단과,
    하나 이상의 연속적인 쌍의 프레임의 사진 간의 프레임간 차이를 계산하는 수단 - 상기 프레임간 차이는 상기 각각의 프레임의 상기 사진의 각각의 하나 이상의 제 2 특성의 값의 함수로서 계산됨 - 과,
    상기 프레임간 차이가 제 2 임계값을 초과하는 경우에 한 쌍의 프레임을 세그먼트 간의 경계로서 식별하여 하나의 세그먼트의 종료 및 다음 세그먼트의 시작을 검출하기 위한 수단을 포함하는
    키 프레임 식별 장치.
  12. 제11항에 있어서,
    상기 하나 이상의 특성은 상기 프레임의 사진의 휘도, 에지점 검출, 그레이스케일 엔트로피 또는 컬러 엔트로피 중 하나 이상을 포함하는
    키 프레임 식별 장치.

  13. 제11항 또는 제12항에 있어서,
    상기 프레임의 적어도 일부의 각각이 상기 키 프레임의 출력 후 수신될 때, 다수의 기능을 수행하기 위한 다수의 수단을 더 포함하되, 상기 다수의 수단 중 각각의 수단은
    상기 프레임에 대한 상기 점수를 계산하기 위한 수단과,
    상기 프레임에 대한 가중된 점수를 상기 키 프레임에 대한 상기 점수와 비교하되, 상기 가중된 점수는 중량 계수에 의해 가중된 상기 프레임에 대한 상기 점수를 포함하는 수단과,
    상기 프레임에 대한 가중된 점수가 상기 키 프레임에 대한 상기 점수보다 큰 경우에 상기 프레임으로 상기 키 프레임의 업데이팅을 발생시키기 위한 수단을 포함하는
    키 프레임 식별 장치.
  14. 제11항 또는 제12항에 있어서,
    키 프레임으로서 상기 비디오 시퀀스의 수신된 프레임을 선택하기 위해 사용자 입력을 수신하는 수단 - 상기 사용자 입력은 상기 비디오 시퀀스의 상기 프레임의 모두가 수신되기 전에 수신됨 - 과,
    상기 사용자 입력의 수신에 응답하여 키 프레임으로서 상기 수신된 프레임 중 하나를 출력시키기 위한 수단을 더 포함하는
    키 프레임 식별 장치.
  15. 제14항에 있어서,
    상기 수신된 프레임 중 하나를 출력시키기 위한 상기 수단은 복수의 상기 수신된 프레임 중 최고 점수를 갖는 수신된 프레임 중 하나를 출력시키기 위한 수단을 포함하는
    키 프레임 식별 장치.
  16. 제11항 또는 제12항에 있어서,
    점수를 계산하고, 상기 점수를 비교하며, 상기 프레임에 대한 상기 점수가 상기 소정의 임계값을 초과하는 경우에 키 프레임으로서 상기 프레임을 출력시키거나 지정된 기간 내에서 수신된 상기 프레임 중 하나를 출력시키기 위한 상기 수단들은 상기 긴 세그먼트에 대한 또는 상기 비디오 시퀀스의 상기 세그먼트 중 적어도 일부의 각각에 대한 복수의 경우에 그렇게 하기 위한 것인
    키 프레임 식별 장치.
  17. 삭제
  18. 제11항에 있어서,
    한 쌍의 프레임을 세그먼트 간의 경계로서 식별하기 위한 상기 수단은
    상기 프레임간 차이가 상기 제 2 임계값을 초과하는 경우에 세그먼트 간의 잠재적 경계로서 한 쌍의 프레임을 식별하고,
    상기 식별된 쌍의 프레임 또는 상기 식별된 쌍의 프레임 이후의 하나 이상의 연속적인 쌍의 프레임 중 적어도 하나에 대한 모션 정보를 계산하며,
    적어도 하나가 상기 모션 정보의 함수인 하나 이상의 조건을 상기 프레임의 쌍이 만족시키는 경우에 상기 프레임의 쌍을 세그먼트 간의 실제 경계로서 식별하기 위한 수단을 포함하는
    키 프레임 식별 장치.
  19. 제16항에 있어서,
    각각의 상기 복수의 상기 프레임 중 적어도 2개가 유사하다는 식별에 기반하여 키 프레임으로서 출력된 적어도 하나의 복수의 프레임을 그룹화하되, 상기 각각의 프레임은 상기 각각의 프레임의 사진의 하나 이상의 제 3 특성의 값에 기반하여 유사한 것으로 식별되는 수단을 더 포함하는
    키 프레임 식별 장치.
  20. 제19항에 있어서,
    상기 하나 이상의 제 3 특성은 블록 히스토그램, 컬러 히스토그램 또는 순서 시퀀스 중 하나 이상을 포함하는
    키 프레임 식별 장치.

  21. 비디오 시퀀스로부터 키 프레임을 식별하는 방법 -상기 비디오 시퀀스는 긴 세그먼트(long segment) 또는 복수의 세그먼트 중 적어도 하나를 포함하되, 복수의 세그먼트의 각각은 복수의 프레임을 포함함- 으로서,
    상기 비디오 시퀀스를 수신하는 단계와,
    상기 프레임의 적어도 일부의 각각이 수신될 때 그러나 상기 프레임의 모두가 수신되기 전에
    상기 프레임의 사진의 각각의 하나 이상의 특성의 값의 함수로서 상기 프레임에 대한 점수를 계산하는 단계와,
    상기 프레임에 대한 상기 점수를 소정의 임계값과 비교하는 단계와,
    상기 프레임이 지정된 기간 내에서 수신되고 상기 프레임에 대한 상기 점수가 상기 소정의 임계값을 초과하는 경우에 키 프레임으로서 상기 프레임을 출력시키는 단계와, 또는 그렇지 않으면
    상기 지정된 기간 내에서 수신된 프레임에 대한 상기 점수 중 어떤 것도 상기 소정의 임계값을 초과하지 않는 경우에 키 프레임으로서 상기 지정된 기간 내에서 수신된 프레임 중 하나의 프레임 - 상기 하나의 프레임은 상기 지정된 기간 내에서 수신된 프레임 중의 최고 점수를 갖는 프레임임 - 을 출력시키는 단계와,
    상기 세그먼트의 적어도 일부를 검출하는 단계를 포함하되, 상기 세그먼트의 적어도 일부를 검출하는 단계는
    하나 이상의 연속적인 쌍의 프레임의 사진 간의 프레임간 차이를 계산하되, 상기 프레임간 차이는 상기 각각의 프레임의 상기 사진의 각각의 하나 이상의 제 2 특성의 값의 함수로서 계산되는 단계와,
    상기 프레임간 차이가 제 2 임계값을 초과하는 경우에 한 쌍의 프레임을 세그먼트 간의 경계로서 식별하여 하나의 세그먼트의 종료 및 다음 세그먼트의 시작을 검출하는 단계를 포함하는
    키 프레임 식별 방법.
  22. 제21항에 있어서,
    상기 하나 이상의 특성은 상기 프레임의 사진의 휘도, 에지점 검출, 그레이스케일 엔트로피 또는 컬러 엔트로피 중 하나 이상을 포함하는
    키 프레임 식별 방법.
  23. 제21항 또는 제22항에 있어서,
    상기 프레임의 적어도 일부의 각각이 상기 키 프레임의 출력 후에 수신될 때, 상기 방법은
    상기 프레임에 대한 상기 점수를 계산하는 단계와,
    상기 프레임에 대한 가중된 점수를 상기 키 프레임에 대한 상기 점수와 비교하되, 상기 가중된 점수는 중량 계수에 의해 가중된 상기 프레임에 대한 상기 점수를 포함하는 단계와,
    상기 프레임에 대한 가중된 점수가 상기 키 프레임에 대한 상기 점수보다 큰 경우에 상기 프레임으로 상기 키 프레임의 업데이팅을 발생시키는 단계를 더 포함하는
    키 프레임 식별 방법.
  24. 제21항 또는 제22항에 있어서,
    키 프레임으로서 상기 비디오 시퀀스의 수신된 프레임을 선택하기 위해 사용자 입력을 수신하되, 상기 사용자 입력은 상기 비디오 시퀀스의 상기 프레임의 모두가 수신되기 전에 수신되는 단계와, 이것에 응답하여
    키 프레임으로서 상기 수신된 프레임 중 하나를 출력시키는 단계를 더 포함하는
    키 프레임 식별 방법.
  25. 제24항에 있어서,
    상기 수신된 프레임 중 하나를 출력시키는 단계는 복수의 수신된 프레임 중 최고 점수를 갖는 수신된 프레임 중 하나를 출력시키는 단계를 포함하는
    키 프레임 식별 방법.
  26. 제21항 또는 제22항에 있어서,
    점수를 계산하는 단계, 상기 점수를 비교하는 단계, 및 상기 프레임에 대한 상기 점수가 상기 소정의 임계값을 초과하는 경우에 키 프레임으로서 상기 프레임을 출력시키거나 지정된 기간 내에서 수신된 상기 프레임 중 하나를 출력시키는 단계가 상기 긴 세그먼트에 대한 또는 상기 비디오 시퀀스의 상기 세그먼트 중 적어도 일부의 각각에 대한 복수의 경우에 발생되는
    키 프레임 식별 방법.
  27. 삭제
  28. 제21항에 있어서,
    한 쌍의 프레임을 세그먼트 간의 경계로서 식별하는 단계는
    상기 프레임간 차이가 상기 제 2 임계값을 초과하는 경우에 세그먼트 간의 잠재적 경계로서 한 쌍의 프레임을 식별하는 단계와,
    상기 식별된 쌍의 프레임 또는 상기 식별된 쌍의 프레임 이후의 하나 이상의 연속적인 쌍의 프레임 중 적어도 하나에 대한 모션 정보를 계산하는 단계와,
    적어도 하나가 상기 모션 정보의 함수인 하나 이상의 조건을 상기 프레임의 쌍이 만족시키는 경우에 상기 프레임의 쌍을 세그먼트 간의 실제 경계로서 식별하는 단계를 포함하는
    키 프레임 식별 방법.
  29. 제26항에 있어서,
    각각의 상기 복수의 프레임 중 적어도 2개가 유사하다는 식별에 기반하여 키 프레임으로서 출력된 적어도 하나의 복수의 프레임을 그룹화하되, 상기 각각의 프레임은 상기 각각의 프레임의 사진의 하나 이상의 제 3 특성의 값에 기반하여 유사한 것으로 식별되는 단계를 더 포함하는
    키 프레임 식별 방법.
  30. 제29항에 있어서,
    상기 하나 이상의 제 3 특성은 블록 히스토그램, 컬러 히스토그램 또는 순서 시퀀스 중 하나 이상을 포함하는
    키 프레임 식별 방법.
  31. 비디오 시퀀스로부터 키 프레임을 식별하는 저장된 컴퓨터 판독 가능 프로그램 코드 부분을 구비하는 컴퓨터 판독 가능 저장 매체 -상기 비디오 시퀀스는 긴 세그먼트(long segment) 또는 복수의 세그먼트 중 적어도 하나를 포함하되, 복수의 세그먼트의 각각은 복수의 프레임을 포함함- 로서,
    상기 컴퓨터 판독 가능 저장 매체 및 컴퓨터 판독 가능 프로그램 코드 부분은 적어도 하나의 프로세서를 사용하여 장치로 하여금, 적어도
    상기 비디오 시퀀스를 수신하고,
    상기 프레임의 적어도 일부의 각각이 수신될 때 그러나 상기 프레임의 모두가 수신되기 전에
    상기 프레임의 사진의 각각의 하나 이상의 특성의 값의 함수로서 상기 프레임에 대한 점수를 계산하고,
    상기 프레임에 대한 상기 점수를 소정의 임계값과 비교하며,
    상기 프레임이 지정된 기간 내에서 수신되며 상기 프레임에 대한 상기 점수가 상기 소정의 임계값을 초과하는 경우에 키 프레임으로서 상기 프레임을 출력시키거나, 또는 그렇지 않으면
    상기 지정된 기간 내에서 수신된 프레임에 대한 상기 점수 중 어떤 것도 상기 소정의 임계값을 초과하지 않는 경우에 키 프레임으로서 상기 지정된 기간 내에서 수신된 프레임 중 하나의 프레임 - 상기 하나의 프레임은 상기 지정된 기간 내에서 수신된 프레임 중의 최고 점수를 갖는 프레임임 - 을 출력시키고,
    상기 세그먼트의 적어도 일부를 검출하게 하도록 구성되되, 상기 검출하는 것은
    하나 이상의 연속적인 쌍의 프레임의 사진 간의 프레임간 차이를 계산하되, 상기 프레임간 차이는 상기 각각의 프레임의 상기 사진의 각각의 하나 이상의 제 2 특성의 값의 함수로서 계산되는 것과,
    상기 프레임간 차이가 제 2 임계값을 초과하는 경우에 한 쌍의 프레임을 세그먼트 간의 경계로서 식별하여 하나의 세그먼트의 종료 및 다음 세그먼트의 시작을 검출하는 것을 포함하는
    컴퓨터 판독 가능 저장 매체.
  32. 제31항에 있어서,
    상기 하나 이상의 특성은 상기 프레임의 사진의 휘도, 에지점 검출, 그레이스케일 엔트로피 또는 컬러 엔트로피 중 하나 이상을 포함하는
    컴퓨터 판독 가능 저장 매체.
  33. 제31항 또는 제32항에 있어서,
    상기 컴퓨터 판독 가능 저장 매체 및 컴퓨터 판독 가능 프로그램 코드 부분은 상기 적어도 하나의 프로세서를 사용하여 그리고 상기 프레임의 적어도 일부의 각각이 상기 키 프레임의 출력 후 수신될 때 상기 장치로 하여금, 또한
    상기 프레임에 대한 상기 점수를 계산하고,
    상기 프레임에 대한 가중된 점수를 상기 키 프레임에 대한 상기 점수와 비교하되, 상기 가중된 점수는 중량 계수에 의해 가중된 상기 프레임에 대한 상기 점수를 포함하며,
    상기 프레임에 대한 가중된 점수가 상기 키 프레임에 대한 상기 점수보다 큰 경우에 상기 프레임으로 상기 키 프레임의 업데이팅을 발생시키게 하도록 더 구성되는
    컴퓨터 판독 가능 저장 매체.
  34. 제31항 또는 제32항에 있어서,
    상기 컴퓨터 판독 가능 저장 매체 및 컴퓨터 판독 가능 프로그램 코드 부분은 상기 적어도 하나의 프로세서를 사용하여 상기 장치로 하여금 또한
    키 프레임으로서 상기 비디오 시퀀스의 수신된 프레임을 선택하기 위해 사용자 입력을 수신하되, 상기 사용자 입력은 상기 비디오 시퀀스의 상기 프레임의 모두가 수신되기 전에 수신되며, 이것에 응답하여
    키 프레임으로서 상기 수신된 프레임 중 하나를 출력시키게 하도록 더 구성되는
    컴퓨터 판독 가능 저장 매체.
  35. 제34항에 있어서,
    상기 장치로 하여금 상기 수신된 프레임 중 하나를 출력시키도록 구성된 것은, 상기 장치로 하여금 복수의 상기 수신된 프레임 중 최고 점수를 갖는 수신된 프레임 중 하나를 출력시키도록 구성되는 것을 포함하는
    컴퓨터 판독 가능 저장 매체.
  36. 제31항 또는 제32항에 있어서,
    상기 컴퓨터 판독 가능 저장 매체 및 컴퓨터 판독 가능 프로그램 코드 부분은 상기 적어도 하나의 프로세서를 사용하여 상기 장치로 하여금, 점수를 계산하고, 상기 점수를 비교하며, 상기 프레임에 대한 상기 점수가 상기 소정의 임계값을 초과하는 경우에 키 프레임으로서 프레임을 출력시키거나 상기 긴 세그먼트에 대한 또는 상기 비디오 시퀀스의 상기 세그먼트 중 적어도 일부의 각각에 대한 복수의 경우에 지정된 기간 내에서 수신된 프레임 중 하나를 출력시키도록 구성되는
    컴퓨터 판독 가능 저장 매체.
  37. 삭제
  38. 제31항에 있어서,
    상기 장치로 하여금 한 쌍의 프레임을 세그먼트 간의 경계로서 식별하게 하도록 구성된 것은 상기 장치로 하여금,
    상기 프레임간 차이가 상기 제 2 임계값을 초과하는 경우에 세그먼트 간의 잠재적 경계로서 한 쌍의 프레임을 식별하고,
    상기 식별된 쌍의 프레임 또는 상기 식별된 쌍의 프레임 이후의 하나 이상의 연속적인 쌍의 프레임 중 적어도 하나에 대한 모션 정보를 계산하며,
    적어도 하나가 상기 모션 정보의 함수인 하나 이상의 조건을 상기 프레임의 쌍이 만족시키는 경우에 상기 프레임의 쌍을 세그먼트 간의 실제 경계로서 식별하게 하도록 구성된 것을 포함하는
    컴퓨터 판독 가능 저장 매체.
  39. 제36항에 있어서,
    상기 컴퓨터 판독 가능 저장 매체 및 컴퓨터 판독 가능 프로그램 코드 부분은 상기 적어도 하나의 프로세서를 사용하여 상기 장치로 하여금, 또한
    각각의 상기 복수의 프레임 중 적어도 2개가 유사하다는 식별에 기반하여 키 프레임으로서 출력된 적어도 하나의 복수의 프레임을 그룹화하되, 상기 각각의 프레임은 상기 각각의 프레임의 사진의 하나 이상의 제 3 특성의 값에 기반하여 유사한 것으로 식별되게 하도록 더 구성되는
    컴퓨터 판독 가능 저장 매체.
  40. 제39항에 있어서,
    상기 하나 이상의 제 3 특성은 블록 히스토그램, 컬러 히스토그램 또는 순서 시퀀스 중 하나 이상을 포함하는
    컴퓨터 판독 가능 저장 매체.
KR1020137017856A 2010-12-09 2010-12-09 비디오 시퀀스로부터의 제한된 콘텍스트 기반 식별 키 프레임 KR101512584B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/079601 WO2012075634A1 (en) 2010-12-09 2010-12-09 Limited-context-based identifying key frame from video sequence

Publications (2)

Publication Number Publication Date
KR20130101126A KR20130101126A (ko) 2013-09-12
KR101512584B1 true KR101512584B1 (ko) 2015-04-15

Family

ID=46206537

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137017856A KR101512584B1 (ko) 2010-12-09 2010-12-09 비디오 시퀀스로부터의 제한된 콘텍스트 기반 식별 키 프레임

Country Status (6)

Country Link
US (1) US9064186B2 (ko)
EP (1) EP2649556A4 (ko)
KR (1) KR101512584B1 (ko)
CN (1) CN103262096B (ko)
RU (1) RU2549584C2 (ko)
WO (1) WO2012075634A1 (ko)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012239028A (ja) * 2011-05-11 2012-12-06 Canon Inc 画像処理装置、画像処理方法及びプログラム
CN105282560B (zh) * 2014-06-24 2019-06-04 Tcl集团股份有限公司 一种快速播放网络视频的方法及系统
US9639762B2 (en) * 2014-09-04 2017-05-02 Intel Corporation Real time video summarization
WO2016038522A1 (en) 2014-09-08 2016-03-17 Google Inc. Selecting and presenting representative frames for video previews
US9799376B2 (en) * 2014-09-17 2017-10-24 Xiaomi Inc. Method and device for video browsing based on keyframe
US20160127807A1 (en) * 2014-10-29 2016-05-05 EchoStar Technologies, L.L.C. Dynamically determined audiovisual content guidebook
CN107465954B (zh) * 2014-12-04 2019-09-06 Oppo广东移动通信有限公司 动态缩略图的生成方法及相关产品
KR101650153B1 (ko) * 2015-03-19 2016-08-23 네이버 주식회사 만화 데이터 편집 방법 및 만화 데이터 편집 장치
US9552520B1 (en) * 2015-07-07 2017-01-24 Disney Enterprises, Inc. Systems and methods for automatic key frame extraction and storyboard interface generation for video
RU2628192C2 (ru) * 2016-01-27 2017-08-15 Акционерное общество "Творческо-производственное объединение "Центральная киностудия детских и юношеских фильмов им. М. Горького" Устройство для семантической классификации и поиска в архивах оцифрованных киноматериалов
CN106056042B (zh) 2016-05-19 2018-09-18 上海小蚁科技有限公司 产生视频数据变换表示以及分析视频数据的方法和系统
JP6238255B2 (ja) 2016-05-25 2017-11-29 株式会社Nexpoint 監視カメラシステムによる監視方法及び動画分割装置
RU2642402C1 (ru) * 2016-10-07 2018-01-24 Общество с ограниченной ответственностью "СТРИМ Лабс" (ООО "СТРИМ Лабс") Способ выявления повторяющихся кадров видео
US11089373B2 (en) * 2016-12-29 2021-08-10 Sling Media Pvt Ltd Seek with thumbnail generation and display during placeshifting session
US10152627B2 (en) * 2017-03-20 2018-12-11 Microsoft Technology Licensing, Llc Feature flow for video recognition
CN107480580B (zh) * 2017-03-31 2021-06-15 触景无限科技(北京)有限公司 图像识别方法和图像识别装置
CN108475430B (zh) * 2017-04-10 2022-01-28 深圳市柔宇科技股份有限公司 图片质量评估方法及装置
CN110298213B (zh) * 2018-03-22 2021-07-30 赛灵思电子科技(北京)有限公司 视频分析系统和方法
CN109902189B (zh) 2018-11-30 2021-02-12 华为技术有限公司 一种图片选择方法及相关设备
CN110392306B (zh) * 2019-07-29 2021-11-05 腾讯科技(深圳)有限公司 一种数据处理方法以及设备
CN111857517B (zh) * 2020-07-28 2022-05-17 腾讯科技(深圳)有限公司 视频的信息处理方法、装置、电子设备及存储介质
CN112752158B (zh) 2020-12-29 2023-06-20 北京达佳互联信息技术有限公司 一种视频展示的方法、装置、电子设备及存储介质
CN115134656A (zh) * 2021-03-26 2022-09-30 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置、设备以及介质
CN113965814B (zh) * 2021-08-30 2023-07-04 国网山东省电力公司信息通信公司 基于视频会议场景的多会场关键帧提取方法及系统
CN115334307B (zh) * 2022-10-11 2023-02-10 浙江大华技术股份有限公司 一种数据传输方法、前端设备、视频采集系统和介质
KR102647615B1 (ko) * 2023-09-18 2024-03-14 (주)내스타일 유사도를 기초로 선택된 레퍼런스 프레임을 이용하여 그레이 스케일 비디오를 컬러링하는 비디오 컬러링 방법 및 이를 수행하는 비디오 컬러링 시스템
CN117173748B (zh) * 2023-11-03 2024-01-26 杭州登虹科技有限公司 一种基于人形识别与人形检测的视频人形事件提取系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060228029A1 (en) 2005-03-29 2006-10-12 Microsoft Corporation Method and system for video clip compression
CN101719144A (zh) 2009-11-04 2010-06-02 中国科学院声学研究所 一种联合字幕和视频图像信息进行场景分割和索引的方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10243352A (ja) 1997-02-27 1998-09-11 Hitachi Ltd 映像情報記録再生装置
US6137544A (en) * 1997-06-02 2000-10-24 Philips Electronics North America Corporation Significant scene detection and frame filtering for a visual indexing system
US6219837B1 (en) 1997-10-23 2001-04-17 International Business Machines Corporation Summary frames in video
US6389169B1 (en) * 1998-06-08 2002-05-14 Lawrence W. Stark Intelligent systems and methods for processing image data based upon anticipated regions of visual interest
US6473095B1 (en) 1998-07-16 2002-10-29 Koninklijke Philips Electronics N.V. Histogram method for characterizing video content
US6782049B1 (en) 1999-01-29 2004-08-24 Hewlett-Packard Development Company, L.P. System for selecting a keyframe to represent a video
US7184100B1 (en) * 1999-03-24 2007-02-27 Mate - Media Access Technologies Ltd. Method of selecting key-frames from a video sequence
US6473529B1 (en) 1999-11-03 2002-10-29 Neomagic Corp. Sum-of-absolute-difference calculator for motion estimation using inversion and carry compensation with full and half-adders
US7418192B2 (en) 2001-03-13 2008-08-26 Koninklijke Philips Electronics N.V. Dynamic key frame generation and usage
EP1683033A4 (en) 2003-10-24 2008-05-07 Caringfamily Llc INFLUENCE OF COMMUNICATION BETWEEN A SOCIAL AID NETWORK
US7483618B1 (en) 2003-12-04 2009-01-27 Yesvideo, Inc. Automatic editing of a visual recording to eliminate content of unacceptably low quality and/or very little or no interest
WO2007072347A2 (en) * 2005-12-22 2007-06-28 Koninklijke Philips Electronics N.V. System and method for processing video
US8031775B2 (en) * 2006-02-03 2011-10-04 Eastman Kodak Company Analyzing camera captured video for key frames
JP4374001B2 (ja) * 2006-07-07 2009-12-02 株式会社東芝 通信装置、通信方法、および通信システム
US7558760B2 (en) 2007-06-12 2009-07-07 Microsoft Corporation Real-time key frame generation
RU2007128309A (ru) * 2007-07-24 2009-01-27 Корпораци "Самсунг Электроникс Ко., Лтд." (KR) Способ формирования ощущения глубины видеоизображения
US8335786B2 (en) * 2009-05-28 2012-12-18 Zeitera, Llc Multi-media content identification using multi-level content signature correlation and fast similarity search
CN101383959B (zh) * 2008-10-23 2012-01-11 中兴通讯股份有限公司 流媒体业务中获取关键帧的方法、系统及用户设备
CN101604325B (zh) * 2009-07-17 2012-06-20 北京邮电大学 基于主场景镜头关键帧的体育视频分类方法
CN101998137B (zh) * 2009-08-21 2016-09-07 华为技术有限公司 视频质量参数获取方法和装置及电子设备
CN101729898B (zh) * 2009-11-16 2011-06-15 中国人民解放军国防科学技术大学 视频编码、解码方法与视频编码、解码装置
EP2619983A4 (en) 2010-09-20 2015-05-06 Nokia Corp IDENTIFYING A KEY IMAGE FRAME FROM A VIDEO SEQUENCE

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060228029A1 (en) 2005-03-29 2006-10-12 Microsoft Corporation Method and system for video clip compression
CN101719144A (zh) 2009-11-04 2010-06-02 中国科学院声学研究所 一种联合字幕和视频图像信息进行场景分割和索引的方法

Also Published As

Publication number Publication date
RU2013131158A (ru) 2015-01-20
US20130251274A1 (en) 2013-09-26
US9064186B2 (en) 2015-06-23
RU2549584C2 (ru) 2015-04-27
EP2649556A4 (en) 2017-05-17
CN103262096A (zh) 2013-08-21
CN103262096B (zh) 2016-08-10
WO2012075634A1 (en) 2012-06-14
KR20130101126A (ko) 2013-09-12
EP2649556A1 (en) 2013-10-16

Similar Documents

Publication Publication Date Title
KR101512584B1 (ko) 비디오 시퀀스로부터의 제한된 콘텍스트 기반 식별 키 프레임
KR101535784B1 (ko) 비디오 코딩 및 프로세싱을 위한 조도 보상 및 변환을 위한 방법 및 시스템
US20130182767A1 (en) Identifying a key frame from a video sequence
EP3389276B1 (en) Hash-based encoder decisions for video coding
CN103124354B (zh) 处理视频信息
CN108647641B (zh) 基于双路模型融合的视频行为分割方法和装置
US8582915B2 (en) Image enhancement for challenging lighting conditions
JP5097280B2 (ja) 画像及び画像群を表現、比較及び検索する方法及び装置、プログラム、コンピュータ読み取り可能な記憶媒体
JP2006510072A (ja) 一様なカラーセグメントを検出するための方法及びシステム
JP2009539273A (ja) ビデオクリップからのキーフレーム候補の抽出
US20120082431A1 (en) Method, apparatus and computer program product for summarizing multimedia content
JP2006092559A (ja) 少なくとも1つの画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体
CN101543075A (zh) 视频序列中渐变的检测
US11263261B2 (en) Method and system for characteristic-based video processing
US8520742B2 (en) Moving image compression-coding device, method of compression-coding moving image, and H.264 moving image compression-coding device
US20160080743A1 (en) Systems and methods for subject-oriented compression
KR100751407B1 (ko) 영상 부호화 장치 및 움직임 추정 방법
JP4154459B2 (ja) デジタル映像処理方法及びその装置
KR20100118811A (ko) 감시 카메라 시스템의 관리를 위한 장면 전환 검출 방법과 장면 전환 검출 신뢰도 산출 방법 및 소프트웨어
JP2007518303A (ja) シーン変化検出を用いる処理方法及び装置
KR101706347B1 (ko) 샷 경계 검출 방법, 그리고 이를 구현한 영상 처리 장치 및 방법
Saoudi et al. Spatio-temporal video slice edges analysis for shot transition detection and classification
TW202127888A (zh) 使用凸和凹分佈函數對複數個影像訊框進行框內更新編碼之方法
KR20190070764A (ko) 동영상 콘텐츠 식별을 위한 정보 추출 방법 및 장치, 상기 방법을 이용한 동영상 콘텐츠 식별 방법 및 장치, 및 동영상 콘텐츠 식별 시스템
WO2006006095A1 (en) Method and apparatus for processing a sequence of images based on image analysis

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant