KR100374040B1 - 비디오 텍스트 합성 키 프레임 추출방법 - Google Patents

비디오 텍스트 합성 키 프레임 추출방법 Download PDF

Info

Publication number
KR100374040B1
KR100374040B1 KR10-2001-0012184A KR20010012184A KR100374040B1 KR 100374040 B1 KR100374040 B1 KR 100374040B1 KR 20010012184 A KR20010012184 A KR 20010012184A KR 100374040 B1 KR100374040 B1 KR 100374040B1
Authority
KR
South Korea
Prior art keywords
text
video
size
key frame
area
Prior art date
Application number
KR10-2001-0012184A
Other languages
English (en)
Other versions
KR20020072111A (ko
Inventor
유재신
전성배
윤경로
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR10-2001-0012184A priority Critical patent/KR100374040B1/ko
Priority to US10/091,472 priority patent/US20020126203A1/en
Publication of KR20020072111A publication Critical patent/KR20020072111A/ko
Application granted granted Critical
Publication of KR100374040B1 publication Critical patent/KR100374040B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Circuits (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 내용 기반 멀티미디어 검색과 브라우징(browsing)을 위한 멀티미디어 요약과 브라우징 시스템에서, 특히 비디오의 효율적인 요약과 이를 이용한 효율적인 검색, 필터링이 가능하도록 텍스트 키프레임을 추출하는 방법에 관한 것이다.
본 발명은 비디오 스트림 요약과 브라우징을 위하여 합성 비디오 텍스트 키프레임을 이용할 수 있도록 합성 텍스트 키프레임을 추출하는 방법에 관한 것으로서, 비디오 스트림에 존재하는 텍스트 영역을 검출하고, 검출된 각각의 텍스트 영역에 대한 중요도 가중치를 검출된 텍스트 영역의 크기, 텍스트 영역에서의 평균 텍스트 요소의 크기, 텍스트 영역의 디스플레이 지속시간에 비례하여 할당하고, 텍스트 합성 키 프레임을 디스플레이 하는 디바이스나 브라우저의 크기에 알맞게 가중치가 높은 순으로 합성할 텍스트의 개수를 정하거나 합성할 텍스트의 사이즈를 정하고, 이 영역들을 하나의 이미지에 합성하여 일정 비디오 구간을 텍스트 합성 키 프레임으로 대표하는 것을 특징으로 하는 텍스트 합성 키 프레임 추출 방법에 관한 것이다.

Description

비디오 텍스트 합성 키 프레임 추출방법{METHOD FOR DETECTING CAPTION SYNTHETIC KEY FRAME IN VIDEO STREAM}
본 발명은 내용 기반 멀티미디어 검색과 브라우징(browsing)을 위한 멀티미디어 요약과 브라우징 시스템에서, 특히 비디오의 효율적인 요약과 이를 이용한 효율적인 검색, 필터링이 가능하도록 키프레임을 추출하는 방법에 관한 것이다.
본 발명은 비디오에서 텍스트가 검출된 비디오 스트림에 대해, 검출된 각각의 텍스트 영역에 대한 중요도 가중치를 추출된 텍스트 영역에 할당하여, 상기 가중치를 기반으로 하여 상기 텍스트 중에서 합성할 텍스트를 선정하고, 상기 선정된 텍스트들을 하나의 이미지에 합성하여 일정 비디오 구간을 대표하는 텍스트 합성 키프레임으로 설정함으로써 보다 효율적인 비디오 요약과 검색 및 필터링이 가능하도록 한 비디오 텍스트 합성 키 프레임 추출방법에 관한 것이다.
더욱 상세하게는 본 발명은 비디오 스트림 요약과 브라우징을 위하여 합성 비디오 텍스트 키프레임을 이용할 수 있도록 합성 텍스트 키프레임을 추출하는 방법에 관한 것으로서, 비디오에서 텍스트가 검출된 비디오 스트림에 대해, 검출된 각각의 텍스트 영역에 대한 중요도 가중치를 검출된 텍스트 영역의 크기, 텍스트 영역에서의 평균 텍스트 요소의 크기, 텍스트 영역의 디스플레이 지속시간에 비례하여 할당하고, 텍스트 합성 키 프레임을 디스플레이 하는 디바이스나 브라우저의 크기에 알맞게 가중치가 높은 순으로 합성할 텍스트의 개수를 정하거나 합성할 텍스트의 사이즈를 정하고, 이 영역들을 하나의 이미지에 합성하여 일정 비디오 구간을 텍스트 합성 키 프레임으로 대표하는 것을 특징으로 하는 텍스트 합성 키 프레임 추출 방법에 관한 것이다.
디지털 비디오 기술의 발달과 이미지/비디오/오디오 인식 기술의 발달로 인하여 사용자들은 원하는 비디오를 원하는 시점에 원하는 부분만을검색(searching/filtering)하고 브라우징(browsing) 할 수 있게 되었다.
비선형적인 비디오 콘텐트 브라우징(non-linear video content browsing)과 검색을 위하여 가장 기본이 되는 기술은 샷 분할 (shot segmentation) 기법과 샷 클러스터링(shot clustering) 기법이며, 이 두 가지 기술은 멀티미디어 콘텐트를 구조적으로 분석하는데 있어서 가장 핵심이 되는 기술이다.
도1에 비디오 스트림의 구조적 정보의 예를 나타내었다.
시간적인 연속성을 가진 비디오 스트림(Video Stream)에는 도1과 같은 구조적 정보(Structural information)가 존재한다. 일반적으로 비디오 스트림은 장르(genre)에 구분 없이 계층구조(hierarchical structure)를 가지고 있다. 즉, 비디오 스트림은 논리적인 단위인 몇 개의 씬(Scene)으로 나뉘어 지고 각각의 씬은 다수의 서브 씬(Sub-Scene) 또는 샷(Shot)들로 구성되며, 서브 씬은 씬이므로 씬의 속성을 그대로 가진다. 비디오 스트림에 있어서 샷이란 방해(interruption) 없이 하나의 카메라로부터 얻어진 비디오 프레임들의 시퀀스(sequence of frames)를 의미한다. 대부분의 멀티미디어 인덱싱 시스템들은 샷을 추출하고 추출된 샷을 토대로 하고 기타의 정보를 이용하여 논리적인 단위인 씬들을 검출함으로써 멀티미디어 스트림의 구조적 정보를 인덱싱하게 된다.
앞에서 설명한 바와같이 샷은 비디오를 분석(analysis)하거나 구성(construction)하는 가장 기본이 되는 단위이다. 또한 일반적으로 비디오에 존재하는 의미적인 구성 요소인 씬(scene)은 이야기 전개 또는 비디오 구성에 있어서 의미적인 구분 요소이며 일반적으로 하나의 씬 내에는 여러 개의 샷이 존재 한다.기존의 비디오 인덱싱 기술은 비디오를 구조적으로 분석하여 샷과 씬을 검출하고 이를 바탕으로 하여 단위 세그먼트인 샷 또는 씬을 대표할 수 있는 키프레임(key frame)들을 추출하여 각각의 샷이나 씬을 대표하고 비디오 요약을 위한 자료로 활용하거나 원하는 위치로 이동하기 위한 수단으로 사용한다.
이와 같이, 효율적인 비디오 검색과 브라우징을 위하여 비디오 스트림에서 의미적 정보를 표현하는 주요 텍스트 영역이나 뉴스 아이콘 또는 사람의 얼굴 영역 등을 추출하기 위한 연구가 진행 중이며, 이러한 키 영역을 합성하여 새로운 키 프레임을 추출하는 방법이 소개되었다. 합성 키 프레임은 논리적 혹은 물리적 단위의 비디오 스트림의 내용을 씬이나 샷 단위에서 뽑은 키 프레임을 이용하여 합성하는 기술이다. 합성 키 프레임을 이용함으로써 적은 디스플레이 공간에 많은 정보를 표현할 수 있고, 사용자는 컨텐츠의 특정 부분의 내용을 빠르고 쉽게 이해할 수 있고 관심 있는 부분만 선택하여 시청할 수 있다.
기존의 합성 키 프레임에 관한 기술은 비디오 콘텐트의 일정 구간을 키 영역이나 키 텍스트를 이용하여 하나의 키 프레임으로 합성한 후, 이 합성 키 프레임을 이용하여 해당 구간을 대표하는 수단으로 이용하는 것에 관한 것이다.
이 중에서 비디오 텍스트는 일반적으로 콘텐트 전체 혹은 일부분의 내용을 요약해 주는 특성을 가지고 있기 때문에 사용자에게 콘텐트에 대한 요약 정보를 제공하는데 있어 매우 중요한 수단이 된다. 기존에는 텍스트 합성 키 프레임의 생성방법에 대한 구체적인 제안이 없었다. 추출된 각각의 텍스트를 중요도에 대한 고려 없이 무순으로 혹은 임의적으로 텍스트 합성 키 프레임을 추출하고 이를 콘텐트 요약에 이용하면 실제로 중요한 정보를 놓칠 수 있다. 따라서 어떤 텍스트 영역이 실제로 중요한 텍스트 영역인지를 판단하고 이를 어떠한 방법으로 합성하는 것인지는 제한된 공간에서 많은 정보를 전달하기 위한 텍스트 합성 키 프레임을 생성하는 것에 있어서 매우 중요하다.
본 발명에서는 비디오 콘텐트에 존재하는 각각의 비디오 텍스트를 자동으로 검출하고, 검출된 텍스트의 각 영역에 대하여 중요도(Weight)를 할당하여 이를 기반으로 중요도가 높은 몇몇 텍스트 영역을 선택하고 이를 하나의 키 프레임으로 합성하는 텍스트 합성 키 프레임 추출 방법을 제안한다. 본 발명에 따른 텍스트 합성 키 프레임은 비디오 콘텐트의 요약이나 비 선형적인 브라우징의 용도로 사용할 수 있다.
본 발명에서는 기존의 합성 키 프레임에서 제안되지 않은 텍스트 합성 키 프레임의 생성 방법을 제안한다.
비디오 텍스트는 비디오 콘텐트 전 구간에 존재하는데, 기존의 합성 키 프레임에서는 비디오 콘텐트에서 추출된 비디오 텍스트에 대한 구체적인 합성 방법이 제안되지 않았다. 즉, 추출된 텍스트에 대하여 중요도 판단 없이 텍스트를 합성하게 되어 중요한 텍스트가 합성 키 프레임에 빠질 수가 있다.
이에 본 발명에서는 추출된 비디오 텍스트에 대하여 각각 중요도를 할당하고 이를 기반으로 중요도가 높은 몇몇 텍스트들을 합성하여 하나의 키 프레임으로 생성하는 텍스트 합성 키 프레임 추출 방법을 제안한다. 제안된 텍스트 합성 키 프레임 추출 방법은 텍스트의 중요도를 판단하여 중요한 텍스트 순으로 텍스트를 합성하기 때문에 비디오 콘텐트를 좀더 명확하게 요약할 수 있고 사용자의 이해를 높일 수 있는 장점이 있다.
도1은 비디오 스트림의 구조적 정보의 예를 나타낸 도면
도2는 본 발명을 적용하는 합성 키프레임을 이용한 비디오 브라우징 인터페이스에 따른 도면
도3은 본 발명의 합성 키프레임 생성의 개념을 설명하기 위한 도면
도4는 본 발명에서 텍스트 추출방법을 설명하기 위한 도면
도5는 본 발명에서 텍스트 합성 키프레임의 개념을 설명하기 위한 도면
도6은 본 발명에 따른 텍스트 합성 키프레임 추출방법의 예를 나타낸 도면
도7은 본 발명에 따른 텍스트 합성 키프레임 추출방법의 다른 예를 나타낸 도면
도8은 본 발명에서 추출된 영역 내의 글자 크기를 예측하는 방법의 예를 나타낸 도면
본 발명은 비디오에서 텍스트가 추출된 비디오 스트림에 대해, 상기 검출된 각각의 텍스트 영역에 대한 중요도 가중치를 텍스트 요소에 할당하는 단계, 상기 가중치를 기반으로 하여 상기 텍스트 중에서 합성할 텍스트를 선정하는 단계, 상기 선정된 텍스트들을 하나의 이미지에 합성하여 일정 비디오 구간을 대표하는 텍스트 합성 키프레임으로 설정하는 단계; 를 포함하여 이루어지는 것을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출방법이다.
또한 본 발명은 검출된 각각의 텍스트 영역에 대한 중요도 가중치를 검출된 텍스트 영역의 크기, 텍스트 영역에서의 평균 텍스트 요소의 크기, 텍스트 영역의 디스플레이 지속시간에 비례하여 할당하는 단계, 텍스트 합성 키 프레임을 디스플레이 하는 디바이스나 브라우저의 크기에 알맞게 가중치가 높은 순으로 합성할 텍스트의 개수를 정하거나 합성할 텍스트의 사이즈를 정하는 단계, 상기 설정된 텍스트 영역들을 하나의 이미지에 합성하여 일정 비디오 구간을 텍스트 합성 키 프레임으로 대표하는 단계로 이루어진 것을 특징으로 하는 텍스트 합성 키 프레임 추출 방법이다.
비디오 텍스트의 합성 키 프레임을 이용한 어플리케이션은 비디오 스트림의 특정 범위의 요약이나 비디오 검색을 위한 브라우징 인터페이스를 가진 모든 시스템에서 동작할 수 있다. 도2는 합성 키프레임을 이용한 비디오 브라우징 인터페이스의 예를 보여준다. 도2에서 볼 수 있듯이 여러 개의 키 프레임과 합성 키 프레임을 이용하면 제한된 영역 내에서 많은 정보를 표시할 수 있으므로 비디오 요약에 있어서 유용하며, 비디오 콘텐트에서 원하지 않는 부분을 스킵하고 관심 있는 부분만을 브라우징하기 위한 툴(Tool)로써 이용이 가능하다
도3은 합성 키 프레임 생성의 개념을 보여준다.
대부분의 비디오 인덱싱 시스템에서는 추출된 비디오 스트림의 구조적 구성요소인 씬과 샷을 대표하기 위하여 키프레임(key frame)을 추출하고, 이를 검색이나 브라우징을 위한 용도로 사용한다. 이를 좀더 효율적으로 하기 위해서 합성 키 프레임 추출 방법이 제시되었다. 합성 키 프레임 추출 방법은 비디오에서 논리적 단위인 씬 혹은 물리적 단위인 샷에서 키 프레임을 추출하고 추출된 키 프레임을 이용하여 논리적 또는 물리적으로 합성하여 사용자에게 제공함으로써 쉽게 비디오 콘텐트를 이해할 수 있고, 원하는 위치로 빠르게 접근할 수 있게 한다.
한편, 효율적인 비디오 검색과 브라우징을 위하여 비디오 스트림에서 의미적 정보를 표현하는 주요 텍스트 영역을 추출할 수 있다. 이 기술에 따르면 비디오에 나오는 텍스트의 최소 사각형(MBR) 영역만 추출하여 사용자에게 비디오의 내용을 쉽게 파악할 수 있고, 인덱스 할 수 있는 기능을 제공한다. 또한 유연성 있는 정보 검색과 인덱싱된 정보를 이용하여 네트워크 상에서 원거리 정보 검색도 가능하다.
도4는 비디오 영상에서 텍스트를 추출하는 방법의 예를 도식화 한 것이다.
텍스트 추출에는 가로, 세로 에지 히스토그램이 집중적으로 나타나는 성질과에지 히스토그램이 글자 간격에 따라 반복적으로 커졌다 작아졌다 하는 정보를 이용하여 후보 영역을 추출하고, 후보 영역 중에서 가로 세로 비율이 텍스트임을 만족하며 모션이 적고 , 배경과 명도의 차가 큰 칼라가 사용된 영역을 텍스트로 추출하는 방법을 이용한다.
비디오 콘텐트에서 나타나는 텍스트가 중요한 텍스트인지 아닌지의 판단은 제한된 영역 내에서 비디오 콘텐트를 요약하는 비디오 텍스트 합성 키 프레임 생성에서 매우 중요하다.
따라서, 본 발명에서는 비디오 콘텐트에서 추출된 텍스트의 각 영역에 대해 추출된 텍스트 영역의 크기, 추출된 영역내의 텍스트의 평균 크기, 디스플레이 존속 시간 등의 정보를 이용하여 중요도를 할당하고, 중요도가 높은 텍스트 영역 몇몇을 선택하여 하나의 합성 키 프레임을 생성함으로써 적은 양의 데이터로 많은 정보를 제공하여 비디오 스트림을 요약하고, 비 선형적인 비디오 브라우징의 수단으로도 이용될 수 있도록 한다.
본 발명과 관련된 어플리케이션으로는 UMA 응용 어플리케이션이 있다.
사용자의 단말장치나 사용자 단말장치와 서버를 연결하는 네트워크 환경 등에 따라 사용자가 이용할 수 있는 데이터에 한계가 있을 수 있다. 즉, 어떤 디바이스를 사용하는가에 따라, 정지영상은 지원되나 동영상 디스플레이는 지원되지 않을 수 있으며, 오디오는 지원되나 영상은 지원되지 않을 수도 있다. 또한 네트워크 연결 방식이나 매체에 따라 전송용량이 부족하여 정해진 시간 내에 전송 받을 수 있는 데이터의 양이 제한될 수 있다. 이러한 다양한 사용자의 환경의 변화에 적응하여, 어떤 멀티미디어 정보를 사용자의 환경에 가장 알맞은 형태로 가공하여 사용자의 편의를 도모하고 정보의 전달 능력을 향상시키고자 하는 모든 어플리케이션들을 Universal Multimedia Access Applications (UMA Applications)라고 한다.
예를 들어 디바이스/네트워크 등의 제약조건에 의해 비디오 스트림을 받아 디스플레이 할 수 없는 사용자에게 사용자의 환경이 허락하는 한도내의 축소된 크기와 개수의 텍스트 키 프레임으로 비디오 스트림을 변환시켜 전송함으로써 최소한의 이해를 도모할 수 있다.
본 발명의 텍스트 합성 키 프레임은 UMA 어플리케이션에 적용되어 전송될 키 프레임을 개수를 줄여서 전송될 데이터의 양은 줄이면서 더 많은 의미적 정보를 제공하는 수단으로 이용될 수 있다.
본 발명과 관련된 또 다른 어플리케이션으로는 비선형적 비디오 브라우징 어플리케이션이 있다(도2 참조). 전체 비디오 스트림은 요약을 하지 않으면 사용자가 그 비디오 스트림을 이해하기 위하여 그 스트림을 모두 봐야 하는 단점이 있다. 또 원하는 위치로 이동하려고 해도 비디오 스트림내의 그 위치까지 사용자가 직접 탐색해야 하기 때문에 많은 시간이 필요하다. 비디오 스트림을 빠른 시간 내에 검색하고 접근하기 위해서는 비선형적 비디오 브라우징이 이용될 수 있다. 전체 비디오 내용을 키 프레임을 추출하여 특정 범위 단위로 요약하여 보여주고 그 원하는 위치부터 검색도 가능하다.
도2에서 살펴보면, 뉴스 비디오의 경우 특정한 기사에 대해서 그 기사 내용을 함축적으로 의미 및 대표하는 키프레임 또는 키 영역이 디스플레이되고 있고,또한 해당 기사 내용을 텍스트를 기반으로 해서 합성한 텍스트 합성 키프레임이 디스플레이되고 있다. 여기서 텍스트 합성 키프레임을 보면 비디오 디스플레이 뷰에서 앵커가 설명하고 있는 상세 뉴스(해당 기사 구간)에 대하여 그 내용 전체를 요약해서 텍스트로 보여주고 있다.
이와같은 텍스트 합성 키프레임을 중요도를 기반으로 추출하는 방법을 본 발명에서는 제안한다.
도5는 본 발명의 텍스트 합성 키 프레임에 대한 개념을 요약한 도면이다. 텍스트 합성 키 프레임은 비디오에서 텍스트 영역이 추출된 비디오 스트림에서 각 영역의 중요도를 계산하여 가중치를 주고, 일정 가중치 이상의 키 영역만으로 새로운 키 프레임을 생성하는 것이 주요 특징이다.
텍스트 합성 키 프레임은, 추출된 텍스트 영역의 크기(A), 추출된 텍스트 영역 내의 텍스트 요소의 평균 크기(B), 텍스트의 디스플레이 존속 시간(C)를 고려해서 다음과 같이 그 중요도(I)를 얻을 수 있다.
즉, I = A * a + B * b + C * c (a + b + c = 1)
여기서, a,b,c는 각 요소(A,B,C)에 대한 가중치이며, 가중치의 총합은 '1'이 된다.
상기한 바와 같이 가중치를 주는 방법은 추출된 텍스트 영역의 최소 사각형의 크기(MBR)가 크고 추출된 영역 내의 텍스트 요소의 평균 크기가 크고, 텍스트의 디스플레이 존속 시간이 길면 가중치를 크게 주는 방법이다.
추출된 텍스트 영역 내의 텍스트 요소의 평균 크기는 도8에서와 같이 히스토그램의 밀도와 크기로 알 수 있다. 즉, 글자 크기가 작으면 각 라인 사이에 가로 에지 히스토그램의 크기가 크게 작아지는 것을 볼 수 있다. 또 세로 에지 히스토그램도 각 글자 사이에서 히스토그램의 크기가 크게 작아진다. 반대로 추출된 영역 내에 글자 크기가 크면 도8에서 볼 수 있듯이 가로 에지 히스토그램의 분포가 넓게 분포되어 있고 중간에 히스토그램의 크기가 갑자기 줄어드는 현상은 발생하지 않는다. 이와 같은 히스토그램의 밀도와 크기의 정보를 이용해 추출된 텍스트 영역내의 텍스트의 평균 크기를 구할 수 있다.
추출된 텍스트의 존속 시간은 이전에 추출된 영역과 현재 추출된 영역을 비교하여 구할 수 있다. 추출된 영역의 크기와 위치정보가 유사하고, 에지 히스토그램의 값의 차이가 일정 임계치(threshold) 보다 작으면 두 영역을 같은 텍스트로 판단하여 추출된 텍스트의 디스플레이 존속 시간을 늘인다.
텍스트 합성 키 프레임은 비디오 스트림을 구성하고 있는 논리적 단위 '씬', 물리적 단위 '샷' 단위로 생성할 수 있다. 씬과 샷은 도1에서 나타나 있듯이 샷 세그멘테이션 기술로 구분할 수 있다.
합성할 비디오 텍스트는 디스플레이 할 디바이스의 크기나 브라우저에서 텍스트 합성 키 프레임의 영역에 따라 합성할 키 프레임의 개수나 각각의 사이즈가 달라질 수 있다. 즉, 디스플레이 할 영역이 커지면 합성할 텍스트의 개수를 늘리거나 각각의 텍스트의 사이즈를 늘릴 수 있고, 디스플레이 할 영역이 작아지면 합성할 키 프레임의 개수를 줄이거나 각각의 텍스트 사이즈를 줄일 수 있다. 합성할 키 프레임의 개수의 변경이나 각각의 텍스트 영역의 사이즈 변경이 있을 경우 사용자의 가독성(readability)을 고려하여야 한다.
도6 및 도7은 본 발명에 따른 텍스트 합성 키 프레임 추출의 예를 나타낸 도면으로서, 도6의 경우는 뉴스 비디오에서 특정 기사 구간에 대해서 텍스트 합성 키프레임을 추출하는 방법을 보여주고 있고, 도7의 경우는 쇼 프로그램에서 텍스트 합성 키프레임을 추출하는 방법을 보여주고 있다.
도6 및 도7에서 보는 것과 같이 특정 범위 내의 텍스트에 대해 각각 중요도를 계산하고, 디스플레이 할 영역의 크기를 고려하여 중요도가 높은 순으로 텍스트를 합성한다.
도6의 경우를 본다면, 뉴스 비디오 콘텐트에서 특정 기사에 해당하는 구간 내의 텍스트 영역을 모두 추출한 다음, 검출된 텍스트 영역에 대한 중요도 가중치를 그 텍스트 영역의 크기, 텍스트 영역에서의 평균 텍스트 요소의 크기, 텍스트 영역의 디스플레이 지속시간에 비례하여 할당하고, 브라우저(디스플레이) 크기에 맞게 가중치가 높은 순서로 합성할 텍스트의 갯수(또는 사이즈)를 정해서 이 정해진 갯수(또는 사이즈)의 텍스트 영역들을 하나의 이미지에 합성하여 텍스트 합성 키프레임으로 그 기사의 내용을 함축적으로 보여주는 것이다.
도7의 경우는 쇼 비디오 콘텐트에서 특정 구간에 대하여 텍스트 영역을 추출한 다음, 앞에서 설명한 뉴스 비디오 콘텐트처럼 중요도 가중치와 브라우저의 크기 등을 고려해서 적절한 갯수(또는 사이즈)의 텍스트 영역들을 하나의 이미지로 합성해 냄으로써, 텍스트 합성 키 프레임을 추출한 것을 보여준다.
본 발명에서는 추출된 비디오 텍스트에 대하여 각각 중요도를 할당하고 이를 기반으로 중요도가 높은 몇몇 텍스트들을 합성하여 하나의 키 프레임으로 생성하는 텍스트 합성 키 프레임 추출 방법을 제안한다. 제안된 텍스트 합성 키 프레임 추출 방법은 텍스트의 중요도를 판단하여 중요한 텍스트 순으로 텍스트를 합성하기 때문에 비디오 콘텐트를 좀더 명확하게 요약할 수 있고 사용자의 이해를 높일 수 있는 장점이 있다.

Claims (10)

  1. 비디오에서 텍스트가 검출된 비디오 스트림에 대해, 검출된 각각의 텍스트 영역에 대한 중요도 가중치를 텍스트 요소에 할당하는 단계, 상기 가중치를 기반으로 하여 상기 텍스트 중에서 합성할 텍스트를 선정하는 단계, 상기 선정된 텍스트들을 하나의 이미지에 합성하여 일정 비디오 구간을 대표하는 텍스트 합성 키프레임으로 설정하는 단계; 를 포함하여 이루어지는 것을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출방법.
  2. 제 1 항에 있어서, 상기 중요도 가중치는 텍스트 요소로서 텍스트 영역의 크기, 텍스트 영역에서의 평균 텍스트 요소의 크기, 텍스트 영역의 디스플레이 지속시간에 대하여 할당하는 것을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출방법.
  3. 비디오에서 텍스트가 검출된 비디오 스트림에 대해, 상기 검출된 각각의 텍스트 영역에 대한 중요도 가중치를 검출된 텍스트 영역의 크기, 텍스트 영역에서의 평균 텍스트 요소의 크기, 텍스트 영역의 디스플레이 지속시간에 비례하여 할당하는 단계, 텍스트 합성 키 프레임을 디스플레이 하는 디바이스나 브라우저의 크기에 알맞게 가중치가 높은 순으로 합성할 텍스트의 개수나 사이즈를 정하는 단계, 상기 설정된 텍스트 영역들을 하나의 이미지에 합성하여 일정 비디오 구간을 텍스트 합성 키 프레임으로 대표하는 단계를 포함하여 이루어진 것을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출방법.
  4. 제 3 항에 있어서, 상기 텍스트 영역의 크기는 비디오 텍스트 영역을 감싸는 최소사각형(MBR)의 크기로 판단함을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출 방법.
  5. 제 3 항에 있어서, 상기 텍스트 영역에서의 평균 텍스트 요소의 크기는 추출된 텍스트 영역 내에서 에지(Edge)의 가로, 세로 히스토그램의 밀도와 크기 등의 정보를 가지고 영역내의 평균 텍스트의 크기를 판담 함을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출 방법.
  6. 제 3 항에 있어서, 상기 텍스트 영역의 디스플레이 지속시간은 이전에 검출된 텍스트 영역과 현재 검출된 텍스트 영역의 유사성을 판단하여 같은 텍스트라고 판단되면 디스플레이 지속시간을 늘림을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출 방법.
  7. 제 3 항에 있어서, 상기 일정 가중치 이상의 텍스트 영역을 선택하는 방법은 검출된 텍스트 영역의 크기나, 추출된 텍스트 영역 내의 텍스트의 평균 크기나, 추출된 텍스트 영역의 디스플레이 시간에 비례하여 가중치를 높이는 것을 특징으로하는 비디오 텍스트 합성 키 프레임 추출 방법.
  8. 제 1 항에 있어서, 상기 텍스트 합성 키 프레임으로 요약될 일정 구간은 비디오의 논리적 편집 단위인 '씬'이나 비디오의 물리적 편집 단위인 '샷' 인 것을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출 방법.
  9. 제 1 항에 있어서, 상기 합성할 텍스트의 개수는 텍스트 합성 키 프레임을 디스플레이하는 디바이스나 브라우저의 크기에 비례하여 늘리거나 줄이는 것을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출방법.
  10. 제 1 항에 있어서, 상기 합성할 텍스트의 사이즈는 텍스트 합성 키프레임을 디스플레이하는 디바이스나 브라우저의 크기에 비례하여 늘리거나 줄이는 것을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출방법.
KR10-2001-0012184A 2001-03-09 2001-03-09 비디오 텍스트 합성 키 프레임 추출방법 KR100374040B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2001-0012184A KR100374040B1 (ko) 2001-03-09 2001-03-09 비디오 텍스트 합성 키 프레임 추출방법
US10/091,472 US20020126203A1 (en) 2001-03-09 2002-03-07 Method for generating synthetic key frame based upon video text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0012184A KR100374040B1 (ko) 2001-03-09 2001-03-09 비디오 텍스트 합성 키 프레임 추출방법

Publications (2)

Publication Number Publication Date
KR20020072111A KR20020072111A (ko) 2002-09-14
KR100374040B1 true KR100374040B1 (ko) 2003-03-03

Family

ID=19706681

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0012184A KR100374040B1 (ko) 2001-03-09 2001-03-09 비디오 텍스트 합성 키 프레임 추출방법

Country Status (2)

Country Link
US (1) US20020126203A1 (ko)
KR (1) KR100374040B1 (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4112968B2 (ja) 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
US7082572B2 (en) * 2002-12-30 2006-07-25 The Board Of Trustees Of The Leland Stanford Junior University Methods and apparatus for interactive map-based analysis of digital video content
US7697785B2 (en) * 2004-03-31 2010-04-13 Fuji Xerox Co., Ltd. Generating a highly condensed visual summary
US20060090123A1 (en) * 2004-10-26 2006-04-27 Fuji Xerox Co., Ltd. System and method for acquisition and storage of presentations
US20080007567A1 (en) * 2005-12-18 2008-01-10 Paul Clatworthy System and Method for Generating Advertising in 2D or 3D Frames and Scenes
US20070147654A1 (en) * 2005-12-18 2007-06-28 Power Production Software System and method for translating text to images
JP4998101B2 (ja) * 2006-09-15 2012-08-15 株式会社Jvcケンウッド デジタル放送受信装置および番組表における画像情報表示方法
WO2008059416A1 (en) * 2006-11-14 2008-05-22 Koninklijke Philips Electronics N.V. Method and apparatus for generating a summary of a video data stream
US8918714B2 (en) * 2007-04-11 2014-12-23 Adobe Systems Incorporated Printing a document containing a video or animations
US20090089677A1 (en) * 2007-10-02 2009-04-02 Chan Weng Chong Peekay Systems and methods for enhanced textual presentation in video content presentation on portable devices
WO2010109613A1 (ja) * 2009-03-25 2010-09-30 富士通株式会社 再生制御プログラム、再生制御方法及び再生装置
US8571330B2 (en) * 2009-09-17 2013-10-29 Hewlett-Packard Development Company, L.P. Video thumbnail selection
WO2013116779A1 (en) * 2012-02-01 2013-08-08 Futurewei Technologies, Inc. System and method for organizing multimedia content
US8648735B2 (en) 2012-04-06 2014-02-11 Paul Haynes Safety directional indicator
KR20130117378A (ko) 2012-04-17 2013-10-28 한국전자통신연구원 이미지 정보를 활용한 온라인 정보 제공 방법
CN106227825A (zh) * 2016-07-22 2016-12-14 努比亚技术有限公司 一种图片显示装置和方法
CN107483979B (zh) * 2017-09-12 2019-12-03 中广热点云科技有限公司 一种应用于缓存服务器的视频拖拽方法及装置
KR102542788B1 (ko) * 2018-01-08 2023-06-14 삼성전자주식회사 전자장치, 그 제어방법 및 컴퓨터프로그램제품
WO2020060113A1 (en) 2018-09-21 2020-03-26 Samsung Electronics Co., Ltd. Method for providing key moments in multimedia content and electronic device thereof
CN112188117B (zh) * 2020-08-29 2021-11-16 上海量明科技发展有限公司 视频合成方法、客户端及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998034181A2 (en) * 1997-02-03 1998-08-06 Koninklijke Philips Electronics N.V. A method and device for keyframe-based video displaying using a video cursor frame in a multikeyframe screen
WO1998034182A2 (en) * 1997-02-03 1998-08-06 Koninklijke Philips Electronics N.V. A method and device for navigating through video matter by means of displaying a plurality of key-frames in parallel
US5995659A (en) * 1997-09-09 1999-11-30 Siemens Corporate Research, Inc. Method of searching and extracting text information from drawings
KR20000038290A (ko) * 1998-12-05 2000-07-05 구자홍 사건구간을 기반으로 하는 동영상 검색방법과 검색 데이타 구조
KR20000060674A (ko) * 1999-03-18 2000-10-16 이준환 압축된 뉴스 영상의 장면전환 및 기사 검출방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961954B1 (en) * 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
US6363380B1 (en) * 1998-01-13 2002-03-26 U.S. Philips Corporation Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US6473778B1 (en) * 1998-12-24 2002-10-29 At&T Corporation Generating hypermedia documents from transcriptions of television programs using parallel text alignment

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998034181A2 (en) * 1997-02-03 1998-08-06 Koninklijke Philips Electronics N.V. A method and device for keyframe-based video displaying using a video cursor frame in a multikeyframe screen
WO1998034182A2 (en) * 1997-02-03 1998-08-06 Koninklijke Philips Electronics N.V. A method and device for navigating through video matter by means of displaying a plurality of key-frames in parallel
US5995659A (en) * 1997-09-09 1999-11-30 Siemens Corporate Research, Inc. Method of searching and extracting text information from drawings
KR20000038290A (ko) * 1998-12-05 2000-07-05 구자홍 사건구간을 기반으로 하는 동영상 검색방법과 검색 데이타 구조
KR20000060674A (ko) * 1999-03-18 2000-10-16 이준환 압축된 뉴스 영상의 장면전환 및 기사 검출방법

Also Published As

Publication number Publication date
US20020126203A1 (en) 2002-09-12
KR20020072111A (ko) 2002-09-14

Similar Documents

Publication Publication Date Title
KR100411342B1 (ko) 비디오 텍스트 합성 키프레임 생성방법
KR100374040B1 (ko) 비디오 텍스트 합성 키 프레임 추출방법
Smith et al. Video skimming and characterization through the combination of image and language understanding techniques
Yeung et al. Video visualization for compact presentation and fast browsing of pictorial content
JP5031312B2 (ja) 複数のフレームを含むビデオの要約を生成するための方法およびシステム
Smith et al. Video skimming and characterization through the combination of image and language understanding
KR100915847B1 (ko) 스트리밍 비디오 북마크들
US7181757B1 (en) Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
Girgensohn et al. Time-constrained keyframe selection technique
US8006267B2 (en) Method of constructing information on associate meanings between segments of multimedia stream and method of browsing video using the same
US7356830B1 (en) Method and apparatus for linking a video segment to another segment or information source
US20080075431A1 (en) Metadata editing apparatus, metadata reproduction apparatus, metadata delivery apparatus, metadata search apparatus, metadata re-generation condition setting apparatus, metadata delivery method and hint information description method
KR20020075081A (ko) 뉴스 비디오 브라우징 시스템에서 앵커 샷 자동 검출 방법
US20040181545A1 (en) Generating and rendering annotated video files
WO2001027876A1 (en) Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing
Zhang Content-based video browsing and retrieval
Smeaton Indexing, browsing and searching of digital video
Rasheed et al. Video categorization using semantics and semiotics
Huayong Content-based tv sports video retrieval based on audio-visual features and text information
Zhang Video content analysis and retrieval
Yeo et al. Analysis and synthesis for new digital video applications
Dimitrova et al. Selective video content analysis and filtering
Dimitrova et al. Visual Associations in DejaVideo
WO2006092752A2 (en) Creating a summarized overview of a video sequence
Pande Mapping of Low Level to High Level Audio-Visual Features: A Survey of the Literature

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090105

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee