KR100374040B1 - 비디오 텍스트 합성 키 프레임 추출방법 - Google Patents
비디오 텍스트 합성 키 프레임 추출방법 Download PDFInfo
- Publication number
- KR100374040B1 KR100374040B1 KR10-2001-0012184A KR20010012184A KR100374040B1 KR 100374040 B1 KR100374040 B1 KR 100374040B1 KR 20010012184 A KR20010012184 A KR 20010012184A KR 100374040 B1 KR100374040 B1 KR 100374040B1
- Authority
- KR
- South Korea
- Prior art keywords
- text
- video
- size
- key frame
- area
- Prior art date
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
- G06V10/507—Summing image-intensity values; Histogram projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Studio Circuits (AREA)
- Document Processing Apparatus (AREA)
Abstract
본 발명은 내용 기반 멀티미디어 검색과 브라우징(browsing)을 위한 멀티미디어 요약과 브라우징 시스템에서, 특히 비디오의 효율적인 요약과 이를 이용한 효율적인 검색, 필터링이 가능하도록 텍스트 키프레임을 추출하는 방법에 관한 것이다.
본 발명은 비디오 스트림 요약과 브라우징을 위하여 합성 비디오 텍스트 키프레임을 이용할 수 있도록 합성 텍스트 키프레임을 추출하는 방법에 관한 것으로서, 비디오 스트림에 존재하는 텍스트 영역을 검출하고, 검출된 각각의 텍스트 영역에 대한 중요도 가중치를 검출된 텍스트 영역의 크기, 텍스트 영역에서의 평균 텍스트 요소의 크기, 텍스트 영역의 디스플레이 지속시간에 비례하여 할당하고, 텍스트 합성 키 프레임을 디스플레이 하는 디바이스나 브라우저의 크기에 알맞게 가중치가 높은 순으로 합성할 텍스트의 개수를 정하거나 합성할 텍스트의 사이즈를 정하고, 이 영역들을 하나의 이미지에 합성하여 일정 비디오 구간을 텍스트 합성 키 프레임으로 대표하는 것을 특징으로 하는 텍스트 합성 키 프레임 추출 방법에 관한 것이다.
Description
본 발명은 내용 기반 멀티미디어 검색과 브라우징(browsing)을 위한 멀티미디어 요약과 브라우징 시스템에서, 특히 비디오의 효율적인 요약과 이를 이용한 효율적인 검색, 필터링이 가능하도록 키프레임을 추출하는 방법에 관한 것이다.
본 발명은 비디오에서 텍스트가 검출된 비디오 스트림에 대해, 검출된 각각의 텍스트 영역에 대한 중요도 가중치를 추출된 텍스트 영역에 할당하여, 상기 가중치를 기반으로 하여 상기 텍스트 중에서 합성할 텍스트를 선정하고, 상기 선정된 텍스트들을 하나의 이미지에 합성하여 일정 비디오 구간을 대표하는 텍스트 합성 키프레임으로 설정함으로써 보다 효율적인 비디오 요약과 검색 및 필터링이 가능하도록 한 비디오 텍스트 합성 키 프레임 추출방법에 관한 것이다.
더욱 상세하게는 본 발명은 비디오 스트림 요약과 브라우징을 위하여 합성 비디오 텍스트 키프레임을 이용할 수 있도록 합성 텍스트 키프레임을 추출하는 방법에 관한 것으로서, 비디오에서 텍스트가 검출된 비디오 스트림에 대해, 검출된 각각의 텍스트 영역에 대한 중요도 가중치를 검출된 텍스트 영역의 크기, 텍스트 영역에서의 평균 텍스트 요소의 크기, 텍스트 영역의 디스플레이 지속시간에 비례하여 할당하고, 텍스트 합성 키 프레임을 디스플레이 하는 디바이스나 브라우저의 크기에 알맞게 가중치가 높은 순으로 합성할 텍스트의 개수를 정하거나 합성할 텍스트의 사이즈를 정하고, 이 영역들을 하나의 이미지에 합성하여 일정 비디오 구간을 텍스트 합성 키 프레임으로 대표하는 것을 특징으로 하는 텍스트 합성 키 프레임 추출 방법에 관한 것이다.
디지털 비디오 기술의 발달과 이미지/비디오/오디오 인식 기술의 발달로 인하여 사용자들은 원하는 비디오를 원하는 시점에 원하는 부분만을검색(searching/filtering)하고 브라우징(browsing) 할 수 있게 되었다.
비선형적인 비디오 콘텐트 브라우징(non-linear video content browsing)과 검색을 위하여 가장 기본이 되는 기술은 샷 분할 (shot segmentation) 기법과 샷 클러스터링(shot clustering) 기법이며, 이 두 가지 기술은 멀티미디어 콘텐트를 구조적으로 분석하는데 있어서 가장 핵심이 되는 기술이다.
도1에 비디오 스트림의 구조적 정보의 예를 나타내었다.
시간적인 연속성을 가진 비디오 스트림(Video Stream)에는 도1과 같은 구조적 정보(Structural information)가 존재한다. 일반적으로 비디오 스트림은 장르(genre)에 구분 없이 계층구조(hierarchical structure)를 가지고 있다. 즉, 비디오 스트림은 논리적인 단위인 몇 개의 씬(Scene)으로 나뉘어 지고 각각의 씬은 다수의 서브 씬(Sub-Scene) 또는 샷(Shot)들로 구성되며, 서브 씬은 씬이므로 씬의 속성을 그대로 가진다. 비디오 스트림에 있어서 샷이란 방해(interruption) 없이 하나의 카메라로부터 얻어진 비디오 프레임들의 시퀀스(sequence of frames)를 의미한다. 대부분의 멀티미디어 인덱싱 시스템들은 샷을 추출하고 추출된 샷을 토대로 하고 기타의 정보를 이용하여 논리적인 단위인 씬들을 검출함으로써 멀티미디어 스트림의 구조적 정보를 인덱싱하게 된다.
앞에서 설명한 바와같이 샷은 비디오를 분석(analysis)하거나 구성(construction)하는 가장 기본이 되는 단위이다. 또한 일반적으로 비디오에 존재하는 의미적인 구성 요소인 씬(scene)은 이야기 전개 또는 비디오 구성에 있어서 의미적인 구분 요소이며 일반적으로 하나의 씬 내에는 여러 개의 샷이 존재 한다.기존의 비디오 인덱싱 기술은 비디오를 구조적으로 분석하여 샷과 씬을 검출하고 이를 바탕으로 하여 단위 세그먼트인 샷 또는 씬을 대표할 수 있는 키프레임(key frame)들을 추출하여 각각의 샷이나 씬을 대표하고 비디오 요약을 위한 자료로 활용하거나 원하는 위치로 이동하기 위한 수단으로 사용한다.
이와 같이, 효율적인 비디오 검색과 브라우징을 위하여 비디오 스트림에서 의미적 정보를 표현하는 주요 텍스트 영역이나 뉴스 아이콘 또는 사람의 얼굴 영역 등을 추출하기 위한 연구가 진행 중이며, 이러한 키 영역을 합성하여 새로운 키 프레임을 추출하는 방법이 소개되었다. 합성 키 프레임은 논리적 혹은 물리적 단위의 비디오 스트림의 내용을 씬이나 샷 단위에서 뽑은 키 프레임을 이용하여 합성하는 기술이다. 합성 키 프레임을 이용함으로써 적은 디스플레이 공간에 많은 정보를 표현할 수 있고, 사용자는 컨텐츠의 특정 부분의 내용을 빠르고 쉽게 이해할 수 있고 관심 있는 부분만 선택하여 시청할 수 있다.
기존의 합성 키 프레임에 관한 기술은 비디오 콘텐트의 일정 구간을 키 영역이나 키 텍스트를 이용하여 하나의 키 프레임으로 합성한 후, 이 합성 키 프레임을 이용하여 해당 구간을 대표하는 수단으로 이용하는 것에 관한 것이다.
이 중에서 비디오 텍스트는 일반적으로 콘텐트 전체 혹은 일부분의 내용을 요약해 주는 특성을 가지고 있기 때문에 사용자에게 콘텐트에 대한 요약 정보를 제공하는데 있어 매우 중요한 수단이 된다. 기존에는 텍스트 합성 키 프레임의 생성방법에 대한 구체적인 제안이 없었다. 추출된 각각의 텍스트를 중요도에 대한 고려 없이 무순으로 혹은 임의적으로 텍스트 합성 키 프레임을 추출하고 이를 콘텐트 요약에 이용하면 실제로 중요한 정보를 놓칠 수 있다. 따라서 어떤 텍스트 영역이 실제로 중요한 텍스트 영역인지를 판단하고 이를 어떠한 방법으로 합성하는 것인지는 제한된 공간에서 많은 정보를 전달하기 위한 텍스트 합성 키 프레임을 생성하는 것에 있어서 매우 중요하다.
본 발명에서는 비디오 콘텐트에 존재하는 각각의 비디오 텍스트를 자동으로 검출하고, 검출된 텍스트의 각 영역에 대하여 중요도(Weight)를 할당하여 이를 기반으로 중요도가 높은 몇몇 텍스트 영역을 선택하고 이를 하나의 키 프레임으로 합성하는 텍스트 합성 키 프레임 추출 방법을 제안한다. 본 발명에 따른 텍스트 합성 키 프레임은 비디오 콘텐트의 요약이나 비 선형적인 브라우징의 용도로 사용할 수 있다.
본 발명에서는 기존의 합성 키 프레임에서 제안되지 않은 텍스트 합성 키 프레임의 생성 방법을 제안한다.
비디오 텍스트는 비디오 콘텐트 전 구간에 존재하는데, 기존의 합성 키 프레임에서는 비디오 콘텐트에서 추출된 비디오 텍스트에 대한 구체적인 합성 방법이 제안되지 않았다. 즉, 추출된 텍스트에 대하여 중요도 판단 없이 텍스트를 합성하게 되어 중요한 텍스트가 합성 키 프레임에 빠질 수가 있다.
이에 본 발명에서는 추출된 비디오 텍스트에 대하여 각각 중요도를 할당하고 이를 기반으로 중요도가 높은 몇몇 텍스트들을 합성하여 하나의 키 프레임으로 생성하는 텍스트 합성 키 프레임 추출 방법을 제안한다. 제안된 텍스트 합성 키 프레임 추출 방법은 텍스트의 중요도를 판단하여 중요한 텍스트 순으로 텍스트를 합성하기 때문에 비디오 콘텐트를 좀더 명확하게 요약할 수 있고 사용자의 이해를 높일 수 있는 장점이 있다.
도1은 비디오 스트림의 구조적 정보의 예를 나타낸 도면
도2는 본 발명을 적용하는 합성 키프레임을 이용한 비디오 브라우징 인터페이스에 따른 도면
도3은 본 발명의 합성 키프레임 생성의 개념을 설명하기 위한 도면
도4는 본 발명에서 텍스트 추출방법을 설명하기 위한 도면
도5는 본 발명에서 텍스트 합성 키프레임의 개념을 설명하기 위한 도면
도6은 본 발명에 따른 텍스트 합성 키프레임 추출방법의 예를 나타낸 도면
도7은 본 발명에 따른 텍스트 합성 키프레임 추출방법의 다른 예를 나타낸 도면
도8은 본 발명에서 추출된 영역 내의 글자 크기를 예측하는 방법의 예를 나타낸 도면
본 발명은 비디오에서 텍스트가 추출된 비디오 스트림에 대해, 상기 검출된 각각의 텍스트 영역에 대한 중요도 가중치를 텍스트 요소에 할당하는 단계, 상기 가중치를 기반으로 하여 상기 텍스트 중에서 합성할 텍스트를 선정하는 단계, 상기 선정된 텍스트들을 하나의 이미지에 합성하여 일정 비디오 구간을 대표하는 텍스트 합성 키프레임으로 설정하는 단계; 를 포함하여 이루어지는 것을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출방법이다.
또한 본 발명은 검출된 각각의 텍스트 영역에 대한 중요도 가중치를 검출된 텍스트 영역의 크기, 텍스트 영역에서의 평균 텍스트 요소의 크기, 텍스트 영역의 디스플레이 지속시간에 비례하여 할당하는 단계, 텍스트 합성 키 프레임을 디스플레이 하는 디바이스나 브라우저의 크기에 알맞게 가중치가 높은 순으로 합성할 텍스트의 개수를 정하거나 합성할 텍스트의 사이즈를 정하는 단계, 상기 설정된 텍스트 영역들을 하나의 이미지에 합성하여 일정 비디오 구간을 텍스트 합성 키 프레임으로 대표하는 단계로 이루어진 것을 특징으로 하는 텍스트 합성 키 프레임 추출 방법이다.
비디오 텍스트의 합성 키 프레임을 이용한 어플리케이션은 비디오 스트림의 특정 범위의 요약이나 비디오 검색을 위한 브라우징 인터페이스를 가진 모든 시스템에서 동작할 수 있다. 도2는 합성 키프레임을 이용한 비디오 브라우징 인터페이스의 예를 보여준다. 도2에서 볼 수 있듯이 여러 개의 키 프레임과 합성 키 프레임을 이용하면 제한된 영역 내에서 많은 정보를 표시할 수 있으므로 비디오 요약에 있어서 유용하며, 비디오 콘텐트에서 원하지 않는 부분을 스킵하고 관심 있는 부분만을 브라우징하기 위한 툴(Tool)로써 이용이 가능하다
도3은 합성 키 프레임 생성의 개념을 보여준다.
대부분의 비디오 인덱싱 시스템에서는 추출된 비디오 스트림의 구조적 구성요소인 씬과 샷을 대표하기 위하여 키프레임(key frame)을 추출하고, 이를 검색이나 브라우징을 위한 용도로 사용한다. 이를 좀더 효율적으로 하기 위해서 합성 키 프레임 추출 방법이 제시되었다. 합성 키 프레임 추출 방법은 비디오에서 논리적 단위인 씬 혹은 물리적 단위인 샷에서 키 프레임을 추출하고 추출된 키 프레임을 이용하여 논리적 또는 물리적으로 합성하여 사용자에게 제공함으로써 쉽게 비디오 콘텐트를 이해할 수 있고, 원하는 위치로 빠르게 접근할 수 있게 한다.
한편, 효율적인 비디오 검색과 브라우징을 위하여 비디오 스트림에서 의미적 정보를 표현하는 주요 텍스트 영역을 추출할 수 있다. 이 기술에 따르면 비디오에 나오는 텍스트의 최소 사각형(MBR) 영역만 추출하여 사용자에게 비디오의 내용을 쉽게 파악할 수 있고, 인덱스 할 수 있는 기능을 제공한다. 또한 유연성 있는 정보 검색과 인덱싱된 정보를 이용하여 네트워크 상에서 원거리 정보 검색도 가능하다.
도4는 비디오 영상에서 텍스트를 추출하는 방법의 예를 도식화 한 것이다.
텍스트 추출에는 가로, 세로 에지 히스토그램이 집중적으로 나타나는 성질과에지 히스토그램이 글자 간격에 따라 반복적으로 커졌다 작아졌다 하는 정보를 이용하여 후보 영역을 추출하고, 후보 영역 중에서 가로 세로 비율이 텍스트임을 만족하며 모션이 적고 , 배경과 명도의 차가 큰 칼라가 사용된 영역을 텍스트로 추출하는 방법을 이용한다.
비디오 콘텐트에서 나타나는 텍스트가 중요한 텍스트인지 아닌지의 판단은 제한된 영역 내에서 비디오 콘텐트를 요약하는 비디오 텍스트 합성 키 프레임 생성에서 매우 중요하다.
따라서, 본 발명에서는 비디오 콘텐트에서 추출된 텍스트의 각 영역에 대해 추출된 텍스트 영역의 크기, 추출된 영역내의 텍스트의 평균 크기, 디스플레이 존속 시간 등의 정보를 이용하여 중요도를 할당하고, 중요도가 높은 텍스트 영역 몇몇을 선택하여 하나의 합성 키 프레임을 생성함으로써 적은 양의 데이터로 많은 정보를 제공하여 비디오 스트림을 요약하고, 비 선형적인 비디오 브라우징의 수단으로도 이용될 수 있도록 한다.
본 발명과 관련된 어플리케이션으로는 UMA 응용 어플리케이션이 있다.
사용자의 단말장치나 사용자 단말장치와 서버를 연결하는 네트워크 환경 등에 따라 사용자가 이용할 수 있는 데이터에 한계가 있을 수 있다. 즉, 어떤 디바이스를 사용하는가에 따라, 정지영상은 지원되나 동영상 디스플레이는 지원되지 않을 수 있으며, 오디오는 지원되나 영상은 지원되지 않을 수도 있다. 또한 네트워크 연결 방식이나 매체에 따라 전송용량이 부족하여 정해진 시간 내에 전송 받을 수 있는 데이터의 양이 제한될 수 있다. 이러한 다양한 사용자의 환경의 변화에 적응하여, 어떤 멀티미디어 정보를 사용자의 환경에 가장 알맞은 형태로 가공하여 사용자의 편의를 도모하고 정보의 전달 능력을 향상시키고자 하는 모든 어플리케이션들을 Universal Multimedia Access Applications (UMA Applications)라고 한다.
예를 들어 디바이스/네트워크 등의 제약조건에 의해 비디오 스트림을 받아 디스플레이 할 수 없는 사용자에게 사용자의 환경이 허락하는 한도내의 축소된 크기와 개수의 텍스트 키 프레임으로 비디오 스트림을 변환시켜 전송함으로써 최소한의 이해를 도모할 수 있다.
본 발명의 텍스트 합성 키 프레임은 UMA 어플리케이션에 적용되어 전송될 키 프레임을 개수를 줄여서 전송될 데이터의 양은 줄이면서 더 많은 의미적 정보를 제공하는 수단으로 이용될 수 있다.
본 발명과 관련된 또 다른 어플리케이션으로는 비선형적 비디오 브라우징 어플리케이션이 있다(도2 참조). 전체 비디오 스트림은 요약을 하지 않으면 사용자가 그 비디오 스트림을 이해하기 위하여 그 스트림을 모두 봐야 하는 단점이 있다. 또 원하는 위치로 이동하려고 해도 비디오 스트림내의 그 위치까지 사용자가 직접 탐색해야 하기 때문에 많은 시간이 필요하다. 비디오 스트림을 빠른 시간 내에 검색하고 접근하기 위해서는 비선형적 비디오 브라우징이 이용될 수 있다. 전체 비디오 내용을 키 프레임을 추출하여 특정 범위 단위로 요약하여 보여주고 그 원하는 위치부터 검색도 가능하다.
도2에서 살펴보면, 뉴스 비디오의 경우 특정한 기사에 대해서 그 기사 내용을 함축적으로 의미 및 대표하는 키프레임 또는 키 영역이 디스플레이되고 있고,또한 해당 기사 내용을 텍스트를 기반으로 해서 합성한 텍스트 합성 키프레임이 디스플레이되고 있다. 여기서 텍스트 합성 키프레임을 보면 비디오 디스플레이 뷰에서 앵커가 설명하고 있는 상세 뉴스(해당 기사 구간)에 대하여 그 내용 전체를 요약해서 텍스트로 보여주고 있다.
이와같은 텍스트 합성 키프레임을 중요도를 기반으로 추출하는 방법을 본 발명에서는 제안한다.
도5는 본 발명의 텍스트 합성 키 프레임에 대한 개념을 요약한 도면이다. 텍스트 합성 키 프레임은 비디오에서 텍스트 영역이 추출된 비디오 스트림에서 각 영역의 중요도를 계산하여 가중치를 주고, 일정 가중치 이상의 키 영역만으로 새로운 키 프레임을 생성하는 것이 주요 특징이다.
텍스트 합성 키 프레임은, 추출된 텍스트 영역의 크기(A), 추출된 텍스트 영역 내의 텍스트 요소의 평균 크기(B), 텍스트의 디스플레이 존속 시간(C)를 고려해서 다음과 같이 그 중요도(I)를 얻을 수 있다.
즉, I = A * a + B * b + C * c (a + b + c = 1)
여기서, a,b,c는 각 요소(A,B,C)에 대한 가중치이며, 가중치의 총합은 '1'이 된다.
상기한 바와 같이 가중치를 주는 방법은 추출된 텍스트 영역의 최소 사각형의 크기(MBR)가 크고 추출된 영역 내의 텍스트 요소의 평균 크기가 크고, 텍스트의 디스플레이 존속 시간이 길면 가중치를 크게 주는 방법이다.
추출된 텍스트 영역 내의 텍스트 요소의 평균 크기는 도8에서와 같이 히스토그램의 밀도와 크기로 알 수 있다. 즉, 글자 크기가 작으면 각 라인 사이에 가로 에지 히스토그램의 크기가 크게 작아지는 것을 볼 수 있다. 또 세로 에지 히스토그램도 각 글자 사이에서 히스토그램의 크기가 크게 작아진다. 반대로 추출된 영역 내에 글자 크기가 크면 도8에서 볼 수 있듯이 가로 에지 히스토그램의 분포가 넓게 분포되어 있고 중간에 히스토그램의 크기가 갑자기 줄어드는 현상은 발생하지 않는다. 이와 같은 히스토그램의 밀도와 크기의 정보를 이용해 추출된 텍스트 영역내의 텍스트의 평균 크기를 구할 수 있다.
추출된 텍스트의 존속 시간은 이전에 추출된 영역과 현재 추출된 영역을 비교하여 구할 수 있다. 추출된 영역의 크기와 위치정보가 유사하고, 에지 히스토그램의 값의 차이가 일정 임계치(threshold) 보다 작으면 두 영역을 같은 텍스트로 판단하여 추출된 텍스트의 디스플레이 존속 시간을 늘인다.
텍스트 합성 키 프레임은 비디오 스트림을 구성하고 있는 논리적 단위 '씬', 물리적 단위 '샷' 단위로 생성할 수 있다. 씬과 샷은 도1에서 나타나 있듯이 샷 세그멘테이션 기술로 구분할 수 있다.
합성할 비디오 텍스트는 디스플레이 할 디바이스의 크기나 브라우저에서 텍스트 합성 키 프레임의 영역에 따라 합성할 키 프레임의 개수나 각각의 사이즈가 달라질 수 있다. 즉, 디스플레이 할 영역이 커지면 합성할 텍스트의 개수를 늘리거나 각각의 텍스트의 사이즈를 늘릴 수 있고, 디스플레이 할 영역이 작아지면 합성할 키 프레임의 개수를 줄이거나 각각의 텍스트 사이즈를 줄일 수 있다. 합성할 키 프레임의 개수의 변경이나 각각의 텍스트 영역의 사이즈 변경이 있을 경우 사용자의 가독성(readability)을 고려하여야 한다.
도6 및 도7은 본 발명에 따른 텍스트 합성 키 프레임 추출의 예를 나타낸 도면으로서, 도6의 경우는 뉴스 비디오에서 특정 기사 구간에 대해서 텍스트 합성 키프레임을 추출하는 방법을 보여주고 있고, 도7의 경우는 쇼 프로그램에서 텍스트 합성 키프레임을 추출하는 방법을 보여주고 있다.
도6 및 도7에서 보는 것과 같이 특정 범위 내의 텍스트에 대해 각각 중요도를 계산하고, 디스플레이 할 영역의 크기를 고려하여 중요도가 높은 순으로 텍스트를 합성한다.
도6의 경우를 본다면, 뉴스 비디오 콘텐트에서 특정 기사에 해당하는 구간 내의 텍스트 영역을 모두 추출한 다음, 검출된 텍스트 영역에 대한 중요도 가중치를 그 텍스트 영역의 크기, 텍스트 영역에서의 평균 텍스트 요소의 크기, 텍스트 영역의 디스플레이 지속시간에 비례하여 할당하고, 브라우저(디스플레이) 크기에 맞게 가중치가 높은 순서로 합성할 텍스트의 갯수(또는 사이즈)를 정해서 이 정해진 갯수(또는 사이즈)의 텍스트 영역들을 하나의 이미지에 합성하여 텍스트 합성 키프레임으로 그 기사의 내용을 함축적으로 보여주는 것이다.
도7의 경우는 쇼 비디오 콘텐트에서 특정 구간에 대하여 텍스트 영역을 추출한 다음, 앞에서 설명한 뉴스 비디오 콘텐트처럼 중요도 가중치와 브라우저의 크기 등을 고려해서 적절한 갯수(또는 사이즈)의 텍스트 영역들을 하나의 이미지로 합성해 냄으로써, 텍스트 합성 키 프레임을 추출한 것을 보여준다.
본 발명에서는 추출된 비디오 텍스트에 대하여 각각 중요도를 할당하고 이를 기반으로 중요도가 높은 몇몇 텍스트들을 합성하여 하나의 키 프레임으로 생성하는 텍스트 합성 키 프레임 추출 방법을 제안한다. 제안된 텍스트 합성 키 프레임 추출 방법은 텍스트의 중요도를 판단하여 중요한 텍스트 순으로 텍스트를 합성하기 때문에 비디오 콘텐트를 좀더 명확하게 요약할 수 있고 사용자의 이해를 높일 수 있는 장점이 있다.
Claims (10)
- 비디오에서 텍스트가 검출된 비디오 스트림에 대해, 검출된 각각의 텍스트 영역에 대한 중요도 가중치를 텍스트 요소에 할당하는 단계, 상기 가중치를 기반으로 하여 상기 텍스트 중에서 합성할 텍스트를 선정하는 단계, 상기 선정된 텍스트들을 하나의 이미지에 합성하여 일정 비디오 구간을 대표하는 텍스트 합성 키프레임으로 설정하는 단계; 를 포함하여 이루어지는 것을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출방법.
- 제 1 항에 있어서, 상기 중요도 가중치는 텍스트 요소로서 텍스트 영역의 크기, 텍스트 영역에서의 평균 텍스트 요소의 크기, 텍스트 영역의 디스플레이 지속시간에 대하여 할당하는 것을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출방법.
- 비디오에서 텍스트가 검출된 비디오 스트림에 대해, 상기 검출된 각각의 텍스트 영역에 대한 중요도 가중치를 검출된 텍스트 영역의 크기, 텍스트 영역에서의 평균 텍스트 요소의 크기, 텍스트 영역의 디스플레이 지속시간에 비례하여 할당하는 단계, 텍스트 합성 키 프레임을 디스플레이 하는 디바이스나 브라우저의 크기에 알맞게 가중치가 높은 순으로 합성할 텍스트의 개수나 사이즈를 정하는 단계, 상기 설정된 텍스트 영역들을 하나의 이미지에 합성하여 일정 비디오 구간을 텍스트 합성 키 프레임으로 대표하는 단계를 포함하여 이루어진 것을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출방법.
- 제 3 항에 있어서, 상기 텍스트 영역의 크기는 비디오 텍스트 영역을 감싸는 최소사각형(MBR)의 크기로 판단함을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출 방법.
- 제 3 항에 있어서, 상기 텍스트 영역에서의 평균 텍스트 요소의 크기는 추출된 텍스트 영역 내에서 에지(Edge)의 가로, 세로 히스토그램의 밀도와 크기 등의 정보를 가지고 영역내의 평균 텍스트의 크기를 판담 함을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출 방법.
- 제 3 항에 있어서, 상기 텍스트 영역의 디스플레이 지속시간은 이전에 검출된 텍스트 영역과 현재 검출된 텍스트 영역의 유사성을 판단하여 같은 텍스트라고 판단되면 디스플레이 지속시간을 늘림을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출 방법.
- 제 3 항에 있어서, 상기 일정 가중치 이상의 텍스트 영역을 선택하는 방법은 검출된 텍스트 영역의 크기나, 추출된 텍스트 영역 내의 텍스트의 평균 크기나, 추출된 텍스트 영역의 디스플레이 시간에 비례하여 가중치를 높이는 것을 특징으로하는 비디오 텍스트 합성 키 프레임 추출 방법.
- 제 1 항에 있어서, 상기 텍스트 합성 키 프레임으로 요약될 일정 구간은 비디오의 논리적 편집 단위인 '씬'이나 비디오의 물리적 편집 단위인 '샷' 인 것을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출 방법.
- 제 1 항에 있어서, 상기 합성할 텍스트의 개수는 텍스트 합성 키 프레임을 디스플레이하는 디바이스나 브라우저의 크기에 비례하여 늘리거나 줄이는 것을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출방법.
- 제 1 항에 있어서, 상기 합성할 텍스트의 사이즈는 텍스트 합성 키프레임을 디스플레이하는 디바이스나 브라우저의 크기에 비례하여 늘리거나 줄이는 것을 특징으로 하는 비디오 텍스트 합성 키 프레임 추출방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2001-0012184A KR100374040B1 (ko) | 2001-03-09 | 2001-03-09 | 비디오 텍스트 합성 키 프레임 추출방법 |
US10/091,472 US20020126203A1 (en) | 2001-03-09 | 2002-03-07 | Method for generating synthetic key frame based upon video text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2001-0012184A KR100374040B1 (ko) | 2001-03-09 | 2001-03-09 | 비디오 텍스트 합성 키 프레임 추출방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20020072111A KR20020072111A (ko) | 2002-09-14 |
KR100374040B1 true KR100374040B1 (ko) | 2003-03-03 |
Family
ID=19706681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2001-0012184A KR100374040B1 (ko) | 2001-03-09 | 2001-03-09 | 비디오 텍스트 합성 키 프레임 추출방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20020126203A1 (ko) |
KR (1) | KR100374040B1 (ko) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4112968B2 (ja) | 2002-12-26 | 2008-07-02 | 富士通株式会社 | ビデオテキスト処理装置 |
US7082572B2 (en) * | 2002-12-30 | 2006-07-25 | The Board Of Trustees Of The Leland Stanford Junior University | Methods and apparatus for interactive map-based analysis of digital video content |
US7697785B2 (en) * | 2004-03-31 | 2010-04-13 | Fuji Xerox Co., Ltd. | Generating a highly condensed visual summary |
US20060090123A1 (en) * | 2004-10-26 | 2006-04-27 | Fuji Xerox Co., Ltd. | System and method for acquisition and storage of presentations |
US20080007567A1 (en) * | 2005-12-18 | 2008-01-10 | Paul Clatworthy | System and Method for Generating Advertising in 2D or 3D Frames and Scenes |
US20070147654A1 (en) * | 2005-12-18 | 2007-06-28 | Power Production Software | System and method for translating text to images |
JP4998101B2 (ja) * | 2006-09-15 | 2012-08-15 | 株式会社Jvcケンウッド | デジタル放送受信装置および番組表における画像情報表示方法 |
WO2008059416A1 (en) * | 2006-11-14 | 2008-05-22 | Koninklijke Philips Electronics N.V. | Method and apparatus for generating a summary of a video data stream |
US8918714B2 (en) * | 2007-04-11 | 2014-12-23 | Adobe Systems Incorporated | Printing a document containing a video or animations |
US20090089677A1 (en) * | 2007-10-02 | 2009-04-02 | Chan Weng Chong Peekay | Systems and methods for enhanced textual presentation in video content presentation on portable devices |
WO2010109613A1 (ja) * | 2009-03-25 | 2010-09-30 | 富士通株式会社 | 再生制御プログラム、再生制御方法及び再生装置 |
US8571330B2 (en) * | 2009-09-17 | 2013-10-29 | Hewlett-Packard Development Company, L.P. | Video thumbnail selection |
WO2013116779A1 (en) * | 2012-02-01 | 2013-08-08 | Futurewei Technologies, Inc. | System and method for organizing multimedia content |
US8648735B2 (en) | 2012-04-06 | 2014-02-11 | Paul Haynes | Safety directional indicator |
KR20130117378A (ko) | 2012-04-17 | 2013-10-28 | 한국전자통신연구원 | 이미지 정보를 활용한 온라인 정보 제공 방법 |
CN106227825A (zh) * | 2016-07-22 | 2016-12-14 | 努比亚技术有限公司 | 一种图片显示装置和方法 |
CN107483979B (zh) * | 2017-09-12 | 2019-12-03 | 中广热点云科技有限公司 | 一种应用于缓存服务器的视频拖拽方法及装置 |
KR102542788B1 (ko) * | 2018-01-08 | 2023-06-14 | 삼성전자주식회사 | 전자장치, 그 제어방법 및 컴퓨터프로그램제품 |
WO2020060113A1 (en) | 2018-09-21 | 2020-03-26 | Samsung Electronics Co., Ltd. | Method for providing key moments in multimedia content and electronic device thereof |
CN112188117B (zh) * | 2020-08-29 | 2021-11-16 | 上海量明科技发展有限公司 | 视频合成方法、客户端及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998034181A2 (en) * | 1997-02-03 | 1998-08-06 | Koninklijke Philips Electronics N.V. | A method and device for keyframe-based video displaying using a video cursor frame in a multikeyframe screen |
WO1998034182A2 (en) * | 1997-02-03 | 1998-08-06 | Koninklijke Philips Electronics N.V. | A method and device for navigating through video matter by means of displaying a plurality of key-frames in parallel |
US5995659A (en) * | 1997-09-09 | 1999-11-30 | Siemens Corporate Research, Inc. | Method of searching and extracting text information from drawings |
KR20000038290A (ko) * | 1998-12-05 | 2000-07-05 | 구자홍 | 사건구간을 기반으로 하는 동영상 검색방법과 검색 데이타 구조 |
KR20000060674A (ko) * | 1999-03-18 | 2000-10-16 | 이준환 | 압축된 뉴스 영상의 장면전환 및 기사 검출방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6961954B1 (en) * | 1997-10-27 | 2005-11-01 | The Mitre Corporation | Automated segmentation, information extraction, summarization, and presentation of broadcast news |
US6363380B1 (en) * | 1998-01-13 | 2002-03-26 | U.S. Philips Corporation | Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser |
US6714909B1 (en) * | 1998-08-13 | 2004-03-30 | At&T Corp. | System and method for automated multimedia content indexing and retrieval |
US6243713B1 (en) * | 1998-08-24 | 2001-06-05 | Excalibur Technologies Corp. | Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types |
US6473778B1 (en) * | 1998-12-24 | 2002-10-29 | At&T Corporation | Generating hypermedia documents from transcriptions of television programs using parallel text alignment |
-
2001
- 2001-03-09 KR KR10-2001-0012184A patent/KR100374040B1/ko not_active IP Right Cessation
-
2002
- 2002-03-07 US US10/091,472 patent/US20020126203A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998034181A2 (en) * | 1997-02-03 | 1998-08-06 | Koninklijke Philips Electronics N.V. | A method and device for keyframe-based video displaying using a video cursor frame in a multikeyframe screen |
WO1998034182A2 (en) * | 1997-02-03 | 1998-08-06 | Koninklijke Philips Electronics N.V. | A method and device for navigating through video matter by means of displaying a plurality of key-frames in parallel |
US5995659A (en) * | 1997-09-09 | 1999-11-30 | Siemens Corporate Research, Inc. | Method of searching and extracting text information from drawings |
KR20000038290A (ko) * | 1998-12-05 | 2000-07-05 | 구자홍 | 사건구간을 기반으로 하는 동영상 검색방법과 검색 데이타 구조 |
KR20000060674A (ko) * | 1999-03-18 | 2000-10-16 | 이준환 | 압축된 뉴스 영상의 장면전환 및 기사 검출방법 |
Also Published As
Publication number | Publication date |
---|---|
US20020126203A1 (en) | 2002-09-12 |
KR20020072111A (ko) | 2002-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100411342B1 (ko) | 비디오 텍스트 합성 키프레임 생성방법 | |
KR100374040B1 (ko) | 비디오 텍스트 합성 키 프레임 추출방법 | |
Smith et al. | Video skimming and characterization through the combination of image and language understanding techniques | |
Yeung et al. | Video visualization for compact presentation and fast browsing of pictorial content | |
JP5031312B2 (ja) | 複数のフレームを含むビデオの要約を生成するための方法およびシステム | |
Smith et al. | Video skimming and characterization through the combination of image and language understanding | |
KR100915847B1 (ko) | 스트리밍 비디오 북마크들 | |
US7181757B1 (en) | Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing | |
Girgensohn et al. | Time-constrained keyframe selection technique | |
US8006267B2 (en) | Method of constructing information on associate meanings between segments of multimedia stream and method of browsing video using the same | |
US7356830B1 (en) | Method and apparatus for linking a video segment to another segment or information source | |
US20080075431A1 (en) | Metadata editing apparatus, metadata reproduction apparatus, metadata delivery apparatus, metadata search apparatus, metadata re-generation condition setting apparatus, metadata delivery method and hint information description method | |
KR20020075081A (ko) | 뉴스 비디오 브라우징 시스템에서 앵커 샷 자동 검출 방법 | |
US20040181545A1 (en) | Generating and rendering annotated video files | |
WO2001027876A1 (en) | Video summary description scheme and method and system of video summary description data generation for efficient overview and browsing | |
Zhang | Content-based video browsing and retrieval | |
Smeaton | Indexing, browsing and searching of digital video | |
Rasheed et al. | Video categorization using semantics and semiotics | |
Huayong | Content-based tv sports video retrieval based on audio-visual features and text information | |
Zhang | Video content analysis and retrieval | |
Yeo et al. | Analysis and synthesis for new digital video applications | |
Dimitrova et al. | Selective video content analysis and filtering | |
Dimitrova et al. | Visual Associations in DejaVideo | |
WO2006092752A2 (en) | Creating a summarized overview of a video sequence | |
Pande | Mapping of Low Level to High Level Audio-Visual Features: A Survey of the Literature |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
N231 | Notification of change of applicant | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20090105 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |