KR100836197B1 - 동영상 자막 검출 장치 및 그 방법 - Google Patents

동영상 자막 검출 장치 및 그 방법 Download PDF

Info

Publication number
KR100836197B1
KR100836197B1 KR1020060127735A KR20060127735A KR100836197B1 KR 100836197 B1 KR100836197 B1 KR 100836197B1 KR 1020060127735 A KR1020060127735 A KR 1020060127735A KR 20060127735 A KR20060127735 A KR 20060127735A KR 100836197 B1 KR100836197 B1 KR 100836197B1
Authority
KR
South Korea
Prior art keywords
caption
video
character
area
region
Prior art date
Application number
KR1020060127735A
Other languages
English (en)
Inventor
정철곤
리우치펑
김지연
김상균
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020060127735A priority Critical patent/KR100836197B1/ko
Priority to US11/763,689 priority patent/US20080143880A1/en
Priority to JP2007161582A priority patent/JP2008154200A/ja
Application granted granted Critical
Publication of KR100836197B1 publication Critical patent/KR100836197B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/08Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program

Abstract

본 발명에 따른 동영상 자막 검출 방법은, 입력 동영상의 소정의 프레임에 대하여 자막 후보 영역을 검출하는 단계; 상기 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝(scanning)을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증하는 단계; 상기 자막 영역으로부터 문자 영역을 검출하는 단계; 및 상기 문자 영역으로부터 소정의 문자 정보를 인식하는 단계를 포함하는 것을 특징으로 한다.
동영상, 스포츠, 선수명, 자막 영역, SVM(Support Vector Machine), CCA(Connected Component Analysis)

Description

동영상 자막 검출 장치 및 그 방법{APPARATUS FOR DETECTING CAPTION IN MOVING PICTURE AND METHOD OF OPERATING THE APPARATUS}
도 1은 본 발명의 일실시예에 따른 동영상 자막 검출 장치의 구성을 도시한 블록도.
도 2는 본 발명의 일실시예에 따른 동영상 자막 검출의 전체 개요를 도시한 도면.
도 3은 본 발명의 일실시예 따른 동영상의 자막 후보 검출 화면을 도시한 도면.
도 4는 본 발명의 일실시예 따라 검출된 자막 후보 영역에 대한 자막 검증 과정을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 이중 이진화 방법을 설명하기 위한 도면.
도 6은 도 5의 이중 이진화 방법의 일례를 나타내는 도면.
도 7은 본 발명의 일실시예에 따른 문자 인식 모듈의 구성을 도시한 블록도.
도 8은 본 발명의 일실시예에 따른 문자 인식 과정을 도시한 도면.
도 9는 본 발명의 일실시예에 따른 동영상 자막 검출 방법의 전체 흐름을 도시한 순서도.
도 10은 본 발명의 일실시예에 따른 자막 후보 영역 검출 방법의 흐름을 도 시한 순서도.
도 11은 본 발명의 일실시예에 따른 자막 영역 검증 방법의 흐름을 도시한 순서도.
도 12는 본 발명의 일실시예에 따른 이중 이진화에 의한 문자 영역 검출 방법의 흐름을 도시한 순서도.
도 13은 본 발명의 일실시예에 따른 문자 정보 인식 방법의 흐름을 도시한 순서도.
<도면의 주요 부분에 대한 부호의 설명>
100: 동영상 자막 검출 장치 110: 자막후보 검출 모듈
120: 자막 검증 모듈 130: 문자 검출 모듈
140: 문자 인식 모듈 150: 선수명 인식 모듈
160: 선수명 데이터베이스
본 발명은 동영상 자막 검출 장치 및 그 방법에 관한 것으로서, 더욱 상세하게는 자막 영역이 배경 영역으로부터 영향을 받는 반투명 자막의 경우에도 보다 정확하고 효율적으로 자막을 검출함으로써, 동영상 요약 및 검색 서비스에 효과적으로 활용할 수 있는 동영상 자막 검출 장치 및 그 방법에 관한 것이다.
동영상에는 컨텐츠 제공자에 의해 의도적으로 삽입된 많은 종류의 자막 (superimposed text)이 존재한다. 그러나, 동영상의 요약이나 검색을 위해 사용되는 자막은 이 중에서 일부의 자막이다. 이러한 자막을 통칭하여 중요 자막이라고 한다. 동영상의 요약 및 하이라이트 생성, 검색 등을 위하여 동영상에서 이러한 중요 자막을 검출할 필요가 있다.
예를 들어, 뉴스 기사에서 일정 테마의 기사나 야구와 같은 스포츠 경기에서 주요 장면을 쉽고 빠르게 재생, 편집할 수 있도록 하기 위하여 동영상에 포함된 중요 자막을 이용할 수 있다. 또한, 동영상에서 검출한 자막을 이용하여 PVR(Personal Video Recorder)이나 와이브로(WiBro) 단말, DMB 폰 등에서 맞춤형 방송 서비스가 실현될 수 있다.
일반적인 동영상의 자막 검출 방법에서는, 일정 시간 동안 위치 중복성을 보이는 영역을 판단하고 해당 영역으로부터 자막 내용을 검출한다. 예를 들어, 30초 동안 발생하는 자막 중에서 위치 중복성이 도미넌트(dominant)한 영역을 판정하고, 다음 30초 동안에 대하여 같은 과정을 반복해 가며 일정 시간 동안 누적시킴으로써, 목표 자막을 선택한다.
그러나, 이와 같은 종래 방법에서는, 목표 자막의 위치 중복성을 로컬 시간 영역에서만 탐색하므로, 자막 검출의 신뢰성이 떨어지는 문제점이 있다. 예를 들어, 뉴스의 앵커 타이틀이나 스포츠의 경기 상황 자막과 같은 목표 자막이 검출되어야 하지만, 이와 유사한 형태의 자막, 예를 들어, 방송사 로고나 광고 등이 존재하는 경우에 이를 목표 자막으로 검출하는 오류가 발생할 수 있다. 이에 따라, 스포츠의 스코어나 볼카운트와 같은 중요 자막 내용이 검출되지 않아 서비스의 신뢰 성을 떨어뜨릴 수 있다.
또한, 시간에 따라 목표 자막의 위치가 변하는 경우에는, 위와 같은 종래 방법으로는 해당 목표 자막을 검출할 수 없다는 문제점이 있다. 예를 들어, 골프 경기와 같은 동영상에서는 자막의 위치가 화면의 좌/우 또는 위/아래에 고정되지 않고 실시간 변하는 경우가 많으므로, 이때에는 자막의 시간적 위치 중복성 만으로는 목표 자막 검출에 실패할 확률이 높다.
이외에도, 스포츠 동영상의 경우, 선수명 자막의 컬러(color)패턴이 일정하다는 가정을 기반으로 검출된 자막 영역의 DCD(Dominant Color Descriptor)를 추출하여 클러스터링(clustering)을 하여 선수명 자막 영역을 결정하는 방법이 있다. 그러나, 선수명 자막 영역이 반투명 자막 영역일 경우, 컬러 패턴이 스포츠 동영상 전체에서 항상 일정하지 않다는 문제점이 있다. 즉, 반투명 자막일 경우, 선수명 자막 영역이 배경 영역의 컬러로부터 영향을 받기 때문에 같은 자막임에도 컬러 패턴이 다르게 설정될 수 있다. 따라서, 이와 같이 선수명 자막이 반투명 자막일 경우, 선수명 자막 검출 성능은 급격하게 저하될 수 있다는 문제점이 있다.
본 발명은 상기와 같은 종래 기술을 개선하기 위해 안출된 것으로서, 동영상 자막 문자의 인식 결과를 피쳐(feature)로 사용하여 배경 영역으로부터 영향을 받는 반투명 자막 또한 보다 정확하게 검출할 수 있는 동영상 자막 검출 장치 및 그 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 자막 영역 검증을 통해 인식해야 할 자막 영역의 개수를 최 소화함으로써, 처리 속도를 최대화할 수 있는 동영상 자막 검출 장치 및 그 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 검증된 자막 영역으로부터 연결 요소 분석(CCA: Connected Component Analysis)을 통해 문자 정보를 인식함으로써, 수평 투영으로는 인식할 수 없는 자막 또한 정확하게 검출할 수 있는 문자 인식 모듈을 포함하는 동영상 자막 검출 장치 및 그 방법을 제공하는 것을 목적으로 한다.
상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명에 따른 동영상 자막 검출 방법은, 입력 동영상의 소정의 프레임에 대하여 자막 후보 영역을 검출하는 단계; 상기 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝(scanning)을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증하는 단계; 상기 자막 영역으로부터 문자 영역을 검출하는 단계; 및 상기 문자 영역으로부터 소정의 문자 정보를 인식하는 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 동영상 자막 검출 방법은, 소정의 동영상 자막 영역으로부터 검출된 문자 영역에 대하여, 상기 문자 영역이 포함하는 문자 중 서로 연결된 문자를 하나의 영역으로 묶어 라인 단위 문자 영역을 생성하는 단계; 및 상기 라인 단위 문자 영역을 판독하여 소정의 문자 정보를 인식하는 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 동영상 자막 검출 장치는, 입력 동영상의 소정의 프레 임에 대하여 자막 후보 영역을 검출하는 자막 후보 검출 모듈; 상기 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 판정을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증하는 자막 검증 모듈; 및 상기 자막 영역으로부터 문자 영역을 검출하는 문자 검출 모듈; 및 상기 문자 영역으로부터 소정의 문자 정보를 인식하는 문자 인식 모듈을 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 문자 인식 모듈은, 소정의 동영상 자막 영역으로부터 검출된 문자 영역에 대하여, 상기 문자 영역이 포함하는 문자 중 서로 연결된 문자를 하나의 영역으로 묶어 라인 단위 문자 영역을 생성하는 라인 단위 문자 생성부; 및 상기 라인 단위 문자 영역을 판독하여 소정의 문자 정보를 인식하는 문자 정보 인식부를 포함하는 것을 특징으로 한다.
본 발명에 따른 동영상 자막 검출 장치 및 그 방법은 자막 검출을 필요로 하는 모든 동영상 서비스에서 구현될 수 있다. 즉, 동영상의 장르에 구애 받지 않고, 모든 장르의 동영상에 대해 구현될 수 있다. 다만, 본 명세서에서는 설명의 편의를 위하여 본 발명에 따른 동영상 자막 검출 장치 및 그 방법이 스포츠 동영상 중 골프 동영상의 선수명 자막을 검출하는 경우를 예로 들어 설명하기로 한다. 비록 골프 동영상의 선수명 자막 검출을 예로 들어 설명하지만, 본 발명에 따른 동영상 자막 검출 장치 및 그 방법은 자막을 포함하는 모든 동영상 내의 다양한 종류의 자막을 모두 검출할 수 있도록 구현될 수 있다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 1은 본 발명의 일실시예에 따른 동영상 자막 검출 장치의 구성을 도시한 블록도이다.
본 발명의 일실시예에 따른 동영상 자막 검출 장치(100)는 자막 후보 검출 모듈(110), 자막 검증 모듈(120), 문자 검출 모듈(130), 문자 인식 모듈(140), 선수명 인식 모듈(140), 및 선수명 데이터베이스(160)을 포함한다.
상술한 바와 같이, 본 명세서에서는 동영상 자막 검출 장치(100)가 스포츠 동영상 중 골프 동영상의 선수명 자막을 인식하는 경우를 예로 들어 설명한다. 따라서, 선수명 인식 모듈(150) 및 선수명 데이터베이스(160)는 상기 실시예에 따른 구성일 뿐, 본 발명에 따른 동영상 자막 검출 장치(100)의 필수 구성요소는 아니다.
본 발명의 포인트는 동영상 자막 검출 장치(100)가 도 2에 도시된 바와 같이, 스포츠 동영상(210)으로부터 자막 영역(220)을 검출하고, 자막 영역(220)이 포함하는 문자 정보인 선수명(230)을 인식하도록 동작하는데 있다. 이하에서는 이러한 스포츠 동영상 자막으로부터의 선수명 인식에 대한 동영상 자막 검출 장치(100)의 구성 및 동작에 대하여 상세히 설명한다.
도 3은 본 발명의 일실시예 따른 동영상의 자막 후보 검출 화면을 도시한 도면이다.
자막 후보 검출 모듈(110)은 입력 동영상의 소정의 프레임(310)에 대하여 자막 후보 영역을 검출한다. 상기 입력 동영상은 스포츠 동영상(골프 동영상)의 스트림 상에서 획득한 동영상이며, 동영상 중 전체 또는 일부 동영상으로 구현될 수 있다. 또한, 상기 동영상이 장면 단위로 분할된 경우, 각 장면마다 검출된 대표 영상으로 구현될 수도 있다.
자막 후보 검출 모듈(110)은 프레임(310)이 포함하는 문자의 에지 정보를 이용하여 고속으로 자막 후보 영역을 검출할 수 있다. 이를 위하여, 자막 후보 검출 모듈(110)은 소벨 에지 검출기(sobel edge detector)를 포함하여 구성될 수 잇다. 자막 후보 검출 모듈(110)은 상기 소벨 에지 검출기를 이용하여 상기 프레임으로부터 에지 맵(edge map)을 구성한다. 상기 소벨 에지 검출기를 통한 에지 맵의 구성 동작은 당업계에서 널리 사용되는 방법으로 구현될 수 있고, 본 발명의 요지를 벗어나므로 상세한 설명은 생략한다.
자막 후보 검출 모듈(110)은 상기 에지 맵을 선정된 사이즈(predetermined size)의 윈도우(3110)로 스캐닝(scanning)하여 에지가 많은 영역을 검출한다. 즉, 자막 후보 검출 모듈(110)은 상기 에지 맵에 대해 고정된 사이즈의 윈도우(예를 들어, 8*16 픽셀 사이즈)를 스위핑(sweeping)하며 자막 영역을 스캐닝(scanning)할 수 있다. 자막 후보 검출 모듈(110)은 상기 윈도우 스캐닝 도중 에지가 많은 영역, 즉, 주변과 큰 밝기차를 갖는 영역을 검출할 수 있다.
자막 후보 검출 모듈(110)은 상기 검출한 영역에 대해 연결 요소 분석(CCA: Connected Component Analysis)을 수행하여 자막 후보 영역을 검출한다. 상기 연결 요소 분석은 당업계에서 널리 사용되는 연결 요소 분석 방법과 동일하게 구현될 수 있다. 이러한 연결 요소 분석에 대한 설명은 본 발명의 요지를 벗어나므로 상세한 설명은 생략한다.
즉, 도 3에 도시된 바와 같이, 자막 후보 검출 모듈(110)은 상기 소벨 에지 검출기를 통한 상기 에지 맵 구성, 상기 윈도우 스캐닝, 및 상기 연결 요소 분석 동작을 통해, 자막 후보 영역(321 내지 323)을 검출할 수 있다.
그러나, 상기 검출한 자막 후보 영역은 에지 정보에 의해 검출된 것이므로, 실제 자막 영역이 아닌 것도 포함하고 있을 수 있고, 윈도우의 크기에 의해 문자 영역 이외에도 배경 영역을 많이 포함하고 있을 수 있다. 이에, 자막 검증 모듈(120)을 통해 상기 검출한 자막 후보 영역을 검증할 수 있다.
자막 검증 모듈(120)은 상기 검출한 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝(scanning)을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증한다. 자막 검증 모듈(120)의 상기 자막 검증 동작은 도 4를 참조하여 상세히 설명한다.
도 4는 본 발명의 일실시예 따라 검출된 자막 후보 영역에 대한 자막 검증 과정을 도시한 도면이다.
자막 검증 모듈(120)은 상기 검출한 자막 후보 영역의 에지 값을 수평 투영하여 검증 영역을 결정한다. 즉, 도 4의 (ⅰ)에 도시된 바와 같이, 자막 검증 모듈(120)은 자막 후보 영역의 에지 값을 프로젝션(projection)시켜 상기 검증 영역을 결정할 수 있다. 이 때, 상기 수평 투영한 픽셀의 개수에 대한 최대값을 L이라 하면, 임계값은 L/6으로 설정할 수 있다
자막 검증 모듈(120)은 상기 검증 영역에 대하여 SVM 스캐닝을 수행한다. 자막 검증 모듈(120)은 상기 검증 영역 중 에지 밀도가 높은 영역에 대하여 선정된 픽셀(pixel) 사이즈를 갖는 윈도우를 통해 상기 SVM 스캐닝을 수행할 수 있다. 상 기 에지 밀도가 높은 영역은 도 4의 (ⅱ)에 도시된 바와 같이 일반적으로 상기 검증 영역 중 문자가 기록된 영역인 제1 검증 영역(410) 및 제2 검증 영역(420)으로 설정될 수 있다.
자막 검증 모듈(120)은 제1 검증 영역(410) 및 제2 검증 영역(420)에 대하여 선정된 픽셀 사이즈를 갖는 윈도우를 통해 SVM 스캐닝을 수행한다. 예를 들어, 자막 검증 모듈(120)은 제1 검증 영역(410) 및 제2 검증 영역(420)의 높이를 15 픽셀로 정규화하고, 15*15 픽셀 사이즈를 갖는 윈도우에 대해 스캐닝하면서, SVM classifier에 의한 판정을 수행할 수 있다. 상기 SVM 스캐닝 시, 입력 특징치(feature)를 그레이 값을 사용할 수 있다.
상기 판정 결과, 억셉트된(accepted) 윈도우의 개수가 소정치(예를 들어 5개) 이상인 경우, 자막 검증 모듈(120)은 상기 자막 후보 영역을 자막 영역으로 검증한다. 예를 들어, 도 4의 (ⅲ)에 도시된 바와 같이, 제1 검증 영역(410)에 대해 상기 윈도우 스캐닝을 통해 상기 SVM classifier 판정을 수행한 결과, 억셉트(accepted)된 윈도우의 개수가 5개(411 내지 415)로 판정되었다면, 자막 검증 모듈(120)은 제1 검증 영역(410)을 자막 영역으로 검증할 수 있다.
또한, 제2 검증 영역(420)에 대해 상기 윈도우 스캐닝을 통해 상기 SVM classifier 판정을 수행한 결과, 억셉트(accepted)된 윈도우의 개수가 5개(421 내지 425)로 판정되었다면, 자막 검증 모듈(120)은 제2 검증 영역(410) 또한 자막 영역으로 검증할 수 있다.
이와 같이, 본 발명에 따른 동영상 자막 검출 장치는 자막 검증 모듈을 통해 자막 후보 영역으로부터 자막 영역을 검증한다. 따라서, 비자막 영역을 포함하는 자막 후보 영역으로부터 자막을 인식하는 동작을 사전에 방지함으로써, 자막 영역의 인식에 따른 처리 시간을 최소화할 수 있는 효과를 기대할 수 있다.
문자 검출 모듈(130)은 이중 이진화(double binarization)를 이용하여 상기 자막 영역으로부터 문자 영역을 검출한다. 즉, 문자 검출 모듈(130)은 선정된 두 개의 임계값들 각각에 따라 서로 반대의 그레이로 이진화하여 상기 자막 영역에 대해 이진화된 두 개의 영상들을 생성하고, 상기 이진화된 두 개의 영상들을 소정의 알고리즘에 따라 노이즈를 제거하며, 상기 노이즈가 제거된 두 개의 영상들을 합성하여 소정 영역들을 결정하고, 상기 결정된 영역들에 대하여 소정 크기로 영역 확장하여 상기 문자 영역을 검출할 수 있다. 이는 도 5 및 도 6을 참조하여 상세히 설명한다.
도 5는 본 발명의 일실시예에 따른 이중 이진화 방법을 설명하기 위한 도면이다.
도 6은 도 5의 이중 이진화 방법의 일례를 나타내는 도면이다.
상술한 바와 같이, 문자 검출 모듈(130)은 이중 이진화(double binarization)을 이용하여 자막 영역(630)으로부터 문자 영역을 추출할 수 있다. 상기 이중 이진화는 상반된 그레이(gray)를 가지는 문자 영역을 용이하게 검출하기 위한 방법으로서, 도 5에서와 같이 먼저, Otsu 방법 등에 의해 결정될 수 있는 두 개의 임계값, 예를 들어, 제1 임계값(TH1), 제2 임계값(TH2)에 따라 상기 선택된 목표 자막 후보 영역들(630)에 대하여 이진화를 수행한다(510).
자막 영역(630)은 도 6의 641 및 642와 같이 두 개의 영상으로 각각 이진화될 수 있다. 예를 들어, 자막 영역(630)에서, 각 화소(pixel)의 그레이가 상기 제1 임계값(TH1)보다 큰 경우에 그레이 0으로 변환시키고, 그렇지 않은 경우에 최고 그레이, 예를 들어, 8비트 데이터의 경우에 255로 변환시켜, 641 영상이 획득될 수 있다.
또한, 자막 영역(630)에서, 각 화소의 그레이가 상기 제2 임계값(TH2)보다 작은 경우에 그레이 0으로 변환시키고, 그렇지 않은 경우에 최고 그레이로 변환시켜, 642 영상이 획득될 수 있다.
위와 같이, 상기 자막 영역(630)에 대하여 이진화가 수행된 후 일정 보간 방법이나 알고리즘에 따라 노이즈가 제거된다(520). 다음에, 상기 이진화된 영상들 641 및 642를 합성(645)하여, 650과 같은 영역이 결정된다(530). 이와 같이 결정된 영역에 대하여 적절한 크기로 영역 확장(540)하여 원하는 문자 영역(660)을 검출할 수 있다.
이와 같이, 본 발명에 따른 동영상 자막 검출 장치(100)는 문자 검출 모듈(130)을 통해 자막 영역으로부터 이중 이진화(double binarization) 방법을 이용하여 문자 영역을 검출함으로써, 문자의 컬러 극성이 다른 경우에도 효율적으로 문자 영역을 검출할 수 있는 효과를 기대할 수 있다.
문자 인식 모듈(140)은 상기 문자 영역으로부터 소정의 문자 정보를 인식한다. 문자 인식 모듈(140)의 상기 문자 정보 인식에 대해서는 도 7 및 도 8을 참조하여 상세히 설명한다.
도 7은 본 발명의 일실시예에 따른 문자 인식 모듈의 구성을 도시한 블록도이다.
도 8은 본 발명의 일실시예에 따른 문자 인식 과정을 도시한 도면이다.
본 발명의 일실시예에 따른 문자 인식 모듈(140)은 라인 단위 문자 생성부(710), 문자 정보 인식부(720), 및 유사 단어 보상부(730)을 포함하여 구성될 수 있다.
라인 단위 문자 생성부(710)는 상기 문자 영역이 포함하는 문자 중 서로 연결된 문자를 하나의 영역으로 묶어 라인 단위 문자 영역을 생성한다. 즉, 라인 단위 문자 생성부(710)는 문자 영역을 광학 문자 판독기(OCR: Optical Character Recognizaer)을 통해 판독하기 위하여, 상기 문자 영역을 라인 단위의 문자 영역으로 재구성할 수 있다.
라인 단위 문자 생성부(710)는 분할된 문자 영역에 대하여 dilation을 수행하여 동일 문자열을 연결한다. 이 후, 라인 단위 문자 생성부(710)는 상기 연결된 문자를 하나의 영역으로 묶어 라인 단위 문자 영역을 생성할 수 있다.
예를 들어, 도 8의 (ⅰ) 및 (ⅱ)에 도시된 바와 같이, 라인 단위 문자 생성부(710)는 문자 영역이 포함하는 각 문자 중 동일 문자열을 연결하여 "13th" "KERR" "Par5", 및 "552Yds"와 같은 동일 문자열을 획득할 수 있다. 또한, 라인 단위 문자 생성부(710)는 상기 서로 연결된 동일 문자열에 대하여 연결 요소 분석(CCA: Connected Component Analysis)을 수행하여, 도 8의 (ⅲ)에 도시된 바와 같이 라인 단위 문자 영역을 생성할 수 있다.
이와 같이, 라인 단위 문자 생성부(710)는 종래의 방법과 같이 수평 투영에 의해 라인 단위 문자 영역을 생성하지 않고, 연결 요소 분석(CCA: Connected Component Analysis)을 통해 라인 단위 문자 영역을 생성함으로써, 도 8의 (ⅰ)와 같이 수평 투영 방법으로는 생성할 수 없는 문자 영역으로부터도 정확하게 문자 정보를 인식할 수 있는 효과를 기대할 수 있다. 상기 연결 요소 분석은 당업계에서 널리 사용되는 연결 요소 분석 방법과 동일하게 구현될 수 있으므로, 상세한 설명은 생략한다.
문자 정보 인식부(720)는 상기 라인 단위 문자 영역을 판독하여 소정의 문자 정보를 인식한다. 문자 정보 인식부(720)는 광학 문자 판독기(OCR: Optical Character Recognizaer)를 통해 상기 라인 단위 문자 영역을 판독할 수 있다. 따라서, 문자 정보 인식부(720)는 상기 광학 문자 판독기를 포함하여 구성될 수 있다. 상기 광학 문자 판독기를 이용한 라인 단위 문자 영역의 판독은 당업계에서 널리 사용되는 광학 문자 판독 방법과 동일하게 구현될 수 있으므로, 상세한 설명은 생략한다.
유사 단어 보상부(730)는 상기 인식한 문자 정보의 유사 단어를 보상한다. 예를 들어, 유사 단어 보상부(730)는 숫자 '0'을 문자 'O'로 보상하고, 숫자 '9'를 문자 'g'로 보상할 수 있다. 일례로, 인식하고자 하는 문자가 "Tiger Woods"인 경우, 문자 정보 인식부(720)가 상기 문자를 상기 광학 문자 판독기를 통해 인식한 결과는 "Tiger Woo0s"일 수 있다. 이 때, 유사 단어 보상부(730)는 상기 인식 결과의 문자 중 숫자 '0'를 문자 'o'로 보상하여 보다 정확한 문자 인식 결과를 도출 해 낼 수 있다.
선수명 데이터베이스(160)는 하나 이상의 스포츠 종목에 대한 각 선수명 정보를 유지한다. 선수명 데이터베이스(160)는 소정의 통신 모듈을 통해 외부서버로부터 선수명 정보를 수신하여 기록할 수 있다. 예를 들어, 선수명 데이터베이스(160)는 각 스포츠 종목의 협회(FIFA, PGA, LPGA, MLB 등)의 서버, 방송국 서버, 또는 EPG 서버에 접속하여 상기 각 스포츠 종목의 선수명 정보를 수신하여 기록할 수 있다. 또한, 선수명 데이터베이스(160)는 스포츠 동영상으로부터 판독한 선수명 정보를 기록할 수 있다. 예를 들어, 선수명 데이터베이스(160)는 스포츠 동영상의 리더 보드(leader board) 자막을 통해 선수명 정보를 판독하여 기록할 수 있다.
선수명 인식 모듈(150)은 상기 인식된 문자 정보와 가장 유사도가 높은 선수명을 선수명 데이터베이스(160)로부터 추출한다. 선수명 인식 모듈(150)은 워드 단위의 스트링 매칭을 통해 상기 문자 정보와 가장 유사도가 높은 선수명을 선수명 데이터베이스(160)로부터 추출할 수 있다. 선수명 인식 모듈(150)은 풀 네임 매칭(full name matching) 및 패밀리 네임 매칭(family name matching)의 순서로 상기 워드 단위 스트링 매칭을 수행할 수 있다. 상기 풀 네임 매칭은 2 단어 내지 3 단어의 풀 네임 전체 매칭(예를 들어, Tiger Woods)으로 구현될 수 있고, 상기 패밀리 네임 매칭은 1단어(예를 들어, Woods)의 패밀리 네임 매칭으로 구현될 수 있다.
지금까지 도 1 내지 도 8을 참조하여 본 발명의 일실시예에 따른 동영상 자막 검출 장치의 구성 및 동작에 대해 설명하였다. 이하에서는, 상기 동영상 검출 장치에 따른 본 발명의 동영상 자막 검출 방법의 흐름에 대해 도 9 내지 도 13을 참조하여 간략하게 설명한다.
도 9는 본 발명의 일실시예에 따른 동영상 자막 검출 방법의 전체 흐름을 도시한 순서도이다.
본 발명의 일실시예에 따른 동영상 자막 검출 장치는 입력 동영상의 소정의 프레임에 대하여 자막 후보 영역을 검출한다(단계(910)). 상기 입력 동영상은 스포츠 동영상으로 구현될 수 있다. 단계(910)은 도 10을 참조하여 상세히 설명한다.
도 10은 본 발명의 일실시예에 따른 자막 후보 영역 검출 방법의 흐름을 도시한 순서도이다.
상기 동영상 자막 검출 장치는 상기 프레임에 대해 소벨 에지(sobel edge) 검출을 수행하여 에지 맵(edge map)을 구성한다(단계(1011)). 이 후, 상기 동영상 자막 검출 장치는 상기 에지 맵을 선정된 사이즈(predetermined size)의 윈도우로 스캐닝(scanning)하여 에지가 많은 영역을 검출한다(단계(1012)). 상기 동영상 자막 검출 장치는 상기 검출한 영역에 대해 연결 요소 분석(CCA: Connected Component Analysis)을 수행하여 자막 후보 영역을 검출한다(단계(1013)).
다시 도 9에서, 상기 동영상 자막 검출 장치는 상기 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝(scanning)을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증한다(단계(920)). 단계(920)은 도 11을 참조하여 상세히 설명한다.
도 11은 본 발명의 일실시예에 따른 자막 영역 검증 방법의 흐름을 도시한 순서도이다.
상기 동영상 자막 검출 장치는 상기 자막 후보 영역의 에지 값을 수평 투영하여 검증 영역을 결정한다(단계(1111)). 상기 동영상 자막 검출 장치는 상기 검증 영역 중 에지 밀도가 높은 영역에 대하여 선정된 픽셀(pixel) 사이즈를 갖는 윈도우를 통해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝을 수행한다(단계(1112)). 상기 동영상 자막 검출 장치는 상기 스캐닝 결과 억셉트된(accepted) 윈도우의 개수가 소정치 이상인 경우, 상기 자막 후보 영역을 자막 영역으로 검증한다(단계(1113)).
다시 도 9에서, 상기 동영상 자막 검출 장치는 상기 자막 영역으로부터 문자 영역을 검출한다(단계(930)). 상기 동영상 자막 검출 장치는 이중 이진화(double binarization)를 이용하여 상기 자막 영역으로부터 문자 영역을 검출할 수 있다. 이는 도 12를 참조하여 상세히 설명한다.
도 12는 본 발명의 일실시예에 따른 이중 이진화에 의한 문자 영역 검출 방법의 흐름을 도시한 순서도이다.
상기 동영상 자막 검출 장치는 선정된 두 개의 임계값들 각각에 따라 서로 반대의 그레이로 이진화하여 상기 자막 영역에 대해 이진화된 두 개의 영상들을 생성한다(단계(1211)). 상기 동영상 자막 검출 장치는 상기 이진화된 두 개의 영상들을 소정의 알고리즘에 따라 노이즈를 제거한다(단계(1212)). 상기 동영상 자막 검출 장치는 상기 노이즈가 제거된 두 개의 영상들을 합성하여 소정 영역들을 결정한다(단계(1213)). 상기 동영상 자막 검출 장치는 상기 결정된 영역들에 대하여 소정 크기로 영역 확장하여 상기 문자 영역을 검출한다(단계(1214)).
다시 도 9에서, 상기 동영상 자막 검출 장치는 상기 문자 영역으로부터 소정의 문자 정보를 인식한다(단계(940)). 이는 도 13을 참조하여 상세히 설명한다.
도 13은 본 발명의 일실시예에 따른 문자 정보 인식 방법의 흐름을 도시한 순서도이다.
상기 동영상 자막 검출 장치는 상기 문자 영역이 포함하는 문자 중 서로 연결된 문자를 하나의 영역으로 묶어 라인 단위 문자 영역을 생성한다(단계(1311)). 단계(1311)에서, 상기 동영상 자막 검출 장치는 상기 서로 연결된 문자가 하나로 묶인 상기 영역에 대하여 연결 요소 분석(CCA: Connected Component Analysis)를 수행하여 상기 라인 단위 문자 영역을 생성할 수 있다.
상기 동영상 자막 검출 장치는 광학 문자 판독기(OCR: Optical Character Recognizaer)를 통해 상기 라인 문자 영역을 판독하여 소정의 문자 정보를 인식한다(단계(1312)). 상기 동영상 자막 검출 장치는 상기 인식한 문자 정보의 유사 단어를 보상한다(단계(1313)).
다시 도 9에서, 상기 동영상 자막 검출 장치는 하나 이상의 스포츠 종목에 대한 각 선수명 정보를 유지하는 선수명 데이터베이스를 유지한다. 상기 동영상 자막 검출 장치는 소정의 외부 서버로부터 소정의 선수명 정보를 수신하여 상기 선수명 데이터베이스에 기록할 수 있고, 상기 스포츠 동영상에 포함된 선수명 자막으로부터 소정의 선수명 정보를 판독하여 상기 선수명 데이터베이스에 기록할 수 있다.
상기 동영상 자막 검출 장치는 상기 인식된 상기 문자 정보와 가장 유사도가 높은 선수명을 상기 선수명 데이터베이스로부터 추출한다. 상기 동영상 자막 검출 장치는 상기 워드 단위의 스트링 매칭은 풀 네임 매칭(full name matching) 및 패밀리 네임 매칭(family name matching)의 순서로 수행하여 상기 문자 정보와 가장 유사도가 높은 선수명을 상기 선수명 데이터베이스로부터 추출하여, 상기 문자 정보로부터 선수명을 인식할 수 있다(단계(950)).
비록 간단하게 설명하였지만, 이상 도 9 내지 도 13을 통해 설명한 본 발명에 따른 동영상 자막 검출 방법은 도 1 내지 도 8을 통해 설명한 본 발명에 따른 동영상 자막 검출 장치의 구성 및 동작을 모두 포함하도록 구현될 수 있음은 당업자에게 있어 자명하다.
또한, 본 발명에 따른 동영상 자막 검출 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
지금까지 본 발명에 따른 구체적인 실시예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서는 여러 가지 변형이 가능함은 물론이다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며, 후술하는 특허청구의 범위뿐 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
본 발명의 동영상 자막 검출 장치 및 그 방법에 따르면, 동영상 자막 문자의 인식 결과를 피쳐(feature)로 사용하여 배경 영역으로부터 영향을 받는 반투명 자막 또한 보다 정확하게 검출할 수 있는 효과를 얻을 수 있다.
또한, 본 발명의 동영상 자막 검출 장치 및 그 방법에 따르면, 자막 영역 검증을 통해 인식해야 할 자막 영역의 개수를 최소화함으로써, 처리 속도를 최대화할 수 있는 효과를 얻을 수 있다.
또한, 본 발명의 동영상 자막 검출 장치 및 그 방법에 따르면, 검증된 자막 영역으로부터 연결 요소 분석(CCA: Connected Component Analysis)을 통해 문자 정보를 인식함으로써, 수평 투영으로는 인식할 수 없는 자막 또한 정확하게 검출할 수 있는 효과를 얻을 수 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (31)

  1. 입력 동영상의 소정의 프레임에 대하여 자막 후보 영역을 검출하는 단계;
    상기 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝(scanning)을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증하는 단계;
    상기 자막 영역으로부터 문자 영역을 검출하는 단계; 및
    상기 문자 영역으로부터 소정의 문자 정보를 인식하는 단계
    를 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
  2. 제1항에 있어서,
    상기 입력 동영상은 스포츠 동영상인 것을 특징으로 하는 동영상의 자막 검출 방법.
  3. 제1항에 있어서,
    상기 입력 동영상의 소정의 프레임에 대하여 자막 후보 영역을 검출하는 상기 단계는,
    상기 프레임에 대해 소벨 에지(sobel edge) 검출을 수행하여 에지 맵(edge map)을 구성하는 단계; 및
    상기 에지 맵을 선정된 사이즈(predetermined size)의 윈도우로 스캐닝 (scanning)하여 에지가 많은 영역을 검출하는 단계; 및
    상기 검출한 영역에 대해 연결 요소 분석(CCA: Connected Component Analysis)을 수행하여 자막 후보 영역을 검출하는 단계
    를 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
  4. 제1항에 있어서,
    상기 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝(scanning)을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증하는 상기 단계는,
    상기 자막 후보 영역의 에지 값을 수평 투영하여 검증 영역을 결정하는 단계;
    상기 검증 영역 중 에지 밀도가 높은 영역에 대하여 선정된 픽셀(pixel) 사이즈를 갖는 윈도우를 통해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝을 수행하는 단계; 및
    상기 스캐닝 결과 억셉트된(accepted) 윈도우의 개수가 소정치 이상인 경우, 상기 자막 후보 영역을 자막 영역으로 검증하는 단계
    를 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
  5. 제1항에 있어서,
    상기 자막 영역으로부터 문자 영역을 검출하는 상기 단계는, 이중 이진화 (double binarization)를 이용하여 상기 자막 영역으로부터 문자 영역을 검출하는 것을 특징으로 하는 동영상의 자막 검출 방법.
  6. 제5항에 있어서,
    상기 이중 이진화는,
    선정된 두 개의 임계값들 각각에 따라 서로 반대의 그레이로 이진화하여 상기 자막 영역에 대해 이진화된 두 개의 영상들을 생성하는 단계;
    상기 이진화된 두 개의 영상들을 소정의 알고리즘에 따라 노이즈를 제거하는 단계;
    상기 노이즈가 제거된 두 개의 영상들을 합성하여 소정 영역들을 결정하는 단계; 및
    상기 결정된 영역들에 대하여 소정 크기로 영역 확장하여 상기 문자 영역을 검출하는 단계
    를 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
  7. 제1항에 있어서,
    상기 문자 영역으로부터 소정의 문자 정보를 인식하는 상기 단계는,
    상기 문자 영역이 포함하는 문자 중 서로 연결된 문자를 하나의 영역으로 묶어 라인 단위 문자 영역을 생성하는 단계;
    광학 문자 판독기(OCR: Optical Character Recognizaer)를 통해 상기 라인 문자 영역을 판독하여 소정의 문자 정보를 인식하는 단계; 및
    상기 인식한 문자 정보의 유사 단어를 보상하는 단계
    를 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
  8. 제7항에 있어서,
    상기 라인 단위 문자 영역을 생성하는 상기 단계는,
    상기 서로 연결된 문자가 하나로 묶인 상기 영역에 대하여 연결 요소 분석(CCA: Connected Component Analysis)를 수행하여 상기 라인 단위 문자 영역을 생성하는 단계
    를 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
  9. 제2항에 있어서,
    하나 이상의 스포츠 종목에 대한 각 선수명 정보를 유지하는 선수명 데이터베이스를 유지하는 단계; 및
    상기 인식된 상기 문자 정보와 가장 유사도가 높은 선수명을 상기 선수명 데이터베이스로부터 추출하는 단계
    를 더 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
  10. 제9항에 있어서,
    상기 유사도 측정은 워드 단위의 스트링 매칭을 통해 수행되며,
    상기 워드 단위의 스트링 매칭은 풀 네임 매칭(full name matching) 및 패밀리 네임 매칭(family name matching)의 순서로 수행되는 것을 특징으로 하는 동영상의 자막 검출 방법.
  11. 제9항에 있어서,
    상기 선수명 데이터베이스를 유지하는 상기 단계는,
    소정의 외부 서버로부터 소정의 선수명 정보를 수신하여 상기 선수명 데이터베이스에 기록하는 단계; 및
    상기 스포츠 동영상에 포함된 선수명 자막으로부터 소정의 선수명 정보를 판독하여 상기 선수명 데이터베이스에 기록하는 단계
    를 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 제1항 내지 제11항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
  17. 입력 동영상의 소정의 프레임에 대하여 자막 후보 영역을 검출하는 자막 후보 검출 모듈;
    상기 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 판정을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증하는 자 막 검증 모듈; 및
    상기 자막 영역으로부터 문자 영역을 검출하는 문자 검출 모듈; 및
    상기 문자 영역으로부터 소정의 문자 정보를 인식하는 문자 인식 모듈
    를 포함하는 것을 특징으로 하는 동영상 자막 검출 장치.
  18. 제17항에 있어서,
    상기 입력 동영상은 스포츠 동영상인 것을 특징으로 하는 동영상 자막 검출 장치.
  19. 제17항에 있어서,
    상기 자막 후보 검출 모듈은 소벨 에지 검출기(sobel edge detector)를 포함하고, 상기 소벨 에지 검출기를 통해 상기 프레임으로부터 에지 맵(edge map)을 구성하며, 상기 에지 맵을 선정된 사이즈(predetermined size)의 윈도우로 스캐닝(scanning)하여 에지가 많은 영역을 생성한 후 연결 요소 분석(CCA: Connected Component Analysis)을 통해 상기 자막 후보 영역을 검출하는 것을 특징으로 하는 동영상 자막 검출 장치.
  20. 제17항에 있어서,
    상기 자막 검증 모듈은 상기 자막 후보 영역의 에지 값을 수평 투영하여 검증 영역을 결정하고, 상기 검증 영역 중 에지 밀도가 높은 영역에 대하여 선정된 픽셀(pixel) 사이즈를 갖는 윈도우를 통해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝을 수행하며, 상기 스캐닝 결과 억셉트된(accepted) 윈도우의 개수가 소정치 이상인 경우, 상기 자막 후보 영역을 자막 영역으로 검증하는 것을 특징으로 하는 동영상 자막 검출 장치.
  21. 제17항에 있어서,
    상기 문자 검출 모듈은 이중 이진화(double binarization)를 이용하여 상기 자막 영역으로부터 문자 영역을 검출하는 것을 특징으로 하는 동영상 자막 검출 장치.
  22. 제21항에 있어서,
    상기 문자 검출 모듈은 선정된 두 개의 임계값들 각각에 따라 서로 반대의 그레이로 이진화하여 상기 자막 영역에 대해 이진화된 두 개의 영상들을 생성하고, 상기 이진화된 두 개의 영상들을 소정의 알고리즘에 따라 노이즈를 제거하며, 상기 노이즈가 제거된 두 개의 영상들을 합성하여 소정 영역들을 결정하고, 상기 결정된 영역들에 대하여 소정 크기로 영역 확장하여 상기 문자 영역을 검출하는 것을 특징으로 하는 동영상 자막 검출 장치.
  23. 제17항에 있어서,
    상기 문자 인식 모듈은 상기 문자 영역이 포함하는 문자 중 서로 연결된 문 자를 하나의 영역으로 묶어 라인 단위 문자 영역을 생성하고, 광학 문자 판독기(OCR: Optical Character Recognizaer)를 통해 상기 라인 문자 영역을 판독하여 소정의 문자 정보를 인식하며, 상기 인식한 문자 정보의 유사 단어를 보상하는 것을 특징으로 하는 동영상 자막 검출 장치.
  24. 제23항에 있어서,
    상기 문자 인식 모듈은 상기 서로 연결된 문자를 하나로 묶은 상기 영역에 대하여 연결 요소 분석(CCA: Connected Component Analysis)를 수행하여 상기 라인 단위 문자 영역을 생성하는 것을 특징으로 하는 동영상 자막 검출 장치.
  25. 제18항에 있어서,
    하나 이상의 스포츠 종목에 대한 각 선수명 정보를 유지하는 선수명 데이터베이스; 및
    상기 인식된 상기 문자 정보와 가장 유사도가 높은 선수명을 상기 선수명 데이터베이스로부터 추출하는 선수명 인식 모듈
    를 더 포함하는 것을 특징으로 하는 동영상의 자막 검출 장치.
  26. 제25항에 있어서,
    상기 선수명 인식 모듈은 풀 네임 매칭(full name matching) 및 패밀리 네임 매칭(family name matching)의 순서로 수행되는 워드 단위의 스트링 매칭을 통해 상기 문자 정보와 가장 유사도가 높은 선수명을 상기 선수명 데이터베이스로부터 추출하는 것을 특징으로 하는 동영상 자막 검출 장치.
  27. 제25항에 있어서,
    상기 선수명 인식 모듈은 소정의 통신 모듈을 통해 외부 서버로부터 소정의 선수명 정보를 수신하여 상기 선수명 데이터베이스에 기록하고, 상기 스포츠 동영상에 포함된 선수명 자막으로부터 판독된 선수명 정보를 상기 선수명 데이터베이스에 기록하는 것을 특징으로 하는 동영상 자막 검출 장치.
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
KR1020060127735A 2006-12-14 2006-12-14 동영상 자막 검출 장치 및 그 방법 KR100836197B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020060127735A KR100836197B1 (ko) 2006-12-14 2006-12-14 동영상 자막 검출 장치 및 그 방법
US11/763,689 US20080143880A1 (en) 2006-12-14 2007-06-15 Method and apparatus for detecting caption of video
JP2007161582A JP2008154200A (ja) 2006-12-14 2007-06-19 動画像の字幕検出装置およびその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060127735A KR100836197B1 (ko) 2006-12-14 2006-12-14 동영상 자막 검출 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR100836197B1 true KR100836197B1 (ko) 2008-06-09

Family

ID=39526663

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060127735A KR100836197B1 (ko) 2006-12-14 2006-12-14 동영상 자막 검출 장치 및 그 방법

Country Status (3)

Country Link
US (1) US20080143880A1 (ko)
JP (1) JP2008154200A (ko)
KR (1) KR100836197B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110076625A (ko) * 2009-12-29 2011-07-06 삼성전자주식회사 문자 인식 영역 검출 장치 및 문자 인식 방법
KR20190049248A (ko) * 2017-11-01 2019-05-09 삼성전자주식회사 전자 장치 및 이의 제어방법

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101527800B (zh) * 2009-03-31 2011-01-05 西安交通大学 一种获取基于h.264/avc压缩视频字幕的方法
JP5556262B2 (ja) * 2010-03-15 2014-07-23 オムロン株式会社 画像属性判別装置、属性判別支援装置、画像属性判別方法、属性判別支援装置の制御方法、および、制御プログラム
CN102208023B (zh) * 2011-01-23 2013-05-08 浙江大学 基于边缘信息和分布熵的视频字幕识别设计方法
US9373039B2 (en) * 2011-04-18 2016-06-21 Supponor Oy Detection of graphics added to a video signal
CA2831816A1 (en) * 2011-04-18 2012-10-26 Supponor Oy Detection of graphics added to a video signal
CN103116597A (zh) * 2011-11-14 2013-05-22 马维尔国际有限公司 基于图片的信息获取装置和方法
US20140002460A1 (en) * 2012-06-27 2014-01-02 Viacom International, Inc. Multi-Resolution Graphics
US9124856B2 (en) 2012-08-31 2015-09-01 Disney Enterprises, Inc. Method and system for video event detection for contextual annotation and synchronization
CN102883213B (zh) * 2012-09-13 2018-02-13 中兴通讯股份有限公司 字幕提取方法及装置
US9866899B2 (en) 2012-09-19 2018-01-09 Google Llc Two way control of a set top box
US9788055B2 (en) 2012-09-19 2017-10-10 Google Inc. Identification and presentation of internet-accessible content associated with currently playing television programs
US10735792B2 (en) * 2012-09-19 2020-08-04 Google Llc Using OCR to detect currently playing television programs
GB2511792B (en) * 2013-03-13 2015-11-18 Supponor Oy Method and Apparatus for Dynamic Image Content Manipulation
CN103258187A (zh) * 2013-04-16 2013-08-21 华中科技大学 一种基于hog特征的电视台标识别方法
US9213907B2 (en) * 2013-06-28 2015-12-15 Google Inc. Hierarchical classification in credit card data extraction
JP6260292B2 (ja) * 2014-01-20 2018-01-17 富士通株式会社 情報処理プログラム、方法、及び装置、並びに野球映像メタ情報作成装置、方法、及びプログラム
US9904956B2 (en) 2014-07-15 2018-02-27 Google Llc Identifying payment card categories based on optical character recognition of images of the payment cards
US9471990B1 (en) * 2015-10-20 2016-10-18 Interra Systems, Inc. Systems and methods for detection of burnt-in text in a video
WO2017146454A1 (ko) * 2016-02-26 2017-08-31 삼성전자 주식회사 컨텐트를 인식하는 방법 및 장치
CN106658196A (zh) * 2017-01-11 2017-05-10 北京小度互娱科技有限公司 基于视频内嵌字幕来嵌入广告的方法及装置
CN108377419B (zh) * 2018-02-28 2021-01-22 北京奇艺世纪科技有限公司 一种直播流中新闻标题的定位方法及装置
JP6994993B2 (ja) * 2018-03-22 2022-01-14 株式会社日立国際電気 放送用編集装置、放送システム及び画像処理方法
GB2579816B (en) 2018-12-14 2021-11-10 Sony Interactive Entertainment Inc Player identification system and method
US11087161B2 (en) 2019-01-25 2021-08-10 Gracenote, Inc. Methods and systems for determining accuracy of sport-related information extracted from digital video frames
US11010627B2 (en) * 2019-01-25 2021-05-18 Gracenote, Inc. Methods and systems for scoreboard text region detection
US11036995B2 (en) 2019-01-25 2021-06-15 Gracenote, Inc. Methods and systems for scoreboard region detection
US11805283B2 (en) 2019-01-25 2023-10-31 Gracenote, Inc. Methods and systems for extracting sport-related information from digital video frames
US10997424B2 (en) 2019-01-25 2021-05-04 Gracenote, Inc. Methods and systems for sport data extraction
US11625928B1 (en) * 2020-09-01 2023-04-11 Amazon Technologies, Inc. Language agnostic drift correction
CN112232260A (zh) * 2020-10-27 2021-01-15 腾讯科技(深圳)有限公司 字幕区域识别方法、装置、设备及存储介质
CN113259756B (zh) * 2021-06-25 2021-09-17 大学长(北京)网络教育科技有限公司 一种在线课程的录制方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194851A (ja) 1998-12-24 2000-07-14 Nippon Telegr & Teleph Corp <Ntt> 文字領域抽出方法および装置およびこの方法を記録した記録媒体
KR20000060673A (ko) * 1999-03-18 2000-10-16 이준환 압축된 뉴스 영상에서의 문자영역 추출 및 문자 인식방법
KR20050111186A (ko) * 2004-05-21 2005-11-24 삼성전자주식회사 영상의 문자 추출 장치 및 방법

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69519980T2 (de) * 1994-12-28 2001-06-07 Siemens Corp Res Inc Verfahren und Gerät zur Detektion und Interpretation von Untertiteln in digitalen Videosignalen
JP3544324B2 (ja) * 1999-09-08 2004-07-21 日本電信電話株式会社 文字列情報抽出装置及び方法及びその方法を記録した記録媒体
AU2001283004A1 (en) * 2000-07-24 2002-02-05 Vivcom, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
AU2002351310A1 (en) * 2001-12-06 2003-06-23 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
US7336890B2 (en) * 2003-02-19 2008-02-26 Microsoft Corporation Automatic detection and segmentation of music videos in an audio/video stream
KR100537520B1 (ko) * 2004-02-18 2005-12-19 삼성전자주식회사 동영상의 자막 검출 방법 및 장치
US20080095442A1 (en) * 2004-11-15 2008-04-24 Koninklijke Philips Electronics, N.V. Detection and Modification of Text in a Image
JP2007150724A (ja) * 2005-11-28 2007-06-14 Toshiba Corp 映像視聴支援システムおよび方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194851A (ja) 1998-12-24 2000-07-14 Nippon Telegr & Teleph Corp <Ntt> 文字領域抽出方法および装置およびこの方法を記録した記録媒体
KR20000060673A (ko) * 1999-03-18 2000-10-16 이준환 압축된 뉴스 영상에서의 문자영역 추출 및 문자 인식방법
KR20050111186A (ko) * 2004-05-21 2005-11-24 삼성전자주식회사 영상의 문자 추출 장치 및 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110076625A (ko) * 2009-12-29 2011-07-06 삼성전자주식회사 문자 인식 영역 검출 장치 및 문자 인식 방법
KR101645994B1 (ko) * 2009-12-29 2016-08-05 삼성전자주식회사 문자 인식 영역 검출 장치 및 문자 인식 방법
KR20190049248A (ko) * 2017-11-01 2019-05-09 삼성전자주식회사 전자 장치 및 이의 제어방법
US11367283B2 (en) 2017-11-01 2022-06-21 Samsung Electronics Co., Ltd. Electronic device and control method thereof
KR102414783B1 (ko) * 2017-11-01 2022-06-30 삼성전자주식회사 전자 장치 및 이의 제어방법

Also Published As

Publication number Publication date
US20080143880A1 (en) 2008-06-19
JP2008154200A (ja) 2008-07-03

Similar Documents

Publication Publication Date Title
KR100836197B1 (ko) 동영상 자막 검출 장치 및 그 방법
Xu et al. Live sports event detection based on broadcast video and web-casting text
US20070201764A1 (en) Apparatus and method for detecting key caption from moving picture to provide customized broadcast service
US7184100B1 (en) Method of selecting key-frames from a video sequence
US8126294B2 (en) Video structuring device
Lienhart et al. Automatic text recognition in digital videos
Agnihotri et al. Text detection for video analysis
US6608930B1 (en) Method and system for analyzing video content using detected text in video frames
US7707485B2 (en) System and method for dynamic transrating based on content
JP4643829B2 (ja) ビデオフレーム中の検出されたテキストを使用してビデオコンテンツを分析するシステム及び方法
KR100636910B1 (ko) 동영상검색시스템
US20080095442A1 (en) Detection and Modification of Text in a Image
Yang et al. Lecture video indexing and analysis using video ocr technology
US7876381B2 (en) Telop collecting apparatus and telop collecting method
US20080267452A1 (en) Apparatus and method of determining similar image
CN1996483A (zh) 用于处理视频流的方法和设备
Gibert et al. Sports video classification using HMMs
JP2004520756A (ja) マルチメディアの手掛かりを利用したテレビ番組をセグメント化及びインデクス化する方法
KR100975327B1 (ko) 프레임의 특정 방법
JP2011203790A (ja) 画像照合装置
KR101472014B1 (ko) 비디오 컨텐츠의 재생 화면에 포함된 텍스트를 이용하여 검색을 수행하는 장치 및 방법
Özay et al. Automatic TV logo detection and classification in broadcast videos
US20080118233A1 (en) Video player
JP2000182053A (ja) 映像処理方法及び装置並びに映像処理手順を記録した記録媒体
US20070292027A1 (en) Method, medium, and system extracting text using stroke filters

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130530

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140529

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150528

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160530

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee