KR100836197B1

KR100836197B1 - 동영상 자막 검출 장치 및 그 방법

Info

Publication number: KR100836197B1
Application number: KR1020060127735A
Authority: KR
Inventors: 정철곤; 리우치펑; 김지연; 김상균
Original assignee: 삼성전자주식회사
Priority date: 2006-12-14
Filing date: 2006-12-14
Publication date: 2008-06-09
Also published as: US20080143880A1; JP2008154200A

Abstract

본 발명에 따른 동영상 자막 검출 방법은, 입력 동영상의 소정의 프레임에 대하여 자막 후보 영역을 검출하는 단계; 상기 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝(scanning)을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증하는 단계; 상기 자막 영역으로부터 문자 영역을 검출하는 단계; 및 상기 문자 영역으로부터 소정의 문자 정보를 인식하는 단계를 포함하는 것을 특징으로 한다.

동영상, 스포츠, 선수명, 자막 영역, SVM(Support Vector Machine), CCA(Connected Component Analysis)

Description

동영상 자막 검출 장치 및 그 방법{APPARATUS FOR DETECTING CAPTION IN MOVING PICTURE AND METHOD OF OPERATING THE APPARATUS}

도 1은 본 발명의 일실시예에 따른 동영상 자막 검출 장치의 구성을 도시한 블록도.

도 2는 본 발명의 일실시예에 따른 동영상 자막 검출의 전체 개요를 도시한 도면.

도 3은 본 발명의 일실시예 따른 동영상의 자막 후보 검출 화면을 도시한 도면.

도 4는 본 발명의 일실시예 따라 검출된 자막 후보 영역에 대한 자막 검증 과정을 도시한 도면.

도 5는 본 발명의 일실시예에 따른 이중 이진화 방법을 설명하기 위한 도면.

도 6은 도 5의 이중 이진화 방법의 일례를 나타내는 도면.

도 7은 본 발명의 일실시예에 따른 문자 인식 모듈의 구성을 도시한 블록도.

도 8은 본 발명의 일실시예에 따른 문자 인식 과정을 도시한 도면.

도 9는 본 발명의 일실시예에 따른 동영상 자막 검출 방법의 전체 흐름을 도시한 순서도.

도 10은 본 발명의 일실시예에 따른 자막 후보 영역 검출 방법의 흐름을 도 시한 순서도.

도 11은 본 발명의 일실시예에 따른 자막 영역 검증 방법의 흐름을 도시한 순서도.

도 12는 본 발명의 일실시예에 따른 이중 이진화에 의한 문자 영역 검출 방법의 흐름을 도시한 순서도.

도 13은 본 발명의 일실시예에 따른 문자 정보 인식 방법의 흐름을 도시한 순서도.

<도면의 주요 부분에 대한 부호의 설명>

100: 동영상 자막 검출 장치 110: 자막후보 검출 모듈

120: 자막 검증 모듈 130: 문자 검출 모듈

140: 문자 인식 모듈 150: 선수명 인식 모듈

160: 선수명 데이터베이스

본 발명은 동영상 자막 검출 장치 및 그 방법에 관한 것으로서, 더욱 상세하게는 자막 영역이 배경 영역으로부터 영향을 받는 반투명 자막의 경우에도 보다 정확하고 효율적으로 자막을 검출함으로써, 동영상 요약 및 검색 서비스에 효과적으로 활용할 수 있는 동영상 자막 검출 장치 및 그 방법에 관한 것이다.

동영상에는 컨텐츠 제공자에 의해 의도적으로 삽입된 많은 종류의 자막 (superimposed text)이 존재한다. 그러나, 동영상의 요약이나 검색을 위해 사용되는 자막은 이 중에서 일부의 자막이다. 이러한 자막을 통칭하여 중요 자막이라고 한다. 동영상의 요약 및 하이라이트 생성, 검색 등을 위하여 동영상에서 이러한 중요 자막을 검출할 필요가 있다.

예를 들어, 뉴스 기사에서 일정 테마의 기사나 야구와 같은 스포츠 경기에서 주요 장면을 쉽고 빠르게 재생, 편집할 수 있도록 하기 위하여 동영상에 포함된 중요 자막을 이용할 수 있다. 또한, 동영상에서 검출한 자막을 이용하여 PVR(Personal Video Recorder)이나 와이브로(WiBro) 단말, DMB 폰 등에서 맞춤형 방송 서비스가 실현될 수 있다.

일반적인 동영상의 자막 검출 방법에서는, 일정 시간 동안 위치 중복성을 보이는 영역을 판단하고 해당 영역으로부터 자막 내용을 검출한다. 예를 들어, 30초 동안 발생하는 자막 중에서 위치 중복성이 도미넌트(dominant)한 영역을 판정하고, 다음 30초 동안에 대하여 같은 과정을 반복해 가며 일정 시간 동안 누적시킴으로써, 목표 자막을 선택한다.

그러나, 이와 같은 종래 방법에서는, 목표 자막의 위치 중복성을 로컬 시간 영역에서만 탐색하므로, 자막 검출의 신뢰성이 떨어지는 문제점이 있다. 예를 들어, 뉴스의 앵커 타이틀이나 스포츠의 경기 상황 자막과 같은 목표 자막이 검출되어야 하지만, 이와 유사한 형태의 자막, 예를 들어, 방송사 로고나 광고 등이 존재하는 경우에 이를 목표 자막으로 검출하는 오류가 발생할 수 있다. 이에 따라, 스포츠의 스코어나 볼카운트와 같은 중요 자막 내용이 검출되지 않아 서비스의 신뢰 성을 떨어뜨릴 수 있다.

또한, 시간에 따라 목표 자막의 위치가 변하는 경우에는, 위와 같은 종래 방법으로는 해당 목표 자막을 검출할 수 없다는 문제점이 있다. 예를 들어, 골프 경기와 같은 동영상에서는 자막의 위치가 화면의 좌/우 또는 위/아래에 고정되지 않고 실시간 변하는 경우가 많으므로, 이때에는 자막의 시간적 위치 중복성 만으로는 목표 자막 검출에 실패할 확률이 높다.

이외에도, 스포츠 동영상의 경우, 선수명 자막의 컬러(color)패턴이 일정하다는 가정을 기반으로 검출된 자막 영역의 DCD(Dominant Color Descriptor)를 추출하여 클러스터링(clustering)을 하여 선수명 자막 영역을 결정하는 방법이 있다. 그러나, 선수명 자막 영역이 반투명 자막 영역일 경우, 컬러 패턴이 스포츠 동영상 전체에서 항상 일정하지 않다는 문제점이 있다. 즉, 반투명 자막일 경우, 선수명 자막 영역이 배경 영역의 컬러로부터 영향을 받기 때문에 같은 자막임에도 컬러 패턴이 다르게 설정될 수 있다. 따라서, 이와 같이 선수명 자막이 반투명 자막일 경우, 선수명 자막 검출 성능은 급격하게 저하될 수 있다는 문제점이 있다.

본 발명은 상기와 같은 종래 기술을 개선하기 위해 안출된 것으로서, 동영상 자막 문자의 인식 결과를 피쳐(feature)로 사용하여 배경 영역으로부터 영향을 받는 반투명 자막 또한 보다 정확하게 검출할 수 있는 동영상 자막 검출 장치 및 그 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 자막 영역 검증을 통해 인식해야 할 자막 영역의 개수를 최 소화함으로써, 처리 속도를 최대화할 수 있는 동영상 자막 검출 장치 및 그 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 검증된 자막 영역으로부터 연결 요소 분석(CCA: Connected Component Analysis)을 통해 문자 정보를 인식함으로써, 수평 투영으로는 인식할 수 없는 자막 또한 정확하게 검출할 수 있는 문자 인식 모듈을 포함하는 동영상 자막 검출 장치 및 그 방법을 제공하는 것을 목적으로 한다.

상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명에 따른 동영상 자막 검출 방법은, 입력 동영상의 소정의 프레임에 대하여 자막 후보 영역을 검출하는 단계; 상기 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝(scanning)을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증하는 단계; 상기 자막 영역으로부터 문자 영역을 검출하는 단계; 및 상기 문자 영역으로부터 소정의 문자 정보를 인식하는 단계를 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 동영상 자막 검출 방법은, 소정의 동영상 자막 영역으로부터 검출된 문자 영역에 대하여, 상기 문자 영역이 포함하는 문자 중 서로 연결된 문자를 하나의 영역으로 묶어 라인 단위 문자 영역을 생성하는 단계; 및 상기 라인 단위 문자 영역을 판독하여 소정의 문자 정보를 인식하는 단계를 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 동영상 자막 검출 장치는, 입력 동영상의 소정의 프레 임에 대하여 자막 후보 영역을 검출하는 자막 후보 검출 모듈; 상기 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 판정을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증하는 자막 검증 모듈; 및 상기 자막 영역으로부터 문자 영역을 검출하는 문자 검출 모듈; 및 상기 문자 영역으로부터 소정의 문자 정보를 인식하는 문자 인식 모듈을 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 문자 인식 모듈은, 소정의 동영상 자막 영역으로부터 검출된 문자 영역에 대하여, 상기 문자 영역이 포함하는 문자 중 서로 연결된 문자를 하나의 영역으로 묶어 라인 단위 문자 영역을 생성하는 라인 단위 문자 생성부; 및 상기 라인 단위 문자 영역을 판독하여 소정의 문자 정보를 인식하는 문자 정보 인식부를 포함하는 것을 특징으로 한다.

본 발명에 따른 동영상 자막 검출 장치 및 그 방법은 자막 검출을 필요로 하는 모든 동영상 서비스에서 구현될 수 있다. 즉, 동영상의 장르에 구애 받지 않고, 모든 장르의 동영상에 대해 구현될 수 있다. 다만, 본 명세서에서는 설명의 편의를 위하여 본 발명에 따른 동영상 자막 검출 장치 및 그 방법이 스포츠 동영상 중 골프 동영상의 선수명 자막을 검출하는 경우를 예로 들어 설명하기로 한다. 비록 골프 동영상의 선수명 자막 검출을 예로 들어 설명하지만, 본 발명에 따른 동영상 자막 검출 장치 및 그 방법은 자막을 포함하는 모든 동영상 내의 다양한 종류의 자막을 모두 검출할 수 있도록 구현될 수 있다.

이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.

도 1은 본 발명의 일실시예에 따른 동영상 자막 검출 장치의 구성을 도시한 블록도이다.

본 발명의 일실시예에 따른 동영상 자막 검출 장치(100)는 자막 후보 검출 모듈(110), 자막 검증 모듈(120), 문자 검출 모듈(130), 문자 인식 모듈(140), 선수명 인식 모듈(140), 및 선수명 데이터베이스(160)을 포함한다.

상술한 바와 같이, 본 명세서에서는 동영상 자막 검출 장치(100)가 스포츠 동영상 중 골프 동영상의 선수명 자막을 인식하는 경우를 예로 들어 설명한다. 따라서, 선수명 인식 모듈(150) 및 선수명 데이터베이스(160)는 상기 실시예에 따른 구성일 뿐, 본 발명에 따른 동영상 자막 검출 장치(100)의 필수 구성요소는 아니다.

본 발명의 포인트는 동영상 자막 검출 장치(100)가 도 2에 도시된 바와 같이, 스포츠 동영상(210)으로부터 자막 영역(220)을 검출하고, 자막 영역(220)이 포함하는 문자 정보인 선수명(230)을 인식하도록 동작하는데 있다. 이하에서는 이러한 스포츠 동영상 자막으로부터의 선수명 인식에 대한 동영상 자막 검출 장치(100)의 구성 및 동작에 대하여 상세히 설명한다.

도 3은 본 발명의 일실시예 따른 동영상의 자막 후보 검출 화면을 도시한 도면이다.

자막 후보 검출 모듈(110)은 입력 동영상의 소정의 프레임(310)에 대하여 자막 후보 영역을 검출한다. 상기 입력 동영상은 스포츠 동영상(골프 동영상)의 스트림 상에서 획득한 동영상이며, 동영상 중 전체 또는 일부 동영상으로 구현될 수 있다. 또한, 상기 동영상이 장면 단위로 분할된 경우, 각 장면마다 검출된 대표 영상으로 구현될 수도 있다.

자막 후보 검출 모듈(110)은 프레임(310)이 포함하는 문자의 에지 정보를 이용하여 고속으로 자막 후보 영역을 검출할 수 있다. 이를 위하여, 자막 후보 검출 모듈(110)은 소벨 에지 검출기(sobel edge detector)를 포함하여 구성될 수 잇다. 자막 후보 검출 모듈(110)은 상기 소벨 에지 검출기를 이용하여 상기 프레임으로부터 에지 맵(edge map)을 구성한다. 상기 소벨 에지 검출기를 통한 에지 맵의 구성 동작은 당업계에서 널리 사용되는 방법으로 구현될 수 있고, 본 발명의 요지를 벗어나므로 상세한 설명은 생략한다.

자막 후보 검출 모듈(110)은 상기 에지 맵을 선정된 사이즈(predetermined size)의 윈도우(3110)로 스캐닝(scanning)하여 에지가 많은 영역을 검출한다. 즉, 자막 후보 검출 모듈(110)은 상기 에지 맵에 대해 고정된 사이즈의 윈도우(예를 들어, 8*16 픽셀 사이즈)를 스위핑(sweeping)하며 자막 영역을 스캐닝(scanning)할 수 있다. 자막 후보 검출 모듈(110)은 상기 윈도우 스캐닝 도중 에지가 많은 영역, 즉, 주변과 큰 밝기차를 갖는 영역을 검출할 수 있다.

자막 후보 검출 모듈(110)은 상기 검출한 영역에 대해 연결 요소 분석(CCA: Connected Component Analysis)을 수행하여 자막 후보 영역을 검출한다. 상기 연결 요소 분석은 당업계에서 널리 사용되는 연결 요소 분석 방법과 동일하게 구현될 수 있다. 이러한 연결 요소 분석에 대한 설명은 본 발명의 요지를 벗어나므로 상세한 설명은 생략한다.

즉, 도 3에 도시된 바와 같이, 자막 후보 검출 모듈(110)은 상기 소벨 에지 검출기를 통한 상기 에지 맵 구성, 상기 윈도우 스캐닝, 및 상기 연결 요소 분석 동작을 통해, 자막 후보 영역(321 내지 323)을 검출할 수 있다.

그러나, 상기 검출한 자막 후보 영역은 에지 정보에 의해 검출된 것이므로, 실제 자막 영역이 아닌 것도 포함하고 있을 수 있고, 윈도우의 크기에 의해 문자 영역 이외에도 배경 영역을 많이 포함하고 있을 수 있다. 이에, 자막 검증 모듈(120)을 통해 상기 검출한 자막 후보 영역을 검증할 수 있다.

자막 검증 모듈(120)은 상기 검출한 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝(scanning)을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증한다. 자막 검증 모듈(120)의 상기 자막 검증 동작은 도 4를 참조하여 상세히 설명한다.

도 4는 본 발명의 일실시예 따라 검출된 자막 후보 영역에 대한 자막 검증 과정을 도시한 도면이다.

자막 검증 모듈(120)은 상기 검출한 자막 후보 영역의 에지 값을 수평 투영하여 검증 영역을 결정한다. 즉, 도 4의 (ⅰ)에 도시된 바와 같이, 자막 검증 모듈(120)은 자막 후보 영역의 에지 값을 프로젝션(projection)시켜 상기 검증 영역을 결정할 수 있다. 이 때, 상기 수평 투영한 픽셀의 개수에 대한 최대값을 L이라 하면, 임계값은 L/6으로 설정할 수 있다

자막 검증 모듈(120)은 상기 검증 영역에 대하여 SVM 스캐닝을 수행한다. 자막 검증 모듈(120)은 상기 검증 영역 중 에지 밀도가 높은 영역에 대하여 선정된 픽셀(pixel) 사이즈를 갖는 윈도우를 통해 상기 SVM 스캐닝을 수행할 수 있다. 상 기 에지 밀도가 높은 영역은 도 4의 (ⅱ)에 도시된 바와 같이 일반적으로 상기 검증 영역 중 문자가 기록된 영역인 제1 검증 영역(410) 및 제2 검증 영역(420)으로 설정될 수 있다.

자막 검증 모듈(120)은 제1 검증 영역(410) 및 제2 검증 영역(420)에 대하여 선정된 픽셀 사이즈를 갖는 윈도우를 통해 SVM 스캐닝을 수행한다. 예를 들어, 자막 검증 모듈(120)은 제1 검증 영역(410) 및 제2 검증 영역(420)의 높이를 15 픽셀로 정규화하고, 15*15 픽셀 사이즈를 갖는 윈도우에 대해 스캐닝하면서, SVM classifier에 의한 판정을 수행할 수 있다. 상기 SVM 스캐닝 시, 입력 특징치(feature)를 그레이 값을 사용할 수 있다.

상기 판정 결과, 억셉트된(accepted) 윈도우의 개수가 소정치(예를 들어 5개) 이상인 경우, 자막 검증 모듈(120)은 상기 자막 후보 영역을 자막 영역으로 검증한다. 예를 들어, 도 4의 (ⅲ)에 도시된 바와 같이, 제1 검증 영역(410)에 대해 상기 윈도우 스캐닝을 통해 상기 SVM classifier 판정을 수행한 결과, 억셉트(accepted)된 윈도우의 개수가 5개(411 내지 415)로 판정되었다면, 자막 검증 모듈(120)은 제1 검증 영역(410)을 자막 영역으로 검증할 수 있다.

또한, 제2 검증 영역(420)에 대해 상기 윈도우 스캐닝을 통해 상기 SVM classifier 판정을 수행한 결과, 억셉트(accepted)된 윈도우의 개수가 5개(421 내지 425)로 판정되었다면, 자막 검증 모듈(120)은 제2 검증 영역(410) 또한 자막 영역으로 검증할 수 있다.

이와 같이, 본 발명에 따른 동영상 자막 검출 장치는 자막 검증 모듈을 통해 자막 후보 영역으로부터 자막 영역을 검증한다. 따라서, 비자막 영역을 포함하는 자막 후보 영역으로부터 자막을 인식하는 동작을 사전에 방지함으로써, 자막 영역의 인식에 따른 처리 시간을 최소화할 수 있는 효과를 기대할 수 있다.

문자 검출 모듈(130)은 이중 이진화(double binarization)를 이용하여 상기 자막 영역으로부터 문자 영역을 검출한다. 즉, 문자 검출 모듈(130)은 선정된 두 개의 임계값들 각각에 따라 서로 반대의 그레이로 이진화하여 상기 자막 영역에 대해 이진화된 두 개의 영상들을 생성하고, 상기 이진화된 두 개의 영상들을 소정의 알고리즘에 따라 노이즈를 제거하며, 상기 노이즈가 제거된 두 개의 영상들을 합성하여 소정 영역들을 결정하고, 상기 결정된 영역들에 대하여 소정 크기로 영역 확장하여 상기 문자 영역을 검출할 수 있다. 이는 도 5 및 도 6을 참조하여 상세히 설명한다.

도 5는 본 발명의 일실시예에 따른 이중 이진화 방법을 설명하기 위한 도면이다.

도 6은 도 5의 이중 이진화 방법의 일례를 나타내는 도면이다.

상술한 바와 같이, 문자 검출 모듈(130)은 이중 이진화(double binarization)을 이용하여 자막 영역(630)으로부터 문자 영역을 추출할 수 있다. 상기 이중 이진화는 상반된 그레이(gray)를 가지는 문자 영역을 용이하게 검출하기 위한 방법으로서, 도 5에서와 같이 먼저, Otsu 방법 등에 의해 결정될 수 있는 두 개의 임계값, 예를 들어, 제1 임계값(TH1), 제2 임계값(TH2)에 따라 상기 선택된 목표 자막 후보 영역들(630)에 대하여 이진화를 수행한다(510).

자막 영역(630)은 도 6의 641 및 642와 같이 두 개의 영상으로 각각 이진화될 수 있다. 예를 들어, 자막 영역(630)에서, 각 화소(pixel)의 그레이가 상기 제1 임계값(TH1)보다 큰 경우에 그레이 0으로 변환시키고, 그렇지 않은 경우에 최고 그레이, 예를 들어, 8비트 데이터의 경우에 255로 변환시켜, 641 영상이 획득될 수 있다.

또한, 자막 영역(630)에서, 각 화소의 그레이가 상기 제2 임계값(TH2)보다 작은 경우에 그레이 0으로 변환시키고, 그렇지 않은 경우에 최고 그레이로 변환시켜, 642 영상이 획득될 수 있다.

위와 같이, 상기 자막 영역(630)에 대하여 이진화가 수행된 후 일정 보간 방법이나 알고리즘에 따라 노이즈가 제거된다(520). 다음에, 상기 이진화된 영상들 641 및 642를 합성(645)하여, 650과 같은 영역이 결정된다(530). 이와 같이 결정된 영역에 대하여 적절한 크기로 영역 확장(540)하여 원하는 문자 영역(660)을 검출할 수 있다.

이와 같이, 본 발명에 따른 동영상 자막 검출 장치(100)는 문자 검출 모듈(130)을 통해 자막 영역으로부터 이중 이진화(double binarization) 방법을 이용하여 문자 영역을 검출함으로써, 문자의 컬러 극성이 다른 경우에도 효율적으로 문자 영역을 검출할 수 있는 효과를 기대할 수 있다.

문자 인식 모듈(140)은 상기 문자 영역으로부터 소정의 문자 정보를 인식한다. 문자 인식 모듈(140)의 상기 문자 정보 인식에 대해서는 도 7 및 도 8을 참조하여 상세히 설명한다.

도 7은 본 발명의 일실시예에 따른 문자 인식 모듈의 구성을 도시한 블록도이다.

도 8은 본 발명의 일실시예에 따른 문자 인식 과정을 도시한 도면이다.

본 발명의 일실시예에 따른 문자 인식 모듈(140)은 라인 단위 문자 생성부(710), 문자 정보 인식부(720), 및 유사 단어 보상부(730)을 포함하여 구성될 수 있다.

라인 단위 문자 생성부(710)는 상기 문자 영역이 포함하는 문자 중 서로 연결된 문자를 하나의 영역으로 묶어 라인 단위 문자 영역을 생성한다. 즉, 라인 단위 문자 생성부(710)는 문자 영역을 광학 문자 판독기(OCR: Optical Character Recognizaer)을 통해 판독하기 위하여, 상기 문자 영역을 라인 단위의 문자 영역으로 재구성할 수 있다.

라인 단위 문자 생성부(710)는 분할된 문자 영역에 대하여 dilation을 수행하여 동일 문자열을 연결한다. 이 후, 라인 단위 문자 생성부(710)는 상기 연결된 문자를 하나의 영역으로 묶어 라인 단위 문자 영역을 생성할 수 있다.

예를 들어, 도 8의 (ⅰ) 및 (ⅱ)에 도시된 바와 같이, 라인 단위 문자 생성부(710)는 문자 영역이 포함하는 각 문자 중 동일 문자열을 연결하여 "13th" "KERR" "Par5", 및 "552Yds"와 같은 동일 문자열을 획득할 수 있다. 또한, 라인 단위 문자 생성부(710)는 상기 서로 연결된 동일 문자열에 대하여 연결 요소 분석(CCA: Connected Component Analysis)을 수행하여, 도 8의 (ⅲ)에 도시된 바와 같이 라인 단위 문자 영역을 생성할 수 있다.

이와 같이, 라인 단위 문자 생성부(710)는 종래의 방법과 같이 수평 투영에 의해 라인 단위 문자 영역을 생성하지 않고, 연결 요소 분석(CCA: Connected Component Analysis)을 통해 라인 단위 문자 영역을 생성함으로써, 도 8의 (ⅰ)와 같이 수평 투영 방법으로는 생성할 수 없는 문자 영역으로부터도 정확하게 문자 정보를 인식할 수 있는 효과를 기대할 수 있다. 상기 연결 요소 분석은 당업계에서 널리 사용되는 연결 요소 분석 방법과 동일하게 구현될 수 있으므로, 상세한 설명은 생략한다.

문자 정보 인식부(720)는 상기 라인 단위 문자 영역을 판독하여 소정의 문자 정보를 인식한다. 문자 정보 인식부(720)는 광학 문자 판독기(OCR: Optical Character Recognizaer)를 통해 상기 라인 단위 문자 영역을 판독할 수 있다. 따라서, 문자 정보 인식부(720)는 상기 광학 문자 판독기를 포함하여 구성될 수 있다. 상기 광학 문자 판독기를 이용한 라인 단위 문자 영역의 판독은 당업계에서 널리 사용되는 광학 문자 판독 방법과 동일하게 구현될 수 있으므로, 상세한 설명은 생략한다.

유사 단어 보상부(730)는 상기 인식한 문자 정보의 유사 단어를 보상한다. 예를 들어, 유사 단어 보상부(730)는 숫자 '0'을 문자 'O'로 보상하고, 숫자 '9'를 문자 'g'로 보상할 수 있다. 일례로, 인식하고자 하는 문자가 "Tiger Woods"인 경우, 문자 정보 인식부(720)가 상기 문자를 상기 광학 문자 판독기를 통해 인식한 결과는 "Tiger Woo0s"일 수 있다. 이 때, 유사 단어 보상부(730)는 상기 인식 결과의 문자 중 숫자 '0'를 문자 'o'로 보상하여 보다 정확한 문자 인식 결과를 도출 해 낼 수 있다.

선수명 데이터베이스(160)는 하나 이상의 스포츠 종목에 대한 각 선수명 정보를 유지한다. 선수명 데이터베이스(160)는 소정의 통신 모듈을 통해 외부서버로부터 선수명 정보를 수신하여 기록할 수 있다. 예를 들어, 선수명 데이터베이스(160)는 각 스포츠 종목의 협회(FIFA, PGA, LPGA, MLB 등)의 서버, 방송국 서버, 또는 EPG 서버에 접속하여 상기 각 스포츠 종목의 선수명 정보를 수신하여 기록할 수 있다. 또한, 선수명 데이터베이스(160)는 스포츠 동영상으로부터 판독한 선수명 정보를 기록할 수 있다. 예를 들어, 선수명 데이터베이스(160)는 스포츠 동영상의 리더 보드(leader board) 자막을 통해 선수명 정보를 판독하여 기록할 수 있다.

선수명 인식 모듈(150)은 상기 인식된 문자 정보와 가장 유사도가 높은 선수명을 선수명 데이터베이스(160)로부터 추출한다. 선수명 인식 모듈(150)은 워드 단위의 스트링 매칭을 통해 상기 문자 정보와 가장 유사도가 높은 선수명을 선수명 데이터베이스(160)로부터 추출할 수 있다. 선수명 인식 모듈(150)은 풀 네임 매칭(full name matching) 및 패밀리 네임 매칭(family name matching)의 순서로 상기 워드 단위 스트링 매칭을 수행할 수 있다. 상기 풀 네임 매칭은 2 단어 내지 3 단어의 풀 네임 전체 매칭(예를 들어, Tiger Woods)으로 구현될 수 있고, 상기 패밀리 네임 매칭은 1단어(예를 들어, Woods)의 패밀리 네임 매칭으로 구현될 수 있다.

지금까지 도 1 내지 도 8을 참조하여 본 발명의 일실시예에 따른 동영상 자막 검출 장치의 구성 및 동작에 대해 설명하였다. 이하에서는, 상기 동영상 검출 장치에 따른 본 발명의 동영상 자막 검출 방법의 흐름에 대해 도 9 내지 도 13을 참조하여 간략하게 설명한다.

도 9는 본 발명의 일실시예에 따른 동영상 자막 검출 방법의 전체 흐름을 도시한 순서도이다.

본 발명의 일실시예에 따른 동영상 자막 검출 장치는 입력 동영상의 소정의 프레임에 대하여 자막 후보 영역을 검출한다(단계(910)). 상기 입력 동영상은 스포츠 동영상으로 구현될 수 있다. 단계(910)은 도 10을 참조하여 상세히 설명한다.

도 10은 본 발명의 일실시예에 따른 자막 후보 영역 검출 방법의 흐름을 도시한 순서도이다.

상기 동영상 자막 검출 장치는 상기 프레임에 대해 소벨 에지(sobel edge) 검출을 수행하여 에지 맵(edge map)을 구성한다(단계(1011)). 이 후, 상기 동영상 자막 검출 장치는 상기 에지 맵을 선정된 사이즈(predetermined size)의 윈도우로 스캐닝(scanning)하여 에지가 많은 영역을 검출한다(단계(1012)). 상기 동영상 자막 검출 장치는 상기 검출한 영역에 대해 연결 요소 분석(CCA: Connected Component Analysis)을 수행하여 자막 후보 영역을 검출한다(단계(1013)).

다시 도 9에서, 상기 동영상 자막 검출 장치는 상기 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝(scanning)을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증한다(단계(920)). 단계(920)은 도 11을 참조하여 상세히 설명한다.

도 11은 본 발명의 일실시예에 따른 자막 영역 검증 방법의 흐름을 도시한 순서도이다.

상기 동영상 자막 검출 장치는 상기 자막 후보 영역의 에지 값을 수평 투영하여 검증 영역을 결정한다(단계(1111)). 상기 동영상 자막 검출 장치는 상기 검증 영역 중 에지 밀도가 높은 영역에 대하여 선정된 픽셀(pixel) 사이즈를 갖는 윈도우를 통해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝을 수행한다(단계(1112)). 상기 동영상 자막 검출 장치는 상기 스캐닝 결과 억셉트된(accepted) 윈도우의 개수가 소정치 이상인 경우, 상기 자막 후보 영역을 자막 영역으로 검증한다(단계(1113)).

다시 도 9에서, 상기 동영상 자막 검출 장치는 상기 자막 영역으로부터 문자 영역을 검출한다(단계(930)). 상기 동영상 자막 검출 장치는 이중 이진화(double binarization)를 이용하여 상기 자막 영역으로부터 문자 영역을 검출할 수 있다. 이는 도 12를 참조하여 상세히 설명한다.

도 12는 본 발명의 일실시예에 따른 이중 이진화에 의한 문자 영역 검출 방법의 흐름을 도시한 순서도이다.

상기 동영상 자막 검출 장치는 선정된 두 개의 임계값들 각각에 따라 서로 반대의 그레이로 이진화하여 상기 자막 영역에 대해 이진화된 두 개의 영상들을 생성한다(단계(1211)). 상기 동영상 자막 검출 장치는 상기 이진화된 두 개의 영상들을 소정의 알고리즘에 따라 노이즈를 제거한다(단계(1212)). 상기 동영상 자막 검출 장치는 상기 노이즈가 제거된 두 개의 영상들을 합성하여 소정 영역들을 결정한다(단계(1213)). 상기 동영상 자막 검출 장치는 상기 결정된 영역들에 대하여 소정 크기로 영역 확장하여 상기 문자 영역을 검출한다(단계(1214)).

다시 도 9에서, 상기 동영상 자막 검출 장치는 상기 문자 영역으로부터 소정의 문자 정보를 인식한다(단계(940)). 이는 도 13을 참조하여 상세히 설명한다.

도 13은 본 발명의 일실시예에 따른 문자 정보 인식 방법의 흐름을 도시한 순서도이다.

상기 동영상 자막 검출 장치는 상기 문자 영역이 포함하는 문자 중 서로 연결된 문자를 하나의 영역으로 묶어 라인 단위 문자 영역을 생성한다(단계(1311)). 단계(1311)에서, 상기 동영상 자막 검출 장치는 상기 서로 연결된 문자가 하나로 묶인 상기 영역에 대하여 연결 요소 분석(CCA: Connected Component Analysis)를 수행하여 상기 라인 단위 문자 영역을 생성할 수 있다.

상기 동영상 자막 검출 장치는 광학 문자 판독기(OCR: Optical Character Recognizaer)를 통해 상기 라인 문자 영역을 판독하여 소정의 문자 정보를 인식한다(단계(1312)). 상기 동영상 자막 검출 장치는 상기 인식한 문자 정보의 유사 단어를 보상한다(단계(1313)).

다시 도 9에서, 상기 동영상 자막 검출 장치는 하나 이상의 스포츠 종목에 대한 각 선수명 정보를 유지하는 선수명 데이터베이스를 유지한다. 상기 동영상 자막 검출 장치는 소정의 외부 서버로부터 소정의 선수명 정보를 수신하여 상기 선수명 데이터베이스에 기록할 수 있고, 상기 스포츠 동영상에 포함된 선수명 자막으로부터 소정의 선수명 정보를 판독하여 상기 선수명 데이터베이스에 기록할 수 있다.

상기 동영상 자막 검출 장치는 상기 인식된 상기 문자 정보와 가장 유사도가 높은 선수명을 상기 선수명 데이터베이스로부터 추출한다. 상기 동영상 자막 검출 장치는 상기 워드 단위의 스트링 매칭은 풀 네임 매칭(full name matching) 및 패밀리 네임 매칭(family name matching)의 순서로 수행하여 상기 문자 정보와 가장 유사도가 높은 선수명을 상기 선수명 데이터베이스로부터 추출하여, 상기 문자 정보로부터 선수명을 인식할 수 있다(단계(950)).

비록 간단하게 설명하였지만, 이상 도 9 내지 도 13을 통해 설명한 본 발명에 따른 동영상 자막 검출 방법은 도 1 내지 도 8을 통해 설명한 본 발명에 따른 동영상 자막 검출 장치의 구성 및 동작을 모두 포함하도록 구현될 수 있음은 당업자에게 있어 자명하다.

또한, 본 발명에 따른 동영상 자막 검출 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

지금까지 본 발명에 따른 구체적인 실시예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서는 여러 가지 변형이 가능함은 물론이다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며, 후술하는 특허청구의 범위뿐 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

본 발명의 동영상 자막 검출 장치 및 그 방법에 따르면, 동영상 자막 문자의 인식 결과를 피쳐(feature)로 사용하여 배경 영역으로부터 영향을 받는 반투명 자막 또한 보다 정확하게 검출할 수 있는 효과를 얻을 수 있다.

또한, 본 발명의 동영상 자막 검출 장치 및 그 방법에 따르면, 자막 영역 검증을 통해 인식해야 할 자막 영역의 개수를 최소화함으로써, 처리 속도를 최대화할 수 있는 효과를 얻을 수 있다.

또한, 본 발명의 동영상 자막 검출 장치 및 그 방법에 따르면, 검증된 자막 영역으로부터 연결 요소 분석(CCA: Connected Component Analysis)을 통해 문자 정보를 인식함으로써, 수평 투영으로는 인식할 수 없는 자막 또한 정확하게 검출할 수 있는 효과를 얻을 수 있다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

입력 동영상의 소정의 프레임에 대하여 자막 후보 영역을 검출하는 단계;

상기 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝(scanning)을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증하는 단계;

상기 자막 영역으로부터 문자 영역을 검출하는 단계; 및

상기 문자 영역으로부터 소정의 문자 정보를 인식하는 단계

를 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
제1항에 있어서,

상기 입력 동영상은 스포츠 동영상인 것을 특징으로 하는 동영상의 자막 검출 방법.
제1항에 있어서,

상기 입력 동영상의 소정의 프레임에 대하여 자막 후보 영역을 검출하는 상기 단계는,

상기 프레임에 대해 소벨 에지(sobel edge) 검출을 수행하여 에지 맵(edge map)을 구성하는 단계; 및

상기 에지 맵을 선정된 사이즈(predetermined size)의 윈도우로 스캐닝 (scanning)하여 에지가 많은 영역을 검출하는 단계; 및

상기 검출한 영역에 대해 연결 요소 분석(CCA: Connected Component Analysis)을 수행하여 자막 후보 영역을 검출하는 단계

를 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
제1항에 있어서,

상기 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝(scanning)을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증하는 상기 단계는,

상기 자막 후보 영역의 에지 값을 수평 투영하여 검증 영역을 결정하는 단계;

상기 검증 영역 중 에지 밀도가 높은 영역에 대하여 선정된 픽셀(pixel) 사이즈를 갖는 윈도우를 통해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝을 수행하는 단계; 및

상기 스캐닝 결과 억셉트된(accepted) 윈도우의 개수가 소정치 이상인 경우, 상기 자막 후보 영역을 자막 영역으로 검증하는 단계

를 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
제1항에 있어서,

상기 자막 영역으로부터 문자 영역을 검출하는 상기 단계는, 이중 이진화 (double binarization)를 이용하여 상기 자막 영역으로부터 문자 영역을 검출하는 것을 특징으로 하는 동영상의 자막 검출 방법.
제5항에 있어서,

상기 이중 이진화는,

선정된 두 개의 임계값들 각각에 따라 서로 반대의 그레이로 이진화하여 상기 자막 영역에 대해 이진화된 두 개의 영상들을 생성하는 단계;

상기 이진화된 두 개의 영상들을 소정의 알고리즘에 따라 노이즈를 제거하는 단계;

상기 노이즈가 제거된 두 개의 영상들을 합성하여 소정 영역들을 결정하는 단계; 및

상기 결정된 영역들에 대하여 소정 크기로 영역 확장하여 상기 문자 영역을 검출하는 단계

를 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
제1항에 있어서,

상기 문자 영역으로부터 소정의 문자 정보를 인식하는 상기 단계는,

상기 문자 영역이 포함하는 문자 중 서로 연결된 문자를 하나의 영역으로 묶어 라인 단위 문자 영역을 생성하는 단계;

광학 문자 판독기(OCR: Optical Character Recognizaer)를 통해 상기 라인 문자 영역을 판독하여 소정의 문자 정보를 인식하는 단계; 및

상기 인식한 문자 정보의 유사 단어를 보상하는 단계

를 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
제7항에 있어서,

상기 라인 단위 문자 영역을 생성하는 상기 단계는,

상기 서로 연결된 문자가 하나로 묶인 상기 영역에 대하여 연결 요소 분석(CCA: Connected Component Analysis)를 수행하여 상기 라인 단위 문자 영역을 생성하는 단계

를 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
제2항에 있어서,

하나 이상의 스포츠 종목에 대한 각 선수명 정보를 유지하는 선수명 데이터베이스를 유지하는 단계; 및

상기 인식된 상기 문자 정보와 가장 유사도가 높은 선수명을 상기 선수명 데이터베이스로부터 추출하는 단계

를 더 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
제9항에 있어서,

상기 유사도 측정은 워드 단위의 스트링 매칭을 통해 수행되며,

상기 워드 단위의 스트링 매칭은 풀 네임 매칭(full name matching) 및 패밀리 네임 매칭(family name matching)의 순서로 수행되는 것을 특징으로 하는 동영상의 자막 검출 방법.
제9항에 있어서,

상기 선수명 데이터베이스를 유지하는 상기 단계는,

소정의 외부 서버로부터 소정의 선수명 정보를 수신하여 상기 선수명 데이터베이스에 기록하는 단계; 및

상기 스포츠 동영상에 포함된 선수명 자막으로부터 소정의 선수명 정보를 판독하여 상기 선수명 데이터베이스에 기록하는 단계

를 포함하는 것을 특징으로 하는 동영상의 자막 검출 방법.
삭제
삭제
삭제
삭제
제1항 내지 제11항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
입력 동영상의 소정의 프레임에 대하여 자막 후보 영역을 검출하는 자막 후보 검출 모듈;

상기 자막 후보 영역에 대해 서포트 벡터 머쉰(SVM: Support Vector Machine) 판정을 수행하여 상기 자막 후보 영역으로부터 자막 영역을 검증하는 자 막 검증 모듈; 및

상기 자막 영역으로부터 문자 영역을 검출하는 문자 검출 모듈; 및

상기 문자 영역으로부터 소정의 문자 정보를 인식하는 문자 인식 모듈

를 포함하는 것을 특징으로 하는 동영상 자막 검출 장치.
제17항에 있어서,

상기 입력 동영상은 스포츠 동영상인 것을 특징으로 하는 동영상 자막 검출 장치.
제17항에 있어서,

상기 자막 후보 검출 모듈은 소벨 에지 검출기(sobel edge detector)를 포함하고, 상기 소벨 에지 검출기를 통해 상기 프레임으로부터 에지 맵(edge map)을 구성하며, 상기 에지 맵을 선정된 사이즈(predetermined size)의 윈도우로 스캐닝(scanning)하여 에지가 많은 영역을 생성한 후 연결 요소 분석(CCA: Connected Component Analysis)을 통해 상기 자막 후보 영역을 검출하는 것을 특징으로 하는 동영상 자막 검출 장치.
제17항에 있어서,

상기 자막 검증 모듈은 상기 자막 후보 영역의 에지 값을 수평 투영하여 검증 영역을 결정하고, 상기 검증 영역 중 에지 밀도가 높은 영역에 대하여 선정된 픽셀(pixel) 사이즈를 갖는 윈도우를 통해 서포트 벡터 머쉰(SVM: Support Vector Machine) 스캐닝을 수행하며, 상기 스캐닝 결과 억셉트된(accepted) 윈도우의 개수가 소정치 이상인 경우, 상기 자막 후보 영역을 자막 영역으로 검증하는 것을 특징으로 하는 동영상 자막 검출 장치.
제17항에 있어서,

상기 문자 검출 모듈은 이중 이진화(double binarization)를 이용하여 상기 자막 영역으로부터 문자 영역을 검출하는 것을 특징으로 하는 동영상 자막 검출 장치.
제21항에 있어서,

상기 문자 검출 모듈은 선정된 두 개의 임계값들 각각에 따라 서로 반대의 그레이로 이진화하여 상기 자막 영역에 대해 이진화된 두 개의 영상들을 생성하고, 상기 이진화된 두 개의 영상들을 소정의 알고리즘에 따라 노이즈를 제거하며, 상기 노이즈가 제거된 두 개의 영상들을 합성하여 소정 영역들을 결정하고, 상기 결정된 영역들에 대하여 소정 크기로 영역 확장하여 상기 문자 영역을 검출하는 것을 특징으로 하는 동영상 자막 검출 장치.
제17항에 있어서,

상기 문자 인식 모듈은 상기 문자 영역이 포함하는 문자 중 서로 연결된 문 자를 하나의 영역으로 묶어 라인 단위 문자 영역을 생성하고, 광학 문자 판독기(OCR: Optical Character Recognizaer)를 통해 상기 라인 문자 영역을 판독하여 소정의 문자 정보를 인식하며, 상기 인식한 문자 정보의 유사 단어를 보상하는 것을 특징으로 하는 동영상 자막 검출 장치.
제23항에 있어서,

상기 문자 인식 모듈은 상기 서로 연결된 문자를 하나로 묶은 상기 영역에 대하여 연결 요소 분석(CCA: Connected Component Analysis)를 수행하여 상기 라인 단위 문자 영역을 생성하는 것을 특징으로 하는 동영상 자막 검출 장치.
제18항에 있어서,

하나 이상의 스포츠 종목에 대한 각 선수명 정보를 유지하는 선수명 데이터베이스; 및

상기 인식된 상기 문자 정보와 가장 유사도가 높은 선수명을 상기 선수명 데이터베이스로부터 추출하는 선수명 인식 모듈

를 더 포함하는 것을 특징으로 하는 동영상의 자막 검출 장치.
제25항에 있어서,

상기 선수명 인식 모듈은 풀 네임 매칭(full name matching) 및 패밀리 네임 매칭(family name matching)의 순서로 수행되는 워드 단위의 스트링 매칭을 통해 상기 문자 정보와 가장 유사도가 높은 선수명을 상기 선수명 데이터베이스로부터 추출하는 것을 특징으로 하는 동영상 자막 검출 장치.
제25항에 있어서,

상기 선수명 인식 모듈은 소정의 통신 모듈을 통해 외부 서버로부터 소정의 선수명 정보를 수신하여 상기 선수명 데이터베이스에 기록하고, 상기 스포츠 동영상에 포함된 선수명 자막으로부터 판독된 선수명 정보를 상기 선수명 데이터베이스에 기록하는 것을 특징으로 하는 동영상 자막 검출 장치.
삭제
삭제
삭제
삭제