KR100845662B1

KR100845662B1 - 비디오 자막영역 추출방법 및 장치

Info

Publication number: KR100845662B1
Application number: KR1020070018311A
Authority: KR
Inventors: 김원준; 김창익; 노용만; 한민수
Original assignee: 한국정보통신대학교 산학협력단
Priority date: 2007-02-23
Filing date: 2007-02-23
Publication date: 2008-07-10

Abstract

본 발명은 비디오 자막영역 추출방법 및 장치에 관한 것으로, 영상의 한 프레임에 대해 코너 맵을 생성하는 단계, 코너 밀도를 이용하여 자막 후보군을 추출하는 단계, 레이블링을 이용하여 최종 자막 영역을 결정하는 단계, 최종 자막 영역에 대해 노이즈를 제거하고 영역 채우기를 수행하는 단계, 코너가 밀집된 영역에서 현재 프레임과 이전 프레임의 코너 맵 차이를 구하여 임계값 보다 작으면 현재 프레임의 자막 영역에 변화가 없다고 간주하여 이전 프레임의 자막 영역을 이용하는 단계를 포함한다.

Description

비디오 자막영역 추출방법 및 장치{Method and apparatus for extracting text region from videos}

도 1은 본 발명의 바람직한 실시예에 의한 비디오 자막영역 추출장치를 나타낸 블록도,

도 2는 본 발명의 바람직한 실시예에 의한 비디오 자막영역 추출방법을 나타낸 흐름도,

도 3a는 뉴스 영상, 도 3b는 소벨(Sobel) 마스크를 이용한 에지 맵, 도 3c는 해리스 코너 검출기를 이용한 코너 맵을 나타낸 도면,

도 4a는 뉴스 영상, 도 4b는 이진화된 코너 맵, 도 4c는 블록 가중치를 이용하여 추출한 자막 후보군을 나타낸 도면,

도 5a, 도 6a, 도 7a는 자막이 삽입된 다양한 영상, 도 5b, 도 6b, 도 7b는 블록 가중치를 이용하여 추출한 자막 후보군, 도 5c, 도 6c, 도 7c는 영상 내 가장 큰 두 개의 레이블, 도 5d, 도 6d, 도 7d는 최종 자막 영역 추출을 나타낸 도면,

도 8a~8c는 도 5d에서 얻어진 영상에 대하여 노이즈 제거 및 영역 채우기를 적용하는 과정을 나타낸 도면,

도 9는 코너가 밀집되지 않은 영역(R_H)과 코너가 밀집된 영역(R_L)을 나타낸 도면,

도 10은 코너 맵 비교기를 설명하는 블록도,

도 11a는 뉴스 영상 대해 본 발명에 의한 비디오 자막영역 추출방법 및 장치를 적용한 실험을 나타내고, 도 11b는 영화 영상 대해 본 발명에 의한 비디오 자막영역 추출방법 및 장치를 적용한 실험을 나타낸 도면,

도 12a, 12b는 본 발명에 의한 비디오 자막영역 추출방법 및 장치를 영상에 적용한 결과를 보여주는 도면,

도 13a, 13b는 본 발명에 의한 비디오 자막영역 추출방법 및 장치를 영상에 적용한 결과를 보여주는 도면,

도 14a, 14b는 본 발명에 의한 비디오 자막영역 추출방법 및 장치를 영상에 적용한 결과를 보여주는 도면,

도 15a, 15b는 본 발명에 의한 비디오 자막영역 추출방법 및 장치를 영상에 적용한 결과를 보여주는 도면,

도 16a, 16b는 자막 영역의 배경으로 나타나는 사람의 옷 무늬가 글자인 경우 자막 추출의 결과를 보여주는 도면,

도 17a, 17b는 뉴스 영상에서 글자로 이루어진 배경이 나타났을 경우 자막 추출의 결과를 보여주는 도면,

도 18a는 프레임 80에 대해 뉴스 영상에서 자막 추출 결과, 도 18b는 프레임 240에 대해 뉴스 영상에서 자막 추출 결과, 도 18c는 프레임 80에 대해 영화 영상에서 자막 추출 결과, 도 18d는 프레임 240에 대해 영화 영상에서 자막 추출 결과 를 나타낸 도면,

도 19a는 뉴스 영상에 대해 20 프레임 간격으로 Recall과 Precision을 측정한 결과를 나타낸 그래프, 도 19b는 영화 영상에 대해 20 프레임 간격으로 Recall과 Precision을 측정한 결과를 나타낸 그래프이다.

본 발명은 뉴스나 영화등의 비디오 영상에서 자막영역을 추출하는 방법 및 장치에 관한 것이다.

디지털 멀티미디어 기술의 발전과 영상 단말기 사용의 증가로 인해 비디오는 가장 중요한 정보 매체 중 하나가 되었다. 비디오는 음성과 영상 정보를 동시에 포함하고 있는 가장 일반적인 멀티미디어 데이터라고 할 수 있다. 이러한 비디오는 대부분 사용자의 시청 편의를 위해 현재 콘텐츠(contents)에 대한 설명과 같은 중요한 정보를 자막을 통해 보여준다. 예를 들면, 뉴스 영상에서 중요 기사를 자막으로 보여준다거나, 영화의 경우 등장 인물의 대사를 자막으로 보여준다. 또한, 스포츠 경기에서 선수의 이름과 현재 점수 상황 등을 자막을 통해 보여준다.

이와 같은 자막은 일반적으로 장면 자막(scene text)과 인위적 자막(artificial text)으로 나눌 수 있다. 장면 자막은 영상 내 광고판 등과 같이 배경으로서 영상의 내용과 거의 관계없이 나타나는 것을 말한다. 이에 반해 인위적 자막은 뉴스의 헤드라인(headline)과 같이 해당 기사와 관련하여 정확한 정보를 보 여주기 위한 것이다. 따라서 인위적 자막은 비디오 색인이나 정보 검색에 유용하게 사용될 수 있다.

이러한 인위적 자막을 영상으로부터 추출할 수 있다면, 추출된 자막의 확대를 통해 소형 이동형 단말기에서도 쉽게 영상에 대한 정보를 얻을 수 있으며, 시각적 장애가 있는 사람들을 위한 정보를 제공할 수도 있다. 또한 자동차 번호판 분석이나 교통 표지판 분석과 같은 분야에도 응용될 수 있다. 따라서, 비디오 내 자막 영역을 효율적으로 추출할 필요가 있다. 그러나 비디오 내 자막이 갖는 낮은 해상도와 언어에 따라 다른 자막의 특성, 다양한 색으로 이루어진 복잡한 배경 때문에, 자막 추출이 용이하지 않다는 문제점이 있어 왔다.

이러한 문제를 극복하기 위해 기존의 연구는 주로 자막의 색 정보와 에지 정보를 이용하여 이루어졌다. 예를 들어, 'L. Agnihotri' 등은 1999년 6월에 'IEEE International Workshop on Content-Based Access of Image and Video Libraries, pp. 109-113'에 발표된 논문 'Text detection for video analysis'에서, 비디오 내 자막이 동일한 색깔을 가지고 있다고 가정하고, 레드(Red) 채널을 이용하여 높은 밝기 대비를 가지는 자막의 에지(edge)를 얻는 방법에 대해 제시하였다. 'X. S. Hua' 등은 2002년 9월에 'International Conference on Image Processing, vol. 2, pp. 397-400'에 발표된 논문 'Efficient video text recognition using multiple frame integration'에서, 높은 밝기 대비를 가지는 프레임과 블록을 이용하여 자막을 추출하는 방법을 제시하였다. 그러나 이러한 방법은 영상 압축으로 인한 영상의 열화로 인해 비디오 내 자막이 동일한 색을 가지기 어려우며, 복잡한 배경으로 인 해 글자와 배경간의 밝기 대비가 높지 않은 문제점이 있었다.

이와 달리, 다음과 같은 논문에서는 상대적으로 색보다 환경에 덜 민감한 에지를 이용하여 자막 추출을 시도하였다. 예컨대, 'M. R. Lyu' 등은 2005년 2월에 'IEEE Transaction on Circuit and Systems for Video Technology, vol. 15, no. 2, pp. 243-255'에 발표된 논문 'A comprehensive method for multilingual video text detection, localization, and extraction'에서, 에지의 강도를 이용한 에지 맵(edge map)을 자막 추출에 이용한다. 또한 국부적 임계값(local thresholding)을 이용하여 복잡한 배경을 제거하고 다양한 언어와 자막 크기에 적용 가능하도록 다단계 해상도를 이용한 추출 방법을 사용한다. 'C. Liu' 등은 2005년 9월에 'International Conference on Document Analysis and Recognition, vol. 2, pp. 610-614'에 발표된 논문 'Text detection in images based on unsupervised classification of edge-based features'에서, 자막의 특성을 고려한 수직, 수평, 대각선 방향의 에지 맵과, 이를 통한 K 평균 군집화(K-means clustering)를 이용하여 자막을 추출한다. 'Y. Liu' 등은 2004년 12월에 'International Conference on Control, Automation, Robotics and Vision, vol. 2, pp. 1528-1532'에 발표된 논문 'Effective video text detection using line features'에서, 자기 적응 임계값(self-adaptive thresholding)을 통해 향상된 케니 에지 검출기(improved Canny edge detector)와 직선 벡터 그래프(line vector graph)를 이용하여 자막을 추출한다. 또한 'C. Mi' 등은 2005년 12월에 'International Conference on Information, Communication and Signal Processing, pp. 678-682'에 발표된 논문 'A novel video text extraction approach based on multiple frames'에서, 상기 'Y. Liu'가 제안한 방법을 바탕으로 프레임 누적을 통해 자막 영역을 추출한다. 그러나 여전히 복잡한 배경에서 많은 에지가 자막 영역과 함께 검출되는 문제점이 있다.

그 밖에도 'T. Sato' 등이 1998년 1월에 'IEEE International Workshop on Content-Based Access of Image and Video Libraries, pp.52-60'에 발표된 논문 'Video OCR for digital news archive'에서 제안한 영문자의 특성을 반영한 수직, 수평, 대각선 방향의 필터를 이용하여 자막을 추출하는 방법, 'B. T. Chun' 등이 1999년 9월에 'IEEE Region 10 Conference TENCON, vol. 2, pp.915-918'에 발표된 논문 'Caption segmentation method in videos using isodata clustering of topographical features'에서 제안한 자막의 위상 특징과 색 정보를 동시에 이용하는 방법, 'H. Li' 등이 2000년 9월에 'International Conference on Pattern Recognition, vol. 2, pp. 223-226'에 발표된 논문 'A video text detection system based on automated training'에서 제안한 자동 신경 회로망 학습(automated neural network training)을 기반으로 한 자막 추출방법 등이 있으나, 이러한 방법들 역시 군집화 과정이나 사용자에 의한 선행 동작 필요, 여러 프레임을 사용해야 하는 문제점을 가지고 있었다.

본 발명은 상기한 점을 감안하여 발명된 것으로, 자막이 위치하는 영역에는 에지들의 교차점들이 밀집하여 나타난다는 사실에 착안하여 코너 검출기(corner detector)를 이용한 자막의 색과 언어의 특성에 관계없이 효율적으로 자막 영역을 추출하는 방법 및 장치를 제공함에 그 목적이 있다.

상기 목적을 달성하기 위한 본 발명은 (a) 영상의 한 프레임에 대해 코너 맵을 생성하는 단계, (b) 코너 맵에 대한 코너 밀도를 이용하여 자막 후보군을 추출하는 단계, (c) 레이블링을 이용하여 최종 자막 영역을 결정하는 단계 및, (d) 최종 자막 영역에 대해 노이즈를 제거하고 영역 채우기를 수행하는 단계를 포함하는 비디오 자막영역 추출방법을 제공한다.

이때, 상기 (a) 단계에서, 해리스 코너 검출기를 이용하여 코너 맵을 생성하는 것이 바람직하다.

그리고, 상기 (b) 단계는 (b1) 소정 크기의 블록을 이용하여 코너 맵을 스캔하여 코너 밀도를 구하는 단계 및, (b2) 코너 밀도가 소정 값 이상일 때 해당 블록 전체에 대해 1을 할당하는 단계를 포함할 수 있고, 상기 (b1) 단계에서, 블록은 10 픽셀×10 픽셀 크기의 블록을 사용하고, 영상을 스캔할 때 수직 및 수평 방향으로 5 픽셀씩 이동하면서 스캔하는 것이 바람직하다.

더욱이, 상기 (c) 단계는, (c1) 추출된 자막 후보군에 대해 레이블링을 이용하여 자막 영역을 구분하는 단계, (c2) 모든 자막 영역 중 최소 자막의 크기를 고려하여 일정 크기 이상인 영역에 대해서 크기가 가장 큰 두 개의 영역을 선정하는 단계 및, (c3) 두 개의 영역 중 하단에 위치한 영역을 최종 자막 영역으로 결정하는 단계를 포함할 수 있고, 상기 (c1) 단계에서, 4 인접성(4 adjacent)을 이용하여 레이블링하는 것이 바람직하다.

더욱이, 상기 (d) 단계에서 노이즈 제거는, 최종 자막 영역의 각 행에 대해 가로 방향으로 화면 가로 길이의 소정 비율 이하인 행은 제거하는 것이 바람직하고, 상기 (d) 단계에서 영역 채우기는, 수평 방향에 대하여 왼쪽에서 오른쪽으로 처음 픽셀 값이 0이 아닌 값을 감지하면 시작점으로 지정하고, 오른쪽에서 왼쪽으로 처음 픽셀 값이 0이 아닌 값을 감지하면 끝점으로 지정하여, 시작점부터 끝점까지 홀을 채우고, 수직 방향에 대하여 위쪽에서 아래쪽으로 처음 픽셀 값이 0이 아닌 값을 감지하면 시작점으로 지정하고, 아래쪽에서 위쪽으로 처음 픽셀 값이 0이 아닌 값을 감지하면 끝점으로 지정하여, 시작점부터 끝점까지 홀을 채우는 것이 바람직하다.

더욱이, 상기 (d) 단계 후에, 영상의 한 프레임에 대해 자막영역을 추출한 후 다음 프레임에 대해, 코너가 밀집된 영역에서 현재 프레임과 이전 프레임의 코너 맵 차이를 구하여 임계값 보다 작으면 현재 프레임의 자막 영역에 변화가 없다고 간주하여 이전 프레임의 자막 영역을 이용하는 단계를 더 포함할 수 있다.

또한, 상기 목적을 달성하기 위한 본 발명은 영상의 한 프레임에 대해 코너 맵을 생성하는 코너 검출 수단, 코너 맵에 대한 코너 밀도를 이용하여 자막 후보군을 추출하는 자막 후보군 추출 수단, 레이블링을 이용하여 최종 자막 영역을 결정하는 최종 자막영역 결정 수단 및, 최종 자막 영역에 대해 노이즈를 제거하고 영역 채우기를 수행하는 노이즈 제거 수단을 구비하는 비디오 자막영역 추출장치를 제공한다.

이때, 코너 검출 수단으로서 해리스 코너 검출기를 이용하는 것이 바람직하고, 코너가 밀집된 영역에서 현재 프레임과 이전 프레임을 입력으로 받아 코너 맵 차이를 구하는 코너 맵 비교기를 포함하고, 코너 맵 차이가 임계값 보다 작으면 현재 프레임의 자막 영역에 변화가 없다고 간주하여 이전 프레임의 자막 영역을 이용하는 업데이트 수단을 더 구비하는 것이 바람직하다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세하게 설명하기로 한다. 그러나, 이하의 실시예는 이 기술분야에서 통상적인 지식을 가진 자에게 본 발명이 충분히 이해되도록 제공되는 것으로서 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 기술되는 실시예에 한정되는 것은 아니다.

( 실시예 )

이하, 예시도면을 참조하여 본 발명에 따른 실시예를 상세히 설명한다.

비디오 프레임의 픽셀의 집합 R을 다음과 같이 정의한다. 즉, R={(x,y);0≤x≤X, 0≤y≤Y}이고, 여기서 영상의 크기는 X × Y가 된다. 본 발명은 입력 프레임의 매 프레임을 자막 영역(Text region)과 그 외의 영역(background)으로 분할하는 것인데, P를 R의 분할된 한 형태로 정의하면, P = {TR, BG}로 나타낼 수 있다. 여기서 TR은 자막 영역, BG는 그 외의 배경 영역을 나타낸다. 입력 비디오에서 n번째 프레임의 자막 영역은 TR_n으로 나타내기로 한다.

도 1은 본 발명의 바람직한 실시예에 의한 비디오 자막영역 추출장치를 나타낸 블록도이고, 도 2는 본 발명의 바람직한 실시예에 의한 비디오 자막영역 추출방 법을 나타낸 흐름도이다.

먼저, 제200단계에서 코너 검출수단(100)이 영상의 한 프레임에 대해 코너 맵을 생성한다. 에지(edge)는 영상 내 자막 영역 이외에도 많이 존재할 수 있으나, 에지와 에지가 만나는 코너는 각이 진 부분에서 주로 발생하기 때문에, 상대적으로 자막 영역에 집중적으로 분포한다. 따라서 영상 내에 존재하는 코너의 밀도를 이용하여 효율적으로 자막을 추출할 수 있다. 잘못된 코너 추출을 줄이기 위해 코너 맵을 생성하기 전에 가우시안 필터를 사용할 수 있다.

제200단계에서 코너 맵 생성은 특징점 추출에 널리 쓰이는 해리스 코너 검출기(Harris corner detector)를 이용하는 것이 바람직하다. 해리스 코너 검출기는 기본적으로 지역적인 신호 변화를 측정할 수 있는 국소 자기상관(local auto-correlation) 함수에 바탕을 두고 있다.

구체적으로, 영상 내에서 점 (x,y)가 주어지고, 이에 대한 변화량이 (Δx,Δy)로 주어지면 자기상관 함수(c(x,y))는 다음의 수학식 1과 같이 표현할 수 있다.

여기서, I(·,·)은 밝기를 나타내며, (x_i,y_i)은 가우시안 윈도우 W 내부의 점들을 나타낸다. (Δx,Δy) 만큼 움직인 영역을 테일러 확장을 이용하여 표현하면 아래의 수학식 2와 같다.

여기서, I_x(·,·), I_y(·,·)는 각각 x,y에 대한 그레디언트(gradient)를 나타낸다. 수학식 2를 수학식 1에 대입하여 정리하면, 다음의 수학식 3과 같이 된다.

수학식 3의 두 번째 행렬을 C(x,y)이라 하면, 이를 이용하여 코너의 정도(O(x,y))를 수학식 4와 같이 판단할 수 있다.

수학식 4에서, det C(x,y)는 행렬 C(x,y)에 대한 행렬식(determinant)을 의미하고, trace C(x,y)는 행렬 C(x,y)의 대각선 원소들의 합을 의미하며, k는 해리스(Harris)가 제안한 파라미터로서 그 값으로 0.04를 사용할 수 있다.

각 픽셀에 대하여 코너의 정도를 나타내는 O값을 이용하면, 수학식 5와 같이 코너 맵(HCM)을 생성할 수 있다.

수학식 5에서 HCM은 O값을 이용하여 이진화한 코너 맵을 나타낸다.

도 3a~3c는 뉴스 이미지에 대한 에지 맵과 코너 맵 생성 결과를 보이고 있다. 도 3a는 뉴스 영상이고, 도 3b는 소벨(Sobel) 마스크를 이용한 에지 맵이며, 도 3c는 해리스 코너 검출기를 이용한 코너 맵을 나타낸다. 도 3c를 참조하면, 코너가 자막 영역 안에 밀집되어 분포하여, 에지 맵 보다 자막 영역이 확연히 드러나고 있음을 알 수 있다.

제200단계 이후에, 자막 후보군 추출수단(101)이 코너 맵에 대한 코너 밀도를 이용하여 자막 후보군을 추출한다(제201단계). 코너를 이용하여 자막 후보군을 추출하기 위해서 블록 가중치(block weight)를 이용할 수 있다.

글자의 크기는 보통 8~24 픽셀 정도이기 때문에 최소 글자 크기와 노이즈로 인한 차이를 고려하여 10 픽셀×10 픽셀 크기의 블록을 사용할 수 있다. 그런데, 블록을 이용하여 코너 맵을 스캔하는 과정에서 글자가 블록과 정확히 정합되지 않을 수 있기 때문에, 수직 및 수평 방향으로 블록 크기의 반인 5 픽셀씩 이동하면서 스캔하도록 하는 것이 바람직하다. 블록 안의 코너 비중이 블록 크기의 일정 이상, 예컨대 30% 이상일 때 자막 영역이라고 판단하고, 해당 블록 전체를 1 값으로 채워준다. 블록 전체를 채워주는 것은 영상의 열화로 인해 글자임에도 불구하고 코너가 추출되지 않는 부분에 대하여 침식이 일어나지 않도록 하기 위함이다.

이러한 자막 후보군을 추출하는 과정을 수학식으로 나타내면 수학식 6 및 7과 같다. 즉, 수학식 6과 같이 현재 블록 B에 대해 코너 밀도(corner density)를 구한다.

이어서, 수학식 7과 같이 코너 밀도가 0.3 보다 크다면 1을 할당하고, 이외의 경우에는 0을 할당한다.

수학식 6 및 7을 이용하여 자막 후보군을 추출한 결과를 도 4a~4c에 나타내었다. 도 4a는 뉴스 영상을 나타내고, 도 4b는 이진화된 코너 맵을 나타내며, 도 4c는 블록 가중치를 이용하여 추출한 자막 후보군을 나타낸다. 도 4c를 참조하면, 블록 가중치를 이용한 결과 자막 영역이 아닌 곳에서 나타난 코너가 많이 사라졌음을 알 수 있다.

제201단계 이후에, 최종 자막영역 결정수단(102)이 레이블링을 이용하여 최 종 자막 영역을 결정한다(제202단계).

제202단계에서는 빠른 속도를 위해서 스택(stack)을 이용한 레이블링 기법을 사용하는 것이 바람직하다. 이는 픽셀의 연결성(connectivity)에 따라 영역을 구분하기 위해, 추출된 자막 후보군 중에서 1 값을 갖는 픽셀의 이웃 픽셀 값을 조사한다. 같은 값의 픽셀이 나타나면 현재 픽셀에 레이블을 할당하고, 현재의 위치와 이동할 방향을 스택을 이용하여 저장한 후, 1 값을 갖는 새로운 픽셀로 이동하면서 영역을 구분해 나가는 방법이다. 레이블링 과정에서 과도한 자기 호출로 시스템 스택이 넘치는 것을 방지하고 고속 동작을 위해, 사용자가 스택의 크기를 정의할 수 있다.

다양한 영상에서 이진화된 코너 맵에 블록 가중치를 적용한 후 자막 영역에 대하여 레이블링을 수행하여 최종 자막영역을 결정하는 과정이 도 5a~5d, 도 6a~6d, 도 7a~7d에 나타나 있다. 도 5a, 도 6a, 도 7a는 자막이 삽입된 다양한 영상을 나타내고, 도 5b, 도 6b, 도 7b는 블록 가중치를 이용하여 추출한 자막 후보군을 나타내고, 도 5c, 도 6c, 도 7c는 영상 내 가장 큰 두 개의 레이블을 나타내고, 도 5d, 도 6d, 도 7d는 최종 자막 영역 추출을 나타낸다.

레이블링이 끝난 후, 영상 내에 존재하는 모든 영역 중 최소 자막의 크기를 고려하여 일정 크기 이상인 영역에 대해서 크기가 가장 큰 두 개의 영역을 선정하고(도 5c, 6c, 7c), 그 중 하단에 위치한 영역을 최종 자막 영역으로 결정할 수 있다(도 5d, 6d, 7d).

제202단계에서는 블록의 크기와 일반적으로 자막 영역 길이가 영상 내에서 차지하는 비율을 고려하여 수학식 8과 같은 임계값을 사용할 수 있다.

Threshold_label = 10×(width/3)

노이즈가 자막 영역과 같은 레이블로 간주되는 것을 방지하기 위해, 4 인접성(4 adjacent)을 이용하여 레이블링할 수 있다. 복잡한 배경으로 인해 자막 영역에 근접해서 발생하는 노이즈가 자막 영역과 같은 레이블로 간주되는 경우가 있기 때문에, 가능하면 이러한 빈도를 줄이기 위해서 대각선 방향의 연결성을 포함하는 8 인접성(8 adjacent)을 이용한 방법보다 4 인접성을 이용한 방법을 사용하는 것이 바람직하다. 4 인접성을 이용하는 방법은 레이블링을 위해 살피는 주변 픽셀 수가 8 인접성을 이용하는 방법의 반이므로 속도 측면에서도 성능이 뛰어나다고 할 수 있다.

제202단계 이후에, 노이즈 제거수단(103)이 최종 자막영역에 대해 노이즈를 제거하고 영역 채우기를 수행한다(제203단계).

레이블링을 통해 얻은 최종 자막 영역은 블록을 기반으로 얻어진 결과이므로 불필요한 영역을 제거할 필요가 있다. 즉, 도 5d, 도 6d, 도 7d를 보면, 최종 자막 영역의 윗 부분과 아랫 부분에서 불필요한 영역들을 볼 수 있다. 이러한 노이즈는 수평, 수직 방향에 대하여 글자 길이에 대한 제약조건을 이용해 제거할 수 있다. 즉, 검출된 영역에 해당하는 각 행에 대해 가로 방향으로 화면 가로 길이의 소정 비율, 예컨대 15% 이하인 행은 제거하는 것이다.

이렇게 노이즈를 제거한 영역은 영상 열화 등의 이유로 생성되지 못한 코너로 인해 홀(hole)을 가지고 있다. 따라서 다음과 같은 영역 채우기 기법을 통해 최종적으로 자막 영역을 생성할 수 있다.

도 8a에 도시된 바와 같이, 먼저 수평 방향에 대하여 홀을 채우기 위해서 왼쪽에서 오른쪽으로 처음 픽셀 값이 0이 아닌 값을 감지하면 시작점으로 지정하고, 오른쪽에서 왼쪽으로 처음 픽셀 값이 0이 아닌 값을 감지하면 끝점으로 지정하여 시작점부터 끝점까지 홀을 채운다. 수평 방향으로 홀을 채운 후, 위쪽에서 아래쪽으로, 아래쪽에서 위쪽으로 같은 방법을 이용하여 수직 방향에 대하여 홀을 채운다.

도면 8a~8c는 도 5d에서 얻어진 영상에 대하여 노이즈 제거 및 영역 채우기를 적용하는 과정을 나타내고 있다. 도 8a는 레이블링을 통해 결정된 최종 자막 영역, 도 8b는 노이즈 제거 및 영역 채우기를 수행한 후의 최종 자막 영역, 도 8c는 추출된 실제 자막 영역을 나타낸다. 도 8c를 참조하면, 자막 영역이 잘 추출되고 있음을 볼 수 있다.

제203단계 이후에, 업데이트 수단(104)이 프레임간 자막 영역을 업데이트한다(제204단계).

비디오 영상은 프레임간 비슷한 자막을 포함하고 있기 때문에, 매 프레임마다 같은 과정을 반복할 필요 없이 프레임간 자막 영역 업데이트를 통해 처리 과정 을 줄일 수 있다. 이를 위해 프레임 전체를 이용하는 대신 빠른 처리 속도를 위해 도 9와 같이 코너가 밀집되어 있는 영역을 이용한다. 도 9에서 R_H는 코너가 밀집되지 않은 영역을 나타내고, R_L은 코너가 밀집된 영역을 나타낸다.

도 10에 도시된 바와 같이, 코너 맵 비교기(300)는 R_L 영역에서 현재 프레임과 이전 프레임을 입력으로 받아 코너 맵 차이를 구하여 임계값 보다 작으면 현재 프레임의 자막 영역에 변화가 없다고 간주하여 코너 맵 생성 이후의 과정을 무시하고 이전 자막 영역을 보여준다.

이러한 과정을 수학식 9 및 10으로 나타낼 수 있다.

수학식 9 및 10에서, TR_n _-1, TR_n은 각각 이전 프레임과 현재 프레임에서 추출된 자막 영역, d(·,·)은 현재 프레임의 코너 맵과 이전 프레임의 코너 맵 차이를 나타낸다. 이러한 프레임간 자막 영역 업데이트를 이용하여 자막 영역 추출의 효율성을 높일 수 있다.

( 실험예 )

본 발명에 의한 비디오 자막영역 추출방법 및 장치의 성능 측정을 위해 Win32 환경에서 Visual Studio 2003 (C++)을 이용하여 프레임워크(framework)를 개발하였으며, MPEG 복호화를 위해 FFMpeg 라이브러리를 이용하였다. 실험에는 정적인(static) 영상과 동적인(dynamic) 영상을 비교하기 위해 320×240 크기의 300 프레임으로 구성된 뉴스 프로그램과 영화 영상을 사용하였다. 모든 과정은 Pentium 4 3.00GHz PC에서 실시간으로 수행되었다. 프레임간 자막 영역을 업데이트 하는 과정에서는 임계값으로 다양한 영상에 대해 실험한 결과 2000을 사용하였다.

도 11a는 뉴스 영상 대해 본 발명에 의한 비디오 자막영역 추출방법 및 장치를 적용한 실험을 나타내고, 도 11b는 영화 영상 대해 본 발명에 의한 비디오 자막영역 추출방법 및 장치를 적용한 실험을 나타낸다. 도 11a 및 도 11b를 참조하면, 뉴스에 비해 영화는 동적인 배경을 가지고 있기 때문에 추출의 정확성이 다소 떨어짐을 알 수 있다.

도 12a, 12b, 13a, 13b, 14a, 14b, 15a, 15b는 본 발명에 의한 비디오 자막영역 추출방법 및 장치를 다양한 영상에 적용한 결과를 보여주고 있다. 도 12b, 13b, 14b, 15b를 참조하면, 영상 내 언어, 자막의 색깔과 크기, 자막과 배경 간의 밝기 대비에 관계없이 자막 영역이 잘 추출되고 있음을 알 수 있다.

그러나 글자로 이루어진 배경을 포함하고 있는 영상에서는 배경이 자막 영역으로 간주되기 때문에 정확한 자막 영역 추출이 어려울 수 있다. 도 16a, 16b, 17a, 17b는 자막 영역의 배경으로 나타나는 사람의 옷 무늬가 글자인 경우와 뉴스 영상에서 글자로 이루어진 배경이 나타났을 경우 자막 추출의 결과를 보여주고 있다. 배경에 포함된 글자가 자막 영역으로 간주되어 추출되고 있음을 볼 수 있다.

도 11a 및 도 11b에서 보인 뉴스 영상과 영화 영상의 처리 속도에 대한 측정 결과를 표 1에 정리하였다. 프레임간 자막 영역 업데이트를 이용할 경우 성능 향상을 알아보기 위해, 프레임간 자막 영역 업데이트를 이용한 경우와 그렇지 않은 경우를 나누어서 측정하였다.

표 1을 참조하면, 프레임간 자막 영역 업데이트를 사용하면 코너 맵 생성 이후의 처리과정이 무시 되기 때문에 처리 속도의 향상을 가져옴을 알 수 있다. 뉴스 영상의 경우 영상 내 정적인 프레임이 대부분이기 때문에 프레임간 자막 영역 업데이트에 의해 큰 속도 향상을 가져온다. 이에 비해 영화 영상의 경우 대부분이 동적인 프레임이고 자막이 수시로 바뀌기 때문에 프레임간 자막 영역 업데이트가 뉴스 영상만큼 영향을 미치지 못한다. 따라서 정적인 프레임이 많을수록 더 큰 속도 향상을 얻을 수 있음을 알 수 있다.

추출의 정확성을 측정하기 위해, 다음의 수학식 11 및 12와 같이 정의되는 Recall과 Precision을 사용하였다.

수학식 11 및 12에서, TR_n _, _GT는 n번째 영상에서의 수동으로 추출한 자막 영역(ground truth)을 나타내며, Card(A)는 영역 A에 속하는 픽셀의 개수를 나타낸다. 각 실험 영상에 대해 20 프레임 간격으로 자막 추출한 결과를 도 18에 나타내었고, 이에 해당하는 Recall과 Precision 값은 도 19에 그래프로 나타내었다.

도 18a는 프레임 80에 대해 뉴스 영상에서 자막 추출 결과, 도 18b는 프레임 240에 대해 뉴스 영상에서 자막 추출 결과, 도 18c는 프레임 80에 대해 영화 영상에서 자막 추출 결과, 도 18d는 프레임 240에 대해 영화 영상에서 자막 추출 결과를 나타낸다.

도 19a는 뉴스 영상에 대해 20 프레임 간격으로 Recall과 Precision을 측정한 결과를 나타낸 그래프이고, 도 19b는 영화 영상에 대해 20 프레임 간격으로 Recall과 Precision을 측정한 결과를 나타낸 그래프이다. 도 19a, 19b에서 보는 바 와 같이 본 발명에 의한 비디오 자막영역 추출방법 및 장치에 의해서, 높은 Recall과 Precision 값을 얻을 수 있는 것을 알 수 있으며, 동적인 영화 영상에 비해 정적인 뉴스 영상의 Recall과 Precision 값이 일정하게 나타나고 있음을 알 수 있다.

상기한 바와 같이 본 발명에 의하면, 자막이 위치하는 영역에는 에지들의 교차점들이 밀집하여 나타난다는 사실에 착안하여 코너 검출기(corner detector)를 이용하므로, 자막의 색과 언어의 특성에 관계없이 효율적으로 자막 영역을 추출할 수 있는 효과가 있다.

이상, 본 발명의 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되는 것은 아니며, 본 발명의 기술적 사상의 범위내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형이 가능하다.

Claims

(a) 영상의 한 프레임에 대해 코너 맵을 생성하는 단계;

(b) 코너 맵에 대한 코너 밀도를 이용하여 자막 후보군을 추출하는 단계;

(c) 레이블링을 이용하여 최종 자막 영역을 결정하는 단계 및;

(d) 최종 자막 영역에 대해 노이즈를 제거하고 영역 채우기를 수행하는 단계를 포함하는 것을 특징으로 하는 비디오 자막영역 추출방법.
제1항에 있어서, 상기 (a) 단계에서,

해리스 코너 검출기를 이용하여 코너 맵을 생성하는 것을 특징으로 하는 비디오 자막영역 추출방법.
제1항에 있어서, 상기 (b) 단계는

(b1) 소정 크기의 블록을 이용하여 코너 맵을 스캔하여 코너 밀도를 구하는 단계 및;

(b2) 코너 밀도가 소정 값 이상일 때 해당 블록 전체에 대해 1을 할당하는 단계를 포함하는 것을 특징으로 하는 비디오 자막영역 추출방법.
제3항에 있어서, 상기 (b1) 단계에서,

상기 블록은 10 픽셀×10 픽셀 크기의 블록을 사용하고, 코너 맵을 스캔할 때 수직 및 수평 방향으로 5 픽셀씩 이동하면서 스캔하는 것을 특징으로 하는 비디오 자막영역 추출방법.
제1항에 있어서, 상기 (c) 단계는,

(c1) 추출된 자막 후보군에 대해 레이블링을 이용하여 자막 영역을 구분하는 단계;

(c2) 모든 자막 영역 중 최소 자막의 크기를 고려하여 일정 크기 이상인 영역에 대해서 크기가 가장 큰 두 개의 영역을 선정하는 단계 및;

(c3) 두 개의 영역 중 하단에 위치한 영역을 최종 자막 영역으로 결정하는 단계를 포함하는 것을 특징으로 하는 비디오 자막영역 추출방법.
제5항에 있어서, 상기 (c1) 단계에서, 4 인접성(4 adjacent)을 이용하여 레이블링하는 것을 특징으로 하는 비디오 자막영역 추출방법.
제1항에 있어서, 상기 (d) 단계에서 노이즈 제거는,

최종 자막 영역의 각 행에 대해 가로 방향으로 화면 가로 길이의 소정 비율 이하인 행은 제거하는 것을 특징으로 하는 비디오 자막영역 추출방법.
제1항에 있어서, 상기 (d) 단계에서 영역 채우기는,

수평 방향에 대하여 왼쪽에서 오른쪽으로 처음 픽셀 값이 0이 아닌 값을 감 지하면 시작점으로 지정하고, 오른쪽에서 왼쪽으로 처음 픽셀 값이 0이 아닌 값을 감지하면 끝점으로 지정하여, 시작점부터 끝점까지 홀을 채우고,

수직 방향에 대하여 위쪽에서 아래쪽으로 처음 픽셀 값이 0이 아닌 값을 감지하면 시작점으로 지정하고, 아래쪽에서 위쪽으로 처음 픽셀 값이 0이 아닌 값을 감지하면 끝점으로 지정하여, 시작점부터 끝점까지 홀을 채우는 것을 특징으로 하는 비디오 자막영역 추출방법.
제1항에 있어서, 상기 (d) 단계 후에, 영상의 한 프레임에 대해 자막영역을 추출한 후 다음 프레임에 대해,

코너가 밀집된 영역에서 현재 프레임과 이전 프레임의 코너 맵 차이를 구하여 임계값 보다 작으면 현재 프레임의 자막 영역에 변화가 없다고 간주하여 이전 프레임의 자막 영역을 이용하는 단계를 더 포함하는 것을 특징으로 하는 비디오 자막영역 추출방법.
영상의 한 프레임에 대해 코너 맵을 생성하는 코너 검출 수단;

코너 맵에 대한 코너 밀도를 이용하여 자막 후보군을 추출하는 자막 후보군 추출 수단;

레이블링을 이용하여 최종 자막 영역을 결정하는 최종 자막영역 결정 수단 및;

최종 자막 영역에 대해 노이즈를 제거하고 영역 채우기를 수행하는 노이즈 제거 수단을 구비하는 것을 특징으로 하는 비디오 자막영역 추출장치.
제10항에 있어서, 상기 코너 검출 수단으로서 해리스 코너 검출기를 이용하는 것을 특징으로 하는 비디오 자막영역 추출장치.
제10항에 있어서,

코너가 밀집된 영역에서 현재 프레임과 이전 프레임을 입력으로 받아 코너 맵 차이를 구하는 코너 맵 비교기를 포함하고, 코너 맵 차이가 임계값 보다 작으면 현재 프레임의 자막 영역에 변화가 없다고 간주하여 이전 프레임의 자막 영역을 이용하는 업데이트 수단을 더 구비하는 것을 특징으로 하는 비디오 자막영역 추출장치.
제1항 내지 제9항 중 어느 한 항에 있어서,

상기 비디오 자막영역 추출방법을 실행시키기 위한 프로그램을 기록한 기록매체.