KR20030027572A

KR20030027572A - 디지털 영상신호의 텍스트 추출방법

Info

Publication number: KR20030027572A
Application number: KR1020010060925A
Authority: KR
Inventors: 최영우; 윤경로; 유재신; 김주민
Original assignee: 엘지전자 주식회사
Priority date: 2001-09-29
Filing date: 2001-09-29
Publication date: 2003-04-07
Also published as: KR100473944B1

Abstract

본 발명에 따른 디지털 영상신호의 텍스트 추출방법은, DCT 블록의 에지 밀도를 참조하여, 에지 에너지가 높은 블록을 텍스트 후보 영역으로 추출하는 단계와; 상기 추출된 텍스트 후보 영역에 대하여, 모폴로지를 이용하여 블록들을 병합하고, 노이즈 블록을 제거하는 텍스트 후보 영역 병합단계와; 상기 병합된 텍스트 후보 영역에 대하여, 텍스트 영역인지의 여부를 검증하는 텍스트 후보 영역 검증단계; 및 상기 검증된 텍스트 영역에 대하여, 텍스트 영역 테두리 부분의 에지 특성을 이용하여 텍스트 영역을 확정하는 텍스트 영역 설정단계; 를 포함한다.

여기서, 상기 텍스트 후보 영역에 대한 검증단계에 있어, 텍스트 사이의 공간에 의하여 발생되는 수평 에지 크기의 차에 대한 정보를 검출하여 텍스트 후보 영역에 대한 검증을 수행한다.

또한, 상기 텍스트 후보 영역에 대한 검증단계에 있어서, 텍스트 영역은 일정 시간 동안 연속적으로 표시되는 특성을 이용하여, 인접 프레임 간에 변화가 발생되는 영역은 텍스트 후보 영역에서 제외시키며, 상기 텍스트 후보 영역이 일정 시간 연속적으로 표시되는 것에 대한 정보를 획득함에 있어, P 프레임의 비부호화 매크로 블록 타입의 분포 정보를 참조하여 연속적인 표시여부를 판단하고, 비부호화 매크로 블록 타입의 분포가 적은 영역은 텍스트 후보 영역에서 제외시킨다.

Description

디지털 영상신호의 텍스트 추출방법{Text detecting method for digital image signal}

본 발명은 디지털 영상신호의 텍스트 추출방법에 관한 것으로서, 특히 압축된 동영상에 대한 복원과정 없이 참조하여 텍스트 후보 영역을 추출하고, 텍스트의 구조적, 공간적, 시간적인 특성을 이용하여 텍스트 후보 영역을 검증함으로써, 압축된 동영상으로부터 텍스트 영역을 정확하게 추출할 수 있는 디지털 영상신호의 텍스트 추출방법에 관한 것이다.

오늘날 컴퓨터, 압축기술, 저장매체, 고속 통신기술의 발달로 인한 멀티미디어 정보화 시대에서, 대표적인 멀티미디어 중의 하나인 디지털 비디오는 교육, 오락 등을 비롯한 각종 응용 분야에서 중요한 부분을 차지하고 있다. 이에 따라, 방대한 양의 디지털 비디오 영상을 빠르고 효과적으로 검색하기 위해 비디오 자막의 추출, 인식 및 색인에 관한 연구가 계속 진행되고 있다.

비디오 영상에 포함되어 있는 텍스트는 비디오의 내용을 함축적으로 표현하고 있기 때문에, 이 텍스트를 정확하게 인식할 수 있다면, 이러한 텍스트 정보는 비디오의 색인 및 검색에 중요하게 사용될 수 있다. 또한, 비디오 텍스트는 동/정지 영상과 음성, 음향 정보에서 표현하고 있지 않는 내용도 포함하는 경우가 많이 있어서, 그 효용성이 크다.

텍스트 추출에 관련된 연구를 살펴보면, 압축 영상에서 압축을 풀지 않고 텍스트 추출을 처리하는 연구와, 비압축 영상 또는 압축 영상에서 압축을 풀어서 텍스트 추출을 처리하는 연구로 나누어 살펴 볼 수 있다.

비압축 영상 및 압축을 푼 영상에 대해서는 연결 요소나 명암도의 차이, 그리고 각 실험 영상의 사전 지식 정보 등을 이용하여 텍스트 추출이 처리된다. 그러나 압축된 영상에 대해서는, 압축된 영상을 복원한 후에 텍스트 추출이 수행되기 때문에, 압축영상에서 텍스트 추출을 바로 수행하는 방법에 비해 상대적으로 텍스트 추출에 대한 처리시간이 많이 걸리는 단점이 있다. 따라서, 최근에는 압축된 영상에서 압축을 풀지 않은 상태로 텍스트를 추출하는 방법에 대한 연구가 활발하게 진행되고 있다.

한편, MPEG(Moving Picture Expert Group) 압축은 낮은 비트율의 압축을 위해서 연속적인 프레임들 사이의 공간적, 시간적 중복성을 이용한다. 전형적인 MPEG 비디오 시퀀스의 구조는, 도 1에 나타낸 바와 같이, 픽쳐 그룹(GOP:Group Of Picture)들로 이루어져 있으며, 각 GOP들은 I 프레임으로부터 시작하여 몇 개의 P, B 프레임들로 이루어진다.

여기서, I 프레임은 공간적인 중복성을 이용하기 위해서 블록단위의 DCT(Discrete Cosine Transform)를 이용하여 압축된다. 그리고, P, B 프레임은 시간적인 중복성을 이용하기 위한 프레임들이다. 이때, P 프레임은 이전 I 프레임 또는 P 프레임으로부터 예측되어 압축되며, B 프레임은 이전 I 프레임 또는 P 프레임과 B 프레임 이후의 I 프레임 또는 P 프레임으로부터 양방향으로 예측되어 압축된다.

여기서, DCT 블록은 [수학식 1]과 같이 N x N 크기의 영상에 2 차원 DCT 변환을 행한 것이며, MPEG에서 N은 일반적으로 8을 사용한다.

여기서, {u, v = 0, 1, ..., N-1}, {C_u, C_v= 1/, u ≠0, v ≠0}, f(x,y)는 입력된 영상이며, C_uv(u=4, v=1)는 변환 후의 계수 값이다. 2 차원 DCT는 [수학식 1]과 같이 1 차원 DCT를 가로방향과 세로방향의 양방향으로 수행하여 변환한다. x 및 u는 가로방향, y 및 v는 세로방향을 각각 나타낸다.

그리고, [수학식 1]의 코사인(cosine)과 같은 2 차원 기본 함수를 이용하여 표현하는 경우를 도 2와 같이, 특히 기저 영상이라고 한다. 도 2에서 알 수 있듯이, u=0, v=0의 기저 영상은 DC 성분을 나타내며, 그 외 영상은 AC 성분을 나타낸다. u가 클수록 높은 수평 주파수를, v가 클수록 높은 수직 주파수를 각각 나타낸다. 즉, 기저 영상에서 주파수별로 화상을 볼 수가 있다. [수학식 1]을 보면 변환 화상(C_uv)는 주파수마다 기저 영상의 계수이다. 따라서, DCT 블록의 AC 계수는 블록 영상의 에지 성분을 나타낸다. 이로부터, 텍스트 영역은 수직 또는 수평의 주파수 특징을 갖기 때문에 DCT 블록의 AC 계수는 텍스트를 검출하기 위한 특징으로 사용될 수 있다.

한편, 이와 같은 방법에 의하여 DCT 블록의 AC 계수를 참조하여 구해진 텍스트 영역에 대해서는, 그 설정된 텍스트 영역이 실제의 텍스트 영역인지의 여부를 확인하기 위한 검증과정이 필요하게 된다. 왜냐하면, 검출된 텍스트 영역 중에는텍스트 영역이 아니지만, 에지 에너지가 높기 때문에 텍스트 영역으로 검출된 영역도 존재할 수 있기 때문이다.

본 발명은 상기와 같은 여건을 감안하여 창출된 것으로서, 압축된 동영상에 대한 복원과정 없이 참조하여 텍스트 후보 영역을 추출하고, 텍스트의 구조적, 공간적, 시간적인 특성을 이용하여 텍스트 후보 영역을 검증함으로써, 압축된 동영상으로부터 텍스트 영역을 정확하게 추출할 수 있는 디지털 영상신호의 텍스트 추출방법을 제공함에 그 목적이 있다.

도 1은 일반적인 MPEG 비디오 시퀀스의 구조를 나타낸 도면.

도 2는 일반적인 DCT의 기저 영상을 나타낸 도면.

도 3은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 의하여, 압축 동영상에서 텍스트가 추출되는 과정을 나타낸 순서도.

도 4는 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 압축된 동영상에서 텍스트 후보 영역이 검출된 예를 나타낸 도면.

도 5는 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 압축된 동영상에서 텍스트 후보 영역에 대하여 모폴로지를 적용하여 텍스트 후보 영역을 병합한 예를 나타낸 도면.

도 6은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 압축된 동영상에서 텍스트 후보 영역에 대하여 한 라인으로 구성된 텍스트 후보 영역을 삭제한 예를 나타낸 도면.

도 7은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 라인단위 히스토그램을 이용한 검증을 수식적으로 나타낸 도면.

도 8은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 라인단위 히스토그램을 이용한 검증에 의하여 텍스트 후보 영역을 검증한 예를 나타낸 도면.

도 9는 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, P 프레임의 매크로 블록 타입의 정보를 이용하여 텍스트 후보 영역을 검증한 예를 나타낸 도면.

도 10은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 비부호화 매크로 블록만을 이용하여 텍스트 후보 영역을 검증하는 경우에, 움직임 텍스트에 대한 검출 오류의 예를 나타낸 도면.

도 11은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 움직임 벡터 및 비부호화 매크로 블록을 고려하여 텍스트 후보 영역을 검증하는 경우에, 움직임 텍스트가 검출되는 예를 나타낸 도면.

도 12는 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 움직임 벡터 및 비부호화 매크로 블록이 고려된 텍스트 후보 영역에 대한 처리 알고리즘을 수식적으로 나타낸 도면.

도 13은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 비부호화 매크로 블록 또는 특정 방향 성분을 갖는 매크로 블록 분포의 비율을 이용한 경우의 텍스트 후보 영역에 대한 검증 결과를 나타낸 도면.

도 14는 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 텍스트 영역의 수직, 또는 수평 방향으로 텍스트 영역이 확장된 예를 나타낸 도면.

상기의 목적을 달성하기 위하여 본 발명에 따른 디지털 영상신호의 텍스트 추출방법은,

DCT 블록의 에지 밀도를 참조하여, 에지 에너지가 높은 블록을 텍스트 후보 영역으로 추출하는 단계와;

상기 추출된 텍스트 후보 영역에 대하여, 모폴로지를 이용하여 블록들을 병합하고, 노이즈 블록을 제거하는 텍스트 후보 영역 병합단계와;

상기 병합된 텍스트 후보 영역에 대하여, 텍스트 영역인지의 여부를 검증하는 텍스트 후보 영역 검증단계; 및

상기 검증된 텍스트 영역에 대하여, 텍스트 영역 테두리 부분의 에지 특성을 이용하여 텍스트 영역을 확정하는 텍스트 영역 설정단계; 를 포함하는 점에 그 특징이 있다.

여기서, 상기 텍스트 후보 영역에 대한 검증단계에 있어, 텍스트 사이의 공간에 의하여 발생되는 수평 에지 크기의 차에 대한 정보를 검출하여 텍스트 후보 영역에 대한 검증을 수행하는 점에 그 특징이 있다.

또한, 상기 텍스트 사이의 공간에 의하여 발생되는 수평 에지 크기의 차에 대한 정보를 검출함에 있어, 텍스트 후보 영역의 각 라인에서 인접 블록간 수평 에지 크기가 소정 값 이상인 블록의 개수를 조사하고, 그 개수가 해당 라인의 일정 비율 이상이 되면 텍스트 후보 영역을 텍스트 라인으로 판단하는 점에 그 특징이 있다.

또한, 상기 텍스트 후보 영역에 대한 검증단계에 있어서, 텍스트 영역은 일정 시간 동안 연속적으로 표시되는 특성을 이용하여, 인접 프레임 간에 변화가 발생되는 영역은 텍스트 후보 영역에서 제외시키는 점에 그 특징이 있다.

또한, 상기 텍스트 후보 영역이 일정 시간 연속적으로 표시되는 것에 대한 정보를 획득함에 있어, P 프레임의 비부호화 매크로 블록 타입의 분포 정보를 참조하여 연속적인 표시여부를 판단하고, 비부호화 매크로 블록 타입의 분포가 적은 영역은 텍스트 후보 영역에서 제외시키는 점에 그 특징이 있다.

또한, 상기 P 프레임의 비부호화 매크로 블록 타입의 분포 정보를 참조하여 텍스트 후보 영역을 검증함에 있어, 매크로 블록의 움직임 벡터(motion vector) 정보를 참조하여, 특정 방향으로 일정하게 움직이는 텍스트 영역을 검출하며, 상기 특정 방향의 움직임 벡터는 수직 또는 수평 방향의 움직임 벡터인 점에 그 특징이 있다.

또한, 상기 P 프레임의 비부호화 매크로 블록 타입의 정보와, 매크로 블록의 움직임 벡터 정보를 참조하여 텍스트 영역을 검증함에 있어, P 프레임 내에서 비부호화 매크로 블록의 개수와 특정 방향에 대한 움직임 벡터(상, 하, 좌, 우 방향)의 비율을 참조하여 텍스트 영역을 검증하는 점에 그 특징이 있다.

또한, 상기 검증된 텍스트 영역에 대하여, 텍스트 영역 테두리 부분의 에지 특성을 이용하여 텍스트 영역을 확정함에 있어, 상기 텍스트 영역 테두리의 수평 에지 값이 소정 값 이상인 블록들을 조사하고, 그 개수와 텍스트 영역 길이의 비율이 설정된 값 이상인 경우에는 수직방향으로 텍스트 영역을 확장하여 텍스트 영역을 설정하는 점에 그 특징이 있다.

또한, 상기 검증된 텍스트 영역에 대하여, 텍스트 영역 테두리 부분의 에지 특성을 이용하여 텍스트 영역을 확정함에 있어, 상기 텍스트 영역 테두리의 수직 에지 값이 소정 값 이상인 블록들을 조사하고, 그 개수와 텍스트 영역 길이의 비율이 설정된 값 이상인 경우에는 수평방향으로 텍스트 영역을 확장하여 텍스트 영역을 설정하는 점에 그 특징이 있다.

이와 같은 본 발명에 의하면, 압축된 동영상에 대한 복원과정 없이 텍스트 후보 영역을 추출하고, 텍스트의 구조적, 공간적, 시간적인 특성을 이용하여 텍스트 후보 영역을 검증함으로써, 압축된 동영상으로부터 텍스트 영역을 정확하게 추출할 수 있는 장점이 있다.

일반적으로 텍스트 영역은 텍스트 라인들로 구성되는데, 텍스트 라인들은 동일한 방향으로 진행되며, 동일한 영역 내의 텍스트들은 동일한 크기의 텍스트 및문자 사이의 간격을 갖는 구조적인 특징을 지닌다. 또한, 텍스트 영역은 영상 내에서 에지 밀도가 높은 특징과 일정 시간 이상 지속되는 특징을 갖는다. 본 발명에서는 이와 같은 구조적, 공간적, 시간적인 특징을 이용하여 압축된 동영상에서 텍스트를 추출하는 방법을 개시한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세히 설명한다.

도 3은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 의하여, 압축 동영상에서 텍스트가 추출되는 과정을 나타낸 순서도이다.

도 3을 참조하여 본 발명에 따른 디지털 영상신호의 텍스트 추출방법을 설명하면, 본 발명은 텍스트 영역 검출과정(단계 301)과, 텍스트 영역 병합과정(단계 302)과, 텍스트 영역 검증과정(단계 303) 및 텍스트 영역 설정과정(단계 304)을 거쳐 압축된 동영상으로부터 최종적인 텍스트를 추출한다.

먼저, 상기 단계 301의 텍스트 영역 검출과정에 대하여 살펴 보기로 한다. 여기서, 텍스트 영역의 검출이란 DCT 블록으로 이루어진 텍스트 후보 영역을 검출하는 것을 말한다.

본 발명에서는 I 프레임만을 대상으로 하여 압축된 상태에서 YDCT 블록들을 이용하였으며, 영상의 크기가 352 x 240일 때 DCT 블록은 44 x 30이 되었다. 따라서, 검출된 텍스트 영역은 DCT 블록들로 구성된 영역이 된다.

이때, 텍스트 후보 영역을 검출하기 위해서 DCT 블록의 AC 계수 값으로부터 해석되는 특징을 이용하였다. 즉, 텍스트가 포함되어 있는 영역의 에지 밀도는 높게 나타나게 되는데, 이러한 특징은 DCT 블록의 AC 계수에 반영된다. 도 2를 참조하여 설명하면, u=0일 때의 AC 계수는 수직 에지 에너지를 나타내어 텍스트의 수직 에지 특성을 나타내며, v=0일 때의 AC 계수는 수평 에지 에너지를 나타내어 텍스트의 수평 에지 특성을 나타낸다.

따라서, 본 발명에서는 수직 에지 특성과 수평 에지 특성을 나타내는 AC 계수들의 합을 [수학식 2]와 같이 계산하여 DCT 블록의 에지 크기를 구하여 텍스트 후보 블록들을 검출하였다.

여기서, E_str는 블록의 에지 크기의 합을 나타내며, E_str가 정해진 임계 값 이상인 경우에 텍스트 후보 블록으로 선정한다. 그리고, 1 ≤u ≤7, 1 ≤v ≤7과 같이 높은 주파수 성분도 포함시킨 이유는 자막 문자의 크기가 큰 경우에는 낮은 수평 또는 수직 주파수 성분이 강하게 나타나지만, 자막 문자의 크기가 작은 경우에는 높은 수평 또는 수직 주파수 성분을 갖기 때문이다.

도 4는 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 압축된 동영상에서 텍스트 후보 영역이 검출된 예를 나타낸 도면이다. 도 4에서 보는 바와 같이, 에지가 많이 분포된 영역을 추출하여 텍스트 후보 블록을 검출하면, 추출하고자 하는 텍스트와 함께 텍스트가 아닌 다른 영역도 포함되어 추출되는 것을 알 수 있다.

이에 따라, 상기 단계 301에서 추출된 텍스트 후보 영역에 모폴로지를 이용하여 블록들을 병합하고 노이즈 블록을 제거하는 텍스트 영역 병합 과정을 수행한다(단계 302).

검출된 텍스트 후보 영역들은 텍스트 사이의 간격이 크거나, 상대적으로 블록의 에지 크기가 작아서 떨어져 있는 영역들에 대한 병합이 필요하며, 또한 검출된 텍스트 후보 영역에서 노이즈 블록들을 제거할 필요성이 요구된다. 따라서, 텍스트 후보 블록으로 이루어진 텍스트 영역을 병합하고, 잡음 블록들을 제거하기 위하여 모폴로지를 적용한다.

이때, 모폴로지는 1*3 메트릭스를 이용하여 클로징(closing)을 적용한 후에 오프닝(opening)을 적용한다. 이러한 모폴로지 적용 이후에는 텍스트 후보 영역들은 병합되고 노이즈 블록들은 제거될 수 있음을 도 5를 통하여 확인할 수 있다. 도 5는 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 압축된 동영상에서 텍스트 후보 영역에 대하여 모폴로지를 적용하여 텍스트 후보 영역을 병합한 예를 나타낸 도면이다.

그리고, 도 5에 나타낸 바와 같이, 가로 방향의 직선성분이 강한 경우에는 한 라인으로 구성된 텍스트 후보 영역이 검출된다. 그런데, 보통 자막의 문자 높이는 소정의 픽셀(예컨대 8 픽셀) 이상으로 구성되기 때문에, 자막 영역은 최소 영역의 블록(예컨대 8*8 블록)을 차지한다. 따라서, 한 개의 라인으로 구성된 후보 영역은 텍스트 영역이 아닌 것으로 판단하여 도 6에 나타낸 바와 같이 삭제하도록 한다. 도 6은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 압축된 동영상에서 텍스트 후보 영역에 대하여 한 라인으로 구성된 텍스트 후보 영역을 삭제한 예를 나타낸 도면이다.

그런데, 이와 같은 과정을 통하여 검출된 텍스트 후보 영역 중에는 텍스트 영역이 아니지만, 에지 에너지가 높기 때문에 검출된 영역들도 존재할 수 있다. 따라서, 이러한 영역들을 제거하기 위하여 텍스트 영역에 대한 검증과정이 필요하게 된다(단계 303). 이와 같은 텍스트 영역에 대한 검증과정으로써, 라인 단위의 히스토그램 검증과, P 프레임의 매크로 블록 타입을 이용한 검증을 사용하였다.

여기서, 라인 단위의 히스토그램 검증은, 텍스트 라인이 갖는 구조적인 특징에 기반하여 인접 블록간 수평 에지 크기 차가 임계 값 이상인 블록들의 히스토그램을 이용한다. 그리고, P 프레임의 매크로 블록 타입을 이용한 검증은, 텍스트 프레임은 일정 시간 동안 지속되어 여러 프레임에 나타난다는 특징을 이용하여 후보 텍스트 영역 내에 비부호화 매크로 블록 타입 또는 특정 방향을 갖는 매크로 블록 타입의 분포를 이용하는 것이다. 따라서, 고정된 텍스트 영역뿐만 아니라 움직임이 있는 텍스트 영역도 검출할 수 있다.

그러면, 먼저 도 7 및 도 8을 참조하여 라인단위 히스토그램을 이용한 검증과정에 대하여 설명해 보기로 한다. 도 7은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 라인단위 히스토그램을 이용한 검증을 수식적으로 나타낸 도면이고, 도 8은 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 있어서, 라인단위 히스토그램을 이용한 검증에 의하여 텍스트 후보를 검증한 예를 나타낸 도면이다.

라인 단위 히스토그램을 이용한 검증방법은 도 7에 나타낸 바와 같이, 텍스트 영역의 각 라인에서 인접 블록간 수평 에지 크기의 차이가 임계치 이상인 블록의 개수를 조사하고, 그 개수가 해당 라인의 일정한 비율 이상이 되면 텍스트 라인으로 결정하며, 일정 비율 이하가 되면 텍스트 라인이 아닌 것으로 판정하여 그 라인을 삭제하는 것이다.

이때, 수평 에지 크기 차를 이용한 이유는, 가로 직선 성분이 강한 라인은 인접 블록간 수평 에지 크기 차가 작은 특징 때문에 쉽게 제거할 수 있고, 또한 텍스트 사이의 공간이 갖는 특징을 충분히 반영할 수 있다는 것이다. 도 8에 나타낸 바와 같이, 이러한 블록의 수평 에지 크기 차이를 기반으로 한 라인 단위의 검증이 유용함을 확인할 수 있다.

이제, P 프레임의 매크로 블록 타입 정보를 이용한 검증과정에 대하여 살펴보기로 한다. 텍스트 영역은 일정 시간 동안에 존재하기 때문에, 텍스트 영역의 한가지 검증 방법으로서 P 프레임의 매크로 블록 타입을 이용하여 검증을 수행할 수 있다. 만일, I 프레임에 텍스트가 존재하고 바로 다음 P 프레임의 동일한 위치에 텍스트가 존재하면, 텍스트 영역의 매크로 블록 타입은 비부호화 매크로 블록 타입이 많이 분포하게 된다. 따라서, 도 9에 나타낸 바와 같이, P 프레임의 매크로 블록 타입의 분포 정도를 이용하여 텍스트 영역을 검증할 수 있다.

그러나, 도 10에 나타낸 바와 같이, 비부호화 매크로 블록 타입 정보만을 이용할 경우에, 움직임을 갖는 텍스트 영역은 비부호화 매크로 블록이 분포하지 않기 때문에, 이런 상황에서는 텍스트 영역이 없는 것으로 판단되는 오류가 발생된다. 도 10에 나타낸 예는 텍스트 영역이 위로 스크롤 이동되는 경우에 대하여 설명한것이다.

따라서, 이러한 단점을 보완하기 위하여 전방향 매크로 블록중 수직 방향, 또는 수평 방향의 움직임 벡터(motion vector)를 갖는 전방향 참조 매크로 블록 타입 정보도 이용한다. 이러한 특정 방향 성분을 갖는 매크로 블록을 이용하는 이유는 움직임이 있는 텍스트 영역의 경우 수직 또는 수평 방향으로 일정하게 움직이기 때문이다. 도 11은 비부호화 매크로 블록 및 특정 방향(상하, 좌우)의 움직임 벡터를 갖는 매크로 블록을 함께 이용한 검증방법의 예를 나타낸 것이며, 이러한 특징을 이용하여 움직임 텍스트 영역을 추출할 수 있음을 확인할 수 있다.

그러나, 카메라 동작(팬, 틸트)이 발생했을 경우에는 P 프레임의 많은 매크로 블록들이 특정 방형(상하, 좌우)의 움직임 벡터를 갖는 전방향 참조 매크로 블록이 되기 때문에 자연 영상에서 높은 에지 에너지 특성을 갖는 영역들을 잘못 검출하는 오류가 발생할 수도 있다. 이런 문제점을 해결하기 위해, 도 12에 나타낸 바와 같이, P 프레임 내에서 비부호화 매크로 블록의 개수와 특정 방향들에 대한 비율을 이용한 검증 방법을 이용하도록 한다.

도 12에서, TR_n은 I 프레임에서 검출된 텍스트 영역이며, n은 I 프레임 내의 텍스트 영역들 중 임의의 텍스트 영역을 나타낸다. 그리고, NotCodedMBn은 n 번째 영역에서 비부호화 매크로 블록 타입의 개수를 나타내며, LeftMBn, RightMBn, UpMBn, DownMBn은 각각 n 번째 영역에서 전방향 매크로 블록 중에서 움직임 방향 성분이 수평(좌, 우), 수직(위, 아래)인 매크로 블록 타입의 개수이다.

그리고, Rn은 n 영역에서 매크로 블록 타입의 비율이며, PR은 P 프레임 전체 영역에 대한 매크로 블록들의 비율을 나타낸다. 또한, 프레임의 텍스트 영역들 중 하나 이상이 비부호화 매크로 블록 타입에 의해 텍스트 영역으로 검증되면, 이 프레임에서 움직임 텍스트 영역이 없는 것으로 판단하고, 이 프레임에서는 비부호화 매크로 블록 타입 정보만을 이용한다.

따라서, 영역 내에서 비부호화 매크로 블록 또는 특정 방향 성분을 갖는 매크로 블록 분포의 비율을 이용했을 때의 오류 발생을 줄일 수 있게 되며, 이는 도 13을 통하여 확인할 수 있다. 도 13(a)는 본 발명에 따른 방법에 의하여 수행된 텍스트 후보 영역에 대한 검증결과이며, 도 13(b)는 텍스트 영역 내의 임의의 매크로 블록 타입 분포 비율만을 이용한 검증결과를 나타낸 것이다.

한편, 상기 단계 303에서 텍스트 영역 검증이 수행된 후에, 텍스트 영역 설정과정을 수행한다(단계 304). 이는 검증이 끝난 텍스트 영역에 바운딩 박스( bounding box)를 씌우고 텍스트 영역의 위치를 파악하는 과정이다. 또한, 도 14에 나타낸 바와 같이, 경우에 따라서는 텍스트 영역을 수직, 수평 방향으로 확장시킨다.

이때, 텍스트 영역을 수직 방향으로 확장하기 위해서는 수평 에지 크기가 임계값 이상이 되는 블록들을 조사하고, 그 개수와 영역 길이의 비율이 임계 값 이상인 경우에 확장을 수행한다. 여기서, 수평 에지 크기를 사용한 이유는 텍스트 영역의 위, 아래에서는 수평 에지가 큰 블록들이 많이 존재하며 또한 뉴스 영상에서 텍스트 영역의 배경에 직사각형의 배경이 존재하는 경우도 있기 때문이다.

그리고, 수평 방향으로 영역을 확장하기 위해서는 블록의 수직 에지 크기가 임계값 이상인 블록의 개수와 영역 높이의 비율이 임계값 이상이면 확장을 수행한다. 수직 에지 크기 차를 이용한 이유는 텍스트 영역의 좌우 끝은 수직 에지가 큰 블록들이 분포하기 때문이다.

이상의 설명에서와 같이 본 발명에 따른 디지털 영상신호의 텍스트 추출방법에 의하면, 압축된 동영상에 대한 복원과정 없이 텍스트 후보 영역을 추출하고, 텍스트의 구조적, 공간적, 시간적인 특성을 이용하여 텍스트 후보 영역을 검증함으로써, 압축된 동영상으로부터 텍스트 영역을 정확하게 추출할 수 있는 장점이 있다.

Claims

DCT 블록의 에지 밀도를 참조하여, 에지 에너지가 높은 블록을 텍스트 후보 영역으로 추출하는 단계와;

상기 추출된 텍스트 후보 영역에 대하여, 모폴로지를 이용하여 블록들을 병합하고, 노이즈 블록을 제거하는 텍스트 후보 영역 병합단계와;

상기 병합된 텍스트 후보 영역에 대하여, 텍스트 영역인지의 여부를 검증하는 텍스트 후보 영역 검증단계; 및

상기 검증된 텍스트 영역에 대하여, 텍스트 영역 테두리 부분의 에지 특성을 이용하여 텍스트 영역을 확정하는 텍스트 영역 설정단계; 를 포함하는 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법.
제 1항에 있어서,

상기 텍스트 후보 영역에 대한 검증단계에 있어, 텍스트 사이의 공간에 의하여 발생되는 수평 에지 크기의 차에 대한 정보를 검출하여 텍스트 후보 영역에 대한 검증을 수행하는 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법.
제 2항에 있어서,

상기 텍스트 사이의 공간에 의하여 발생되는 수평 에지 크기의 차에 대한 정보를 검출함에 있어, 텍스트 후보 영역의 각 라인에서 인접 블록간 수평 에지 크기가 소정 값 이상인 블록의 개수를 조사하고, 그 개수가 해당 라인의 일정 비율 이상이 되면 텍스트 후보 영역을 텍스트 라인으로 판단하는 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법.
제 1항에 있어서,

상기 텍스트 후보 영역에 대한 검증단계에 있어서, 텍스트 영역은 일정 시간 동안 연속적으로 표시되는 특성을 이용하여, 인접 프레임 간에 변화가 발생되는 영역은 텍스트 후보 영역에서 제외시키는 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법.
제 4항에 있어서,

상기 텍스트 후보 영역이 일정 시간 연속적으로 표시되는 것에 대한 정보를 획득함에 있어, P 프레임의 비부호화 매크로 블록 타입의 분포 정보를 참조하여 연속적인 표시여부를 판단하고, 비부호화 매크로 블록 타입의 분포가 적은 영역은 텍스트 후보 영역에서 제외시키는 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법.
제 5항에 있어서,

상기 P 프레임의 비부호화 매크로 블록 타입의 분포 정보를 참조하여 텍스트 후보 영역을 검증함에 있어, 매크로 블록의 움직임 벡터(motion vector) 정보를 참조하여, 특정 방향으로 일정하게 움직이는 텍스트 영역을 검출하는 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법.
제 6항에 있어서,

상기 특정 방향의 움직임 벡터는 수직 또는 수평 방향의 움직임 벡터인 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법.
제 6항에 있어서,

상기 P 프레임의 비부호화 매크로 블록 타입의 정보와, 매크로 블록의 움직임 벡터 정보를 참조하여 텍스트 영역을 검증함에 있어, P 프레임 내에서 비부호화 매크로 블록의 개수와 특정 방향에 대한 움직임 벡터(상, 하, 좌, 우 방향)의 비율을 참조하여 텍스트 영역을 검증하는 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법.
제 1항에 있어서,

상기 검증된 텍스트 영역에 대하여, 텍스트 영역 테두리 부분의 에지 특성을 이용하여 텍스트 영역을 확정함에 있어, 상기 텍스트 영역 테두리의 수평 에지 값이 소정 값 이상인 블록들을 조사하고, 그 개수와 텍스트 영역 길이의 비율이 설정된 값 이상인 경우에는 수직방향으로 텍스트 영역을 확장하여 텍스트 영역을 설정하는 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법.
제 1항에 있어서,

상기 검증된 텍스트 영역에 대하여, 텍스트 영역 테두리 부분의 에지 특성을 이용하여 텍스트 영역을 확정함에 있어, 상기 텍스트 영역 테두리의 수직 에지 값이 소정 값 이상인 블록들을 조사하고, 그 개수와 텍스트 영역 길이의 비율이 설정된 값 이상인 경우에는 수평방향으로 텍스트 영역을 확장하여 텍스트 영역을 설정하는 것을 특징으로 하는 디지털 영상신호의 텍스트 추출방법.