KR20000060673A

KR20000060673A - 압축된 뉴스 영상에서의 문자영역 추출 및 문자 인식방법

Info

Publication number: KR20000060673A
Application number: KR1019990009207A
Authority: KR
Inventors: 이준환; 박영규; 유원영
Original assignee: 이준환; 박영규; 유원영
Priority date: 1999-03-18
Filing date: 1999-03-18
Publication date: 2000-10-16
Also published as: KR100304763B1

Abstract

본 발명은 MPEG-2로 압축된 스포츠 뉴스 영상으로부터 문자영역을 추출하고 문자를 인식하는 방법에 관한 것으로서, 압축된 뉴스 영상을 구성하는 I-프레임들 중에서 수평, 수직, 대각선 계수값이 일정값 이상인 DCT 블록의 개수가 임계치 이상일 때 해당 I-프레임을 문자 프레임으로 검출하는 제1단계와, 상기 검출된 문자 프레임에서 픽셀 사이의 구배값(gradient)이 일정값보다 크게 나타나는 문자 영역을 추출하는 제2단계, 상기 추출된 문자 영역을 이진화하는 제3단계, 상기 추출된 문자 영역을 문자 부분과 배경 부분으로 분할하여, 상기 이진화된 문자 영역의 배경 부분을 매스킹(masking)하는 제4단계, 상기 배경 부분이 매스킹된 이진화 문자 영역을 필터링하여 노이즈를 제거하는 제5단계, 상기 이진화된 문자 영역을 개별 문자별로 분리하고 분리된 개별 문자를 정규화하는 제6단계, 및 상기 정규화된 개별 문자를 인식하는 제7단계를 포함한다.

Description

압축된 뉴스 영상에서의 문자영역 추출 및 문자 인식방법 { Method of extracting caption regions and recognizing character from compressed news video image }

본 발명은 주문형 뉴스(NOD : News On Demand)를 실현하기 위한 압축된 뉴스 영상의 내용기반 뉴스 색인 및 검색방법에 관한 것으로서, 특히 MPEG-2로 압축된 스포츠 뉴스 영상으로부터 문자영역을 추출하고 문자를 인식하는 방법에 관한 것이다.

오늘날 멀티미디어를 위한 가장 중요한 국제 표준으로 MPEG(Moving Picture Experts Group)이 주목받고 있다. 특히 뉴스 영상을 비롯한 동영상에서 MPEG-2를 이용한 압축은 보편화되어 있고, 주문형 뉴스(NOD : News on Demand)에서의 MPEG의 활용은 화질 및 데이터의 압축 효율 때문에 세계적인 추세로 되어가고 있다.

따라서, 본 발명은 MPEG으로 압축된 뉴스 영상으로부터 문자가 있는 프레임을 찾아서 문자영역을 추출하고 문자를 인식하는 방법을 제공하는 데 그 목적이 있다.

도 1은 본 발명에 따른 압축된 뉴스 영상에서의 문자영역 추출 및 문자 인식과정을 도시한 흐름도,

도 2는 도 1에 적용된 문자영역 추출 및 문자 인식 결과를 도시한 도면으로서, (a)는 검출된 문자 프레임을, (b)는 문자 프레임으로부터 추출된 문자영역을, (c)는 문자영역의 이진화 및 필터링된 영상을, (d)는 정규화 이미지를, (e)는 문자 인식 결과를 각각 도시한 도면,

도 3은 8×8 DCT 블록에서 계수들의 물리적인 의미를 도시한 도면,

도 4는 본 발명의 한 실시예에 따른 문자 영상의 이진화 및 개별 문자분리 과정을 도시한 흐름도,

도 5는 도 4에 도시된 흐름도에 따라 3장의 문자 프레임을 합성하는 과정을 도시한 도면,

도 6은 도 4에 도시된 흐름도에 따라 문자 영상을 이진화하는 과정을 도시한 도면,

도 7은 도 4에 도시된 흐름도에 따라 개별 문자를 분리하는 과정을 도시한 도면,

도 8은 본 발명에 따른 패턴 매칭을 이용한 문자인식과정에 적용되는 정규화된 4메쉬(N4M) 특징을 도시한 일 예도,

도 9는 본 발명에 따른 문자인식과정에 적용되는 7가지 한글 문자 유형을 도시한 도면,

도 10은 본 발명에 따른 문자인식과정에 적용되는 17개의 매스크를 도시한 도면,

도 11은 본 발명에 따른 한글 구조를 이용한 패턴매칭 과정을 도시한 도면이다.

상기한 목적을 달성하기 위한 본 발명에 따른 압축된 뉴스 영상에서의 문자영역 추출 및 문자 인식방법은, 압축된 뉴스 영상을 구성하는 I-프레임들 중에서 수평, 수직, 대각선 계수값이 일정값 이상인 DCT 블록의 개수가 임계치 이상일 때 해당 I-프레임을 문자 프레임으로 검출하는 제1단계와, 상기 검출된 문자 프레임에서 픽셀 사이의 구배값(gradient)이 일정값보다 크게 나타나는 문자 영역을 추출하는 제2단계, 상기 추출된 문자 영역을 이진화하는 제3단계, 상기 추출된 문자 영역을 문자 부분과 배경 부분으로 분할하여, 상기 이진화된 문자 영역의 배경 부분을 매스킹(masking)하는 제4단계, 상기 배경 부분이 매스킹된 이진화 문자 영역을 필터링하여 노이즈를 제거하는 제5단계, 상기 이진화된 문자 영역을 개별 문자별로 분리하고 분리된 개별 문자를 정규화하는 제6단계, 및 상기 정규화된 개별 문자를 인식하는 제7단계를 포함한 것을 특징으로 한다.

또한, 본 발명은, 압축된 뉴스 영상에서 문자영역을 추출하고 추출된 문자를 인식하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 있어서, 압축된 뉴스 영상을 구성하는 I-프레임들 중에서 수평, 수직, 대각선 계수값이 일정값 이상인 DCT 블록의 개수가 임계치 이상일 때 해당 I-프레임을 문자 프레임으로 검출하는 제1단계와, 상기 검출된 문자 프레임에서 픽셀 사이의 구배값(gradient)이 일정값보다 크게 나타나는 문자 영역을 추출하는 제2단계, 상기 추출된 문자 영역을 이진화하는 제3단계, 상기 추출된 문자 영역을 문자 부분과 배경 부분으로 분할하여, 상기 이진화된 문자 영역의 배경 부분을 매스킹(masking)하는 제4단계, 상기 배경 부분이 매스킹된 이진화 문자 영역을 필터링하여 노이즈를 제거하는 제5단계, 상기 이진화된 문자 영역을 개별 문자별로 분리하고 분리된 개별 문자를 정규화하는 제6단계, 및 상기 정규화된 개별 문자를 인식하는 제7단계를 수행하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

이하, 첨부된 도면을 참조하여 본 발명의 한 실시예를 설명하면 다음과 같다.

도 1은 본 발명에 따른 압축된 뉴스 영상에서의 문자영역 추출 및 문자 인식방법을 도시한 흐름도이다.

도 1을 참조하면, 압축된 뉴스 영상에서 문자 프레임을 검출하고(11), 추출된 문자 프레임을 복호화한 후(12), 문자영역을 검출한다(13). 이때, 문자영역은 문자 프레임에서 나타나는 문자의 특징(예를 들면, 흰색, 외곽선, 그림자 등)을 사용하여 검출한다. 검출된 문자영역은 이진화(14), 필터링(15)단계를 거친 후 개별문자로 분리되고(16), 이어 정규화과정(17)을 거쳐 문자 인식된다(18).

도 2는 도 1에 적용된 문자영역 추출 및 문자 인식방법에 의한 처리 결과를 도시한 도면으로서, (a)는 검출된 문자 프레임을, (b)는 문자 프레임으로부터 추출된 문자영역을, (c)는 문자영역의 이진화 및 필터링된 영상을, (d)는 정규화 이미지를, 마지막으로 (e)는 문자 인식 결과를 도시하고 있다.

이하에서 각 과정을 상세하게 살펴보기로 한다.

먼저, MPEG-2로 압축된 뉴스 영상에서 문자 프레임을 검출하는 과정(11)을 살펴본다.

뉴스 영상의 문자를 인식하려면 먼저, 뉴스 영상 중 문자를 포함하고 있는 문자 프레임을 검출하여야 하는데, 영상 중 I-프레임을 역 이산여현변환(IDCT: Inverse Discrete Cosine Transform)시키지 않고 압축된 상태로 문자 프레임을 찾는다.

이를 설명하면, 도 3은 8×8 DCT 블록에서 각 계수들의 물리적인 의미를 도시한 도면이다. 도면에서 F₀는 DCT 블록의 직류(DC)성분, F₁은 세로방향 경계치, F₁₀은 가로방향 경계치, 및 F₁₁은 대각선방향 경계치를 나타낸다. 일반적으로 문자를 포함한 DCT 블록은 수평, 수직, 대각선 경계치가 크게 나타나기 때문에, DCT 블록의 각 계수들을 이용하여 문자를 포함하는 DCT 블록들을 찾는다.

다음, 한 장의 문자 프레임에서 문자를 포함하는 DCT 블록의 개수를 세어서 임계치 이상인 경우 이 프레임을 문자 프레임으로 설정한다. 이때, 텔레비젼 뉴스에서 문자가 나타나는 부분은 화면 하단이라는 가정하에, 화면 하단에서의 매크로 블록들만을 고려하면 시간을 절약할 수 있다.

다음, 검출된 문자 프레임에서 문자 영역을 검출하는 과정(13)을 설명한다.

텔레비젼 비디오 영상에 나타나는 캡션 문자들은 배경화면과의 대비를 위해서 여러 가지 처리를 한다. 즉, 외곽선 처리, 그림자 처리, 실크 처리 등이 수행되는데, 이러한 처리 등은 흰색 글씨와 대비를 이루며 이 부분들에서 픽셀 사이의 구배값(gradient)이 커진다. 따라서, 문자영역의 추출은 픽셀 사이의 구배값을 이용하여, 먼저 가로방향 영역을 추출하고, 다음으로 세로방향 영역을 추출한다.

다음, 도 4를 참조하면서 문자 영상의 이진화 및 개별 문자분리 과정(14,15,16)을 설명한다.

먼저, 문자 영상의 이진화 단계를 살펴보면, 뉴스 영상의 이진화는 일반적인 문서 영상의 이진화와는 달리 문턱치를 이용한 이진화가 용이하지 않다. 즉, 뉴스 영상에서 캡션 문자는 대부분 흰색인데 반해 배경 영상은 여러 가지 색을 가지고 있다. 특히, 스포츠 뉴스 영상의 경우, 흰색 유니폼, 운동장과 같은 배경 영상의 명도가 캡션 문자 영역의 명도보다 높은 경우가 종종 발생하는데, 문자 영역의 이진화 단계에서 이러한 점을 고려하여야 한다.

뉴스 영상의 캡션 문자를 이진화하려면 배경 영상의 명도를 낮추어야 하는데, 이는 같은 문자열을 포함하는 연속된 문자 프레임들의 배경 영상이 계속해서 바뀌는 현상을 이용한다. 즉, 같은 문자열을 포함하는 연속된 문자 프레임들 중 가장 처음의 문자 프레임과 중간, 그리고 가장 끝의 문자 프레임을 각각 취하여, 세 장의 문자 프레임을 얻는다(S41). 이때, 세 장의 문자 프레임들은 캡션 문자 부분에서의 명도차가 거의 없고, 이에 반하여 배경 영상은 계속 바뀌기 때문에 배경 부분에서 문자 프레임간 명도 차이가 나타난다.

따라서, 이 세 장의 문자 프레임들의 명도값의 분산(variance)을 이용하여 배경 부분의 명도를 낮춘다(S45). 먼저, 세 장의 문자 프레임의 명도값의 평균치와 분산을 구하고, 평균치에서 분산값을 감산하여 그레이 레벨의 새로운 영상을 창출한다. 그 과정의 일 예가 도 5에 도시되어 있는 바, 추출된 문자 프레임 (a), (b), (c)의 영상의 평균치에서 분산값을 감산하면 (d)와 같은 그레이 레벨의 새로운 영상을 얻을 수 있다. 도면에서는 문자 프레임 전체에 대해 그레이 레벨의 영상을 얻었으나, 본 발명의 바람직한 실시예에서, 이진화의 모든 과정은 추출된 문자 영역에 대해서만 고려하여 실행속도를 높인다.

다음, 문자 영역의 이진화 단계(S46)는 이중 문턱치와 영역 확장을 이용한다. 이중 문턱치는 추출된 문자 영역 중 문자 부분이 25% 정도를 차지한다는 실험치에 의한 결과에 의해 CDF(Cumulative Distribute Function)에서 각각 25%, 30%의 값을 잡는다.

도 6의 (a)는 추출된 문자 영역을 도시하고 있고, 도 6의 (b)는 이중 문턱치를 이용하여 이진화를 수행한 결과를 도시하고 있다. 이 이진화된 영상은 노이즈가 많아서 그대로 문자 인식에 사용될 경우에는 많은 오인식을 유발하기 때문에 노이즈를 제거하기 위하여 추출된 문자 영역을 문자부분과 배경부분으로 나누는 방법을 이용한다.

이 방법은 3장의 문자 프레임들의 평균 영상을 취하여(S42), 분할-병합 알고리즘을 이용하여 문자 영역을 영역 분할하고(S43), 각각의 영역 중 크기에 따라 문자부분과 배경부분을 나누는데(S44), 문자의 자소는 크기가 그다지 크지 않고 이에 반해 배경부분은 영역의 크기가 크기 때문에 추출된 영역의 크기가 문턱치보다 큰 경우 이 영역을 배경영역으로 간주하여, 배경부분을 추출한다.

이와 같이 도 6의 (c)에 도시된 바와 같은 문자영역에서 배경부분이 추출되면, 이 추출된 배경부분을 마스크로 하여 이진화된 영상을 매스킹한다(S47). 매스킹 후의 이진영상은 도 6의 (d)에 도시되어 있다.

매스킹된 이진화 영상은 수리형태학적인 필터링을 거쳐(S48), 도 6(e)에 도시된 바와 같은 노이즈가 거의 없는 최종적인 이진 영상이 추출된다(S49).

다음, 개변문자 분리과정(16)을 살펴보면 다음과 같다.

이진화된 영상에서 세로방향의 프로파일을 구하면 개별문자 분리를 쉽게 할 수 있다. 하지만 개별문자 분리를 단순히 프로파일만을 이용할 경우에는, 노이즈에 의해 두 문자가 하나의 문자로 인식되거나 한글의 구조적 특성상 하나의 문자가 두 문자로 인식되는 경우가 종종 존재하게 된다. 이때, 두 문자가 하나의 문자로 인식되는 경우에는 분리하여야 하고, 하나의 문자가 두 문자로 인식된 경우에는 병합하여야 하는데, 이를 위하여 평균문자너비를 계산하여 이용한다.

먼저, 평균문자너비를 구하고 프로파일 특성을 이용하여 가능한 모든 분리점을 찾아낸다. 그 후, 분리점 후보에서 평균문자너비를 고려하여 분리/병합시킨다.

예를 들면, 도 7의 (a)와 같이 추출된 문자 영역에서 가능한 모든 분리점을 찾아내면, 'K' 자는 두 문자로 분리되고, '스'와 '포' 자는 하나의 문자로 합쳐져 인식된다. 이렇게 찾아진 분리 후보점에서 '스포'와 같이 노이즈에 의해 합쳐져 인식된 문자들은 평균문자너비보다 훨씬 크기 때문에 도 7의 (b)와 같이 반으로 나누어 분리 후보점을 찾는다. 또한, 두 문자로 분리된 'K' 자는 평균문자너비보다 작고, 합쳐진 경우가 평균문자너비와 비슷하기 때문에 병합하여 도 7의 (c)와 같이 분리 후보점을 제거한다.

이와 같이 추출된 문자 영역에서 가능한 모든 분리 후보점을 찾아낸 후, 각각의 분리된 문자에 대해 정규화를 시도한다. 정규화는 12×12 혹은 15×15 크기로 하여 처리속도를 높였으며, 경계선에 생기는 획의 유실에 대해 일반화 능력을 향상시킨다. 정규화 과정은 개별 문자 영상을 12×12 혹은 15×15의 메쉬로 나누어 각각의 메쉬에 대해 획이 차지하는 비율을 계산한 명암값 메쉬를 사용한다. 도 7의 (d)는 정규화 이후의 영상을 도시하고 있다.

다음, 문자 인식과정(18)을 상세하게 살펴본다.

공지된 한글 문자를 인식하는 방법으로는, 구조적 특징을 이용하는 방법, 신경망을 이용하는 방법, 및 패턴 매칭에 의한 방법 등이 있다. 본 발명의 바람직한 실시예에서는 패턴 매칭에 의한 문자 인식방법을 이용하나, 나머지 두 인식방법에 의해서도 한글 문자를 인식할 수 있다. 각각의 문자 인식방법을 설명하면 다음과 같다.

1, 구조적 특징을 이용한 문자 인식방법

구조적 특징을 이용한 문자인식방법은 자체적으로 개발한 인식기를 사용한다. 이는 캡션 문자가 삽입될 때 경계선 부분이 배경과 혼합되어 균일하지가 않고 획이 많은 문자의 경우 획의 두께가 두꺼운 견고딕이기 때문에 획 사이의 경계선이 유실되어 구조적 특징으로 바꾸는 경우가 많기 때문에, 캡션 문자 인식에 저조한 인식률을 나타낸다.

2, 신경망을 이용한 문자 인식방법

신경망은 BP(Backpropagation)를 이용하여 구성하였고 먼저 한글을 여섯가지 유형으로 나누는 유형 분류 신경망과 각각의 유형에 맞게 훈련된 자소기반 인식 신경망 등 2단으로 구성한다. 정규화 사이즈는 15×15으로 일반화 능력을 키웠으며 훈련 데이터로서 견고딕체 한글 2350자를 사용한다. 먼저, 훈련 데이터에 대해서는 100%의 인식률을 얻을 수 있으나, 실제 데이터에서는 캡션 문자의 특징때문에 70%를 밑도는 인식률을 얻을 수 있었다. 이러한 저인식률의 주요 원인은 훈련 데이터를 충분히 확보하지 못했다는데 있지만, 일반 문서의 인식과는 달리 텔레비젼의 캡션문자를 2350개의 완성형 한글 전체에 대해 여러 가지의 패턴으로 이미지를 얻는다는 것은 실제적으로 불가능하다고 볼 수 있다.

3, 패턴 매칭을 이용한 문자 인식방법

패턴 매칭을 이용한 문자 인식의 가장 큰 장점은 알고리즘이 간단하다는 것이다. 그러나, 많은 수의 글자를 인식하려면 많은 수의 패턴이 메모리상에 상주해야 되기 때문에 대용량의 메모리가 필요하고, 인식속도도 늦어진다. 12×12 크기로 정규화된 명암 영상의 유클리디안 거리를 아용한다. 패턴 매칭에 사용된 패턴은 완성형 한글 2350자와 영숫자 36자, 특수문자 4자를 합쳐 전제 2390자의 견고딕 글씨체에서 얻었으며 12×12 크기로 정규화한다.

패턴 매칭의 과정을 상세하게 살펴보면, 먼저, 정규화된 데이터를 4개의 메쉬로 나누어 패턴의 유사성을 판정한다. 즉, 정규화된 4메쉬(N4M: Normalized 4-Mesh)는 정규화된 데이터를 4개의 메쉬(mesh)로 나누어 각 메쉬의 문자 점유율을 퍼센트로 계산한 것으로, 도 8에 도시되어 있다. 이러한 N4M 특징 매칭을 이용하여, 인식한 문자의 N4M 특징과 유사한 12×12 메쉬의 패턴 매칭을 비교하여 유사성의 척도로 사용한다. 즉, 인식될 데이터와의 N4M 특징 매칭에서 유사성이 큰 패턴들에 한해서 12×12 크기의 패턴 매칭을 시도하면, 패턴 매칭에 소요되는 시간을 평균 1/10로 줄일 수 있다.

패턴 매칭을 이용한 인식에서 나타나는 오인식의 많은 경우가 비슷한 자음이나 모음에 의해 발생한다. 곧 '허'와 '히'의 경우나, '포'와 '프'의 경우는 문자획이 두꺼운 견고딕에서 오인식될 가능성이 높다. 이러한 오인식을 정정하기 위해 인식된 패턴을 7가지 유형으로 나누고 각각의 유형의 구조에 맞는 패턴 매칭을 이용하는 방법을 이용한다.

먼저, 도 11을 참조하면, 첫 번째 그림에서 '박' 자의 인식 데이터에 대하여 제1, 제2, 제3후보패턴은 각각 '박', '막', '뱍'이며, 이 후보패턴들은 모두 도 9의 한글 문자 유형 중 5형식에 속한다. 이때, 제2후보패턴은 초성이 다른 경우이기 때문에 도 10의 매스크 중 초성 매스크를 이용하여 초성 부분만 다시 패턴 매칭을 행하면 걸러진다. 마찬가지로 제3후보패턴은 중성 매스크를 이용하여 패턴 매칭을 시도하면 걸러질 수 있다. 최종적으로 인식 데이터는 제1후보패턴과 가장 가까우므로 '박' 자로 인식할 수 있게 된다.

한글의 구조에 따른 7가지 유형의 초, 중, 종성의 매스크는 도 9와 같이 각 유형의 평균 영상에서 얻을 수 있다.

이러한 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 기록되어, 컴퓨터에 의하여 처리될 수 있다.

압축된 뉴스 영상에서의 문자를 인식하는 데 가장 시간 소요가 많은 부분은 문자가 있는 프레임을 찾는 과정이다. 본 발명에서는 뉴스 영상을 복호화하지 않고 DCT 계수를 이용하여 프레임 내의 문자 유무를 판단하기 때문에 시간 소요를 줄일 수 있는 효과가 있다.

또한, 뉴스 영상의 캡션 문자들은 많은 노이즈를 포함하기 때문에 문자의 특징을 사용하여 문자 영역을 검출하고, 검출된 영역의 이진화시 비디오 영상에 적합한 연속되는 프레임의 합성, 이중 문턱치와 영역 확장, 분할과 병합 알고리즘을 이용함으로써, 문자 인식률을 향상시키는 효과가 있다. 본 발명을 응용하면 압축된 뉴스 영상을 이용하여, 주문형 뉴스(NOD)를 위한 내용기반 뉴스 색인 및 검색이 가능해지는 효과가 있다.

이상에서 본 발명에 대한 기술 사상을 첨부 도면과 함께 서술하였지만 이는 본 발명의 가장 양호한 실시예를 예시적으로 설명한 것이지 본 발명을 한정하는 것은 아니다. 또한, 이 기술 분야의 통상의 지식을 가진 자이면 누구나 본 발명의 기술 사상의 범주를 이탈하지 않는 범위 내에서 다양한 변형 및 모방이 가능함은 명백한 사실이다.

Claims

압축된 뉴스 영상을 구성하는 I-프레임들 중에서 수평, 수직, 대각선 계수값이 일정값 이상인 DCT 블록의 개수가 임계치 이상일 때 해당 I-프레임을 문자 프레임으로 검출하는 제1단계와,

상기 검출된 문자 프레임에서 픽셀 사이의 구배값(gradient)이 일정값보다 크게 나타나는 문자 영역을 추출하는 제2단계,

상기 추출된 문자 영역을 이진화하는 제3단계,

상기 추출된 문자 영역을 문자 부분과 배경 부분으로 분할하여, 상기 이진화된 문자 영역의 배경 부분을 매스킹(masking)하는 제4단계,

상기 배경 부분이 매스킹된 이진화 문자 영역을 필터링하여 노이즈를 제거하는 제5단계,

상기 이진화된 문자 영역을 개별 문자별로 분리하고 분리된 개별 문자를 정규화하는 제6단계, 및

상기 정규화된 개별 문자를 인식하는 제7단계를 포함한 것을 특징으로 하는 압축된 뉴스 영상에서의 문자영역 추출 및 문자 인식방법.
제1항에 있어서, 상기 제3단계는 이중 문턱치를 이용하여 이진화하는 단계인 것을 특징으로 하는 압축된 뉴스 영상에서의 문자영역 추출 및 문자 인식방법.
제1항에 있어서, 상기 제7단계는 패턴 매칭을 이용하여 개별 문자를 인식하는 단계인 것을 특징으로 하는 압축된 뉴스 영상에서의 문자영역 추출 및 문자 인식방법.
압축된 뉴스 영상에서 문자영역을 추출하고 추출된 문자를 인식하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 있어서,

압축된 뉴스 영상을 구성하는 I-프레임들 중에서 수평, 수직, 대각선 계수값이 일정값 이상인 DCT 블록의 개수가 임계치 이상일 때 해당 I-프레임을 문자 프레임으로 검출하는 제1단계와,

상기 검출된 문자 프레임에서 픽셀 사이의 구배값(gradient)이 일정값보다 크게 나타나는 문자 영역을 추출하는 제2단계,

상기 추출된 문자 영역을 이진화하는 제3단계,

상기 추출된 문자 영역을 문자 부분과 배경 부분으로 분할하여, 상기 이진화된 문자 영역의 배경 부분을 매스킹(masking)하는 제4단계,

상기 배경 부분이 매스킹된 이진화 문자 영역을 필터링하여 노이즈를 제거하는 제5단계,

상기 이진화된 문자 영역을 개별 문자별로 분리하고 분리된 개별 문자를 정규화하는 제6단계, 및

상기 정규화된 개별 문자를 인식하는 제7단계를 수행하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.