KR20050111186A

KR20050111186A - 영상의 문자 추출 장치 및 방법

Info

Publication number: KR20050111186A
Application number: KR1020040036393A
Authority: KR
Inventors: 정철곤; 김지연; 문영수
Original assignee: 삼성전자주식회사
Priority date: 2004-05-21
Filing date: 2004-05-21
Publication date: 2005-11-24
Also published as: KR100647284B1; JP2005339547A; US20060008147A1; EP1600889A1

Abstract

영상의 문자 추출 장치 및 방법이 개시된다. 이 장치는, 문자 영역과 배경 영역으로 이루어진 자막 영역을 영상으로부터 검출할 때 생성된 영상의 공간적인 정보로부터 문자 영역을 나타내는 마스크의 높이를 검출하는 마스크 검출부 및 마스크의 높이에 상응하여 문자 영역에서 문자를 추출하는 문자 추출부를 구비하고, 공간적인 정보는 영상의 에지 그레디언트에 해당하는 것을 특징으로 한다. 그러므로, 영상에서 의미있는 중요한 정보를 포함하지만 종래의 방법으로는 인식이 안 되는 작은 문자들의 인식을 가능하게 하였고, 또한, 추출된 문자를 인식하여 영상의 내용을 파악하고 영상을 요약, 검색 및 내용별로 인덱싱하는 작업을 보다 정확하게 수행할 수 있도록 하고, 문자를 보다 빨리 추출할 수 있는 효과를 갖는다.

Description

영상의 문자 추출 장치 및 방법{Apparatus and method for extracting character of image}

본 발명은 영상의 처리에 관한 것으로서, 특히, 영상에 포함된 문자를 추출하는 장치 및 방법에 관한 것이다.

영상에서 문자를 추출하는 종래의 방법들은 임계값(thresholding) 방법, 영역 병합(region merging) 방법 및 클러스터링(clustering) 방법으로 대별된다.

임계값 방법은 지정된 임계값을 모든 영상에 대해 적용하기 어렵고 이로 인하여 문자를 추출하는 성능을 저하시키는 문제점을 갖는다. 이러한 임계값 방법에 대해서는 미국 특허 번호 US6,101,274, US6,470,094, 대한민국 특허공개번호 1999-47501 및 'Tang', 'Xinbo Gao', 'Jianzhuang Liu' 및 'Hongjiang Zhang'에 의해 "A spatial-temporal approach for video caption detection and recognition"라는 제목으로 2002년 7월에 발표되어 IEEE Trans. on Neural Network, vol. 13, No. 4에 실린 논문에 개시되어 있다.

영역 병합 방법은 영상을 분할한 후 평균값이 비슷한 영역을 병합하는 데 많은 계산 시간을 소요하므로, 문자를 추출하는 속도를 저하시키는 문제점을 갖는다. 이러한 영역 병합 방법에 대해서는 'Kongqiao Wang', 'Kangas, J.A' 및 'Wenwen Li'에 의해 "Character segmentation of color images from digital camera"라는 제목으로 2001년 9월에 발표되어 Document Analysis and Recognition, 2001. Proceedings. Sixth International Conference on에 실린 논문의 10-13쪽들에 개시되어 있다.

클러스터링 방법에 대해서는 'K. Wong' 및 'Minya Chen'에 의해 "A new robust algorithm for video text extraction"라는 제목으로 2003년도에 발표되고 Pattern Recognition, vol. 36에 실린 논문 및 김종렬, 김성섭 및 문영식에 의해 저술되고 "뉴스 비디오 자막 추출 및 인식 기법에 관한 연구"라는 제목으로 2003년 1월에 발표되어 대한전자공학회 논문지 제40권 SP편 제1호에 실린 논문에 개시되어 있다.

전술한 종래의 문자 추출 방법들은 적은 크기의 문자에 대해서는 인식을 수행할 수 없는 문제점을 갖는다. 이는 인식기별로 차이가 있지만, 인식기가 20~30 픽셀 이하의 높이를 갖는 문자를 인식할 수 없기 때문이다.

본 발명이 이루고자 하는 기술적 과제는, 영상으로부터 작은 크기의 문자도 추출하여 인식이 가능하게 하는 영상의 문자 추출 장치를 제공하는 데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는, 영상으로부터 작은 크기의 문자에 대해서도 인식을 가능하게 하는 영상의 문자 추출 방법을 제공하는 데 있다.

상기 과제를 이루기 위한 본 발명에 의한 영상의 문자 추출 장치는, 문자 영역과 배경 영역으로 이루어진 자막 영역을 영상으로부터 검출할 때 생성된 상기 영상의 공간적인 정보로부터 상기 문자 영역을 나타내는 마스크의 높이를 검출하는 마스크 검출부 및 상기 마스크의 높이에 상응하여 상기 문자 영역에서 문자를 추출하는 문자 추출부로 구성되고, 상기 공간적인 정보는 상기 영상의 에지 그레디언트에 해당하는 것이 바람직하다.

상기 다른 과제를 이루기 위한 본 발명에 의한 영상의 문자 추출 방법은, 문자 영역과 배경 영역으로 이루어진 자막 영역을 영상으로부터 검출할 때 생성된 상기 영상의 공간적인 정보로부터 상기 문자 영역을 나타내는 마스크의 높이를 구하는 단계 및 상기 마스크의 높이에 상응하여 상기 문자 영역에서 문자를 추출하는 단계로 이루어지고, 상기 공간적인 정보는 상기 영상의 에지 그레디언트에 해당하는 것이 바람직하다.

이하, 본 발명에 의한 영상의 문자 추출 장치의 구성 및 동작과, 그 장치에서 수행되는 영상의 문자 추출 방법을 첨부한 도면들을 참조하여 다음과 같이 설명한다.

도 1은 본 발명에 의한 영상의 문자 추출 장치의 실시예를 설명하기 위한 블럭도로서, 자막 영역 검출부(8), 마스크 검출부(10), 제1 선명도 조절부(12), 문자 추출부(14) 및 잡음 제거부(16)로 구성된다.

도 2는 본 발명에 의한 영상의 문자 추출 방법의 실시예를 설명하기 위한 플로우차트로서, 마스크의 높이를 구한 결과를 이용하여 문자 영역에서 문자를 추출하는 단계(제40 ~ 제46 단계들) 및 추출된 문자에서 잡음을 제거하는 단계(제48 단계)로 이루어진다.

도 1에 도시된 자막 영역 검출부(8)는 입력단자 IN1을 통해 입력한 영상으로부터 자막 영역을 검출하고, 자막 영역을 검출할 때 생성한 영상의 공간적인 정보를 마스크 검출부(10)로 출력한다(제40 단계). 여기서, 자막 영역이란 문자(들)로만 이루어지는 문자 영역과 그 문자 영역의 배경에 해당하는 배경 영역으로 이루어지며, 영상의 공간적인 정보란 영상의 에지 그레디언트(edge gradient)를 의미한다. 이 때, 문자 영역에 포함되는 문자는 원 영상에 담겨있는 문자일 수도 있고 제작자에 의해 영상에 의도적으로 삽입된 문자(superimposed text)일 수도 있다. 이 때, 동영상으로부터 자막 영역을 검출하는 일 례가 대한민국 특허 출원 번호 04-10660에 개시되어 있다.

제40 단계후에, 마스크 검출부(10)는 자막 영역 검출부(8)로부터 입력한 영상의 공간적인 정보로부터 문자 영역을 나타내는 마스크의 높이를 검출한다(제42 단계).

도 1에 도시된 본 발명에 의한 영상의 문자 추출 장치는 자막 영역 검출부(8)를 포함하지 않고, 마스크 검출부(10), 제1 선명도 조절부(12), 문자 추출부(14) 및 잡음 제거부(16)만으로 구현될 수도 있다.

도 3은 도 1에 도시된 마스크 검출부(10)의 본 발명에 의한 실시예(10A)의 블럭도로서, 제1 이진화부(60), 마스크 생성부(62) 및 라인 검출부(64)로 구성된다.

도 4 (a) ~ (c)들은 초기 마스크가 생성되는 과정의 이해를 돕기 위한 예시적인 도면들로서, 도 4 (a) ~ (c)들 각각은 '부르는게 값'이라는 문자 영역과 그 밖에 배경 영역으로 구성된다.

도 3에 도시된 마스크 검출부(10A)의 이해를 돕기 위해, 문자 영역에 포함되는 문자들이 '부르는게 값'이라고 가정하고, 도 4 (a) ~ (c)들을 참조하면서 도 3에 도시된 마스크 검출부(10A)의 구성 및 동작을 설명하지만, 본 발명은 이에 국한되지 않는다.

도 3에 도시된 제1 이진화부(60)는 입력단자 IN2를 통해 자막 영역 검출부(8)로부터 입력한 도 4 (a)에 도시된 공간적인 정보를 제1 임계값(TH₁)을 이용하여 이진화하고, 도 4 (b)에 도시된 이진화된 결과를 마스크 생성부(62)로 출력한다.

마스크 생성부(62)는 제1 이진화부(60)로부터 입력한 도 4 (b)에 도시된 이진화된 결과에서 문자 내부의 홀을 제거하고, 도 4 (c)에 도시된 제거된 결과를 초기 마스크로서 라인 검출부(64)로 출력한다. 여기서, 문자 내부의 홀이란 도 4 (b)에 도시된 '부르는게 값'이란 검은색 문자의 내부에 보여지는 흰색들을 의미하고, 초기 마스크란 도 4 (c)에 도시된 흰색의 배경 영역을 포함하지 않으며 '부르는게 값'이란 검은색 문자들을 의미한다.

본 발명에 의하면, 마스크 생성부(62)는 제1 이진화부(60)로부터 입력한 이진화된 결과에 대해 모폴로지(Morphology) 필터링을 수행하고, 수행된 결과를 초기 마스크로서 출력하는 모폴로지 필터(70)로 구현될 수도 있다. 이 때, 모폴로지 필터(70)는 제1 이진화부(60)에서 이진화된 결과에 대해 다일레이션(dilation)법을 수행하여 초기 마스크를 생성할 수 있다. 여기서, 모폴로지 필터링과 다일레이션법에 대해서는, 'R. Jain', 'R. Kastuni' 및 'B. G. Schunck'에 의해 저술되고 "Machine vision"이라는 제목으로 McGraw-Hill 출판사에 의해 1995년도에 출간된 책의 페이지 61-69쪽들에 개시되어 있다.

도 5 (a) 및 (b)는 도 3에 도시된 라인 검출부(64)의 이해를 돕기 위한 예시적인 도면들로서, 도 5 (a)는 도 4 (c)에 해당하며 초기 마스크를 나타내고, 도 5 (b)는 문자 라인을 나타낸다.

라인 검출부(64)는 마스크 생성부(62)로부터 입력한 도 5 (a)에 도시된 초기 마스크의 높이(72)를 검사하여 출력단자 OUT2를 통해 출력하는 한편, 초기 마스크의 높이에 해당하는 폭을 나타내는 도 5 (b)에 도시된 문자 라인(74)을 검출하며, 검출된 문자 라인(74)을 출력단자 OUT2를 통해 출력한다. 여기서, 문자 라인(74)이란, 자막 영역에서 문자 영역을 최소한 포함하는 부분의 범위를 나타내며, 문자를 포함하지 않는다.

한편, 제42 단계후에, 제1 선명도 조절부(12)는 자막 영역 검출부(8)로부터 입력한 자막 영역에서 문자 영역을 보다 선명하게 조절하고, 보다 선명하게 조절된 문자 영역을 문자 추출부(14)로 출력한다(제44 단계). 이를 위해, 자막 영역 검출부(8)는 입력단자 IN1을 통해 입력한 영상으로부터 자막 영역을 검출하고, 검출된 자막 영역을 영상의 시간적인 정보로서 제1 선명도 조절부(12)로 출력한다.

제44 단계후에, 문자 추출부(14)는 제1 선명도 조절부(12)로부터 입력한 조절된 선명도를 갖는 문자 영역으로부터 문자를 추출한다(제46 단계).

본 발명에 의하면, 도 2에 도시된 바와 달리, 제44 단계가 먼저 수행된 후 제42 단계가 수행될 수도 있다. 이 경우, 제42 단계가 수행된 후에, 제46 단계가 수행된다. 또한, 제40 단계가 수행된 후에, 제42 및 제44 단계들이 동시에 수행될 수도 있다.

도 1에 도시된 제1 선명도 조절부(12)는 본 발명에 의하면, 시간 평균 계산부(20)로 구현될 수 있다. 여기서, 시간 평균 계산부(20)는 동일한 문자를 갖는 자막 영역들을 자막 영역 검출부(8)로부터 입력하고, 입력한 자막 영역들의 휘도 레벨들의 시간상 평균값을 다음 수학식 1과 같이 계산한다.

여기서, 은 시간상 평균값을 나타내고, N_f는 동일한 문자를 갖는 자막 프레임들의 개수를 나타내고, R_t는 t번째 프레임에 존재하는 자막 영역의 휘도 레벨을 나타낸다.

도 6은 도 1에 도시된 시간 평균 계산부(20)의 이해를 돕기 위한 예시적인 도면으로서, 다수개의 I-프레임들(...I_t-1, I_t, I_t+1, .... I_t+X...)로 구성된다. 여기서, I_t+X는 t+X번째 I-프레임을 나타내고, X는 정수이다.

예를 들어, 도 6에 도시된 t번째 I-프레임(I_t)부터 t+X번째 I-프레임(I_t+X)들(80)이 모두 동일한 문자를 갖는 자막 영역을 포함할 경우, 수학식 1의 N_f는 'X+1'이 된다.

이와 같이, 동일한 문자를 갖는 자막 영역들의 휘도 레벨들을 시간상으로 평균하면 문자가 보다 선명하게 된다. 왜냐하면, 자막 영역에서 문자 이외의 부분은 랜덤 노이즈(Random noise) 성분을 갖기 때문이다.

이와 같이, 제1 선명도 조절부(12)가 시간 평균 계산부(20)로 구현될 경우, 문자 추출부(14)는 시간 평균 계산부(20)에서 계산된 평균값을 휘도 레벨로서 갖는 문자 영역으로부터 문자를 추출한다.

본 발명의 다른 실시예에 의하면, 도 1에 도시된 바와 달리, 영상의 문자 추출 장치는 제1 선명도 조절부(12)를 마련하지 않을 수도 있다. 즉, 도 2에 도시된 영상의 문자 추출 방법은 제44 단계를 마련하지 않을 수도 있다. 이 경우, 제42 단계후에, 문자 추출부(14)는 마스크의 높이에 상응하여 자막 영역 검출부(8)로부터 입력한 문자 영역에서 문자를 추출한다(제46 단계). 즉, 문자 영역이 제1 선명도 조절부(12)로부터 입력되는 대신에 자막 영역 검출부(8)로부터 입력되는 것을 제외하면, 제1 선명도 조절부(12)가 존재하지 않은 경우의 문자 추출부(14)의 동작은 제1 선명도 조절부(12)가 존재할 때와 동일하다.

도 7은 도 1에 도시된 문자 추출부(14)의 본 발명에 의한 실시예(14A)의 블럭도로서, 높이 비교부(90), 제2 선명도 조절부(92), 크기 확대부(94) 및 제2 이진화부(96)로 구성된다.

도 8은 도 2에 제46 단계에 대한 본 발명의 실시예(46A)를 설명하기 위한 플로우차트로서, 마스크의 높이에 따라 문자를 선명하게 하여 확대하는 단계(제120 ~ 제124 단계들) 및 문자를 이진화하는 단계(제126 단계)로 이루어진다.

도 7에 도시된 높이 비교부(90)는 입력단자 IN4를 통해 마스크 검출부(10)로부터 입력한 마스크의 높이를 입력단자 IN5를 통해 입력한 제2 임계값(TH₂)과 비교하고, 비교된 결과를 제어 신호로서 제2 선명도 조절부(92) 및 제2 이진화부(96)로 각각 출력한다. 여기서, 제2 임계값(TH₂)은 외부로부터 입력되는 대신에 높이 비교부(90)의 내부에 미리 저장될 수 있다. 예컨대, 높이 비교부(90)는 마스크의 높이가 제2 임계값(TH₂)보다 적은가를 판단하고, 판단된 결과를 제어 신호로서 출력한다(제120 단계).

제2 선명도 조절부(92)는 높이 비교부(90)로부터 입력한 제어 신호에 응답하여, 문자 영역을 보다 선명하게 조절하고, 조절된 선명도를 갖는 문자 영역을 크기 확대부(94)로 출력한다. 예컨대, 높이 비교부(90)로부터 입력한 제어 신호를 통해 마스크의 높이가 제2 임계값(TH₂)보다 적다고 인식되면, 제2 선명도 조절부(92)는 문자 영역을 보다 선명하게 조절한다(제122 단계). 이를 위해, 제2 선명도 조절부(92)는 문자 라인을 마스크 검출부(10)로부터 입력단자 IN6을 통해 입력하고, 문자 라인이 표시하는 범위에 속하는 문자 영역과 배경 영역을 입력단자 IN6을 통해 제1 선명도 조절부(12) 또는 자막 영역 검출부(8)로부터 입력할 수 있다.

제122 단계후에, 크기 확대부(94)는 제2 선명도 조절부(92)에서 조절된 선명도를 갖는 문자 영역에 포함되는 각 문자의 크기를 확대하고, 확대된 결과를 제2 이진화부(96)로 출력한다(제124 단계).

본 발명에 의하면, 도 8에 도시된 바와 달리, 제46A 단계는 제122 단계를 마련하지 않을 수도 있다. 이 경우, 도 7에 도시된 문자 추출부(14A)는 제2 선명도 조절부(92)를 마련하지 않는다. 따라서, 크기 확대부(94)는 높이 비교부(90)로부터 입력한 제어 신호에 응답하여, 즉, 높이 비교부(90)로부터 입력한 제어 신호를 통해 마스크의 높이가 제2 임계값(TH₂)보다 적다고 판단되면, 문자 영역에 포함되는 각 문자의 크기를 확대한다. 이를 위해, 크기 확대부(94)는 문자 라인을 마스크 검출부(10)로부터 입력단자 IN6을 통해 입력하고, 문자 라인이 표시하는 범위에 속하는 문자 영역과 배경 영역을 입력단자 IN6을 통해 제1 선명도 조절부(12) 또는 자막 영역 검출부(8)로부터 입력할 수 있다.

제2 이진화부(96)는 높이 비교부(90)로부터 입력한 제어 신호에 응답하여, 크기 확대부(94)로부터 입력한 확대된 문자 또는 확대되지 않은 문자를 문자 라인별로 결정된 제3 임계값(TH₃)을 이용하여 이진화하고, 이진화된 결과를 추출된 문자로서 출력단자 OUT3을 통해 출력한다. 이를 위해, 제2 이진화부(96)는 문자 라인을 마스크 검출부(10)로부터 입력단자 IN6을 통해 입력하고, 문자 라인이 표시하는 범위에 속하는 문자 영역과 배경 영역을 입력단자 IN6을 통해 제1 선명도 조절부(12) 또는 자막 영역 검출부(8)로부터 입력할 수 있다.

예컨대, 제2 이진화부(96)는 제어 신호를 통해 마스크의 높이가 제2 임계값(TH₂)보다 적지 않다고 인식되면, 문자 라인이 표시하는 범위에 포함되는 확대되지 않은 문자를 이진화한다(제126 단계). 그러나, 제어 신호를 통해 마스크의 높이가 제2 임계값(TH₂)보다 적다고 인식되면, 제2 이진화부(96)는 크기 확대부(94)로부터 입력한 확대된 문자를 이진화한다(제126 단계).

도 7에 도시된 문자 추출부(14A)의 동작 설명에서 문자 영역만을 언급하였다. 그러나, 문자 라인이 표시하는 범위에 속하는 문자 영역 뿐만 아니라 배경 영역도 제2 선명도 조절부(92), 크기 확대부(94) 및 제2 이진화부(96)를 통과한다. 즉, 문자 라인이 표시하는 범위에 속하는 배경 영역은 크기 확대부(94)에서 확대되고 제2 이진화부(96)에서 이진화된다.

도 9는 도 1에 도시된 문자 추출부(14)의 본 발명에 의한 실시예(14B)의 블럭도로서, 높이 비교부(110), 크기 확대부(112), 제2 선명도 조절부(114) 및 제2 이진화부(116)로 구성된다.

도 8에 도시된 바와 달리, 마스크의 높이가 제2 임계값(TH₂)보다 적을 때 제122 단계 대신에 제124 단계가 수행되고, 제124 단계가 수행된 후 제122 단계가 수행되며, 제122 단계가 수행된 후 제126 단계가 수행될 수 있다. 이 경우, 도 1에 도시된 문자 추출부(14)는 도 9에 도시된 바와 같이 구현된다.

도 9에 도시된 높이 비교부(110)는 도 7에 도시된 높이 비교부(90)와 동일한 역할을 수행한다. 즉, 높이 비교부(110)는 입력단자 IN7을 통해 마스크 검출부(10)로부터 입력한 마스크의 높이를 입력단자 IN8을 통해 입력한 제2 임계값(TH₂)과 비교하고, 비교된 결과를 제어 신호로서 크기 확대부(112) 및 제2 이진화부(116)로 각각 출력한다.

크기 확대부(112)는 높이 비교부(110)로부터 입력한 제어 신호에 응답하여, 즉, 높이 비교부(110)로부터 입력한 제어 신호를 통해 마스크의 높이가 제2 임계값(TH₂)보다 적다고 판단되면, 문자 영역에 포함되는 각 문자의 크기를 확대한다. 이를 위해, 크기 확대부(112)는 문자 라인을 마스크 검출부(10)로부터 입력단자 IN9를 통해 입력하고, 문자 라인이 표시하는 범위에 속하는 문자 영역과 배경 영역을 입력단자 IN9를 통해 제1 선명도 조절부(12) 또는 자막 영역 검출부(8)로부터 입력할 수 있다.

제2 선명도 조절부(114)는 크기 확대부(112)로부터 입력한 확대된 문자를 포함하는 문자 영역을 보다 선명하게 조절하고, 조절된 선명도를 갖는 문자 영역을 제2 이진화부(116)로 출력한다.

제2 이진화부(116)는 높이 비교부(110)로부터 입력한 제어 신호에 응답하여, 문자 영역에 포함되는 확대되지 않은 문자 또는 제2 선명도 조절부(114)에서 조절된 선명도를 갖는 문자 영역에 포함되는 문자를 제3 임계값(TH₃)을 이용하여 이진화하고, 이진화된 결과를 추출된 문자로서 출력단자 OUT4를 통해 출력한다. 이를 위해, 제2 이진화부(116)는 문자 라인을 마스크 검출부(10)로부터 입력단자 IN9를 통해 입력하고, 문자 라인이 표시하는 범위에 속하는 문자 영역과 배경 영역을 입력단자 IN9를 통해 제1 선명도 조절부(12) 또는 자막 영역 검출부(8)로부터 입력할 수 있다.

예컨대, 제2 이진화부(116)는 제어 신호를 통해 마스크의 높이가 제2 임계값(TH₂)보다 적지 않다고 인식되면, 문자 라인이 표시하는 범위에 속하는 확대되지 않은 문자를 이진화한다. 그러나, 제2 이진화부(116)는 제어 신호를 통해 마스크의 높이가 제2 임계값(TH₂)보다 적다고 인식되면, 제2 선명도 조절부(114)로부터 입력한 조절된 선명도를 갖는 문자 영역에 포함되는 문자를 이진화한다.

도 9에 도시된 문자 추출부(14B)의 동작 설명에서 문자 영역만을 언급하였다. 그러나, 문자 라인이 표시하는 범위에 속하는 문자 영역 뿐만 아니라 배경 영역도 크기 확대부(112), 제2 선명도 조절부(114) 및 제2 이진화부(116)를 통과한다. 즉, 문자 라인이 표시하는 범위에 속하는 배경 영역은, 크기 확대부(112)에서 확대되고, 제2 선명도 조절부(114)에서 문자 영역을 보다 선명하게 하기 위해 처리되고, 제2 이진화부(116)에서 이진화된다.

본 발명에 의하면, 도 9에 도시된 바와 달리, 문자 추출부(14B)는 제2 선명도 조절부(114)를 마련하지 않을 수도 있다. 이 경우, 제2 이진화부(116)는 제어 신호를 통해 마스크의 높이가 제2 임계값(TH₂)보다 적다고 인식되면, 크기 확대부(112)로부터 입력한 확대된 결과를 이진화한다.

본 발명의 실시예에 의하면, 도 7 또는 도 9에 도시된 크기 확대부(94 또는 112)는 확대된 문자의 밝기를 바이큐빅 보간(Bi-cubic Interpolation)법에 의해 결정할 수 있다. 여기서, 바이큐빅 보간법에 대해서는 'Randy Crane'에 의해 저술되고, "A simplified approach to Image Processing"라는 제목으로 Prentice Hall 출판사에 의해 1997년도에 출간된 책의 페이지 115-120쪽들에 개시되어 있다.

이하, 바이큐빅 보간법에 의해 확대된 문자의 밝기를 결정하는 일 례를 첨부된 도면들을 참조하여 다음과 같이 설명하지만, 본 발명은 이에 국한되지 않는다.

도 10은 큐빅 함수[f(x)]를 예시적으로 나타내는 그래프로서, 큐빅 계수가 -0.5, -1 또는 -2일 경우를 각각 나타낸다. 여기서, 횡축은 보간될 화소로부터의 거리를 나타내고, 종축은 큐빅 함수를 각각 나타낸다.

도 11은 보간 화소(p_x)와 인접 화소들(p₁ 및 p₂)을 일차원적으로 나타내는 도면이다. 여기서, 보간 화소(p_x)란 문자가 확대됨에 따라 새로이 생성된 화소로서, 보간되어야 할 화소 즉, 그의 밝기가 결정되어야 할 화소를 의미하고, 인접 화소(p₁ 또는 p₂)란 보간 화소(p_x)에 인접하는 화소를 의미한다.

도 10에 도시된 큐빅 함수는 일종의 가중치로서 예를 들면 다음 수학식 2와 같이 결정될 수 있다.

여기서, a는 상수이다.

예컨대, 보간 화소(p_x)와 인접 화소(p₁)간의 거리(x1)를 전술한 수학식 2의 x대신에 대입하여 가중치를 결정하거나 또는 거리(x1)에 해당하는 가중치를 도 10을 통해 결정하고, 결정된 가중치와 인접 화소(p₁)의 밝기 즉, 휘도 레벨을 승산한다. 또한, 보간 화소(p_x)와 인접 화소(p₂)간의 거리(x2)를 전술한 수학식 2의 x대신에 대입하여 가중치를 결정하거나 또는 거리(x2)에 해당하는 가중치를 도 10을 통해 결정하고, 결정된 가중치와 인접 화소(p₁)의 밝기 즉, 휘도 레벨을 승산한다. 이 때, 승산된 결과들을 가산하고, 가산된 결과를 보간 화소(p_x)의 휘도 레벨 즉, 밝기로서 결정할 수 있다.

도 12는 샤프니스(sharpness) 필터(100 또는 120)의 일 례를 나타내는 도면이다.

본 발명의 실시예에 의하면, 도 7 또는 도 9에 도시된 제2 선명도 조절부(92 또는 114)는 작은 문자를 보다 선명하게 하는 역할을 한다. 이를 위해, 제2 선명도 조절부(92 또는 114)는 영상의 고주파 성분인 에지를 강조하는 샤프니스 필터(100 또는 120)로 구현될 수 있다. 여기서, 샤프니스 필터(100 또는 120)는 문자 라인이 표시하는 범위에 속하는 문자 영역 및 배경 영역에 대해 샤프니스 필터링을 수행하고, 필터링된 결과를 출력한다. 이러한 샤프니스 필터링에 대해서는 'Randy Crane'에 의해 저술되고 "A simplified approach to Image Processing"라는 제목으로 Prentice Hall 출판사에 의해 1997년도에 출간된 책의 페이지 77-78쪽들에 개시되어 있다. 예를 들면, 샤프니스 필터(100 또는 120)는 도 12에 도시된 바와 같이 구현될 수 있다.

본 발명의 실시예에 의하면, 도 7 또는 도 9에 도시된 제2 이진화부(96 또는 116)는 문자를 오츠법(Otsu's method)에 의해 이진화할 수 있다. 여기서, 오츠법에 대해서는 'Jun Otsu'에 의해 저술되고 "A threshold selection method from gray-scale histograms"라는 제목으로 IEEE Trans. Syst Man Cybern., SMC-9(1)에서 1986년도에 발표된 논문의 페이지 62-66쪽들에 개시되어 있다.

도 13은 도 7 또는 도 9에 도시된 제2 이진화부(96 또는 116)의 본 발명에 의한 실시예의 블럭도로서, 히스토그램(histogram) 생성부(140), 임계값 설정부(142) 및 제3 이진화부(144)로 구성된다.

도 14는 제2 이진화부(96 또는 116)의 동작을 설명하기 위한 본 발명에 의한 플로우차트로서, 생성한 히스토그램을 이용하여 제3 임계값(TH₃)을 구하는 단계(제160 및 제162 단계들) 및 각 화소의 휘도 레벨을 이진화하는 단계(제164 단계)로 이루어진다.

도 15는 히스토그램의 예시적인 그래프로서, 횡축은 휘도 레벨(Intensity)를 나타내고 종축은 히스토그램[H(i)]을 각각 나타낸다.

도 13에 도시된 히스토그램 생성부(140)는 문자 라인에 포함되는 화소들의 휘도 레벨들의 히스토그램을 생성하고, 생성된 히스토그램을 임계값 설정부(142)로 출력한다(제160 단계). 예컨대, 입력단자 IN10을 통해 입력한 제어 신호를 통해 마스크의 높이가 제2 임계값(TH₂)보다 적지 않다고 인식되면, 히스토그램 생성부(140)는 문자 라인이 표시하는 범위에 속하는 확대되지 않은 문자를 갖는 문자 영역과 배경 영역에 포함되는 화소들의 휘도 레벨들의 히스토그램을 생성한다. 이를 위해, 히스토그램 생성부(140)는 문자 라인을 마스크 검출부(10)로부터 입력단자 IN11을 통해 입력하고, 문자 라인이 표시하는 범위에 속하는 문자 영역과 배경 영역을 입력단자 IN11을 통해 제1 선명도 조절부(12) 또는 자막 영역 검출부(8)로부터 입력할 수 있다.

그러나, 입력단자 IN10을 통해 입력한 제어 신호를 통해 마스크의 높이가 제2 임계값(TH₂)보다 적다고 인식되면, 히스토그램 생성부(140)는 문자 라인이 표시하는 범위에 속하는 확대된 문자를 갖는 문자 영역과 배경 영역에 포함되는 화소들의 휘도 레벨들의 히스토그램을 생성한다. 이를 위해, 히스토그램 생성부(140)는 문자 라인을 마스크 검출부(10)로부터 입력단자 IN12를 통해 입력하고, 문자 라인이 표시하는 범위에 속하는 문자 영역과 배경 영역을 입력단자 IN12를 통해 크기 획대부(94) 또는 제2 선명도 조절부(114)로부터 입력할 수 있다.

히스토그램 생성부(140)는 예를 들면 도 15에 도시된 바와 같이 히스토그램을 생성할 수 있다.

제160 단계후에, 임계값 설정부(142)는 히스토그램 생성부(140)로부터 입력한 일반적으로 두 개의 피크값들을 갖는 생성된 히스토그램상에서 분산값을 최대화시켜 양분하는 밝기값을 제3 임계값(TH₃)으로 설정하고, 설정된 제3 임계값(TH₃)을 제3 이진화부(144)로 출력한다(제162 단계). 도 15를 참조하면, 예를 들면, 임계값 설정부(142)는 두 개의 피크값들(H1 및 H2)을 갖는 생성된 히스토그램상에서 분산들(σ² ₀ 및σ² ₁)을 최대화시켜 양분하는 밝기값(k)을 제3 임계값(TH ₃)으로 설정할 수 있다.

제162 단계후에, 제3 이진화부(144)는 확대되지 않은 문자가 속하는 범위를 가지며 입력단자 IN11을 통해 입력한 문자 라인 또는 확대된 문자가 속하는 범위를 가지며 입력단자 IN12를 통해 입력한 문자 라인중 하나를 입력단자 IN10을 통해 입력한 제어 신호에 응답하여 선택하고, 선택된 문자 라인이 표시하는 범위에 속하는 문자 영역 및 배경 영역에 포함되는 각 화소의 휘도 레벨을 제3 임계값(TH₃)을 이용하여 이진화시키고, 이진화된 결과를 출력단자 OUT5를 통해 출력한다(제164 단계).

도 16은 도 13에 도시된 제3 이진화부(144)의 본 발명에 의한 실시예(144A)의 블럭도로서, 휘도 레벨 비교부(180), 휘도 레벨 결정부(182), 개수 검출부(184), 개수 비교부(186) 및 휘도 레벨 출력부(188)로 구성된다.

도 17은 도 14에 도시된 제164 단계의 본 발명에 의한 실시예(164A)를 설명하기 위한 플로우차트로서, 각 화소의 휘도 레벨을 결정하는 단계(제200 ~ 제204 단계들), 각 화소의 휘도 레벨이 올바르게 결정되었는가를 검증하는 단계(제206 ~ 제218 단계들) 및 검증 결과에 따라 결정된 화소의 휘도 레벨을 반전시키는 단계(제220 단계)들로 이루어진다.

휘도 레벨 비교부(180)는 문자 라인에 속하는 각 화소의 휘도 레벨을 입력단자 IN14를 통해 임계값 설정부(142)로부터 입력한 제3 임계값과 비교하고, 비교된 결과를 휘도 레벨 결정부(182)로 출력한다(제200 단계). 이를 위해, 휘도 레벨 비교부(180)는 입력단자 IN13을 통해 문자 라인과 문자 라인이 표시하는 범위에 속하는 문자 영역 및 배경 영역을 입력한다. 예컨대, 휘도 레벨 비교부(180)는 문자 라인에 속하는 각 화소의 휘도 레벨이 제3 임계값(TH₃)보다 큰가를 판단하는 역할을 한다.

휘도 레벨 결정부(182)는 휘도 레벨 비교부(180)에서 비교된 결과에 응답하여, 각 화소의 휘도 레벨을 최대 휘도 레벨(Imax) 또는 최소 휘도 레벨(Imin)로서 결정하고, 결정된 결과를 개수 검출부(184) 및 휘도 레벨 출력부(188)로 각각 출력한다(제202 및 제204 단계들). 예를 들면, 최대 휘도 레벨(Imax) 및 최소 휘도 레벨(Imin)은 도 15에 도시된 히스토그램상에서 휘도 레벨의 최대값 및 최소값을 각각 의미할 수 있다.

예컨대, 휘도 레벨 비교부(180)에서 비교된 결과를 통해 화소의 휘도 레벨이 제3 임계값(TH₃)보다 큰 것으로 인식되면, 휘도 레벨 결정부(182)는 입력단자 IN13 을 통해 입력한 화소의 휘도 레벨을 최대 휘도 레벨(Imax)로서 결정한다(제202 단계). 그러나, 휘도 레벨 비교부(180)에서 비교된 결과를 통해 화소의 휘도 레벨이 제3 임계값(TH₃) 이하라고 인식되면, 휘도 레벨 결정부(182)는 입력단자 IN13을 통해 입력한 화소의 휘도 레벨을 최소 휘도 레벨(Imin)로서 결정한다(제204 단계).

개수 검출부(184)는 문자 라인 또는 마스크에 속하는 최대 휘도 레벨(Imax)의 개수와 최소 휘도 레벨(Imin)의 개수를 검출하고, 검출된 결과를 개수 비교부(186)로 출력한다(제206 및 제216 단계들).

또한, 개수 비교부(186)는 최소 휘도 레벨(Imin)의 개수와 최대 휘도 레벨(Imax)의 개수를 비교하고, 비교된 결과를 출력한다(제208, 제212 및 제218 단계들).

이 때, 휘도 레벨 출력부(188)는 개수 비교부(186)에서 비교된 결과에 응답하여, 휘도 레벨 결정부(182)에서 결정된 각 화소의 휘도 레벨을 출력단자 OUT6을 통해 바이패스(bypass)시키거나 반전시켜 출력단자 OUT6을 통해 출력한다(제210, 제214 및 제220 단계들).

예컨대, 제202 또는 제204 단계후에, 개수 검출부(184)는 문자 라인에 속하는 최대 휘도 레벨(Imax)의 개수인 제1 개수(N₁)와 최소 휘도 레벨(Imin)의 개수인 제2 개수(N₂)를 검출하고, 검출된 결과를 개수 비교부(186)로 출력한다(제206 단계).

제206 단계후에, 개수 비교부(186)는 제1 개수(N₁)가 제2 개수(N₂)보다 큰가를 판단한다(제208 단계).

또한, 개수 검출부(184)는 개수 비교부(186)에서 비교된 결과를 통해, 제1 개수(N₁)가 제2 개수(N₂)와 동일하다고 판단되면, 마스크에 속하는 최소 휘도 레벨(Imin)의 제3 개수(N₃)와 최대 휘도 레벨(Imax)의 개수인 제4 개수(N₄)를 검출하고, 검출된 결과를 개수 비교부(186)로 출력한다(제216 단계).

제216 단계후에, 개수 비교부(186)는 제3 개수(N₃)가 제4 개수(N₄)보다 큰가를 판단한다(제218 단계).

휘도 레벨 출력부(188)는 개수 비교부(186)에서 비교된 결과를 통해 제1 개수(N₁)가 제2 개수(N₂)보다 크다고 인식되거나 제3 개수(N₃)가 제4 개수(N ₄)보다 작다고 인식되면, 문자에 속하는 화소의 휘도 레벨이 최대 휘도 레벨(Imax)로서 결정되었는가를 판단한다(제210 단계). 이 때, 문자에 속하는 화소의 휘도 레벨이 최대 휘도 레벨(Imax)로서 결정되지 않았다고 판단되면, 휘도 레벨 출력부(188)는 휘도 레벨 결정부(182)에서 결정된 화소의 휘도 레벨을 반전시켜 출력단자 OUT6을 통해 출력한다(제220 단계). 그러나, 문자에 속하는 화소의 휘도 레벨이 최대 휘도 레벨(Imax)로서 결정되었다고 판단되면, 휘도 레벨 출력부(188)는 휘도 레벨 결정부(182)에서 결정된 화소의 휘도 레벨을 바이패스시켜 출력단자 OUT6을 통해 출력한다.

그러나, 개수 비교부(186)에서 비교된 결과를 통해 제1 개수(N₁)가 제2 개수(N₂)보다 작다고 인식되거나 제3 개수(N₃)가 제4 개수(N₄)보다 크다고 인식되면, 휘도 레벨 출력부(188)는 문자에 속하는 화소의 휘도 레벨이 최소 휘도 레벨(Imin)로서 결정되었는가를 판단한다(제214 단계). 이 때, 문자에 속하는 화소의 휘도 레벨이 최소 휘도 레벨(Imin)로서 결정되지 않았다고 판단되면, 휘도 레벨 출력부(188)는 휘도 레벨 결정부(182)에서 결정된 화소의 휘도 레벨을 반전시켜 출력단자 OUT6을 통해 출력한다(제220 단계). 그러나, 문자에 속하는 화소의 휘도 레벨이 최소 휘도 레벨(Imin)로서 결정되었다고 판단되면, 휘도 레벨 출력부(188)는 휘도 레벨 결정부(182)에서 결정된 화소의 휘도 레벨을 바이패스시켜 출력단자 OUT6을 통해 출력한다.

본 발명의 다른 실시예에 의하면, 도 17에 도시된 바와 달리, 제164 단계는 제212, 제216 및 제218 단계들을 마련하지 않을 수도 있다. 이 경우, 제1 개수(N₁)가 제2 개수(N₂)보다 크지 않으면, 화소의 휘도 레벨이 최소 휘도 레벨(Imin)으로 결정되었는가를 판단한다(제214 단계). 이러한 실싱예는, 제1 개수(N₁)와 제2 개수(N₂)가 동일하지 않을 때 유용하게 이용될 수 있다.

본 발명의 또 다른 실시예에 의하면, 도 17에 도시된 바와 달리, 제164 단계에서, 각 화소의 휘도 레벨이 제3 임계값(TH₃)보다 크면 화소의 휘도 레벨을 최소 휘도 레벨(Imin)로 결정하고, 각 화소의 휘도 레벨이 제3 임계값(TH₃)보다 크지 않으면 화소의 휘도 레벨을 최대 휘도 레벨(Imax)로서 결정할 수도 있다.

한편, 제46 단계후에, 잡음 제거부(16)는 문자 추출부(14)에서 추출된 문자에서 잡음을 제거하고, 잡음이 제거된 결과를 출력단자 OUT1을 통해 출력한다(제48 단계).

도 18은 도 1에 도시된 잡음 제거부(16)의 본 발명에 의한 실시예(16A)의 블럭도로서, 요소 분리부(240) 및 잡음 요소 분리부(242)로 구성된다.

요소 분리부(240)는 입력단자 IN15를 통해 문자 추출부(14)로부터 입력한 추출된 문자의 요소들을 공간적으로 분리하고, 공간적으로 분리된 요소들을 잡음 요소 제거부(242)로 출력한다. 여기서, 요소란 문자를 이루는 각각을 의미하며, 예를 들어 문자가 '부'인 경우, 문자의 대표적인 요소들은 'ㅂ'과 'ㅜ'이지만 그 밖에 잡음 성분도 요소가 될 수 있다.

본 발명에 의하면, 요소 분리부(240)는 연결 요소 레이블링(connected component labeling)법에 의해 요소들을 분리할 수 있다. 여기서, 연결 요소 레이블링법은 'R. Jain', 'R. Kastuni' 및 'B. G. Schunck'에 의해 "Machine vision"라는 제목으로 McGraw-Hill 출판사에 의해 1995년도에 출간된 책의 페이지 44-47쪽에 개시되어 있다.

잡음 요소 제거부(242)는 분리된 요소들중에서 잡음에 해당하는 요소를 제거하고, 제거된 결과를 출력단자 OUT7을 통해 출력한다. 이를 위해, 잡음 요소 제거부(242)는 소정수보다 적은 화소수를 포함하는 요소, 문자 라인의 전체 영역의 일부인 소정 영역보다 큰 영역을 갖는 요소 또는 문자 라인의 전체 너비의 일부인 소정 너비보다 긴 너비를 갖는 요소를 잡음에 해당하는 요소로서 제거할 수 있다. 예를 들면, 소정수는 10이 될 수 있고, 전제 영역의 일부인 소정 영역은 전체 영역의 50%가 될 수 있고, 전체 너비의 일부인 소정 너비는 전체 너비의 90%가 될 수 있다.

잡음 제거부(16)로부터 출력되는 잡음이 제거된 문자는 예를 들면 문자 인식부(미도시) 따위로 출력될 수 있다. 여기서, 문자 인식부는 잡음이 제거된 문자를 입력하여 인식하고, 인식된 문자를 이용하여 그 문자를 실었던 영상의 내용을 파악하며, 파악된 결과를 통해 영상(들)을 요약할 수도 있고, 사용자가 원하는 내용만을 포함하는 영상을 검색할 수도 있고, 영상을 내용별로 인덱싱할 수도 있다. 즉, 문자 인식부는 비디오 컨텐츠 메니지먼트(video contents management)인 홈 서버(home server)/차세대 개인용 컴퓨터의 내용 기반 동영상 인덱싱, 요약 및 검색 등을 수행한다. 따라서, 전술한 바와 같이, 본 발명에 의한 영상의 문자 추출 장치 및 방법에 의해 추출된 문자를 이용하여, 예를 들면 뉴스를 요약 및 검색하고, 문자에 기반하여 영상을 검색, 스포츠에서 중요한 정보를 추출할 수 있다.

본 발명에 의하면 영상의 문자 추출 장치는 잡음 제거부(16)를 마련하지 않을 수도 있다. 즉, 도 2에 도시된 영상의 문자 추출 방법은 제48 단계를 마련하지 않을 수도 있다. 이 경우, 문자 추출부(14)에서 추출된 문자는 문자 인식부로 직접 출력된다.

이하, 본 발명의 이해를 돕기 위해, 문자 영역에 표시되는 문자들이 '부르는게 값'이라고 가정하고, 도 1에 도시된 문자 추출부(14)가 도 7에 도시된 바와 같이 구현된다고 가정하면서 전술한 본 발명에 의한 영상의 문자 추출 장치의 동작을 첨부된 도면을 참조하여 다음과 같이 설명한다.

도 19 (a) ~ (d)들은 도 7에 도시된 문자 추출부(14A) 및 잡음 제거부(16)의 입출력을 나타내는 예시적인 도면이다.

도 7에 도시된 샤프니스 필터(92)는 '부르는게 값'이라는 문자 영역을 보다 선명하게 조절하고, 조절된 선명도를 갖는 도 19 (a)에 도시된 바와 같은 문자 영역을 크기 확대부(94)로 출력한다. 이 때, 크기 확대부(94)는 도 19 (a)에 도시된 문자 영역 및 배경 영역을 입력하여 크기를 확대하고, 도 19 (b)에 도시된 확대된 결과를 제2 이진화부(96)로 출력한다. 제2 이진화부(96)는 도 19 (b)에 도시된 확대된 결과를 입력하여 이진화하고, 이진화된 결과인 도 19 (c)에 도시된 결과를 잡음 제거부(16)로 출력한다. 이 때, 잡음 제거부(16)는 도 19 (c)에 도시된 이진화된 결과에서 잡음을 제거하고, 잡음이 제거된 결과인 도 19 (d)에 도시된 문자 영역을 출력단자 OUT1을 통해 출력한다.

이상에서 설명한 바와 같이, 본 발명에 의한 영상의 문자 추출 장치 및 방법은 영상에서 의미있는 중요한 정보를 포함하지만 작은 문자들 예를 들면 12 화소들의 높이를 갖는 문자들에 대해서도 인식이 가능하게 하였고, 특히 문자 라인별로 구한 제3 임계값(TH₃)을 이용하여 문자를 이진화하기 때문에, 추출된 문자를 인식하여 영상의 내용을 파악하고 영상을 요약, 검색 및 내용별로 인덱싱하는 작업을 보다 정확하게 수행할 수 있도록 하고, 게다가, 자막 영역 검출부(8)를 마련하지 않고 종래의 자막 영역을 검출할 때 발생하는 영상의 시간적인 및 공간적인 정보들을 그대로 이용하기 때문에 문자를 보다 빨리 추출할 수 있는 효과를 갖는다.

도 1은 본 발명에 의한 영상의 문자 추출 장치의 실시예를 설명하기 위한 블럭도이다.

도 2는 본 발명에 의한 영상의 문자 추출 방법의 실시예를 설명하기 위한 플로우차트이다.

도 3은 도 1에 도시된 마스크 검출부의 본 발명에 의한 실시예의 블럭도이다.

도 4 (a) ~ (c)들은 초기 마스크가 생성되는 과정의 이해를 돕기 위한 예시적인 도면들이다.

도 5 (a) 및 (b)는 도 3에 도시된 라인 검출부의 이해를 돕기 위한 예시적인 도면들이다.

도 6은 도 1에 도시된 시간 평균 계산부의 이해를 돕기 위한 예시적인 도면이다.

도 7은 도 1에 도시된 문자 추출부의 본 발명에 의한 실시예의 블럭도이다.

도 8은 도 2에 제46 단계에 대한 본 발명의 실시예를 설명하기 위한 플로우차트이다.

도 9는 도 1에 도시된 문자 추출부의 본 발명에 의한 실시예의 블럭도이다.

도 10은 큐빅 함수를 예시적으로 나타내는 그래프이다.

도 11은 보간 화소와 인접 화소들을 일차원적으로 나타내는 도면이다.

도 12는 샤프니스 필터의 일 례를 나타내는 도면이다.

도 13은 도 7 또는 도 9에 도시된 제2 이진화부의 본 발명에 의한 실시예의 블럭도이다.

도 14는 제2 이진화부의 동작을 설명하기 위한 본 발명에 의한 플로우차트이다.

도 15는 히스토그램의 예시적인 그래프이다.

도 16은 도 13에 도시된 제3 이진화부의 본 발명에 의한 실시예의 블럭도이다.

도 17은 도 14에 도시된 제164 단계의 본 발명에 의한 실시예를 설명하기 위한 플로우차트이다.

도 18은 도 1에 도시된 잡음 제거부의 본 발명에 의한 실시예의 블럭도이다.

도 19 (a) ~ (d)들은 도 7에 도시된 문자 추출부 및 잡음 제거부의 입출력을 나타내는 예시적인 도면이다.

Claims

문자 영역과 배경 영역으로 이루어진 자막 영역을 영상으로부터 검출할 때 생성된 상기 영상의 공간적인 정보로부터 상기 문자 영역을 나타내는 마스크의 높이를 검출하는 마스크 검출부; 및

상기 마스크의 높이에 상응하여 상기 문자 영역에서 문자를 추출하는 문자 추출부를 구비하고,

상기 공간적인 정보는 상기 영상의 에지 그레디언트에 해당하는 것을 특징으로 하는 영상의 문자 추출 장치.
제1 항에 있어서, 상기 영상의 문자 추출 장치는

상기 문자 영역을 보다 선명하게 조절하는 제1 선명도 조절부를 더 구비하고,

상기 문자 추출부는 상기 조절된 선명도를 갖는 상기 문자 영역으로부터 상기 문자를 추출하는 것을 특징으로 하는 영상의 문자 추출 장치.
제2 항에 있어서, 상기 제1 선명도 조절부는

동일한 문자를 갖는 상기 자막 영역들의 휘도 레벨들의 시간상 평균값을 계산하는 시간 평균 계산부를 구비하고,

상기 문자 추출부는 상기 계산된 평균값을 휘도 레벨로서 갖는 상기 문자 영역으로부터 상기 문자를 추출하는 것을 특징으로 하는 영상의 문자 추출 장치.
제1 항에 있어서, 상기 영상의 문자 추출 장치는

상기 추출된 문자에서 잡음을 제거하는 잡음 제거부를 더 구비하는 것을 특징으로 하는 영상의 문자 추출 장치,
제4 항에 있어서, 상기 잡음 제거부는

상기 추출된 문자의 요소들을 공간적으로 분리하는 요소 분리부; 및

상기 분리된 요소들중에서 잡음에 해당하는 요소를 제거하고, 제거된 결과를 상기 잡음이 제거된 문자로서 출력하는 잡음 요소 제거부를 구비하는 것을 특징으로 하는 영상의 문자 추출 장치.
제5 항에 있어서, 상기 요소 분리부는 상기 연결 요소 레이블링법에 의해 상기 요소들을 분리하는 것을 특징으로 하는 영상의 문자 추출 장치.
제5 항에 있어서, 상기 잡음 요소 제거부는

소정수보다 적은 화소수를 포함하는 요소, 문자 라인의 전체 영역의 일부인 소정 영역보다 큰 영역을 갖는 요소 또는 상기 문자 라인의 전체 너비의 일부인 소정 너비보다 긴 너비를 갖는 요소를 잡음에 해당하는 요소로서 제거하고,

상기 문자 라인은 상기 마스크의 높이에 해당하는 폭을 상기 자막 영역에서 상기 문자 영역을 최소한 포함하는 부분의 범위로서 나타내는 것을 특징으로 하는 영상의 문자 추출 장치.
제1 항에 있어서, 상기 마스크 검출부는

제1 임계값을 이용하여 상기 공간적인 정보를 이진화하는 제1 이진화부;

상기 이진화된 결과에서 상기 문자 내부의 홀을 제거하여 상기 마스크를 생성하는 마스크 생성부; 및

상기 마스크의 높이를 출력하고, 상기 마스크의 높이에 해당하는 폭을 상기 자막 영역에서 상기 문자 영역을 최소한 포함하는 부분의 범위로서 나타내는 문자 라인을 검출하는 라인 검출부를 구비하는 것을 특징으로 하는 영상의 문자 추출 장치.
제8 항에 있어서, 상기 마스크 생성부는

상기 이진화된 결과에 대해 모폴로지 필터링을 수행하고, 수행된 결과를 상기 마스크로서 출력하는 모폴로지 필터를 구비하는 것을 특징으로 하는 영상의 문자 추출 장치.
제9 항에 있어서, 상기 모폴로지 필터는

상기 이진화된 결과에 대해 다일레이션법을 수행하여 상기 마스크를 생성하는 것을 특징으로 하는 영상의 문자 추출 장치.
제8 항에 있어서, 상기 문자 추출부는

상기 마스크의 높이를 제2 임계값과 비교하고, 비교된 결과를 제어 신호로서 출력하는 높이 비교부;

상기 제어 신호에 응답하여, 상기 문자 영역에 포함되는 각 문자의 크기를 확대하는 크기 확대부; 및

상기 제어 신호에 응답하여, 상기 확대된 문자 또는 확대되지 않은 문자를 상기 문자 라인별로 결정된 제3 임계값을 이용하여 이진화하고, 이진화된 결과를 상기 추출된 문자로서 출력하는 제2 이진화부를 구비하는 것을 특징으로 하는 영상의 문자 추출 장치.
제11 항에 있어서, 상기 문자 추출부는

상기 제어 신호에 응답하여, 상기 문자 영역을 보다 선명하게 조절하는 제2 선명도 조절부를 더 구비하고,

상기 크기 확대부는 상기 제2 선명도 조절부에서 조절된 선명도를 갖는 상기 문자 영역에 포함되는 각 문자의 크기를 확대하는 것을 특징으로 하는 영상의 문자 추출 장치.
제11 항에 있어서, 상기 문자 추출부는

상기 확대된 문자를 포함하는 문자 영역을 보다 선명하게 조절하는 제2 선명도 조절부를 더 구비하고,

상기 제2 이진화부는 상기 제어 신호에 응답하여, 확대되지 않은 문자 또는 상기 제2 선명도 조절부에서 조절된 선명도를 갖는 상기 문자 영역에 포함되는 문자를 상기 제3 임계값을 이용하여 이진화하고, 이진화된 결과를 상기 추출된 문자로서 출력하는 것을 특징으로 하는 영상의 문자 추출 장치.
제11 항에 있어서, 상기 크기 확대부는 상기 확대된 문자의 밝기를 바이큐빅 보간법에 의해 결정하는 것을 특징으로 하는 영상의 문자 추출 장치.
제12 항 또는 제13 항에 있어서, 상기 제2 선명도 조절부는

상기 문자 라인이 표시하는 상기 범위에 속하는 상기 문자 영역 및 상기 배경 영역에 대해 샤프니스 필터링을 수행하고, 필터링된 결과를 출력하는 샤프니스 필터를 구비하는 것을 특징으로 하는 영상의 문자 추출 장치.
제11 항에 있어서, 상기 제2 이진화부는 상기 문자를 오츠법에 의해 이진화하는 것을 특징으로 하는 영상의 문자 추출 장치.
제11 항에 있어서, 상기 제2 이진화부는

상기 문자 라인이 표시하는 범위에 속하는 상기 문자 영역과 상기 배경 영역에 포함되는 화소들의 휘도 레벨들의 히스토그램을 생성하는 히스토그램 생성부;

두 개의 피크값들을 갖는 상기 생성된 히스토그램상에서 분산값을 최대화시켜 양분하는 밝기값을 상기 제3 임계값으로 설정하는 임계값 설정부; 및

상기 확대된 문자를 포함하는 문자 라인 또는 확대되지 않은 문자를 포함하는 문자 라인을 상기 제어 신호에 응답하여 선택하고, 선택된 문자 라인이 표시하는 범위에 속하는 각 화소의 휘도 레벨을 상기 제3 임계값을 이용하여 이진화시키고, 이진화된 결과를 출력하는 제3 이진화부를 구비하는 것을 특징으로 하는 영상의 문자 추출 장치.
제17 항에 있어서, 상기 제3 이진화부는

상기 각 화소의 휘도 레벨을 상기 제3 임계값과 비교하는 휘도 레벨 비교부;

상기 휘도 레벨 비교부에서 비교된 결과에 응답하여, 상기 각 화소의 휘도 레벨을 최대 휘도 레벨 또는 최소 휘도 레벨로서 결정하는 휘도 레벨 결정부;

상기 문자 라인에 속하는 상기 최대 휘도 레벨의 개수와 상기 최소 휘도 레벨의 개수를 검출하는 개수 검출부;

상기 최소 휘도 레벨의 개수와 상기 최대 휘도 레벨의 개수를 비교하는 개수 비교부; 및

상기 개수 비교부에서 비교된 결과에 응답하여, 상기 휘도 레벨 결정부에서 결정된 상기 각 화소의 휘도 레벨을 바이패스시키거나 반전시켜 출력하는 휘도 레벨 출력부를 구비하는 것을 특징으로 하는 영상의 문자 추출 장치.
제18 항에 있어서, 상기 개수 검출부는

상기 개수 비교부에서 비교된 결과에 응답하여, 상기 마스크에 속하는 상기 최대 휘도 레벨의 개수와 상기 최소 휘도 레벨의 개수를 검출하는 것을 특징으로 하는 영상의 문자 추출 장치.
문자 영역과 배경 영역으로 이루어진 자막 영역을 영상으로부터 검출할 때 생성된 상기 영상의 공간적인 정보로부터 상기 문자 영역을 나타내는 마스크의 높이를 구하는 단계; 및

상기 마스크의 높이에 상응하여 상기 문자 영역에서 문자를 추출하는 단계를 구비하고,

상기 공간적인 정보는 상기 영상의 에지 그레디언트에 해당하는 것을 특징으로 하는 영상의 문자 추출 방법.
제20 항에 있어서, 상기 영상의 문자 추출 방법은

상기 문자 영역을 보다 선명하게 조절하는 단계를 더 구비하고,

상기 조절된 선명도를 갖는 상기 문자 영역으로부터 상기 문자를 추출하는 것을 특징으로 하는 영상의 문자 추출 방법.
제20 항에 있어서, 상기 영상의 문자 추출 방법은

상기 추출된 문자에서 잡음을 제거하는 단계를 더 구비하는 것을 특징으로 하는 영상의 문자 추출 방법,
제20 항에 있어서, 상기 문자를 추출하는 단계는

상기 마스크의 높이가 제2 임계값보다 적은가를 판단하는 단계;

상기 마스크의 높이가 상기 제2 임계값보다 적다고 판단되면, 상기 문자 영역에 포함되는 각 문자의 크기를 확대하는 단계; 및

상기 마스크의 높이가 상기 제2 임계값보다 적지 않다고 판단되면 상기 확대되지 않은 문자를 이진화하고, 상기 마스크의 높이가 상기 제2 임계값보다 적다고 판단되면 상기 확대된 문자를 이진화하고, 이진화된 결과를 상기 추출된 문자로서 결정하는 단계를 구비하는 것을 특징으로 하는 영상의 문자 추출 방법.
제23 항에 있어서, 상기 문자를 추출하는 단계는

상기 마스크의 높이가 상기 제2 임계값보다 적다고 판단되면, 상기 문자 영역을 보다 선명하게 조절하는 단계를 더 구비하고,

상기 문자의 크기를 확대하는 단계에서, 상기 조절된 선명도를 갖는 상기 문자 영역에 포함되는 각 문자의 크기가 확대되는 것을 특징으로 하는 영상의 문자 추출 방법.
제23 항에 있어서, 상기 문자를 추출하는 단계는

상기 문자의 크기를 확대하는 단계후에, 상기 확대된 문자를 갖는 문자 영역을 보다 선명하게 하는 단계를 더 구비하고,

상기 마스크의 높이가 상기 제2 임계값보다 적지 않다고 판단되면 상기 확대되지 않은 문자를 이진화하고, 상기 마스크의 높이가 상기 제2 임계값보다 적다고 판단되면 상기 조절된 선명도를 갖는 상기 문자 영역에 포함되는 문자를 이진화하고, 이진화된 결과를 상기 추출된 문자로서 결정하는 것을 특징으로 하는 영상의 문자 추출 방법.
제24 항에 있어서, 상기 추출된 문자를 결정하는 단계는

상기 마스크의 높이가 상기 제2 임계값보다 적지 않다고 판단되면 문자 라인이 표시하는 범위에 속하는 확대되지 않은 문자를 갖는 상기 문자 영역 및 상기 배경 영역에 포함되는 화소들의 휘도 레벨들의 히스토그램을 생성하고, 상기 마스크의 높이가 상기 제2 임계값보다 적다고 판단되면 상기 문자 라인에 표시하는 범위에 속하는 확대된 문자를 갖는 상기 문자 영역 및 상기 배경 영역에 포함되는 화소들의 휘도 레벨들의 히스토그램을 생성하는 단계;

두 개의 피크값들을 갖는 상기 생성된 히스토그램상에서 분산값을 최대화시켜 양분하는 밝기값을 상기 제3 임계값으로 설정하는 단계; 및

상기 제3 임계값을 이용하여 상기 문자 라인이 표시하는 범위에 포함되는 각 화소의 휘도 레벨을 이진화시키는 단계를 구비하고,

상기 문자 라인은 상기 마스크의 높이에 해당하는 폭을 상기 자막 영역에서 상기 문자 영역을 최소한 포함하는 부분의 범위로서 나타내는 것을 특징으로 하는 영상의 문자 추출 방법.
제26 항에 있어서, 상기 각 화소의 휘도 레벨을 이진화시키는 단계는

상기 각 화소의 휘도 레벨이 상기 제3 임계값보다 큰가를 판단하는 단계;

상기 화소의 휘도 레벨이 상기 제3 임계값보다 크다고 판단되면 상기 화소의 휘도 레벨을 최대 휘도 레벨로 결정하고, 상기 화소의 휘도 레벨이 상기 제3 임계값 이하라고 판단되면 상기 화소의 휘도 레벨을 최소 휘도 레벨로 결정하는 단계;

상기 문자 라인에 속하는 상기 최소 휘도 레벨의 개수인 제1 개수와 상기 최대 휘도 레벨의 개수인 제2 개수를 검출하는 단계;

상기 제1 개수가 상기 제2 개수보다 큰가를 판단하는 단계;

상기 제1 개수가 상기 제2 개수보다 크다고 판단되면, 상기 문자에 속하는 화소의 휘도 레벨이 상기 최대 휘도 레벨로 결정되었는가를 판단하는 단계;

상기 제1 개수가 상기 제2 개수보다 작다고 판단되면, 상기 문자에 속하는 화소의 휘도 레벨이 상기 최소 휘도 레벨로 결정되었는가를 판단하는 단계; 및

상기 문자에 속하는 화소의 휘도 레벨이 상기 최대 휘도 레벨 또는 상기 최소 휘도 레벨로 결정되지 않았다고 판단되면, 상기 문자 라인에 속하는 화소들에 대해 결정된 휘도 레벨을 반전시키는 단계를 구비하는 것을 특징으로 하는 영상의 문자 추출 방법.
제26 항에 있어서, 상기 각 화소의 휘도 레벨을 이진화시키는 단계는

상기 각 화소의 휘도 레벨이 상기 제3 임계값보다 큰가를 판단하는 단계;

상기 화소의 휘도 레벨이 상기 제3 임계값보다 크다고 판단되면 상기 화소의 휘도 레벨을 최소 휘도 레벨로 결정하고, 상기 화소의 휘도 레벨이 상기 제3 임계값 이하라고 판단되면 상기 화소의 휘도 레벨을 최대 휘도 레벨로 결정하는 단계;

상기 문자 라인에 속하는 상기 최소 휘도 레벨의 개수인 제1 개수와 상기 최대 휘도 레벨의 개수인 제2 개수를 검출하는 단계;

상기 제1 개수가 상기 제2 개수보다 큰가를 판단하는 단계; 및

상기 제1 개수가 상기 제2 개수보다 크다고 판단되면, 상기 문자에 속하는 화소의 휘도 레벨이 상기 최대 휘도 레벨로 결정되었는가를 판단하는 단계;

상기 제1 개수가 상기 제2 개수보다 작다고 판단되면, 상기 문자에 속하는 화소의 휘도 레벨이 상기 최소 휘도 레벨로 결정되었는가를 판단하는 단계; 및

상기 문자에 속하는 화소의 휘도 레벨이 상기 최대 휘도 레벨 또는 상기 최소 휘도 레벨로 결정되지 않았다고 판단되면, 상기 문자 라인에 속하는 화소들에 대해 결정된 휘도 레벨을 반전시키는 단계를 구비하는 것을 특징으로 하는 영상의 문자 추출 방법.
제27 항 또는 제28 항에 있어서, 상기 각 화소의 휘도 레벨을 이진화시키는 단계는

상기 제1 개수가 상기 제2 개수와 동일하다고 판단되면, 상기 마스크에 속하는 상기 최소 휘도 레벨의 제3 개수와 상기 최대 휘도 레벨의 개수인 제4 개수를 검출하는 단계;

상기 제3 개수가 상기 제4 개수보다 큰가를 판단하는 단계;

상기 제3 개수가 상기 제4 개수보다 크다고 판단되면, 상기 문자에 속하는 화소의 휘도 레벨이 상기 최소 휘도 레벨로 결정되었는가를 판단하는 단계; 및

상기 제3 개수가 상기 제4 개수보다 작다고 판단되면, 상기 문자에 속하는 화소의 휘도 레벨이 상기 최대 휘도 레벨로 결정되었는가를 판단하는 단계를 더 구비하는 것을 특징으로 하는 영상의 문자 추출 방법.