KR20040069865A - 영상화면 내의 글자영역 확장장치 및 방법 - Google Patents

영상화면 내의 글자영역 확장장치 및 방법 Download PDF

Info

Publication number
KR20040069865A
KR20040069865A KR1020030006418A KR20030006418A KR20040069865A KR 20040069865 A KR20040069865 A KR 20040069865A KR 1020030006418 A KR1020030006418 A KR 1020030006418A KR 20030006418 A KR20030006418 A KR 20030006418A KR 20040069865 A KR20040069865 A KR 20040069865A
Authority
KR
South Korea
Prior art keywords
block
image
screen
video screen
letter
Prior art date
Application number
KR1020030006418A
Other languages
English (en)
Inventor
임채환
박준효
장익훈
김남철
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020030006418A priority Critical patent/KR20040069865A/ko
Priority to US10/765,071 priority patent/US20040247204A1/en
Priority to CNB2004100025664A priority patent/CN1275191C/zh
Priority to EP04002039A priority patent/EP1469418A3/en
Publication of KR20040069865A publication Critical patent/KR20040069865A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

영상확장 장치가, 영상화면을 입력하는 입력부와, 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 블록분류부와, 블록분류된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 위치탐색부와, 입력 영상화면에서 결정된 글자영역 위치 내의 영상을 추출하는 글자영역추출부와, 추출된 글자영역의 영상을 입력 영상화면의 크기로 확장하는 영상확장부로 구성된다.

Description

영상화면 내의 글자영역 확장장치 및 방법{DEVICE AND METHOD FOR EXTENDING CHARACTER REGION-OF-CONTENT OF IMAGE}
본 발명은 영상신호의 글자를 인식하기 위한 전처리 장치 및 방법에 관한 것으로, 특히 영상화면의 글자영역을 확장할 수 있는 장치 및 방법에 관한 것이다.
현재 영상신호의 문자를 인식하기 위해서는 먼저 전처리(pre-processing) 동작을 수행하는 것이 일반적이다. 상기 영상신호의 글자 인식 전에 영상신호를 처리하는 동작을 의미한다. 상기 영상신호의 전처리 동작은 영상신호에 입력되는 영상화면이 글자를 인식하기에 적절한가를 판단하는 동작, 입력되는 영상화면의 기울기를 보정하는 동작, 입력되는 영상화면의 크기를 적절하기 보정하는 동작, 또는 입력되는 영상신호의 글자를 인식할 수 있도록 영상신호를 이진화하는 동작 등이 될 수 있다.
일반적으로 영상화면의 문자를 인식하는 장치는 영상에서 문자를 인식하게 된다. 그리고 상기 영상화면은 문자 영역과 배경 영역으로 구분되며, 배경 영역은 글자가 배열되지 않는다. 예를들면 인식할 문서가 명함이라고 가정하면, 입력되는 영상화면은 명함영상이 된다. 이때 상기 영상화면은 명함 외부에 배경 영역이 포함된다. 이런 경우 상기 영상화면의 배경영역을 제거한 후 명함의 크기를 확장하면문자 인식 성능을 향상시킬 수 있다. 아울러 명함의 테두리부분도 글자영역이 포함되지 않는 것이 일반적이다. 따라서 명함 내에서 글자영역의 위치를 탐색한 후, 탐색 결과에 따라 글자영역을 제외한 영역을 없애고 없앤 영역에 따른 비율로 글자영역을 확장하면 인식 성능을 향상시킬 수 있다. 또한 상기와 같은 영상화면을 저장하는 경우에도 메모리의 효율을 줄일 수 있다.
따라서 본 발명의 목적은 영상신호를 처리하는 장치에서 영상화면의 배경영역을 제거하고 글자영역을 확장할 수 있는 장치 및 방법을 제공함에 있다.
본 발명의 다른 목적은 영상신호를 인식하는 장치에서 영상화면의 글자영역의 위치를 탐색하고 상기 글자영역 외부의 영역을 제거할 수 있는 장치 및 방법을 제공함에 있다.
본 발명의 또 다른 목적은 영상신호를 인식하는 장치에서 영상화면의 글자영역의 위치를 탐색하고 상기 글자영역 외부의 영역을 제거한 후, 상기 글자영역을 확장할 수 있는 장치 및 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 실시예에 따른 영상화면 내의 원하는 글자영역을 확장하는 장치가, 영상화면을 입력하는 입력부와, 상기 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 블록분류부와, 상기 블록분류된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를탐색하여 글자영역의 위치를 결정하는 위치탐색부와, 상기 입력 영상화면에서 결정된 글자영역 위치 내의 영상을 추출하는 글자영역추출부와, 상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 영상확장부로 구성된다.
상기 목적을 달성하기 위한 본 발명의 실시예에 따른 영상화면내의 원하는 글자영역을 확장하는 장치가, 영상화면을 입력하는 입력부와, 상기 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 블록분류부와, 블록분류부에서 출력되는 영상화면을 메디안 필터링하여 글자블록으로 오분류된 블록들을 제거하는 메디안필터와, 상기 메디안 필터링된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 위치탐색부와, 상기 입력 영상화면에서 결정된 글자영역 위치 내의 영상을 추출하는 글자영역추출부와, 상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 영상확장부로 구성된다.
상기 목적을 달성하기 위한 본 발명의 실시예에 따른 영상화면내의 원하는 글자영역을 확장하는 장치가, 영상화면을 입력하는 입력부와, 입력 영상화면을 평균필터링하여 블러링된 영상화면을 발생하는 평균필터와, 상기 평균 필터링된 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 블록분류부와, 블록분류부에서 출력되는 영상화면을 메디안 필터링하여 글자블록으로 오분류된 블록들을 제거하는 메디안필터와, 상기 메디안 필터링된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 위치탐색부와, 상기 입력 영상화면에서 결정된 글자영역 위치 내의 영상을 추출하는 글자영역추출부와, 상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 영상확장부로 구성된다.
상기 목적을 달성하기 위한 본 발명의 실시예에 따른 영상화면내의 원하는 글자영역을 확장하는 장치가, 영상화면을 입력하는 입력부와, 상기 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 블록분류부와, 상기 블록분류부에서 출력되는 영상화면의 화소들을 서브샘플링하여 화소수를 감축하는 화속감축부와, 상기 화소가 감축된 영상화면을 메디안 필터링하여 글자블록으로 오분류된 블록들을 제거하는 메디안필터와, 상기 메디안 필터링된 영상화면의 화소들을 보간(interpolation)하여 입력 영상화면의 크기로 복원하는 화소복원부와, 상기 블록분류된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 위치탐색부와, 상기 입력 영상화면에서 결정된 글자영역 위치 내의 영상을 추출하는 글자영역추출부와, 상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 영상확장부로 구성된다.
상기 목적을 달성하기 위한 본 발명의 실시예에 따른 영상화면내의 원하는 글자영역을 확장하는 방법이, 영상화면을 입력하는 과정과, 상기 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 과정과, 상기 블록분류된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 과정과, 상기 입력 영상화면에서 상기 결정된 글자영역 위치 내의 영상을 추출하는 과정과, 상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 과정으로 이루어진다.
상기 목적을 달성하기 위한 본 발명의 실시예에 따른 영상화면 내의 원하는 글자영역을 확장하는 방법이, 영상화면을 입력하는 과정과, 상기 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 과정과, 상기 블록분류된 영상화면을 메디안 필터링하여 글자블록으로 오분류된 블록들을 제거하는 메디안필터링과, 상기 메디안 필터링된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 과정과, 상기 입력 영상화면에서 상기 결정된 글자영역 위치 내의 영상을 추출하는 과정과, 상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 과정으로 이루어진다.
상기 목적을 달성하기 위한 본 발명의 실시예에 따른 영상화면내의 원하는 글자영역을 확장하는 방법이, 영상화면을 입력하는 과정과, 입력 영상화면을 평균필터링하여 상기 영상화면을 블러링된 화면으로 변환하는 평균필터링과정과, 상기 평균필터링된 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 과정과, 상기 블록분류된 영상화면을 메디안 필터링하여 글자블록으로 오분류된 블록들을 제거하는 메디안필터링과, 상기 메디안 필터링된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 과정과, 상기 입력 영상화면에서 상기 결정된 글자영역 위치 내의 영상을 추출하는 과정과, 상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 과정으로 이루어진다.
상기 목적을 달성하기 위한 본 발명의 실시예에 따른 영상화면내의 원하는 글자영역을 확장하는 방법이, 영상화면을 입력하는 과정과, 상기 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 과정과, 상기 블록분류부에서 출력되는 영상화면의 화소들을 서브샘플링하여 화소수를 감축하는 과정과, 상기 화소가 감축된 영상화면을 메디안 필터링하여 글자블록으로 오분류된 블록들을 제거하는 과정과, 상기 메디안 필터링된 영상화면의 화소들을 보간(interpolation)하여 입력 영상화면의 크기로 복원하는 과정과, 상기 블록분류된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 과정과, 상기 입력 영상화면에서 결정된 글자영역 위치 내의 영상을 추출하는 과정과, 상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 과정으로 이루어진다.
도 1은 본 발명의 제1실시예에 따른 영상화면의 글자영역을 확장하는 장치의 구성을 도시하는 도면
도 2는 본 발명의 제2실시예에 따른 영상화면의 글자영역을 확장하는 장치의 구성을 도시하는 도면
도 3은 도 1 및 도 2의 블록분류부의 구성을 도시하는 도면
도 4a - 도 4c는 도 3에서 블록의 DCT계수의 절대값의 합을 구하는 특성을 도시하는 도면
도 5는 본 발명의 제1실시예에 따른 영상 확장 절차를 도시하는 흐름도
도 6은 본 발명의 제2실시예에 따른 영상확장 절차를 도시하는 흐름도
도 7은 도 5 및 도 6의 블록분류 과정의 상세한 동작 절차를 도시하는 흐름도
도 8은 도 5 및 도 6의 위치 탐색과정의 구체적인 수행절차를 도시하는 흐름도
도 9는 본 발명의 실시예에 따른 영상확장 절차를 설명하기 위한 도면
도 10a - 도 10h는 도 9와 같은 확장 절차를 수행하는 과정에서 생성되는 영상화면의 형태를 도시하는 도면
이하 본 발명의 바람직한 실시예들의 상세한 설명이 첨부된 도면들을 참조하여 설명될 것이다. 도면들 중 동일한 구성들은 가능한 한 어느 곳에서든지 동일한부호들을 나타내고 있음을 유의하여야 한다.
하기 설명에서 영상화면의 크기, 글자 및 배경블록의 크기 등과 같은 특정 상세들이 본 발명의 보다 전반적인 이해를 제공하기 위해 나타나 있다. 이들 특정 상세들 없이 또한 이들의 변형에 의해서도 본 발명이 용이하게 실시될 수 있다는 것은 이 기술분야에서 통상의 지식을 가진 자에게 자명할 것이다.
이하 설명되는 본 발명의 실시예들의 설명에서, 영상화면이라는 용어는 입력되는 영상을 의미하는 용어로써, 본 발명의 실시예에서는 640×480 화소의 크기를 갖는다고 가정한다. 블록이라는 용어는 글자 및 배경블록을 의미하는 용어로써, 본 발명의 실시예에서는 8×8 화소의 크기를 갖는다고 가정한다.
또한 외부영역이라는 용어는 영상화면 내에서 글자영역 이외의 영상화면을 의미하는 용어로써, 영상화면 내에서 원하는 영상 이외의 영역을 의미한다.
이하 본 발명의 실시예들을 첨부되는 도면들을 참조하여 상세히 설명한다.
도 1은 본 발명의 제1실시예에 따른 영상화면의 글자영역을 확장하는 장치의 구성을 도시하는 도면이다.
상기 도 1을 참조하면, 입력부110은 영상화면을 입력하는 기능을 수행한다. 여기서 상기 입력부110은 카메라(camera), 스캐너(scanner), 모뎀 및 네트워크 등을 포함하는 통신인터페이스부, 컴퓨터 등이 될 수 있다. 여기서 상기 영상화면은 640(column)×480(raw)의 화소들로 이루어진다고 가정한다.
블록분류부120은 상기 입력부110에서 발생되는 영상화면을 상기 블록으로 분할하고, 상기 분할된 블록들에 포함되는 화소들을 검사하여 글자 블록 및 배경블록들로 분류한 후, 상기 분류된 글자블록의 화소들을 특정한 값으로 변환하는 기능을 수행한다.
메디안필터130은 상기 블록분류부120에서 출력되는 영상화면을 메디안 필터링하여 상기 영상화면에서 테두리나 잡음에 의해 잘못 분류된 글자영역을 제거한다. 즉, 상기 블록분류 동작을 수행하고 난 후의 영상화면에는 테두리나 잡음등에 생성되는 고립된 글자블록(isolated character block)들을 포함할 수 있다. 상기 메디안필터130은 사이 상기 블록분류 과정에서 잡음 등에 의해 글자블록으로 잘못 분류된 글자블록(고립된 글자블록)들을 제거하는 기능을 수행한다.
위치탐색부140은 140은 상기 메디안 필터링된 영상화면을 수평 및 수직 방향으로 스캔하여 글자영역의 위치를 탐색한다. 상기 위치탐색부140은 상기 메디안 필터링된 영상화면을 수평방향으로 스캔하여 가장 왼쪽에 위치된 글자블록의 위치(x1) 및 가장 오른쪽에 위치된 글자블록의 위치(x2)를 탐색하고, 수직방향으로 스캔하여 가장 상측에 위치된 글자블록의 위치(y1) 및 가장 하측에 위치된 글자블록의 위치(y2)를 탐색한 후, 상기 탐색된 결과에 따라 영상화면에서 글자영역의 위치를 결정한다. 이때 글자영역의 좌상단 및 우하단의 위치는 (x1,y1) 및 (x2,y2)가 된다. 이때 상기 글자영역의 좌상단 및 우하단의 위치(x1,y1) 및 (x2,y2)는 입력 영상화면의 화면비율을 갖도록 결정한다. 이는 뒷단의 영상확장부170에서 영상을 확장할 때 왜곡을 방지하기 위해서이다.
글자영역추출부160은 상기 위치탐색부140에서 탐색된 글자영역의 영상화면을 추출한다. 즉, 상기 글자영역추출부160은 상기 위치탐색부140에서 출력되는 글자영역의 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2) 값을 입력하며, 상기 입력부110에서 출력되는 영상화면에서 상기 글자영역의 좌상단 및 우하단의위치 (x1,y1) 및 (x2,y2) 내에 존재하는 영상화면을 추출한다. 따라서 상기 글자영역추출부160에서 출력되는 영상화면은 입력 영상화면에서 배경영역이 제거된 글자영역의 영상화면이 된다.
영상확장부170은 상기 추출된 글자영역의 영상화면을 상기 입력 영상화면의 크기로 확장한다. 여기서 상기 영상 확장은 보간에 의해 구현될 수 있으며, 본 발명의 실시예에서는 바이리니어보간 방법(bilinear interpolation)으로 구현한다고 가정한다. 이때 상기 영상확장은 상기 입력화면의 영상화면과 같은 크기가 되도록 보간 동작을 수행한다.
인식기170은 상기 확장된 영상화면을 억세스하여 글자를 인식한다.
본 발명의 제1실시예에 따른 영상 확장장치의 동작을 살펴보면, 먼저 블록분류부120은 입력되는 영상화면을 블록으로 분할한 후, 분할된 블록들을 글자블록 및 배경블록으로 분류하며, 상기 분류된 글자블록은 제1밝기값을 가지는 화소값으로 변환하고 상기 배경블록은 제2밝기값을 가지는 화소값으로 변환한다. 상기와 같이 상기 블록분류부120이 각 블록들을 글자블록 및 배경블록들로 분류한 후, 각각 다른 밝기값을 가지는 화소값으로 채우는 하는 이유는 영상화면의 글자영역들을 표시하기 위함이다. 여기서 상기 블록은 상기한 바와 같이 8×8 화소의 크기를 가진다고 가정한다. 그러면 상기 메디안필터130은 상기 블록분류부120에서 출력되는 영상화면을 메디안 필터링하여 상기 영상화면의 잘못 분류된 글자블록을 제거한다. 이때 상기 메디안 필터130은 상기 블록분류 과정에서 잡음 등에 의해 글자블록으로 잘못 분류된 고립된 글자블록들을 제거하는 기능을 수행한다.
위치탐색부140은 상기 메디안 필터링된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 위치를 탐색한다. 상기 위치탐색부140은 상기 메디안 필터링된 영상화면을 수평방향으로 스캔하여 가장 왼쪽에 위치된 글자블록의 위치(x1) 및 가장 오른쪽에 위치된 글자블록의 위치(x2)를 탐색하여 그 결과값을 저장한다. 이후 상기 영상화면을 다시 수직방향으로 스캔하여 가장 상측에 위치된 글자블록의 위치(y1) 및 가장 하측에 위치된 글자블록의 위치(y2)를 탐색한 후, 그 결과 값을 저장한다. 이후 상기 탐색된 결과에 따라 영상화면에서 글자영역 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2)를 결정한다. 이때 상기 글자영역의 좌상단 및 우하단의 위치(x1,y1) 및 (x2,y2)는 입력 영상화면의 화면비율을 갖도록 결정한다. 이는 뒷단의 영상확장부170에서 영상을 확장할 때 왜곡을 방지하기 위해서이다. 본 발명의 실시예에서는 입력 영상화면의 가로 대 세로 비율이 4:3(640화소:480화소)이므로, 위치탐색부140에서 탐색하는 글자영역도 가로 대 세로 비율이 4:3이 되도록 글자영역 좌상단 및 우하단의 위치(x1,y1) 및 (x2,y2)를 결정한다.
글자영역추출부160은 상기 위치탐색부140에서 탐색된 글자영역의 영상화면을 추출한다. 즉, 상기 글자영역추출부160은 상기 위치탐색부140에서 출력되는 글자영역의 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2) 값을 입력하며, 상기 입력부110에서 출력되는 영상화면에서 상기 글자영역의 위치 (x1,y1) 및 (x2,y2) 내에 존재하는 영상화면을 추출한다. 이때 상기 글자영역의 좌상단 및 우하단의 위치(x1,y1) 및 (x2,y2)에 의해 상기 글자영역추출부160은 영상화면에서 수평 방향으로 x1위치에서 x2위치 사이, 그리고 수직방향으로 y1위치에서 y2위치 사이에 존재하는 화소들을 글자영역의 화소들로 추출한다. 상기 글자영역추출부160에서 출력되는 영상화면은 입력 영상화면에서 배경영역이 제거된 글자영역의 영상화면이 된다.
영상확장부170은 상기 추출된 글자영역의 영상화면을 상기 입력 영상화면의 크기로 확장한다. 여기서 상기 영상 확장은 보간에 의해 구현될 수 있으며, 본 발명의 실시예에서는 쌍선형보간 방법(bilinear interpolation)으로 구현한다고 가정한다. 이때 상기 영상확장은 상기 입력화면의 영상화면과 같은 크기가 되도록 보간 동작을 수행한다.
그리고 인식기170은 상기 영상확장부170에서 출력되는 영상화면을 입력하여 문자를 인식한다. 본 발명의 실시예에서는 상기 영상확장치를 인식기의 전처리 장치로 설명하고 있지만, 본 발명의 영상확장장치는 영상처리 장치에서 영상화면을 편집하여 저장하는 장치로 사용될 수도 있다.
도 2는 본 발명의 제2실시예에 따른 영상화면의 글자영역을 확장하는 장치의 구성을 도시하는 도면이다.
상기 도 2을 참조하면, 입력부110은 영상화면을 입력하는 기능을 수행한다. 여기서 상기 입력부110은 카메라(camera), 스캐너(scanner), 모뎀 및 네트워크 등을 포함하는 통신인터페이스부, 컴퓨터 등이 될 수 있다. 여기서 상기 영상화면은 640(column)×480(raw)의 화소들로 이루어진다고 가정한다.
평균필터180은 상기 입력 영상화면을 평균필터링(mean filtering)하여 영상화면을 블러링되게 한다. 상기 평균필터링을 수행하는 이유는 상기 입력 영상화면을 블러링(blurring)시켜 뒷단에서 블록 분류시 의 영향을 줄이기 위함이다.
블록분류부120은 상기 평균필터180에서 출력되는 영상화면을 상기 블록으로 분할하고, 상기 분할된 블록들에 포함되는 화소들을 검사하여 글자 블록 및 배경블록들로 분류한 후, 상기 분류된 글자블록의 화소들을 특정한 값으로 변환하는 기능을 수행한다. 상기와 같이 블록분류부가 각 블록들을 글자블록 및 배경블록들로 분류하는 이유는 글자가 포함되어 있는 영역을 특정화소값을 변환하여 글자영역을 추출할 수 있게 하기 위함이다. 여기서 상기 블록은 상기한 바와 같이 8×8 화소의 크기를 가진다고 가정한다.
화소감축부(subsampling part)190은 상기 블록분류부120에서 출력되는 영상화면을 서브샘플링하여 화소수를 감축한다. 상기 화소를 감축하는 이유는 뒷단에서 메디안 필터링을 수행할 때 필터창(filter window)를 작게하여 필터링 속도를 높이기 위함이다. 본 발명의 실시예에서는 상기 화소 감축 비율은 (2:1)2라고 가정한다. 이런 경우, 상기 화소감축부190은 수평화소를 2:1로 서브샘플링하고 수직화소들을 2:1로 서브샘플링하므로, 출력되는 영상화면의 화소들의 수는 1/4로 감축된다.
메디안필터130은 상기 화소감축부190에서 출력되는 영상화면을 메디안 필터링하여 상기 영상화면의 잘못 분류된 글자블록을 제거한다. 상기 메디안 필터130은 상기 블록분류 과정에서 잡음 등에 의해 글자블록으로 잘못 분류된 고립된 글자블록들을 제거하는 기능을 수행한다.
화소복원부(interpolation part)195는 상기 메디안필터130에서 출력되는 영상화면의 화소들을 보간(interpolation)하여 확장하다. 본 발명의 실시예에서는 상기 화소 보간 비율은 (2:1)2라고 가정한다. 이런 경우, 상기 화소복원부195는 상기 메디안필터130에서 출력되는 영상화면의 수평화소 및 수직화소를 각각 2:1로 보간하므로 출력되는 영상화면의 크기는 4배로 확장된다. 상기 화소를 복원하는 이유는 글자영역의 정확한 위치를 탐색하기 위하여, 상기 화소 감축 과정에서 감축된 영상화면의 크기를 원래 영상화면의 크기로 확장하기 위함이다.
위치탐색부140은 상기 메디안 필터링된 영상화면을 수평 및 수직 방향으로 스캔하여 글자영역의 위치를 탐색한다. 상기 위치탐색부140은 상기 메디안 필터링된 영상화면을 수평방향으로 스캔하여 가장 왼쪽에 위치된 글자블록의 위치(x1) 및 가장 오른쪽에 위치된 글자블록의 위치(x2)를 탐색하고, 수직방향으로 스캔하여 가장 상측에 위치된 글자블록의 위치(y1) 및 가장 하측에 위치된 글자블록의 위치(y2)를 탐색한 후, 상기 탐색된 결과에 따라 영상화면에서 글자영역의 위치를 결정한다. 이때 글자영역의 좌상단 및 우하단의 위치는 (x1,y1) 및 (x2,y2)가 된다. 이때 상기 글자영역의 좌상단 및 우하단의 위치(x1,y1) 및 (x2,y2)는 입력 영상화면의 화면비율을 갖도록 결정한다. 이는 뒷단의 영상확장부170에서 영상을 확장할 때 왜곡을 방지하기 위해서이다.
글자영역추출부160은 상기 위치탐색부140에서 탐색된 글자영역의 영상화면을 추출한다. 즉, 상기 글자영역추출부160은 상기 위치탐색부140에서 출력되는 글자영역의 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2) 값을 입력하며, 상기 입력부110에서 출력되는 영상화면에서 상기 글자영역의 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2) 내에 존재하는 영상화면을 추출한다. 따라서 상기 글자영역추출부160에서 출력되는 영상화면은 입력 영상화면에서 배경영역이 제거된 글자영역의 영상화면이 된다.
영상확장부170은 상기 추출된 글자영역의 영상화면을 상기 입력 영상화면의 크기로 확장한다. 여기서 상기 영상 확장은 보간에 의해 구현될 수 있으며, 본 발명의 실시예에서는 쌍선형보간 방법(bilinear interpolation)으로 구현한다고 가정한다. 이때 상기 영상확장은 상기 입력화면의 영상화면과 같은 크기가 되도록 보간 동작을 수행한다.
인식기170은 상기 확장된 영상화면을 억세스하여 글자를 인식한다.
상기 도 2에 도시된 영상 확장장치의 동작을 살펴보면, 상기 제1실시예에 따른 영상확장장치에 블록분류기120의 전단에 위치되는 평균필터180과, 상기 메디안필터130의 앞단 및 뒷단 각각 화소감축부190 및 화소복원부195를 더 구비함을 알 수 있다. 상기 구성을 이외의 구성요소들의 동작은 상기 제1실시예에서의 동작과 동일하다.
이하의 설명에서는 상기 도 2를 중심으로 본 발명의 실시예에 따른 영상확장치의 동작을 상세하게 살펴본다.
먼저 상기 입력부110은 영상화면을 입력한다. 여기서 상기 영상화면은 M×N의 크기를 가지며, 본 발명의 실시예에서는 상기한 바와 같이 640(N)×480(M) 화소의 크기를 가진다고 가정한다. 또한 상기 입력되는 영상은 컬러 영상(color image) 또는 색상정보가 없는 흑백영상(gray image)이 될 수 있다. 본 발명의 실시예에서는 상기 영상화면이 흑백 영상이라고 가정한다. 상기 입력부110은 확장하고자 영상화면을 입력한다. 여기서 상기 영상화면의 입력부110은 카메라(camera), 스캐너(scanner), 모뎀 및 네트워크 등을 포함하는 통신인터페이스부, 컴퓨터 등이 될 수 있다. 상기 영상화면을 입력하는 평균필터110은 상기 영상화면을 평균필터링하여 영상화면을 흐리게 블러링되게 만든다. 이는 뒷단의 블록분류부120에서 글자영역을 분류할 때 영상화면의 배경외부영역의 영향을 덜받게 하기 위함이다. 상기와 같은 평균필터는 곤잘레스(R.C.Gonzalez)와 우즈(R.Woods) 등에 의해 출판된 책 "Digital Image Processing" [2nd ed., Prentice Hall, pp.119-123, 2002.)에 기재되어 있다.
상기 평균필터링된 영상화면은 블록분류부120에 인가된다. 상기 블록분류부120은 상기 평균필터180에서 출력되는 영상화면을 상기 블록으로 분할하고, 상기 분할된 블록들에 포함되는 화소들을 검사하여 글자 블록 및 배경블록들로 분류한 후, 상기 분류된 글자블록의 화소들을 특정한 값으로 변환하는 기능을 수행한다.
도 3은 블록분류부의 구성을 도시하는 도면이다.
상기 도 3을 참조하면, 블록분할부211은 상기 영상화면을 블록크기로 분할한다. 이때 상기 영상화면이 640×480 화소이고 상기 블록이 8×8 화소이면, 상기 블록분할부211은 상기 영상화면을 4800개의 블록들로 분할한다.
상기 블록분할부211에서 출력되는 블록영상들은 DCT변환부213에 인가되어 DCT(discrete cosine transform) 변환된다. 그리고 에너지계산부215는 상기 DCT 변환된 블록 내에서우수한 DCT 계수들(dominant DCT coefficients)의 절대값의 합을 계산한다. 이때 상기 글자블록의 DCT 계수들(DCT coefficients)의 에너지분포(energy distribution)는 배경블록의 DCT 계수들의 에너지분포보다 큰 값을 가진다. 도 4a는 글자블록과 배경블록에 대한 DCT 계수들의 에너지 분포를 비교하는 도면이다. 상기 도 4a에서 Y축은 절대값의 합을 로그 스케일(log scale)로 표시하고 있으며, X축은 DCT 계수의 지그재그 스캔 오더(zigzag scan order)를 표시하고 있다. 상기 도 4a에 도시된 바와 같이 글자블록의 DCT계수는 배경블록의 DCT 계수보다 큰 값을 가지고 있음을 알 수 있다. 그리고 도 4b는 글자블록에 대한 DCT 계수의 에너지 분포 특성을 도시하고 있다. 상기 도 4b에서 Y축은 절대값의 합의 평균을 정상 스케일(normal scale)로 표시하고 있으며, X축은 DCT 계수의 지그재그 스캔 오더(zigzag scan order)를 표시하고 있다. 이때 상기 도 4b에 도시된 바와 같이 일부 DCT 계수가 절대값의 합의 평균이 큰 값을 가진다는 것을 알 수 있다. 따라서 본 발명의 실시예에서는 블록분류 시 사용되는 우수한 DCT 계수는 도 4c에 도시된 바와 D1∼D9까지라고 가정한다. 따라서 k번째 블록에서의 우수한 DCT계수의 절대값의 합은 하기 <수학식 1>과 같이 계산할 수 있다.
상기 <수학식 1>에서는 k번째 블록의 i번째 우수한 DCT 계수를 의미하고, Sk는 k번째 블록의 DCT 계수의 절대값의 합을 의미한다. 따라서 본 발명의 실시예에서는 우수한 DCT 계수인 D1- D9까지의 DCT 계수의 절대값의 합을 계산한다.
상기 에너지 계산부215는 상기 <수학식 1>과 같은 계산을 모든 블록들(k=0,1,2,...,4799)에 대하여 수행한다. 그리고 상기 각 블록별 에너지값 Sk(k=0,1,...,4799)들은 기준값계산부217에 인가된다.
상기 블록기준값 계산부217은 상기 각 블록별로 계산된 에너지값 Sk(k=0,1,...,4799)들을 가산한 후, 상기 가산된 전체블록의 에너지값을 블록의 총개수(TBN)로 나누어 평균값 <Sk>을 구한다. 이때 상기 <Sk> 값은 하기 <수학식 2>와 같이 구하며, 이때의 상기 <Sk> 값은 상기 블록 영상신호를 글자블록 또는 배경블록으로 판정하기 위한 블록기준값 Cth가 된다.
상기 <수학식 2>에서 TBN은 블록의 총 개수를 나타낸다.
분류부219는 상기 에너지계산부215에서 출력되는 블록별 에너지값(우수한 DCT 계수들의 절대값의 합)들을 순차적으로 입력하며, 상기 입력되는 블록 에너지값을 상기 블록 기준값 Cth와 비교하여 각 블록을 글자블록 또는 배경블록으로 분류한다. 이때 상기 분류부219는 하기 <수학식 3>에 나타낸 바와 같이, Sk값이 상기 블록 기준값 Cth보다 크거나 같으면 해당하는 BN블록을 글자블록(Character Block: CB)으로 분류하고, 상기 기준값 Cth보다 작으면 해당하는 BN블록을 배경블록(Background Block: BB)으로 분류한다.
상기와 같이 분류부219에서 분류된 글자블록들의 화소는 0-255의 그레이 레벨(gray level)을 가질 수 있다. 그러면 블록화소보정부(block filling part)221은 상기 분류부219에서 분류된 글자블록의 화소들은 제1밝기값을 가지는 화소로 변환하고, 배경블록의 화소들은 제2밝기값을 가지는 화소들로 변환한다. 본 발명의 실시예에서는 상기 블록화소보정부221이 글자블록의 화소들은 흰색 화소로 변환하고 배경블록의 화소들은 검은색 화소로 변환한다고 가정한다. 따라서 상기 블록화소보정부221은 상기 영상화면에서 글자블록으로 분류된 블록들은 흰색화소로 채우고 배경블록으로 분류된 블록들은 검은색 화소로 채운다. 상기와 같이 상기 블록분류부120이 각 블록들을 글자블록 및 배경블록들로 분류한 후, 각각 다른 밝기값을 가지는 화소값으로 채우는 하는 이유는 영상화면의 글자영역들을 표시하기 위함이다.
이후 상기 화소감축부190은 상기 블록분류부120에서 출력되는 영상화면을 서브샘플링하여 수평 및 수직화소 수를 감축한다. 상기 화소를 감축하는 이유는 뒷단의 메디안필터130에서 메디안 필터링을 수행할 때 필터창(filter window)를 작게하여 필터링 속도를 높이기 위함이다. 본 발명의 실시예에서는 상기 화소 감축 비율은 (2:1)2라고 가정한다. 이런 경우, 상기 블록분류부120에서 출력되는 영상화면의 화소들의 수는 1/4로 감축된다. 이런 경우 감축된 영상화면의 크기는 320×240 화소의 크기를 갖게된다.
그러면 상기 메디안필터130은 상기 화소감축부190에서 출력되는 영상화면을 메디안 필터링하여 상기 영상화면의 배경블록 및 잘못 분류된 글자블록을 제거한다. 상기 메디안 필터130은 상기 블록분류 과정에서 잡음 등에 의해 글자블록으로 잘못 분류된 고립된 글자블록들을 제거하는 기능을 수행한다. 상기와 같은 메디안필터는 제인(A.K.Jain)에 의해 출판된 책 "Fundamentals of Digital Image Processing" [Prentice Hall, pp.246-249.)에 기재되어 있다.
상기 영상화면을 메디안 필터링한 후, 화소복원부(interpolation part)195는 상기 메디안필터130에서 출력되는 영상화면의 수평 및 수직화소들을 보간(interpolation)하여 영상화면은 상기 입력 영상화면의 크기로 확장한다. 본 발명의 실시예에서는 상기 화소 보간 비율은 (2:1)2라고 가정한다. 상기 화소를 복원하는 이유는 글자영역의 정확한 위치를 탐색하기 위하여, 상기 화소 감축 과정에서 감축된 영상화면의 크기를 원래 영상화면의 크기로 확장하기 위함이다.
위치탐색부140은 상기 메디안 필터링된 영상화면을 수평 및 수직 방향으로스캔하여 글자영역의 위치를 탐색한다. 상기 위치탐색부140은 상기 메디안 필터링된 영상화면을 수평방향으로 스캔하여 가장 왼쪽에 위치된 글자블록의 위치(x1) 및 가장 오른쪽에 위치된 글자블록의 위치(x2)를 탐색하여 그 결과값을 저장한다. 이후 상기 영상화면을 다시 수직방향으로 스캔하여 가장 상측에 위치된 글자블록의 위치(y1) 및 가장 하측에 위치된 글자블록의 위치(y2)를 탐색한 후, 그 결과 값을 저장한다. 이후 상기 탐색된 결과에 따라 영상화면에서 글자영역 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2)를 결정한다. 이때 상기 글자영역의 위치(x1,y1) 및 (x2,y2)는 입력 영상화면의 화면비율을 갖도록 결정한다. 이는 뒷단의 영상확장부170에서 영상을 확장할 때 왜곡을 방지하기 위해서이다. 본 발명의 실시예에서는 입력 영상화면의 가로 대 세로 비율이 4:3(640화소:480화소)이므로, 위치탐색부140에서 탐색하는 글자영역도 가로 대 세로 비율이 4:3이 되도록 글자영역 좌상단 및 우하단의 위치(x1,y1) 및 (x2,y2)를 결정한다.
글자영역추출부160은 상기 위치탐색부140에서 탐색된 글자영역의 영상화면을 추출한다. 즉, 상기 글자영역추출부160은 상기 위치탐색부140에서 출력되는 글자영역의 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2) 값을 입력하며, 상기 입력부110에서 출력되는 영상화면에서 상기 글자영역의 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2) 내에 존재하는 영상화면을 추출한다. 이때 상기 글자영역의 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2)에 의해 상기 글자영역추출부160은 영상화면에서 수평 방향으로 x1위치에서 x2위치 사이, 그리고 수직방향으로 y1위치에서 y2위치 사이에 존재하는 화소들을 글자영역의 화소들로 추출한다. 상기 글자영역추출부160에서 출력되는 영상화면은 입력 영상화면에서 배경영역이 제거된 글자영역의 영상화면이 된다.
영상확장부170은 상기 추출된 글자영역의 영상화면을 상기 입력 영상화면의 크기로 확장한다. 여기서 상기 영상 확장은 보간에 의해 구현될 수 있으며, 본 발명의 실시예에서는 쌍선형보간 방법(bilinear interpolation)으로 구현한다고 가정하며, 이는 하기 <수학식 4>와 같다.
이때 상기 영상확장은 상기 입력 영상화면의 크기 및 화면비율과 같도록 보간 동작을 수행한다. 상기와 같은 쌍선형 보간방법은 프레스(W.H.Press)와 튜콜스키(S.A.Teukolsky) 등에 의해 출판된 책 "Numerical Recipies in C" [2nd ed., Cambridge, pp.123-125, 1988.)에 기재되어 있다.
그리고 인식기170은 상기 영상확장부170에서 출력되는 영상화면을 입력하여 문자를 인식한다. 본 발명의 실시예에서는 상기 영상확장치를 인식기의 전처리 장치로 설명하고 있지만, 본 발명의 영상확장장치는 영상처리 장치에서 영상화면을 편집하여 저장하는 장치로 사용될 수도 있다.
도 5는 본 발명의 제1실시예에 따른 영상 확장 절차를 도시하는 도면이다.
상기 도 5를 참조하면, 먼저 311단계에서 영상화면이 입력되면, 313단계에서는 상기 입력되는 영상화면을 블록으로 분할한 후, 분할된 블록들을 글자블록 및 배경블록으로 분류하며, 상기 분류된 글자블록은 제1밝기값을 가지는 화소값으로 변환하고 상기 배경블록은 제2밝기값을 가지는 화소값으로 변환한다. 그리고 315단계에서는 상기 블록분류된 영상화면을 메디안 필터링하여 상기 영상화면의 잘못 분류된 글자블록을 제거한다. 이때 상기 메디안 필터링 과정은 상기 블록분류 과정에서 잡음 등에 의해 글자블록으로 잘못 분류되어 상기 영상화면에 남아있는 고립된 글자블록들을 제거한다.
이후 317단계에서는 상기 메디안 필터링된 영상화면을 수평 및 수직 방향으로 스캔하여 글자영역의 위치를 탐색한다. 상기 위치탐색부140은 상기 메디안 필터링된 영상화면을 수평방향으로 스캔하여 가장 왼쪽에 위치된 글자블록의 위치(x1) 및 가장 오른쪽에 위치된 글자블록의 위치(x2)를 탐색하여 그 결과값을 저장한다. 이후 상기 영상화면을 다시 수직방향으로 스캔하여 가장 상측에 위치된 글자블록의 위치(y1) 및 가장 하측에 위치된 글자블록의 위치(y2)를 탐색한 후, 그 결과 값을 저장한다. 이후 상기 탐색된 결과에 따라 영상화면에서 글자영역 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2)를 결정한다. 이때 상기 글자영역의 좌상단 및 우하단의 위치(x1,y1) 및 (x2,y2)는 입력 영상화면의 화면비율을 갖도록 결정한다. 이는 뒷단의 영상확장부170에서 영상을 확장할 때 왜곡을 방지하기 위해서이다.
그리고 319단계에서는 상기 입력 영상화면에서 탐색된 글자영역의 영상화면을 추출한다. 즉, 상기 글자영역추출부160은 상기 위치탐색부140에서 출력되는 글자영역의 위치 (x1,y1) 및 (x2,y2) 값을 입력하며, 상기 입력부110에서 출력되는영상화면에서 상기 글자영역의 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2) 내에 존재하는 영상화면을 추출한다. 이때 상기 글자영역의 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2)에 의해 상기 글자영역추출부160은 영상화면에서 수평 방향으로 x1위치에서 x2위치 사이, 그리고 수직방향으로 y1위치에서 y2위치 사이에 존재하는 영상화면을 글자영역의 영상화면으로 추출한다. 상기 글자영역추출부160에서 출력되는 영상화면은 입력 영상화면에서원치않는 상기 영상의 외부영역이 제거된글자영역의 영상화면이 된다.
이후 321단계에서는 상기 추출된 글자영역의 영상화면을 상기 입력 영상화면의 크기로 확장한다. 여기서 상기 영상 확장은 보간에 의해 구현될 수 있으며, 본 발명의 실시예에서는 상기 <수학식 4>와 같이 쌍선형보간 방법(bilinear interpolation)으로 구현할 수 있다. 이때 상기 영상확장은 상기 입력화면의 영상화면과 같은 크기가 되도록 보간 동작을 수행한다.
그리고 323단계에서는 상기 확장된 영상화면을 문자인식기에 출력하여 문자를 인식하도록 한다. 이때 상기 확장된 영상화면은 영상처리 장치에서 영상화면을 편집하여 저장하는 용도로 사용될 수도 있다.
도 6은 본 발명의 제2실시예에 따른 영상확장 절차를 도시하는 흐름도이다. 상기 도 2에 도시된 영상 확장 방법을 살펴보면, 상기 제1실시예에 따른 영상확장방법에서 블록분류 과정 전에 영상화면을 평균필터링하는 과정을 더 구비하며, 또한 상기 메디안필터링 과정 전 후에 각각 영상감축과정 및 영상복원 과정을 더 구비한다. 상기 과정을 제외한 나머지 과정들의 동작은 상기 제1실시예의 과정들에서와 동일한 동작을 수행한다.
상기 도 6을 참조하면, 311단계에서 상기 입력부110은 영상화면을 입력한다. 여기서 상기 영상화면은 M×N의 크기를 가지며, 본 발명의 실시예에서는 상기한 바와 같이 640(N)×480(M) 화소의 크기를 가진다고 가정한다. 또한 상기 입력되는 영상은 컬러 영상(color image) 또는 색상정보가 없는 흑백영상(gray image)이 될 수 있다. 본 발명의 실시예에서는 상기 영상화면이 흑백 영상이라고 가정한다. 이후 352단계에서는 상기 영상화면을 평균필터링하여 영상화면을 블러링되게 한다. 이는 블록분류 과정에서 영상화면의 글자영역을 분류할 때 배경영역의 영향을 덜받게 하기 위함이다.
이후 313단계에서 상기 평균필터링된 영상화면을 설정된 크기의 블록들로 분할하고, 상기 분할된 블록들에 포함되는 화소들을 검사하여 글자 블록 및 배경블록들로 분류한 후, 상기 분류된 글자블록의 화소들을 특정한 값으로 변환하는 기능을 수행한다.
도 7은 상기 313단계의 블록분류 과정을 상세한 동작 절차를 도시하는 흐름도이다.
상기 도 7을 참조하면, 상기 영상화면이 입력되면 411단계에서 상기 영상화면을 설정된 크기의 블록으로 분할한다. 이때 상기 영상화면은 640×480 화소이며 블록은 8×8화소로 가정한다. 따라서 상기 블록분할을 수행하면 4800개의 블록들로 분할됨을 알 수 있다.
이후 413단계에서 상기 블록번호 BN을 0으로 하고 415단계에서 블록번호 BN의 블록을 억세스한다. 그리고 417단계에서 억세스한 블록을 DCT 변환하며, 419단계에서 상기 <수학식 1>과 같은 계산과정을 수행하여 상기 DCT 변환된 BN 블록 내에서 우수한 DCT 계수들(Dominant DCT coefficients)의 절대값의 합 Sk를 계산하여 저장한다. 이때 상기 글자블록의 DCT 계수들(coefficients)의 에너지분포(energy distribution)는 배경블록의 DCT 계수들의 에너지분포보다 큰 값을 가지며, 글자블록과 배경블록에 대한 DCT 계수의 에너지 분포는 상기 도 6a와 같은 특성을 가진다. 그리고 상기 글자블록에 대한 DCT 계수의 에너지 분포는 도 6b와 같은 특성을 가진다. 따라서 k번째 블록에서의 DCT계수의 절대값의 합 Sk는 상기 <수학식 1>과 같이 계산할 수 있다. 여기서 상기 k는 BN과 같은 변수이며, 블록번호를 의미한다. 상기 419단계에서 상기 Sk를 구한 후, 421단계에서 마지막 블록의 Sk를 계산하였는가 검사하며, 아니면 423단계에서 블록번호를 하나 증가시킨 후 415단계로 되돌아가 위와 같은 동작을 반복수행한다.
상기 415단계-423단계를 반복수행하면, 상기 각 블록들을 DCT변환하게 되며, 상기 상기 <수학식 1>과 같은 계산을 모든 블록들(k=0,1,2,...,4799)에 대하여 수행한다. 그리고 상기 각 블록별 에너지값 Sk(k=0,1,...,4799)들을 이용하여 기준값 Cth를 구한다. 즉, 425단계에서 상기 각 블록별로 계산된 에너지값 Sk(k=0,1,...,4799)들을 가산한 후, 상기 가산된 전체블록의 에너지값을 블록의 총개수(TBN)로 나누어 평균값 <Sk>을 구한다. 이때 상기 <Sk> 값은 상기 <수학식 2>와 같이 구하며, 이때의 상기 <Sk> 값은 상기 블록 영상신호를 글자블록 또는 배경블록으로 판정하기 위한 기준값 Cth가 된다.
상기 기준값 Cth를 구한 후, 상기 각 블록들을 글자블록 및 배경블록으로 분류하는 동작을 수행한다. 이를 위하여 먼저 427단계에서 블록번호 BN을 0으로 초기화한 후, 429단계에서 상기 블록번호BN에 해당하는 블록의 Sk를 억세스한다. 그리고 431단계에서 상기 분류기219는 상기 입력되는 블록의 Sk값을 상기 기준값 Cth를 이용하여 글자블록 또는 배경블록으로 분류한다. 이때 상기 블록 분류는 상기<수학식 3>에 나타낸 바와 같이, Sk값이 상기 기준값 Cth보다 크면 분류기219는 433단계에서 해당하는 BN 블록을 글자블록으로 분류하고, 상기 기준값 Cth보다 작으면 435단계에서 해당하는 BN 블록을 배경블록으로 분류한다.
상기와 같이 분류된 글자블록 및 배경블록들의 화소는 0-255의 그레이 레벨을 가질 수 있다. 본 발명의 실시예에서는 영상화면의 글자영역을 추출하기 위한 것이므로, 블록 분류과정에서는 영상화면의 글자블록과 배경블록의 확연한 구분이 필요하다. 따라서 상기 433단계에서 글자블록으로 분류되면, 435단계에서 상기 분류된 글자블록의 화소들은 제1밝기값을 가지는 화소로 변환한다. 또한 상기 437단계에서 배경블록으로 분류되면, 439단계에서 상기 분류된 배경블록의 화소들은 제2밝기값을 가지는 화소들로 변환한다. 본 발명의 실시예에서는 상기 글자블록의 화소들은 흰색 화소로 변환하고 배경블록의 화소들은 검은색 화소로 변환한다고 가정한다. 따라서 상기와 같이 블록분류과정에서 글자블록으로 분류된 블록들은 흰색화소로 채우고 배경블록으로 분류된 블록들은 검은색 화소로 채움으로써(block filling), 영상화면은 글자블록과 배경블록으로 명확하게 구별된다.
상기 429단계-439단계를 수행하면서, BN블록이 글자블록인가 배경블록인가를 판단하여 각각 대응되는 밝기 값으로 블록화소들을 변환한 후, 441단계에서는 분류된 블록이 마지막 블록인가를 검사한다. 이때 상기 BN 블록이 마지막 블록번호가 아니면 439단계로 진행하여 블록번호를 하나 증가시킨 후, 429단계로 되돌아가 상기와 같은 동작을 반복 수행한다. 그리고 상기와 같은 동작의 수행을 완료하면, 블록 분류 결과를 출력한다. 상기 영상화면을 블록 크기로 분할한 후, 글자블록 및 배경블록의 분류 및 분류된 블록의 화소 밝기값을 보정하는 동작을 반복 수행한다
상기 도 6의 313단계에서 상기 도 7과 같은 블록 분류 동작을 수행하면, 상기 영상화면은 글자블록 및 배경블록으로 분류되며, 상기 분류된 글자블록은 흰색 화소로 변환되고 배경블록은 검은색 화소로 변환된다. 따라서 영상화면은 분류된 블록에 따라 흰색 또는 검은색으로 화소가 보정된다.
이후 354단계에서 상기와 같은 영상화면을 서브샘플링하여 수평 및 수직화소수를 감축한다. 상기 화소를 감축하는 이유는 다음 과정의 메디안 필터링 과정의 필터창(filter window)을 작게하여 필터링 속도를 높이기 위함이다. 이때 상기 서브샘플링 비율이 (2:1)2라고 가정하면, 상기 영상화면의 수평 및 수직화소들이 2:1로 서브샘플링되며, 따라서 상기 영상화면의 화소들의 수는 1/4로 감축된다. 이런 경우 감축된 영상화면의 크기는 320×240 화소의 크기를 갖게된다. 상기와 같은 서브샘플링 동작을 수행한 후, 315단계에서 상기 축소된 영상화면을 메디안 필터링한다. 상기 메디안 필터링 동작을 수행하면, 영상화면의 테두리 또는 잡음 등에 의해 잘못 분류되어 영상화면에 남아있는 고립된 글자블록들을 제거한다. 상기와 같이 메디안 필터링 동작을 수행하여 잘못 분류된 글자블록을 제거한 후, 356단계에서 상기 메디안 필터링된 영상화면의 수평 및 수직화소들을 보간(interpolation)하여 영상화면을 상기 입력 영상화면의 크기로 확장한다.
이후 317단계에서는 상기 원래 크기로 복원된 영상화면을 수평 및 수직 방향으로 스캔하여 글자영역의 위치를 탐색한다. 상기 위치탐색부140은 상기 메디안 필터링된 영상화면을 수평방향으로 스캔하여 가장 왼쪽에 위치된 글자블록의 위치(x1) 및 가장 오른쪽에 위치된 글자블록의 위치(x2)를 탐색하여 그 결과값을 저장한다. 이후 상기 영상화면을 다시 수직방향으로 스캔하여 가장 상측에 위치된 글자블록의 위치(y1) 및 가장 하측에 위치된 글자블록의 위치(y2)를 탐색한 후, 그 결과 값을 저장한다. 이후 상기 탐색된 결과에 따라 영상화면에서 글자영역 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2)를 결정한다. 이때 상기 글자영역의 좌상단 및 우하단의 위치(x1,y1) 및 (x2,y2)는 입력 영상화면의 화면비율을 갖도록 결정한다. 이는 뒷단의 영상확장부170에서 영상을 확장할 때 왜곡을 방지하기 위해서이다. 본 발명의 실시예에서는 입력 영상화면의 가로 대 세로 비율이 4:3(640화소:480화소)이므로, 위치탐색부140에서 탐색하는 글자영역도 가로 대 세로 비율이 4:3이 되도록 글자영역 좌상단 및 우하단의 위치(x1,y1) 및 (x2,y2)를 결정한다.
도 8은 상기 317단계의 위치 탐색과정의 구체적인 수행절차를 도시하는 흐름도이다.
상기 도 8을 참조하면, 먼저 511단계에서 상기 메디안 필터링된 영상화면을 입력하며, 513단계에서 수평스캔변수HSN 및 수직스캔변수VSN을 각각 0으로 초기화한다. 이후 515단계에서 상기 HSN 위치를 스캔하며, 517단계에서 상기 HSN 스캔 위치가 글자영역인가 검사한다. 이때 글자영역이면 517단계에서 이를 감지하고 519단계에서 상기 HSN의 x좌표값을 저장한다. 이후 521단계에서 상기 HSN이 마지막 수평 스캔위치 값인가 검사하며, 아니면 523단계에서 다음 수평 스캔위치를 결정한 후 상기 515단계로 되돌아가 상기와 같은 동작을 반복 수행한다. 상기와 같은 동작을 반복 수행하면서 상기 마지막 HSN 수평 스캔위치까지 수평 스캔을 완료했으면, 상기 521단계에서 이를 감지하고, 525단계에서 글자영역으로 스캔된 최초의 수평위치(left position)의 좌표값 x1과 마지막 수평위치(right position)의 좌표값 x2를 결정하여 저장한다.
이후 527단계에서 상기 VSN 위치를 스캔하며, 529단계에서 상기 VSN 스캔 위치가 글자영역인가 검사한다. 이때 글자영역이면 529단계에서 이를 감지하고 531단계에서 상기 VSN의 y좌표값을 저장한다. 이후 533단계에서 상기 VSN이 마지막 수직 스캔위치 값인가 검사하며, 아니면 535단계에서 다음 수직 스캔위치를 결정한 후 상기 527단계로 되돌아가 상기와 같은 동작을 반복 수행한다. 상기와 같은 동작을반복 수행하면서 상기 마지막 VSN 수직 스캔위치까지 수직 스캔을 완료했으면, 상기 533단계에서 이를 감지하고, 537단계에서 글자영역으로 스캔된 최초의 수직위치(upper position)의 좌표값 y1과 마지막 수직위치(lower position)의 좌표값 y2를 결정하여 저장한다.
이후 539단계에서 상기 탐색된 결과에 따라 영상화면에서 글자영역 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2)를 결정한다. 이때 상기 글자영역의 좌상단 및 우하단의 위치(x1,y1) 및 (x2,y2)는 입력 영상화면의 화면비율을 갖도록 결정한다. 이는 뒷단의 영상확장부170에서 영상을 확장할 때 왜곡을 방지하기 위해서이다. 본 발명의 실시예에서는 입력 영상화면의 가로 대 세로 비율이 4:3(640화소:480화소)이므로, 위치탐색부140에서 탐색하는 글자영역도 가로 대 세로 비율이 4:3이 되도록 글자영역 좌상단 및 우하단의 위치(x1,y1) 및 (x2,y2)를 결정한다. 따라서 상기 539단계에서 상기 결정된 글자영역의 위치가 상기 영상화면의 화면비율과 일치하지 않으면 상기 539단계에서 글자영역의 위치를 상기 화면비율에 맞도록 변경한다.
상기 위치 탐색 방법은 먼저 좌측에서 우측으로 스캔하여 최초 글자영역을 검사하고, 최초 글자영역이 스캔되면 이 위치를 x1 값으로 저장한다. 이후 우측에서 좌측으로 스캔하여 마지막 글자영역을 검사하고, 마지막 글자영역이 스캔되면 이 위치를 x2 값으로 저장한다. 동일한 방법으로 상측에서 하측으로 스캔하여 최초 글자역을 검사하고, 최초 글자영역이 스캔되면 이위치를 y1 값으로 저장한다. 이후 맨 하단 위치에서 상측 방향으로 스캔하여 마지막 글자영역을 검사하고, 마지막 글자영역이 스캔되면 이 위치를 y2 값으로 저장한다. 상기와 같은 방법으로 스캔하여도 글자영역의 위치를 탐색할 수 있다.
상기 도 8과 같은 절차를 수행하여 상기 도 6의 317단계에서 글자영역의 위치를 탐색한 후, 319단계에서 상기 탐색된 글자영역의 위치에 따른 영상화면을 추출한다. 즉, 상기 글자영역의 추출은 상기 영상화면에서 상기 글자영역의 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2) 내에 존재하는 영상화면을 추출한다. 이때 추출되는 글자영역의 화소는 상기 입력 영상화면에서 수평 방향으로 x1위치에서 x2위치 사이, 그리고 수직방향으로 y1위치에서 y2위치 사이에 존재하는 영상화면이 된다. 상기 글자영역의 소들은 입력 영상화면에서 배경영역이 제거된 글자영역의 영상화면이 된다.
상기 319단계 수행 후, 321단계에서는 상기 추출된 글자영역의 영상화면을 상기 입력 영상화면의 크기로 확장한다. 여기서 상기 영상 확장은 보간에 의해 구현될 수 있으며, 본 발명의 실시예에서는 쌍선형보간 방법(bilinear interpolation)으로 구현한다고 가정하며, 이는 상기 <수학식 4>와 같다. 그리고 상기 확장된 글자영역의 영상화면은 323에서 인식기로 출력되거나 저장되어 다른 용도로 사용될 수 있다.
도 9는 본 발명의 실시예에 따른 영상확장 절차를 설명하기 위한 도면이며, 도 10a - 도 10h는 상기 도 9와 같은 확장 절차를 수행하는 과정에서 생성되는 영상화면의 형태를 도시하는 도면이다.
상기 도 9의 절차에 의거 상기 도 10a - 도 10h의 영상화면을 참조하여 본발명의 실시예에 따른 영상확장 절차를 살펴보면, 600단계에서 상기 입력부110은 도 10a와 같은 영상화면을 입력한다. 여기서 640(N)×480(M) 화소의 크기를 가지며, 색상정보가 없는 흑백영상(gray image)이 될 수 있다. 본 발명의 실시예에서는 상기 영상화면이 흑백 영상이다. 이후 610단계에서는 상기 평균필터180은 도 10a와 같은 영상화면을 평균필터링하여 도 10b와 같이 블러링된 영상화면(blurred image)를 생성한다. 이는 상기한 바와 같이 블록분류 과정에서 글자영역 밖의 배경영역의 영향을 덜받게 하기 위함이다.
이후 620단계에서 블록분류부120은 상기 도 10b와 같이 상기 평균필터링된 영상화면을 설정된 크기의 블록들로 분할하고, 상기 분할된 블록들에 포함되는 화소들을 검사하여 글자 블록 및 배경블록들로 분류한 후, 상기 분류된 글자블록의 화소들을 특정한 값으로 변환하는 기능을 수행한다. 상기와 같은 블록 분류 동작을 수행하면, 상기 영상화면은 글자블록 및 배경블록으로 분류되며, 상기 분류된 글자블록은 흰색 화소로 변환되고 배경블록은 검은색 화소로 변환된다. 따라서 영상화면은 분류된 블록에 따라 흰색 또는 검은색 화소로 채워진다.상기 블록분류부120에서 생성되는 영상화면은 도 10c와 같다.
상기 620단계에서 상기 도 10c와 같은 블록 분류된 영상화면이 생성되면, 630단계에서 상기 화소감축부190은 상기 도 10c와 같은 영상화면을 서브샘플링하여 도 10d와 같이 수평 및 수직화소가 감축된 영상화면을 생성한다. 상기 화소를 감축하는 이유는 다음 과정의 메디안 필터링 과정의 필터창(filter window)을 작게하여 필터링 속도를 높이기 위함이다. 상기 도 10d는 상기 서브샘플링 비율이 (2:1)2인 경우의 영상화면이다. 상기와 같은 서브샘플링 동작을 수행한 후, 640단계에서 상기 메디안필터130은 상기 도 10d와 같이 축소된 영상화면을 메디안 필터링한다. 상기 메디안 필터링 동작을 수행하면, 영상화면의 테두리 또는 잡음 등에 의해 잘못 분류되어 영상화면에 남아있는 고립된 글자블록들이 제거되며, 이때 생성되는 영상화면은 도 10e와 같다. 상기와 같이 메디안 필터링 동작을 수행하여 잘못 분류된 글자블록을 제거한 후, 650단계에서 화소복원부195는 상기 도 10e와 같이 상기 메디안 필터링된 영상화면의 수평 및 수직화소들을 보간(interpolation)하여 도 10f와 같이 영상화면을 상기 입력 영상화면의 크기로 확장한다.
이후 660단계에서 위치탐색부140은 상기 도 10f와 같이 원래 크기로 복원된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 위치를 탐색한다. 상기 위치탐색부140은 상기 메디안 필터링된 영상화면을 수평방향으로 스캔하여 가장 왼쪽에 위치된 글자블록의 위치(x1) 및 가장 오른쪽에 위치된 글자블록의 위치(x2)를 탐색하다. 그리고 상기 영상화면을 다시 수직방향으로 스캔하여 가장 상측에 위치된 글자블록의 위치(y1) 및 가장 하측에 위치된 글자블록의 위치(y2)를 탐색한다. 이후 670단계에서 상기 위치탐색부140은 상기 탐색된 결과에 따라 영상화면에서 글자영역 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2)를 결정하며, 이때 상기 글자영역의 좌상단 및 우하단의 위치(x1,y1) 및 (x2,y2)는 입력 영상화면의 화면비율을 갖도록 결정한다. 이는 뒷단의 영상확장부170에서 영상을 확장할 때 왜곡을 방지하기 위해서이다.
상기와 같이 글자영역의 위치를 탐색한 후, 680단계에서 글자영역추출부150은 상기 도 10a와 같은 입력 영상화면에서 상기 탐색된 글자영역의 위치의 글자영역에 존재하는 영상화면을 추출한다. 즉, 상기 글자영역의 추출은 상기 도 10a와 같은 영상화면에서 상기 글자영역의 좌상단 및 우하단의 위치 (x1,y1) 및 (x2,y2) 내에 존재하는 영상화면을 도 10g와 같이 추출한다. 이때 추출되는 상기 도 10g와 같은 글자영역의 영상화면은 상기 입력 영상화면에서 수평 방향으로 x1위치에서 x2위치 사이, 그리고 수직방향으로 y1위치에서 y2위치 사이가 된다. 상기 글자영역의 영상화면은 입력 영상화면에서 배경영역이 제거된 글자영역의 영상화면이 된다.
상기 글자영역의 영상화면을 추출한 후, 69단계에서 영상확장부160은 상기 도 10g와 같은 글자영역의 영상화면을 도 10h와 같이 상기 입력 영상화면의 크기로 확장한다. 여기서 상기 영상 확장은 보간에 의해 구현될 수 있으며, 본 발명의 실시예에서는 쌍선형보간 방법(bilinear interpolation)으로 구현할 수 있다. 상기 도 10h와 같이 확장된 영상화면은 700단계에서 인식기에 출력되거나 저장되어 다른 용도로 사용될 수 있다.
상술한 바와 같이 영상신호를 처리하기 전처리 동작을 수행할 때, 입력되는 영상화면의 글자영역의 위치를 탐색하고, 상기 탐색된 글자영역의 영상을 추출하며, 상기 추출된 글자영역의 영상을 입력 영상화면의 크기로 확장하므로서, 인식시글자영역만을 인식하게 되어 인식 성능을 향상시킬 수 있는 이점이 있다. 또한 상기 영상화면의 글자영역과 배경영역으로 분류하고, 상기 글자영역으로 오분류된 영역들을 삭제할 수 있어 글자영역의 탐색 성능을 향상시킬 수 있다.

Claims (20)

  1. 영상화면의 영상확장 장치에 있어서,
    영상화면을 입력하는 입력부와,
    상기 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 블록분류부와,
    상기 블록분류된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 위치탐색부와,
    상기 입력 영상화면에서 결정된 글자영역 위치 내의 영상을 추출하는 글자영역추출부와,
    상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 영상확장부로 구성된 것을 특징으로 하는 상기 영상확장장치.
  2. 제1항에 있어서, 상기 블록분류부가,
    상기 입력되는 영상화면을 미리 설정된 블록 크기로 분할하는 블록분할부와,
    상기 블록분할부에서 출력되는 블록영상들은 DCT(discrete cosine transform) 변환하는 DCT변환부와,
    상기 DCT변환된 각각의 블록 내에서 우수한 DCT 계수들(dominant DCTcoefficients)의 절대값의 합을 계산하여 해당 블록의 에너지값으로 출력하는 에너지계산부와,
    에너지계산부에서 출력되는 상기 각 블록별로 계산된 에너지값들을 가산한 후, 상기 가산된 전체블록의 에너지값을 블록의 총개수로 나누어 평균한 값을 기준값으로 발생하는 기준값계산부와,
    상기 에너지계산부에서 출력되는 상기 블록별 에너지값들을 순차적으로 입력하며, 상기 입력되는 블록 에너지값을 상기 기준값을 이용하여 글자블록 또는 배경블록으로 분류하는 분류부와,
    상기 분류된 글자블록을 제1밝기값의 화소로 채우고 상기 배경블록을 제2밝기값의 화소로 채우는 블록화소보정부로 구성된 것을 특징으로 하는 상기 영상확장장치.
  3. 제2항에 있어서, 상기 블록은 8×8화소의 크기를 가지며, 상기 각 블록의 에너지값은 하기 <수학식 5>에 의해 구해짐을 특징으로 하는 상기 영상확장장치.
    여기서는 k번째 블록의 I번째 우수한 DCT 계수를 의미하고, Sk는 k번째 블록의 DCT 계수의 절대값의 합을 의미
  4. 제1항에 있어서, 상기 위치탐색부가
    상기 블록분류된 영상화면을 수평 및 수직 방향으로 스캔하여 글자영역의 위치를 탐색하며, 상기 탐색 결과에 따라 상기 글자영역의 위치를 결정할 때 상기 입력 영상화면의 화면비율을 갖도록 결정함을 특징으로 하는 상기 영상확장장치.
  5. 제1항에 있어서, 상기 영상확장부가 상기 추출된 글자영역의 영상을 쌍선형보간 방법으로 하기 <수학식 6>과 수행함을 특징으로 하는 상기 영상확장장치.
  6. 영상화면의 영상확장 장치에 있어서,
    영상화면을 입력하는 입력부와,
    상기 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 블록분류부와,
    상기 블록분류부에서 출력되는 영상화면을 메디안 필터링하여 글자블록으로 오분류된 블록들을 제거하는 메디안필터와,
    상기 메디안 필터링된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 위치탐색부와,
    상기 입력 영상화면에서 결정된 글자영역 위치 내의 영상을 추출하는 글자영역추출부와,
    상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 영상확장부로 구성된 것을 특징으로 하는 상기 영상확장장치.
  7. 제6항에 있어서, 상기 메디안필터가 고립된 글자블록을 오분류된 글자블록으로 판단함을 특징으로 하는 상기 영상확장장치.
  8. 영상화면의 영상확장 장치에 있어서,
    영상화면을 입력하는 입력부와,
    입력 영상화면을 평균필터링하여 상기 영상화면을 블러링시키는 평균필터와,
    상기 평균필터링된 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 블록분류부와,
    상기 블록분류부에서 출력되는 영상화면을 메디안 필터링하여 글자블록으로 오분류된 블록들을 제거하는 메디안필터와,
    상기 메디안 필터링된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 위치탐색부와,
    상기 입력 영상화면에서 결정된 글자영역 위치 내의 영상을 추출하는 글자영역추출부와,
    상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 영상확장부로 구성된 것을 특징으로 하는 상기 영상확장장치.
  9. 영상화면의 영상확장 장치에 있어서,
    영상화면을 입력하는 입력부와,
    입력 영상화면을 평균필터링하여 상기 영상화면을 블러링시키는 평균필터와,
    상기 평균필터링된 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 블록분류부와,
    상기 블록분류부에서 출력되는 영상화면의 화소들을 서브샘플링하여 화소수를 감축하는 화속감축부와,
    상기 화소가 감축된 영상화면을 메디안 필터링하여 글자블록으로 오분류된 블록들을 제거하는 메디안필터와,
    상기 메디안 필터링된 영상화면의 화소들을 보간(interpolation)하여 입력 영상화면의 크기로 복원하는 화소복원부와,
    상기 블록분류된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 위치탐색부와,
    상기 입력 영상화면에서 결정된 글자영역 위치 내의 영상을 추출하는 글자영역추출부와,
    상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 영상확장부로 구성된 것을 특징으로 하는 상기 영상확장장치.
  10. 제9항에 있어서, 상기 서브샘플링 비율이 (2:1)2인 것을 특징으로 하는 상기 영상확장장치.
  11. 영상화면의 영상확장 방법에 있어서,
    영상화면을 입력하는 과정과,
    상기 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 과정과,
    상기 블록분류된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 과정과,
    상기 입력 영상화면에서 상기 결정된 글자영역 위치 내의 영상을 추출하는 과정과,
    상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 과정으로 이루어짐을 특징으로 하는 상기 영상확장방법.
  12. 제11항에 있어서, 상기 블록분류과정이,
    상기 입력되는 영상화면을 미리 설정된 블록 크기로 분할하는 과정과,
    상기 블록분할과정에서 생성되는 블록영상들은 DCT(Discrete Cosine Transform) 변환하는 과정과,
    상기 DCT변환된 각각의 블록 내에서 우수한 DCT 계수들(Dominant DCT coefficients)의 절대값의 합을 계산하여 해당 블록의 에너지값으로 출력하는 과정과,
    상기 DCT계수의 절대값의 합을 상기 각 블록별로 계산된 에너지값들을 가산한 후, 상기 가산된 전체블록의 에너지값을 블록의 총개수로 나누어 평균한 값을 기준값으로 발생하는 기준값계산과정과,
    상기 블록별 DCT 계수의 절대값의 합들을 순차적으로 입력하며, 이 값을 상기 기준값을 이용하여 글자블록 또는 배경블록으로 분류하는 과정과,
    상기 분류된 글자블록을 제1밝기값의 화소로 채우고 상기 배경블록을 제2밝기값의 화소로 채우는 과정으로 이루어짐을 특징으로 하는 상기 영상확장방법.
  13. 제12항에 있어서, 상기 블록은 8×8화소의 크기를 가지며, 상기 각 블록의 에너지값은 하기 <수학식 7>에 의해 구해짐을 특징으로 하는 상기 영상확장방법.
    여기서는 k번째 블록의 i번째 우수한 DCT 계수를 의미하고, Sk는 k번째 블록의 DCT 계수의 절대값의 합을 의미
  14. 제11항에 있어서, 상기 위치탐색과정이,
    상기 블록분류된 영상화면을 수평 및 수직 방향으로 스캔하여 글자영역의 위치를 탐색하는 과정과,
    상기 탐색 결과에 따라 상기 글자영역의 위치를 결정하는 과정과,
    상기 결정된 글장영역의 위치를 상기 입력 영상화면의 화면비율을 갖도록 보정하는 과정으로 이루어짐을 특징으로 하는 상기 영상확장방법.
  15. 제11항에 있어서, 상기 영상확장과정이, 상기 추출된 글자영역의 영상을 쌍선형보간 방법으로 하기 <수학식 8>과 수행함을 특징으로 하는 상기 영상확장방법.
  16. 영상화면의 영상확장 방법에 있어서,
    영상화면을 입력하는 과정과,
    상기 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 과정과,
    상기 블록분류과정에서 출력되는 영상화면을 메디안 필터링하여 글자블록으로 오분류된 블록들을 제거하는 과정과,
    상기 메디안 필터링된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 과정과,
    상기 입력 영상화면에서 상기 결정된 글자영역 위치 내의 영상을 추출하는 과정과,
    상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 과정으로 이루어짐을 특징으로 하는 상기 영상확장방법.
  17. 제16항에 있어서, 상기 메디안필터링 과정이 고립된 글자블록을 오분류된 글자블록으로 판단함을 특징으로 하는 상기 영상확장방법.
  18. 영상화면의 영상확장 방법에 있어서,
    영상화면을 입력하는 과정과,
    상기 입력 영상화면을 평균필터링하여 상기 영상화면을 블러링시키는 과정과,
    상기 평균필터링된 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 과정과,
    상기 블록분류과정에서 출력되는 영상화면을 메디안 필터링하여 글자블록으로 오분류된 블록들을 제거하는 과정과,
    상기 메디안 필터링된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 과정과,
    상기 입력 영상화면에서 상기 결정된 글자영역 위치 내의 영상을 추출하는 과정과,
    상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 과정으로 이루어짐을 특징으로 하는 상기 영상확장방법.
  19. 영상화면의 영상확장 방법에 있어서,
    영상화면을 입력하는 과정과,
    상기 입력 영상화면을 평균필터링하여 상기 영상화면을 블러링시키는 과정과,
    상기 평균필터링된 영상화면을 글자블록과 배경블록으로 분류하며, 상기 분류된 글자블록을 제1밝기값의 화소로 변환하고 상기 배경블록을 제2밝기값의 화소로 변환하는 과정과,
    상기 블록분류과정에서 출력되는 영상화면의 화소들을 서브샘플링하여 화소수를 감축하는 과정과,
    상기 화소가 감축된 영상화면을 메디안 필터링하여 글자블록으로 오분류된 블록들을 제거하는 과정과,
    상기 메디안 필터링된 영상화면의 화소들을 보간(interpolation)하여 입력 영상화면의 크기로 복원하는 과정과,
    상기 블록분류된 영상화면을 수평 및 수직방향으로 스캔하여 글자영역의 좌우 및 상하 위치를 탐색하여 글자영역의 위치를 결정하는 과정과,
    상기 입력 영상화면에서 결정된 글자영역 위치 내의 영상을 추출하는 과정과,
    상기 추출된 글자영역의 영상을 상기 입력 영상화면의 크기로 확장하는 과정으로 이루어짐을 특징으로 하는 상기 영상확장방법.
  20. 제19항에 있어서, 상기 서브샘플링 비율이 (2:1)2인 것을 특징으로 하는 상기 영상확장방법.
KR1020030006418A 2003-01-30 2003-01-30 영상화면 내의 글자영역 확장장치 및 방법 KR20040069865A (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020030006418A KR20040069865A (ko) 2003-01-30 2003-01-30 영상화면 내의 글자영역 확장장치 및 방법
US10/765,071 US20040247204A1 (en) 2003-01-30 2004-01-28 Device and method for extending character region in an image
CNB2004100025664A CN1275191C (zh) 2003-01-30 2004-01-30 用于扩展在图象中的字符区域的设备及方法
EP04002039A EP1469418A3 (en) 2003-01-30 2004-01-30 Device and method for extending character region in image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030006418A KR20040069865A (ko) 2003-01-30 2003-01-30 영상화면 내의 글자영역 확장장치 및 방법

Publications (1)

Publication Number Publication Date
KR20040069865A true KR20040069865A (ko) 2004-08-06

Family

ID=32906521

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030006418A KR20040069865A (ko) 2003-01-30 2003-01-30 영상화면 내의 글자영역 확장장치 및 방법

Country Status (4)

Country Link
US (1) US20040247204A1 (ko)
EP (1) EP1469418A3 (ko)
KR (1) KR20040069865A (ko)
CN (1) CN1275191C (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100902491B1 (ko) * 2007-04-27 2009-06-10 금오공과대학교 산학협력단 숫자 영상 처리 시스템 및 그 방법

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4555212B2 (ja) * 2005-11-10 2010-09-29 株式会社沖データ 透かし情報埋め込み装置,透かし情報埋め込み方法,およびコンピュータプログラム
DE202007015195U1 (de) 2007-11-02 2008-08-14 Universitätsklinikum Freiburg Korianderöl-Fraktionen enthaltende Zubereitungen und deren Verwendung zur Herstellung eines Arzneimittels oder kosmetischen Mittels
GB2471323B (en) * 2009-06-25 2014-10-22 Advanced Risc Mach Ltd Motion vector estimator
JP5776419B2 (ja) * 2011-07-29 2015-09-09 ブラザー工業株式会社 画像処理装置、画像処理プラグラム
JP5842441B2 (ja) 2011-07-29 2016-01-13 ブラザー工業株式会社 画像処理装置およびプログラム
JP5853470B2 (ja) 2011-07-29 2016-02-09 ブラザー工業株式会社 画像処理装置、画像処理プラグラム
JP5796392B2 (ja) 2011-07-29 2015-10-21 ブラザー工業株式会社 画像処理装置、および、コンピュータプラグラム
US9569681B2 (en) * 2014-04-10 2017-02-14 Xerox Corporation Methods and systems for efficient image cropping and analysis

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0520765B1 (en) * 1991-06-25 1999-05-12 Canon Kabushiki Kaisha Movement vector detecting method/apparatus and encoding method/apparatus using such method/apparatus
JPH07152865A (ja) * 1993-11-30 1995-06-16 Canon Inc 情報認識装置及びその方法
JP3794505B2 (ja) * 1995-03-22 2006-07-05 ソニー株式会社 信号変換装置及び信号変換方法
US5684544A (en) * 1995-05-12 1997-11-04 Intel Corporation Apparatus and method for upsampling chroma pixels
JP3504054B2 (ja) * 1995-07-17 2004-03-08 株式会社東芝 文書処理装置および文書処理方法
US5978519A (en) * 1996-08-06 1999-11-02 Xerox Corporation Automatic image cropping
JPH10233693A (ja) * 1996-12-16 1998-09-02 Canon Inc 画像処理方法及び装置並びに記憶媒体
JP3563911B2 (ja) * 1997-03-04 2004-09-08 シャープ株式会社 文字認識装置
US5995659A (en) * 1997-09-09 1999-11-30 Siemens Corporate Research, Inc. Method of searching and extracting text information from drawings
US6144767A (en) * 1998-04-02 2000-11-07 At&T Corp Efficient convolutions using polynomial covers
JP2000163044A (ja) * 1998-11-30 2000-06-16 Sharp Corp 画像表示装置
US6782135B1 (en) * 2000-02-18 2004-08-24 Conexant Systems, Inc. Apparatus and methods for adaptive digital video quantization
JP4323663B2 (ja) * 2000-02-29 2009-09-02 キヤノン株式会社 画像フィルタ回路及び画像フィルタリング方法
US6654507B2 (en) * 2000-12-14 2003-11-25 Eastman Kodak Company Automatically producing an image of a portion of a photographic image
US6973218B2 (en) * 2001-04-25 2005-12-06 Lockheed Martin Corporation Dynamic range compression
US7024039B2 (en) * 2002-04-25 2006-04-04 Microsoft Corporation Block retouching

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100902491B1 (ko) * 2007-04-27 2009-06-10 금오공과대학교 산학협력단 숫자 영상 처리 시스템 및 그 방법

Also Published As

Publication number Publication date
CN1519769A (zh) 2004-08-11
EP1469418A2 (en) 2004-10-20
US20040247204A1 (en) 2004-12-09
CN1275191C (zh) 2006-09-13
EP1469418A3 (en) 2006-05-03

Similar Documents

Publication Publication Date Title
KR100977713B1 (ko) 영상신호의 글자 인식을 위한 전처리 장치 및 방법
JP3768052B2 (ja) カラー画像処理方法、カラー画像処理装置、及びそのための記録媒体
EP1398726B1 (en) Apparatus and method for recognizing character image from image screen
KR100946888B1 (ko) 영상화면 내의 피사체의 기울기 보정 장치 및 방법
EP1910994B1 (en) Binarization of an image
US6674900B1 (en) Method for extracting titles from digital images
KR100703284B1 (ko) 영상신호의 이진화 장치 및 방법
JP3353968B2 (ja) 画像処理装置
JP2007507802A (ja) デジタル画像におけるテキスト状エッジの強調
JPH07192086A (ja) 画像傾き検出方法
KR100593986B1 (ko) 영상화면 내의 글자 이미지를 인식하는 장치 및 방법
KR20040069865A (ko) 영상화면 내의 글자영역 확장장치 및 방법
US7145694B2 (en) Image processing apparatus and method
EP1457927A2 (en) Device and method for detecting blurring of image
JP2000067164A (ja) パターン認識方法及び装置並びにテンプレート作成プログラムを記録した記録媒体
JP3830350B2 (ja) カラー画像処理方法、カラー画像処理装置、プログラム、及び記録媒体
Solanki et al. Performance evaluation of thresholding techniques on Modi script
KR940020246A (ko) 문서인식장치의 영역분할 방법
KR100713335B1 (ko) 이미지 인식방법
CN112634229B (zh) 图像去除黑边的方法
Konya et al. Adaptive methods for robust document image understanding
CN112053275B (zh) 抗打印扫描攻击的pdf文档水印方法及装置
CN111553317B (zh) 一种防伪码的获取方法、装置、计算机设备和存储介质
JP2001291056A (ja) 文書画像認識装置及び記録媒体
JP3210224B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application