KR100234028B1 - 문자인식 시스템의 문자영역 구분방법 - Google Patents
문자인식 시스템의 문자영역 구분방법 Download PDFInfo
- Publication number
- KR100234028B1 KR100234028B1 KR1019960028705A KR19960028705A KR100234028B1 KR 100234028 B1 KR100234028 B1 KR 100234028B1 KR 1019960028705 A KR1019960028705 A KR 1019960028705A KR 19960028705 A KR19960028705 A KR 19960028705A KR 100234028 B1 KR100234028 B1 KR 100234028B1
- Authority
- KR
- South Korea
- Prior art keywords
- area
- character
- partitioned
- recognition system
- character recognition
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
본 발명은 문자인식시스템에서 문자영역을 구분하는 기술에 관한 것으로, 종래의 문자인식시스템에 있어서는 사전에 일정하게 구획되지 않고 불규칙적으로 구획되는 영역에 대해서는 전체 이미지로 부터 그 영역을 쉽게 찾지 못하게 되고, 이로 인하여 일괄적으로 문자인식을 할 수 없게 되어 해당 사항을 수동으로 입력받아 처리하거나 그 밖의 수단을 동원해야 되므로 처리시간이 지연될 뿐더러 사용상의 불편함을 초래하게 되는 결함으로 대두되었다.
따라서, 본 발명은 이를 해결하기 위하여, 전처리된 영상을 입력받아 사전에 구획된 정보를 이용하여 특정 영역을 구분해 내고 통신란과 같이 특정하게 구획되지 않은 영역에 대해서는 윤곽선의 길이나 연결요소 수를 근거로 숫자와 기타 문자영역을 구분하도록 하였다.
Description
제1도는 문자인식시스템에서 사전에 구획화된 하나의 영역을 예시적으로 보인 설명도.
제2도는 본 발명의 문자영역 구분방법이 적용되는 문자인식시스템의 블록도.
제3도는 본 발명의 문자영역 구분방법을 설명하기 위한 지로용지의 포맷도.
제4a도는 탑-다운분석방법에 의한 텍스트라인 추출 예시도.
(b)는 버텀-업 분석방법으로 텍스트라인을 추출한 예시도.
제5도는 숫자의 윤곽선 길이를 보인 설명도.
제6a도는 한글과 같은 문자의 윤곽선 길이를 보인 설명도.
(b)는 한글과 같은 문자의 연결요소 수를 보인 설명도.
제7도는 본 발명에 의해 구분된 각 영역의 배치 설명도.
제8a,b도는 인식되지 않는 예를 보인 문서의 예시도.
제9도의 본 발명 문자인식시스템의 문자영역 구분방법에 대한 신호 흐름도.
〈도면의 주요부분에 대한 부호의 설명〉
1 : 문서영상 입력장치 2 : 전처리부
3 : 문자영역 구분처리부 4 : 문자인식부
본 발명은 문자인식시스템에서 문자영역을 구분하는 기술에 관한 것으로, 특히 은행에서 사용되는 지로(GIRO) 용지의 통신란과 같이 필기자가 몇가지의 항목에 대해 글씨를 써넣게 되는 영역의 패턴이 일정한 위치에 고정되지 있지 않고 임의로 변경되더라도 이에 관계없이 각 항목의 영역을 정확하게 검출해 내는데 적당하도록 한 문자인식시스템의 문자영역 구분방법에 관한 것이다.
최근 문자인식 기술의 발전에 따라 문저 자동입력, 펜 인식컴퓨터 등 여러 분야에 응용되고 있는 추세에 있으며, 지로(GIRO) 용지등과 같은 전표까지도 문자인식 기술이 응용되고 있는 실정에 있다.
이와 같이 일반적인 문자인식시스템에 있어서, 필기체 인식이 적용되는 영역 즉, 사용자가 글씨를 써넣게 될 영역이 사전에 구획화 되어 있으므로 인식시스템이 정확하게 해당 영역(Fixed Field)을 찾아가 그 영역에 쓰여진 숫자나 문자를 인식할 수 있게 된다.
제1도는 상기와 같이 사전에 구획화된 하나의 영역을 예시적으로 보인 것으로, 이 영역은 통상적으로 적색라인으로 표시되며, 대체로 이러한 영역들은 하나의 영역이 모두 숫자로 채워지거나 문자(한글)로 채워지도록 되어 있다.
그러나, 이와 같은 종래의 문자인식시스템에 있어서는 사전에 구획화된 영역을 찾아가 문자나 숫자를 인식하는데는 별다른 문제점이 없으나, 지로용지의 통신란과 같이 하나의 영역내에 몇가지 항목의 영역이 사전에 일정하게 구획되지 않고 불규칙적으로 구획되는 영역에 대해서는 전체 이미지로 부터 그 영역을 쉽게 찾지 못하게 되고, 이로 인하여 일괄적으로 문자인식을 할 수 없게 되어 해당 사항을 수동으로 입력받아 처리하거나 그 밖의 수단을 동원해야 되므로 처리시간이 지연될 뿐더러 사용상의 불편함을 초래하게 되는 결함으로 대두되었다.
따라서, 본 발명의 목적은 은행에서 사용되는 지로(GIRO) 용지의 통신란과 같이 필기자가 몇가지의 항목에 대해 글씨를 써넣게 되는 영역의 패턴이 설령 사전에 구획되지 않았을 지라도 그 영역 및 영역내의 각 항목 영역을 정확하게 검출해내는 문자인식시스템의 문자영역 구분방법을 제공함에 있다.
상기의 목적을 달성하기 위한 본 발명 문자인식시스템의 문자영역 구분방법은 스캐너나 카메라와 같은 문서영상 입력장치를 통해 문서의 영상을 입력하는 제1단계와 ; 입력된 영상을 윤곽을 검출하여 윤곽선의 길이 및 영역의 경계에 대한 위치 및 사이즈정보를 저장하는 등 전처리를 수행하는 제2단계와 ; 전처리된 영상을 입력받아 사전에 구획된 정보를 이용하여 특정 영역을 구분해 내고 통신란과 같이 특정하게 구획되지 않은 영역에 대해서는 윤곽선의 길이나 연결요소 수를 근거로 숫자와 기타 문자영역을 구분하는 제3단계와 ; 구분처리된 영역내의 문자나 숫자를 인식하는 제4단계로 이루어진다.
제2도는 본 발명의 문자영역 구분방법이 적용되는 문자인식시스템의 개략 블록도로서 이에 도시된 바와 같이, 스캐너나 카메라와 같이 문서를 인식하기 위한 영상을 입력하는 문서영상 입력장치(1)와 ; 상기 입력영상의 윤곽을 검출하여 윤곽선의 길이 및 영역의 경계에 대한 위치 및 사이즈정보를 저장하는 전처리부(2)와 ; 상기 전처리부의 출력영상을 입력받아 사전에 구획된 정보를 이용하여 특정 영역을 구분해 내고 통신란과 같이 특정하게 구획되지 않은 영역에 대해서는 윤곽선의 길이나 연결요소 수를 근거로 숫자와 기타 문자영역을 구분하는 문자영역 구분처리부(3)와 ; 상기 문자영역 구분처리부(3)의 출력정보를 근거로 입력된 영상의 영역을 각기 구분하고 해당 영역에 있는 문자나 숫자를 인식하는 문자인식부(4)로 구성한 것으로, 이와 같이 구성한 본 발명의 작용 및 효과를 첨부한 제3도 내지 제8도를 참조하여 상세히 설명하면 다음과 같다.
먼저, 제3도와 같은 은행 지로용지가 스캐너나 카메라와 같은 문서영상 입력장치(1)를 통해 전처리부(2)에 입력되면 그 전처리부(2)는 입력영상에서 각 요소의 윤곽선(Contour)을 검출하여 윤곽선의 길이 및 영역의 경계에 대한 위치 및 사이즈 정보를 저장하게 되며, 이때, 아주 작거나 아주 큰 요소들은 고려 대상에서 제외된다.
이후, 텍스트라인 추출과정에서 수직/수평방향으로 인접된 요소들끼리 블록화 처리되는데, 제4도의 (a)는 탑-다운(top-down) 분석방법으로 텍스트라인을 추출한 예를 보인 것이고, 제4도의 (b)는 버텀-업(bottom-up) 분석방법으로 텍스트라인을 추출한 예를 보인 것이다.
이후, 문자영역 구분처리부(3)는 상기 전처리부(2)에 의해 전처리된 각 블록의 영상중 은행에서 사용되는 지로(GIRO) 용지의 통신란과 같이 사용자가 직접 숫자나 한글을 써넣게 되는 영역내의 각 항목의 영역 즉, 계좌번호영역, 이름영역, 전화번호 영역등을 다음과 같이 구별하게 된다.
숫자와 한글을 구분하는 하나의 예로써, 제5도에서와 같이 숫자(예 : 아라비아 숫자)는 제6도의 (a)에 도시한 한글이나 기타 다른 문자에 비해 윤곽선의 길이가 짧다는 것에 착안하여, 윤곽선의 길이를 검출한 다음 그 윤곽선의 길이를 기준치와 비교하여 기준치보다 작으면 이름 숫자로 판단한다.
숫자와 한글을 구분하는 또 다른 예로써, 숫자가 기타 문자에 비해 연결요소(Cluster)의 수가 적다는 것을 감안하여 해당 요소의 연결요소수를 기준치와 비교하여 연결요소수가 기준치보다 적으면 숫자로 판단하고, 많으면 한글로 판단한다. 제5도에서와 같이 숫자의 연결요소 수는 거의 한개이지만 한글의 연결요소 수는 두 개 이상임을 알 수 있다.
상기의 과정을 통해 통신란에 있는 숫자영역과 한글영역을 구분한 후 다시 숫자영역으로 구분된 영역을 계좌번호 영역과 주민등록번호 영역, 전화번호 영역을 다음과 같이 구분하게 된다.
통상적으로, 계좌번호는 숫자블록이 4개의 -(하이픈)으로 연결되는 특징이 있으므로 이와 같이 이루어진 숫자영역을 계좌번호 영역으로 판단한다. 또 다른 예로써 숫자영역의 길이를 기준치와 비교하여 기준치보다 긴 경우 계좌번호 영역으로 판단한다.
또한, 한글영역의 길이를 기준치와 비교하여 기준치보다 작으면 이름영역으로 판단하고 길면 주소영역으로 판단한다.
또한, 주민등록번호는 공히 앞에 있는 6개의 숫자와 뒤에 있는 7개의 숫자가 -(하이픈)으로 연결되어 있으므로 이와 같은 형태를 갖는 숫자영역을 주민등록번호 영역으로 판단하고, 그 외의 숫자영역을 전화번호 영역으로 판단한다.
이상의 과정을 통해 구별된 모든 영역을 구별한 후 양식에 맞도록 재정립하여 표현한 예를 제7도에서 보여주고 있다.
한편, 제8도는 인식되지 않는 예를 보인 것으로, 제8도의 (a)는 계좌번호 영역과 전화번호영역이 소인과 겹쳐져 인식되지 않은 것이고, 제8도의 (b)는 한글로 기록되는 합계란의 크기가 너무 커 인식되지 않았고, 계좌번호영역은 라인이 바뀌어 기록되었기 때문에 인식되지 않았다.
이상에서 상세히 설명한 바와 같이, 본 발명은 은행에서 사용되는 지로용지의 통신란과 같이 필기자가 몇가지의 항목에 대해 글씨를 써넣게 되는 영역의 패턴이 설령 사전에 구획되지 않았을 지라도 숫자와 한글과 같은 기타문자의 특징을 근거로 하여 숫자영역과 기타 영역을 구분할 수 있도록 함으로써 문자인식시스템의 처리속도를 향상시키고 사용자에게 편리함을 줄 수 있는 효과가 있다.
Claims (1)
- 문자인식방법에 있어서, 문서영상 입력장치를 통하여 문서의 영상을 입력하는 단계와 ; 입력된 영상의 윤곽을 검출하여 전처리를 수행하는 단계와 ; 상기 전처리된 영상을 입력받아 사전에 구획된 정보를 이용하여 특정 영역을 구분해내는 단계와 ; 사전에 구획되지 않은 영역에 대해서는 윤곽선의 길이나 연결요소수를 근거로 숫자와 문자영역을 구분하는 단계와 ; 구분 처리된 영역내의 문자나 숫자를 인식하는 단계로 이루어지는 것을 특징으로 하는 문자인식시스템의 문자영역 구분방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019960028705A KR100234028B1 (ko) | 1996-07-16 | 1996-07-16 | 문자인식 시스템의 문자영역 구분방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019960028705A KR100234028B1 (ko) | 1996-07-16 | 1996-07-16 | 문자인식 시스템의 문자영역 구분방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR980010860A KR980010860A (ko) | 1998-04-30 |
KR100234028B1 true KR100234028B1 (ko) | 1999-12-15 |
Family
ID=19466483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019960028705A KR100234028B1 (ko) | 1996-07-16 | 1996-07-16 | 문자인식 시스템의 문자영역 구분방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100234028B1 (ko) |
-
1996
- 1996-07-16 KR KR1019960028705A patent/KR100234028B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR980010860A (ko) | 1998-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5119433A (en) | Method and system for locating the amount field on a document | |
JP3375766B2 (ja) | 文字認識装置 | |
EP0114249B1 (en) | Method for distinguishing between complex character sets | |
CN103996055B (zh) | 基于影像档案电子资料识别系统中分类器的识别方法 | |
JPH11120293A (ja) | 文字認識/修正方式 | |
Pal et al. | Automatic separation of machine-printed and hand-written text lines | |
JP3078318B2 (ja) | 文書からの予め定められたデータを位置決定することおよび抽出することを含む文字認識方法および装置 | |
KR100234028B1 (ko) | 문자인식 시스템의 문자영역 구분방법 | |
Srivastava et al. | Separation of machine printed and handwritten text for Hindi documents | |
KR940007345B1 (ko) | 온라인 한글 필기체 문자의 인식방법 | |
CN110390323A (zh) | 信息处理装置以及计算机可读介质 | |
JPH0247788B2 (ko) | ||
JP3162552B2 (ja) | 郵便物あて名認識装置及びあて名認識方法 | |
JP2877380B2 (ja) | 光学的文字読取装置 | |
JP2000181989A (ja) | 文字認識装置及びその方法並びにその方法をプログラムとして記録したコンピュータ読み取り可能な記録媒体 | |
JPH03296883A (ja) | 帳票認識装置の帳票認識方法 | |
JPH117492A (ja) | キー入力編集方法及び編集装置 | |
JPS5875278A (ja) | 文字・記号認識装置 | |
CN114332875A (zh) | 一种笔记卡片结构化方法 | |
JPH08263591A (ja) | 文字認識装置及び方法 | |
JPH04316176A (ja) | 名刺認識方法および名刺管理機 | |
Bodduluri et al. | A novel way of identifying telugu, tamil and english scripts by priority check using discerning features | |
Coy | A Look at Optoelectronic Document Processing | |
Akiyama | Addressee recognition for automated fax mail distribution | |
JPH08129604A (ja) | データ記入用シート |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20080618 Year of fee payment: 10 |
|
LAPS | Lapse due to unpaid annual fee |