KR980004113A - 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템 - Google Patents
다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템 Download PDFInfo
- Publication number
- KR980004113A KR980004113A KR1019970067558A KR19970067558A KR980004113A KR 980004113 A KR980004113 A KR 980004113A KR 1019970067558 A KR1019970067558 A KR 1019970067558A KR 19970067558 A KR19970067558 A KR 19970067558A KR 980004113 A KR980004113 A KR 980004113A
- Authority
- KR
- South Korea
- Prior art keywords
- character
- characters
- individual
- character extraction
- extracting
- Prior art date
Links
- 238000000605 extraction Methods 0.000 title claims abstract 11
- 238000000034 method Methods 0.000 claims abstract 7
- 230000003287 optical effect Effects 0.000 claims 1
- 238000000926 separation method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
본 발명은 한글, 한자, 영 수 부호 문자가 혼용된 다국어 문서 (multilingual document)를 대상으로 하는 개별 문자 추출(individua character extraction)방법 및 그 인식 시스템에 관한 것이다.
본 발명은 다양한 폰트 크기, 하나의 글자가 두 조각으로 가로 분리되는 문자, 그리고 붙은 문자나 겹친문자와 같은 다국어 문서에서 많이 발생되는 문자 분리시의 어려움을 해결한 개별 문자 추출 방법을 제공한다.
본 발명의 상기 개별문자 추출 방법은 문자 인식기의 결과값을 이용하는 방법으로 수직 화소 투영에 의한 1차 문자 추출 과정, 두 조각으로 이상으로 가로 분리된 문자를 병합할지를 판정하고 병합을 수행하는 2차 문자 추출 과정, 그리고 붙은 문자나 겹친 문자를 재 분리 할지를 판정하고 재분리 대상에 대해 재분리를 수행하는 3차 문자 추출 과정으로 구성되는 방법을 제공한다. 상기 2차 문자 추출 과정과 3차 문자 추출 과정에서의 판정 단계에서는 다단계 인식기를 통해 얻어진 결과값인 두개의 인식 정합도를 이용함을 특징으로 한다.
Description
본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음
제1도는 본 발명에 관한 다국어 문서 인식 시스템의 구성도.
Claims (4)
- 입력 수단인 광학 스캐너(12)를 스캐너 제어부(13)에 의해 구동하여 한글, 한자 및 영 수 부호 문자로 구성된 다국어 문서 영상(10)을 입력하거나, 이미 압축영상 등의 형태로 저장된 다국어 문서 영상(11)을 읽어 문서 영역 분리부(14),개별 문자 분리부(15) 및 문자 인식부(16)로 구성된 문서 처리부(17)에서 수행되는 것을 특징으로 하는 다국어 문서 인식 시스템.
- 입력된 문서 영상(20)에서 문자 영역을 추출하는 단계(21)와; 상기 추출된 문자 영역에서 문자열을 추출하는 단계(22)와; 상기 추출된 문자열 영상에서 문자 인식기(24)의 결과값을 이용하여 개별 문자를 추출하는 단계(23)으로 이루어지는 것을 특징으로 하는 다국어 문서 인식을 위한 개별 문자 추출 방법.
- 제2항에 있어서, 개별 문자 추출 단계(23)은; 수직 방향 화소 투영 단계(41)와 문자 사각형의 정보 계산단계로(43)로 구성되는 1차 문자 추출 과정(31)과; 두 조각 이상으로 가로 분리된 문자를 병합하기 위해 병합 여부를 판정하는 판정단계(51,53)와 상기 판정 단계(51,53)의 판정 결과에 따라 인접 문자 사각형을 병합하는 단계(54)로 구성되는 2차 문자 출과정(32)과; 붙은 문자나 겹친 문자를 재 분리하기 위해 그 여부를 판정하는 판정단계(62,66)와 그에 따라 붙은 문자/겹친 문자를 재분리하는 단계(67)로 구성되는 3차 문자 추출 과정(33)으로 수행되는 것을 특징으로하는 다국어 문서 인식을 위한 개별 문자 추출 방법.
- 제3항에 있어서, 병합 여부 판정 단계(53)와 붙은 문자 판정 단계(66)시, 대분류 단계(80), 상세 분류단계(81), 유사문자 분류 단계(82)로 이루어지는 다단계 분류 방법의 문자 인식기(24)의 결과값을 이용하여병합 처리와 붙은 문자 처리를 수행하는 것을 특징으로 하는 다국어 문서 인식을 위한 개별 문자 추출 방법.※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019970067558A KR100248384B1 (ko) | 1997-12-10 | 1997-12-10 | 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019970067558A KR100248384B1 (ko) | 1997-12-10 | 1997-12-10 | 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR980004113A true KR980004113A (ko) | 1998-03-30 |
KR100248384B1 KR100248384B1 (ko) | 2000-03-15 |
Family
ID=19526973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019970067558A KR100248384B1 (ko) | 1997-12-10 | 1997-12-10 | 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100248384B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015183015A1 (ko) * | 2014-05-30 | 2015-12-03 | 삼성에스디에스 주식회사 | 문자 인식 방법 및 그 장치 |
-
1997
- 1997-12-10 KR KR1019970067558A patent/KR100248384B1/ko not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015183015A1 (ko) * | 2014-05-30 | 2015-12-03 | 삼성에스디에스 주식회사 | 문자 인식 방법 및 그 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR100248384B1 (ko) | 2000-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR940022314A (ko) | 데이타 처리 시스템의 단어 분리 방법 및 데이타 구조 | |
RU2309456C2 (ru) | Способ распознавания текстовой информации из векторно-растрового изображения | |
KR960025220A (ko) | 문자화상의 히스토그램의 0-1패턴표현에 기초한 문자인식 방법 및 장치 | |
EP0780782A3 (en) | Separation of touching characters in optical character recognition | |
KR980004113A (ko) | 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템 | |
JP2004240643A (ja) | 文字認識システム、文字認識方法およびプログラム | |
KR200488959Y1 (ko) | 시각장애인을 위한 그림-활자 점자 변환 장치 | |
JPH04287168A (ja) | ファイリングの自動キーワード抽出方法 | |
JPS63229584A (ja) | 文字認識装置 | |
JPH0564396B2 (ko) | ||
Wang et al. | Document segmentation and classification with top-down approach | |
Dharmale et al. | Text detection and recognition with speech output for visually challenged person: A review | |
KR930007554B1 (ko) | 자음과 붙은 하치모음의 분리방법 | |
JP2995825B2 (ja) | 日本語文字認識装置 | |
JPH0652353A (ja) | 文書認識システム | |
JPS60110089A (ja) | 文字認識装置 | |
KR940015771A (ko) | 이치화된 영상의 고속 영역 분할 추출방법 | |
JPH04312162A (ja) | 文字列抽出装置 | |
KR930023872A (ko) | 온라인 문서편집 장치 | |
KR900013422A (ko) | 자동문서처리 및 영문자 인식방법 | |
Sharma | Separation of Machine Printed Roman and Gurmukhi Script Words | |
JPS6097479A (ja) | 画像処理装置 | |
KR950001553A (ko) | 영문자열에서의 개별문자 분리 방법 | |
JPS63129482A (ja) | 文字認識装置 | |
KR970002740A (ko) | 문자인식장치의 접촉문자 분리 및 특징추출방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
G15R | Request for early opening | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121129 Year of fee payment: 14 |
|
FPAY | Annual fee payment |
Payment date: 20131128 Year of fee payment: 15 |
|
FPAY | Annual fee payment |
Payment date: 20141215 Year of fee payment: 16 |
|
FPAY | Annual fee payment |
Payment date: 20161125 Year of fee payment: 18 |
|
EXPY | Expiration of term |