KR100200619B1 - 문자열 영상에서 어절 영상을 분리하는 방법 - Google Patents
문자열 영상에서 어절 영상을 분리하는 방법 Download PDFInfo
- Publication number
- KR100200619B1 KR100200619B1 KR1019960039151A KR19960039151A KR100200619B1 KR 100200619 B1 KR100200619 B1 KR 100200619B1 KR 1019960039151 A KR1019960039151 A KR 1019960039151A KR 19960039151 A KR19960039151 A KR 19960039151A KR 100200619 B1 KR100200619 B1 KR 100200619B1
- Authority
- KR
- South Korea
- Prior art keywords
- word
- interval
- intervals
- string image
- character
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012805 post-processing Methods 0.000 claims description 4
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
Description
Claims (2)
- 문서 내의 문자열 영상을 스캔하고 노이즈를 제거하는 작업 등을 처리하는 전처리 단계, 상기 전처리 단계를 거친 각 문자를 코드화하는 인식 단계, 상기 코드화된 내용에 대해 보정처리를 하는 후처리 단계를 갖는 문자 인식 분야에서 상기 전처리 단계와 인식 단계 사이에 포함될 수 있는 상기 인쇄된 문서 내의 문자열 영상으로부터 어절 영상을 분리하는 방법에 있어서,상기 문자열 영상에 대한 수직히스토그램을 생성하는 제1단계;상기 문자열 영상의 폭을 소정의 값과 비교하여 그보다 작은 경우 하나의 문자로 이루어진 문자열로 보아 문자열 영상 전체를 하나의 어절 단위로 두는 제2단계;상기 제1단계에서 그려진 수직히스토그램에 수직 스캔라인을 통해 검은 점이 전혀 나타나지 않는 곳을 간격이라 할 때, 상기 간격이 존재하는 지를 검사하여 간격이 존재하지 않으면 모든 글자가 붙어있는 하나의 어절로 이루어진 문자열로 보아 문자열 영상 전체를 하나의 어절 단위로 두는 제3단계;상기 제1단계에서 그려진 수직히스토그램에 하나의 간격만 존재하는 경우 그 간격이 소정의 값보다 작으면 하나의 어절로 이루어진 문자열로 보고, 같거나 크면 그 간격을 어절 간격으로 두고, 둘 이상의 간격이 존재하는 경우 이들 간격들로부터 어절 간격을 구하는 제4단계; 및상기 제4단계에서 구한 어절 간격이 소정의 값보다 큰 지를 검사하여 작은 경우에는 한 어절로 이루어진 문자열로 보아 문자열 영상 전체를 하나의 어절 단위로 두고, 같거나 큰 경우는 수직히스토그램을 분석하여 상기 어절 간격과 같거나 큰 간격을 만날 때마다 어절 단위로 분리하는 제5단계를 포함함을 특징으로 하는 문자열 영상으로부터 어절 영상을 분리하는 방법.
- 제1항에 있어서, 상기 제4단계 내의 둘 이상의 간격이 존재하는 경우 이들 간격들을 이용하여 어절 간격을 구하는 단계는상기 간격들의 데이터를 이용하여 두개의 대표 평균값 및 이들 대표 평균값에 의해 대표되는 두개의 데이터 그룹에 대한 각각의 표준편차를 구하는 단계; 및상기 두개의 대표 평균값을 각각 M1, M2라 하고 두개의 표준편차를 각각 d1, d2라 하고 어절 간격을 GW라 할 때, GW = ( d2 * M1 + d1 * M2 ) / ( d1 + d2 )에 의하여 어절 간격을 구하는 단계를 포함함을 특징으로 하는 문자열 영상으로부터 어절 영상을 분리하는 방법.]
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019960039151A KR100200619B1 (ko) | 1996-09-10 | 1996-09-10 | 문자열 영상에서 어절 영상을 분리하는 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019960039151A KR100200619B1 (ko) | 1996-09-10 | 1996-09-10 | 문자열 영상에서 어절 영상을 분리하는 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR19980020632A KR19980020632A (ko) | 1998-06-25 |
KR100200619B1 true KR100200619B1 (ko) | 1999-06-15 |
Family
ID=19473262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019960039151A KR100200619B1 (ko) | 1996-09-10 | 1996-09-10 | 문자열 영상에서 어절 영상을 분리하는 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100200619B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102252286B1 (ko) * | 2020-02-21 | 2021-05-14 | 주식회사 더방픽 | 이미지형 문서의 변화 감지 및 인식 장치 및 방법 |
-
1996
- 1996-09-10 KR KR1019960039151A patent/KR100200619B1/ko not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102252286B1 (ko) * | 2020-02-21 | 2021-05-14 | 주식회사 더방픽 | 이미지형 문서의 변화 감지 및 인식 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR19980020632A (ko) | 1998-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3139521B2 (ja) | 自動言語決定装置 | |
US5737442A (en) | Processor based method for extracting tables from printed documents | |
US7054485B2 (en) | Image processing method, apparatus and system | |
US4979227A (en) | Method for automatic character recognition employing a lexicon having updated character strings | |
US7233697B2 (en) | Character recognition device and a method therefor | |
JPS63158678A (ja) | 単語間スペ−ス検出方法 | |
CN111242829A (zh) | 一种水印提取方法、装置、设备及存储介质 | |
US5911005A (en) | Character recognition method and system | |
JPH1196301A (ja) | 文字認識装置 | |
US5357602A (en) | Apparatus for transforming a two-level image into contour vectors by decomposing composite figures into "unitary" (open) and closed-loop figures, especially suitable for minimizing memory use while maintaining system processing speed | |
KR100200619B1 (ko) | 문자열 영상에서 어절 영상을 분리하는 방법 | |
Strouthopoulos et al. | PLA using RLSA and a neural network | |
US6987879B1 (en) | Method and system for extracting information from images in similar surrounding color | |
JP2001022883A (ja) | 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体 | |
JPH0291789A (ja) | 文字認識方法 | |
JP2000090194A (ja) | 画像処理方法および画像処理装置 | |
US20050281463A1 (en) | Method and apparatus for processing binary image | |
US20030152270A1 (en) | Image encoding device, decoding device and encoding method, decoding method, and recorded program on which programs of the methods are recorded | |
JP3113769B2 (ja) | 文字認識装置 | |
Fethi et al. | A Progressive Approach to Arabic Character Recognition Using a Modified Freeman Chain Code Algorithm | |
KR100241447B1 (ko) | 윤곽선 정보를 이용한 영문/숫자 인식방법 | |
JPH04119488A (ja) | 文字認識装置 | |
JPH01277989A (ja) | 文字列パターン読み取り装置 | |
Monjel et al. | Optical character recognition for Bangla documents using HMM | |
JPH04119487A (ja) | 文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 19960910 |
|
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 19960910 Comment text: Request for Examination of Application |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 19990222 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 19990311 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 19990312 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20020227 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20030227 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20040227 Start annual number: 6 End annual number: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20050228 Start annual number: 7 End annual number: 7 |
|
PR1001 | Payment of annual fee |
Payment date: 20060227 Start annual number: 8 End annual number: 8 |
|
PR1001 | Payment of annual fee |
Payment date: 20070227 Start annual number: 9 End annual number: 9 |
|
FPAY | Annual fee payment |
Payment date: 20080228 Year of fee payment: 10 |
|
PR1001 | Payment of annual fee |
Payment date: 20080228 Start annual number: 10 End annual number: 10 |
|
LAPS | Lapse due to unpaid annual fee | ||
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20100210 |