KR100241447B1 - 윤곽선 정보를 이용한 영문/숫자 인식방법 - Google Patents

윤곽선 정보를 이용한 영문/숫자 인식방법 Download PDF

Info

Publication number
KR100241447B1
KR100241447B1 KR1019970034166A KR19970034166A KR100241447B1 KR 100241447 B1 KR100241447 B1 KR 100241447B1 KR 1019970034166 A KR1019970034166 A KR 1019970034166A KR 19970034166 A KR19970034166 A KR 19970034166A KR 100241447 B1 KR100241447 B1 KR 100241447B1
Authority
KR
South Korea
Prior art keywords
concave
hole
extracted
information
contour
Prior art date
Application number
KR1019970034166A
Other languages
English (en)
Other versions
KR19990011181A (ko
Inventor
이상일
Original Assignee
구자홍
엘지전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지전자주식회사 filed Critical 구자홍
Priority to KR1019970034166A priority Critical patent/KR100241447B1/ko
Publication of KR19990011181A publication Critical patent/KR19990011181A/ko
Application granted granted Critical
Publication of KR100241447B1 publication Critical patent/KR100241447B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 윤곽선 정보를 이용한 영문/숫자 인식방법에 관한 것으로, 종래에는 윤곽선 정보를 이용할 경우 도 2에서와 같이 ″b, d, p, q″와 같은 문자들로 부터 정보를 추출하게 되면 4문자 모두 각각, 연결된 스트로크 갯수가 1개이고, 홀 갯수가 1개이고, 컨케이브 갯수 1개의 정보가 추출되어 결국 이들 4문자에 대한 변별력이 없어지게 되는 문제점이 있고, 이와같은 문자들을 구별하기 위해서 윤곽선 정보 이외에 프로젝션(Projection)정보(수평, 수직, 대각 성분의 유무 판별등) 등의 또 다른 특징 추출부를 두어 구별하였는데, 이 경우에는 인식 시간과 효율에 있어서 좋지않은 결과를 초래하는 문제점이 있다. 따라서 본 발명은 분리된 개별 문자에 대하여 외부 윤곽선 및 내부 홀 윤곽선을 추출하는 단계와, 상기에서 추출한 홀의 유무를 검출하여 있으면 홀의 위치정보에 따라 홀 특징을 추출하는 단계와, 상기에서 추출한 윤곽선 정보로 부터 콘케이브의 유무를 검출하여 있으면 콘케이브의 방향정보에 따라 콘케이브 특징을 추출하는 단계와, 상기에서 추출한 윤곽선 정보로 부터 스트로크 갯수, 홀 및 콘케이브의 갯수와 추출한 특징으로 이용하여 해당 문자를 인식하는 단계로 해당문자를 인식함에 있어, 별도의 특징 추출부 없이 그 자체만으로 인식률을 향상시키고, 인식시간과 효율에 있어서 직접적인 상승 효과를 가져오도록 한 것이다.

Description

윤곽선 정보를 이용한 영문/숫자 인식방법
본 발명은 윤곽선 정보를 이용하여 영문 및 숫자를 인식하기 위한 방법에 관한 것으로, 특히 프로젝션 정보등 다른 정보의 추출없이 윤곽선 정보만을 이용한 윤곽선 정보를 이용한 영문/숫자 인식방법에 관한 것이다.
도 1은 종래 영문/숫자 인식방법에 대한 동작 흐름도로서, 이에 도시된 바와 같이, 스캐너로 부터 입력되는 이진영상에 대한 수평 방향의 누적 흑화소를 구한 값과 임계값을 비교하여 문자열을 분리해내는 제1단계와, 상기 제1단계에서 분리된 문자열 각각에 대하여 개별 문자를 분리해내는 제2단계와, 상기 제2단계에서 분리한 문자의 인식 여부를 결정하는 제3단계와, 상기 제3단계에서 인식한 결과를 버퍼에 저장하도록 하는 제4단계로 이루어진다.
이와같이 각 단계로 이루어진 종래 기술에 대하여 살펴보면 다음과 같다.
미도시된 문자인식 시스템에서 스캐너를 통해 문서에 대한 이진영상이 입력되면, 그 입력된 이진영상에 대하여 수평 방향의 누적 흑화소를 구한다.
이렇게 하여 얻은 누적 흑화소의 값과 임계값을 비교하여 문자열의 상하 위치를 구해 문서로 부터 문자열을 분리해 낸다.(S11)
상기 S11단계에서 문자열 분리가 끝나면, 그 분리된 문자열 각각에 대하여 개별 문자를 분리해낸다.(S12)
상기 S12단계에서 분리해낸 개별 문자에 대하여 외부 윤곽선과 내부 홀의 윤곽선을 추출한다.
상기 추출한 윤곽선 정보로 부터 다시 연결된 스트로크(Stroke)의 갯수와 홀(Hole)의 갯수, 그리고 콘케이브(concave)의 갯수를 추출한다.
이렇게 추출한 정보를 이용하여 기준값과의 유사도를 측정하여 인식 결과를 결정한다.(S13)
상기 S13단계에서 유사도가 높은 문자에 대하여는 인식하고, 그 인식한 문자를 버퍼에 저장한다.(S14)
이상에서와 같은 동작을 반복하여 영문자나 숫자를 인식한다.
그러나, 상기에서와 같은 종래기술에서 윤곽선 정보를 이용할 경우 도 2에서와 같이 ″b, d, p, q″와 같은 문자들로 부터 정보를 추출하게 되면 4문자 모두 각각, 연결된 스트로크 갯수가 1개이고, 홀 갯수가 1개이고, 컨케이브 갯수 1개의 정보가 추출되어 결국 이들 4문자에 대한 변별력이 없어지게 되는 문제점이 있다.
따라서 이들 문자들을 구별하기 위해서 윤곽선 정보 이외에 프로젝션(Projection)정보(수평, 수직, 대각 성분의 유무 판별등) 등의 또 다른 특징 추출부를 두어 구별하였는데, 이 경우에는 인식 시간과 효율에 있어서 좋지않은 결과를 초래하는 문제점이 있다.
따라서 상기에서와 같은 종래의 문제점을 해결하기 위한 본 발명의 목적은 윤곽선 정보 이외의 다른 정보 추출없이 영문자와 숫자의 인식률을 높이도록 한 윤곽선 정보를 이용한 영문/숫자 인식방법을 제공함에 있다.
본 발명의 다른 목적은
도 1은 종래 영문/숫자 인식방법에 대한 동작 흐름도.
도 2는 도 1에서, 윤곽선 정보 추출 방법을 보여주는 정보 추출도.
도 3은 본 발명의 윤곽선 정보를 이용한 영문/숫자 인식방법에 대한 동작 흐름도.
도 4는 윤곽선 정보 추출시, 홀(Hole)의 위치 정보에 따라 문자를 추출하도록 하는 홀 특징 추출도.
도 5는 윤곽선 정보 추출시, 콘케이브(Concave)의 방향 정보에 따라 문자를 추출하도록 하는 컨케이브 특징 추출도.
도 6은 도 5에서, 90도 구간으로 방향 성분을 구분하였을 때의 콘케이브 특징 정보 추출도.
도 7은 도 5에서, 편차를 두어 방향 성분을 구분하였을 때의 콘케이블 특징 정보 추출도.
도 8은 제약조건이 없을 때의 컨케이브 특징 정보 추출도.
도 9는 본 발명 윤곽선 정보 추출 방법을 적용한 예를 보여주는 정보 추출도.
상기 목적을 달성하기 위한 본 발명은 스캐너를 통해 입력되는 문서에 대한 이진영상에 대하여 문자열 분리를 행한 후 개별문자 단위로 문자를 분리하는 제1단계와, 상기 제1단계에서 분리한 개별 문자에 대하여 외부 윤곽선 및 내부 홀 윤곽선을 추출하는 제2단계와, 상기 제2단계에서 추출한 홀의 유무를 검출하여 있으면 홀의 위치정보에 따라 홀 특징을 추출하는 제3단계와, 상기 제2단계에서 추출한 윤곽선으로 부터 콘케이브의 유무를 검출하여 있으면 콘케이브의 방향정보에 따라 콘케이브 특징을 추출하는 제4단계와, 상기에서 추출한 윤곽선 정보로 부터 스트로크 갯수, 및 콘케이브의 갯수와 추출한 특징으로 이용하여 해당 문자를 인식하는 제5단계를 수행하도록 한 것을) 특징으로 한다.
이하, 첨부한 도면에 의거하여 상세히 살펴보면 다음과 같다.
도 3은 본 발명의 윤곽선 보정을 이용한 영문/숫자 인식방법에 대한 동작 과정도로서, 이에 도시한 바와 같이, 스캐너를 통해 입력되는 문서에 대한 이진영상에 대하여 문자열 분리를 행한 후 개별문자 단위로 문자를 분리하는 제1단계(S101)와, 상기 제1단계(S101)에서 분리한 개별 문자에 대하여 외부 윤곽선 및 내부 홀 윤곽선을 추출하는 제2단계(S102)와, 상기 제2단계(S102)에서 추출한 홀의 유무를 검출하여 있으면 홀의 위치정보에 따라 홀 특징을 추출하는 제3단계(S103)와, 상기 제2단계(S102)에서 추출한 윤곽선 정보로 부터 콘케이브의 유무를 검출하여 있으면 콘케이브의 방향정보에 따라 콘케이브 특징을 추출하는 제4단계(S104)와, 상기에서 제2단계(S102)에서 추출한 윤곽선 정보로 부터 스트로크 갯수, 홀 및 콘케이브의 갯수와 제3,제4단계(S103,S104)에서 추출한 특징으로 이용하여 해당 문자를 인식하는 제5단계(S105)로 이루어진다.
이와같이 각 단계로 이루어진 본 발명의 동작 및 작용 효과에 대하여 상세히 설명하면 다음과 같다.
스캐너를 통해 문서에 대한 이진영상이 입력되면, 그 입력된 이진영상에 대하여 수평 방향의 누적 흑화소를 구하고, 이 누적 흑화소의 값과 임계값을 비교하여 문자열의 상하 위치를 구해 문서로 부터 문자열을 분리해 낸다.
이후에 상기 분리된 문자열 각각에 대하여 개별 문자를 분리해낸다.(S101)
상기 S01단계에서 개별 문자의 분리가 끝나면, 그 분리된 문자의 외부 윤곽선과 내부 홀의 윤곽선을 추출한다.(S102)
이렇게 추출한 윤곽선 정보로 부터 홀(Hole)이 있는가를 판단하여, 홀이 있으면 홀의 위치에 따라 상측 홀(Up_Hole), 중간 홀(Ct_Hole), 하측 홀(Dn_Hole)중 어디에 해당하는 홀인지의 특징을 추출한다.(S103)
즉, 도 4에서와 같이, 숫자 ″6″인 경우에는 홀이 아래쪽에 있는 것으로 하측 홀(Dn_Hole), 숫자 ″9″인 경우에는 홀이 윗쪽에 있는 것으로 상측 홀(Up_Hole), 숫자 ″0″인 경우에는 홀이 중앙에 있는 것으로 중간 홀(Ct_Hole)로 나누고, 이를 그 문자의 특징으로 사용한다.
그리고, 추출한 윤곽선 정보로 부터 콘케이브(Concave)가 있는가를 판단하여, 콘케이브가 있으면 콘케이브의 방향정보에 따라 상측 콘케이브(Up_Concave), 하측 콘케이브(Dn_Concave), 좌측 콘케이브(L_Concave), 우측 콘케이브(R_Concave)중 어디에 해당하는 콘케이브인지의 특징을 추출한다.(S104)
즉, 도 5에서와 같이, 문자 ″U″인 경우에는 컨케이브가이 윗쪽에 있는 것으로 상측 컨케이브(Up_Concave), 문자 ″h″인 경우에는 컨케이브가 아래쪽에 있는 것으로 하측 컨케이브홀(Dn_Concave), 숫자 ″3″인 경우에는 컨케이브가 좌측에 있는 것으로 좌측 컨케이브(L_Concave), 문자 ″C″인 경우에는 컨케이브가 우측에 있는 것으로 우측 홀(R_Concave)로 나누고, 이를 그 문자의 특징으로 사용하도록 한다.
여기서, 콘케이브의 특징 추출방법에는 두가지 제한을 두게 되는데, 그 첫 번째는 우선 상, 하, 좌, 우의 분류기준이다.
즉, 도 6에서와 같이 상,하,좌,우의 기준을 똑 같이 90도의 구간으로 분류하게 되면 ″b″와 ″d″와 같은 문자에서의 방향성분이 문자의 자평이나 폰트에 따라 쉽게 변할 수 있게 된다.
결국 문자 ″b″인 경우에는 우측 콘케이브(R_Concave) 또는 상측 컨케이브(Up_Concave)로 분류되고, 문자 ″d″인 경우에는 좌측 콘케이브(L_Concave) 또는 상측 컨케이브(Up_Concave)로 추출할 수 있게 된다.
따라서, 본 발명에서는 도 7에서와 같이 상, 하, 좌, 우의 기준을 편차를 두는데, 상, 하의 경우는 60도, 좌,우의 경우는 120도의 구간으로 분류하여 도 6에서와 같이 두 가지 경우로 추출되는 문제가 발생되지 않도록 한다.
그리고, 콘케이브의 특징 추출방법중 두 번째 제한으로는, 도 8에서와 같이 ″W″, ″M″ 문자라도 콘케이브 갯수가 같은 방향에 대해 1개 또는 2개가 나타나는 경우가 발생되는 것을 볼 수 있다.
상기에서와 같이 콘케이브 갯수가 같은 방향에 대해 1개 또는 2개가 나타나는 경우에 대하여 그대로 사용하게 되면, 여러 그룹의 기준을 필요로 하게 되며 이는 인식용 메모리의 사용측면에서 비효율적인 특성이 나타나게 하는 직접적인 원인이 된다.
따라서, 본 발명에서는 위, 아래의 인접한 콘케이브는 하나로 본다는 가정을 둔다.
이상에서 설명한 홀 및 콘케이브 추출 방법을 적용한 예는 도 9에 도시한 바와 같다.
이상에서와 같이 분리된 개별 문자에 대한 외부 윤곽선 및 내부 홀의 윤곽선 추출(S102)과, 홀의 위치에 따른 특징(S103)과 콘케이브의 방향 정보에 따른 특징(S104)이 추출되면, 상기 S102에서 추출한 윤곽선 정보로 부터 스트로크 갯수를 추출하고, 상기 S103과 S104에서 추출한 홀 및 콘케이브의 갯수를 추출한다.
상기 S105단계에서 추출한 갯수를 이용한 정보를 이용하여 기준값과의 유사도를 측정하여 해당 문자를 인식한다.(S105)
이러한 특징 추출 방법은 한글 자소 인식기에도 쉽게 적용할 수 있을 것이다.
상술한 바와 같이, 본 발명은 홀과 콘케이브에 대한 새로운 추출방법을 이용하여 윤곽선 정보를 추출하도록 함으로써 다른 특징 추출부없이 그 자체만으로도 높은 인식률을 향상시키고, 인식시간과 효율에 있어서 직접적인 상승 효과를 가져오도록 한다.

Claims (5)

  1. 스캐너를 통해 입력되는 문서에 대한 이진영상에 대하여 문자열 분리를 행한 후 개별문자 단위로 문자를 분리하는 제1단계와, 상기 제1단계에서 분리한 개별 문자에 대하여 외부 윤곽선 및 내부 홀 윤곽선을 추출하는 제2단계와, 상기 제2단계에서 추출한 홀의 유무를 검출하여 있으면 홀의 위치정보에 따라 홀 특징을 추출하는 제3단계와, 상기 제2단계에서 추출한 윤곽선 정보로 부터 콘케이브의 유무를 검출하여 있으면 콘케이브의 방향정보에 따라 콘케이브 특징을 추출하는 제4단계와, 상기에서 추출한 윤곽선 정보로 부터 스트로크 갯수, 홀 및 콘케이브의 갯수와 추출한 특징을 이용하여 해당 문자를 인식하는 제5단계로 이루어진 것을 특징으로 하는 윤곽선 보정을 이용한 영문/숫자 인식방법.
  2. 제1항에 있어서, 홀은 상측 홀(Up_Hole), 중간 홀(Ct_Hole), 하측 홀(Dn_Hole)과 같이 홀의 위치에 따라 분류한 것을 특징으로 하는 윤곽선 보정을 이용한 영문/숫자 인식방법.
  3. 제1항에 있어서, 콘케이브는 상측 콘케이브(Up_Concave), 하측 콘케이브(Dn_Concave), 좌측 콘케이브(L_Concave), 우측 콘케이브(R_Concave)와 같이 방향 정보에 따라 분류한 것을 특징으로 하는 윤곽선 보정을 이용한 영문/숫자 인식방법.
  4. 제3항에 있어서, 콘케이브의 방향정보는 상,하측 콘케이브는 60도, 좌,우측 콘케이브는 120도의 편차를 두고 구분하도록 한 것을 특징으로 하는 윤곽선 보정을 이용한 영문/숫자 인식방법.
  5. 제4항에 있어서, 상하측 콘케이브는 그의 인접한 콘케이브에 대하여 하나로 인식하도록 한 것을 특징으로 하는 윤곽선 보정을 이용한 영문/숫자 인식방법.
KR1019970034166A 1997-07-22 1997-07-22 윤곽선 정보를 이용한 영문/숫자 인식방법 KR100241447B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970034166A KR100241447B1 (ko) 1997-07-22 1997-07-22 윤곽선 정보를 이용한 영문/숫자 인식방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970034166A KR100241447B1 (ko) 1997-07-22 1997-07-22 윤곽선 정보를 이용한 영문/숫자 인식방법

Publications (2)

Publication Number Publication Date
KR19990011181A KR19990011181A (ko) 1999-02-18
KR100241447B1 true KR100241447B1 (ko) 2000-02-01

Family

ID=19515252

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970034166A KR100241447B1 (ko) 1997-07-22 1997-07-22 윤곽선 정보를 이용한 영문/숫자 인식방법

Country Status (1)

Country Link
KR (1) KR100241447B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100718361B1 (ko) 1999-08-31 2007-05-14 주식회사 팬택앤큐리텔 내부 및 외부 모양정보의 특징정보를 이용한 멀티미디어검색장치 및 그 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100718361B1 (ko) 1999-08-31 2007-05-14 주식회사 팬택앤큐리텔 내부 및 외부 모양정보의 특징정보를 이용한 멀티미디어검색장치 및 그 방법

Also Published As

Publication number Publication date
KR19990011181A (ko) 1999-02-18

Similar Documents

Publication Publication Date Title
Blumenstein et al. A novel feature extraction technique for the recognition of segmented handwritten characters
EP0138079B1 (en) Character recognition apparatus and method for recognising characters associated with diacritical marks
US4850025A (en) Character recognition system
Pal et al. Automatic identification of english, chinese, arabic, devnagari and bangla script line
Pal et al. Automatic separation of words in multi-lingual multi-script Indian documents
US6920247B1 (en) Method for optical recognition of a multi-language set of letters with diacritics
US4811412A (en) Method of a system for analyzing characters
US4491965A (en) Character recognition apparatus
KR100241447B1 (ko) 윤곽선 정보를 이용한 영문/숫자 인식방법
JPS60153574A (ja) 文字読取方法
KR0186172B1 (ko) 문자 인식장치의 접촉문자 분리 및 특징 추출방법
Chiou et al. Recognition of Chinese business cards
KR100480024B1 (ko) 획의두께정보를이용한모음인식방법
KR19990052967A (ko) 윈도우 및 프로젝션 정보를 이용한 한글 인식방법
JP2578767B2 (ja) 画像処理方法
JPS60153575A (ja) 文字読取方法
JP2578768B2 (ja) 画像処理方法
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP2571236B2 (ja) 文字切出し識別判定方法
JPH11134439A (ja) 単語認識方法
JPH0514952B2 (ko)
JPS63269267A (ja) 文字認識方法
KR0175400B1 (ko) 영상 세선화 기법을 이용한 문자의 자간 분리방법
KR960002072A (ko) 영문인식시스템의 접촉문자 분리방법
JPS59109979A (ja) 文字分類処理方式

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070918

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee