KR100540173B1 - 주소기입형식 구분 장치 및 그 방법과 그를 이용한 주소인식 시스템 - Google Patents
주소기입형식 구분 장치 및 그 방법과 그를 이용한 주소인식 시스템 Download PDFInfo
- Publication number
- KR100540173B1 KR100540173B1 KR1020030071032A KR20030071032A KR100540173B1 KR 100540173 B1 KR100540173 B1 KR 100540173B1 KR 1020030071032 A KR1020030071032 A KR 1020030071032A KR 20030071032 A KR20030071032 A KR 20030071032A KR 100540173 B1 KR100540173 B1 KR 100540173B1
- Authority
- KR
- South Korea
- Prior art keywords
- address
- image
- character
- string
- connection element
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/273—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
1. 청구범위에 기재된 발명이 속하는 기술분야
본 발명은 주소기입형식 구분 장치 및 그 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 다수의 문자열로 구성된 무제약 주소 영상이 주어질 때 인쇄체 주소 영상인지 또는 필기체 주소 영상인지를 구분할 수 있는 주소기입형식 구분 장치 및 그 방법과 그를 이용한 주소 인식 시스템을 제공하고자 함.
3. 발명의 해결 방법의 요지
본 발명은, 주소기입형식 구분 장치에 적용되는 주소기입형식 구분 방법에 있어서, 영상 입력기로부터 획득된 영상에 존재하는 명도 레벨의 주소 영상을 이진 주소 영상으로 변환하는 단계; 상기 이진 주소 영상에서 방향 연결성을 갖는 연결요소를 추출하여, 상기 연결요소에서 잡영으로 추정되는 연결요소를 제거하고, 잡영이 제거되고 남아있는 연결요소 중에서 최상위 문자열에 속하는 연결요소를 선택하는 단계; 상기 최상위 문자열에 속하는 연결요소를 문자단위로 병합하여, 문자단위로 병합된 연결요소의 최소인접사각형으로부터 분류를 위한 특징을 추출하는 단계; 및 추출된 폭 크기 및 위치 특징 벡터를 입력으로 받는 다층 신경망을 사용하여 주소 영상의 기입형식을 구분하는 단계를 포함함.
4. 발명의 중요한 용도
본 발명은 주소 인식 시스템 등에 이용됨.
주소기입형식, 연결요소, 최상위 문자열, 주소 영상, 인쇄체 영상, 필기체 영상
Description
도 1 은 일반적인 주소 인식 시스템의 구성 예시도.
도 2 는 본 발명에 따른 주소기입형식 구분 장치가 적용되는 주소 인식 시스템의 일실시예 구성도.
도 3 은 본 발명에 따른 주소기입형식 구분 장치의 일실시예 구성도.
도 4 는 본 발명에 따른 주소기입형식 구분 방법에 대한 일실시예 흐름도.
도 5 는 본 발명에 따른 상기 도 4의 특징 추출 과정을 나타낸 일실시예 상세 설명도.
* 도면의 주요 부분에 대한 부호 설명
31 : 주소 영상 입력부 32 : 영상 이진화부
33 : 연결요소 추출부 34 : 잡영 제거부
35 : 연결요소 선택부 36 : 연결요소 병합부
37 : 특징 추출부 38 : 주소기입형식 분류부
본 발명은 주소 영상의 주소가 기계에 의해서 인쇄된 주소인지 혹은 사람에 의해서 필기된 주소인지를 구분할 수 있는 주소기입형식 구분 장치 및 그 방법과 그를 이용한 주소 인식 시스템에 관한 것으로, 특히 다수의 문자열로 구성된 무제약 주소 영상이 인쇄체 영상인지 혹은 필기체 영상인지를 구분하기 위한 것이다.
본 발명에서 '최상위 문자열'은 주소 영상에서 첫 번째 문자열을 의미한다.
그리고, 영상에서 가로방향을 x축, 세로방향을 y축이라고 하고 영상의 왼쪽 상단의 좌표를 (0,0)이라고 정의할 때, '스카이 라인'은 각 x 좌표상에 존재하는 검은 화소들 중 최소 y값을 x 좌표 기준 왼쪽에서 오른쪽 방향으로 정렬해 놓은 y 좌표 리스트를 의미한다.
본 발명에서 '최상위 문자열'은 주소 영상에서 첫 번째 문자열을 의미한다.
그리고, 영상에서 가로방향을 x축, 세로방향을 y축이라고 하고 영상의 왼쪽 상단의 좌표를 (0,0)이라고 정의할 때, '스카이 라인'은 각 x 좌표상에 존재하는 검은 화소들 중 최소 y값을 x 좌표 기준 왼쪽에서 오른쪽 방향으로 정렬해 놓은 y 좌표 리스트를 의미한다.
일반적으로, 주소 인식 시스템은 도 1에 도시된 바와 같이 주소 영역 추출부(11), 문자열 및 문자 분리부(12), 문자 인식부(13), 주소 해석부(14)로 구성된다.
주소 인식 시스템의 동작을 살펴보면, 먼저 입력 영상에 대해 주소 영역 추출부(11)에서 주소 영역을 추출하며, 인식을 위해서 문자열 및 문자 분리부(12)에서 주소 영상을 문자열 단위로 분할하고 다시 각 문자열 영상을 문자 단위로 분할한다.
이후, 문자 단위로 분할된 각 문자 영상에 대하여 문자 인식부(13)에서 인식을 수행하며, 주소 해석부(14)에서 문자 인식 결과들과 주소 사전 정보를 이용해서 주소를 해석한다.
그런데, 문자열 및 문자 분리부(12)에서의 문자열 및 문자 분리 알고리즘 그리고 문자 인식부(13)에서의 문자 인식 알고리즘은 인쇄체 영상과 필기체 영상에 대하여 각각 다르게 개발될 수밖에 없다. 이는 인쇄체 영상과 필기체 영상이 갖는 패턴이 매우 다른 양상을 나타내기 때문이다. 따라서, 인쇄체 영상과 필기체 영상을 구분하지 않고 모두 입력으로 전달받아서 처리하는 주소 인식 시스템은 주소 영역 추출 후, 추출된 주소가 인쇄체 영상인지 또는 필기체 영상인지를 구분해 주는 과정이 반드시 필요하게 된다.
이에, 본 발명에서는 후술될 도 2와 같이 인쇄체 영상과 필기체 영상을 모두 입력으로 전달받는 주소 인식 시스템에서 주소기입형식의 구분을 통해 인쇄체 영상과 필기체 영상을 구분하고자 한다.
참고적으로, 인쇄체 영상과 필기체 영상을 구분하는 종래 기술은 1998년 9월에 국외 논문지인 "Pattern Recognition"에 게재된 "Classification of Machine-Printed and Handwritten Texts Using Character Block Layout Variance(저자 : K.Fan, L.Wang, Y.Tu / Vol.31, No.9 / pp1275-1284)(이하, 제1 선행기술이라 함)"와 1993년에 국외 학술발표대회인 ICDAR(International Conference on Document Analysis and Recognition)에서 발표된 "Writing Style Detection by Statistical Combination of Classifiers in Form Reader Applications(저자 : J.Franke, M, Oberlander / pp581-584)(이하, 제2 선행기술이라 함)"과, 미합중국특허등록번호 제4,998,626호(Mail Processing Machine)(1991. 5. 12 등록)(이하, 제3 선행기술이라 함) 등에 개시되어 있다.
상기 제1 선행기술은 공간 특징과 문자 블록 레이아웃 분산(character block layout variance)을 사용하여 다수의 문자열로 구성된 문자열 블록 영상이 인쇄체 영상인지 또는 필기체 영상인지를 구분하는 방법을 나타내고 있다.
이를 구체적으로 살펴보면, 먼저 입력받은 이진 문자열 블록 영상을 단순 X-Y Cut 알고리즘(수직 및 수평 투영 알고리즘)을 사용하여 문자열 및 문자 단위로 분리한다. 이후에, 문자 단위로까지의 분리가 이루어지면, 문자의 높이 및 인접한 문자간의 거리 특징을 기반으로 문자열 영상을 몇 개의 문자열 부분 영상으로 나눈다. 그리고, 임계치보다 작은 문자가 있는 곳이나 임계치보다 큰 거리를 갖는 문자 사이에서 하나의 문자열 영상을 나누어 다수의 문자열 영상을 생성한다. 다음으로, 문자열 부분 영상에 대하여 문자 블록 레이아웃 분산을 계산하여 임계치보다 작으면 인쇄체 영상으로 분류하고, 그렇지 않으면 필기체 영상으로 분류한다.
여기서, 인쇄체 영상과 필기체 영상을 구분하는 단위는 생성된 문자열 부분 영상이다. 그리고, 문자 블록 레이아웃 분산은 문자열 부분 영상내에 있는 문자들이 임의의 직선상에 얼마나 반듯하게 기입되어 있는지를 나타내는 특징이다.
비록, 상기 제1 선행기술은 단순 X-Y Cut 알고리즘을 사용하여 문자열 블록 영상을 문자열 및 문자 단위로 분할후 문자 영상들을 병합하여 문자열 부분 영상을 생성하였으나, 필기체 문자열 블록 영상이나 또는 인쇄체 문자열 블록 영상일지라도 기울어짐이 있는 문자열 영상일 경우에는, 단순 X-Y Cut 알고리즘을 사용해서 문자열 블록 영상을 문자열 및 문자 영상 단위로 분리하기 어려운 단점이 있다. 즉, 상기 제1 선행기술은 기울어짐이 없거나 문자열 및 문자간의 접촉이 없는 문자열 블록 영상을 대상으로 한다. 그런데, 상기 방법에서 입력된 문자열 블록 영상이 완벽하게 문자 단위로 분리되지 않으면, 이후의 과정들은 유효하지 않다.
한편, 상기 제2 선행기술은 형식 문서의 필드에 채워진 데이터가 인쇄체인지 또는 필기체인지 구분하기 위한 방법을 나타내고 있다.
여기에서는 이진화된 필드 데이터를 연결요소들의 최소인접사각형으로 표현하고, 그들로부터 네 종류의 기하학적 특징을 계산한 다음, 서로 다른 특징에 특화된 네 개의 통계적 분류기를 사용하여 분류를 시도하였으며, 각 분류기의 결과를 결합하기 위하여 또 다른 통계적 분류기를 사용하였다. 채택된 통계적 분류기는 Fisher의 선형 판별함수이다. 네 종류의 특징은 최소인접사각형들의 폭과 높이, 인접한 최소인접사각형 사이의 최소 거리 및 중심 거리 히스토그램이다.
그런데, 상기 제2 선행기술은 연결요소가 하나의 문자와 대응되는 문자열 영상의 구분에 유효하나, 인쇄체 문자열 영상일지라도 반드시 하나의 연결요소가 하나의 문자와 대응된다고 할 수는 없다. 예를 들면, 한글의 경우 "이"는 "o"과 "l"의 두 개의 연결요소로 나누어지며, 또 자간의 크기가 크지 않게 인쇄되면 두개의 문자 일부분이 접촉되어 하나의 연결요소로 추출될 수 있다. 이와 같은 경우에 연결요소는 하나의 문자와 대응되지 않으며, 따라서 인쇄체 영상과 필기체 영상을 구분하는데 유효하지 않다. 또한, 상기 제2 선행기술은 다수의 문자열로 구성된 영상이 아닌 하나의 문자열로 구성된 영상에서 인쇄체 영상과 필기체 영상의 구분을 수행함으로써 다수의 문자열로 구성된 주소 영상에 바로 적용하기 어렵운 단점이 있다.
다른 한편, 상기 제3 선행기술은 인쇄체 우편물과 필기체 우편물을 분류해 주는 방법을 나타내고 있다.
여기에서는 인쇄체 우편물과 필기체 우편물을 분류하기 위하여 스캐너에 의 해서 획득된 우편물 영상으로부터 수취인 주소 영역을 추출한 후, 수취인 주소 영역을 문자열 단위로 분할하였다. 그리고, 분할된 문자열 중 가장 정보가 많이 담겨져 있다고 고려되는 마지막 두 문자열 영상을 우편물을 분류하기 위한 대상으로 취하였다. 이때, 분류를 위한 특징은 문자 단위로 분할된 영상에서 측정된다. 상기 제3 선행기술에서 주소 영상을 문자열 및 문자 단위로 분할하기 위하여 사용된 알고리즘은 단순 X-Y Cut 알고리즘(수직 및 수평 투영 알고리즘)이다. 그 다음, 각 문자 영상으로부터 총 6개의 특징(문자의 높이, 폭, 피치, 영역의 크기, 최하위 x좌표, 최하위 y좌표)과 문자열로부터 2개의 특징(문자열 기울기의 차이, 문자열 간의 간격)이 측정되었다. 각 문자 영상으로부터 측정된 특징에 대하여 분산을 계산하며, 각 특징의 분산의 합과 문자열로부터 계산된 특징 값을 합하여 그 값이 작으면 인쇄체 영상으로 분류하고, 그렇지 않으면 필기체 영상으로 분류하였다.
그런데, 상기 제3 선행기술 역시 상기 제1 선행기술이 갖는 문제점과 동일하게, 단순 X-Y cut 알고리즘을 사용해서는 필기에 문자열 블록 영상이나 또는 기울어짐이 있는 인쇄체 문자열 블록 영상을 문자열 및 문자 영상 단위로 분리하기가 불가능하다. 상기 방법에서 입력된 문자열 블록 영상이 문자열 및 문자 단위로 분리되지 않으면, 상기 방법에서 제안된 특징들은 우편물의 분류에 유효한 특징이 되지 않는다.
본 발명은, 상기와 같은 제반 문제점을 해결하기 위하여 제안된 것으로, 다 수의 문자열로 구성된 무제약 주소 영상이 주어질 때 인쇄체 주소 영상인지 또는 필기체 주소 영상인지를 구분할 수 있는 주소기입형식 구분 장치 및 그 방법과 그를 이용한 주소 인식 시스템을 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명은, 주소기입형식 구분 장치에 있어서, 영상 입력기로부터 획득된 영상에 존재하는 명도 레벨의 주소 영상을 획득하기 위한 주소 영상 입력수단; 상기 주소 영상을 이진 주소 영상으로 변환하기 위한 영상 이진화수단; 상기 이진 주소 영상에서 방향 연결성을 갖는 연결요소를 추출하기 위한 연결요소 추출수단; 크기 및 화소 밀도 정도를 바탕으로, 상기 연결요소에서 잡영으로 추정되는 연결요소를 제거하기 위한 잡영 제거수단; 잡영이 제거되고 남아있는 연결요소 중에서 최상위 문자열에 속하는 연결요소를 선택하기 위한 연결요소 선택수단; 상기 최상위 문자열에 속하는 연결요소를 문자단위로 병합하기 위한 연결요소 병합수단; 문자단위로 병합된 연결요소의 각 그룹을 최소인접사각형으로 표현한 후, 최소인접사각형으로부터 분류를 위한 특징을 추출하기 위한 특징 추출수단; 및 상기 특징 추출수단으로부터 제공받은 폭 크기 및 위치 특징 벡터를 입력으로 받는 다층 신경망을 사용하여 주소 영상의 기입형식을 구분하기 위한 주소기입형식 분류수단을 포함하여 이루어진 것을 특징으로 한다.
그리고, 본 발명은 주소기입형식 구분 장치에 적용되는 주소기입형식 구분 방법에 있어서, 영상 입력기로부터 획득된 영상에 존재하는 명도 레벨의 주소 영상을 이진 주소 영상으로 변환하는 단계; 상기 이진 주소 영상에서 방향 연결성을 갖는 연결요소를 추출하여, 상기 연결요소에서 잡영으로 추정되는 연결요소를 제거하고, 잡영이 제거되고 남아있는 연결요소 중에서 최상위 문자열에 속하는 연결요소를 선택하는 단계; 상기 최상위 문자열에 속하는 연결요소를 문자단위로 병합하여, 문자단위로 병합된 연결요소의 최소인접사각형으로부터 분류를 위한 특징을 추출하는 단계; 및 추출된 폭 크기 및 위치 특징 벡터를 입력으로 받는 다층 신경망을 사용하여 주소 영상의 기입형식을 구분하는 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은 주소 인식 시스템에 있어서, 입력 영상으로부터 주소 영역을 추출하기 위한 주소 영역 추출수단; 상기 주소 영역 추출수단에서 추출된 주소 영상의 최상위 문자열에 속하는 연결요소를 선택하여 주소기입형식 구분의 대상으로 취하며, 최상위 문자열에 속하는 연결요소들을 문자단위로 병합한 후 이들로부터 폭 크기 특징과 위치 특징을 계산하여 주소 영상의 기입형식을 구분하기 위한 주소기입형식 구분수단; 주소기입형식이 구분된 인쇄체/필기체 주소 영상을 문자열 단위로 분할하고 다시 각 문자열 영상을 문자 단위로 분할하기 위한 문자열 및 문자 분리수단; 문자 단위로 분할된 각 인쇄체/필기체 문자 영상에 대하여 인식을 수행하기 위한 문자 인식수단; 및 상기 문자 인식수단에서의 문자 인식 결과와 주소 사전을 기반으로 주소를 해석하기 위한 주소 해석수단을 포함하여 이루어진 것을 특징으로 한다.
본 발명은 다수의 문자열로 구성된 무제약 주소 영상이 인쇄체 영상인지 또 는 필기체 영상인지 구분하고자 한다.
이를 위해, 본 발명은 무제약 주소 영상에서 문자열 단위로의 분할의 어려움을 피하기 위하여, 주소 영상의 최상위 문자열에 속하는 연결요소를 선택하여 주소기입형식 구분의 대상으로 취하였으며, 최상위 문자열에 속하는 연결요소들을 대략적인 문자단위로 병합한 후 이들로부터 폭 크기 특징과 위치 특징을 계산하여 주소 영상이 인쇄체 영상인지 또는 필기체 영상인지를 판별한다.
따라서, 본 발명은 무제약 주소 영상에 대해서도 인쇄체 영상과 필기체 영상을 구분할 수 있고, 이때 대략적인 문자 단위로 연결요소를 병합하는 과정을 수행함으로써 연결요소가 하나의 문자와 대응될 필요가 없다. 또한, 본 발명은 문자의 폭이 비슷한 언어로 작성된 주소 영상에 더욱 효과적이다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 2 는 본 발명에 따른 주소기입형식 구분 장치가 적용되는 주소 인식 시스템의 일실시예 구성도이다.
주소 인식 시스템은 인쇄체와 필기체를 구분하지 않고 입력으로 전달받아서 처리한다. 그러나, 주소 인식 시스템에서 동일한 기능을 수행하더라도 인쇄체 영상을 처리하는 알고리즘과 필기체 영상을 처리하는 알고리즘은 매우 상이하게 개발되기 때문에, 인쇄체 영상과 필기체 영상의 구분 작업이 반드시 필요하다.
본 발명의 핵심을 담당하는 인쇄체 영상과 필기체 영상을 구분해 주는 주소 기입형식 구분부(본 발명의 주소기입형식 구분 장치)는, 주소 영역 추출부(21)와 문자열 및 문자 분리부(23,25) 사이에 위치한다.
도 2에 도시된 바와 같이, 본 발명에 따른 주소기입형식 구분부(주소기입형식 구분 장치)(22)가 적용되는 주소 인식 시스템은, 입력 영상으로부터 주소 영역을 추출하기 위한 주소 영역 추출부(21)와, 주소 영역 추출부(21)에서 추출된 주소 영상의 최상위 문자열에 속하는 연결요소를 선택하여 주소기입형식 구분의 대상으로 취하며, 최상위 문자열에 속하는 연결요소들을 대략적으로 문자단위로 병합한 후 이들로부터 폭 크기 특징과 위치 특징을 계산하여 주소 영상이 인쇄체 영상인지 혹은 필기체 영상인지를 판별하기 위한 주소기입형식 구분부(22)와, 주소기입형식이 구분된 인쇄체 주소 영상을 문자열 단위로 분할하고 다시 각 문자열 영상을 문자 단위로 분할하기 위한 인쇄체 문자열 및 문자 분리부(23)와, 문자 단위로 분할된 각 인쇄체 문자 영상에 대하여 인식을 수행하기 위한 인쇄체 문자 인식부(24)와, 주소기입형식이 구분된 필기체 주소 영상을 문자열 단위로 분할하고 다시 각 문자열 영상을 문자 단위로 분할하기 위한 필기체 문자열 및 문자 분리부(25)와, 문자 단위로 분할된 각 필기체 문자 영상에 대하여 인식을 수행하기 위한 필기체 문자 인식부(26)와, 인쇄체/필기체 문자 인식부(24,26)에서의 문자 인식 결과와 주소 사전을 기반으로 주소를 해석하기 위한 주소 해석부(27)를 포함한다.
그럼, 주소기입형식 구분부(22)에 대해 보다 상세하게 살펴보기로 한다.
도 3 은 본 발명에 따른 주소기입형식 구분 장치의 일실시예 구성도이다.
도 3에 도시된 바와 같이, 본 발명에 따른 주소기입형식 구분 장치(주소기입 형식 구분부(22))는, 영상 입력기로부터 획득된 영상에 존재하는 명도 레벨의 주소 영상을 획득하기 위한 주소 영상 입력부(31)와, 주소 영상을 이진 주소 영상(0과 1의 값)으로 변환하기 위한 영상 이진화부(32)와, 이진 주소 영상에서 방향 연결성을 갖는 연결요소를 추출하기 위한 연결요소 추출부(33)와, 크기 및 화소 밀도 정도를 바탕으로, 연결요소에서 잡영으로 추정되는 연결요소를 제거하기 위한 잡영 제거부(34)와, 잡영이 제거되고 남아있는 연결요소 중에서 최상위 문자열에 속하는 연결요소를 선택하기 위한 연결요소 선택부(35)와, 최상위 문자열에 속하는 연결요소를 문자단위로 병합하기 위한 연결요소 병합부(36)와, 문자단위로 병합된 연결요소의 각 그룹을 최소인접사각형으로 표현한 후, 최소인접사각형으로부터 분류를 위한 특징을 추출하기 위한 특징 추출부(37)와, 특징 추출부(37)로부터 제공받은 폭 크기 및 위치 특징 벡터를 입력으로 받는 다층 신경망을 사용하여 주소 영상의 기입형식(인쇄체 영상 혹은 필기체 영상)을 구분하기 위한 주소기입형식 분류부(38)를 포함한다.
주소 영상 입력부(31)는 스캐너 또는 카메라 등의 영상 입력기로부터 획득된 영상에 존재하는 명도 레벨의 주소 영상을 영상 이진화부(32)에 제공한다.
영상 이진화부(32)는 명도 레벨의 주소 영상을 Otsu의 전역적 방법을 사용해서 이진화 수행하여, 0과 1의 값을 갖는 이진 영상으로 변환한 후, 연결요소 추출부(33)에 제공한다.
연결요소 추출부(33)는 이진 주소 영상으로부터 8방향 연결성를 가지는 연결요소를 추출하여 잡영 제거부(34)에 제공한다. 여기서, 8방향 연결성이란, 중심 화 소를 기준으로 8방향 중에 화소가 존재하면, 중심 화소와 상기 화소는 연결성을 가짐을 의미한다.
잡영 제거부(34)에서는 크기 및 화소 밀도 정도에 따라 연결요소들 중 잡영으로 추정되는 연결요소들을 제거한 후, 남아있는 연결요소들을 연결요소 선택부(35)에 제공한다. 이때, 잡영으로 추정되는 연결요소들은 화소의 수가 전체 연결요소의 평균 화소수의 5% 이하이거나, 연결요소의 최소인접사각형의 면적이 화소 기준 102 이하인 연결요소이다. 상기된 임계치는 200dpi 해상도 영상에 적용된 임계치이다.
연결요소 선택부(35)는 주소 영상의 최상위 문자열에 속한다고 추정되는 연결요소(특징 추출 대상이 되는 연결요소)들을 선택하여 연결요소 병합부(36)에 제공한다. 즉, 주소기입형식 구분을 위한 영상의 단위로 최상위 문자열에 속하는 연결요소들을 선택한다. 이 경우 문자열간의 접촉에 영향을 덜 받으면서 동일한 문자열에 속하는 연결요소를 비교적 용이하게 추출할 수 있다는 잇점이 있다. 최상위 문자열에 속하는 연결요소를 추출하기 위하여 주소 영상에서 스카이 라인을 형성하는 연결요소를 추출한다. 그러나, 단어와 단어 사이에 공백이 존재하거나, 최상위 문자열의 아래 문자열이 최상위 문자열 보다 긴 경우, 최상위 문자열의 아래 문자열에 속하는 연결요소들이 추출될 수 있다. 따라서, 최상위 문자열의 아래 문자열에 속하는 연결요소들을 제거하기 위하여 남아 있는 연결요소의 최상위 y값의 평균보다 아래에 존재하는 연결요소를 제거한다.
연결요소 병합부(36)는 잡영이 제거되고 남아있는 연결요소들을 대략적인 문 자단위로 병합하여, 특징 추출부(37)에 제공한다. 이때, 수평방향으로 주어진 임계치 이내의 거리에 있는 연결요소들을 병합하거나, 수직방향으로 주어진 임계치 이상으로 겹침이 발생한 연결요소들을 병합한다. 상기 임계치들은 훈련 데이터를 기반으로 결정될 수 있다.
특징 추출부(37)에서는 병합된 연결요소들의 최소인접사각형들로부터 주소기입형식 구분을 위한 특징을 추출하여 주소기입형식 분류부(38)에 제공한다. 이때, 사용되는 특징은 문자의 폭 크기에 대한 특징과 문자의 위치에 관한 특징이다.
상기 문자의 폭 크기에 대한 특징 벡터는 N개의 최소인접사각형들로부터 하기의 [수학식 1]을 사용하여 계산된다.
여기서, N은 연결요소 병합부(36)에서 얻어진 병합된 연결요소의 최소인접사각형 개수이다. 그리고, wi는 폭의 크기를 의미하며, 는 i번째 최소인접사각형 Bi의 최대 x 좌표값이며, 은 최소 x 좌표값이다.
폭 크기 특징 벡터는 상기 [수학식 1]을 사용하여 계산된 N개의 폭 크기값을 폭 크기 히스토그램의 해당 계급구간에 누적시킴으로써 계산된다. 훈련 데이터를 사용하여 계급구간의 개수와 계급구간의 시작점과 끝점이 결정되며, 이때 계급구간의 개수는 폭 크기 특징 벡터의 차원이 된다. 폭 크기 특징 벡터는 각 원소의 합이 1이 되도록 정규화된다.
한편, 문자의 위치에 관한 특징 벡터는 N개의 최소인접사각형들로부터 하기의 [수학식 2]를 사용하여 계산된다.
여기서, xi는 i번째 최소인접사각형 Bi의 중앙 x 좌표값이며, yi는 최상위 y 좌표값이다. 그리고, i번째 최소인접사각형 Bi의 위치 특징 pi는 xi와 첫 번째 최소인접사각형의 최상위 중점과 N번째 최소인접사각형의 최상위 중점을 연결하는 직선과의 최소 거리를 의미한다(도 5 참조). 단순히 최상위 중점만을 사용하여 위치 특징을 계산하지 않고 상기 직선과의 거리를 이용하여 위치 특징을 계산한 이유는, 문자열의 기울어짐에 영향을 받지 않는 위치 특징을 계산하기 위함이다. 참고로, 폭 크기 특징은 문자열의 기울어짐에 거의 영향을 받지 않는다.
위치 특징 벡터는 상기 [수학식 2]를 사용하여 계산된 N개의 위치 값을 위치 히스토그램의 해당 계급구간에 누적시킴으로써 계산된다. 폭 크기 특징 벡터를 계 산하는 방식과 동일하게 훈련 데이터를 사용하여 계급구간의 개수와 계급구간의 시작점과 끝점이 결정되며, 이때 계급구간의 개수는 위치 특징 벡터의 차원이 된다. 위치 특징 벡터는 각 원소의 합이 1이 되도록 정규화된다.
주소기입형식 분류부(38)는 특징 추출부(37)로부터 제공받은 폭 크기 및 위치 특징 벡터를 모두 입력으로 받는 다층 신경망을 사용하여 주소 영상이 인쇄체 영상인지 또는 필기체 영상인지를 구분한다. 다층 신경망의 구조는 입력층, 하나의 은닉층, 그리고 출력층으로 구성된다. 입력층의 노드의 개수는 폭 크기 특징 벡터의 차원과 위치 특징 벡터의 차원의 합이며, 은닉층의 노드의 개수는 실험에 의하여 결정되며, 출력층의 노드의 개수는 2개이다. 하나는 인쇄체 영상을 나타내고, 다른 하나는 필기체 영상을 나타낸다.
도 4 는 본 발명에 따른 주소기입형식 구분 방법에 대한 일실시예 흐름도이다.
먼저, 주소 영상 입력부(31)가 스캐너 또는 카메라 등의 영상 입력기로부터 획득된 영상에 존재하는 명도 레벨의 주소 영상을 영상 이진화부(32)에 제공한다(401).
이후, 영상 이진화부(32)에서 명도 레벨의 주소 영상을 Otsu의 전역적 방법을 사용해서 이진화 수행하여, 0과 1의 값을 갖는 이진 영상으로 변환한 후, 연결요소 추출부(33)에 제공한다(402).
다음으로, 연결요소 추출부(33)가 이진 주소 영상으로부터 8방향 연결성를 가지는 연결요소를 추출하여, 잡영 제거부(34)에 제공한다(403).
이어서, 잡영 제거부(34)에서 크기 및 화소 밀도 정도에 따라 연결요소들 중 잡영으로 추정되는 연결요소들을 제거한 후, 남아있는 연결요소들을 연결요소 선택부(35)에 제공한다(404).
이후에, 연결요소 선택부(35)가 주소 영상의 최상위 문자열에 속한다고 추정되는 연결요소(특징 추출 대상이 되는 연결요소)들을 선택하여, 연결요소 병합부(36)에 제공한다(405).
이후, 연결요소 병합부(36)에서 잡영이 제거되고 남아있는 연결요소들을 대략적인 문자단위로 병합하여, 특징 추출부(37)에 제공한다(406).
다음으로, 특징 추출부(37)가 병합된 연결요소들의 최소인접사각형들로부터 주소기입형식 구분을 위한 특징을 추출하여, 주소기입형식 분류부(38)에 제공한다(407).
마지막으로, 주소기입형식 분류부(38)에서 특징 추출부(37)로부터 제공받은 폭 크기 및 위치 특징 벡터를 모두 입력으로 받는 다층 신경망을 사용하여 주소 영상이 인쇄체 영상인지 또는 필기체 영상인지를 구분한다(408).
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식 을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 무제약 주소 영상을 인쇄체 영상인지 또는 필기체 영상인지를 구분할 수 있어, 인쇄체 영상과 필기체 영상을 모두 처리하는 주소 인식 시스템에서 효과적으로 쓰일 수 있으며, 주소 영상 뿐만 아니라 임의의 다수의 문자열로 이루어진 문자열 블록 영상, 그리고 하나의 문자열 영상에 대해서도 응용 가능한 효과가 있다. 즉, 다수의 문자로 구성된 임의의 인쇄체 영상과 필기체 영상을 모두 입력으로 받아서 인식을 시도하고자 하는 대다수 문자 인식 관련 시스템에서 효과적으로 사용될 수 있다.
또한, 본 발명은 대략적으로 문자 단위로 연결요소를 병합하는 과정을 수행함으로써 연결요소가 하나의 문자와 대응될 필요가 없고, 문자의 폭이 비슷한 언어로 작성된 주소 영상에 더욱 효과적이다.
Claims (10)
- 주소기입형식 구분 장치에 있어서,영상 입력기로부터 획득된 영상에 존재하는 명도 레벨의 주소 영상을 획득하기 위한 주소 영상 입력수단;상기 주소 영상을 이진 주소 영상으로 변환하기 위한 영상 이진화수단;상기 이진 주소 영상에서 방향 연결성을 갖는 연결요소를 추출하기 위한 연결요소 추출수단;크기 및 화소 밀도 정도를 바탕으로, 상기 연결요소에서 잡영으로 추정되는 연결요소를 제거하기 위한 잡영 제거수단;잡영이 제거되고 남아있는 연결요소 중에서 최상위 문자열에 속하는 연결요소를 선택하기 위한 연결요소 선택수단;상기 최상위 문자열에 속하는 연결요소를 문자단위로 병합하기 위한 연결요소 병합수단;문자단위로 병합된 연결요소의 각 그룹을 최소인접사각형으로 표현한 후, 최소인접사각형으로부터 분류를 위한 특징을 추출하기 위한 특징 추출수단; 및상기 특징 추출수단으로부터 제공받은 폭 크기 및 위치 특징 벡터를 입력으로 받는 다층 신경망을 사용하여 주소 영상의 기입형식을 구분하기 위한 주소기입형식 분류수단을 포함하는 주소기입형식 구분 장치.
- 제 1 항에 있어서,상기 연결요소 선택수단은,잡영이 제거되고 남아있는 연결요소 중에서 주소기입형식 구분을 위한 영상의 단위로 주소 영상의 최상위 문자열에 속하는 연결요소들만을 선택하되, 최상위 문자열에 속하는 연결요소들을 선택하기 위하여, 주소 영상에서 스카이 라인을 형성하는 연결요소를 추출하고, 주소 영상에서 스카이 라인을 형성하는 연결요소 중 y값의 평균(여기서, y값의 평균은 주소 영상에서 스카이 라인을 형성하는 연결요소들의 y값의 평균임)보다 아래에 존재하는 연결요소를 제거하는 것을 특징으로 하는 주소기입형식 구분 장치.
- 제 1 항에 있어서,상기 연결요소 병합수단은,잡영이 제거되고 남아있는 연결요소들을 대략적인 문자단위로 병합하되, 수평방향으로 주어진 임계치 이내의 거리에 있는 연결요소들을 병합하거나, 수직방향으로 주어진 임계치 이상으로 겹침이 발생한 연결요소들을 병합하는 것을 특징으로 하는 주소기입형식 구분 장치.
- 제 4 항에 있어서,상기 폭 크기 특징 벡터를 계산하기 위하여 상기 최소인접사각형들로부터 계산된 폭 크기값을 폭 크기 히스토그램의 해당 계급구간에 누적하여 계산하고, 상기 폭 크기 히스토그램의 계급구간의 시작점과 끝점 그리고 계급구간의 개수는 훈련 데이터를 사용하여 결정하며, 상기 폭 크기 히스토그램 각각을 원소의 합이 1이 되도록 정규화하여 사용하는 것을 특징으로 하는 주소기입형식 구분 장치.
- 제 6 항에 있어서,상기 위치 특징 벡터를 계산하기 위하여 상기 최소인접사각형들로부터 계산된 위치값을 위치 히스토그램의 해당 계급구간에 누적하여 계산하고, 상기 위치 히스토그램의 계급구간의 시작점과 끝점 그리고 계급구간의 개수는 훈련 데이터를 사용하여 결정하며, 상기 위치 히스토그램 각각을 원소의 합이 1이 되도록 정규화하여 사용하는 것을 특징으로 하는 주소기입형식 구분 장치.
- 주소기입형식 구분 장치에 적용되는 주소기입형식 구분 방법에 있어서,영상 입력기로부터 획득된 영상에 존재하는 명도 레벨의 주소 영상을 이진 주소 영상으로 변환하는 단계;상기 이진 주소 영상에서 방향 연결성을 갖는 연결요소를 추출하여, 상기 연결요소에서 잡영으로 추정되는 연결요소를 제거하고, 잡영이 제거되고 남아있는 연결요소 중에서 최상위 문자열에 속하는 연결요소를 선택하는 단계;상기 최상위 문자열에 속하는 연결요소를 문자단위로 병합하여, 문자단위로 병합된 연결요소의 최소인접사각형으로부터 분류를 위한 특징을 추출하는 단계; 및추출된 폭 크기 및 위치 특징 벡터를 입력으로 받는 다층 신경망을 사용하여 주소 영상의 기입형식을 구분하는 단계를 포함하는 주소기입형식 구분 방법.
- 주소 인식 시스템에 있어서,입력 영상으로부터 주소 영역을 추출하기 위한 주소 영역 추출수단;상기 주소 영역 추출수단에서 추출된 주소 영상의 최상위 문자열에 속하는 연결요소를 선택하여 주소기입형식 구분의 대상으로 취하며, 최상위 문자열에 속하는 연결요소들을 문자단위로 병합한 후 이들로부터 폭 크기 특징과 위치 특징을 계 산하여 주소 영상의 기입형식을 구분하기 위한 주소기입형식 구분수단;주소기입형식이 구분된 인쇄체/필기체 주소 영상을 문자열 단위로 분할하고 다시 각 문자열 영상을 문자 단위로 분할하기 위한 문자열 및 문자 분리수단;문자 단위로 분할된 각 인쇄체/필기체 문자 영상에 대하여 인식을 수행하기 위한 문자 인식수단; 및상기 문자 인식수단에서의 문자 인식 결과와 주소 사전을 기반으로 주소를 해석하기 위한 주소 해석수단을 포함하는 주소 인식 시스템.
- 제 9 항에 있어서,상기 주소기입형식 구분수단은,상기 주소 영역 추출수단으로부터 획득된 영상에 존재하는 명도 레벨의 주소 영상을 획득하기 위한 주소 영상 입력수단;상기 주소 영상을 이진 주소 영상으로 변환하기 위한 영상 이진화수단;상기 이진 주소 영상에서 방향 연결성을 갖는 연결요소를 추출하기 위한 연결요소 추출수단;크기 및 화소 밀도 정도를 바탕으로, 상기 연결요소에서 잡영으로 추정되는 연결요소를 제거하기 위한 잡영 제거수단;잡영이 제거되고 남아있는 연결요소 중에서 최상위 문자열에 속하는 연결요 소를 선택하기 위한 연결요소 선택수단;상기 최상위 문자열에 속하는 연결요소를 문자단위로 병합하기 위한 연결요소 병합수단;문자단위로 병합된 연결요소의 각 그룹을 최소인접사각형으로 표현한 후, 최소인접사각형으로부터 분류를 위한 특징을 추출하기 위한 특징 추출수단; 및상기 특징 추출수단으로부터 제공받은 폭 크기 및 위치 특징 벡터를 입력으로 받는 다층 신경망을 사용하여 주소 영상의 기입형식을 구분하기 위한 주소기입형식 분류수단을 포함하는 주소 인식 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030071032A KR100540173B1 (ko) | 2003-10-13 | 2003-10-13 | 주소기입형식 구분 장치 및 그 방법과 그를 이용한 주소인식 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030071032A KR100540173B1 (ko) | 2003-10-13 | 2003-10-13 | 주소기입형식 구분 장치 및 그 방법과 그를 이용한 주소인식 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050035610A KR20050035610A (ko) | 2005-04-19 |
KR100540173B1 true KR100540173B1 (ko) | 2006-01-10 |
Family
ID=37238988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030071032A KR100540173B1 (ko) | 2003-10-13 | 2003-10-13 | 주소기입형식 구분 장치 및 그 방법과 그를 이용한 주소인식 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100540173B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308058B (zh) * | 2020-10-25 | 2023-10-24 | 北京信息科技大学 | 一种手写字符的识别方法 |
-
2003
- 2003-10-13 KR KR1020030071032A patent/KR100540173B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR20050035610A (ko) | 2005-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lehal et al. | A Gurmukhi script recognition system | |
Cao et al. | Text/graphics separation in maps | |
Shi et al. | Line separation for complex document images using fuzzy runlength | |
Shi et al. | A steerable directional local profile technique for extraction of handwritten arabic text lines | |
Kumar et al. | Segmentation of isolated and touching characters in offline handwritten Gurmukhi script recognition | |
Pal et al. | Automatic identification of english, chinese, arabic, devnagari and bangla script line | |
Pal et al. | Identification of different script lines from multi-script documents | |
US6920247B1 (en) | Method for optical recognition of a multi-language set of letters with diacritics | |
Suen et al. | Bank check processing system | |
Lehal et al. | Feature extraction and classification for OCR of Gurmukhi script | |
Garlapati et al. | A system for handwritten and printed text classification | |
Boulid et al. | Segmentation of Arabic handwritten documents into text lines using watershed transform | |
Vijay Kumar et al. | Machine recognition of printed Kannada text | |
Verma et al. | A novel approach for structural feature extraction: contour vs. direction | |
US7072514B1 (en) | Method of distinguishing handwritten and machine-printed images | |
Indira et al. | Kannada character recognition system a review | |
Sas et al. | Three-stage method of text region extraction from diagram raster images | |
Shakunthala et al. | Enhanced text line segmentation and skew estimation for handwritten Kannada document | |
KR100540173B1 (ko) | 주소기입형식 구분 장치 및 그 방법과 그를 이용한 주소인식 시스템 | |
Kandan et al. | A robust two level classification algorithm for text localization in documents | |
Okun et al. | A survey of texture-based methods for document layout analysis | |
Srinivas et al. | An overview of OCR research in Indian scripts | |
Kamble et al. | Handwritten marathi basic character recognition using statistical method | |
Haraty et al. | Segmenting handwritten Arabic text | |
Kanoun et al. | Script identification for arabic and latin printed and handwritten documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121129 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20131128 Year of fee payment: 9 |
|
LAPS | Lapse due to unpaid annual fee |