KR100919497B1

KR100919497B1 - 이미지에 포함되는 한글 문자를 인식하기 위하여 자소분할하는 방법 및 컴퓨터 판독 가능한 기록 매체

Info

Publication number: KR100919497B1
Application number: KR1020080071395A
Authority: KR
Inventors: 정희화
Original assignee: 엔에이치엔(주)
Priority date: 2008-07-22
Filing date: 2008-07-22
Publication date: 2009-09-28

Abstract

본 발명은 이미지에 포함되는 한글 문자를 인식하기 위하여 자소를 분할하는 방법 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다. 본 발명의 일 태양에 따르면, 이미지에 포함된 한글 문자로서, 초성, 세로로 긴 세로 중성, 가로로 긴 가로 중성, 종성 중 적어도 두 개로 구성된 한글 문자의 자소를 분할하기 위한 방법으로서, 한글 문자를 구조적 특성에 따라 다양한 유형(가령, 20 유형)으로 세분화하여 각 유형에 대한 공통요소를 강화시킴으로써 각 문자의 개별 특성에 맞는 자소 분할법을 제공할 수 있으며, 문자의 구성에 있어서 가장 특징적인 부분이라고 할 수 있는 중성을 소위 중성 분리 기준점을 기준으로 하여 먼저 분리해내고 이후 초성과 종성을 분리해냄으로써, 자소 분할을 더욱더 빠르고 정확하게 수행할 수 있게 된다.

Description

이미지에 포함되는 한글 문자를 인식하기 위하여 자소 분할하는 방법 및 컴퓨터 판독 가능한 기록 매체{METHOD AND COMPUTER-READABLE RECORDING MEDIUM FOR SEPARATING COMPONENT PARTS OF HANGUL IN ORDER TO RECOGNIZE THE HANGUL}

본 발명은 이미지에 포함되는 한글 문자를 인식하기 위하여 자소 분할하는 방법 및 컴퓨터 판독 가능한 기록 매체에 관한 것으로, 보다 상세하게는, 한글에 대한 인식률을 높이는 방법 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.

최근, 디지털 저장 매체의 급속한 보급에 따라 기존에 지면 상으로 존재하였던 문서들에 대한 디지털화 작업이 활발히 전개되고 있다.　 이와 같은 현상은 지면 등에 나타난 문자를 자동으로 인식하는 기술인 광학 문자 인식 기술(Optical Character Recognition : OCR)의 발전에 따라 더욱 더 가속화되고 있는 실정이다.

이미지 안의 문자를 텍스트로서 판독해 내기 위해서는 문장을 각 문자 단위로 분할하고, 이 문자 각각의 구조에 대해서 다시 분석하는 기술이 상당히 중요하다.

한글 문자는 초성과 중성으로 구성되거나, 초성, 중성, 및 종성으로 구성될 수 있다.　 따라서, 각각의 한글 문자가 어떠한 초성, 중성, 및 종성으로 이루어져 있는지를 분석하면 해당 문자에 대한 판독이 이루어질 수 있게 되며, 이를 위해 통상적으로 사용되는 기술이 자소 분할 기술이다.　 '자소'란 한 언어의 문자 체계에서 음소를 표시하는 최소의 변별적 단위인데, 예를 들어, '박'이라는 문자는 'ㅂ', 'ㅏ', 'ㄱ' 와 같은 자소들을 포함한다고 할 수 있다.　 자소 분할 기술이라는 것은, 어떠한 문자를 상기와 같은 자소 단위로 분할하는 것을 의미하는데, 이러한 분할을 통해, 해당 문자에 포함되는 초성, 중성, 종성 각각을 인식할 수 있고, 결과적으로 해당 문자가 어떠한 문자인지 인식할 수 있게 되는 것이다.

종래의 자소 인식 기술은 자소 분할을 사용하지 않거나, 또는 부분적으로 사용한 통계적 방법을 주로 이용하는 방식이었다.　 즉, 이미지로 표현되는 문자에 있어서, 초성일 가능성이 높은 부분은 초성으로, 중성일 가능성이 높은 부분은 중성으로, 종성일 가능성이 높은 부분은 종성으로 분리하는 방식이었다.　 예를 들면, 문자가 차지하고 있는 영역 중 좌측 상단에 위치하는 구성요소는 초성일 가능성이 높으므로 초성으로서 인식하고, 문자의 중앙 또는 우측에 위치하는 구성요소는 중성일 가능성이 높으므로 중성으로서 인식하며, 문자의 우측 하단에 위치하는 구성요소는 종성일 가능성이 높으므로 종성으로서 인식하는 방식이다.

그러나, 이러한 확률에 의존하는 자소 인식 방법은 복잡도가 높은 문자 또는 변형된 문자의 자소 인식에는 적합하지 못한 단점이 있다.　 또한, 새로운 활자체의 도입에도 민감하지 못할 뿐만 아니라, 시대가 변할수록 인식 후보 대상이 되는 문자의 수가 많아지고 그 형태가 다양해짐으로써 오인식의 가능성은 더욱 높아질 수밖에 없다.

따라서, 종래의 단순한 자소 분할에 의한 문자의 인식 방법이 아니라, 한글 문자의 구조에 대한 특성을 정확하게 파악하고 각 특성에 맞는 자소 분할에 의해 문자를 인식할 수 있는 방법에 대한 개발이 시급한 실정이다.

따라서, 본 발명의 목적은, 상기와 같은 종래 기술의 문제점을 모두 해결하기 위하여, 한글 문자를 구조적 특성에 따라 다양한 유형(가령, 20 유형)으로 세분화하여 각 유형에 대한 공통요소를 강화시킴으로써 각 문자의 개별 특성에 맞는 자소 분할법을 제공하는 것이다.

또한, 본 발명의 다른 목적은, 문자의 구성에 있어서 가장 특징적인 부분이라고 할 수 있는 중성을 소위 중성 분리 기준점을 기준으로 하여 먼저 분리해내고 이후 초성과 종성을 분리해냄으로써, 자소 분할을 더욱더 빠르고 정확하게 수행할 수 있도록 하는 것이다.

한편, 본 발명의 또 다른 목적은, 자소 분할 과정에서 수행되는 추적을 모두 경계선 추적으로 함으로써, 자소를 이루는 모든 픽셀에 대한 추적 방식에 비해 자소 분할에 소요되는 시간을 단축시킬 수 있도록 하는 것이다.

한편, 본 발명의 또 다른 목적은, 자소 분할의 결과에 대해 각 요소의 개수, 크기, 경계 정보 등을 이용하여 잘못 분할된 요소를 찾아내고 이를 정정함으로써 더욱더 정확한 자소 분할을 가능하게 하는 것이다.

상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.

본 발명의 일 태양에 따르면, 이미지에 포함된 한글 문자로서, 초성 및 세로로 긴 세로 중성으로 구성된 한글 문자의 자소를 분할하기 위한 방법으로서, (a) 상기 한글 문자의 우측에서 좌측으로 횡방향 추적하여 세로 중성을 분리하는 기준점을 찾아내는 단계, 및 (b) 상기 기준점을 기준으로 상기 세로 중성의 좌측 경계선을 추적하여 초성과 분리하는 단계를 포함하는 방법이 제공된다.

본 발명의 다른 태양에 따르면, 이미지에 포함된 한글 문자로서, 초성 및 가로로 긴 가로 중성으로 구성된 한글 문자의 자소를 분할하기 위한 방법으로서, (a) 상기 한글 문자의 하측에서 상측으로 종방향 추적하여 가로 중성을 분리하는 기준점을 찾아내는 단계, 및 (b) 상기 기준점을 기준으로 상기 가로 중성의 상측 경계선을 추적하여 초성과 분리하는 단계를 포함하는 방법이 제공된다.

본 발명의 또 다른 태양에 따르면, 이미지에 포함된 한글 문자로서, 초성, 가로로 긴 가로 중성, 및 세로로 긴 세로 중성으로 구성된 한글 문자의 자소를 분할하기 위한 방법으로서, (a) 상기 한글 문자의 하측에서 상측으로 종방향 추적하여 가로 중성을 분리하는 기준점을 찾아내는 단계, (b) 상기 기준점을 기준으로 상기 가로 중성의 상측 경계선을 추적하여 초성과 분리하는 단계, 및 (c) 상기 가로 중성의 오른쪽 끝에 세로 가지가 붙어 있으면 이를 세로 중성으로 인식하여 이를 초성과 분리하고, 상기 가로 중성의 오른쪽 끝에 세로 가지가 붙어 있지 않으면 상기 세로 가지를 세로 중성으로 인식하는 단계를 포함하는 방법이 제공된다.

본 발명의 또 다른 태양에 따르면, 이미지에 포함된 한글 문자로서, 초성, 세로로 긴 세로 중성, 및 종성으로 구성된 한글 문자의 자소를 분할하기 위한 방법으로서, (a) 상기 한글 문자의 우측에서 좌측으로 횡방향 추적하여 세로 중성을 분리하는 기준점을 찾아내는 단계, (b) 상기 기준점을 기준으로 상기 세로 중성의 좌측 경계선을 추적하여 초성과 분리하는 단계, 및 (c) 상기 좌측 경계선 상에 존재하는 종성 분할 기준점으로부터 좌측으로 횡방향 추적하여 상기 종성을 상기 세로 중성과 분리하는 단계를 포함하는 방법이 제공된다.

본 발명의 또 다른 태양에 따르면, 이미지에 포함된 한글 문자로서, 초성, 가로로 긴 가로 중성, 및 종성으로 구성된 한글 문자의 자소를 분할하기 위한 방법으로서, (a) 상기 한글 문자의 좌측에서 우측으로 횡방향 추적하여 상기 문자의 제일 좌측에서부터 시작되는 가로 중성의 위치를 찾아내는 단계, (b) 상기 가로 중성의 상측 경계선을 추적하여 초성과 분리하는 단계, 및 (c) 상기 가로 중성의 하측 경계선을 추적하여 종성과 분리하는 단계를 포함하는 방법이 제공된다.

본 발명의 또 다른 태양에 따르면, 이미지에 포함된 한글 문자로서, 초성, 가로로 긴 가로 중성, 세로로 긴 세로 중성, 및 종성으로 구성된 한글 문자의 자소를 분할하기 위한 방법으로서, (a) 상기 한글 문자의 좌측에서 우측으로 횡방향 추적하여 상기 문자의 제일 좌측에서부터 시작되는 가로 중성의 위치를 찾아내는 단계, (b) 상기 가로 중성의 상측 경계선을 추적하여 초성과 분리하는 단계, (c) 상기 가로 중성에 세로로 붙어있는 일 이상의 가지들 중 제일 우측에 위치하는 세로 가지를 세로 중성으로 인식하여 이를 초성과 분리하는 단계, 및 (d) 상기 가로 중성의 하측 경계선을 추적하여 종성과 분리하는 단계를 포함하는 방법이 제공된다.

본 발명의 또 다른 태양에 따르면, 한글 문자에 대해 초성, 중성, 종성으로 자소 분할한 결과를 정정하기 위한 방법으로서, (a) 자소 분할된 초성, 중성, 종성을 각각 구성하는 연속된 요소(connected component: CC)에 대한 정보를 파악하는 단계, 및 (b) 한글 문자를 구성하는 초성, 중성, 종성의 CC의 수, 상기 CC의 위치 정보 및 상기 CC의 경계 정보를 이용하여, 잘못 분할된 요소를 올바른 분할 영역으로 변경하는 단계를 포함하는 방법이 제공된다.

이 외에도, 다른 방법, 시스템, 및 상기 방법들을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다.

본 발명에 따르면, 한글 문자를 특성에 따라 다양한 유형으로 세분화함으로써 각 유형에 대한 공통요소가 강화될 수 있고, 이에 따라 각 문자의 개별 특성에 맞게 자소 분할이 이루어질 수 있다.

또한, 본 발명에 따르면, 중성 분리 기준점을 찾기 위해 문자 전체를 스캐닝하지 않고 중성 영역이 상하 또는 좌우 전반에 걸쳐 있다는 점을 감안하여 중성 영역을 통과하여 빠르고 정확하게 중성 분리 기준점을 찾을 수 있다.

또한, 본 발명에 따르면, 중성 요소를 세로 중성 또는 가로 중성과 세로 가지 또는 가로 가지로 구분하여 주요 부분인 세로 중성 또는 가로 중성을 먼저 분리한 뒤 각종 가지에 대해 찾음으로써 초성, 중성, 종성이 정확하게 분리될 수 있다.

또한, 본 발명에 따르면, 세로 중성의 끝점에서부터 왼쪽 방향으로 처음 만나는 문자 영역의 경계를 시계 방향으로 추적할 때 상하좌우 중 어떠한 방향으로 움직이는지에 따라 초성인지 종성인지를 구분할 수 있다.

또한, 본 발명에 따르면, 자소 분할 과정에서 수행되는 추적이 모두 경계선 추적이기 때문에, 자소를 이루는 모든 픽셀에 대해 추적하는 방식에 비해 자소 분할에 소요되는 시간이 현저하게 단축된다.

한편, 본 발명에 따르면, 자소 분할의 결과에 대해 각 요소의 개수, 크기, 경계 정보 등을 이용하여 잘못 분할된 요소를 찾아내고 이를 정정함으로써 더욱더 정확한 자소 분할이 가능해진다.

도 1은 한글 문자에 포함되는 중성의 구성을 설명하기 위한 도면이다.

도 2는 본 발명의 일 실시예에 따른 자소 분할 장치의 구성을 나타내는 도면이다.

도 3a 및 도 3b는 본 발명의 일 실시예에 따라 제1 그룹에 속하는 문자를 자소 분할하는 과정의 일례를 나타낸다.

도 4는 본 발명의 일 실시예에 따라 제2 그룹에 속하는 문자를 자소 분할하는 과정의 일례를 나타낸다.

도 5는 본 발명의 일 실시예에 따라 제3 그룹에 속하는 문자를 자소 분할하는 과정의 일례를 나타낸다.

도 6a 내지 도 6e, 및 도 7a 내지 도 7d는 본 발명의 일 실시예에 따라 제4 그룹에 속하는 문자를 자소 분할하는 과정의 일례를 나타낸다.

도 8a 내지 도 8d는 본 발명의 일 실시예에 따라 제5 그룹에 속하는 문자를 자소 분할하는 과정의 일례를 나타낸다.

도 9a 내지 도 9e는 본 발명의 일 실시예에 따라 제6 그룹에 속하는 문자를 자소 분할하는 과정의 일례를 나타낸다.

도 10은 본 발명의 일 실시예에 따라 자소 분할된 결과에 대한 후처리 과정의 일례를 나타낸다.

<도면의 주요부분에 대한 부호의 설명>

200: 자소 분할 장치

210: 이미지 정보 인식부

220: 문자 유형 분류부

230: 자소 분할부

240: 자소 분할 후처리부

250: 제어부

260: 통신부

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다.　 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.　 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다.　 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다.　 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다.　 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다.　 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

본 명세서에서, '세로 중성'이라 함은 문자를 구성하는 요소인 중성 중 세로 길이가 상대적으로 긴 중성(예를 들면, ㅏ, ㅑ, ㅐ, ㅒ, ㅣ, ㅕ, ㅔ, ㅖ)을 의미하고, '가로 중성'이라 함은 가로 길이가 상대적으로 긴 중성(예를 들면, ㅜ, ㅠ, ㅗ, ㅛ, ㅡ)을 의미한다.

또한, 본 명세서에서, '가로 가지'라 함은, 세로 중성에 붙어 해당 세로 중성과 함께 하나의 중성을 구성하는 구성요소로서, 상대적으로 가로 길이가 긴 구성요소를 의미하고, '세로 가지'라 함은, 가로 중성에 붙어 해당 가로 중성과 함께 하나의 중성을 구성하는 구성요소로서, 상대적으로 세로 길이가 긴 구성요소를 의미한다.

도 1을 참조하면, '웬' 이라는 문자에서, 세로 길이가 긴 중성, 즉, 도면부호 110으로 표시되는 중성이 '세로 중성'이고, 이러한 세로 중성에 가로로 붙어 있는 구성요소, 즉, 도면부호 115로 표시되는 구성요소가 '가로 가지' 이다.　 또한, 가로 길이가 긴 중성, 즉, 도면부호 120으로 표시되는 중성이 '가로 중성'이고, 이러한 가로 중성에 세로로 붙어 있는 구성요소, 즉, 도면부호 125로 표시되는 구성요소가 '세로 가지'이다.

한편, 본 명세서에서, '노이즈(noise)'라 함은, 문자를 자소 분할한 결과, 초성, 중성, 종성의 일부가 다른 자소의 일부로서 잘못 인식된 영역을 의미한다.

자소 분할 장치

도 2는 본 발명의 일 실시예에 따라 이미지에 포함된 한글 문자에 대해 자소 분할을 하는 장치의 구성을 나타내는 도면이다.

도 2에 도시되는 바와 같이, 본 발명의 자소 분할 장치(200)는 이미지 정보 인식부(210), 문자 유형 분류부(220), 자소 분할부(230), 자소 분할 후처리부(240), 제어부(250), 통신부(260)를 포함할 수 있다.　 본 발명의 일 실시예에 따르면, 이미지 정보 인식부(210), 문자 유형 분류부(220), 자소 분할부(230), 자소 분할 후처리부(240), 제어부(250), 통신부(260)는 그 중 적어도 일부가 자소 분할 장치(200)에 포함되거나 자소 분할 장치(200)와 통신하는 프로그램 모듈일 수 있다(다만, 도 2에서는 이미지 정보 인식부(210), 문자 유형 분류부(220), 자소 분할부(230), 자소 분할 후처리부(240), 제어부(250) 및 통신부(260)가 자소 분할 장치(200)에 포함되어 있는 것으로 예시하고 있다).　 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈로서 자소 분할 장치(200)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다.　 또한, 이러한 프로그램 모듈들은 자소 분할 장치(200)와 통신 가능한 원격 기억 장치에 저장될 수도 있다.　 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.

본 발명의 일 실시예에 따른 자소 분할 장치(200)는 스캐너, 카메라 등과 같은 화상 데이터 생성 장치에 직접 포함되거나, 화상 데이터 생성 장치와 연결될 수 있을 것이다.

본 발명의 다른 실시예에 따른 자소 분할 장치(200)는 개인용 컴퓨터(예를 들어, 데스크탑 컴퓨터, 노트북 컴퓨터, 태블릿 컴퓨터, 팜톱 컴퓨터 등), 워크스테이션, PDA, 웹 패드, 이동 전화기 등과 같은 디지털 기기에 포함되거나, 디지털 기기와 통신 네트워크를 통하여 통신할 수도 있다.　 여기서, 통신 네트워크는 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN: Local Area Network), 도시권 통신망(MAN: Metropolitan Area Network), 광역 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구성될 수 있다.

본 발명의 일 실시예에 따른 이미지 정보 인식부(210)는 스캐너, 카메라 등의 디지털 기기로부터 문자가 포함된 이미지 정보를 수신하고, 수신된 이미지를 인식하는 기능을 수행한다.

본 발명의 일 실시예에 따른 문자 유형 분류부(220)는 이미지 정보 인식부(210)에 의해 인식된 이미지에 포함되는 문자를 그 구조적 특성에 따라 복수 개의 그룹들 중 특정 하나의 그룹으로 분류하는 기능을 수행한다.　 본 발명의 일 실시예에 따르면, 문자 유형 분류부(220)는 인식된 문자를 6개의 대그룹에 포함되는 20개의 유형(소그룹) 중 하나로 분류할 수 있다.　 이러한 유형 분류를 함으로써, 문자의 유형 특성에 맞는 자소 분할 알고리즘이 적용될 수 있는 것이다.　 문자의 유형에 대해서는 후에 상세히 설명하기로 한다.

본 발명의 일 실시예에 따른 자소 분할부(230)는 제1 그룹 자소 분할부(231), 제2 그룹 자소 분할부(232), 제3 그룹 자소 분할부(233), 제4 그룹 자소 분할부(234), 제5 그룹 자소 분할부(235), 제6 그룹 자소 분할부(236)를 포함한다.　 각 그룹 자소 분할부(231~236)는 문자 유형 분류부(220)에 의해 20가지 소분류로 분류된 문자에 대해 각 그룹에 속하는 문자의 특성에 따라 서로 다른 방식으로 자소 분할을 수행하며, 이에 대해서는 후에 상세히 설명하기로 한다.

본 발명의 일 실시예에 따른 자소 분할 후처리부(240)는 자소 분할부(230)에 의해 자소 분할된 결과를 분석하고, 잘못된 자소 분할이 검출되는 경우에는 이를 올바르게 정정하는 기능을 수행한다.　 자소 분할 후처리부(240)는 문자를 이루는 각 요소의 특성을 기준으로 자소 분할이 올바르게 수행되었는지 여부를 결정하며, 이러한 후처리에 따라 자소 분할이 더욱더 정확하게 수행될 수 있는바, 문자 인식률이 아주 높아지게 된다.

또한, 본 발명의 일 실시예에 따른 제어부(250)는 이미지 정보 인식부(210), 문자 유형 분류부(220), 자소 분할부(230), 자소 분할 후처리부(240), 및 통신부(260) 간의 데이터의 흐름을 제어하는 기능을 수행한다.

또한, 본 발명의 일 실시예에 따른 통신부(260)는 본 발명에 따른 자소 분할 장치(200)가 외부 장치 등과 통신할 수 있도록 하는 기능을 수행할 수 있다.

이하에서는, 본 발명의 일 실시예에 따른 자소 분할 장치(200)에 포함되는 문자 유형 분류부(220)에 의한 한글 문자의 분류에 대해 설명하기로 한다.

자소 분할을 위한 유형 분류

이미지 안의 문자를 텍스트로 판독해 내기 위해서는 일련의 문장 또는 단위 등을 문자 단위로 분할하고, 그 문자에 포함되는 구성요소를 올바르게 파악하는 것이 필수적이다.　 한글의 경우에는 초성, 중성, 및 종성이 모여 하나의 문자를 이루는데, 이러한 초성, 중성, 및 종성을 분리해낸다면 이들 각각을 인식함으로써 전체 조합이 어떠한 문자를 나타내는지를 파악해낼 수 있다.　 이렇게 이미지에 포함되어 있는 문자를 텍스트로 판독해내기 위해 문자를 복수의 구성요소로 분리해내는 것을 자소 분할이라 한다.

본 발명에서는, 이러한 자소 분할을 위해 문자를 크게 6 가지 대분류 이하에 존재하는 20 가지 소분류로 나누었다.　 여기서, 문자에 포함되는 모음의 특성이 이러한 분류의 기준이 된다.

표 1은 본 발명에 따라 자소 분할을 하기 위해 문자의 유형을 분류하기 위한 분류 기준을 나타낸다.

대분류(6그룹)	소분류(20유형)	정의	특징
대분류(6그룹)	소분류(20유형)	정의	세로 중성(개수)	가로 중성(개수)
1	1	ㅏㅑ	1
	2	ㅐㅒ	2
	3	ㅣ	1
	4	ㅓㅕ	1
	5	ㅔㅖ	2
2	6	ㅜㅠ		1
	7	ㅗㅛ		1
	8	ㅡ		1
3	9	ㅝㅞㅟㅢ	1,2	1
3	10	ㅘㅙㅚ	1,2	1
4	11	ㅏㅑ+종성	1
	12	ㅐㅒ+종성	2
	13	ㅣ+종성	1
	14	ㅓㅕ+종성	1
	15	ㅔㅖ+종성	2
5	16	ㅜㅠ+종성		1
	17	ㅗㅛ+종성		1
	18	ㅡ+종성		1
6	19	ㅝㅞㅟㅢ+종성	1,2	1
6	20	ㅘㅙㅚ+종성	1,2	1

표 1을 참조하면, 제1 그룹에 속하는 문자들은 세로 중성을 가지고 있고 초성과 세로 중성으로 구성된다는 특성을 갖는다.　 또한, 제2 그룹에 속하는 문자들은 가로 중성을 가지고 있으며, 초성과 가로 중성만으로 구성된다는 특성을 갖는다.　 한편, 제3 그룹에 속하는 문자들은 가로 중성과 세로 중성을 모두 가지고 있으며, 초성, 가로 중성, 및 세로 중성으로 구성된다는 특성을 갖는다.　 또한, 제4 그룹에 속하는 문자들은 세로 중성과 종성을 가지고 있으며, 초성, 세로 중성, 종성으로 구성된다는 특성을 갖는다.　 그리고, 제5 그룹에 속하는 문자들은 가로 중성을 가지고 있으며, 초성, 가로 중성, 종성으로 구성된다는 특징이 있다.　 마지막으로, 제6 그룹에 속하는 문자들은 가로 중성과 세로 중성을 모두 가지고 있으며, 초성, 가로 중성, 세로 중성, 종성으로 구성된다는 특징을 갖는다는 것을 알 수 있다.

이와 같이 본 발명의 문자 유형 분류부(220)는 한글 문자를 상기와 같은 분류 기준에 따라 분류함으로써, 각 문자의 특성에 맞는 자소 분할 방법이 적용되도록 하는 전처리 과정을 수행한다.　 동일한 그룹(대분류)에 속하는 문자에 대해서는 대체적으로 동일한 자소 분할 방법이 적용되지만, 세부 유형(소분류)에 따라 자소 분할 방법의 일부가 달라질 수도 있다.

이하에서는, 각 그룹별 자소 분할부(231~236)에 의해 수행되는 자소 분할 방식에 대해 상세히 설명하기로 한다.

각 분류별 자소 분할 방법

전술한 바와 같이, 동일한 그룹에 속하는 문자는 대체적으로 동일한 방법에 따라 자소 분할될 수 있다.　 각 그룹별 자소 분할은 복수의 자소 분할부(231~236)에 의해 각각 수행된다.　 이하, 제1 내지 제6 그룹 자소 분할부(231~236)에 의해 수행되는 각 그룹별 자소 분할 방식에 대해 설명한다.

제1 그룹

제1 그룹에 속하는 문자는 세로 중성을 가지고 있다.　 즉, 제1 그룹에 속하는 문자는 초성과 세로 중성으로 구성되어 있다.　 또한, 상기 세로 중성은 가로 가지를 가지고 있을 수 있으며, 이러한 가로 가지는 초성의 일부일 수도 있고, 중성의 일부일 수도 있다.　 즉, 문자체에 따라 초성과 중성이 붙어있을 수 있으므로 세로 중성에 붙어있는 가지라 할지라도 이는 초성의 일부일 수 있게 된다.

제1 그룹에 속하는 문자를 자소 분할하는 과정은 크게 세로 중성의 위치를 파악하여 세로 중성을 분리해내는 과정, 및 세로 중성에 붙어 있는 가로 가지가 초성인지 중성인지를 판별하는 과정으로 나눌 수 있다.

이하, 도 3을 참조하여, 제1 그룹에 속하는 문자를 자소 분할하는 과정에 대해 설명하기로 한다.　 도 3a는 제1 그룹 중 제4 유형에 속하는 문자에 대한 자소 분할 과정의 일례를 나타내는 도면이고, 도 3b는 제1 그룹 중 제5 유형에 속하는 문자에 대한 자소 분할 과정의 일례를 나타낸다.

먼저, 세로 중성의 위치를 찾아낸다.　 구체적으로 설명하면, 세로 중성은 문자의 우측 상부에서 하부까지 세로로 길게 위치하고 있다는 특징이 있기 때문에, 우측 상부 소정의 위치에서 좌측으로 화이트 픽셀을 따라 추적하고, 추적 과정에서 블랙 픽셀이 나오게 되면 세로 중성이 존재하는 위치를 찾은 것이며, 그 후에는 블랙 픽셀을 따라 좀더 좌측으로 추적한다.　 도 3a 및 도 3b에는 각각 도면부호 311 및 321로서 상기 추적 방향을 나타내었다.　 예를 들면, 이와 같은 상기 우측 상부 소정의 위치에서 좌측으로의 추적은, 전체 문자의 우측 상단에서부터 전체 문자 길이의 약 1/5 정도 떨어진 지점에서부터 수행되는 것이 바람직하다.　

상기 블랙 픽셀을 만나서 계속 좌측으로 추적하는 중에, 화이트 픽셀이 나타나게 되면, 이하와 같이 제1 그룹에 속한 유형별로 다른 프로세스를 거치게 된다.

즉, 제1 그룹에 있어서, 제1 유형, 제3 유형, 또는 도 3a에 도시되는 제4 유형은 세로 중성을 하나씩만 가지고 있으므로, 블랙 픽셀이 끝나는 가장 좌측 지점이 상기 유형들의 세로 중성을 분리하는 중성 분할 기준점이 될 수 있다.

한편, 제1 그룹에 있어서, 제2 유형 또는 도 3b에 도시되는 제5 유형은 세로 중성을 2 개 가지고 있으므로, 위와 같은 과정, 즉, 화이트 픽셀 추적 후 블랙 픽셀의 추적 과정을 우측에서 좌측 방향으로 수행하면서 연속된 블랙 픽셀을 총 두 번 검출했을 때, 두 번째로 블랙 픽셀이 끝나는 지점(323)이 상기 유형들의 세로 중성 분할 기준점일 수 있다.

이러한 방식으로 세로 중성을 분할하는 기준점을 찾아내었다면, 해당 세로 중성의 왼쪽 경계를 추적한다.　 이는 왼쪽 경계를 따라 상기 기준점에서 상하 방향(315, 325)으로 추적함으로써, 세로 중성의 왼쪽 경계선에 가로 가지가 달려있는지를 확인하기 위함이다.　 이렇게 세로 중성의 왼쪽 경계를 추적하여 세로 중성에 달려 있는 가로 가지(317, 327)가 발견된다면 발견된 위치를 저장한다.　 그 후, 발견된 가로 가지와 세로 중성을 분리하여 세로 중성만을 우선적으로 중성 영역으로서 인식한다.　

제1 그룹의 제1 유형, 제2 유형, 제3 유형은 세로 중성이 좌측으로 가로 가지를 가지지 않으므로, 상기 세로 중성과 가로 가지를 분리하여 세로 중성만을 중성영역으로 인식하는 과정만으로 초성과 세로 중성이 완전히 분리되게 되며, 이에 따라 자소 분할이 완료된다.

한편, 제1 그룹 중 도 3a 및 도 3b에 도시되는 제4 유형, 제5 유형은 세로 중성이 좌측으로 가로 가지를 가지고 있으므로, 상기 저장된 가로 가지(317, 327)의 위치에서 해당 가로 가지(317, 327)의 위와 아래 경계선을 좌측으로 추적하여 경계선이 가로 가지(317, 327)의 좌측 방향에서 위와 아래 방향으로 급격히 변하는 지점을 가로 가지(317, 327)가 끝나는 지점으로 지정하고 이 가로 가지(317, 327)를 중성의 영역으로 포함시켜 자소 분할을 완료할 수 있다.　 세로 중성에 붙어있는 가로 가지(317, 327)의 상하 경계선이 좌측단에서 위와 아래 방향으로 급격히 변한다는 것은 해당 가로 가지(317, 327)가 초성과 붙어있을지라도 초성의 일부가 아니라는 것을 의미하므로, 이러한 가로 가지(317, 327)는 세로 중성의 일부로 인식되어야 하는 것이다.

한편, 문자체에 따라 초성과 중성이 떨어져 있는 경우도 있을 수 있는데, 이 때에는 가로 가지(317, 327)의 가장 좌측 지점에서 초성과 중성을 분리해낼 수 있다.　 또한, 가로 가지가 위아래 방향으로의 급격한 변화 없이 문자 전체의 좌측까지 이어지는 경우는 해당 가로 가지(317, 327)가 초성의 일부라는 의미이므로 상기 저장되었던 가로 가지의 위치를 초성과 중성의 경계선으로 하고 초성과 중성을 분리해냄으로써 자소 분할을 완료해낼 수 있다.

제2 그룹

제2 그룹에 속하는 문자는 가로 중성을 가지고 있으며, 초성과 가로 중성만으로 구성되어 진다는 특성을 갖는다.　 또한, 상기 가로 중성은 세로 가지를 가지고 있을 수 있으며, 이러한 세로 가지는 초성의 일부일 수도 있고, 중성의 일부일 수도 있다.

제2 그룹에 속하는 문자를 자소 분할하는 과정은 크게 가로 중성의 위치를 파악하여 가로 중성을 분리해내는 과정, 및 가로 중성에 붙어 있는 세로 가지가 초성인지 중성인지를 판별하는 과정으로 나눌 수 있다.

이하, 상기 제2 그룹 중 제7 유형에 속하는 문자에 대한 자소 분할 과정의 일례를 나타내는 도 4를 참조하여 제2 그룹에 속하는 문자에 대해 자소 분할하는 과정에 대해 설명하기로 한다.

먼저, 가로 중성의 위치를 찾아낸다.　 가로 중성은 문자의 중간 또는 좌측 하단에서부터 우측방향으로 가로로 길게 위치하고 있다.　 따라서, 문자의 좌측끝 최하단에서 상측으로 화이트 픽셀을 추적하여 블랙 픽셀을 찾아낸다.　 블랙 픽셀이 존재하지 않는 경우에는 우측으로 한 픽셀씩 이동하면서 하단에서 상측으로의 화이트 픽셀 추적과정을 반복한다.　 도 4에는 도면부호 401로서 이와 같은 추적 경로를 나타내었다. 이렇게 하여 블랙 픽셀을 발견하게 되면, 다시 상측 방향으로 블랙 픽셀을 추적하여 블랙 픽셀이 끝나는 지점(402)을 초성과 중성을 분리하는 중성 분할 기준점으로 삼는다.

다음으로, 상기 초성과 중성의 분리 기준점에서 우측 방향으로 가로 중성의 위쪽 경계선을 추적한다.　 도 4에는 도면부호 403으로서 추적 경로를 나타내었다.　 경계선의 추적 과정에서 가로 중성에 위쪽으로 붙어있는 세로 가지(405)가 발견되면 그 위치를 저장한 후, 가로 중성과 발견된 세로 가지(405)를 분리하여 일단 가로 중성만을 중성 영역으로 인식한다.　

상기 제2 그룹 중 제6 유형, 제8 유형은 가로 중성에 위 방향으로 세로 가지가 붙어 있지 않으므로, 이 과정에서 자소 분할이 완료될 수 있다.

한편, 제7 유형은 위 방향으로 세로 가지(405)를 가지고 있으므로 상기 저장된 세로 가지(405)의 위치에서 세로 가지(405)의 왼쪽과 오른쪽 경계선을 위 방향으로 추적한다.　 세로 가지(405)는 일 이상일 수 있으므로, 저장된 세로 가지(405)의 위치마다 그 경계선 추적을 하여야 한다.　 이렇게 세로 가지(405)의 왼쪽과 오른쪽 경계선을 위 방향으로 추적하여 그 경계선이 왼쪽과 오른쪽 방향으로 급격히 변하는 지점이 발견된다면, 그 지점을 세로 가지(405)가 끝나는 지점으로 지정하고 해당 세로 가지(405)를 중성의 영역으로 인식한다.　

한편, 문자체에 따라 초성과 중성이 떨어져 있는 경우도 있을 수 있는데, 이 때에는 세로 가지(405)의 최상단에서 초성과 중성을 분리해낼 수 있다.　 또한, 세로 가지(405)가 왼쪽 또는 오른쪽 방향으로 급격한 변화 없이 문자 전체의 최상단까지 이어지는 경우는 해당 세로 가지(405)가 초성의 일부라는 의미이므로 상기 저장되었던 세로 가지(405)의 위치, 즉, 세로 가지(405)와 가로 중성의 분리 기준점을 초성과 중성의 경계선으로 하고 초성과 중성을 최종적으로 분리해냄으로써 제7 유형의 자소 분할을 완료할 수 있다.

제3 그룹

제3 그룹에 속하는 문자는 가로 중성과 세로 중성을 모두 가지고 있으며, 초성, 가로 중성, 및 세로 중성으로 구성된다는 특성을 갖는다.　 또한, 상기 가로 중성은 세로 가지를 가지고 있을 수 있으며, 이러한 세로 가지는 초성의 일부일 수도 있고, 중성의 일부일 수도 있다.

제3 그룹에 속하는 문자를 자소 분할하는 과정은 가로 중성의 위치를 파악하여 가로 중성을 분리해내는 과정, 가로 중성에 붙어 있는 세로 가지가 초성인지 중성인지를 판별하는 과정을 우선적으로 포함할 수 있다.　 한편, 세로 중성은 가로 중성의 세로 가지 위치에 있거나 가로 중성과 소정 거리 이격되어 우측에 위치하는 특성을 이용하여 분리해낼 수 있다.

이하, 상기 제3 그룹 중 제10 유형에 속하는 문자에 대한 자소 분할 과정의 일례를 나타내는 도 5를 참조하여, 제3 그룹에 속하는 문자를 자소 분할하는 과정에 대해 설명하기로 한다.

제3 그룹에 속하는 문자는 모두 가로 중성을 가지고 있으므로 앞서 설명되었던 제2 그룹에 속하는 문자를 자소 분리하는 과정에 따라 가로 중성과 초성을 분리해낼 수 있다.

한편, 가로 중성에서 발견된 세로 가지(505)가 해당 가로 중성의 우측 끝에 붙어 있고 상기 세로 가지(505)의 최상단이 문자를 구성하는 다른 요소인 초성보다 더 위 쪽에 위치한다면 이 세로 가지(505)가 세로 중성이므로 이러한 세로 중성의 좌측 경계선을 추적함으로써 초성과 세로 중성을 분할할 수 있다.

또한, 가로 중성의 우측 끝에 세로 가지가 붙어 있지 않다면 그 문자에 포함되는 세로 중성은 가로 중성과 붙어있지 않다는 것이므로, 가로 중성의 우측단에서부터 우측으로 화이트 픽셀을 추적하고,　블랙 픽셀이 발견되면 그 지점을 세로 중성의 좌측 경계선으로 인식함으로써, 세로 중성을 찾아낼 수 있다.　 이렇게 함으로써 초성과 세로 중성 또한 분리해낼 수 있게 된다.

제4 그룹

제4 그룹에 속하는 문자는 세로 중성과 종성을 가지고 있다는 특성이 있다.　 즉, 제4 그룹에 속하는 문자는 초성, 세로 중성, 종성으로 구성된다.　 상기 세로 중성은 가로 가지를 가지고 있을 수 있으며, 이러한 가로 가지는 초성의 일부일 수도 있고, 중성의 일부일 수도 있다.

이하, 도 6을 참조하여, 제4 그룹에 속하는 문자를 자소 분할하는 과정에 대해 설명하기로 한다.　 도 6a 내지 도 6c는 각각 제11 유형, 제13 유형, 제14 유형에 속하는 문자들에 대한 자소 분할 과정의 일례를 나타내고, 도 6d 및 도 6e는 각각 제12 유형, 제15 유형에 속하는 문자들에 대한 자소 분할 과정의 일례를 나타낸다.

제4 그룹에 속하는 문자를 자소 분할하기 위해서는 세로 중성을 분리해내는 과정이 선행되어야 한다.　 제4 그룹에 속하는 문자에 포함되는 세로 중성은 제1 그룹에 속하는 문자에 포함되는 세로 중성과 동일하므로, 세로 중성을 분리해내는 과정은 제1 그룹 문자의 자소 분할에 이용된 방법을 그대로 사용한다.　 구체적으로 설명하면, 문자의 우측 상부 소정의 위치에서 좌측으로 화이트 픽셀을 따라 추적하고, 블랙 픽셀이 발견되면 다시 블랙 픽셀을 따라 좌측으로 추적한다.　 제4 그룹에 속하는 문자는 초성, 세로 중성, 종성을 포함하므로, 세로 중성은 제1 그룹의 문자에 포함되는 세로 중성보다 상대적으로 상부에 위치하게 된다.　 따라서, 상기 세로 중성의 추적은 전체 문자의 우측 상단에서부터 전체 문자 길이의 약 1/10 정도 떨어진 지점에서부터 수행되는 것이 바람직하다.

상기 제4 그룹 중 제11 유형, 제13 유형, 제14 유형의 문자는 세로 중성을 하나만 포함하고 있으므로, 상기 제1 그룹에서와 같이 소정의 우측 지점에서부터 상기 세로 중성을 추적하는 과정에서 블랙 픽셀을 만나게 될 때 이러한 블랙 픽셀이 끝나는 가장 좌측 지점이 세로 중성을 분리해내는 중성 분할 기준점이 된다.　 따라서, 해당 기준점의 위와 아래를 추적하여, 즉, 세로 중성의 왼쪽 경계선에서 위와 아래를 추적하여 초성과 세로 중성을 분리해낼 수 있다.　

이 때, 차후 이어지는 자소 분할 과정에서 사용될 특징점들을 찾아내어 저장한다.　 여기서, 특징점이란 세로 중성의 왼쪽 경계선을 추적할 때 가로 가지가 발견되는 지점, 세로 중성이 끝나는 최하단 지점(제1 끝점), 세로 중성이 끝나는 최하단 지점의 하부에 소정거리 이격되어 블랙 픽셀들이 존재하고 있는 경우 그 연속되는 블랙 픽셀들이 끝나는 하단 지점(제2 끝점) 등일 수 있다.　 한편, 세로 중성의 왼쪽 경계선을 추적할 시에 해당 세로 중성의 좌측으로 가로 가지가 발견되는 경우에는, 그 가로 가지와 세로 중성을 절단하여 세로 중성만을 중성 영역으로 인식한다.

도 6a 내지 도 6c 는 제11 유형, 제13 유형, 제14 유형에 속하는 문자들의 자소 분할 과정에서 중성의 추적 경로, 가로 가지, 및 각 특정점을 나타낸다.

도 6을 참조하면, 세로 중성 아래에 세로 획을 포함하는 종성이 위치하고 있는 경우에는, 세로 중성의 왼쪽 경계선 추적시 종성의 일부 또한 가로 가지로 인식하게 된다.　 한편, 도 6a를 참조하면, 제11 유형의 '랍'이라는 문자는 세로 중성과 종성이 붙어 있으므로, 세로 중성이 끝나는 최하단 지점, 즉, 제1 끝점(611)은 종성의 최하단 지점이 된다.　 또한, 도 6b 및 도 6c 각각에 도시된 제13 유형, 제14 유형인 '닒', '념' 이라는 문자는 세로 중성과 종성이 화이트 픽셀을 사이에 두고 떨어져 있으므로, 세로 중성이 실제로 끝나는 지점이 제1 끝점(621, 631)이 되고, 종성이 끝나는 최하단 지점이 제2 끝점(622, 632)이 될 수 있다.　 이처럼, 세로 중성과 종성이 분리되어 있는 경우에는 끝점이 2 이상일 수 있다.

한편, 도 6d 및 도 6e 각각에 도시되는 제12 유형, 제15 유형에 속하는 문자는 세로 중성을 2개 포함하고 있으므로, 앞서 제1 그룹에서 설명되었듯이 세로 중성의 위치 추적 과정을 두 번 반복한다.　 즉, 문자의 우측에서 좌측 방향으로 추적하여 연속되는 블랙 픽셀이 끝나는 두 번째 지점을 세로 중성과 초성을 분리하는 중성 분할 기준점으로 삼는다.　 세로 중성의 분할 기준점을 찾아내었다면 해당 기준점, 즉, 세로 중성의 왼쪽 경계선에서 위와 아래를 추적하여 초성과 세로 중성을 분리해낸다.　 도 6d 및 도 6e에는 이러한 추적 방향을 화살표로 나타내었다.　 한편, 이 과정에서도 세로 중성에 붙어있는 가로 가지의 위치 및 각 끝점(세로 중성이 끝나는 최하단 지점 또는 종성이 끝나는 최하단 지점; 641, 642, 651, 652)을 찾아 특징점으로서 저장한다.

다음으로, 제4 그룹에 속하는 문자들의 유형별 특징을 고려하여 초성과 중성을 분할하고 종성을 분할하기 위한 기준점을 찾아낸다.

먼저, 제11 유형, 제12 유형, 제15 유형에 속하는 문자의 종성 분할 기준점을 찾아내는 방법에 대해 설명하면, 위에서 저장된 특징점 중 제1 끝점을 종성을 분할하기 위한 기준점으로 삼고, 세로 중성과 종성을 대략적으로 구분한다.　 제1 끝점이 세로 중성이 끝나는 점이기 때문이다.　 그 후, 세로 중성의 좌측으로 가로 가지가 있다면, 이러한 가로 가지를 좌측으로 추적하여 경계선을 찾아냄으로써 초성과 세로 중성을 구분한다.　 이 때, 가로 가지가 초성의 일부 또는 종성의 일부일 수 있는데, 가로 가지의 연결 형태와 위치를 보고 이를 판단해내고 해당 가로 가지가 종성의 영역에 속할 경우에는 가로 가지의 바로 위 지점을 종성을 분할해내기 위한 기준점으로 삼는다.

다음으로, 제13 유형에 속하는 문자의 종성 분할 기준점을 찾아내는 방법에 대해 설명한다.　 제13 유형에 속하는 문자의 종성 분할 기준점을 찾을 때에는 가로 가지와 끝점의 위치 및 그 개수에 관한 정보가 이용된다.

먼저, 끝점이 1개, 가로 가지의 수가 1개 이상일 경우에는, 문자의 아래에서 첫 번째로 나타나는 가로 가지가 끝점보다 위에 있는지를 조사한다.　 만약, 가로 가지가 끝점보다 위에 있다면, 종성 분할 기준점은 첫 번째 가로 가지의 위에 있게 된다.

다음으로, 끝점이 2개, 가로 가지의 수가 1개 이하인 경우에는, 아래에서 첫 번째 나타나는 가로 가지를 종성 분할 기준점으로 한다.

한편, 끝점이 1개, 가로 가지가 2개 이상인 경우에는, 가로 가지들 사이의 간격과 위치를 조사한다.　 만약, 끝점의 위치에 아래에서 두 번째 가로 가지가 있거나, 끝점이 위에서 첫 번째 가로 가지보다 위에 있는 경우에는 아래에서 첫 번째 가로 가지를 종성 분할 기준점으로 삼는다.　 반대의 경우, 즉, 끝점의 위치에 아래에서 첫 번째 가로 가지가 있거나, 끝점이 위에서 첫 번째 가로 가지보다 아래에 있는 경우에는, 만약, 위에서 첫 번째 가로 가지가 문자의 하부 영역에 위치한다면, 위에서 첫 번째 가로 가지 위를 종성 분할 기준점으로 삼고, 그렇지 않다면, 위에서 첫 번째 가로 가지가 초성의 영역이라는 것이므로, 아래에서 두 번째 가로 가지를 종성 분할 기준점으로 삼는다.

또한, 끝점이 2개인 경우, 첫 번째 끝점의 두께가 0이라면, 첫 번째 끝점이 세로 중성의 실제 끝점이라는 것이므로, 이 점을 종성 분할 기준점으로 삼고, 첫 번째 끝점이 첫 번째 가로 가지보다 아래에 있으면, 첫 번째 가로 가지가 종성의 일부라는 것이므로, 상기 첫 번째 가로 가지를 종성 분할 기준점으로 삼는다.

한편, 끝점이 2개, 가로 가지가 3개 이상인 경우에는, 아래에서 3번째 가로 가지 위의 세로 중성의 두께를 파악하여, 적당한 두께를 가진다면, 아래에서 3번째 가로 가지의 상부에서 세로 중성이 끝나지 않았다는 것이므로, 상기 아래에서 3번째 가로 가지의 위를 종성 분할 기준점으로 삼을 수 있다.　 반대로, 아래에서 3번째 가로 가지 위의 세로 중성이 적당한 두께를 가지지 않는다면 아래에서 3번째 가로 가지에서부터 아래에서 첫 번째 가로 가지까지의 세로 중성 두께를 조사하여 가장 얇은 곳을 종성 분할 기준점으로 삼는다.

그리고, 끝점이 3개 이상인 경우에는, 위에서 첫 번째 끝점을 종성 분할 기준점으로 하되 위에서 첫 번째 가로 가지가 상기 위에서 첫 번째 끝점보다 약간 위에 위치할 경우, 즉, 첫 번째 가로 가지와 첫 번째 끝점과의 간격이 소정 거리 이하일 경우에는, 첫 번째 가로 가지가 종성의 일부라는 것이므로, 첫 번째 가로 가지를 종성 분할 기준점으로 삼는다.

다음으로, 제14 유형에 속하는 문자의 종성 분할 기준점을 찾아내는 방법에 대해 설명한다.　 제14 유형에 속하는 문자의 세로 중성과 종성의 분할 기준점을 찾는 데에도 역시 가로 가지와 끝점의 위치 및 그 개수에 관한 정보가 이용된다.　

먼저, 제1 끝점이 종성 분할 기준점이 될 가능성이 크므로, 제1 끝점의 특징, 즉, 제1 끝점이 세로로 긴 세로 중성의 아래 끝점인지, 가로로 긴 가로 가지의 아래 끝점인지를 판별해낸다.

만약, 제1 끝점이 세로로 긴 세로 중성의 아래 끝점인 경우에는, 끝점의 개수에 따라 종성 분할 기준점이 달라질 수 있다.　 끝점의 개수가 2개 이상일 경우에는 첫 번째 끝점이 세로 중성의 실제 끝점이라는 것이므로 이러한 첫 번째 끝점을 중성과 종성 분할 기준점으로 삼는다.　 한편, 끝점의 개수가 1개인 경우에는 세로 중성이 "ㄱ" 또는 "ㅋ"과 같은 종성과 붙어있을 가능성이 크므로 첫 번째 끝점 주변을 조사하여 가장 두께가 얇아지는 지점을 종성 분할 기준점으로 삼거나, 발견되는 가로 가지의 윗부분을 종성 분할 기준점으로 삼을 수 있다.

만약, 제1 끝점이 가로로 긴 가로 가지의 아래 끝점인 경우에는, 세로 중성이 "ㄹ", "ㅁ", "ㅂ", "ㅇ" 과 같은 종성과 붙어있을 가능성이 크므로, 가지들의 특성, 특히, 세로 중성에 좌측으로 붙어있는 가로 가지들의 정보를 이용하여 종성 분할 기준점을 찾아야 한다.

만약, 가로 가지가 하나인 경우라면 그 가로 가지의 윗부분을 종성 분할 기준점으로 삼는다.

한편, 가로 가지가 2개인 경우라면 세로 중성에 "ㅂ", "ㅁ", "ㅅ" 과 같은 종성이 붙어 있을 가능성이 크다.　 제14 유형에 속하는 문자의 특성상 위에서 첫 번째 가로 가지는 중성의 일부이므로 위에서 두 번째 가로 가지가 제1 끝점의 위에 위치한다면 위에서 두 번째 가로 가지가 있는 지점의 윗 영역에서 두께가 가장 얇은 곳을 종성 분할 기준점으로 삼고, 위에서 두 번째 가로 가지가 제1 끝점의 아래에 위치한다면 위에서 첫 번째 가로 가지의 윗 영역에서 두께가 가장 얇을 곳을 종성 분할 기준점으로 삼는다.

그리고, 가로 가지가 3개 이상인 경우라면 세로 중성에 "ㄷ", "ㄹ", "ㅁ", "ㅂ", "ㅎ" 과 같은 종성이 붙어 있을 가능성이 크다.　 이 경우 아래에서 세 번째 가로 가지가 제1 끝점보다 아래에 있는지를 먼저 조사한다.　 만약, 아래에서 세 번째 가로 가지가 제1 끝점보다 아래에 있는 경우에는 위에서 첫 번째 가로 가지와 제1 끝점 사이에 종성 분할 기준점이 있다는 것이므로, 그 사이에서 두께를 조사하여 소정 두께 이하를 갖는 지점을 종성 분할 기준점으로 삼는다.　 한편, 아래에서 두 번째 가로 가지가 제1 끝점보다 아래에 있는 경우에는 위에서 첫 번째 가로 가지와 아래에서 세 번째 가로 가지 사이에 종성 분할 기준점이 존재한다는 것이므로, 해당 영역에서 두께를 조사하여 소정 두께 이하를 갖는 지점을 종성 분할 기준점으로 삼을 수 있다.　　 또한, 아래에서 첫 번째 가로 가지가 제1 끝점보다 아래에 있는 경우에는, 위에서 첫 번째 가로 가지와 아래에서 두 번째 가로 가지 사이에 종성 분할 기준점이 있다는 것이므로, 해당 영역에서 두께를 조사하여 소정 두께 이하를 갖는 지점을 종성 분할 기준점으로 삼는다.

한편, 가로 가지가 3개 이상인데 이 모든 경우가 아닌 경우에는 아래에서 세 번째 가로 가지와 아래에서 두 번째 가로 가지 사이에 종성 분할 기준점이 존재한다는 것이므로, 해당 영역에서 두께를 조사하여 소정 두께 이하를 갖는 지점을 종성 분할 기준점으로 삼을 수 있다.

이러한 방식으로 종성 분할 기준점을 찾아내었다면, 이를 이용하여 초성과 종성을 분류할 수 있다.　 도 7a 내지 도 7d는 종성 분할 기준점을 이용하여 초성과 종성을 분류하는 방식의 일례를 나타낸다.　

먼저, 종성 분할 기준점에서 좌측 방향으로 화이트 픽셀을 추적한다. 이 때, 그 추적 경로(710, 720, 730, 740)가 초성과 종성의 경계면이 될 수 있다. 만약, 도 7c 및 도 7d에 도시되는 바와 같이 같이, 그 추적 중에 블랙 픽셀을 만나지 않는다면, 그 추적 경로(730, 740)를 경계로 하여 초성과 종성을 분리할 수 있으며, 이로써 초성과 종성의 완전한 분리가 이루어진다.

그러나, 도 7a 및 도 7b에 도시되는 바와 같이, 종성 분할 기준점에서 좌측 방향으로 화이트 픽셀을 추적하는 중에 블랙 픽셀을 만나게 된다면, 해당 블랙 픽셀은 초성의 일부일 수도 있고 종성의 일부일 수도 있기 때문에, 소정의 과정을 거쳐 해당 블랙 픽셀을 초성 또는 종성의 일부로서 판별하여야 한다.　

이러한 판별에는 해당 블랙 픽셀에서부터 시계방향으로 경계선을 추적하여 그 추적 경로의 방향을 파악함으로써 상기 블랙 픽셀이 초성의 일부인지 종성의 일부인지를 판별해내는 방법이 이용될 수 있다.

예를 들어, 도 7a에 도시되는 바와 같이, 해당 블랙 픽셀로부터의 경계선 추적이 좌측 아래 방향일 때는 이를 초성의 일부로서 판별해낼 수 있다. 또한, 도 7b에 도시되는 바와 같이, 해당 블랙 픽셀에서의 경계선 추적이 우측 아래 방향으로 진행되는 경우에는 상기 블랙 픽셀을 종성의 일부로서 판별해낼 수 있다. 만약, 초성의 일부라고 판별된다면, 초성의 경계면을 시계 방향으로 추적하여 그 경로를 초성과 종성의 경계면으로 인식할 수 있다.　 이 때, 만약 시계 방향 추적시 추적 방향이 좌측 방향이라면 해당 경계는 초성의 경계가 되고, 반대로 우측으로 추적 방향이 변한다면 해당 경계는 종성의 경계가 되므로 추적 방향이 바뀌는 지점에서 좌측으로 접한 초성과 종성을 잘라서 구분할 수 있다.

반대로, 상기 블랙 픽셀이 종성의 일부라고 판별된다면 반시계 방향으로 경계면을 추적한다.　 추적시 추적 방향이 좌측 방향이라면 해당 경계면은 종성의 경계면이라는 것이고, 추적 방향이 우측으로 바뀔 때에는 초성의 경계면이라는 것이므로 이 방향의 전환점에서 우측으로 접한 초성과 종성을 구분지을 수 있다.　

한편, 초성과 종성이 붙어있지 않다면 경계면 추적시 방향이 변하지 않게되며, 단순히 이러한 추적 경로를 초성과 종성의 경계로 이용할 수 있다.

이러한 방식에 따라 제4 그룹의 자소 분할이 완료된다.

제5 그룹

제5 그룹에 속하는 문자는 가로 중성을 가지고 있으며, 초성, 가로 중성, 종성으로 구성된다는 특징이 있다.　 여기서, 상기 가로 중성은 세로 가지를 가지고 있을 수 있으며, 이러한 세로 가지는 초성의 일부, 중성의 일부, 또는 종성의 일부일 수도 있다.　

제5 그룹에 속하는 문자를 자소 분할하는 과정은 가로 중성의 위치를 파악하여 가로 중성을 분리해내는 과정, 가로 중성에 붙어 있는 세로 가지가 초성의 일부인지, 중성의 일부인지, 또는 종성의 일부인지를 판별해내는 과정을 포함한다.

이하, 도 8을 참조하여, 제5 그룹에 속하는 문자를 자소 분할하는 과정에 대해 설명하기로 한다.　 도 8a는 제16 유형에 속하는 문자에 대한 자소 분할 과정의 일례를 나타내고, 도 8b 및 도 8c는 제17 유형에 속하는 문자에 대한 자소 분할 과정의 일례를 나타낸다.

먼저, 이미지에 포함되어 있는 문자의 영역에서 각 횡마다 왼쪽에서 오른쪽으로 픽셀을 추적하여 블랙 픽셀이 처음으로 나타나는 시작점과 이 시작점에서부터 시작되어 연속되는 블랙 픽셀의 끝점을 찾아 이를 특징점으로서 저장한다.　 이 값들 중에서 가장 좌측에 시작점이 있는 횡 위치에 가로 중성이 위치할 가능성이 가장 크므로 그 위치를 저장해 둔다.

다음으로, 가로 중성으로 저장된 위치의 주위에서, 횡방향으로 연속되는 블랙 픽셀의 시작점과 끝점을 기준으로 초성과 가로 중성을 대략적으로 분리한다.　 본 발명의 일 실시예에 따르면, 도 8a에 도시되는 바와 같이, 분리된 가로 중성의 위쪽 경계선을 좌측에서부터 우측으로 추적하면서 초성과 가로 중성을 좀더 세밀하게 분리할 수 있다.　 제16 유형, 제18 유형에 속하는 문자는 가로 중성의 윗 방향으로 붙어 있는 세로 가지가 없으므로, 이 과정을 통해 초성과 중성의 분리가 완전히 이루어지게 된다.　 한편, 제17 유형에 속하는 문자의 경우에는 가로 중성의 윗 방향으로 세로 가지가 붙어 있으므로 이 과정만으로는 초성과 중성을 완전히 분리해낼 수 없다.

이 때문에, 제17 유형에 속하는 문자에 있어서 초성과 중성을 분리하려면, 먼저, 도 8b에 도시되는 바와 같이, 가로 중성의 위쪽 경계선을 추적하는 과정에서 세로 가지(805)가 발견된다면 그 위치를 저장해두어야 한다.　 그 후, 도 8c에 도시되는 바와 같이, 저장된 세로 가지(805)의 위치에서 세로 가지(805)의 경계선을 따라 위쪽 방향으로 추적을 수행한다.　 세로 가지(805)가 초성과 붙어있지 않은지를 검사하여 만약 붙어있지 않다면 세로 가지(805)의 위쪽 끝을 초성과 중성의 경계로 삼아 양자를 분리해낼 수 있다.　 반대로, 세로 가지(805)의 위쪽 끝이 초성과 붙어있다면 그 붙어있는 위치일 가능성이 가장 큰 지점인 세로 가지(805)의 경계선 방향이 급격히 변하는 지점을 경계로 세로 가지(805)와 초성을 분리해낼 수 있다.

이러한 방식으로 가로 중성과 초성을 분리하였다면, 가로 중성의 아래쪽 경계선을 좌측에서 우측으로 추적하여 가로 중성과 종성을 분리해낸다.　 제17 유형, 제18 유형에 속하는 문자는 가로 중성의 아래에 세로 가지가 붙어있지 않으므로, 이 과정만으로 중성과 종성이 완전히 분할될 수 있다.　 한편, 제16 유형에 속하는 문자의 경우에는 가로 중성의 아래 방향으로 세로 가지가 붙어 있을 수 있으므로 이 과정만으로는 초성과 중성을 완전히 분리해낼 수 없다.　

도 8d는 제16 유형에 속하는 문자에 대해 중성과 종성을 분할해내는 과정의 일례를 나타낸다.　

먼저, 가로 중성의 아래 경계선을 좌측에서 우측으로 추적하면서 세로 가지(815)가 발견되는 위치를 저장한다.　 그 후, 도 8d에 도시되는 바와 같이, 저장된 위치에서 세로 가지(815)의 경계선을 아래 방향으로 추적한다.　 이 과정에서 세로 가지(815)가 종성과 붙어있는지 여부를 검사한 후, 만약 붙어있지 않다면 세로 가지(815)를 간단히 종성과 분리해낸다.　 반대로, 세로 가지(815)가 종성과 붙어 있는 경우에는 세로 가지(815)의 경계선 방향이 급격히 변하는 지점을 경계로 세로 가지(815)와 종성을 분리해낼 수 있다.

제6 그룹

제6 그룹에 속하는 문자는 가로 중성과 세로 중성을 모두 가지고 있으며, 초성, 가로 중성, 세로 중성, 종성으로 구성된다는 특징이 있다.　 제6 그룹에 속하는 문자의 자소 분할은 가로 중성과 세로 중성의 위치를 파악하고 이를 통해 초성, 중성, 종성을 분리함으로써 이루어진다.

이하, 도 9를 참조하여 제6 그룹에 속하는 문자에 대한 자소 분할 과정에 대해 설명하기로 한다.

먼저, 도 9a에 도시되는 바와 같이, 이미지로 표현되는 문자의 각 횡마다 좌측에서 우측으로 픽셀을 추적하여 블랙 픽셀이 나타내는 시작점(SP)과 이 시작점에서부터 연속되는 블랙 픽셀의 끝나는 끝점(EP)을 특징점으로서 저장한다.　 이 특징점들 중에서 가장 좌측에 시작점(SP)이 있는 횡 위치에 가로 중성이 위치하고 있을 가능성이 가장 크므로 그 위치(MSP)를 저장해둔다.

다음으로, 가로 중성이 위치하고 있을 가능성이 가장 큰 위치(MSP) 주위를 조사하여 가로 중성의 위쪽 경계점을 찾는다.　 이 경계점으로부터 가로 중성의 위쪽 경계선을 추적하면서 가로 중성과 초성을 분리해낼 수 있다.　 제19 유형에 속하는 문자는 가로 중성의 윗 방향으로 세로 가지가 붙어있지 않으므로 이 과정에서 가로 중성과 초성이 분리될 수 있다.　 한편, 제20 유형에 속하는 문자는 가로 중성의 윗 방향으로 붙어있는 세로 가지를 가지고 있으므로 이 과정만으로 가로 중성과 초성이 분리될 수 없다.

도 9b는 제20 유형에 속하는 문자의 가로 중성과 초성을 분리해내는 과정의 일례를 나타낸다.

먼저, 도 9b에 도시되는 바와 같이, 가로 중성의 위쪽 경계선을 추적하는 과정에서 가로 중성의 윗 방향으로 붙어있는 세로 가지(905)가 발견된다면 그 위치를 저장하고, 해당 위치에 존재하는 세로 가지(905)의 경계선을 추적한다.　 세로 가지(905)가 초성과 분리되어 있는 경우에는 세로 가지(905)의 경계선 추적으로부터 초성과 분리해낼 수 있다.　 한편, 세로 가지(905)가 초성의 일부인 경우에는 세로 가지(905)의 경계선 방향이 급격히 변하는 지점을 경계로 하여 초성과 세로 가지(905)를 분리해낼 수 있다.

또한, 제6 그룹에 속하는 문자에 있어서는 가로 중성의 윗 방향으로 붙어 있는 세로 가지(905)들 중 가장 우측에 위치하는 것이 세로 중성이 된다.　

도 9c는 제6 그룹에 속하는 문자에 대해 세로 중성과 초성을 분리해내는 과정의 일례를 나타낸다.

도 9c에 도시되는 바와 같이, 세로 중성(910)은 가로 중성과의 연결점 외에는 가로 중성 위쪽에서는 좌측으로 가로 가지를 갖지 않으므로 세로 중성(910)의 왼쪽 경계선을 추적하여 가지가 발견되면 이를 초성의 일부로서 인식하고, 이를 경계로 하여 초성과 세로 중성(910)을 분리해낼 수 있다.

다음으로, 가로 중성의 아래쪽 경계선을 추적하여 가로 중성과 종성을 분리한다.　 제20 유형에 속하는 문자는 가로 중성의 아래 방향으로 세로 가지가 붙어있지 않으므로, 이 과정만으로 가로 중성과 종성이 완전히 분리될 수 있다.　 한편, 제19 유형에 속하는 문자는 가로 중성의 아래 방향으로 세로 가지를 갖고 있기 때문에 이 과정만으로는 가로 중성과 종성이 완전히 분리될 수 없다.

도 9d는 제19 형에 속하는 문자에 대해 가로 중성과 종성을 분리해내는 과정의 일례를 나타낸다.

도 9d에 도시되는 바와 같이, 가로 중성의 아래 방향으로 붙어있는 세로 가지들 중 가장 우측에 있는 가지(911)는 언제나 중성의 일부이다.　 한편, 가장 우측에서 두 번째 위치하는 가지(913)는 중성의 일부일 수도 있고, 종성의 일부일 수도 있다.　 가장 우측에서 두 번째 위치하는 가지(913)에 대해서는 그 경계선을 추적하여 종성과 분리되어 있으면 이를 중성의 일부로서 인식하고, 종성과 분리되어 있지 않은 경우에는 경계선 방향이 급격히 변하는 지점이 있다면 그 지점을 경계로 종성과 분리해낼 수 있다.　 한편, 가로 중성의 아래 방향으로 붙어있는 세로 가지가 3개 이상일 경우에는 우측에서 첫 번째 및 두 번째 세로 가지를 세로 중성으로 가정하고 이를 위와 아래 방향으로 추적하여 확인해봄으로써 세로 중성이 맞는지를 판별해낼 수 있으며, 이를 통해 세로 중성과 종성 또한 분리해낼 수 있다.

한편, 제19 유형에 속하는 문자의 세로 중성과 종성을 분리해내기 위해서는 도 9e에 의해 설명되는 방법이 이용될 수 있다.　 즉, 가로 중성의 좌측에서 첫 번째 세로 가지의 아래쪽 끝단(950)을 이용하는 방식인데, 이러한 끝점에서 시작하여 우측으로 화이트 픽셀을 추적하여 중성과 종성을 분리해낼 수 있으며, 추적 과정에서 블랙 픽셀이 나타나는 경에는 이 블랙 픽셀이 중성의 일부인지, 종성의 일부인지, 또는 중성과 종성의 접합 부분이라서 절단되어야 하는지를 주위 정보를 이용하여 판단함으로써, 중성과 종성이 분리될 수 있다.

이렇게 함으로써 제6 그룹에 속하는 문자들에 대한 자소 분할이 완료될 수 있다.

자소 분할의 후처리

어떠한 문자에 대해서 자소 분할을 하게 되면, 초성, 중성, 종성의 일부가 다른 자소의 일부로서 인식된 '노이즈' 영역이 생길 수 있다.　 본 발명에서는 이러한 노이즈 영역을 본래의 영역으로 되돌려 더욱더 정확한 자소 분할을 실현한다.

도 10은 '건'이라는 문자에 대한 자소 분할 결과의 일례를 나타낸다.　 이하에서는, 도 10을 참조하여, 자소 분할의 후처리 과정에 대해 설명하기로 한다.

'건'이라는 문자가 자소 분할되면 도 10에 도시되는 바와 같은 잘못된 결과가 얻어질 수도 있다.　 즉, 중성의 일부가 초성의 일부로서 잘못 인식된 노이즈(1000)가 생길 수도 있다.

이를 바로 잡기 위해 먼저 초성, 중성, 종성 영역에 대해 각 구성요소의 경계선을 추적하여 연속된 요소(connected component: CC)들을 찾아낸다.　 각 자소는 일 이상의 연속된 요소들을 포함할 수 있으며, 노이즈의 양에 비례하여 그 개수가 많아질 수도 있다.　 예를 들어, "박"이라는 문자가 올바르게 자소 분할 되었다면, 초성, 중성, 종성의 각 연속된 요소 개수는 각각 1개여야 한다.　

다음으로, 연속된 요소들의 개수와 각각의 위치 정보 및 경계선 정보를 이용하여 노이즈를 찾아낸다. 뿐만 아니라, 연속된 요소들 중 어느 요소의 면적이 작다면 이를 노이즈로 취급해서 올바른 영역으로 바꾸어 줄 수도 있다.

초성은 통상적으로 문자의 상단 좌측에 위치하므로 극우측, 또는 하단 쪽에 존재하는 초성의 연속된 요소는 노이즈일 수 있다.　 또한, 연속된 요소가 차지하는 면적이 다른 요소에 비해 상대적으로 작으면 이 또한 노이즈일 수 있다.

중성은 문자의 우측에서 상하로 길게 존재하는 세로 중성, 또는 문자의 중앙에서 가로로 길게 존재하는 가로 중성일 수 있으므로 자소 분할의 결과 상기와 같은 중성의 통상적인 위치에 있으면서도 중성으로 인식되지 않은 노이즈를 중성의 일부로 변경할 수 있다.

한편, 종성은 통상적으로 문자의 하단 또는 우측 하단에 존재하므로 그 위치에 있으면서도 자소 분할 결과 종성으로 인식되지 않은 노이즈는 종성의 일부로서 변경할 수 있다.

도 10에서는 초성에 포함되는 연속된 요소 중 하나가 다른 요소에 비해 상대적으로 작은 면적을 차지하고 있으며, 문자의 좌측에 위치하지도 않으므로 노이즈(1000)로서 인식될 수 있고, 이러한 노이즈가 후처리 과정을 거쳐 중성의 일부로서 정정될 수 있을 것이다.

자소 분할은 문자에 대한 유형 분류가 잘못되는 경우 또는 유형 분류는 올바르게 되었으나 자소 분할 과정에서의 오류가 생기는 경우 등에 의해 잘못된 결과를 출력할 수 있다.　 본 발명에서는, 이러한 오류를 정정하는 자소 분할의 후처리 과정을 추가함으로써, 잘못된 자소 분할을 바로 잡거나, 깨끗하게 이루어지지 못한 자소 분할을 바로 잡음으로써, 자소 분할의 성능을 보다 높일 수 있다.

이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다.　 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.　 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.　 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.　 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다.　 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시 예들에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims

이미지에 포함된 한글 문자로서, 초성 및 세로로 긴 세로 중성으로 구성된 한글 문자의 자소를 분할하기 위한 방법으로서,

(a) 상기 한글 문자의 우측에서 좌측으로 횡방향 추적하여 세로 중성을 분리하는 기준점을 찾아내는 단계, 및

(b) 상기 기준점을 기준으로 상기 세로 중성의 좌측 경계선을 추적하여 초성과 분리하는 단계

를 포함하는 방법.
제1항에 있어서,

상기 세로 중성은 1개 또는 2개인 것을 특징으로 하는 방법.
제2항에 있어서,

상기 (a) 단계에서,

상기 세로 중성을 분리하는 기준점은 상기 세로 중성의 가장 좌측 경계선 상에 존재하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 (b) 단계는,

상기 세로 중성의 좌측 경계선에 가로로 붙어있는 가로 가지가 있는 경우, 그 위치를 저장하고 상기 가로 가지와 상기 세로 중성을 절단하여 상기 세로 중성만을 우선적으로 중성 영역으로 판단하는 단계를 포함하는 것을 특징으로 하는 방법.
제4항에 있어서,

상기 가로 가지의 위치에서 상기 가로 가지의 위와 아래 경계선을 왼쪽으로 추적하여 상기 경계선이 왼쪽 방향에서 위와 아래 방향으로 급격히 변하는 지점이 있는 경우, 이를 상기 가로 가지가 끝나는 지점으로 지정하고, 상기 가로 가지를 상기 중성 영역으로 판단하는 단계를 포함하는 것을 특징으로 하는 방법.
제4항에 있어서,

상기 가로 가지의 위치에서 상기 가로 가지의 위와 아래 경계선을 왼쪽으로 추적하여 상기 경계선이 왼쪽 방향에서 위와 아래 방향으로 급격히 변하는 지점이 없는 경우, 상기 가로 가지를 초성 영역으로 판단하는 단계를 포함하는 것을 특징으로 하는 방법.
이미지에 포함된 한글 문자로서, 초성 및 가로로 긴 가로 중성으로 구성된 한글 문자의 자소를 분할하기 위한 방법으로서,

(a) 상기 한글 문자의 하측에서 상측으로 종방향 추적하여 가로 중성을 분리하는 기준점을 찾아내는 단계, 및

(b) 상기 기준점을 기준으로 상기 가로 중성의 상측 경계선을 추적하여 초성과 분리하는 단계

를 포함하는 방법.
제7항에 있어서,

상기 (b) 단계는,

상기 가로 중성의 상측 경계선에 세로로 붙어있는 세로 가지가 있는 경우, 그 위치를 저장하고 상기 세로 가지와 상기 가로 중성을 절단하여 상기 가로 중성만을 우선적으로 중성 영역으로 판단하는 단계를 포함하는 것을 특징으로 하는 방법.
제8항에 있어서,

상기 세로 가지의 위치에서 상기 세로 가지의 좌측과 우측 경계선을 위쪽으로 추적하여 상기 경계선이 위쪽 방향에서 좌측과 우측 방향으로 급격히 변하는 지점이 있는 경우, 이를 상기 세로 가지가 끝나는 지점으로 지정하고, 상기 세로 가지를 상기 중성 영역으로 판단하는 단계를 포함하는 것을 특징으로 하는 방법.
이미지에 포함된 한글 문자로서, 초성, 가로로 긴 가로 중성, 및 세로로 긴 세로 중성으로 구성된 한글 문자의 자소를 분할하기 위한 방법으로서,

(a) 상기 한글 문자의 하측에서 상측으로 종방향 추적하여 가로 중성을 분리하는 기준점을 찾아내는 단계,

(b) 상기 기준점을 기준으로 상기 가로 중성의 상측 경계선을 추적하여 초성과 분리하는 단계, 및

(c) 상기 가로 중성의 오른쪽 끝에 세로 가지가 붙어 있으면 이를 세로 중성으로 인식하여 이를 초성과 분리하고, 상기 가로 중성의 오른쪽 끝에 세로 가지가 붙어 있지 않으면 상기 세로 가지를 세로 중성으로 인식하는 단계

를 포함하는 방법.
이미지에 포함된 한글 문자로서, 초성, 세로로 긴 세로 중성, 및 종성으로 구성된 한글 문자의 자소를 분할하기 위한 방법으로서,

(a) 상기 한글 문자의 우측에서 좌측으로 횡방향 추적하여 세로 중성을 분리하는 기준점을 찾아내는 단계,

(b) 상기 기준점을 기준으로 상기 세로 중성의 좌측 경계선을 추적하여 초성과 분리하는 단계, 및

(c) 상기 좌측 경계선 상에 존재하는 종성 분할 기준점으로부터 좌측으로 횡방향 추적하여 상기 종성을 상기 세로 중성과 분리하는 단계

를 포함하는 방법.
제11항에 있어서,

상기 (c) 단계는,

상기 종성 분할 기준점은 상기 세로 중성의 좌측 경계선 상에서 상기 세로 중성의 연속이 끝나는 지점으로 정해지는 것을 특징으로 하는 방법.
제11항에 있어서,

상기 (c) 단계는,

상기 세로 중성의 좌측 경계선에 가로로 붙어있는 일 이상의 가로 가지들 중 선택되는 가로 가지의 윗부분을 상기 종성 분할 기준점으로 정하고 이를 기준으로 상기 종성을 분리하는 것을 특징으로 하는 방법.
제13항에 있어서,

상기 기준이 되는 가로 가지는 상기 일 이상의 가로 가지들 중 최상단 가지인 것을 특징으로 하는 방법.
제13항에 있어서,

상기 세로 중성과 상기 종성이 붙어있고 상기 세로 중성의 좌측 경계선에 가로로 붙어있는 가로 가지가 2개 이상인 경우, 상기 세로 중성의 연속이 끝나는 지점에 상기 가로 가지들 중 아래에서 두 번째 가로 가지가 위치하고 있거나 상기 세로 중성의 연속이 끝나는 지점이 상기 가로 가지들 중 최상단 가로 가지보다 위에 위치하고 있다면, 상기 기준이 되는 가로 가지는 최하단 가지이며, 그렇지 않다면, 상기 기준이 되는 가로 가지는 상기 일 이상의 가로 가지들 중 밑에서 두 번째 가지인 것을 특징으로 하는 방법.
제13항에 있어서,

상기 세로 중성의 좌측 경계선에 가로로 붙어있는 가로 가지가 3개 이상인 경우, 상기 기준이 되는 가로 가지는 상기 일 이상의 가지들 중 밑에서 세 번째 가지인 것을 특징으로 하는 방법.
제11항에 있어서,　

(d) 상기 종성 분할 기준점으로부터 횡방향 추적하다가 블랙 픽셀과 만나는 지점으로부터 시계 방향으로 경계선을 따라 추적한 정보를 기초로 상기 초성과 종성을 분리하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제17항에 있어서,

상기 (d) 단계는,

상기 만나는 지점으로부터 상기 경계선을 따라 추적하는 방향이 좌측 하단으로 진행되는 경우라면 상기 블랙 픽셀 부분을 초성에 포함시키고, 상기 경계선 방향이 우측 하단으로 진행되는 경우라면 상기 블랙 픽셀 부분을 종성에 포함시킴으로써 수행되는 것을 특징으로 하는 방법.
제11항에 있어서,

상기 (a) 단계는,

상기 세로 중성은 1개 또는 2개인 것을 특징으로 하는 방법.
제11항에 있어서,

상기 (b) 단계는,

상기 세로 중성의 좌측 경계선에 가로로 붙어있는 가로 가지가 있는 경우, 그 위치를 저장하고 상기 가로 가지와 상기 세로 중성을 절단하여 상기 세로 중성만을 우선적으로 중성 영역으로 판단하는 단계를 포함하는 것을 특징으로 하는 방법.
제20항에 있어서,

상기 가로 가지의 위치에서 상기 가로 가지의 위와 아래 경계선을 왼쪽으로 추적하여 상기 경계선이 왼쪽 방향에서 위와 아래 방향으로 급격히 변하는 지점이 있는 경우, 이를 상기 가로 가지가 끝나는 지점으로 지정하고, 상기 가로 가지를 상기 중성 영역으로 판단하는 단계를 포함하는 것을 특징으로 하는 방법.
이미지에 포함된 한글 문자로서, 초성, 가로로 긴 가로 중성, 및 종성으로 구성된 한글 문자의 자소를 분할하기 위한 방법으로서,

(a) 상기 한글 문자의 좌측에서 우측으로 횡방향 추적하여 상기 문자의 제일 좌측에서부터 시작되는 가로 중성의 위치를 찾아내는 단계,

(b) 상기 가로 중성의 상측 경계선을 추적하여 초성과 분리하는 단계, 및

(c) 상기 가로 중성의 하측 경계선을 추적하여 종성과 분리하는 단계

를 포함하는 방법.
제22항에 있어서,

상기 (b) 단계는,

상기 가로 중성의 상측 경계선에 세로로 붙어있는 세로 가지가 있는 경우, 그 위치를 저장하고 상기 세로 가지와 상기 가로 중성을 절단하여 상기 가로 중성만을 우선적으로 중성 영역으로 판단하는 단계를 포함하는 것을 특징으로 하는 방법.
제23항에 있어서,

상기 세로 가지의 위치에서 상기 세로 가지의 좌측과 우측 경계선을 위쪽으로 추적하여 상기 경계선이 위쪽 방향에서 좌측과 우측 방향으로 급격히 변하는 지점이 없는 경우, 상기 세로 가지를 초성 영역으로 판단하는 단계를 포함하는 것을 특징으로 하는 방법.
제22항에 있어서,

상기 (c) 단계는,

상기 가로 중성의 하측 경계선에 세로로 붙어있는 세로 가지가 있는 경우, 그 위치를 저장하고 상기 세로 가지와 상기 가로 중성을 절단하여 상기 가로 중성만을 우선적으로 중성 영역으로 판단하는 단계를 포함하는 것을 특징으로 하는 방법.
제25항에 있어서,

상기 세로 가지의 위치에서 상기 세로 가지의 좌측과 우측 경계선을 아래쪽으로 추적하여 상기 경계선이 아래쪽 방향에서 좌측과 우측 방향으로 급격히 변하는 지점이 없는 경우, 상기 세로 가지를 종성 영역으로 판단하는 단계를 포함하는 것을 특징으로 하는 방법.
이미지에 포함된 한글 문자로서, 초성, 가로로 긴 가로 중성, 세로로 긴 세로 중성, 및 종성으로 구성된 한글 문자의 자소를 분할하기 위한 방법으로서,

(a) 상기 한글 문자의 좌측에서 우측으로 횡방향 추적하여 상기 문자의 제일 좌측에서부터 시작되는 가로 중성의 위치를 찾아내는 단계,

(b) 상기 가로 중성의 상측 경계선을 추적하여 초성과 분리하는 단계,

(c) 상기 가로 중성에 세로로 붙어있는 일 이상의 가지들 중 제일 우측에 위치하는 세로 가지를 세로 중성으로 인식하여 이를 초성과 분리하는 단계, 및

(d) 상기 가로 중성의 하측 경계선을 추적하여 종성과 분리하는 단계

를 포함하는 방법.
제27항에 있어서,

상기 (b) 단계는,

상기 가로 중성의 상측 경계선에 세로로 붙어있는 세로 가지가 있는 경우, 그 위치를 저장하고 상기 세로 가지와 상기 가로 중성을 절단하여 상기 가로 중성만을 우선적으로 중성 영역으로 판단하는 단계를 포함하는 것을 특징으로 하는 방법.
제28항에 있어서,

상기 세로 가지의 위치에서 상기 세로 가지의 좌측과 우측 경계선을 위쪽으로 추적하여 상기 경계선이 위쪽 방향에서 좌측과 우측 방향으로 급격히 변하는 지점이 없는 경우, 상기 세로 가지를 초성 영역으로 판단하는 단계를 포함하는 것을 특징으로 하는 방법.
제27항에 있어서,

상기 (d) 단계는,

상기 가로 중성의 하측 경계선에 세로로 붙어있는 세로 가지가 일 이상 있는 경우, 가장 우측에 위치하는 세로 가지를 중성 영역으로 판단하는 단계, 및

상기 일 이상의 세로 가지들 중 상기 가장 우측에 위치하는 세로 가지를 제외한 세로 가지의 좌측과 우측 경계선을 아래쪽으로 추적하여 상기 경계선이 아래쪽 방향에서 좌측과 우측 방향으로 급격히 변하는 지점이 없는 경우, 상기 세로 가지를 종성 영역으로 판단하는 단계를 포함하는 것을 특징으로 하는 방법.
제27항에 있어서,

상기 (c) 단계는,

상기 가로 중성의 제일 우측 부분에 세로 가지가 붙어 있지 않고 떨어져 있더라도 상기 세로 가지를 세로 중성을 인식하여 이를 초성과 분리하는 단계를 포함하는 것을 특징으로 하는 방법.
한글 문자에 대해 초성, 중성, 종성으로 자소 분할한 결과를 정정하기 위한 방법으로서,

(a) 자소 분할된 초성, 중성, 종성을 각각 구성하는 연속된 요소(connected component: CC)에 대한 정보를 파악하는 단계, 및

(b) 한글 문자를 구성하는 초성, 중성, 종성의 CC의 수, 상기 CC의 위치 정보 및 상기 CC의 경계 정보를 이용하여, 잘못 분할된 요소를 올바른 분할 영역으로 변경하는 단계

를 포함하는 방법.
제32항에 있어서,

상기 (b) 단계는,

상기 CC들 중 면적이 작은 부분을 노이즈로 취급하여, 잘못 분할된 요소를 올바른 분할 영역으로 변경하는 것을 특징으로 하는 방법.
제1항 내지 제33항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.