KR100921689B1 - 언어 인식을 이용하여 이종의 언어를 포함하는 문서의문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한기록 매체 - Google Patents

언어 인식을 이용하여 이종의 언어를 포함하는 문서의문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한기록 매체 Download PDF

Info

Publication number
KR100921689B1
KR100921689B1 KR1020080042707A KR20080042707A KR100921689B1 KR 100921689 B1 KR100921689 B1 KR 100921689B1 KR 1020080042707 A KR1020080042707 A KR 1020080042707A KR 20080042707 A KR20080042707 A KR 20080042707A KR 100921689 B1 KR100921689 B1 KR 100921689B1
Authority
KR
South Korea
Prior art keywords
language
string
character
height
recognizing
Prior art date
Application number
KR1020080042707A
Other languages
English (en)
Inventor
최원효
성기준
강재우
양병석
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020080042707A priority Critical patent/KR100921689B1/ko
Application granted granted Critical
Publication of KR100921689B1 publication Critical patent/KR100921689B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 광학 문자 인식 기법에 있어서 문서에 포함된 언어의 종류를 인식하여 적절하게 구분함으로써 정확하게 문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다. 본 발명의 일 태양에 따르면, 적어도 두 개의 언어가 혼합된 문서 이미지에 포함된 문자열의 언어를 인식하는 방법에 있어서, 상기 문서 이미지에 포함된 상기 문자열을 구성하는 적어도 하나의 연결 성분을 인식하는 단계, 및 상기 인식된 연결 성분을 분석하여 상기 문자열 내에 포함된 문자들의 언어에 관한 정보를 인식하는 단계를 포함하는 방법이 제공된다.
언어 인식, 문자 분할, OCR, 영한 혼용

Description

언어 인식을 이용하여 이종의 언어를 포함하는 문서의 문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체{METHOD, SYSTEM, AND COMPUTER-READABLE RECORDING MEDIUM FOR SEGMENTING CHARACTERS COMPRISED OF A PLURALITY OF LANGUAGES INCLUDED IN A DOCUMENT BY USING LANGUAGE RECOGNITION}
문서에 포함된 복수의 언어의 특징을 분석함으로써 언어 인식을 수행하여 정확하게 문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체에 관한 것으로서, 보다 상세하게는, 소정의 단위 문자열에 포함된 연결 성분(Connected Component)을 획득하고, 한 워드 안의 연결 성분들이 세로로 소정 비율 이상 겹치는지 여부, 한 워드 안에서의 베이스라인(baseline)의 특징, 연속된 연결 성분들의 높이, 크기, 비율의 상관 관계 등을 이용하여 언어를 결정한 후, 결정된 언어에 따라 문자를 분할하는 방법, 시스템, 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
최근, 디지털 저장 매체의 급속한 보급에 따라 기존에 지면 상으로 존재하였던 문서들에 대한 디지털화 작업이 활발히 전개되고 있다. 이와 같은 현상은 지면 등에 나타난 문자를 자동으로 인식하는 기술인 광학 문자 인식 기술(Optical Character Recognition : OCR)의 발전에 따라 더욱 더 가속화되고 있는 실정이다.
이미지 안의 문자를 텍스트로 판독해 내기 위해서는 글자 단위로 문자를 분할하는 기술이 상당히 중요한데, 이는 문서 안에 존재하는 언어의 종류가 무엇인가에 따라 많은 영향을 받게 된다. 문서 안에 한 종류의 언어가 존재하는 경우는 문자를 분할하는 과정이 상대적으로 수월하게 수행될 수 있지만, 문서 내에 복수의 언어가 존재하는 경우, 가령 한글과 알파벳이 혼합되어 존재하는 경우에는 문자의 분할이 용이하지 않을 수 있다.
문자를 분할하는 기술로서 분할과 인식을 동시에 사용하면서 언어의 종류를 파악해 나가는 내적 분할(Internal Segmentation) 방법과 인식 과정 없이 문자 또는 문자의 구성 요소들 간에 서로 연관된 위치와 모양에 기초하여 언어의 종류를 파악하는 외적 분할(External Segmentation) 방법이 있다. 특히, 이 중 External segmentation 방법에 따르면, 인식할 언어의 종류에 따라 서로 다른 문자 분할 방법이 사용되기 마련이다. 따라서, 문자 분할 전(前)단계에서 이루어지는 언어 인식의 역할이 크다고 할 수 있다.
그러나, 이와 같이 이종의 언어가 포함된 문서에 있어서, 문자를 분할하는 기술에 관한 종래의 학술적 연구는 활발하지 못한 실정이다. 또한, OCR에 있어서 문자를 분할하는 기능을 수행하는 종래의 상용 프로그램의 성능도 이종의 언어가 포함된 문서에 있어서 그리 만족할만한 수준의 성능을 보이지 못하고 있는 것도 사실이다.
도 1은 한글과 영어가 혼용되어 있는 이미지와 그에 대한 종래 상용 프로그 램들의 문자 분할 결과를 나타내는 도면이다.
도 1에서 살필 수 있듯이, 도 1의 (a)와 같은 이미지에 포함된 문자를 인식함에 있어서, 해외의 iDRS 프로그램에 의하면 영어 인식은 무난하게 되었으나, 한글 "에" 부분이 제대로 문자 분할되지 않았으며, 국내의 아르미 프로그램에 의해도 한글 "에" 부분이 제대로 분할되지 못하는 것을 확인할 수 있다.
따라서, 본 발명의 목적은, 상기와 같은 종래 기술의 문제점을 모두 해결하기 위하여, 이종의 언어가 포함된 문서의 문자를 인식하기 위하여 언어 인식을 통하여 문자 분할을 효과적으로 수행할 수 있도록 하는 것이다.
또한, 본 발명의 다른 목적은, 이종의 언어가 포함된 문서에 있어서, 각각의 언어로 명확하게 나누지 않고서도 문자 분할을 성공적으로 수행할 수 있도록 하는 것이다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.
본 발명의 일 태양에 따르면, 적어도 두 개의 언어가 혼합된 문서 이미지에 포함된 문자열의 언어를 인식하는 방법에 있어서, 상기 문서 이미지에 포함된 상기 문자열을 구성하는 적어도 하나의 연결 성분을 인식하는 단계, 및 상기 인식된 연결 성분을 분석하여 상기 문자열 내에 포함된 문자들의 언어에 관한 정보를 인식하는 단계를 포함하는 방법이 제공된다.
본 발명의 다른 태양에 따르면, 적어도 두 개의 언어가 혼합된 문서 이미지에 포함된 문자열을 분할하는 방법에 있어서, 상기 문자열을 제1 언어 집단과 제2 언어 집단으로 구분하는 단계, 및 상기 제1 및 제2 언어 집단으로 구분된 상기 문자열에 대하여 각각 기설정된(predetermined) 제1 문자 분할 기술 및 제2 문자 분 할 기술을 적용하여 상기 문자열을 분할하는 단계를 포함하되, 상기 제1 언어 집단에 해당되는 문자는 상기 제1 문자 분할 기술에 의해 상기 문자의 가로 대 세로 비율을 참조하여 문자 분할되어야 하고, 상기 제2 언어 집단에 해당되는 문자는 상기 제2 문자 분할 기술에 의해 연결 성분 단위로 문자 분할되어도 되는 것을 특징으로 하는 방법이 제공된다.
본 발명의 또 다른 태양에 따르면, 적어도 두 개의 언어가 혼합된 문서 이미지에 포함된 문자열을 분할하는 시스템에 있어서, 상기 문서 이미지에 포함된 상기 문자열을 구성하는 적어도 하나의 연결 성분을 인식하고, 상기 인식된 연결 성분을 분석하여 상기 문자열 내에 포함된 문자들의 언어에 관한 정보를 인식하는 언어 인식부, 및 상기 언어 인식부에 의해 인식된 언어 정보에 기초하여 상기 문자열에 포함된 문자들을 분할하는 문자 분할부를 포함하는 시스템이 제공된다.
본 발명의 또 다른 태양에 따르면, 적어도 두 개의 언어가 혼합된 문서 이미지에 포함된 문자열을 분할하는 시스템에 있어서, 상기 문자열을 제1 언어 집단과 제2 언어 집단으로 구분하는 언어 인식부, 상기 제1 및 제2 언어 집단으로 구분된 상기 문자열에 대하여 각각 기설정된 제1 문자 분할 기술 및 제2 문자 분할 기술을 적용하여 상기 문자열을 분할하는 문자 분할부를 포함하되, 상기 제1 언어 집단에 해당되는 문자는 상기 제1 문자 분할 기술에 의해 상기 문자의 가로 대 세로 비율을 참조하여 문자 분할되어야 하고, 상기 제2 언어 집단에 해당되는 문자는 상기 제2 문자 분할 기술에 의해 연결 성분 단위로 문자 분할되어도 되는 것을 특징으로 하는 시스템이 제공된다.
이 외에도, 다른 방법, 시스템, 및 상기 방법들을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명의 특징적인 구성으로 인해 달성되는 본 발명의 효과는 다음과 같다.
1. 본 발명에 따르면, 이종의 언어가 혼합된 문서에 대하여 종래의 상용 OCR 프로그램보다 문자 분할의 정확도를 높일 수 있는 효과를 누릴 수 있다.
2. 본 발명에 따르면, 이종의 언어가 혼합된 문서에 대하여 언어에 대한 인식이 정확하지 못한 상황에서도 높은 정확도로 문자 분할을 수행할 수 있다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
[본 발명의 바람직한 실시예]
도 2는 본 발명의 일 실시예에 따른 광학 문자 인식기(200)의 구성을 예시적으로 나타내는 도면이다.
도 2를 참조하면, 문자 인식기(200)는 영상 정보 입력부(210), 문서 구조 분석부(220), 세그멘테이션부(230), 문자 정규화부(240), 문자 인식부(250), 제어부(260), 및 통신부(270)를 포함할 수 있다. 본 발명의 일 실시예에 따르면, 영상 정보 입력부(210), 문서 구조 분석부(220), 세그멘테이션부(230), 문자 정규화부(240), 문자 인식부(250), 제어부(260), 및 통신부(270)는 그 중 적어도 일부가 문자 인식기(200)와 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈로서 문자 인식기(200)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 문자 인식기(200)와 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되 지는 않는다.
본 발명의 일 실시예에 따른 문자 인식기(200)는 스캐너, 카메라 등과 같은 화상 데이터 생성 장치에 포함되거나, 화상 데이터 생성 장치와 연결될 수 있을 것이다.
본 발명의 다른 실시예에 따른 문자 인식기(200)는 개인용 컴퓨터(예를 들어, 데스크탑 컴퓨터, 노트북 컴퓨터, 태블릿 컴퓨터, 팜톱 컴퓨터 등), 워크스테이션, PDA, 웹 패드, 이동 전화기 등과 같은 디지털 기기에 포함되거나, 디지털 기기와 통신 네트워크를 통하여 통신할 수도 있다. 여기서, 통신 네트워크는 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN: Local Area Network), 도시권 통신망(MAN: Metropolitan Area Network), 광역 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구성될 수 있다.
본 발명의 일 실시예에 따른 영상 정보 입력부(210)는 스캐너, 카메라 등의 디지털 기기로부터 문자가 포함된 영상 정보를 수신하고 수신된 영상 정보를 문서 구조 분석부(220)에 전달하는 기능을 수행할 수 있다.
본 발명의 일 실시예에 따른 문서 구조 분석부(220)는 이진화된 영상 정보의 영역에 따라 문서의 구조를 분석한다. 이 때, 영상 정보의 각 영역은 텍스트, 이미지, 표 등과 같이 분류될 수 있을 것이다.
본 발명의 일 실시예에 따른 세그멘테이션부(230)는 분석된 문서 구조에 포함된 문자열들의 언어를 인식하고, 이를 이용하여 문자를 분할하는 기능을 수행할 수 있다. 이에 대해서는 도 3을 참조로 보다 자세히 설명될 것이다.
도 3을 참조하면, 세그멘테이션부(230)는 라인 분할부(231), 구두점 인식부(232), 어절 분할부(233), 언어 인식부(234), 및 문자 분할부(235)를 포함할 수 있다.
본 발명의 일 실시예에 따른 라인 분할부(231)는 행간 주사(Projection)를 통해 라인을 분할하는 기능을 수행할 수 있다.
본 발명의 일 실시예에 다른 구두점 인식부(232)는 분할된 라인에 연결 성분 레이블링(Connected Component Labeling) 기법을 적용하여 콤마, 마침표, 느낌표, 콜론, 세미콜론, 괄호, 인용 부호 등과 같은 구두점을 인식하는 기능을 수행할 수 있다.
본 발명의 일 실시예에 따른 어절 분할부(233)는 구두점을 중심으로 분리된 워드(Word)를 공백을 기준으로 재분할하는 기능을 수행할 수 있다.
본 발명의 일 실시예에 따른 언어 인식부(234)는 문자별로 한글, 알파벳 등과 같은 언어의 종류를 판단한다. 이와 더불어, 언어 인식부(234)는 각 문자의 언어가 결정되면 기존의 워드당 매핑되는 좌표를 유지한 채로, 언어별 좌표를 표시하기 위한 논리적 워드를 따로 기록한다.
본 발명의 일 실시예에 따른 문자 분할부(235)는 언어 인식부(234)에 의해 인식된 언어마다의 특성에 따라 문자를 분할하는 기능을 수행할 수 있다.
다시, 도 2를 참조하면, 본 발명의 일 실시예에 따른 문자 정규화부(240)는 분할된 문자들을 특정 비율로 정규화하는 기능을 수행할 수 있고, 문자 인식부(250)는 정규화된 문자들을 인식하는 기능을 수행할 수 있다.
또한, 본 발명의 일 실시예에 따른 제어부(260)는 영상 정보 입력부(210), 문서 구조 분석부(220), 세그멘테이션부(230), 문자 정규화부(240), 문자 인식부(250), 및 통신부(270) 간의 데이터의 흐름을 제어하는 기능을 수행한다.
또한, 본 발명의 일 실시예에 따른 통신부(270)는 본 발명에 따른 문자 인식기(200)가 스캐너, 카메라 등과 같은 외부 장치와 통신할 수 있도록 하는 기능을 수행할 수 있다.
언어의 인식
이하에서는, 본 발명의 일 실시예에 따른 언어 인식부(234)가 언어의 종류를 인식하기 위한 과정을 도 4 내지 도 11을 참조로 상세히 설명하도록 한다.
이하에 기술될 언어 인식 과정에서는 영상 정보에 포함된 이종의 언어를 한글과 영문자의 경우로 예를 들어 설명하고 있으나, 이는 단지 본 발명의 내용을 용이하게 기술하기 위한 것으로서, 본 발명의 기술은 당업자의 설계 변경에 따라 영문자와 한자, 한글과 일문자 등과 같이 다른 언어들 간에도 충분히 적용될 수 있다는 점을 미리 밝혀두는 바이다.
도 4는 본 발명의 일 실시예에 따른 언어 인식부(234)에 의해 인식된 언어 정보를 기초로 하여 문자 분할부(235)가 문자를 분할하는 과정을 개략적으로 나타내는 도면이다.
도 4에 따르면, 언어 인식부(234)는 글자별로 한글에 해당되는지 ASCII(영문자, 숫자)에 해당되는지 여부를 판단하게 된다. 그리고, 한글로 언어 인식된 부분 에 대해서는 한글 문자 분할 방식을, ASCII로 언어 인식된 부분에 대해서는 영어 문자 분할 방식을 적용한다.
도 5는 본 발명의 일 실시예에 따른 언어 인식부(234)가 언어를 인식하는 과정을 구체적으로 나타내는 도면이다. 이하에서는 도 5를 참조하여 언어 인식 과정에 대하여 보다 상세하게 기술하도록 하겠다.
사용자가 언어 인식부(234)의 설정을 한글만을 인식하도록 세팅하여 놓거나, 영어나 숫자 등의 ASCII만을 인식하도록 세팅하여 놓은 경우, 전자의 경우 한글로, 후자의 경우 ASCII로 해당 언어를 결정하고, 한글과 ASCII를 전부 인식하도록 세팅하여 놓은 경우에는 다음과 같은 S510 단계(즉, 추출된 연결 성분이 세로 방향으로 겹치는 정도에 대한 판단 단계)로 넘어가게 된다.
1. 컴포넌트가 세로 방향으로 겹치는 정도에 따른 판단
본 발명의 일 실시예에 따른 어절 분할부(233)에 의해 워드 단위로 분리된 문자열들로부터, 워드 내에 포함된 연결 성분(Connected Component)이 추출된다(S510). 여기서, 연결 성분이란 서로 이어져 있는 글자의 성분을 의미한다. 이에 따르면, 보통 영어는 하나의 연결 성분이 하나의 문자를 구성하기 마련이며(i, j 제외), 한글의 경우에는 다양한 경우가 존재한다. 가령, 한글 '로' 와 같은 경우에는 '로' 를 구성하는 획들이 서로 연결되어 있으므로 하나의 연결 성분이 하나의 문자를 구성한다고 말할 수 있을 것이고, 한글 '이' 와 같은 경우에는 '이' 를 구성하는 획득이 둘로 분리되어 있으므로 두 개의 연결 성분이 하나의 문자를 구성한다고 말할 수 있을 것이다.
하나의 어절(W)이 n 개의 연결 성분으로 이루어져 있고, 이들이 일정 순서(왼쪽 좌표를 기준)를 가질 때, 이를 아래의 수식 (1)과 같이 표현할 수 있을 것이다.
W = { Co 1 , Co 2 , Co 3 , ..., Co n }
< 수식 (1) >
언어 인식에서 상기와 같은 연결 성분들 간의 겹치는 정도를 분석하면 한글인지 영어인지 판단할 수 있는데, 가령 2 개 이상의 연결 성분이 세로로 15% 이상으로 겹치는 경우를 한글 또는 한자 등으로 간주할 수 있을 것이다. 2개 이상의 연결 성분이 세로로 몇 % 겹치는지에 대한 계산은 도 6을 참조로 하여 수식 (2)에 의해 수행될 수 있다.
도 6은 두 개의 연결 성분(Co i Co j )이 세로로 겹치는 경우를 예시적으로 나타내는 도면이다. 도 6에 나타낸 성분들의 값에 기초하여 연결 성분이 세로로 겹치는 비율을 하기 수식에 따라 산출할 수 있다.
L1 = Co i . x max - Co i . x min L2 = Co j . x max - Co j . x min 겹친 길이 = Co i . x max - Co j . x min 겹친 비율 = 겹친 길이 / (Min(L1, L2))
< 수식 (2) >
이와 같은 기준에 따르면, 영어 및 숫자는 대부분의 경우 두 개의 연결 성분이 세로로 15% 이상 겹치는 경우가 없으므로 ASCII로 분류되기 쉽상이지만, 한글의 경우에도 한 문자 내에 (i) 두 개의 연결 성분이 존재하지 않거나 (ii) 두 개의 연결 성분이 존재하더라도 세로로 15% 이상 겹쳐지지 않는다면 ASCII로 분류될 수 있 다. 예를 들면, "도", "와"와 같이 한글이지만 하나의 연결 성분으로만 구성되는 경우 ASCII로 분류될 것이다. 그러나, 이와 같은 현상이 벌어지더라도 문자 분할에 아무런 지장이 없는데, 이는 문자 분할 시, ASCII의 경우는 연결 성분 단위로 글자가 결정되므로, 하나의 연결 성분으로 구성된 "도", "와"와 같은 경우에는 정상적인 하나의 글자로 문자 분할이 될 수 있기 때문이다. 즉, 본 발명의 언어 인식부(234)는 문자 분할 시 비율(즉, 문자의 가로 대 세로 비율)로 분할하지 않으면 치명적이라 할 수 있는, 연결 성분이 두 개 이상 존재하는 문자인 "아", "기", "는" 등과 같은 문자를 반드시 한글로 언어 인식 해내는 것이 핵심이라 할 수 있다. 한영 혼용 문자열들에 대한 문자 분할을 성공적으로 해내면서도 언어 인식이 유연하다는 것이 본 발명의 장점인 것이다.
뿐만 아니라, "도", "와" 등의 경우, 비록 현 단계에서 ASCII로 인식된다 하더라도, 경우에 따라서는 후술할 "높이 비율에 기초한 판단" 단계(S540)에서 한글로 바로잡힐 수 있을 것이다.
2. 베이스라인( Baseline )에 기초한 판단
도 7은 베이스라인(Baseline)에 기초하여 한글과 영어를 판단하는 단계(S520)에 대한 구체적인 예시를 나타내는 도면이다.
도 7을 참조하면, 정상선(Top Line)과 바닥선(Bottom Line)은 각각 워드를 구성하는 연결 성분 중 가장 높은 위치와 가장 낮은 위치에 접하는 가로 방향 선분을 의미하며, 중간 영역 정상선(Middle Zone Top)과 중간 영역 바닥선(Middle Zone Bottom)은 각각 워드를 구성하는 각각의 연결 성분 중 가장 다수의 연결 성분에 해 당되는 높은 위치와 낮은 위치에 접하는 가로 방향 선분을 의미한다(물론, 언어에 따라 중간 영역 정상선이 정상선과 동일해 질 수도 있고 중간 영역 바닥선이 바닥선과 동일해 질 수도 있을 것이다). 이 때, 선높이(h)는 정상선과 바닥선의 차이를 의미하며, 상부 영역 높이(h1)는 정상선과 중간 영역 정상선의 차이를 의미하고, 중간 영역 높이(h2)는 중간 영역 정상선과 중간 영역 바닥선의 차이를 의미한다.
문자열을 구성하는 연결 성분들의 언어를 인식하는 과정은 상술한 성분들의 비율에 의하여 다음과 같이 수행될 수 있다.
본 발명의 바람직한 실시예에 따르면, 영어의 범위는 아래의 수식 (3)에 의해, 한글의 범위는 아래의 수식 (4)에 의해 결정될 수 있다. 이 방법을 사용하면, 하나의 워드 안에 한글과 영어가 혼합되어 있어도 이들에 대한 구분이 가능할 것이다.
h1/h > 0.225 and (h1+h2)/h > 0.75
< 수식 (3) >
h1/h < 0.17
< 수식 (4) >
수식 (4)를 만족하여 한글 범위에 들더라도, 특정 조건이 만족되는 경우에는 ASCII 언어로 결정될 수 있는데, 이는 추후 S550 단계에서 별도로 설명하기로 한다.
3. "가", "이" 형태에 대한 처리
베이스라인에 기초한 판단이 이루어지고 나면, 연속된 두 연결 성분간의 상 단(Top) 및/또는 하단(Bottom)을 비교하여 문자가 "가", "이" 등의 형태에 해당되는지 여부를 판단하게 된다(S530).
"가", "이" 등과 같은 글자 형태는 언어를 체크해 내기가 난해한 것 중 하나이어서, 문자 인식을 동시에 사용하지 않는다면, 연결 성분들 간의 상관 관계로 언어를 알아내야 한다. 본 발명의 일 실시예에 따르면, 연결 성분들 간의 상관 관계란 연결 성분의 정상과 연결 성분의 바닥의 높이, 연결 성분의 크기, 연결 성분의 가로 대 세로의 비율 등을 의미할 수 있다.
도 8은 연속된 두 개의 연결 성분의 가로 대 세로의 비율의 다양한 양태를 예시적으로 나타내는 도면이다.
본 발명의 일 실시예에 따르면, 도 8의 (a)와 같이 연속된 2개의 연결 성분인 rect1과 rect2의 가로 대 세로의 비율을 ratio1, ratio2 라고 할 때, ratio1 과 ratio2의 값의 범위에 따라 언어를 인식할 수 있다.
본 발명의 일 실시예에 따르면, 아래의 수식 (5)를 만족하면 "가", "이" 등과 같은 한글로 언어를 인식한다.
0.5 < ratio1 < 1.5, ratio2 < 0.5
< 수식 (5) >
단, 수식 (5)를 만족하는 상태에서 도 8의 (b), (c), (d)와 같이 rect1과 rect2의 바닥이 같은 경우, rect1이 rect2보다 바닥이 낮은 경우, 및 rect1과 rect2의 정상이 같은 경우와 같은 3가지 경우 또는 이와 유사한 경우에 해당되면 ASCII로 언어가 결정되며, 그 외의 경우에는 한글로 결정되도록 할 수 있다(다만, 일정 오차 범위는 허용될 수 있을 것이다).
4. 높이 비율( Height Ratio )에 기초한 판단
상술하였던 과정이 수행되고 나면, 높이 비율에 기초한 판단이 이루어진다(S540). 높이 비율이란, 수식 (6)에 나타난 바와 같이 실제 높이와 라인 높이의 비를 나타낸다.
본 발명의 바람직한 실시예에 따르면, 높이 비율이 수식 (7)의 조건을 만족하는 경우 한글로 판단될 수 있다.
HeightRatio(HR) = 실제 높이(h) / 라인 높이(l)
< 수식 (6) >
HeightRatio > 0.85
< 수식 (7) >
도 9는 높이 비율을 산출하는 성분인 실제 높이(h)와 라인 높이(l)를 예시적으로 도시하는 도면이다.
도 9를 참조하면, "와" 문자는 높이 비율이 0.85 보다 크므로 한글로 인식되지만, 나머지 영문자 "Engineer"는 높이 비율이 0.85 이하이므로 ASCII로 인식될 수 있다.
도 10은 높이 비율을 적용하기 전과 후의 언어 인식 결과를 예시적으로 나타내는 도면이다.
도 10을 참조하면, 높이 비율을 이용하는 경우, 연결 성분이 세로 방향으로 겹치는 정도에 따라 ASCII로 인식되었던 "와" 같은 글자가 영문자 "Engineer"에 비해 상대적으로 높이가 높기 때문에, 다시 한글로 보정되는 장점이 있다.
5. 연속된 연결 성분 간의 상단( Top ), 하단( bottom )의 비교
상기와 같은 단계들에 의해서도 연결 성분의 언어가 아직 결정되지 않았다면, 연속된 연결 요소들의 상관 관계를 따져 언어를 결정 짓는다(S550). 연속된 연결 요소의 상관 관계를 분석함에 있어서, 연속된 두 개의 연결 요소 또는 연속된 세 개 이상의 연결 요소 등이 분석될 수 있을 것이다. 또한, 연속된 연결 요소의 분석은 S530 단계에서 설명한 분석법을 이용하거나 이를 변형하여 수행될 수 있을 것이다. 가령, 연속된 세 개의 연결 성분인 r1, r2, r3의 상단과 하단이 서로 일치하는 경우에는 ASCII로 결정하도록 할 수 있을 것이다.
마지막으로, 상기 S550 단계에 의해서도 언어가 결정되지 않는다면 ASCII로 결정하도록 할 수 있다.
이러한 S550 단계에서의 분석은 반드시 현 단계에서 수행되어야 하는 것은 아니며, S530 단계에서 같이 수행되는 등의 변형예를 상정해 볼 수 있을 것이다.
한편, 상기 S510~S550 단계에 의해 수행된 언어 인식의 결과의 예시를 도 11에 나타내었다. 도 11에 따르면, 한글 부분과 ASCII 부분이 적절히 인식되어 있음을 알 수 있다.
문자의 분할
이하에서는, 상술한 방법에 따라 결정된 언어 정보에 기초하여, 본 발명의 일 실시예에 따른 문자 분할부(235)가 문자를 분할하는 방법에 대하여 기술한다.
언어가 영문자로 인식된 경우, 하나의 연결 성분을 하나의 문자로 인식하고 문자 분할을 수행한다.
언어가 한글로 인식 된 경우, 인식된 영역의 가로 대 세로의 비율(비율=가로/세로)을 산출하고, 비율이 1에 근접하면, 1 개의 글자로 문자 분할한다.
한글 문자의 분할 방법을 보다 구체적으로 설명하면 다음과 같다.
우선, 워드 안에 있는 각 연결 성분들이 수직으로 겹친 비율이 소정의 임계치 이상이면 하나의 연결 성분으로 합친다. 본 발명의 바람직한 실시예에 따르면, 상기 임계치는 10%로 정해질 수 있다.
다음으로, 수평 방향으로 연결 성분의 가로 대 세로의 비율을 계산하고, 가로 대 세로의 비율값이 소정의 범위에 포함되는 경우 한 글자로 분할할 수 있다. 본 발명의 바람직한 실시예에 따르면, 상기 소정의 범위는 최소값 0.7 부터 최대 1.20까지의 범위를 가질 수 있다.
예를 들어, 하나의 워드 안에 포함된 연결 성분의 순서가 W={c1,c2, … c10} 이고, 각 연결 성분의 가로와 세로의 비율이 c1 = 0.6, c2 = 0.5, c3 = 1.0, c4 = 2.0이라고 가정하면, c1은 최소값 0.7을 만족하지 않으므로 한 글자로 분할되지 않지만, c1과 c2를 결합하는 경우 비율값이 1.1이므로, 최소값 0.7보다 크고 최대값 1.2보다 작아 c1~c2까지가 하나의 문자로서 분할될 수 있다.
c3의 비율은 상기 범위 내에 포함되므로 하나의 문자로 분할되고, c4는 최대값 1.2보다 크므로, 1.0의 비율씩 2개의 문자로 분할된다.
이와 같이, 비율이 1.20를 넘을 경우, 접합된 문자로 간주하고 해당 연결 성분을 가로 대 세로 비율 1.0을 기준으로 분할할 수 있을 것이다.
도 12는 한글로 언어가 인식된 경우에 문자 분할된 결과를 예시적으로 나타내는 도면이다. 구체적으로, 도 12a를 참조하면, 한글 문자 사이가 접합되지 않은 경우에 문자 분할되는 예를 나타내며, 도 12b를 참조하면, 한글 문자 사이가 접합된 경우에도 문자 분할이 성공적으로 수행되는 예를 나타낸다.
끝으로, 도 13은 본 발명의 일 실시예에 따라 인식된 언어 정보에 기초하여 문자가 분할된 결과를 예시적으로 나타내는 도면이다. 도 13을 참조하면, 문자 분할이 성공적으로 수행되었음을 알 수 있다.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 등과 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
도 1은 한글과 영어가 혼용되어 있는 이미지와 그에 대한 종래 상용 프로그램들의 문자 분할 결과를 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 광학 문자 인식기의 구성을 예시적으로 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 세그멘테이션부의 상세한 구성을 예시적으로 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 언어 인식부에 의해 인식된 언어 정보를 기초로 하여 문자 분할부가 문자를 분할하는 과정을 개략적으로 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 언어 인식부가 언어를 인식하는 과정을 구체적으로 나타내는 도면이다.
도 6은 두 개의 연결 성분이 겹치는 경우를 예시적으로 나타내는 도면이다.
도 7은 베이스라인(BaseLine)에 기초하여 한글과 영어를 판단하는 데에 사용되는 성분들을 산정하는 방법을 예시적으로 나타내는 도면이다.
도 8은 연속된 두 개의 연결 성분의 가로 대 세로의 비율의 다양한 양태를 예시적으로 나타내는 도면이다.
도 9는 높이 비율을 산출하는 성분인 실제 높이와 라인 높이를 예시적으로 도시하는 도면이다.
도 10은 본 발명의 일 실시예에 따라 높이 비율을 적용하기 전과 후의 언어 인식 결과를 예시적으로 나타내는 도면이다.
도 11은 본 발명의 일 실시예에 따라 언어가 인식된 결과를 예시적으로 나타내는 도면이다.
도 12는 한글로 언어가 인식된 경우에 문자 분할된 결과를 예시적으로 나타내는 도면이다.
도 13은 본 발명의 일 실시예에 따라 인식된 언어 정보에 기초하여 문자가 분할된 결과를 예시적으로 나타내는 도면이다.
<도면의 주요 부분에 대한 부호의 설명>
200: 문자 인식기
210: 영상 정보 입력부
220: 문서 구조 분석부
230: 세그멘테이션부
231: 라인 분할부
232: 구두점 인식부
233: 어절 분할부
234: 언어 인식부
235: 문자 분할부
240: 문자 정규화부
250: 문자 인식부
260: 제어부
270: 통신부

Claims (36)

  1. 적어도 두 개의 언어가 혼합된 문서 이미지에 포함된 문자열의 언어를 인식하는 방법에 있어서,
    상기 문서 이미지에 포함된 상기 문자열을 구성하는 적어도 하나의 연결 성분을 인식하는 단계, 및
    상기 인식된 연결 성분을 분석하여 상기 문자열 내에 포함된 문자들의 언어에 관한 정보를 인식하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 언어에 관한 정보를 인식하는 단계는,
    상기 연결 성분들이 세로 방향으로 중첩되는 정도를 측정하는 단계, 및
    상기 측정된 중첩도가 소정의 임계치 이상이면, 상기 연결 성분들에 해당되는 언어를 제1 언어로 인식하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 언어에 관한 정보를 인식하는 단계는,
    상기 측정된 중첩도가 상기 임계치 미만인 연결 성분들의 언어를 제2 언어로 인식하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  4. 제1항에 있어서,
    상기 언어에 관한 정보를 인식하는 단계는,
    상기 문자열을 구성하는 상기 연결 성분들의 세로축 상에서의 상대적 위치를 측정하는 단계, 및
    상기 상대적 위치를 참조하여 상기 언어에 관한 정보를 인식하는 단계
    를 포함하되,
    상기 세로축은 상기 문자열의 라인(가로축)과 직각인 축인 것을 특징으로 하는 방법.
  5. 제4항에 있어서,
    상기 문자열이
    상부 영역 높이/선높이 < 0.17 을 만족하는 경우 상기 문자열에 제1 언어가 포함된 것으로 인식하되,
    상기 상부 영역 높이는 상기 문자열을 구성하는 연결 성분 중 최상부에 접하는 상기 가로축에 평행한 선분과 상기 문자열을 구성하는 연결 성분 중 가장 다수의 연결 성분의 상부에 접하는 상기 가로축에 평행한 선분의 높이 차이를 의미하고,
    상기 선높이는 상기 문자열을 구성하는 연결 성분 중 중 상기 최상부에 접하는 상기 가로축에 평행한 선분과 상기 문자열을 구성하는 연결 성분 중 최하부에 접하는 상기 가로축에 평행한 선분의 높이 차이를 의미하는 것을 특징으로 하는 방법.
  6. 제4항에 있어서,
    상기 문자열이
    상부 영역 높이/선높이가 > 0.225, 및 (상부 영역 높이 + 중간 영역 높이)/선높이 > 0.75 를 만족하는 경우 상기 문자열에 제2 언어가 포함된 것으로 인식하되,
    상기 상부 영역 높이는 상기 문자열을 구성하는 연결 성분 중 최상부에 접하는 상기 가로축에 평행한 선분과 상기 문자열을 구성하는 연결 성분 중 가장 다수의 연결 성분의 상부에 접하는 상기 가로축에 평행한 선분의 높이 차이를 의미하고,
    상기 선높이는 상기 문자열을 구성하는 연결 성분 중 중 최상부에 접하는 상기 가로축에 평행한 선분과 상기 문자열을 구성하는 연결 성분 중 최하부에 접하는 상기 가로축에 평행한 선분의 높이 차이를 의미하고,
    상기 중간 영역 높이는 상기 문자열을 구성하는 각각의 연결 성분 중 상기 가장 다수의 연결 성분의 상부에 접하는 상기 가로축에 평행한 선분과 상기 가장 다수의 연결 성분의 하부에 접하는 상기 가로축에 평행한 선분의 높이 차이를 의미 하는 것을 특징으로 하는 방법.
  7. 제1항에 있어서,
    상기 언어에 관한 정보를 인식하는 단계는,
    상기 문자열을 구성하는 상기 연결 성분들 중 연속된 적어도 두 개의 연결 성분의 상관 관계를 분석하는 단계, 및
    상기 상관 관계를 참조하여 상기 언어에 관한 정보를 인식하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  8. 제7항에 있어서,
    상기 상관 관계는
    상기 연결 성분의 정상의 높이, 상기 연결 성분의 바닥의 높이, 상기 연결 성분의 크기, 상기 연결 성분의 가로 대 세로의 비율 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
  9. 제8항에 있어서,
    상기 연속된 연결 성분 중 제1 연결 성분의 가로 대 세로 비율(ratio 1)과 제2 연결 성분의 가로 대 세로 비율(ratio 2)이
    0.5 < ratio1 < 1.5 및 ratio2 <0.5
    를 만족하는 경우,
    상기 제1 연결 성분 및 상기 제2 연결 성분을 제1 언어로 인식하는 것을 특징으로 하는 방법.
  10. 제9항에 있어서,
    상기 제1 연결 성분과 상기 제2 연결 성분의 바닥이 같은 경우,
    상기 제1 연결 성분이 상기 제2 연결 성분보다 바닥이 낮은 경우, 및
    상기 제1 연결 성분과 상기 제2 연결 성분의 정상이 같은 경우
    중 적어도 하나에 해당되는 경우에는 상기 제1 연결 성분 및 상기 제2 연결 성분을 제2 언어로 인식하는 것을 특징으로 하는 방법.
  11. 제1항에 있어서,
    상기 언어에 관한 정보를 인식하는 단계는,
    라인의 높이와 상기 문자열을 구성하는 문자의 높이를 참조하여 수행되는 것을 특징으로 하는 방법.
  12. 제11항에 있어서,
    상기 문자열에 포함된 문자 중,
    문자의 높이 / 라인의 높이 > 0.85 를 만족하는 문자를 제1 언어로 인식하는 것을 특징으로 하는 방법.
  13. 제1항에 있어서,
    상기 언어에 관한 정보를 인식하는 단계는,
    상기 문자열에 포함된 연속된 세 개의 연결 성분의 정상과 바닥의 위치를 참조하여 수행되는 것을 특징으로 하는 방법.
  14. 제13항에 있어서,
    상기 연속된 세 개의 연결 성분의 정상과 바닥이 서로 일치하는 경우, 상기 연속된 세 개의 연결 성분을 제2 언어로 인식하는 것을 특징으로 하는 방법.
  15. 제1항에 있어서,
    상기 인식된 언어에 관한 정보에 기초하여 상기 문자열을 분할하는 단계
    를 더 포함하는 것을 특징으로 하는 방법.
  16. 제15항에 있어서,
    상기 문자열을 분할하는 단계는,
    상기 인식된 언어가 제1 언어에 해당되면, 상기 인식된 언어의 가로 대 세로의 비율(비율=가로/세로)을 산출하여 상기 문자열을 분할하고, 상기 인식된 언어가 제2 언어에 해당되면, 상기 연결 성분 단위로 상기 문자열을 분할하는 것을 특징으로 하는 방법.
  17. 제16항에 있어서,
    상기 제1 언어로 이루어진 문자열을 분할하는 단계는,
    상기 연결 성분 중 수직으로 겹친 비율이 소정의 임계치 이상인 연결 성분들을 하나의 연결 성분으로 결합하는 단계,
    상기 연결 성분 중 연속된 연결 성분들의 가로 대 세로 비율의 합이 소정의 임계 범위 이내인지 여부를 판단하는 단계를 포함하는 것을 특징으로 하는 방법.
  18. 제17항에 있어서,
    상기 소정의 임계치는 10%인 것을 특징으로 하는 방법.
  19. 제17항에 있어서,
    상기 소정의 임계 영역은 최소값으로 0.7, 최대값으로 1.2를 가지는 것을 특징으로 하는 방법.
  20. 제17항에 있어서,
    상기 연결 성분이 상기 소정의 임계 범위를 초과하는 경우, 상기 연결 성분을 적어도 두 개의 다른 연결 성분으로 분할하는 것을 특징으로 하는 방법.
  21. 제2항, 제5항, 제9항, 제12항 또는 제16항에 있어서,
    상기 제1 언어는 한글, 한자, 및 일문자 중 적어도 하나인 것을 특징으로 하 는 방법.
  22. 제3항, 제6항, 제10항, 제14항 또는 제16항에 있어서,
    상기 제2 언어는 알파벳으로 이루어진 언어 또는 숫자인 것을 특징으로 하는 방법.
  23. 적어도 두 개의 언어가 혼합된 문서 이미지에 포함된 문자열을 분할하는 방법에 있어서,
    상기 문자열을 제1 언어 집단과 제2 언어 집단으로 구분하는 단계, 및
    상기 제1 및 제2 언어 집단으로 구분된 상기 문자열에 대하여 각각 기설정된(predetermined) 제1 문자 분할 기술 및 제2 문자 분할 기술을 적용하여 상기 문자열을 분할하는 단계를 포함하되,
    상기 제1 언어 집단에 해당되는 문자는 상기 제1 문자 분할 기술에 의해 상기 문자의 가로 대 세로 비율을 참조하여 문자 분할되어야 하고,
    상기 제2 언어 집단에 해당되는 문자는 상기 제2 문자 분할 기술에 의해 연결 성분 단위로 문자 분할되어도 되는 것을 특징으로 하는 방법.
  24. 제23항에 있어서,
    상기 제1 언어 집단은 한글을 포함하고, 상기 제2 언어 집단은 영문자 또는 숫자를 포함하는 것을 특징으로 하는 방법.
  25. 제1항 내지 제20항 및 제23항 내지 제24항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
  26. 적어도 두 개의 언어가 혼합된 문서 이미지에 포함된 문자열을 분할하는 시스템에 있어서,
    상기 문서 이미지에 포함된 문자열을 구성하는 적어도 하나의 연결 성분을 인식하고, 상기 인식된 연결 성분을 분석하여 상기 문자열 내에 포함된 문자들의 언어에 관한 정보를 인식하는 언어 인식부, 및
    상기 언어 인식부에 의해 인식된 언어 정보에 기초하여 상기 문자열에 포함된 문자들을 분할하는 문자 분할부
    를 포함하는 시스템.
  27. 제26항에 있어서,
    상기 언어 인식부는,
    상기 연결 성분들이 세로 방향으로 중첩되는 정도가 소정의 임계치 이상이면, 상기 연결 성분들에 해당되는 언어를 제1 언어로 인식하는 것을 특징으로 하는 시스템.
  28. 제26항에 있어서,
    상기 언어 인식부는,
    상기 문자열을 구성하는 상기 연결 성분들의 세로축 상에서의 상대적 위치를 참조하여 상기 언어에 관한 정보를 인식하는 것을 특징으로 하는 시스템.
  29. 제26항에 있어서,
    상기 언어 인식부는,
    상기 문자열을 구성하는 상기 연결 성분들 중 연속된 적어도 두 개의 연결 성분의 상관 관계를 참조하여 상기 언어에 관한 정보를 인식하는 것을 특징으로 하는 시스템.
  30. 제29항에 있어서,
    상기 상관 관계는 상기 연속된 연결 성분 중 제1 연결 성분의 가로 대 세로 비율(ratio 1)과 제2 연결 성분의 가로 대 세로 비율(ratio 2)인 것을 특징으로 하는 시스템.
  31. 제26항에 있어서,
    상기 언어 인식부는,
    라인의 높이와 상기 문자열을 구성하는 문자의 높이를 참조하여 언어를 인식하는 것을 특징으로 하는 시스템.
  32. 제26항에 있어서,
    상기 언어 인식부는,
    상기 문자열에 포함된 연속된 두 개 이상의 연결 성분의 정상과 바닥의 위치를 참조하여 언어를 인식하는 것을 특징으로 하는 시스템.
  33. 제26항에 있어서,
    상기 문자 분할부는,
    상기 인식된 언어가 제1 언어에 해당되면, 상기 인식된 언어의 가로 대 세로의 비율(비율=가로/세로)을 산출하여 상기 문자열을 분할하고, 상기 인식된 언어가 제2 언어에 해당되면, 상기 연결 성분 단위로 상기 문자열을 분할하는 것을 특징으로 하는 시스템.
  34. 제33항에 있어서,
    상기 문자 분할부는,
    상기 제1 언어로 이루어진 문자열을 분할함에 있어서, 상기 연결 성분 중 수직으로 겹친 비율이 소정의 임계치 이상인 연결 성분들을 하나의 연결 성분으로 결합하여, 상기 결합된 연결 성분 중 연속된 연결 성분들의 가로 대 세로 비율의 합이 소정의 임계 범위 이내인지 여부에 따라 문자를 분할하는 것을 특징으로 하는 시스템.
  35. 제34항에 있어서,
    상기 문자 분할부는,
    상기 제1 언어로 이루어진 문자열을 분할함에 있어서, 상기 연결 성분이 상기 소정의 임계 범위를 초과하는 경우, 상기 연결 성분을 적어도 두 개의 다른 연결 성분으로 분할하는 것을 특징으로 하는 시스템.
  36. 적어도 두 개의 언어가 혼합된 문서 이미지에 포함된 문자열을 분할하는 시스템에 있어서,
    상기 문자열을 제1 언어 집단과 제2 언어 집단으로 구분하는 언어 인식부,
    상기 제1 및 제2 언어 집단으로 구분된 상기 문자열에 대하여 각각 기설정된 제1 문자 분할 기술 및 제2 문자 분할 기술을 적용하여 상기 문자열을 분할하는 문자 분할부를 포함하되,
    상기 제1 언어 집단에 해당되는 문자는 상기 제1 문자 분할 기술에 의해 상기 문자의 가로 대 세로 비율을 참조하여 문자 분할되어야 하고,
    상기 제2 언어 집단에 해당되는 문자는 상기 제2 문자 분할 기술에 의해 연결 성분 단위로 문자 분할되어도 되는 것을 특징으로 하는 시스템.
KR1020080042707A 2008-05-08 2008-05-08 언어 인식을 이용하여 이종의 언어를 포함하는 문서의문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한기록 매체 KR100921689B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080042707A KR100921689B1 (ko) 2008-05-08 2008-05-08 언어 인식을 이용하여 이종의 언어를 포함하는 문서의문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080042707A KR100921689B1 (ko) 2008-05-08 2008-05-08 언어 인식을 이용하여 이종의 언어를 포함하는 문서의문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한기록 매체

Publications (1)

Publication Number Publication Date
KR100921689B1 true KR100921689B1 (ko) 2009-10-15

Family

ID=41561876

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080042707A KR100921689B1 (ko) 2008-05-08 2008-05-08 언어 인식을 이용하여 이종의 언어를 포함하는 문서의문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한기록 매체

Country Status (1)

Country Link
KR (1) KR100921689B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2613847C2 (ru) * 2013-12-20 2017-03-21 ООО "Аби Девелопмент" Выявление китайской, японской и корейской письменности

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970049825A (ko) * 1995-12-06 1997-07-29 구자홍 문자 인식장치의 접촉문자 분리 및 특징 추출방법
KR20020081210A (ko) * 2000-08-31 2002-10-26 휴렛-팩커드 컴퍼니 문자 인식 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970049825A (ko) * 1995-12-06 1997-07-29 구자홍 문자 인식장치의 접촉문자 분리 및 특징 추출방법
KR20020081210A (ko) * 2000-08-31 2002-10-26 휴렛-팩커드 컴퍼니 문자 인식 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2613847C2 (ru) * 2013-12-20 2017-03-21 ООО "Аби Девелопмент" Выявление китайской, японской и корейской письменности
US9811726B2 (en) 2013-12-20 2017-11-07 Abbyy Development Llc Chinese, Japanese, or Korean language detection

Similar Documents

Publication Publication Date Title
US9355313B2 (en) Detecting and extracting image document components to create flow document
Fang et al. A table detection method for multipage pdf documents via visual seperators and tabular structures
TWI475406B (zh) 取決於上下文之輸入方法
US7836390B2 (en) Strategies for processing annotations
Alaei et al. A new scheme for unconstrained handwritten text-line segmentation
KR101114135B1 (ko) 카메라 입력된 문서들을 위한 저해상 ocr
CN101299236B (zh) 一种中文手写词组识别方法
US10062001B2 (en) Method for line and word segmentation for handwritten text images
EP1564675A1 (en) Apparatus and method for searching for digital ink query
KR20140045573A (ko) 이미지 지역들을 이용한 텍스트 검출
US20100080462A1 (en) Letter Model and Character Bigram based Language Model for Handwriting Recognition
CN101149801A (zh) 一种复杂结构文档图像倾斜快速检测方法
US8515175B2 (en) Storage medium, apparatus and method for recognizing characters in a document image using document recognition
US8494277B2 (en) Handwritten character recognition based on frequency variations in characters
Roy et al. Morphology based handwritten line segmentation using foreground and background information
US20130315484A1 (en) Handwritten character retrieval apparatus and method
CN102194117A (zh) 文稿页面方向检测方法和装置
US8989485B2 (en) Detecting a junction in a text line of CJK characters
CN107729954A (zh) 一种文字识别方法、装置、文字识别设备及存储介质
KR100921689B1 (ko) 언어 인식을 이용하여 이종의 언어를 포함하는 문서의문자를 분할하기 위한 방법, 시스템 및 컴퓨터 판독 가능한기록 매체
JP2009093305A (ja) 帳票認識装置
US9811726B2 (en) Chinese, Japanese, or Korean language detection
JP4849883B2 (ja) 行方向判定プログラム、方法及び装置
US20230036812A1 (en) Text Line Detection
KR100919497B1 (ko) 이미지에 포함되는 한글 문자를 인식하기 위하여 자소분할하는 방법 및 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120928

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20130926

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140925

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20151002

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20181002

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20191001

Year of fee payment: 11