KR20110039900A - Iamge data recognition and managing method for ancient documents using intelligent recognition library and management tool - Google Patents

Iamge data recognition and managing method for ancient documents using intelligent recognition library and management tool Download PDF

Info

Publication number
KR20110039900A
KR20110039900A KR1020090096940A KR20090096940A KR20110039900A KR 20110039900 A KR20110039900 A KR 20110039900A KR 1020090096940 A KR1020090096940 A KR 1020090096940A KR 20090096940 A KR20090096940 A KR 20090096940A KR 20110039900 A KR20110039900 A KR 20110039900A
Authority
KR
South Korea
Prior art keywords
information
page
recognition
document
image
Prior art date
Application number
KR1020090096940A
Other languages
Korean (ko)
Other versions
KR101118628B1 (en
Inventor
곽희규
이현주
김성헌
Original Assignee
대한민국(국가기록원)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대한민국(국가기록원) filed Critical 대한민국(국가기록원)
Priority to KR1020090096940A priority Critical patent/KR101118628B1/en
Publication of KR20110039900A publication Critical patent/KR20110039900A/en
Application granted granted Critical
Publication of KR101118628B1 publication Critical patent/KR101118628B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0483Interaction with page-structured environments, e.g. book metaphor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/43Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR

Abstract

PURPOSE: An ancient documents management method using an intelligent recognition library is provided to effectively recognize text data of the ancient documents by constructing a knowledge-base managing module including image information related with the ancient documents. CONSTITUTION: A page structure corresponding to page layout information of an intelligent recognition library is generated by analyzing a page structure of an inputted ancient document image. The corresponding information is determined by calculating the correspondence score between an image block of the inputted ancient document and the page layout information using a block property which is offered by the intelligent recognition library. A suitable page structure is searched through the corresponded score.

Description

지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법 {Iamge Data Recognition and Managing Method for Ancient Documents using Intelligent Recognition Library and Management Tool}{Iamge Data Recognition and Managing Method for Ancient Documents using Intelligent Recognition Library and Management Tool}

본 발명은 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법에 있어서, 관리 도구로써 다수의 이미지내용정보를 갖는 이미지내용DB, 문자모델DB 및 용어DB로 구성되는 지식베이스 관리 모듈, 상기 지식베이스 관리 모듈의 정보를 이용하여 이미지내용정보를 재생성하고, 재생성된 이미지내용정보를 하기 문서이미지 인식 및 처리부에 제공하는 이미지 전처리 모듈 및 구조분석 모듈로 구성되는 지능형 인식 라이브러리, 전처리 및 초기분석단계, 페이지구조(Physical layout) 분석단계, 문서내용구조(Logical structure) 분석단계, 문서인식단계를 수행하는 문서이미지 인식 및 처리부, 상기 문서이미지 인식 및 처리부, 지식베이스 관리 모듈 및 지능형 인식 라이브러리와 사용자 간의 의사를 소통하기 위한 사용자 화면(UI)을 포함하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법에 관한 분야이다.The present invention provides a method for recognizing and processing old document image data using an intelligent recognition library and a management tool, comprising: a knowledge base management module including an image content DB, a character model DB, and a term DB having a plurality of image content information as a management tool; Intelligent recognition library consisting of an image preprocessing module and a structural analysis module for reproducing image content information using the information of the knowledge base management module and providing the reproduced image content information to a document image recognition and processing unit, preprocessing and initial analysis. A document image recognition and processing unit for performing a step, a physical layout analysis step, a document content structure analysis step, a document recognition step, the document image recognition and processing unit, a knowledge base management module, an intelligent recognition library, and a user The user screen (UI) to communicate It is also the field of intelligent recognition libraries and archives management tool, image data acquisition and processing methods utilizing characterized in that.

이미지데이터화된 고문서의 전문검색서비스 실현을 위한 문서인식시스템은 문자인식 기술의 결합이 필요한데, 문자인식 기술은 입력 문자데이터로부터 특징을 추출하고 미리 정해진 여러 문자모델과의 매칭을 통해 한 문자모델로 분류하는 과정으로 구성된다. 학습(training)과정에서 미리 구축되는 문자모델은 인식을 통해 하나의 개념으로 대응시키는 기준과 같아서, 문자모델의 성질에 따라 인식 대상 자료가 제한되거나 문자인식의 성능에 영향을 미친다.The document recognition system for the realization of the specialized search service of imaged old documents requires the combination of character recognition technology. The character recognition technology extracts features from input character data and classifies them into one character model through matching with several predetermined character models. It consists of a process. The character model, which is built in advance during the training process, is the same as the criterion that maps to a concept through recognition, so the recognition target data is limited or affects the performance of the character recognition depending on the characteristics of the character model.

또한 종래의 문서인식시스템을 위한 문자인식 기술은 사람의 정보처리 능력을 완벽하게 알고리즘화하지 못해 문자의 난이도에 따라 질적인 측면과 양적인 측면의 어려움이 있다. 즉 종래의 기술은 사람이 가지고 있는 뛰어난 문자인식 기능은 직관과 경험에 바탕을 두고 있지만 컴퓨터에 인식과정을 객관화하고 정량화하여 알고리즘의 형태로 공식화하는 일반적인 방법이 완성되어 있지 않기 때문에 질적인 어려움이 발생한다. 예를 들어, 인쇄체 문자의 경우 다양한 활자체(font) 형태나 크기(size), 기울어짐(slant) 등의 불일치로 인하여 어려움이 발생하고, 문자인식의 양적인 측면의 어려움은 다양한 문자의 방대한 양으로 인하여 공학적으로 방대한 기억용량을 갖춘 시스템 구축이 어려운 문제가 있고, 방대한 기억용량을 갖춘 시스템 상에서 특정의 문자를 인식하기 위하여 인식소요시간이 오래 걸리는 문제가 발생한다. 특히 상기 문제는 정보량(information content)이 많은 문자를 대상으로 하는 경우에 심하게 나타나는데, 예를 들어, 인식 대상이 숫자(10종)에서 영문 자(52종), 한글(11,172종), 더 나아가 한자(약 50,000여종)로 바뀜에 따라 정보량이 증가하고, 이것은 인식장치를 구성할 때 글자의 종류가 증가함에 따라 기억해야 하는 문자의 형상이 증가하고, 다양한 가능성을 비교 판정하는 인식장치의 규모 증가를 초래한다.In addition, the character recognition technology for the conventional document recognition system is difficult to fully algorithmize the information processing ability of the person, there are difficulties in terms of quality and quantity according to the difficulty of the character. In other words, the conventional technology is based on the intuition and experience of the excellent character recognition function of the human being, but the qualitative difficulties arise because the general method of objectifying, quantifying, and formulating the recognition process on the computer is not completed. do. For example, in the case of printed characters, difficulties arise due to inconsistencies in various font shapes, sizes, slants, etc., and difficulties in quantitative aspects of character recognition are due to the large amount of various characters. There is a problem that it is difficult to construct a system having a large memory capacity in engineering, and a problem that takes a long time to recognize a specific character on a system having a large memory capacity occurs. In particular, the problem is severe when the information content (information content) targets a large number of characters, for example, the number of characters (10 kinds) from English characters (52 species), Korean characters (11,172 species), furthermore, Chinese characters (About 50,000 kinds), the amount of information increases as it changes, which increases the size of the character to be remembered as the type of letters increases, and increases the size of the recognition device that compares and determines various possibilities. Cause.

상기와 같은 문자인식의 질적이고 양적인 난이도는 모든 데이터에 일정한 성능을 가지는 범용의 문자인식 구현을 어렵게 하는 요인이다. 따라서 방대한 이미지데이터화된 문서의 효율적인 텍스트데이터화 문제를 해결하기 위해서, 기존의 문서 텍스트화 시스템에 문자인식의 난이도가 최소화된 형태로 적용될 수 있는 추가적인 모듈의 탑재 및 텍스트화가 필요한 문서의 분야에 따라서 각 분야에 해당하는 전문적인 데이터베이스를 구축하여 보다 정확성이 뛰어나고 효율적인 시스템 구축이 요구된다. 더구나 처리해야 하는 문서의 이미지가 소장 기간이 오래되어 문서 이미지 품질이 낮고 다양한 문서구조를 포함하고, 다양한 폰트에 의해 생성된 대용량데이터인 경우에는 문자인식의 성능은 더욱 떨어지기 때문에 최적의 전문검색서비스 구현을 위해서는 보다 지속적인 연구개발이 요구된다.The qualitative and quantitative difficulty of character recognition as described above is a factor that makes it difficult to implement general-purpose character recognition having a certain performance on all data. Therefore, in order to solve the problem of efficient text data of a large number of image data documents, it is necessary to mount additional modules that can be applied to existing document text systems in a form that minimizes the difficulty of character recognition. It is required to build a more accurate and efficient system by building a professional database corresponding to Moreover, when the image of the document to be processed has a long collection period, the document image quality is low and includes various document structures, and in case of large data generated by various fonts, the performance of character recognition is further reduced. Implementation requires more continuous R & D.

본 발명은 종래 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법에 관한 기술에 따른 문제점들을 개선하고자 안출된 기술로써,The present invention has been made to improve the problems according to the technology related to the method for recognizing and processing old document image data using the intelligent recognition library and management tools.

종래의 기술은 문자인식의 질적인 측면에서 컴퓨터에 인식과정을 객관화하고 정량화하여 알고리즘의 형태로 공식화하는 일반적인 방법이 완성되어 있지 않기 때문에 발생하고, 인쇄체 문자의 경우 다양한 활자체(font) 형태나 크기(size), 기울어짐(slant) 등의 불일치로 인하여 발생하는 양질의 문자인식 능력을 갖는 시스템을 제공하지 못하는 문제가 있고, 문자인식의 양적인 측면에서는 다양한 문자의 방대한 양으로 인하여 공학적으로 방대한 기억용량을 갖춘 시스템 구축이 어려운 문제와 방대한 기억용량을 갖춘 시스템상에서 특정의 문자를 인식하기 위하여 인식소요시간이 오래 걸리는 문제가 발생하는 문제가 있기 때문에 이를 해결하는 해결점을 제공하는 것을 목적으로 한다.The conventional technology occurs because the general method of objectifying and quantifying the recognition process in the computer in terms of the quality of character recognition and formulating it in the form of an algorithm is not completed, and in the case of printed characters, various font shapes and sizes ( There is a problem in that it cannot provide a system with high quality character recognition ability caused by inconsistency of size, slant, etc. In terms of quantitative character recognition, it is possible to use a large amount of engineering capacity due to the large amount of various characters. The purpose of the present invention is to provide a solution to solve this problem because there is a problem that it takes a long time to recognize a specific character on a system having a large memory capacity and a system that has a large memory capacity.

본 발명은 상기와 같은 소기의 목적을 실현하고자,The present invention is to realize the desired object as described above,

관리 도구로써 다수의 이미지내용정보를 갖는 이미지내용DB, 문자모델DB 및 용어DB로 구성되는 지식베이스 관리 모듈과; 상기 지식베이스 관리 모듈의 정보를 이용하여 이미지내용정보를 재생성하고, 재생성된 이미지내용정보를 하기 문서이미 지 인식 및 처리부에 제공하는 이미지 전처리 모듈 및 구조분석 모듈로 구성되는 지능형 인식 라이브러리와; 전처리 및 초기분석단계, 페이지구조(Physical layout) 분석단계, 문서내용구조(Logical structure) 분석단계, 문서인식단계를 수행하는 문서이미지 인식 및 처리부와; 상기 문서이미지 인식 및 처리부, 지식베이스 관리 모듈 및 지능형 인식 라이브러리와 사용자 간의 의사를 소통하기 위한 사용자 화면(UI)을 포함하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법을 제시한다.A knowledge base management module composed of an image content DB, a character model DB, and a term DB having a plurality of image content information as a management tool; An intelligent recognition library composed of an image preprocessing module and a structure analysis module for reproducing image content information using information of the knowledge base management module and providing the reproduced image content information to a document image recognition and processing unit; A document image recognition and processing unit for performing a preprocessing and initial analysis step, a physical layout analysis step, a document content structure analysis step, and a document recognition step; Recognizing and processing old document image data using an intelligent recognition library and a management tool, the document image recognition and processing unit, a knowledge base management module, and an intelligent recognition library and a user screen (UI) for communicating with a user. Give a way.

본 발명은 상기의 수단으로써, 종래 이미지데이터화된 고문서의 정보검색 및 이미지조회 서비스를 제공하기 위한 색인DB구축 시 각 고문서 내용에 해당하는 색인어를 수작업으로 입력해야하는 문제를 고문서에 관련한 다수의 이미지내용정보를 갖는 지식베이스 관리 모듈을 구성하고, 상기 지식베이스 관리 모듈에서 제공하는 정보를 이용하여 입력한 이미지데이터화된 고문서의 텍스트데이터화하기 위한 정보관리를 효율적으로 하는 지능형 인식 라이브러리를 제공함으로써 종래의 문제점을 해결하는 효과가 있다.According to the present invention, a number of image content information related to an old document is a problem of manually inputting an index word corresponding to the content of each old document when constructing an index DB for providing information retrieval and image search service of an old document with image data. It solves the conventional problems by constructing a knowledge base management module having an intelligent recognition library and efficiently providing information management for text data of the imaged old documents inputted using the information provided by the knowledge base management module. It is effective.

본 발명은 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법에 있어서, 관리 도구로써 다수의 이미지내용정보를 갖는 이미지내용DB, 문자모델DB 및 용어DB로 구성되는 지식베이스 관리 모듈과; 상기 지식베이스 관리 모듈의 정보를 이용하여 이미지내용정보를 재생성하고, 재생성된 이미지내용정보를 하기 문서이미지 인식 및 처리부에 제공하는 이미지 전처리 모듈 및 구조분석 모듈로 구성되는 지능형 인식 라이브러리와; 전처리 및 초기분석단계, 페이지구조(Physical layout) 분석단계, 문서내용구조(Logical structure) 분석단계, 문서인식단계를 수행하는 문서이미지 인식 및 처리부와; 상기 문서이미지 인식 및 처리부, 지식베이스 관리 모듈 및 지능형 인식 라이브러리와 사용자 간의 의사를 소통하기 위한 사용자 화면(UI)을 포함하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법에 관한 것이다.The present invention relates to a method for recognizing and processing old document image data using an intelligent recognition library and a management tool, comprising: a knowledge base management module comprising an image content DB, a character model DB, and a term DB having a plurality of image content information as a management tool; ; An intelligent recognition library comprising an image preprocessing module and a structure analysis module for reproducing image content information using information of the knowledge base management module and providing the reproduced image content information to a document image recognition and processing unit; A document image recognition and processing unit for performing a preprocessing and initial analysis step, a physical layout analysis step, a document content structure analysis step, and a document recognition step; Recognizing and processing old document image data using an intelligent recognition library and a management tool, the document image recognition and processing unit, a knowledge base management module, and an intelligent recognition library and a user screen (UI) for communicating with a user. It is about a method.

이하 본 발명을 적용한 실시예를 나타내는 첨부 도면 1내지 13을 참고하여 본 발명을 구체적으로 설명하면 다음과 같다.Hereinafter, the present invention will be described in detail with reference to the accompanying drawings 1 to 13 showing an embodiment to which the present invention is applied.

우선 관리 도구로써 다수의 이미지내용정보를 갖는 지식베이스 관리 모듈은 이미지내용DB, 문자모델DB 및 용어DB 등 고문서에 관련한 다수의 데이터 정보를 갖는 데이터베이스(DB)로 구성되어 있어 이미지데이터화 된 고문서를 텍스트데이터화하기 위한 전문적인 지식베이스(Knowledge Base)를 제공하는 역할을 한다. 구체적으로, 지식베이스 관리 모듈 중 이미지내용DB는 전처리정보, 초기분석용 정보, 페이지구조(Physical layout) 정보, 문서내용구조(Logical structure) 정보, 인식 정보 및 소제목 정보를 포함하고, 상기 모든 정보는 생성, 수정, 삭제 가능하도록 구성한다. 즉, 이미지내용DB의 전처리 정보는 입력받은 이미지테이터화된 문서의 기 울기보정정보, 외각선 및 불필요 영역 제거 정보, dot 노이즈제거정보, 문서외곽 노이즈 제거정보 및 회전된 이미지 보정기능정보를 갖고, 초기분석용 정보는 단수정보 및 초벌이미지데이터 인식용 문자모델 DB인덱스정보를 갖고, 페이지구조 정보(Physical layout)는 블록위치정보, 블록정렬정보, 내부라인의 정렬정보 및 블록 간 위치관계 정보를 갖고, 문서내용구조 정보(Logical structure)는 내용 레이블정보, 레이블 순서정보, 레이블에 해당되는 블록 인덱스정보를 갖고, 인식용 정보는 용어DB인덱스정보, 문자모델DB인덱스정보를 갖고, 소제목 정보는 타이틀레벨(Title level) 정보, 폰트크기정보, 폰트두께정보, 레벨 표시스타일정보, 타이틀 인식용 문자DB인덱스정보를 갖는다. 아울러 문자모델DB는 문자모델 리스트정보, 문자모델 정보, 샘플 문자영상 정보, 문자보기 정보를 갖고, 용어DB는 용어DB목록정보, 용어리스트정보, 용어정보, 용어검색 및 추가정보를 갖게 구성하여, 종래 이미지데이터화된 고문서의 정보검색 및 이미지조회 서비스를 제공하기 위한 색인DB구축 시 각 고문서 내용에 해당하는 색인어를 수작업으로 입력해야하는 문제를 고문서에 관련한 다수의 이미지내용정보를 갖는 지식베이스 관리 모듈을 구성하여 이미지데이터화된 고문서를 텍스트데이터화된 고문서로 변환하여 제공 가능함으로써 종래의 문제점을 해결하는 효과가 있다.First of all, as a management tool, the knowledge base management module having a plurality of image contents information is composed of a database (DB) having a plurality of data information related to the old documents such as the image contents DB, the character model DB, and the term DB. It provides a specialized knowledge base for data formation. Specifically, the image content DB of the knowledge base management module includes preprocessing information, initial analysis information, physical layout information, document content structure information, recognition information, and subtitle information. Configure to be able to create, modify, and delete. That is, the preprocessing information of the image contents DB includes the tilt correction information, the outline and the unnecessary area elimination information, the dot noise elimination information, the document outer noise elimination information, and the rotated image correction function information of the input image data documented document. The information for initial analysis has singular information and character model DB index information for recognizing primitive image data, and the page layout information has block position information, block alignment information, internal line alignment information, and inter-block position information. The document content structure information (Logical structure) has content label information, label order information, and block index information corresponding to the label. The recognition information has the term DB index information and the character model DB index information. The subtitle information has a title level. (Title level) information, font size information, font thickness information, level display style information, and character DB index information for title recognition. In addition, the character model DB has a character model list information, a character model information, a sample character image information, a character view information, the term DB is configured to have a term DB list information, term list information, term information, term search and additional information, In the construction of an index DB for providing information retrieval and image search service of old documents with image data, a knowledge base management module having a plurality of image content information related to old documents has to be input manually. Therefore, it is possible to convert the image data of the old document into text data of the old document to provide an effect that solves the conventional problems.

상기 지식베이스 관리 모듈의 정보를 이용하여 이미지내용정보를 재생성하고, 재생성된 이미지내용정보를 하기의 문서이미지 인식 및 처리부에 제공하는 이미지 전처리 모듈 및 구조분석 모듈로 구성되는 지능형 인식 라이브러리는 지식베이스 관리 모듈의 정보 중 문서이미지 인식 및 처리부에서 요구되는 정보를 효과적 으로 전달하기 위하여 코드(함수 혹은 클래스)를 포함하는 컴파일된 처리부로써, 자주 이용되는 기능을 메인함수에서 분리시켜 놓아 시스템을 안정적으로 유지하고, 디버깅을 쉽게 하며, 컴파일 시간을 좀더 빠르게 하기 위한 구성 및 효과를 갖는다.An intelligent recognition library comprising an image preprocessing module and a structural analysis module which reproduces image content information by using the information of the knowledge base management module and provides the reproduced image content information to a document image recognition and processing unit as follows. This is a compiled processing unit that contains code (function or class) to effectively convey the information required by the document image recognition and processing unit among the module information. It keeps the system stable by separating frequently used functions from the main function. It is easy to debug and has configuration and effects to make compilation time faster.

즉, 지식베이스 관리 모듈의 정보를 이용하여 지능형 인식 라이브러리의 이미지 전처리 및 구조분석 모듈에서 재생성된 이미지내용정보는 초기분석용 정보, 페이지구조 정보, 문서내용구조 정보, 이미지데이터 인식용 정보 및 소제목 정보를 포함하고, 상기 정보들은 분리된 메인함수에 의하여 지식베이스 관리 모듈의 각 데이터베이스에서 문서이미지 인식 및 처리부로 효과적으로 전달-처리될 수 있다. 아울러 상기 지능형 인식 라이브러리의 이미지 전처리 모듈은 지식베이스 관리 모듈 중 이미지내용DB의 이미지 기울기 보정정보, 이미지 외곽선 및 불필요 영역 제거정보, Dot 노이즈 제거를 위한 정보로 구성되는 초기분석용 정보를 호환하고 재생성하여 문서이미지 인식 및 처리부의 전처리 및 초기 분석단계에 이미지 고문서의 전처리 및 초기분석을 위한 정보를 제공하며; 지능형 인식 라이브러리의 구조분석 모듈은 지식베이스 관리 모듈 중 이미지내용DB의 페이지구조정보, 문서내용구조 정보, 인식용 정보, 소제목 정보와; 문자모델DB의 문자모델 리스트정보, 문자모델 정보, 샘플 문자영상 정보, 문자보기 정보와; 용어DB의 용어DB목록정보, 용어리스트정보, 용어정보, 용어검색 및 추가정보를 호환하고 재생성하여 문서이미지 인식 및 처리부의 페이지구조(Physical layout) 분석단계, 문서내용구조(Logical structure) 분석단계 및 문서인식단계에 제공하여 자주 이용되는 기능을 메인함수 에서 분리시켜 놓아 시스템을 안정적으로 유지하고, 디버깅을 쉽게하며, 컴파일 시간을 좀더 빠르게 하기 위한 구성 및 효과를 갖는다.That is, the image content information reproduced by the image preprocessing and structure analysis module of the intelligent recognition library using the information of the knowledge base management module may be information for initial analysis, page structure information, document content structure information, image data recognition information, and subtitle information. In addition, the information may be effectively transferred to the document image recognition and processing unit in each database of the knowledge base management module by a separate main function. In addition, the image preprocessing module of the intelligent recognition library is compatible with and reproduces the information for initial analysis consisting of image tilt correction information, image outline and unnecessary area removal information, and dot noise removal information of the image content DB of the knowledge base management module. Provide information for preprocessing and initial analysis of image archives in the preprocessing and initial analysis steps of the document image recognition and processing unit; The structure analysis module of the intelligent recognition library includes page structure information, document content structure information, recognition information, and subtitle information of an image content DB of a knowledge base management module; Character model list information, character model information, sample character image information, and character view information of the character model DB; Page layout (Physical layout) analysis step, Logical structure analysis step of document image recognition and processing unit by compatible and reproducing term DB list information, term list information, term information, term search and additional information of term DB By providing the document recognition step, the frequently used functions are separated from the main functions, so that the system can be stably maintained, easier to debug, and faster to compile.

또한 전처리 및 초기분석단계, 페이지구조(Physical layout) 분석단계, 문서내용구조(Logical structure) 분석단계, 문서인식단계 등의 단계로써 입력한 이미지화된 고문서의 텍스트데이터화를 수행하는 문서이미지 인식 및 처리부 중 전처리 및 초기분석단계는 문서영상 전처리과정, 이미지 구조 분석과정 및 초벌이미지데이터 인식과정으로 이루어지는 단계로써, 이미지데이터화된 고문서의 정형적인 상태와 형태를 확인하여 확인된 데이터 인식의 저해요인을 제거하고 이미지데이터화된 고문서의 구조를 분석하고 초벌인식하여 보다 정확한 텍스트데이터화된 고문서를 만들기 위한 단계이다. 즉, 문서영상 전처리과정은 상기 지능형 인식 라이브러리의 이미지 전처리 모듈의 이미지내용정보 중 전처리 정보 및 초기분석용 정보를 이용하여 이미지데이터화된 고문서의 기울어짐 보정, dot 노이즈 제거, 이미지데이터화된 고문서의 외각선 및 불필요 영역 제거, 외곽 노이즈 제거, 90도 회전된 이미지데이터화된 고문서의 자동 보정 등의 기능을 수행하고, 이미지 구조 분석과정은 지능형 인식 라이브러리의 구조분석 모듈의 이미지내용정보 중 페이지구조 정보를 이용하여 기본요소인 블록의 추출정확도를 높이기 위해 고문서 페이지의 단 형태를 감안하여 블록을 자동 추출하고 그림, 표, 텍스트 간의 블록이 결합되지 않도록 하기 위해 그림과 표 영역을 파악, 추출하는 기능을 제공하며, 초벌이미지데이터 인식과정은 상기의 과정들로 처리-분석된 이미지데이터화된 고문서를 초벌인식하여 하기의 페이지구조(Physical layout) 분석단계의 처리를 준비하는 과정이다.In addition, the document image recognition and processing unit that performs text data of the imaged old documents as the preprocessing and initial analysis stage, the physical layout analysis stage, the logical structure analysis stage, and the document recognition stage. The preprocessing and initial analysis stages consist of document image preprocessing, image structure analysis, and primitive image data recognition process. By checking the formal state and form of the documented old document, it removes the obstacles of the recognized data recognition. This is a step to analyze the structure of the data-formed ancient document and to recognize it first, to make more accurate text data-old document. That is, the document image preprocessing process is performed by using the preprocessing information and the initial analysis information of the image content information of the image preprocessing module of the intelligent recognition library to correct the skew of the image data of the old document, remove dot noise, and outline the outline of the image data of the old document. And eliminating unnecessary areas, removing noise from the outside, and automatically correcting old documents with 90-degree rotated image data. The image structure analysis process uses page structure information among the image content information of the structure analysis module of the intelligent recognition library. In order to increase the accuracy of extraction of blocks, which is a basic element, it automatically extracts the blocks in consideration of the form of the old document page, and provides the function to identify and extract the picture and table areas in order to prevent the blocks between pictures, tables and texts from being combined. The initial image data recognition process is processed and analyzed by the above processes. It is a process of preparing the processing of the following physical layout analysis step by first recognition of the documented old image data.

아울러 문서이미지 인식 및 처리부의 페이지구조(Physical layout) 분석단계는 이미지데이터 입력 페이지와 대응되는 페이지정보를 찾는 과정으로써, 입력된 이미지데이터화된 고문서의 페이지 구조을 분석하여 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 페이지구조(Physical layout) 정보가 제공하는 페이지 중 대응 가능한 페이지 구조을 생성하는 페이지구조 생성과정과; 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 블록의 속성을 이용한 페이지구조(Physical layout)정보와 입력된 이미지화된 고문서 페이지 내의 블록간의 대응 점수를 계산하여 대응정보를 결정하는 대응정보 결정과정과; 상기에서 계산한 블록간의 대응 점수를 통해 적합하게 대응되는 페이지 구조을 찾는 페이지구조 써치과정과; 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 페이지구조(Physical layout) 정보 중 적합하게 대응되는 페이지를 찾는 페이지 써치과정을 포함하고; 상기 페이지구조 생성과정, 대응정보 결정과정, 페이지구조 써치과정 및 페이지 써치과정의 수행 중 소제목에 관한 블록은 별도로 관리하며, 본 단계는 입력한 이미지데이터화된 고문서 페이지 구조에 가장 부합하는 본 발명의 시스템에 저장되어 있는 페이지 구조을 찾아 이미지화된 데이터 중 문자만을 선별하기 위하여 입력된 이미지데이터화된 고문서의 페이지 중 문자로 표시되어 있는 블록을 선별하기 위한 구성이다.In addition, the page layout analysis step of the document image recognition and processing unit is a process of finding page information corresponding to the image data input page, and analyzes the page structure of the inputted image data old document and provides it in the structure analysis module of the intelligent recognition library. A page structure generation process of generating a corresponding page structure among pages provided by the physical layout information; A correspondence information determination process of determining correspondence information by calculating a correspondence score between the page layout (Physical layout) information using the attributes of the block provided by the structure analysis module of the intelligent recognition library and the blocks in the input imaged old document page; A page structure search process for finding an appropriate page structure through the corresponding scores between the blocks calculated above; A page search process of finding a page corresponding to the page among physical layout information provided by the structure analysis module of the intelligent recognition library; Blocks related to subtitles during the page structure generation process, the corresponding information determination process, the page structure search process, and the page search process are separately managed, and this step is the system of the present invention most suitable for the input image data structured page structure. In order to select only the characters of the imaged data by searching the page structure stored in the structure of the input block to be displayed as a character of the page of the imaged old document.

상기와 연관하여 입력된 이미지데이터화된 고문서의 페이지 구조을 분석하여 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 페이지구조(Physical layout) 정보 중의 페이지 구조과 대응 가능한 페이지 구조을 생성하는 페이지구조 생성과정은 대부분의 이미지화된 고문서의 블록 구성이 지능형 인식 라이브러리의 이미지전처리 모듈에서 제공하는 페이지구조(Physical layout) 정보의 페이지 블록 구성과 다른 형태로 존재하기 때문에 전처리 및 초기분석단계에서 생성된 블록 구성 정보가 완벽하지 않아 하나의 블록이 하나의 블록으로 추출되어야 함에도 불구하고 여러 개의 블록으로 나뉘어 추출되어 블록간의 올바른 대응정보를 찾지 못하는 경우가 발생하기 때문에 두 페이지의 블록간 가장 유사한 대응관계를 결정하기 위하여 수행하고, 입력한 이미지화된 고문서 페이지의 블록 구성과 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 페이지구조(Physical layout) 정보의 페이지 블록 구성 간의 가장 유사한 형태의 블록 구성을 갖는 페이지를 찾기 위해서 두 개 이상의 블록이 합쳐지는 것을 허용하여 블록 조합이 만들어낼 수 있는 모든 형태의 페이지 구조을 생성하도록 구성한다. 이때 합쳐지는 블록들이 너무 상이한 블록 속성을 가지고 있을 경우에는 하기의 과정과 같이 블록간의 대응점수를 계산할 때에 벌점을 부여하여 대응점수를 감산한다.The page structure generation process of generating the page structure corresponding to the page structure in the page layout (Physical layout) information provided by the structure analysis module of the intelligent recognition library by analyzing the page structure of the inputted image data old document in association with the above Since the block structure of the old document is different from the page block structure of the physical layout information provided by the image preprocessing module of the intelligent recognition library, the block structure information generated in the preprocessing and initial analysis stages is not perfect. Although the block must be extracted as one block, it is divided into several blocks and the correct correspondence information cannot be found between the blocks. Therefore, it is executed to determine the most similar correspondence between the blocks of two pages. Two or more blocks are merged to find a page having the most similar form of block structure between the block structure of the imaged old document page and the page block structure of the physical layout information provided by the structure analysis module of the intelligent recognition library. Allow it to configure the block structure to produce any type of page structure that can be produced. In this case, if the blocks to be combined have too different block attributes, the corresponding points are subtracted by calculating a penalty when calculating the corresponding points between the blocks as follows.

또한 본 발명은 상기 과정을 수행한 후, 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 블록의 속성을 이용한 페이지구조(Physical layout)정보와 입력된 이미지화된 고문서 페이지 내의 블록간의 대응 점수를 계산하여 대응정보를 결정하는 대응정보 결정과정을 수행하는데 본 과정은 블록의 폰트 두께, 폰트 크기, 블록 간 위치관계의 속성을 이용하여 두 블록의 속성이 정확히 일치할 때는 최고의 대응 점수를 주고, 각 속성의 차이에 따라 벌점을 주는 방법으로써 다음과 같이 블록의 유사도(SAiBj)를 계산방법으로 점수 계산한다.In addition, the present invention, after performing the above process, by calculating the corresponding score between the page layout (Physical layout) information using the properties of the block provided by the structure analysis module of the intelligent recognition library and the block in the input imaged old document page corresponding information The process of determining the correspondence information is performed. This process uses the attributes of font thickness, font size, and positional relationship between blocks to give the best response score when the attributes of two blocks match exactly. As a method of penalizing the score, the similarity (S AiBj ) of the block is calculated by using a calculation method as follows.

[수학식 1][Equation 1]

Figure 112009062439636-PAT00001
Figure 112009062439636-PAT00001

상기 SPropertyAiB는 블록의 기본속성인 폰트크기와 폰트두께를 이용하여 두 대응블록의 유사정도를 나타 것으로써 페이지 A의 i번째 블록과 페이지 B의 j번째 블록의 속성유사도이고, SNeighborAiBj는 대응되는 두 블록의 상하좌우 4방향의 이웃이 얼마나 유사하게 위치하고 있는가를 나타내는 것으로써 i와 j 블록의 이웃유사도를 나타낸다. 다음은 블록의 속성유사도(SPropertyAiB)와 이웃유사도(SNeighborAiBj)를 구하기 위한 수학식이다.The S PropertyAiB represents the similarity of the two corresponding blocks using the font size and the font thickness, which are the basic attributes of the block, so that the property similarity between the i-th block of page A and the j-th block of page B is S, and S NeighborAiBj corresponds to The similarity of neighboring blocks i and j is shown by indicating how similarly the neighbors of the four blocks in the up, down, left, and right directions are located. The following equation is used to obtain the property similarity diagram S PropertyAiB and the neighbor similarity diagram S NeighborAiBj .

[수학식 2][Equation 2]

Figure 112009062439636-PAT00002
Figure 112009062439636-PAT00002

(상기fsAi와 fsBj는 가 블록의 대표폰트크기이고, ftAi와 ftBj는 각 블록의 대표폰트두께를 나타냄.)(The above fs Ai and fs Bj are the representative font sizes of blocks, and ft Ai and ft Bj represent the representative font thickness of each block.)

[수학식 3]&Quot; (3) "

Figure 112009062439636-PAT00003
Figure 112009062439636-PAT00003

(상기 SNorthAiBj, SSouthAiBj, SEastAiBj, SWestAiBj는 i와 j블록을 중심으로 상하좌우 4방향의 유사도를 나타냄.)(S NorthAiBj , S SouthAiBj , S EastAiBj , S WestAiBj represent similarity in four directions of up, down, left, and right around i and j blocks.

[수학식 4]&Quot; (4) "

Figure 112009062439636-PAT00004
Figure 112009062439636-PAT00004

상기 [수학식 4]의 WAi와 HAi는 각각 페이지 A의 i번째 블록의 폭(Width)과 높이(Height)를 나타내고, WAiNeiN, WAiNeis, HAiNeiE, HAiNeiW는 각각 블록 i의 상하좌우 4방향의 이웃 블록의 폭과 높이를 나타낸다. 마찬가지로 WBj, HBj, WBjNeiN, WBjNeiS, HBjNeiE, HBjNeiW는 페이지 B의 j번째 블록의 정보를 나타낸다. OverlapH()와 OverlapV()는 각각 두 블록이 수평과 수직으로 중첩되는 구간의 길이를 계산하는 함수를 나타내며, Ps는 가중치(이웃블록이 중첩되는 형태의 유사성, 1 또는 0.8)를 나타낸다.W Ai and H Ai in Equation 4 indicate the width and height of the i-th block of page A, respectively, and W AiNeiN , W AiNeis , H AiNeiE , and H AiNeiW respectively indicate the top and bottom of the block i. Shows the width and height of neighboring blocks in the left and right four directions. Similarly, W Bj , H Bj , W BjNeiN , W BjNeiS , H BjNeiE , and H BjNeiW represent information of the j th block of page B. OverlapH () and OverlapV () represent a function for calculating the length of a section where two blocks overlap each other horizontally and vertically, and Ps represents a weight (similarity of overlapping neighbor blocks, 1 or 0.8).

아울러 상기에서 계산한 블록간의 대응 점수를 통해 적합하게 대응되는 페이지 구조을 찾는 페이지구조 써치과정은 블록간의 대응 점수를 바탕으로 각 페이지 구조 점수를 합산하여 가장 적합한 페이지 구조을 찾는 과정이다. 이때 각 페이지 구조 점수를 비교는 각 블록의 영역의 크기에 따라 페이지 구조 점수에서 차지하는 비중을 다르게 하여 보다 적합한 페이지구조을 찾는 효과를 얻을 수 있다.In addition, the page structure search process of finding the appropriate page structure through the corresponding scores between the blocks calculated above is a process of finding the most suitable page structure by summing each page structure score based on the corresponding scores between the blocks. At this time, comparing the page structure scores may have an effect of finding a more suitable page structure by varying the weight of the page structure scores according to the size of the area of each block.

지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 페이지구조(Physical layout) 정보 중 적합하게 대응되는 페이지를 찾는 페이지 써치과정은 본 발명의 시스템 내의 이미지내용 DB 페이지 중에서 입력한 이미지데이터화된 고문서 페이지와 가장 잘 대응하는 이미지내용 DB 페이지를 찾는 과정으로써, 상기에서 계산한 페이지 구조 점수를 이용하여 입력한 이미지데이터화된 고문서 페이지와 이미지내용 DB 페이지간의 페이지 매칭 점수를 각 블록의 유사도 점수를 모두 합산하고 페이지 내의 블록의 총 면적으로 나눠서 정규화하는 방법으로 계산하고, 이 중에서 가장 높은 페이지 매칭 점수가 주어진 이미지내용 DB 페이지가 선택된다. The page search process for finding a page corresponding to the physical layout information provided by the structural analysis module of the intelligent recognition library best corresponds to the image data-formed document page among the image content DB pages in the system of the present invention. In the process of finding the image content DB page, the page matching score between the image data documented document page and the image content DB page input using the calculated page structure score is added to the similarity score of each block and The image content DB page given the highest page matching score is selected.

또한 상기 페이지구조 생성과정, 대응정보 결정과정, 페이지구조 써치과정 및 페이지 써치과정으로 구성되는 문서이미지 인식 및 처리부의 페이지구조(Physical layout) 분석단계 수행 중에는 입력한 이미지데이터화된 고문서의 각 페이지 중 소제목에 해당하는 블록 및 내용을 다른 내용 및 블록과 차별하여 별도로 관리한다. 즉, 상기 생성과정 및 결정과정 중 모든 라인에 대하여 지능형 인식 라이브러리의 이미지내용정보 중 소제목 정보를 이용하여 소제목 가능성 검사를 수행하고, 소제목이라 판단되는 타이틀을 찾으면 이를 독립된 블록으로 분리하여 페 이지구조 써치과정 및 페이지 써치과정에 별도로 반영하여 관리함으로써, 전문검색을 위한 보다 적합한 텍스트화된 색인용어를 찾을 수 있는 효과를 갖는다.In addition, a subtitle of each page of the inputted image data document during the page layout (Physical layout) analysis step of the document image recognition and processing unit consisting of the page structure generation process, the corresponding information determination process, the page structure search process and the page search process Blocks and their contents are managed separately from other contents and blocks. That is, a subtitle possibility test is performed on all lines during the generation and determination process by using subtitle information in the image contents information of the intelligent recognition library, and when a title determined to be a subtitle is found, the page structure search is divided into separate blocks. By reflecting and managing the process and the page search process separately, it is possible to find a more suitable textized index term for a full-text search.

문서이미지 인식 및 처리부의 문서내용구조(Logical structure) 분석단계는 도10내지 11과 같이 페이지구조(Physical layout) 분석단계 수행 이후 입력한 이미지화된 고문서를 완전한 텍스트 데이터를 구성하기 위하여 각 페이지에 해당하는 블록 추출 결과에 대한 순서를 부여하여 단계로써, 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 문서내용구조(Logical structure) 정보 중 각 레이블에 해당되는 블록 인덱스정보 및 내용 레이블정보 등이 갖는 각 논리 레이블에 해당되는 블록 정보를 이용하여 입력한 이미지화된 고문서의 각 페이지의 각 블록과 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 블록의 속성을 이용한 페이지구조(Physical layout)정보의 페이지의 각 블록(소제목(Section title), 내용블록)을 연결하고, 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 문서내용구조(Logical structure) 정보 중 레이블 순서정보를 이용하여 문서내용구조(Logical structure) 정보 중 각 레이블에 해당하는 실제 블록(입력한 이미지화된 고문서의 블록)을 결정하여 읽히는 순서대로 블록의 순서를 결정함으로써 입력한 이미지화된 고문서 페이지의 각 블록에 논리적인 순서를 부여하는 문서내용구조분석을 한다.Logical structure analysis step of document image recognition and processing unit corresponds to each page in order to compose the full text data of the imaged old document input after performing the physical layout analysis step as shown in FIGS. As a step of assigning the order of the block extraction result, each logical label included in the block index information and the content label information corresponding to each label among the document structure information provided by the structural analysis module of the intelligent recognition library. Each block of each page of the imaged ancient document input using the corresponding block information and each block of the page of the page of physical layout information using the properties of the block provided by the structure analysis module of the intelligent recognition library (Section title), content block) and the structure of intelligent recognition library The order in which the actual block (block of the input imaged old document) corresponding to each label among the document content structure information is determined and read using the label order information among the document structure information provided by the module. By determining the order of the blocks, the document content structure analysis is performed, which assigns a logical order to each block of the inputted imaged document page.

문서이미지 인식 및 처리부의 문서인식단계는 논리적인 순서가 부여된 입력한 이미지화된 고문서 페이지의 모든 블록에 대해서 텍스트화된 데이터 인식을 수행하는 단계로써, 입력한 이미지화된 고문서 페이지의 각 블록은 지능형 인식 라이브러리에서 재생성된 지식베이스 관리 모듈의 이미지내용DB의 인식용 정보 중 용어 DB인덱스정보 및 문자모델DB인덱스정보를 이용하여 지식베이스 관리 모듈의 문자모델DB 및 용어DB의 정보를 이용하여 이미지화된 고문서의 데이터를 텍스트화된 데이터로 인식한다. 또한 상기 문서인식단계에서 소제목(Section title)은 지식베이스 관리 모듈의 이미지내용DB의 정보 중 타이틀레벨(Title level) 정보, 폰트크기정보, 폰트두께정보, 레벨 표시스타일정보, 타이틀 인식용 문자DB인덱스정보 등의 소제목 정보를 이용하여 지식베이스 관리 모듈의 문자모델DB 및 용어DB의 정보를 이용하고 이미지화된 고문서의 데이터를 텍스트화된 데이터로 인식하며, 문서인식단계 수행되어 텍스트화된 고문서는 용어DB의 정보를 이용하여 인식결과를 향상시키기 위하여 인식결과를 보정할 수 있는데, 인식결과에 각 낱자별로 인식후보와 인식점수를 부여하고, 용어DB는 각 단어 별로 가중치를 저장하고 있어서 인식결과의 인식후보들의 인식점수를 조정함으로써 용어DB에 저장되어있는 단어의 출현빈도를 높일 수 있다. 또한 문자모델DB에서 이용하는 문자모델 학습기는 확률 통계적 방법 중 2차형거리함수(QDF: Quadratic Distance Function)를 사용하는 Minimum Distance Classifier 방식, 상기 2차형거리함수(QDF)와 마할라노비스(Mahalanobis) 거리 함수를 조합한 방식을 이용할 수 있다.The document recognition step of the document image recognition and processing unit performs textual data recognition on all blocks of the inputted imaged old document page given a logical order, and each block of the inputted imaged old document page is intelligently recognized. Among the information for recognizing the image contents DB of the knowledge base management module reproduced from the library, the terminology of the old document imaged using the information of the character model DB and the term DB of the knowledge base management module using the term DB index information and the character model DB index information. Recognize data as textualized data. Also, in the document recognition step, the section title is title level information, font size information, font thickness information, level display style information, title recognition character DB index among information of the image contents DB of the knowledge base management module. Using the information of the character model DB and terminology DB of the knowledge base management module using subtitle information such as information, the data of the imaged old document is recognized as textualized data, and the documented step is carried out in the textual old document. The recognition result can be corrected to improve the recognition result by using the information of the recognition. The recognition candidate and recognition score are given to each recognition word in the recognition result, and the term DB stores weights for each word, thereby recognizing candidates of the recognition result. By adjusting the recognition score of, it is possible to increase the frequency of occurrence of words stored in the term DB. In addition, the character model learner used in the character model DB is a minimum distance classifier method using a quadratic distance function (QDF) among the probability statistical methods, and the quadratic distance function (QDF) and the mahalanobis distance function. Can be used in combination.

아울러 본 발명은 상기 지식베이스 관리 모듈, 지능형 인식 라이브러리 및 문서이미지 인식 및 처리부와 사용자 간의 의사를 소통하기 위한 사용자 화면(UI)을 더 포함함으로써, 시스템과 사용자 간의 원활한 의사를 소통을 실현 가능하다. 즉 사용자 화면(UI)은 도12와 같이 입력할 이미지데이터화된 고문서의 썸네일 화면, 이미지내용정보 중 페이지 구조 정보를 확인할 수 있는 이미지내용DB리스트 화 면 및 해당 이미지내용DB의 정보를 확인할 수 있는 화면 등을 구성하여 입력할 이미지데이터화된 고문서의 인식 및 처리를 위한 대용량 입력 이미지데이터를 효과적으로 관리-설정할 수 있고, 도13과 같이 입력한 이미지데이터화된 고문서의 썸네일 화면, 고문서구조분석 결과 화면 및 인식 결과 화면 등을 구성하여 이미지데이터화된 고문서의 텍스트화를 확인 가능한 효과가 있다.In addition, the present invention further includes a user screen (UI) for communicating the knowledge base management module, the intelligent recognition library, and the document image recognition and processing unit and the communication between the user, thereby enabling smooth communication between the system and the user. That is, the user screen (UI) is a thumbnail screen of an image data-formed old document to be input as shown in FIG. 12, an image contents DB list screen for checking page structure information among image contents information, and a screen for checking information of the corresponding image contents DB. It is possible to effectively manage and set a large amount of input image data for the recognition and processing of the image data old document to be inputted by configuring the image data, and the thumbnail screen of the input image data old document as shown in FIG. By constructing a screen, etc., it is possible to confirm the textification of the imaged old document.

도1은 본 발명의 실시예에 의한 시스템의 요약 블럭도.1 is a summary block diagram of a system according to an embodiment of the present invention.

도2는 본 발명의 실시예에 의한 시스템의 상세 블럭도.2 is a detailed block diagram of a system in accordance with an embodiment of the present invention.

도3은 본 발명의 실시예에 의한 지식베이스 관리 모듈 중 이미지내용DB의 관리를 위한 모듈의 구성도.Figure 3 is a block diagram of a module for managing the image content DB of the knowledge base management module according to an embodiment of the present invention.

도4는 본 발명의 실시예에 의한 지식베이스 관리 모듈 중 문자모델DB의 관리를 위한 모듈의 구성도.Figure 4 is a block diagram of a module for management of the character model DB of the knowledge base management module according to an embodiment of the present invention.

도5는 본 발명의 실시예에 의한 지식베이스 관리 모듈 중 용어DB의 관리를 위한 모듈의 구성도.Figure 5 is a block diagram of a module for the management of the term DB of the knowledge base management module according to an embodiment of the present invention.

도6은 본 발명의 실시예에 의한 페이지구성(Physical layout) 분석단계 중 페이지구성 생성과정으로 선택된 페이지와 페이지 구성을 나타내는 구성도.Figure 6 is a block diagram showing a page and the page configuration selected in the page configuration generation process of the page layout (Physical layout) analysis step according to an embodiment of the present invention.

도7은 본 발명의 실시예에 의한 페이지구성(Physical layout) 분석단계 중 대응정보 결정과정으로 블록별로 계산된 대응점수를 나타내는 구성도.FIG. 7 is a block diagram illustrating a corresponding score calculated for each block in a process of determining corresponding information in a physical layout analysis step according to an embodiment of the present invention; FIG.

도8은 본 발명의 실시예에 의한 페이지구성(Physical layout) 분석단계 중 페이지구성 써치과정으로 적합하게 대응되는 페이지 구성을 찾는 과정을 나타내는 구성도.8 is a block diagram showing a process of finding a page configuration that is appropriately matched with a page configuration search process in a page layout analysis step according to an embodiment of the present invention.

도9는 본 발명의 실시예에 의한 페이지구성(Physical layout) 분석단계 중 페이지 써치과정으로 적합하게 대응되는 페이지를 찾는 과정을 나타내는 구성도.FIG. 9 is a diagram illustrating a process of finding a page correspondingly to a page search process in a physical layout analysis step according to an embodiment of the present invention. FIG.

도10은 본 발명의 실시예에 의한 문서내용구조(Logical structure) 분석단계 중 블록의 논리적인 순서를 추출하는 과정을 나타내는 구성도1.FIG. 10 is a block diagram illustrating a process of extracting a logical order of blocks in a logical structure analysis step according to an embodiment of the present invention. FIG.

도11은 본 발명의 실시예에 의한 문서내용구조(Logical structure) 분석단계 중 블록의 논리적인 순서를 추출하는 과정을 나타내는 구성도2.FIG. 11 is a block diagram illustrating a process of extracting a logical order of blocks in a logical content analysis step according to an embodiment of the present invention. FIG.

도12는 본 발명의 실시예에 의한 사용자 화면(UI) 중 문서이미지 인식 및 처리를 위한 인식정보설정 사용자 화면을 나타내는 구성도.Fig. 12 is a block diagram showing a recognition information setting user screen for document image recognition and processing among user screens UI according to an embodiment of the present invention.

도13은 본 발명의 실시예에 의한 사용자 화면(UI) 중 문서이미지 인식 및 처리 결과 화면을 나타내는 구성도.Fig. 13 is a block diagram showing a document image recognition and processing result screen in a user screen UI according to an embodiment of the present invention.

Claims (10)

관리도구로써 다수의 이미지내용정보를 갖는 이미지내용DB, 문자모델DB 및 용어DB로 구성되는 지식베이스 관리 모듈과;A knowledge base management module composed of an image content DB, a character model DB, and a term DB having a plurality of image content information as a management tool; 상기 지식베이스 관리 모듈의 정보를 이용하여 이미지내용정보를 재생성하고, 재생성된 이미지내용정보를 하기 문서이미지 인식 및 처리부에 제공하는 이미지 전처리 모듈 및 구조분석 모듈로 구성되는 지능형 인식 라이브러리와;An intelligent recognition library comprising an image preprocessing module and a structure analysis module for reproducing image content information using information of the knowledge base management module and providing the reproduced image content information to a document image recognition and processing unit; 전처리 및 초기분석단계, 페이지구조(Physical layout) 분석단계, 문서내용구조(Logical structure) 분석단계, 문서인식단계를 수행하는 문서이미지 인식 및 처리부와;A document image recognition and processing unit for performing a preprocessing and initial analysis step, a physical layout analysis step, a document content structure analysis step, and a document recognition step; 상기 문서이미지 인식 및 처리부, 지식베이스 관리 모듈 및 지능형 인식 라이브러리와 사용자 간의 의사를 소통하기 위한 사용자 화면(UI)을 포함하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.Recognizing and processing old document image data using an intelligent recognition library and a management tool, the document image recognition and processing unit, a knowledge base management module, and an intelligent recognition library and a user screen (UI) for communicating with a user. Way. 제1항에 있어서,The method of claim 1, 지식베이스 관리 모듈의 이미지내용DB는 전처리 및 초기분석용 정보, 페이지구조(Physical layout) 정보, 문서내용구조(Logical structure) 정보, 인식용 정보, 소제목 정보를 포함하고;The image content DB of the knowledge base management module includes information for preprocessing and initial analysis, physical layout information, document content structure information, recognition information, and subtitle information; 상기 모든 정보는 생성, 수정, 삭제 가능하도록 구성되는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.And all the information is generated, modified and deleted. The method of recognizing and processing old document image data using an intelligent recognition library and management tool. 제2항에 있어서,The method of claim 2, 전처리 정보 및 초기분석용 정보는 문서의 기울기보정정보, 외각선 및 불필요 영역 제거 정보, dot 노이즈제거정보, 문서외곽 노이즈 제거정보 및 회전된 이미지 보정기능정보, 단수정보 및 초벌이미지데이터 인식용 문자모델 DB인덱스정보를 포함하고;Pre-processing information and initial analysis information include document skew correction information, outline and elimination of unnecessary lines, dot noise elimination information, document outer noise elimination information, rotated image correction function information, singular information and initial image data character model DB index information is included; 페이지구조 정보(Physical layout)는 블록위치정보, 블록정렬정보, 내부라인의 정렬정보 및 블록 간 위치관계 정보를 포함하고;Page layout information (Physical layout) includes block position information, block alignment information, alignment information of internal lines, and positional relationship information between blocks; 문서내용구조 정보(Logical structure)는 내용 레이블정보, 레이블 순서정보, 레이블에 해당되는 블록 인덱스정보를 포함하고;The document content structure information (Logical structure) includes content label information, label order information, and block index information corresponding to the label; 인식용 정보는 용어DB인덱스정보, 문자모델DB인덱스정보를 포함하고;The recognition information includes the term DB index information and character model DB index information; 소제목 정보는 타이틀레벨(Title level) 정보, 폰트크기정보, 폰트두께정보, 레벨 표시스타일정보, 타이틀 인식용 문자DB인덱스정보를 포함하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.The subtitle information includes title level information, font size information, font thickness information, level display style information, and character DB index information for title recognition. Recognition and processing method. 제1항에 있어서,The method of claim 1, 지식베이스 관리 모듈의 문자모델DB는 문자모델 리스트정보, 문자모델 정보, 샘플 문자영상 정보, 문자보기 정보를 포함하고;The character model DB of the knowledge base management module includes character model list information, character model information, sample character image information, and character view information; 상기 모든 정보는 생성, 수정, 삭제 가능하도록 구성되는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.And all the information is generated, modified and deleted. The method of recognizing and processing old document image data using an intelligent recognition library and management tool. 제1항에 있어서,The method of claim 1, 지식베이스 관리 모듈의 용어DB는 용어DB목록정보, 용어리스트정보, 용어정보, 용어검색 및 추가정보를 포함하고;The term DB of the knowledge base management module includes term DB list information, term list information, term information, term search and additional information; 상기 모든 정보는 생성, 수정, 삭제 가능하도록 구성되는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.And all the information is generated, modified and deleted. The method of recognizing and processing old document image data using an intelligent recognition library and management tool. 제1항에 있어서,The method of claim 1, 지능형 인식 라이브러리의 이미지내용정보는 초기분석용 정보, 페이지구조 정보, 문서내용구조 정보, 이미지데이터 인식용 정보 및 소제목 정보를 포함하고, 지식베이스 관리 모듈의 데이터를 이용하여 이미지내용정보를 생성하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.The image content information of the intelligent recognition library includes information for initial analysis, page structure information, document content structure information, image data recognition information, and subtitle information, and generates image content information using data of a knowledge base management module. A method for recognizing and processing old document image data using intelligent recognition libraries and management tools. 제1항에 있어서,The method of claim 1, 지능형 인식 라이브러리의 이미지 전처리 모듈은 지식베이스 관리 모듈 중 이미지내용DB의 이미지 기울기 보정정보, 이미지 외곽선 및 불필요 영역 제거정보, Dot 노이즈 제거를 위한 정보로 구성되는 초기분석용 정보를 재생성하여 문서이미지 인식 및 처리부의 전처리 및 초기 분석단계에 제공하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.The image preprocessing module of the intelligent recognition library regenerates the initial analysis information consisting of image tilt correction information, image outline and unnecessary area elimination information, and dot noise elimination information from the knowledge base management module. Method for recognizing and processing old document image data using an intelligent recognition library and management tool, which is provided to the preprocessing and initial analysis stage of the processing unit. 제1항에 있어서,The method of claim 1, 지능형 인식 라이브러리의 구조분석 모듈은 지식베이스 관리 모듈 중 이미지내용DB의 페이지구조정보, 문서내용구조 정보와, 인식용 정보, 소제목 정보와; 문자모델DB의 문자모델 리스트정보, 문자모델 정보, 샘플 문자영상 정보, 문자보기 정보, 용어DB의 용어DB목록정보, 용어리스트정보, 용어정보, 용어검색 및 추가정보를 재생성하여 문서이미지 인식 및 처리부의 페이지구조(Physical layout) 분석단 계, 문서내용구조(Logical structure) 분석단계 및 문서인식단계에 제공 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.The structure analysis module of the intelligent recognition library includes: page structure information, document content structure information, recognition information, and subtitle information of the image content DB of the knowledge base management module; Document image recognition and processing unit by regenerating the character model list information, character model information, sample character image information, character view information, term DB list information, term list information, term information, term search and additional information of the character model DB. A method for recognizing and processing old document image data using an intelligent recognition library and management tool, which is provided in a physical layout analysis step, a logical structure analysis step, and a document recognition step. 제1항에 있어서,The method of claim 1, 문서이미지 인식 및 처리부의 전처리 및 초기분석단계는 문서영상 전처리과정, 이미지 구조 분석과정, 초벌이미지데이터 인식과정을 포함하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.The preprocessing and initial analysis steps of the document image recognition and processing unit include the document image preprocessing process, the image structure analysis process, and the initial image data recognition process. . 제1항에 있어서,The method of claim 1, 문서이미지 인식 및 처리부의 페이지구조(Physical layout) 분석단계는 이미지데이터 입력 페이지와 대응되는 페이지정보를 찾는 과정으로써, The physical layout analysis step of the document image recognition and processing unit is a process of finding page information corresponding to the image data input page. 입력된 이미지데이터화된 고문서의 페이지 구조을 분석하여 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 페이지구조(Physical layout) 정보 중의 페이지 구조과 대응 가능한 페이지 구조을 생성하는 페이지구조 생성과정과;A page structure generation process of analyzing a page structure of an input image data-old document and generating a page structure corresponding to the page structure in the page layout information provided by the structure analysis module of the intelligent recognition library; 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 블록의 속성을 이용한 페이지구조(Physical layout)정보와 입력된 이미지화된 고문서 페이지 내의 블 록간의 대응 점수를 계산하여 대응정보를 결정하는 대응정보 결정과정과;A correspondence information determination process of determining correspondence information by calculating a correspondence score between page layout (Physical layout) information using a block attribute provided by a structure analysis module of the intelligent recognition library and a block in an input imaged old document page; 상기에서 계산한 블록간의 대응 점수를 통해 적합하게 대응되는 페이지 구조을 찾는 페이지구조 써치과정과;A page structure search process for finding an appropriate page structure through the corresponding scores between the blocks calculated above; 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 페이지구조(Physical layout) 정보 중 적합하게 대응되는 페이지를 찾는 페이지 써치과정을 포함하고;A page search process of finding a page corresponding to the page among physical layout information provided by the structure analysis module of the intelligent recognition library; 상기 페이지구조 생성과정, 대응정보 결정과정, 페이지구조 써치과정 및 페이지 써치과정의 수행 중 소제목에 관한 블록은 별도로 관리하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.The method for recognizing and processing old document image data using an intelligent recognition library and a management tool, wherein a block relating to a subtitle is separately managed during the page structure generation process, corresponding information determination process, page structure search process, and page search process. .
KR1020090096940A 2009-10-12 2009-10-12 Iamge Data Recognition and Managing Method for Ancient Documents using Intelligent Recognition Library and Management Tool KR101118628B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090096940A KR101118628B1 (en) 2009-10-12 2009-10-12 Iamge Data Recognition and Managing Method for Ancient Documents using Intelligent Recognition Library and Management Tool

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090096940A KR101118628B1 (en) 2009-10-12 2009-10-12 Iamge Data Recognition and Managing Method for Ancient Documents using Intelligent Recognition Library and Management Tool

Publications (2)

Publication Number Publication Date
KR20110039900A true KR20110039900A (en) 2011-04-20
KR101118628B1 KR101118628B1 (en) 2012-03-07

Family

ID=44046354

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090096940A KR101118628B1 (en) 2009-10-12 2009-10-12 Iamge Data Recognition and Managing Method for Ancient Documents using Intelligent Recognition Library and Management Tool

Country Status (1)

Country Link
KR (1) KR101118628B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102125056B1 (en) 2019-03-26 2020-06-19 부산대학교 산학협력단 System and Method for Generating Character and Book for Mixed Character Automatic Recognition and System and Method for Searching using same
KR20220074547A (en) * 2020-11-27 2022-06-03 주식회사 투블럭에이아이 Apparatus and method for improving documents recognition using 3-step language model
KR20230125986A (en) 2022-02-22 2023-08-29 신광출 Manufacturing method of eco-friendly synthetic wood with improved flame retardancy using graphene and its synthetic wood

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022182111A1 (en) * 2021-02-23 2022-09-01 네이버 주식회사 Method and system for generating table, and method and system for recognizing table
KR20240015304A (en) 2022-07-27 2024-02-05 동명대학교산학협력단 Archiving method of rare materials

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102125056B1 (en) 2019-03-26 2020-06-19 부산대학교 산학협력단 System and Method for Generating Character and Book for Mixed Character Automatic Recognition and System and Method for Searching using same
KR20220074547A (en) * 2020-11-27 2022-06-03 주식회사 투블럭에이아이 Apparatus and method for improving documents recognition using 3-step language model
KR20230125986A (en) 2022-02-22 2023-08-29 신광출 Manufacturing method of eco-friendly synthetic wood with improved flame retardancy using graphene and its synthetic wood

Also Published As

Publication number Publication date
KR101118628B1 (en) 2012-03-07

Similar Documents

Publication Publication Date Title
US8131087B2 (en) Program and apparatus for forms processing
JP5134628B2 (en) Media material analysis of consecutive articles
JP2022541199A (en) A system and method for inserting data into a structured database based on image representations of data tables.
CN104850633B (en) A kind of three-dimensional model searching system and method based on the segmentation of cartographical sketching component
CN107193962B (en) Intelligent map matching method and device for Internet promotion information
JP4443443B2 (en) Document image layout analysis program, document image layout analysis apparatus, and document image layout analysis method
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN111274239B (en) Test paper structuring processing method, device and equipment
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
JP2004348591A (en) Document search method and device thereof
US20140301644A1 (en) Extracting Reading Order Text and Semantic Entities
KR101118628B1 (en) Iamge Data Recognition and Managing Method for Ancient Documents using Intelligent Recognition Library and Management Tool
CN103902993A (en) Document image identification method and device
Tsai et al. Using cell phone pictures of sheet music to retrieve MIDI passages
CN112784009A (en) Subject term mining method and device, electronic equipment and storage medium
CN115994535A (en) Text processing method and device
Zhu et al. DocBed: A multi-stage OCR solution for documents with complex layouts
JP2009199302A (en) Program, device, and method for analyzing document
JP2006309347A (en) Method, system, and program for extracting keyword from object document
CN112560849B (en) Neural network algorithm-based grammar segmentation method and system
CN114579796A (en) Machine reading understanding method and device
CN115937843B (en) Image text detection method and device, storage medium and electronic equipment
JP2011070529A (en) Document processing apparatus
MacCormack Semi-automatic Segmentation & Alignment of Handwritten Historical Text Images with the use of Bayesian Optimisation
Beltrán et al. Weighting Sliding Tiles For Writer Identification in Handwritten Musical Scores

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant