KR101118628B1

KR101118628B1 - 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법

Info

Publication number: KR101118628B1
Application number: KR1020090096940A
Authority: KR
Inventors: 곽희규; 이현주; 김성헌
Original assignee: 대한민국(국가기록원)
Priority date: 2009-10-12
Filing date: 2009-10-12
Publication date: 2012-03-07
Also published as: KR20110039900A

Abstract

본 발명은 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법에 있어서, 관리 도구로써 다수의 이미지내용정보를 갖는 이미지내용DB, 문자모델DB 및 용어DB로 구성되는 지식베이스 관리 모듈과; 상기 지식베이스 관리 모듈의 정보를 이용하여 이미지내용정보를 재생성하고, 재생성된 이미지내용정보를 하기 문서이미지 인식 및 처리부에 제공하는 이미지 전처리 모듈 및 구조분석 모듈로 구성되는 지능형 인식 라이브러리와; 전처리 및 초기분석단계, 페이지구조(Physical layout) 분석단계, 문서내용구조(Logical structure) 분석단계, 문서인식단계를 수행하는 문서이미지 인식 및 처리부와; 상기 문서이미지 인식 및 처리부, 지식베이스 관리 모듈 및 지능형 인식 라이브러리와 사용자 간의 의사를 소통하기 위한 사용자 화면(UI)을 포함하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법에 관한 것이다.

또한 본 발명은 종래 이미지데이터화된 고문서의 정보검색 및 이미지조회 서비스를 제공하기 위한 색인DB구축 시 각 고문서 내용에 해당하는 색인어를 수작업으로 입력해야하는 문제를 고문서에 관련한 다수의 이미지내용정보를 갖는 지식베이스 관리 모듈을 구성하고, 상기 지식베이스 관리 모듈에서 제공하는 정보를 이용하여 입력한 이미지데이터화된 고문서의 텍스트데이터화하기 위한 정보관리를 효율적으로 하는 지능형 인식 라이브러리를 제공함으로써 종래의 문제점을 해결하는 효 과가 있다.

전문검색, 이미지고문서, 텍스트고문서, 데이터베이스, 라이브러리, 이미지내용DB, 문자모델DB, 용어DB, 문자인식

Description

지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법 {Iamge Data Recognition and Managing Method for Ancient Documents using Intelligent Recognition Library and Management Tool}

본 발명은 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법에 있어서, 관리 도구로써 다수의 이미지내용정보를 갖는 이미지내용DB, 문자모델DB 및 용어DB로 구성되는 지식베이스 관리 모듈, 상기 지식베이스 관리 모듈의 정보를 이용하여 이미지내용정보를 재생성하고, 재생성된 이미지내용정보를 하기 문서이미지 인식 및 처리부에 제공하는 이미지 전처리 모듈 및 구조분석 모듈로 구성되는 지능형 인식 라이브러리, 전처리 및 초기분석단계, 페이지구조(Physical layout) 분석단계, 문서내용구조(Logical structure) 분석단계, 문서인식단계를 수행하는 문서이미지 인식 및 처리부, 상기 문서이미지 인식 및 처리부, 지식베이스 관리 모듈 및 지능형 인식 라이브러리와 사용자 간의 의사를 소통하기 위한 사용자 화면(UI)을 포함하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법에 관한 분야이다.

이미지데이터화된 고문서의 전문검색서비스 실현을 위한 문서인식시스템은 문자인식 기술의 결합이 필요한데, 문자인식 기술은 입력 문자데이터로부터 특징을 추출하고 미리 정해진 여러 문자모델과의 매칭을 통해 한 문자모델로 분류하는 과정으로 구성된다. 학습(training)과정에서 미리 구축되는 문자모델은 인식을 통해 하나의 개념으로 대응시키는 기준과 같아서, 문자모델의 성질에 따라 인식 대상 자료가 제한되거나 문자인식의 성능에 영향을 미친다.

또한 종래의 문서인식시스템을 위한 문자인식 기술은 사람의 정보처리 능력을 완벽하게 알고리즘화하지 못해 문자의 난이도에 따라 질적인 측면과 양적인 측면의 어려움이 있다. 즉 종래의 기술은 사람이 가지고 있는 뛰어난 문자인식 기능은 직관과 경험에 바탕을 두고 있지만 컴퓨터에 인식과정을 객관화하고 정량화하여 알고리즘의 형태로 공식화하는 일반적인 방법이 완성되어 있지 않기 때문에 질적인 어려움이 발생한다. 예를 들어, 인쇄체 문자의 경우 다양한 활자체(font) 형태나 크기(size), 기울어짐(slant) 등의 불일치로 인하여 어려움이 발생하고, 문자인식의 양적인 측면의 어려움은 다양한 문자의 방대한 양으로 인하여 공학적으로 방대한 기억용량을 갖춘 시스템 구축이 어려운 문제가 있고, 방대한 기억용량을 갖춘 시스템 상에서 특정의 문자를 인식하기 위하여 인식소요시간이 오래 걸리는 문제가 발생한다. 특히 상기 문제는 정보량(information content)이 많은 문자를 대상으로 하는 경우에 심하게 나타나는데, 예를 들어, 인식 대상이 숫자(10종)에서 영문 자(52종), 한글(11,172종), 더 나아가 한자(약 50,000여종)로 바뀜에 따라 정보량이 증가하고, 이것은 인식장치를 구성할 때 글자의 종류가 증가함에 따라 기억해야 하는 문자의 형상이 증가하고, 다양한 가능성을 비교 판정하는 인식장치의 규모 증가를 초래한다.

상기와 같은 문자인식의 질적이고 양적인 난이도는 모든 데이터에 일정한 성능을 가지는 범용의 문자인식 구현을 어렵게 하는 요인이다. 따라서 방대한 이미지데이터화된 문서의 효율적인 텍스트데이터화 문제를 해결하기 위해서, 기존의 문서 텍스트화 시스템에 문자인식의 난이도가 최소화된 형태로 적용될 수 있는 추가적인 모듈의 탑재 및 텍스트화가 필요한 문서의 분야에 따라서 각 분야에 해당하는 전문적인 데이터베이스를 구축하여 보다 정확성이 뛰어나고 효율적인 시스템 구축이 요구된다. 더구나 처리해야 하는 문서의 이미지가 소장 기간이 오래되어 문서 이미지 품질이 낮고 다양한 문서구조를 포함하고, 다양한 폰트에 의해 생성된 대용량데이터인 경우에는 문자인식의 성능은 더욱 떨어지기 때문에 최적의 전문검색서비스 구현을 위해서는 보다 지속적인 연구개발이 요구된다.

본 발명은 종래 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법에 관한 기술에 따른 문제점들을 개선하고자 안출된 기술로써,

종래의 기술은 문자인식의 질적인 측면에서 컴퓨터에 인식과정을 객관화하고 정량화하여 알고리즘의 형태로 공식화하는 일반적인 방법이 완성되어 있지 않기 때문에 발생하고, 인쇄체 문자의 경우 다양한 활자체(font) 형태나 크기(size), 기울어짐(slant) 등의 불일치로 인하여 발생하는 양질의 문자인식 능력을 갖는 시스템을 제공하지 못하는 문제가 있고, 문자인식의 양적인 측면에서는 다양한 문자의 방대한 양으로 인하여 공학적으로 방대한 기억용량을 갖춘 시스템 구축이 어려운 문제와 방대한 기억용량을 갖춘 시스템상에서 특정의 문자를 인식하기 위하여 인식소요시간이 오래 걸리는 문제가 발생하는 문제가 있기 때문에 이를 해결하는 해결점을 제공하는 것을 목적으로 한다.

본 발명은 상기와 같은 소기의 목적을 실현하고자,

관리 도구로써 다수의 이미지내용정보를 갖는 이미지내용DB, 문자모델DB 및 용어DB로 구성되는 지식베이스 관리 모듈과; 상기 지식베이스 관리 모듈의 정보를 이용하여 이미지내용정보를 재생성하고, 재생성된 이미지내용정보를 하기 문서이미 지 인식 및 처리부에 제공하는 이미지 전처리 모듈 및 구조분석 모듈로 구성되는 지능형 인식 라이브러리와; 전처리 및 초기분석단계, 페이지구조(Physical layout) 분석단계, 문서내용구조(Logical structure) 분석단계, 문서인식단계를 수행하는 문서이미지 인식 및 처리부와; 상기 문서이미지 인식 및 처리부, 지식베이스 관리 모듈 및 지능형 인식 라이브러리와 사용자 간의 의사를 소통하기 위한 사용자 화면(UI)을 포함하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법을 제시한다.

본 발명은 상기의 수단으로써, 종래 이미지데이터화된 고문서의 정보검색 및 이미지조회 서비스를 제공하기 위한 색인DB구축 시 각 고문서 내용에 해당하는 색인어를 수작업으로 입력해야하는 문제를 고문서에 관련한 다수의 이미지내용정보를 갖는 지식베이스 관리 모듈을 구성하고, 상기 지식베이스 관리 모듈에서 제공하는 정보를 이용하여 입력한 이미지데이터화된 고문서의 텍스트데이터화하기 위한 정보관리를 효율적으로 하는 지능형 인식 라이브러리를 제공함으로써 종래의 문제점을 해결하는 효과가 있다.

이하 본 발명을 적용한 실시예를 나타내는 첨부 도면 1내지 13을 참고하여 본 발명을 구체적으로 설명하면 다음과 같다.

우선 관리 도구로써 다수의 이미지내용정보를 갖는 지식베이스 관리 모듈은 이미지내용DB, 문자모델DB 및 용어DB 등 고문서에 관련한 다수의 데이터 정보를 갖는 데이터베이스(DB)로 구성되어 있어 이미지데이터화 된 고문서를 텍스트데이터화하기 위한 전문적인 지식베이스(Knowledge Base)를 제공하는 역할을 한다. 구체적으로, 지식베이스 관리 모듈 중 이미지내용DB는 전처리정보, 초기분석용 정보, 페이지구조(Physical layout) 정보, 문서내용구조(Logical structure) 정보, 인식 정보 및 소제목 정보를 포함하고, 상기 모든 정보는 생성, 수정, 삭제 가능하도록 구성한다. 즉, 이미지내용DB의 전처리 정보는 입력받은 이미지테이터화된 문서의 기울기보정정보, 외각선 및 불필요 영역 제거 정보, dot 노이즈제거정보, 문서외곽 노이즈 제거정보 및 회전된 이미지 보정기능정보를 갖고, 초기분석용 정보는 단수정보 및 초벌이미지데이터 인식용 문자모델 DB인덱스정보를 갖고,
페이지구조(Physical layout) 정보는 입력된 문서 페이지 이미지(도 13 참조)에서 얻는 블록위치정보, 블록정렬정보, 내부라인의 정렬정보 및 블록 간 위치관계 정보를 갖고, 문서내용구조 정보(Logical structure)는 각 페이지에 해당하는 블록추출결과에 순서를 부여하여 얻는 내용 레이블정보, 레이블 순서정보, 레이블에 해당되는 블록 인덱스정보를 갖고, 인식용 정보는 용어DB인덱스정보, 문자모델DB인덱스정보를 갖고, 소제목 정보는 상기 블록들의 타이틀레벨(Title level) 정보, 폰트크기정보, 폰트두께정보, 레벨 표시스타일정보, 타이틀 인식용 문자DB인덱스정보를 갖는다.
아울러 문자모델DB는 문자모델 리스트정보, 문자모델 정보, 샘플 문자영상 정보, 문자보기 정보를 갖고, 용어DB는 용어DB목록정보, 용어리스트정보, 용어정보, 용어검색 및 추가정보를 갖게 구성하여, 종래 이미지데이터화된 고문서의 정보검색 및 이미지조회 서비스를 제공하기 위한 색인DB구축 시 각 고문서 내용에 해당하는 색인어를 수작업으로 입력해야하는 문제를 고문서에 관련한 다수의 이미지내용정보를 갖는 지식베이스 관리 모듈을 구성하여 이미지데이터화된 고문서를 텍스트데이터화된 고문서로 변환하여 제공 가능함으로써 종래의 문제점을 해결하는 효과가 있다.

상기 지식베이스 관리 모듈의 정보를 이용하여 이미지내용정보를 재생성하고, 재생성된 이미지내용정보를 하기의 문서이미지 인식 및 처리부에 제공하는 이미지 전처리 모듈 및 구조분석 모듈로 구성되는 지능형 인식 라이브러리는 지식베이스 관리 모듈의 정보 중 문서이미지 인식 및 처리부에서 요구되는 정보를 효과적 으로 전달하기 위하여 코드(함수 혹은 클래스)를 포함하는 컴파일된 처리부로써, 자주 이용되는 기능을 메인함수에서 분리시켜 놓아 시스템을 안정적으로 유지하고, 디버깅을 쉽게 하며, 컴파일 시간을 좀더 빠르게 하기 위한 구성 및 효과를 갖는다.

즉, 지식베이스 관리 모듈의 정보를 이용하여
지능형 인식 라이브러리의 이미지 전처리 및 구조분석 모듈에서 재생성된 이미지내용정보는 초기분석용 정보, 페이지구조 정보, 문서내용구조 정보, 이미지데이터 인식용 정보 및 소제목 정보를 포함하고, 상기 정보들은 분리된 메인함수에 의하여 지식베이스 관리 모듈의 각 데이터베이스에서 문서이미지 인식 및 처리부로 효과적으로 전달-처리될 수 있다.
아울러 상기 지능형 인식 라이브러리의 이미지 전처리 모듈은 지식베이스 관리 모듈 중 이미지내용DB의 이미지 기울기 보정정보, 이미지 외곽선 및 불필요 영역 제거정보, Dot 노이즈 제거를 위한 정보로 구성되는 초기분석용 정보를 문서이미지 인식 및 처리부의 전처리 및 초기 분석단계에 이미지 고문서의 전처리 및 초기분석에 제공하며, 지능형 인식 라이브러리의 구조분석 모듈은 지식베이스 관리 모듈 중 이미지내용DB의 페이지구조정보를 이미지 고문서의 페이지구성분석에 제공하고, 문서내용구조 정보를 이미지 고문서의 문서내용구조분석에 제공하며, 인식용 정보를 이미지 고문서의 인식에 제공한다. 이와 같이 지능형 인식 라이브러리의 구조분석 모듈은 지식베이스 관리 모듈 중 이미지내용DB의 페이지구조정보, 문서내용구조 정보, 인식용 정보, 소제목 정보와; 문자모델DB의 문자모델 리스트정보, 문자모델 정보, 샘플 문자영상 정보, 문자보기 정보와; 용어DB의 용어DB목록정보, 용어리스트정보, 용어정보, 용어검색 및 추가정보를 문서이미지 인식 및 처리부의 페이지구조(Physical layout) 분석단계, 문서내용구조(Logical structure) 분석단계 및 문서인식단계에 제공하여 자주 이용되는 기능을 메인함수에서 분리시켜 놓아 시스템을 안정적으로 유지하고, 디버깅을 쉽게 하며, 컴파일 시간을 좀더 빠르게 하기 위한 구성 및 효과를 갖는다.

또한 전처리 및 초기분석단계, 페이지구조(Physical layout) 분석단계, 문서내용구조(Logical structure) 분석단계, 문서인식단계 등의 단계로써 입력한 이미지화된 고문서의 텍스트데이터화를 수행하는 문서이미지 인식 및 처리부 중 전처리 및 초기분석단계는 문서영상 전처리과정, 이미지 구조 분석과정 및 초벌이미지데이터 인식과정으로 이루어지는 단계로써, 이미지데이터화된 고문서의 정형적인 상태와 형태를 확인하여 확인된 데이터 인식의 저해요인을 제거하고 이미지데이터화된 고문서의 구조를 분석하고 초벌인식하여 보다 정확한 텍스트데이터화된 고문서를 만들기 위한 단계이다. 즉, 문서영상 전처리과정은 상기 지능형 인식 라이브러리의 이미지 전처리 모듈의 이미지내용정보 중 전처리 정보 및 초기분석용 정보를 이용하여 이미지데이터화된 고문서의 기울어짐 보정, dot 노이즈 제거, 이미지데이터화된 고문서의 외각선 및 불필요 영역 제거, 외곽 노이즈 제거, 90도 회전된 이미지데이터화된 고문서의 자동 보정 등의 기능을 수행하고, 이미지 구조 분석과정은 지능형 인식 라이브러리의 구조분석 모듈의 이미지내용정보 중 페이지구조 정보를 이용하여 기본요소인 블록의 추출정확도를 높이기 위해 고문서 페이지의 단 형태를 감안하여 블록을 자동 추출하고 그림, 표, 텍스트 간의 블록이 결합되지 않도록 하기 위해 그림과 표 영역을 파악, 추출하는 기능을 제공하며, 초벌이미지데이터 인식과정은 상기의 과정들로 처리-분석된 이미지데이터화된 고문서를 초벌인식하여 하기의 페이지구조(Physical layout) 분석단계의 처리를 준비하는 과정이다.

아울러 문서이미지 인식 및 처리부의 페이지구조(Physical layout) 분석단계는 이미지데이터 입력 페이지와 대응되는 페이지정보를 찾는 과정으로써, 입력된 이미지데이터화된 고문서의 페이지 구조을 분석하여 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 페이지구조(Physical layout) 정보가 제공하는 페이지 중 대응 가능한 페이지 구조을 생성하는 페이지구조 생성과정과; 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 블록의 속성을 이용한 페이지구조(Physical layout)정보와 입력된 이미지화된 고문서 페이지 내의 블록간의 대응 점수를 계산하여 대응정보를 결정하는 대응정보 결정과정과; 상기에서 계산한 블록간의 대응 점수를 통해 적합하게 대응되는 페이지 구조을 찾는 페이지구조 써치과정과; 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 페이지구조(Physical layout) 정보 중 적합하게 대응되는 페이지를 찾는 페이지 써치과정을 포함하고; 상기 페이지구조 생성과정, 대응정보 결정과정, 페이지구조 써치과정 및 페이지 써치과정의 수행 중 소제목에 관한 블록은 별도로 관리하며, 본 단계는 입력한 이미지데이터화된 고문서 페이지 구조에 가장 부합하는 본 발명의 시스템에 저장되어 있는 페이지 구조을 찾아 이미지화된 데이터 중 문자만을 선별하기 위하여 입력된 이미지데이터화된 고문서의 페이지 중 문자로 표시되어 있는 블록을 선별하기 위한 구성이다.

상기와 연관하여 입력된 이미지데이터화된 고문서의 페이지 구조을 분석하여 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 페이지구조(Physical layout) 정보 중의 페이지 구조과 대응 가능한 페이지 구조을 생성하는 페이지구조 생성과정은 대부분의 이미지화된 고문서의 블록 구성이 지능형 인식 라이브러리의 이미지전처리 모듈에서 제공하는 페이지구조(Physical layout) 정보의 페이지 블록 구성과 다른 형태로 존재하기 때문에 전처리 및 초기분석단계에서 생성된 블록 구성 정보가 완벽하지 않아 하나의 블록이 하나의 블록으로 추출되어야 함에도 불구하고 여러 개의 블록으로 나뉘어 추출되어 블록간의 올바른 대응정보를 찾지 못하는 경우가 발생하기 때문에 두 페이지의 블록간 가장 유사한 대응관계를 결정하기 위하여 수행하고, 입력한 이미지화된 고문서 페이지의 블록 구성과 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 페이지구조(Physical layout) 정보의 페이지 블록 구성 간의 가장 유사한 형태의 블록 구성을 갖는 페이지를 찾기 위해서 두 개 이상의 블록이 합쳐지는 것을 허용하여 블록 조합이 만들어낼 수 있는 모든 형태의 페이지 구조을 생성하도록 구성한다. 이때 합쳐지는 블록들이 너무 상이한 블록 속성을 가지고 있을 경우에는 하기의 과정과 같이 블록간의 대응점수를 계산할 때에 벌점을 부여하여 대응점수를 감산한다.

또한 본 발명은 상기 과정을 수행한 후, 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 블록의 속성을 이용한 페이지구조(Physical layout)정보와 입력된 이미지화된 고문서 페이지 내의 블록간의 대응 점수를 계산하여 대응정보를 결정하는 대응정보 결정과정을 수행하는데 본 과정은 블록의 폰트 두께, 폰트 크기, 블록 간 위치관계의 속성을 이용하여 두 블록의 속성이 정확히 일치할 때는 최고의 대응 점수를 주고, 각 속성의 차이에 따라 벌점을 주는 방법으로써 다음과 같이 블록의 유사도(S_AiBj)를 계산방법으로 점수 계산한다.

[수학식 1]

상기 S_PropertyAiB는 블록의 기본속성인 폰트크기와 폰트두께를 이용하여 두 대응블록의 유사정도를 나타 것으로써 페이지 A의 i번째 블록과 페이지 B의 j번째 블록의 속성유사도이고, S_NeighborAiBj는 대응되는 두 블록의 상하좌우 4방향의 이웃이 얼마나 유사하게 위치하고 있는가를 나타내는 것으로써 i와 j 블록의 이웃유사도를 나타낸다. 다음은 블록의 속성유사도(S_PropertyAiB)와 이웃유사도(S_NeighborAiBj)를 구하기 위한 수학식이다.

[수학식 2]

(상기fs_Ai와 fs_Bj는 가 블록의 대표폰트크기이고, ft_Ai와 ft_Bj는 각 블록의 대표폰트두께를 나타냄.)

[수학식 3]

(상기 S_NorthAiBj, S_SouthAiBj, S_EastAiBj, S_WestAiBj는 i와 j블록을 중심으로 상하좌우 4방향의 유사도를 나타냄.)

[수학식 4]

상기 [수학식 4]의 W_Ai와 H_Ai는 각각 페이지 A의 i번째 블록의 폭(Width)과 높이(Height)를 나타내고, W_AiNeiN, W_AiNeis, H_AiNeiE, H_AiNeiW는 각각 블록 i의 상하좌우 4방향의 이웃 블록의 폭과 높이를 나타낸다. 마찬가지로 W_Bj, H_Bj, W_BjNeiN, W_BjNeiS, H_BjNeiE, H_BjNeiW는 페이지 B의 j번째 블록의 정보를 나타낸다. OverlapH()와 OverlapV()는 각각 두 블록이 수평과 수직으로 중첩되는 구간의 길이를 계산하는 함수를 나타내며, Ps는 가중치(이웃블록이 중첩되는 형태의 유사성, 1 또는 0.8)를 나타낸다.

아울러 상기에서 계산한 블록간의 대응 점수를 통해 적합하게 대응되는 페이지 구조을 찾는 페이지구조 써치과정은 블록간의 대응 점수를 바탕으로 각 페이지 구조 점수를 합산하여 가장 적합한 페이지 구조을 찾는 과정이다. 이때 각 페이지 구조 점수를 비교는 각 블록의 영역의 크기에 따라 페이지 구조 점수에서 차지하는 비중을 다르게 하여 보다 적합한 페이지구조을 찾는 효과를 얻을 수 있다.

지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 페이지구조(Physical layout) 정보 중 적합하게 대응되는 페이지를 찾는 페이지 써치과정은 본 발명의 시스템 내의 이미지내용 DB 페이지 중에서 입력한 이미지데이터화된 고문서 페이지와 가장 잘 대응하는 이미지내용 DB 페이지를 찾는 과정으로써, 상기에서 계산한 페이지 구조 점수를 이용하여 입력한 이미지데이터화된 고문서 페이지와 이미지내용 DB 페이지간의 페이지 매칭 점수를 각 블록의 유사도 점수를 모두 합산하고 페이지 내의 블록의 총 면적으로 나눠서 정규화하는 방법으로 계산하고, 이 중에서 가장 높은 페이지 매칭 점수가 주어진 이미지내용 DB 페이지가 선택된다.

또한 상기 페이지구조 생성과정, 대응정보 결정과정, 페이지구조 써치과정 및 페이지 써치과정으로 구성되는 문서이미지 인식 및 처리부의 페이지구조(Physical layout) 분석단계 수행 중에는 입력한 이미지데이터화된 고문서의 각 페이지 중 소제목에 해당하는 블록 및 내용을 다른 내용 및 블록과 차별하여 별도로 관리한다. 즉, 상기 생성과정 및 결정과정 중 모든 라인에 대하여 지능형 인식 라이브러리의 이미지내용정보 중 소제목 정보를 이용하여 소제목 가능성 검사를 수행하고, 소제목이라 판단되는 타이틀을 찾으면 이를 독립된 블록으로 분리하여 페 이지구조 써치과정 및 페이지 써치과정에 별도로 반영하여 관리함으로써, 전문검색을 위한 보다 적합한 텍스트화된 색인용어를 찾을 수 있는 효과를 갖는다.

문서이미지 인식 및 처리부의 문서내용구조(Logical structure) 분석단계는 도10내지 11과 같이 페이지구조(Physical layout) 분석단계 수행 이후 입력한 이미지화된 고문서를 완전한 텍스트 데이터를 구성하기 위하여 각 페이지에 해당하는 블록 추출 결과에 대한 순서를 부여하여 단계로써, 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 문서내용구조(Logical structure) 정보 중 각 레이블에 해당되는 블록 인덱스정보 및 내용 레이블정보 등이 갖는 각 논리 레이블에 해당되는 블록 정보를 이용하여 입력한 이미지화된 고문서의 각 페이지의 각 블록과 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 블록의 속성을 이용한 페이지구조(Physical layout)정보의 페이지의 각 블록(소제목(Section title), 내용블록)을 연결하고, 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 문서내용구조(Logical structure) 정보 중 레이블 순서정보를 이용하여 문서내용구조(Logical structure) 정보 중 각 레이블에 해당하는 실제 블록(입력한 이미지화된 고문서의 블록)을 결정하여 읽히는 순서대로 블록의 순서를 결정함으로써 입력한 이미지화된 고문서 페이지의 각 블록에 논리적인 순서를 부여하는 문서내용구조분석을 한다.

문서이미지 인식 및 처리부의 문서인식단계는 논리적인 순서가 부여된 입력한 이미지화된 고문서 페이지의 모든 블록에 대해서 텍스트화된 데이터 인식을 수행하는 단계로써, 입력한 이미지화된 고문서 페이지의 각 블록은 지능형 인식 라이브러리에서 재생성된 지식베이스 관리 모듈의 이미지내용DB의 인식용 정보 중 용어 DB인덱스정보 및 문자모델DB인덱스정보를 이용하여 지식베이스 관리 모듈의 문자모델DB 및 용어DB의 정보를 이용하여 이미지화된 고문서의 데이터를 텍스트화된 데이터로 인식한다. 또한 상기 문서인식단계에서 소제목(Section title)은 지식베이스 관리 모듈의 이미지내용DB의 정보 중 타이틀레벨(Title level) 정보, 폰트크기정보, 폰트두께정보, 레벨 표시스타일정보, 타이틀 인식용 문자DB인덱스정보 등의 소제목 정보를 이용하여 지식베이스 관리 모듈의 문자모델DB 및 용어DB의 정보를 이용하고 이미지화된 고문서의 데이터를 텍스트화된 데이터로 인식하며, 문서인식단계 수행되어 텍스트화된 고문서는 용어DB의 정보를 이용하여 인식결과를 향상시키기 위하여 인식결과를 보정할 수 있는데, 인식결과에 각 낱자별로 인식후보와 인식점수를 부여하고, 용어DB는 각 단어 별로 가중치를 저장하고 있어서 인식결과의 인식후보들의 인식점수를 조정함으로써 용어DB에 저장되어있는 단어의 출현빈도를 높일 수 있다. 또한 문자모델DB에서 이용하는 문자모델 학습기는 확률 통계적 방법 중 2차형거리함수(QDF: Quadratic Distance Function)를 사용하는 Minimum Distance Classifier 방식, 상기 2차형거리함수(QDF)와 마할라노비스(Mahalanobis) 거리 함수를 조합한 방식을 이용할 수 있다.

아울러 본 발명은 상기 지식베이스 관리 모듈, 지능형 인식 라이브러리 및 문서이미지 인식 및 처리부와 사용자 간의 의사를 소통하기 위한 사용자 화면(UI)을 더 포함함으로써, 시스템과 사용자 간의 원활한 의사를 소통을 실현 가능하다. 즉 사용자 화면(UI)은 도12와 같이 입력할 이미지데이터화된 고문서의 썸네일 화면, 이미지내용정보 중 페이지 구조 정보를 확인할 수 있는 이미지내용DB리스트 화 면 및 해당 이미지내용DB의 정보를 확인할 수 있는 화면 등을 구성하여 입력할 이미지데이터화된 고문서의 인식 및 처리를 위한 대용량 입력 이미지데이터를 효과적으로 관리-설정할 수 있고, 도13과 같이 입력한 이미지데이터화된 고문서의 썸네일 화면, 고문서구조분석 결과 화면 및 인식 결과 화면 등을 구성하여 이미지데이터화된 고문서의 텍스트화를 확인 가능한 효과가 있다.

도1은 본 발명의 실시예에 의한 시스템의 요약 블럭도.

도2는 본 발명의 실시예에 의한 시스템의 상세 블럭도.

도3은 본 발명의 실시예에 의한 지식베이스 관리 모듈 중 이미지내용DB의 관리를 위한 모듈의 구성도.

도4는 본 발명의 실시예에 의한 지식베이스 관리 모듈 중 문자모델DB의 관리를 위한 모듈의 구성도.

도5는 본 발명의 실시예에 의한 지식베이스 관리 모듈 중 용어DB의 관리를 위한 모듈의 구성도.

도6은 본 발명의 실시예에 의한 페이지구성(Physical layout) 분석단계 중 페이지구성 생성과정으로 선택된 페이지와 페이지 구성을 나타내는 구성도.

도7은 본 발명의 실시예에 의한 페이지구성(Physical layout) 분석단계 중 대응정보 결정과정으로 블록별로 계산된 대응점수를 나타내는 구성도.

도8은 본 발명의 실시예에 의한 페이지구성(Physical layout) 분석단계 중 페이지구성 써치과정으로 적합하게 대응되는 페이지 구성을 찾는 과정을 나타내는 구성도.

도9는 본 발명의 실시예에 의한 페이지구성(Physical layout) 분석단계 중 페이지 써치과정으로 적합하게 대응되는 페이지를 찾는 과정을 나타내는 구성도.

도10은 본 발명의 실시예에 의한 문서내용구조(Logical structure) 분석단계 중 블록의 논리적인 순서를 추출하는 과정을 나타내는 구성도1.

도11은 본 발명의 실시예에 의한 문서내용구조(Logical structure) 분석단계 중 블록의 논리적인 순서를 추출하는 과정을 나타내는 구성도2.

도12는 본 발명의 실시예에 의한 사용자 화면(UI) 중 문서이미지 인식 및 처리를 위한 인식정보설정 사용자 화면을 나타내는 구성도.

도13은 본 발명의 실시예에 의한 사용자 화면(UI) 중 문서이미지 인식 및 처리 결과 화면을 나타내는 구성도.

Claims

관리도구로써 다수의 이미지내용정보를 갖는 이미지내용DB, 문자모델DB 및 용어DB로 구성되는 지식베이스 관리 모듈과;

상기 지식베이스 관리 모듈의 정보를 이용하여 이미지내용정보를 재생성하고, 재생성된 이미지내용정보를 하기 문서이미지 인식 및 처리부에 제공하는 이미지 전처리 모듈 및 구조분석 모듈로 구성되는 지능형 인식 라이브러리와;

전처리 및 초기분석단계, 페이지구조(Physical layout) 분석단계, 문서내용구조(Logical structure) 분석단계, 문서인식단계를 수행하는 문서이미지 인식 및 처리부와;

상기 문서이미지 인식 및 처리부, 지식베이스 관리 모듈 및 지능형 인식 라이브러리와 사용자 간의 의사를 소통하기 위한 사용자 화면(UI)을 포함하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.
제1항에 있어서, 지식베이스 관리 모듈의 이미지내용DB는 전처리 및 초기분석용 정보, 페이지구조(Physical layout) 정보, 문서내용구조(Logical structure) 정보, 인식용 정보 및 소제목 정보를 포함하고; 상기 지식베이스 관리 모듈의 이미지내용DB에 포함되는 전처리 및 초기분석용 정보, 페이지구조(Physical layout) 정보, 문서내용구조(Logical structure) 정보, 인식용 정보 및 소제목 정보는 생성, 수정, 삭제 가능하도록 구성되는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.
제2항에 있어서, 상기 전처리 정보 및 초기분석용 정보는 문서의 기울기보정정보, 외각선 및 불필요 영역 제거 정보, dot 노이즈제거정보, 문서외곽 노이즈 제거정보 및 회전된 이미지 보정기능정보, 단수정보 및 초벌이미지데이터 인식용 문자모델 DB인덱스정보를 포함하고; 상기 페이지구조 정보(Physical layout)는 블록위치정보, 블록정렬정보, 내부라인의 정렬정보 및 블록 간 위치관계 정보를 포함하고; 상기 문서내용구조 정보(Logical structure)는 내용 레이블정보, 레이블 순서정보, 레이블에 해당되는 블록 인덱스정보를 포함하고; 상기 인식용 정보는 용어DB인덱스정보, 문자모델DB인덱스정보를 포함하고; 상기 소제목 정보는 타이틀레벨(Title level) 정보, 폰트크기정보, 폰트두께정보, 레벨 표시스타일정보, 타이틀 인식용 문자DB인덱스정보를 포함하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.
제1항에 있어서, 지식베이스 관리 모듈의 문자모델DB는 문자모델 리스트정보, 문자모델 정보, 샘플 문자영상 정보 및 문자보기 정보를 포함하고; 상기 지식베이스 관리 모듈의 문자모델DB에 포함되는 문자모델 리스트정보, 문자모델 정보, 샘플 문자영상 정보 및 문자보기 정보는 생성, 수정, 삭제 가능하도록 구성되는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.
제1항에 있어서, 지식베이스 관리 모듈의 용어DB는 용어DB목록정보, 용어리스트정보, 용어정보, 용어검색 및 추가정보를 포함하고; 상기 지식베이스 관리 모듈의 용어DB에 포함되는 용어DB목록정보, 용어리스트정보, 용어정보, 용어검색 및 추가정보는 생성, 수정, 삭제 가능하도록 구성되는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.
제1항에 있어서, 지능형 인식 라이브러리의 이미지내용정보는 초기분석용 정보, 페이지구조 정보, 문서내용구조 정보, 이미지데이터 인식용 정보 및 소제목 정보를 포함하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.
제1항에 있어서, 지능형 인식 라이브러리의 이미지 전처리 모듈은 지식베이스 관리 모듈 중 이미지내용DB의 이미지 기울기 보정정보, 이미지 외곽선 및 불필요 영역 제거정보, Dot 노이즈 제거를 위한 정보로 구성되는 초기분석용 정보를 문서이미지 인식 및 처리부의 전처리 및 초기 분석단계에 제공하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.
제1항에 있어서,

지능형 인식 라이브러리의 구조분석 모듈은 지식베이스 관리 모듈 중 이미지내용DB의 페이지구조정보, 문서내용구조 정보와, 인식용 정보, 소제목 정보와; 문자모델DB의 문자모델 리스트정보, 문자모델 정보, 샘플 문자영상 정보, 문자보기 정보, 용어DB의 용어DB목록정보, 용어리스트정보, 용어정보, 용어검색 및 추가정보를 재생성하여 문서이미지 인식 및 처리부의 페이지구조(Physical layout) 분석단 계, 문서내용구조(Logical structure) 분석단계 및 문서인식단계에 제공 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.
제1항에 있어서,

문서이미지 인식 및 처리부의 전처리 및 초기분석단계는 문서영상 전처리과정, 이미지 구조 분석과정, 초벌이미지데이터 인식과정을 포함하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.
제1항에 있어서,

문서이미지 인식 및 처리부의 페이지구조(Physical layout) 분석단계는 이미지데이터 입력 페이지와 대응되는 페이지정보를 찾는 과정으로써,

입력된 이미지데이터화된 고문서의 페이지 구조을 분석하여 지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 페이지구조(Physical layout) 정보 중의 페이지 구조과 대응 가능한 페이지 구조을 생성하는 페이지구조 생성과정과;

지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 블록의 속성을 이용한 페이지구조(Physical layout)정보와 입력된 이미지화된 고문서 페이지 내의 블 록간의 대응 점수를 계산하여 대응정보를 결정하는 대응정보 결정과정과;

상기에서 계산한 블록간의 대응 점수를 통해 적합하게 대응되는 페이지 구조을 찾는 페이지구조 써치과정과;

지능형 인식 라이브러리의 구조분석 모듈에서 제공하는 페이지구조(Physical layout) 정보 중 적합하게 대응되는 페이지를 찾는 페이지 써치과정을 포함하고;

상기 페이지구조 생성과정, 대응정보 결정과정, 페이지구조 써치과정 및 페이지 써치과정의 수행 중 소제목에 관한 블록은 별도로 관리하는 것을 특징으로 하는 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법.