KR100319756B1

KR100319756B1 - 논문 문서영상 구조 분석 방법

Info

Publication number: KR100319756B1
Application number: KR1020000002772A
Authority: KR
Inventors: 장대근; 문경애; 황영섭; 지수영; 오원근
Original assignee: 오길록; 한국전자통신연구원
Priority date: 2000-01-21
Filing date: 2000-01-21
Publication date: 2002-01-09
Also published as: KR20010075874A; US6728403B1

Abstract

본 발명은 논문 문서영상 구조 분석 방법 및 그 기록매체에 관한 것으로, 인간의 지각에 의존해오던 논문 문서영상으로부터 제목, 저자, 요약 부분의 위치검출과 그 내용인식을 자동으로 수행하기 위한 논문 문서영상 구조 분석 방법 및 그 기록매체를 제공하기 위하여, 데이터베이스 검색시스템에서 논문 문서영상의 구조를 분석하는 방법에 있어서, 논문 문서영상의 영역을 분할하고, 분할된 각 영역의 속성을 분류하는 제 1 단계; 속성이 텍스트인 영역들중 요약과 서론을 나타내는 소정의 단어영역이 될 수 있는 후보영역을 설정하고, 후보영역으로부터 소정의 단어영역을 찾아 요약의 내용부분의 위치를 파악하는 제 2 단계; 기본 형식과 유형 정의(TD)를 이용하여 속성이 텍스트인 제목과 저자 부분을 분리하는 제 3 단계; 및 추출된 제목, 저자, 요약 내용을 문자인식하여 논문 문서영상의 목차를 자동으로 생성하는 제 4 단계를 포함하며, 논문의 검색 및 제공을 목적으로 하는 데이터베이스를 구축함에 있어 방대한 양의 논문관련 데이터베이스의 검색 등에 이용됨.

Description

논문 문서영상 구조 분석 방법{Method for analyzing structure of treatise typed of document image}

본 발명은 인간의 지각에 의존해오던 논문 문서영상으로부터 제목, 저자, 요약 부분의 위치검출과 그 내용인식을 자동으로 수행할 수 있는 논문 문서영상 구조 분석 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

본 발명은 영상처리 기술중 문서영상 처리 및 이해의 영역에 속하고, 그 유사 기술로 "ICDAR-97"에 발표된 "Logical Structure Analysis of Book Document Image Using Contents Information" 논문을 참조하면, "chapter/section"으로 구성된 책에 대한 문서영상으로부터 목차부분을 문자인식하여 해당 "chapter/section"과의 연결관계를 자동으로 생성하는 기술은 있으나, 논문을 대상으로 한 문서영상으로부터 제목, 저자, 요약 부분을 분리하고 그 내용을 인식하는 시스템은 아직 개발된 사례가 없다. 그리고, 가장 유사한 특허로, 문서영상으로부터 제목부분을 영역분할하고 문자인식하여 내용을 파악하는 선행특허 "문서 화상으로부터의 타이틀 추출 장치 및 방법"을 살펴보면, 이는 대상으로 하는 문서영상의 첫 부분, 즉 확정된 위치에 제목이 있는 것만을 대상으로 제목부분을 단순 영역분할하고 문자인식하는 기술이다. 따라서, 2가지 이상의 언어로 된 제목, 저자, 요약 부분의 위치가 서로 다르게 조합되어 있는 논문의 경우 이 방법을 적용하는 것이 불가능하다.

각종 논문지(journal)에 실려있는 논문들의 일부 또는 전체를 문서영상(document image) 또는 하이퍼텍스트(hypertext) 파일 형식으로 서비스하는 데이터베이스(D/B) 시스템을 구축하려면, D/B에 구축된 논문들의 제목(title), 저자(author), 요약문(abstract)에 대한 목차(contents)를 생성해야 한다. 이러한목차는 입력된 논문 문서영상으로부터 제목, 저자, 요약 부분을 찾아 그 내용을 입력하고 해당 논문과의 연결관계(link)를 구축하여 생성한다.

논문 문서영상으로부터 제목, 저자, 요약 부분을 찾는 것은 현재까지 인간의 지각에만 의존해 왔고, 각각의 부분에 해당하는 내용의 입력도 키보드 입력(keyboard input)을 통하여 이루어져 왔다. 그 이유는 제목과 저자 요약 부분은 2가지 이상의 언어로 작성되는 것이 일반적이므로 문자인식에서 한글, 영어, 한자 등 다국어를 인식할 수 있는 기술이 이러한 시스템에 적용할 만큼 기대에 미치지 못했기 때문이다. 또한, 논문에서의 제목, 저자, 요약 부분의 배치가 각종 논문지마다 모두 다른 다양한 형태이기 때문이다. 특히, 제목과 저자를 분리할 수 있는 구별되는 특징이 없다는 문제때문에 논문 문서영상에서 제목, 저자, 요약 부분의 위치를 자동으로 인식하여 찾는 것은 기술적으로 어려움이 있었다.

따라서, 인간의 지각에 의존해오던 논문 문서영상으로부터 제목, 저자, 요약 부분의 위치검출과 그 내용인식을 자동으로 수행할 수 있는 방안이 필수적으로 요구된다.

상기한 바와 같은 문제점을 해결하기 위하여 안출된 본 발명은, 인간의 지각에 의존해오던 논문 문서영상으로부터 제목, 저자, 요약 부분의 위치검출과 그 내용인식을 자동으로 수행하기 위한 논문 문서영상 구조 분석 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데그 목적이 있다.

도 1 은 본 발명이 적용되는 논문 문서영상 자동 태깅(auto tagging) 시스템의 구성 예시도.

도 2a 및 2b 는 본 발명에 따른 논문 문서영상 구조 분석 방법중 특정 단어 영역을 추출하는 과정에 대한 일실시예 상세 흐름도.

도 3 은 본 발명에 따른 논문 문서영상 구조 분석 방법중 요약과 서론을 나타내는 특정 단어가 모두 존재하고 요약 내용 부분이 1단(1 column)인 경우의 요약의 내용부분을 찾는 과정에 대한 일실시예 상세 흐름도.

도 4 는 본 발명에 따른 논문 문서영상 구조 분석 방법중 요약과 서론을 나타내는 특정 단어가 모두 존재하고 요약 내용 부분이 2단(2 column)중 왼쪽단에만 있는 경우에 요약의 내용부분을 찾는 과정에 대한 일실시예 상세 흐름도.

도 5 는 본 발명에 따른 논문 문서영상 구조 분석 방법중 요약과 서론을 나타내는 특정 단어가 모두 존재하고 요약 내용 부분이 2단(2 column)의 왼쪽단과 오른쪽단 모두에 배치된 경우에 요약의 내용부분을 찾는 과정에 대한 일실시예 상세 흐름도.

도 6 은 본 발명에 따른 논문 문서영상 구조 분석 방법중 서론을 나타내는 특정단어는 없고 요약을 나타내는 특정단어만 있으며 요약내용부분이 1단(1 column)인 경우에 요약의 내용부분을 찾는 과정에 대한 일실시예 상세 흐름도.

도 7 은 본 발명에 따른 논문 문서영상 구조 분석 방법중 서론을 나타내는 특정단어는 없고 요약을 나타내는 특정단어만 있으며 요약내용부분이 2단(2 column)인 경우에 요약의 내용부분을 찾는 과정에 대한 일실시예 상세 흐름도.

도 8a 및 8b 는 본 발명에 따른 논문 문서영상 구조 분석 방법중 제목, 저자 분리 과정에 대한 일실시예 상세 흐름도.

도 9 는 본 발명의 실시예에 따라 문서 영상으로부터 자동으로 제목, 저자, 요약을 분리하여 목차를 생성한 실행 화면 예시도.

*도면의 주요 부분에 대한 부호의 설명

11 : 논문 문서영상 입력부 12 : 문서영상 영역분할 및 속성분류부

13 : 문자인식부 14 : 표영역 처리부

15 : 그림영역 처리부 16 : 논문구조 검출부

17 : 목차생성 및 논문형식 완성부

상기 목적을 달성하기 위한 본 발명은, 데이터베이스 검색시스템에서 논문 문서영상의 구조를 분석하는 방법에 있어서, 상기 논문 문서영상의 영역을 분할하고, 분할된 각 영역의 속성을 분류하는 제 1 단계; 속성이 텍스트인 영역들중 요약과 서론을 나타내는 소정의 단어영역이 될 수 있는 후보영역을 설정하고, 상기 후보영역으로부터 상기 소정의 단어영역을 찾아 요약의 내용부분의 위치를 파악하는 제 2 단계; 기본 형식과 유형 정의(TD)를 이용하여 속성이 텍스트인 제목과 저자 부분을 분리하는 제 3 단계; 및 추출된 제목, 저자, 요약 내용을 문자인식하여 상기 논문 문서영상의 목차를 자동으로 생성하는 제 4 단계를 포함하여 이루어진 것을 특징으로 한다.

그리고, 본 발명은 프로세서를 구비한 데이터베이스 검색시스템에, 논문 문서영상의 영역을 분할하고, 분할된 각 영역의 속성을 분류하는 기능; 속성이 텍스트인 영역들중 요약과 서론을 나타내는 소정의 단어영역이 될 수 있는 후보영역을 설정하고, 상기 후보영역으로부터 상기 소정의 단어영역을 찾아 요약의 내용부분의 위치를 파악하는 기능; 기본 형식과 유형 정의(TD)를 이용하여 속성이 텍스트인 제목과 저자 부분을 분리하는 기능; 및 추출된 제목, 저자, 요약 내용을 문자인식하여 상기 논문 문서영상의 목차를 자동으로 생성하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

본 발명은 인간의 지각에 의존해오던 논문 문서영상으로부터 제목, 저자, 요약 부분의 위치 검출과 그 내용인식을 자동으로 수행하여 각종 논문지에 실려있는 논문들의 일부 또는 전체를 문서영상 또는 하이퍼텍스트(hypertext) 파일 형식으로 서비스하는 D/B 시스템을 구축할때, D/B에 구축된 논문들의 제목, 저자, 요약에 대한 목차와 해당 논문과의 연관관계를 인력이 아닌 개발한 시스템에 의해 자동으로 생성하고자 한다.

이를 위해, 본 발명은 문서영상 영역해석(region analysis) 기술에 의해 분할된 영역중 후보가 될 수 있는 적합한 영역을 선택하고 문자인식 기술을 이용하여 [요약], [Abstract], [Summary], [서론], [Introduction]과 같은 특정단어(specified word)의 위치를 파악한다. 그리고, 파악한 특정단어영역의 좌표를 이용하여 1단 또는 2단으로 구성된 논문에서 다양한 위치에 산재해 있는 요약의 내용에 해당하는 영역들의 좌표를 파악한다. 또한, 제목과 저자의 배치에 관한 기본형식과 각종 논문지로부터 구성한 TD를 이용하여 논문에서 제목과 저자에 해당하는 영역의 위치를 파악한다.

본 발명에서는 위와 같은 일련의 처리를 통하여 요약과 제목, 저자의 위치를 파악하고 해당내용을 문자인식함으로써 지금까지 인간의 지각에 의존해오던 논문 문서영상으로부터 제목, 저자, 요약 부분의 위치 검출과 그 내용인식을 자동으로 수행할 수 있다.

상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.

도 1 은 본 발명이 적용되는 논문 문서영상 자동 태깅(auto tagging) 시스템의 구성 예시도이다.

본 발명은 각종 논문을 300~400 dpi 정도의 해상도를 갖는 논문 문서영상을 영역분할과정과 분할된 각 영역의 속성분류(텍스트(text), 그림(picture), 표(chart))과정을 거쳐 다음의 과정들을 수행하여 논문 문서영상으로부터 제목, 저자, 요약 부분의 위치 검출과 그 내용을 인식한다.

도 1에 도시된 바와 같이, 논문문서영상 자동 태깅(auto tagging) 시스템은 입력된 논문영상으로부터 문자, 그림, 표들을 인식하고, 논문 전체의 구조를 파악하여 하이퍼텍스트 생성 언어(HTML : HyperText Markup Language) 파일로 자동변환함으로써 인쇄문서를 컴퓨터로 편집 가능한 형태의 전자문서로 자동 변환해 준다. 이를 보다 상세히 설명하면 다음과 같다.

먼저, 논문 문서영상 입력부(11)에 300~400 dpi 해상도를 갖는 논문문서영상(TIFF 영상)이 입력되면, 문서영상 영역분할 및 속성분류부(12)에서 연결요소(connected components)를 연결한 영역의 확장(expansion) 및 병합(merging) 방법을 이용하여 영역을 분할하고, 흑화소밀도(black pixel density)와 영역면적의 평균과 표준편차를 이용하여 각 영역의 속성(텍스트, 그림, 표)을 분류 구분한다.

이후, 속성이 텍스트, 또는 표로 분류된 영역의 문자들을 문자인식부(13)에서 인식한다.

그리고, 표영역 처리부(14)에서는 표의 선과 글자를 인식한다.

한편, 그림영역 처리부(15)에서는 그림부분을 GIF 형식의 그림파일로 변환하여 HTML 파일로 변환시 사용할 수 있게 한다.

그리고, 논문구조 검출부(16)에서는 논문제목, 저자, 요약을 찾아내고 논문 전체의 구조를 분석하여 논문 목차생성 및 HTML 문서로 전환시 이용한다.

마지막으로, 목차생성 및 논문형식 완성부(17)에서는 영역해석(영역분할 및 속성분류), 문자인식, 논문구조해석 정보들을 이용하여 논문의 제목, 저자, 요약에 대한 목차를 생성하고 논문전체를 HTML 파일로 변환한다.

이상에서와 같이, 본 발명은 논문 문서영상으로부터 제목, 저자, 요약 부분의 위치검출과 그 내용을 인식하기 위하여, 첫째 입력된 논문 문서영상의 영역을 분할하고 속성(텍스트, 그림, 표)을 분류하는 영역해석을 수행한다. 둘째, 논문의 제목, 저자, 요약 부분을 찾기위한 논문구조해석을 수행한다. 셋째, 추출된 논문의 제목, 저자, 요약 부분을 이용하여 목차를 생성하고, 검색을 위한 색인자료(index data)로 사용하며, 각각 해당 논문과의 연결관계를 자동으로 생성한다.

본 발명은 이러한 처리과정중 둘째, 셋째의 과정인 논문 문서영상으로부터 요약, 제목, 저자의 위치를 파악하고 해당내용을 문자인식하여 목차를 자동 생성하는 방법으로 지금까지 인간의 지각에 의존해오던 것을 시스템적으로 가능하게 구현한다. 이를 보다 상세히 설명하면 다음과 같다.

첫 번째로, 특정 단어영역이 될 수 있는 후보영역(candidated region)을 설정한다.

속성이 텍스트인 영역들중 요약과 서론을 나타내는 특정단어영역이 될 수 있는 후보영역을 설정하고, 이들 후보영역중에서 특정단어를 찾음으로써 모든 영역에서 특정단어영역을 탐색하는 것보다 수행시간을 줄인다.

이를 위해, 우선 속성이 텍스트인 영역들의 가로길이를 평균한 값(Ave-Lx)을 구해보면 (수학식 1)과 같다.

여기서, L_x(R_i)는 i번째 영역의 가로길이, Attr(R_i)는 영역의 속성(TEXT, PICTURE, TABLE), 그리고, n(R_i, cond(Attr(R_i)=TEXT))는 영역의 속성이 텍스트(TEXT)인 영역수를 나타낸다.

그리고, 특정단어영역이 될 수 있는 후보영역들을 추출한다. 즉, 분할된 영역중 영역의 가로길이(blank제외)가 속성이 텍스트인 영역들의 가로길이를 평균한 평균값(Ave-Lx)의 8배보다 작은 영역은 특정단어영역이 될 수 있는 후보영역으로 선택한다.

이후, 특정 단어영역이 될 수 있는 후보영역들을 추출한다. 이를 프로그래화하면 다음과 같다.

반복루프(영역의 수만큼 반복)

{

if(Lx(Ri) < 8(Ave_Lx)

chooseRiascandidated region

}

두 번째로, 특정 단어영역을 검출한다. 이는 상기 첫 번째 과정에서 설정된 후보영역들을 문자인식부(13)를 이용하여 [요약], [Abstract], [Summary], [서론], [Introduction]과 같은 특정단어영역에 해당하는 영역들을 하기의 확률을 기준으로 검출한다. 여기서, 확률 기준이라 함은, 특정단어 [요약], [서론]에 해당하는 영역을 검출할때는 영역의 글자를 인식한 결과가 요약 또는 서론과 같은 단어와 100% 일치해야 한다. 그리고, 특정 단어 [Abstract], [Summary]에 해당하는 영역을 검출할때는 영역의 글자를 인식한 결과가 "Abstract" 또는 "Summary"와 같은 단어와 80% 이상 일치해야 한다. 또한, 특정 단어 [Introduction]에 해당하는 영역을 검출할 때는 영역의 글자를 인식한 결과가 "Introduction" 단어와 70% 이상 일치해야 한다.

세 번째로, 특정 단어영역을 추출한다. 이를 도 2a 및 2b를 통해 보다 상세히 설명한다.

도 2a 및 2b에 도시된 바와 같이, 본 발명에 따른 논문 문서영상 구조 분석 방법중 특정 단어 영역을 추출하는 과정은, 먼저 후보영역이 입력되면(201) 후보영역의 수를 확인하여(202) 특정 단어영역이 될 수 있는 각 후보영역의 글자수를 구한다(203).

이후, 각 후보영역의 글자 수와 지정된 40개 특정단어의 글자수중(204) 글자 수가 적은쪽의 수만큼만 각 글자를 비교하여(206 내지 210) 같은 위치에 있는 몇 개의 글자가 서로 일치하는지를 알아낸다(211).

그리고, 각 후보영역의 글자 수와 지정된 40개 특정단어의 글자수중 글자 수가 많은쪽의 글자수를 분모로, 앞 과정에서 일치한 글자수를 분자로 하여 구한 비율이(213 내지 215) 해당 특정 단어의 판단확률보다 큰 경우(216) 특정 단어 후보영역을 해당 특정 단어영역으로 확정한다(217).

위와 같은 특정 단어영역을 추출하는 과정을 프로그램화하면 다음과 같다.

반복루프(특정 단어영역이 될 수 있는 후보영역 수만큼 반복, 루프 카운터 : i)

{

nCand(i) ← i번째 후보영역의 글자수

반복루프(특정 단어수(40개) 만큼 반복, 루프 카운터 : j)

{

nTarget(j) ← j번째 특정 단어의 글자수

nChar(i) : i번째 후보영역과 j번째 특정 단어간의 비교대상 글자수

if(nCand(i) < nTarget(j))

nChar(i) = nCand(i)

else

nChar(i) = nTarget(j)

반복루프(nChar(i)만큼 반복, 루프 카운터 : k)

{

nMatch(i,j) ← i번째 후보영역과 j번째 특정 단어에서 위치

와 코드값이 일치하는 글자수

}

deno : i번째 후보영역과 j번째 특정 단어간의 같은 정도를 비교하

기 위한 분모값

if(nCand(i) > nTarget(j))

deno = nCand(i)

else

deno = nTarget(j)

if(nMatch(i)/deno > DB_table[j](←40개의 특정 단어와 각각의

판단확률중 j번째 특정 단어의 판단확률))

i번째 후보영역을 j번째에 해당하는 특정 영역으로 설정

}

여기서, 특정단어(40개)와 DB_table[ ]은 (표 1)에 도시된 바와 같다.

특정 단어	판단확률	특정 단어	판단확률
요약	1.0	1 서론	1.0
요	1.0	서론	1.0
약	1.0	Ⅰ.서론	1.0
Abstract	0.8	Ⅰ서론	1.0
ABSTRACT	0.8	1.Introduction	0.7
Abstract	0.8	1.INTRODUCTION	0.7
Summary	0.8	1.introduction	0.7
SUMMARY	0.8	1Introduction	0.7
Summary	0.8	1INTRODUCTION	0.7
1.서론	1.0	1introduction	0.7
Ⅰ.Introduction	0.7	참	1.0
Ⅰ.INTRODUCTION	0.7	고	1.0
Ⅰ.introduction	0.7	문	1.0
ⅠIntroduction	0.7	헌	1.0
ⅠINTRODUCTION	0.7	References	0.8
Ⅰintroduction	0.7	REFERENCES	0.8
Introduction	0.7	References	0.8
INTRODUCTION	0.7	Reference	0.8
introduction	0.7	REFERENCE	0.8
참고문헌	0.8	reference	0.8

세 번째로, 요약 내용부분을 검출한다.

첫 번째 과정에서 검출한 특정단어 [요약], [Abstract], [Summary]와 [서론], [Introduction]사이에 있는 영역은 요약의 내용부분이 된다. 요약내용 부분의 분리형태에는 다음의 5가지가 있고, 상기 도 2a 및 2b에서 제시한 절차에 따라 요약내용 부분을 검출한다.

첫째, 요약을 나타내는 특정 단어와 서론을 나타내는 특정 단어가 모두 존재하고 요약내용부분이 1단(1 column)의 형태로 구성된 경우에, 요약의 내용부분을 찾는 과정은 도 3과 같다.

도 3에 도시된 바와 같이, 본 발명에 따른 논문 문서영상 구조 분석 방법중 요약과 서론을 나타내는 특정 단어가 모두 존재하고 요약 내용 부분이 1단(1 column)인 경우의 요약의 내용부분을 찾는 과정은, 먼저 영역의 세로방향 시작좌표가 특정영역(요약에 해당)의 세로방향 시작좌표보다 크거나 같고 특정영역(서론에 해당)의 세로방향 시작좌표보다 작은 영역을 선택한다(301 내지 303).

이후, 선택된 영역의 세로방향 마지막 좌표가 비교대상 영역의 세로방향 마지막 좌표보다 큰 경우 최소값(min)을 선택된 영역의 세로방향 시작좌표로 최대값(max)을 비교대상 영역의 세로방향 마지막 좌표로 하고, 반대의 경우에는 최소값과 최대값을 반대로 처리한다(307 내지 309).

다음으로, 구한 최대값과 최소값을 이용하여 "max-min<0"인 경우에만(310) 요약의 내용부분에 해당하는 영역으로 설정한다(312).

위와 같은 요약의 내용부분을 찾는 과정을 프로그램화하면 다음과 같다.

반복루프(영역수 만큼 반복, 루프 카운터 : i)

{

if(SY(Ri) >= SY(요약 or Abstract or Summary))

if(EY(Ri) < SY(서론 or Introduction))

{

Ri를 1단의 요약내용 영역으로 초기 설정

// 영역 Ri가 1단 영역인지를 검사한다

반복루프(영역수 만큼 반복(j!= i, 루프 카운터 : j)

{

if(EY(Ri) > EY(Rj))

min = SY(Ri), max = EY(Rj)

else

min = SY(Rj), max = EY(Ri)

if(max-min >= 0)

{

Ri는 요약내용영역이 아닌 것으로 설정

루프 j 탈출

}

여기서, SY(Ri)는 i번째 영역의 시작 Y 좌표, SY(요약 or Abstract or Summary)는 특정 단어 요약에 해당하는 영역의 시작 Y 좌표이다.

둘째, 요약을 나타내는 특정 단어와 서론을 나타내는 특정 단어가 모두 존재하고 요약내용 부분이 2단(2 column)으로 구성된 부분의 왼쪽단에만 있는 경우에, 요약의 내용부분을 찾는 과정은 도 4와 같다.

도 4에 도시된 바와 같이, 본 발명에 따른 논문 문서영상 구조 분석 방법중 요약과 서론을 나타내는 특정 단어가 모두 존재하고 요약 내용 부분이 2단(2 column)중 왼쪽단에만 있는 경우에 요약의 내용부분을 찾는 과정은, 먼저 영역의 가로방향 마지막좌표가 문서의 가운데보다 왼쪽에 있는 영역을 선택한다(403).

이후, 선택된 영역중 영역의 세로방향 시작좌표가 특정 영역(요약에 해당)의 세로방향 시작좌표보다 크거나 같고 특정 영역(서론에 해당)의 세로방향 시작좌표보다 작은 영역만 선택한다(404 내지 406).

CX = Width_of_Image / 2 - 1 : 문서영상의 가로방향 중심좌표

반복루프(영역수 만큼 반복, loop counter : i)

{

// 2단으로 된 문서의 왼쪽에 위치하는 영역인 경우

if(SX(Ri) <= CX and EX(Ri) <= CX)

if(SY(Ri) >= SY(요약 or Abstract or Summary))

if(EY(Ri) < SY(서론 or Introduction))

Ri는 요약내용 영역으로 선택

}

셋째, 요약을 나타내는 특정단어와 서론을 나타내는 특정 단어가 모두 존재하고 요약내용부분이 2단으로 구성된 부분의 왼쪽단과 오른쪽단 모두에 배치된 경우에, 요약의 내용부분을 찾는 과정은 도 5와 같다.

도 5에 도시된 바와 같이, 본 발명에 따른 논문 문서영상 구조 분석 방법중 요약과 서론을 나타내는 특정 단어가 모두 존재하고 요약 내용부분이 2단(2 column)의 왼쪽단과 오른쪽단 모두에 배치된 경우에 요약의 내용부분을 찾는 과정은, 먼저 영역의 가로방향 마지막좌표가 문서의 가운데 보다 왼쪽에 있고(503) 영역의 세로방향 시작좌표가 특정영역(요약에 해당)의 세로방향 시작좌표보다 크거나 같은 영역을(504) 요약의 내용부분에 해당하는 영역으로 선택한다(507).

한편, 영역의 가로방향 시작좌표가 문서의 가운데보다 오른쪽에 있고(505) 영역의 세로방향 마지막좌표가 특정영역(서론에 해당)의 세로방향 시작좌표보다 작은 영역을(506) 요약의 내용부분에 해당하는 영역으로 선택한다(507).

CX = Width_of_Image / 2 - 1 : 문서영상의 가로방향 중심좌표

반복루프(영역수 만큼 반복, loop counter : i)

{

// 2단으로 된 문서의 왼쪽에 위치하는 영역인 경우

if(SX(Ri) <= CX and EX(Ri) <= CX)

{

if(SY(Ri) >= SY(요약 or Abstract or Summary))

Ri는 요약내용 영역으로 선택

}

// 2단으로 된 문서의 오른쪽에 위치하는 영역인 경우

else if(SX(Ri) >= CX and EX(Ri) >= CX)

{

if(EY(Ri) < SY(서론 or Introduction))

Ri는 요약내용 영역으로 선택

}

네째, 요약을 나타내는 특정단어는 있고 서론을 나타내는 특정단어는 없는 형태로 요약내용부분이 1단의 형태로 구성된 경우에, 요약의 내용부분을 찾는 과정은 도 6과 같다.

도 6에 도시된 바와 같이, 본 발명에 따른 논문 문서영상 구조 분석 방법중 서론을 나타내는 특정단어는 없고 요약을 나타내는 특정단어만 있으며 요약 내용부분이 1단(1 column)인 경우에 요약의 내용부분을 찾는 과정은, 먼저 영역의 세로방향 시작좌표가 특정 영역(요약에 해당)의 세로방향의 시작좌표보다 크거나 같은 영역을 선택한다(601,602).

이후, 선택된 영역의 세로방향 마지막 좌표가 비교대상 영역의 세로방향 마지막 좌표보다 큰 경우 최소값을 선택된 영역의 세로방향 시작좌표로 최대값을 비교대상 영역의 세로방향 마지막 좌표로 하고 반대의 경우에는 최소값과 최대값을 반대로 처리한다(603 내지 607).

다음으로, 구한 최대값과 최소값을 이용하여 "max-min>=0"인 경우에만(608) 요약의 내용부분에 해당하는 영역으로 설정한다(610).

반복루프(영역수 만큼 반복, loop counter : i)

{

if(SY(Ri) >= SY(요약 or Abstract or Summary))

// 영역 Ri가 1단 영역인지를 검사한다

반복루프(영역수 만큼 반복(i번째 영역 제외, loop counter j)

{

if(EY(Ri) > EY(Rj))

min = SY(Ri), max = EY(Rj)

else

min = SY(Rj), max = EY(Ri)

if(max-min < 0)

{

Ri는 1단의 요약내용 영역으로 선택

루프 j 탈출

}

다섯째, 요약을 나타내는 특정단어는 있고 서론을 나타내는 특정단어는 없는 형태로 요약내용 부분이 2단의 형태로 구성된 경우에, 요약의 내용부분을 찾는 과정은 도 7과 같다.

도 7에 도시된 바와 같이, 본 발명에 따른 논문 문서영상 구조 분석 방법중 서론을 나타내는 특정단어는 없고 요약을 나타내는 특정단어만 있으며 요약내용부분이 2단(2 column)인 경우에 요약의 내용부분을 찾는 과정은, 먼저 영역의 가로방향 마지막좌표가 문서의 가운데보다 왼쪽에 있고(701 내지 703) 영역의 세로방향 시작좌표가 특정영역(요약에 해당)의 세로방향 시작좌표보다 크거나 같은 영역을(704) 요약의 내용부분에 해당하는 영역으로 선택한다(706).

이후, 영역의 가로방향 시작좌표가 문서의 가운데보다 오른쪽에 있는 영역을(705) 요약의 내용부분에 해당하는 영역으로 선택한다(706).

CX = Width_of_Image / 2 - 1 : 문서영상의 가로방향 중심좌표

반복루프(영역수 만큼 반복, 루프 카운터 : i)

{

// 2단으로 된 문서의 왼쪽에 위치하는 영역인 경우

if(SX(Ri) <= CX and EX(Ri) <= CX)

{

if(SY(Ri) >= SY(요약 or Abstract or Summary))

Ri는 요약내용 영역으로 선택

}

// 2단으로 된 문서의 오른쪽에 위치하는 영역인 경우

else if(SX(Ri) >= CX and EX(Ri) >= CX)

Ri는 요약내용 영역으로 선택

}

이상에서와 같이, 요약 내용부분을 검출하면, 네 번째로 제목과 저자를 분리한다.

요약을 나타내는 특정단어의 윗부분에 해당하는 영역은 논문지위 권,호를 나타내는 부분과 제목과 저자를 나타내는 부분으로 이 부분에 속하는 영역의 수에 따라 다음 3가지로 분류하여 처리한다.

첫째, 제목과 저자에 속하는 영역수가 2개인 경우에, 상위 영역은 제목이고 하위영역은 저자로 구분한다.

둘째, 제목과 저자에 속하는 영역수가 4개인 경우에, 각 영역내의 글자들의 폰트크기(font size)를 비교하여 상위 첫 번째, 두 번째 영역 또는 첫 번째, 세 번째 영역을 제목으로 나머지 영역을 저자로 구분한다.

셋째, 특정 논문지의 제목과 저자부분의 구성형식에 맞추어 분리하는 경우에, 제목과 저자부분에 해당하는 영역수와 배치구조가 각종 논문지의 구성형식을 정의하여 만든 "TD(Type Definition)"에 맞는지 확인하여 처리한다. (표 2)는 본 실시예에 따라 논문지들을 대상으로 구성한 TD 정보들이다.

TD 항목(고유값)	정보과학회	정보처리학회	대한전자공학회
권, 호 영역(1)	O	0	0
페이지 영역(2)	0	0	0
제목-한글	O	0	0
제목-한자	X	X	X
제목-영어	0	0	0
저자-한글	0	0	X
저자-한자	X	X	0
저자-영어	0	0	0
배치구조	1→2→3→5→6→8	1→3→6→5→8	1→2→1→3→5→7→8

O : 해당 부분이 있음

X : 해당 부분이 없음

이제, 제목, 저자 분리 과정을 도 8a 및 8b를 참조하여 보다 상세히 설명한다.

도 8a 및 8b에 도시된 바와 같이, 본 발명에 따른 논문 문서영상 구조 분석방법중 제목, 저자 분리 과정은, 먼저 제목과 저자부분에 해당하는 영역수가 2개인 경우에(801) 두 번째 영역의 글자 크기가 첫 번째 영역의 글자크기의 0.9배 미만이면(802) 첫 번째 영역을 제목, 두 번째 영역을 저자로 한다(803).

한편, 제목과 저자부분에 해당하는 영역수가 2개가 아닌 경우에(801), 제목과 저자부분에 해당하는 영역수가 4개이면(805) 우선 각 영역의 글자 크기를 구한다(807). 이때, 만약 제목과 저자부분에 해당하는 영역수가 4개이고 첫 번째 영역과 두 번째 영역의 글자 크기가 나머지 영역의 글자크기보다 0.9배 이상 큰 경우(810,811) 첫 번째, 두 번째 영역을 제목으로, 세 번째, 네 번째 영역을 저자로 설정한다(812).

그리고, 제목과 저자부분에 해당하는 영역수가 4개이고 첫번째 영역과 세 번째 영역의 글자크기가 나머지 영역의 글자크기보다 0.9배 이상 큰 경우에(814,815), 첫 번째, 세 번째 영역을 제목으로, 두 번째, 네 번째 영역을 저자로 설정한다(816).

만약, 제목과 저자부분에 해당하는 영역수가 2개 또는 4개가 아니거나 상기의 과정에서 제목과 저자를 분리하지 못한 경우에(818) 영역수가 TD에 의한 항목수와 같은지(819), 영역배치구조가 TD에 의한 항목배치구조와 같은지를 검사하여(820) 분리한다(821).

위와 같은 제목, 저자 분리 과정을 프로그램화하면 다음과 같다.

if(영역수 = 2)

{

if(Font_Size(R[1]) < 0.9*Font_Size(R[0]))

{

R[0] : 제목

R[1] : 저자

}

else if(영역수 = 4)

{

반복루프(영역수만큼 반복, loop counter : i)

{

fs[i] = Font_Size(Ri) // 각 영역의 폰트크기를 구한다

}

check = FALSE // 분리 성공여부를 나타내는 플래그

if(fs[0] > 0.9*fs[2] and fs[0] > 0.9*fs[3])

{

if(fs[1] > 0.9*fs[2] and fs[1] > 0.9*fs[3])

{

R[0],R[1] : 제목

R[2],R[3] : 저자

Check = TRUE

}

else if(fs[0] > 0.9*fs[1] and fs[0] > 0.9*fs[3])

{

if(fs[2] > 0.9*fs[1] and fs[2] > 0.9*fs[3])

{

R[0],R[2] : 제목

R[1],R[3] : 저자

Check = TRUE

}

if(check == FALSE or 영역수 > 4) // TD에의해 분리하는 경우

{

if(영역수 = TD에 의한 항목수)

if(영역배치구조 = TD에 의한 항목배치구조)

해당 TD의 배치구조에 따라 결정

}

R[i] : i번째 영역

여섯 번째로, 내용을 인식한다.

제목, 저자, 요약에 해당하는 영역들을 기존에 개발된 문자인식기들을 사용해 내용을 인식하여 논문의 목차를 검색하기위한 자료로 사용한다.

이상에서와 같이, 본 발명의 실시예에 따르면, 도 9와 같이 문서 영상으로부터 자동으로 제목, 저자, 요약이 분리된 목차를 생성할 수 있다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.

상기한 바와 같은 본 발명은, 논문의 검색 및 제공을 목적으로 하는 데이터베이스를 구축함에 있어 방대한 양의 논문관련 데이터베이스의 검색을 위한 제목, 저자, 요약에 대한 목차생성과 그 내용의 입력을 지금까지 수동으로 처리해오던 것을 시스템으로 자동으로 처리할 수 있어 많은 시간과 인력의 낭비없이 효율적으로 데이터베이스를 구축할 수 있는 효과가 있다.

Claims

데이터베이스 검색시스템에서 논문 문서영상의 구조를 분석하는 방법에 있어서,

상기 논문 문서영상의 영역을 분할하고, 분할된 각 영역의 속성을 분류하는 제 1 단계;

속성이 텍스트인 영역들중 요약과 서론을 나타내는 소정의 단어영역이 될 수 있는 후보영역을 설정하고, 상기 후보영역으로부터 상기 소정의 단어영역을 찾아 요약의 내용부분의 위치를 파악하는 제 2 단계;

기본 형식과 유형 정의(TD)를 이용하여 속성이 텍스트인 제목과 저자 부분을 분리하는 제 3 단계; 및

추출된 제목, 저자, 요약 내용을 문자인식하여 상기 논문 문서영상의 목차를 자동으로 생성하는 제 4 단계

를 포함하는 논문 문서영상 구조 분석 방법.
제 1 항에 있어서,

상기 제 1 단계는,

연결요소(connected component)를 연결한 영역의 확장(expansion) 및 병합(merging) 방법을 이용하여 상기 논문 문서영상의 영역을 분할하고, 분할된 각영역의 속성(텍스트, 그림, 표)을 흑화소밀도(black pixel density)와 영역면적의 평균과 표준편차를 이용하여 분류 구분하는 것을 특징으로 하는 논문 문서영상 구조 분석 방법.
제 1 항 또는 제 2 항에 있어서,

상기 제 2 단계는,

속성이 텍스트인 영역들중 요약과 서론을 나타내는 상기 소정의 단어영역이 될 수 있는 상기 후보영역을 설정하되, 분할된 영역중 영역의 가로길이(black 제외)가 속성이 텍스트인 영역들의 가로길이를 평균한 평균값의 8배보다 작은 영역을 상기 소정의 단어영역이 될 수 있는 상기 후보영역으로 설정하고, 상기 후보영역중에서 판단확률을 기준으로 상기 소정의 단어영역을 추출하여 요약의 내용부분의 위치를 파악하는 것을 특징으로 하는 논문 문서영상 구조 분석 방법.
제 3 항에 있어서,

상기 소정의 단어영역을 추출하는 과정은,

상기 소정의 단어영역이 될 수 있는 각 후보영역의 글자수를 구하는 제 5 단계;

상기 각 후보영역의 글자수와 기 정의된 소정 단어(바람직하게는 40개 단어)의 글자수중 글자수가 적은쪽의 수만큼만 각 글자를 비교하여 같은 위치에 있는 몇 개의 글자가 서로 일치하는지를 알아내는 제 6 단계; 및

상기 각 후보영역의 글자수와 상기 기 정의된 소정 단어의 글자수중 글자수가 많은쪽의 글자수를 분모로, 상기 제 6 단계에서 일치한 글자수를 분자로 하여 구한 비율이 해당 소정 단어의 판단확률보다 큰 경우 소정 단어 후보영역을 해당 소정의 단어영역으로 확정하는 제 7 단계

를 포함하는 논문 문서영상 구조 분석 방법.
제 4 항에 있어서,

상기 요약의 내용부분의 위치를 파악하는 과정은,

요약과 서론을 나타내는 소정 단어가 모두 존재하고 요약 내용부분이 1단(1 column)인 경우에, 영역의 세로방향 시작좌표가 소정 영역(요약에 해당)의 세로방향 시작좌표보다 크거나 같고 소정 영역(서론에 해당)의 세로방향 시작좌표보다 작은 영역을 선택하는 제 8 단계;

선택된 영역의 세로방향 마지막 좌표가 비교대상 영역의 세로방향 마지막 좌표보다 큰 경우 최소값(min)을 선택된 영역의 세로방향 시작좌표로 최대값(max)을 비교대상 영역의 세로방향 마지막 좌표로 하고, 반대의 경우에 최소값과 최대값을 반대로 처리하는 제 9 단계; 및

구한 최대값과 최소값을 이용하여 소정의 조건(바람직하게는최대값-최소값<0)을 만족하는 경우에만 요약의 내용부분에 해당하는 영역으로 설정하는 제 10 단계

를 포함하는 논문 문서영상 구조 분석 방법.
제 4 항에 있어서,

상기 요약의 내용부분의 위치를 파악하는 과정은,

요약과 서론을 나타내는 소정 단어가 모두 존재하고 요약 내용 부분이 2단(2 column)중 왼쪽단에만 있는 경우에, 영역의 가로방향 마지막좌표가 문서의 가운데보다 왼쪽에 있는 영역을 선택하는 제 8 단계; 및

선택된 영역중 영역의 세로방향 시작좌표가 소정 영역(요약에 해당)의 세로방향 시작좌표보다 크거나 같고 소정 영역(서론에 해당)의 세로방향 시작좌표보다 작은 영역만 선택하는 제 9 단계

를 포함하는 논문 문서영상 구조 분석 방법.
제 4 항에 있어서,

상기 요약의 내용부분의 위치를 파악하는 과정은,

요약과 서론을 나타내는 소정 단어가 모두 존재하고 요약 내용부분이 2단(2 column)의 왼쪽단과 오른쪽단 모두에 배치된 경우에, 영역의 가로방향 마지막좌표가 문서의 가운데 보다 왼쪽에 있고 영역의 세로방향 시작좌표가 소정 영역(요약에 해당)의 세로방향 시작좌표보다 크거나 같은 영역을 요약의 내용부분에 해당하는 영역으로 선택하는 제 8 단계; 및

영역의 가로방향 시작좌표가 문서의 가운데보다 오른쪽에 있고 영역의 세로방향 마지막좌표가 소정 영역(서론에 해당)의 세로방향 시작좌표보다 작은 영역을 요약의 내용부분에 해당하는 영역으로 선택하는 제 9 단계

를 포함하는 논문 문서영상 구조 분석 방법.
제 4 항에 있어서,

상기 요약의 내용부분의 위치를 파악하는 과정은,

서론을 나타내는 소정 단어는 없고 요약을 나타내는 소정 단어만 있으며 요약 내용부분이 1단(1 column)인 경우에, 영역의 세로방향 시작좌표가 소정 영역(요약에 해당)의 세로방향의 시작좌표보다 크거나 같은 영역을 선택하는 제 8 단계;

선택된 영역의 세로방향 마지막좌표가 비교대상 영역의 세로방향 마지막좌표보다 큰 경우 최소값을 선택된 영역의 세로방향 시작좌표로 최대값을 비교대상 영역의 세로방향 마지막 좌표로 하고, 반대의 경우에 최소값과 최대값을 반대로 처리하는 제 9 단계; 및

구한 최대값과 최소값을 이용하여 소정의 조건(바람직하게는 최대값-최소값>=0)을 만족하는 경우에만 요약의 내용부분에 해당하는 영역으로 설정하는 제 10 단계

를 포함하는 논문 문서영상 구조 분석 방법.
제 4 항에 있어서,

상기 요약의 내용부분의 위치를 파악하는 과정은,

서론을 나타내는 소정 단어는 없고 요약을 나타내는 소정 단어만 있으며 요약내용부분이 2단(2 column)인 경우에, 영역의 가로방향 마지막좌표가 문서의 가운데보다 왼쪽에 있고 영역의 세로방향 시작좌표가 소정 영역(요약에 해당)의 세로방향 시작좌표보다 크거나 같은 영역을 요약의 내용부분에 해당하는 영역으로 선택하는 제 8 단계; 및

영역의 가로방향 시작좌표가 문서의 가운데보다 오른쪽에 있는 영역을 요약의 내용부분에 해당하는 영역으로 선택하는 제 9 단계

를 포함하는 논문 문서영상 구조 분석 방법.
제 3 항에 있어서,

상기 제 3 단계는,

기본 형식과 유형 정의(TD)를 이용하여 속성이 텍스트인 제목과 저자 부분을 분리하되, 제목과 저자에 속하는 영역수가 2개인 경우에 상위 영역을 제목, 하위영역을 저자로 구분하고, 제목과 저자에 속하는 영역수가 4개인 경우에 각 영역내의 글자들의 폰트크기(font size)를 비교하여 상위 첫 번째, 두 번째 영역이나 첫 번째, 세 번째 영역을 제목, 나머지 영역을 저자로 구분하며, 소정 논문지의 제목과 저자부분의 구성형식에 맞추어 분리하는 경우에 제목과 저자부분에 해당하는 영역수와 배치구조가 각종 논문지의 구성형식을 정의하여 만든 유형 정의(TD)에 맞는지 확인하여 제목과 저자 부분을 분리하는 것을 특징으로 하는 논문 문서영상 구조 분석 방법.
제 10 항에 있어서,

상기 제 3 단계는,

제목과 저자부분에 해당하는 영역수가 2개인 경우에, 두 번째 영역의 글자 크기가 첫 번째 영역의 글자크기의 소정값(바람직하게는 0.9배) 미만이면, 첫 번째 영역을 제목으로, 두 번째 영역을 저자로 설정하는 제 5 단계;

제목과 저자부분에 해당하는 영역수가 4개인 경우에, 각 영역의 글자 크기를 구하고, 제목과 저자부분에 해당하는 영역수가 4개이고 첫 번째 영역과 두 번째 영역의 글자 크기가 나머지 영역의 글자크기보다 상기 소정값(0.9배) 이상 크면 첫 번째, 두 번째 영역을 제목으로, 세 번째, 네 번째 영역을 저자로 설정하는 제 6 단계;

제목과 저자부분에 해당하는 영역수가 4개이고 첫 번째 영역과 세 번째 영역의 글자크기가 나머지 영역의 글자크기보다 상기 소정값(0.9배) 이상 큰 경우에, 첫 번째, 세 번째 영역을 제목으로, 두 번째, 네 번째 영역을 저자로 설정하는 제 7 단계; 및

제목과 저자부분에 해당하는 영역수가 2개나 4개가 아니거나 상기의 과정에서 제목과 저자를 분리하지 못한 경우에, 영역수가 유형 정의(TD)에 의한 항목수와 같은지, 영역배치구조가 유형 정의(TD)에 의한 항목배치구조와 같은지를 검사하여 분리하는 제 8 단계

를 포함하는 논문 문서영상 구조 분석 방법.
프로세서를 구비한 데이터베이스 검색시스템에,

논문 문서영상의 영역을 분할하고, 분할된 각 영역의 속성을 분류하는 기능;

속성이 텍스트인 영역들중 요약과 서론을 나타내는 소정의 단어영역이 될 수 있는 후보영역을 설정하고, 상기 후보영역으로부터 상기 소정의 단어영역을 찾아 요약의 내용부분의 위치를 파악하는 기능;

기본 형식과 유형 정의(TD)를 이용하여 속성이 텍스트인 제목과 저자 부분을 분리하는 기능; 및

추출된 제목, 저자, 요약 내용을 문자인식하여 상기 논문 문서영상의 목차를 자동으로 생성하는 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.