KR101500598B1

KR101500598B1 - Xml 생성 시스템 및 방법

Info

Publication number: KR101500598B1
Application number: KR20140134458A
Authority: KR
Inventors: 정유철; 오흥선; 박재원; 최선희
Original assignee: 한국과학기술정보연구원
Priority date: 2014-10-06
Filing date: 2014-10-06
Publication date: 2015-03-10

Abstract

본 발명은 저널이나 논문과 같은 문서로부터 효과적으로 XML 생성하여 생산성을 높이며 각 논문이나 각 저널의 구성 상이로 인해 자동화하기 어려운 부분에 대해 사용자가 원하는 XML의 생산이 용이하게 하기 위함이다.
이를 위해 본 발명은, 적어도 하나 이상의 시각적 콘텐트를 포함하는 파일을 입력 받는 단계, 시각적 콘텐트를 좌표화하여 HTML 형태의 텍스트 데이터를 추출하는 단계; 파일의 각 페이지를 이미지로 변환하여 저장하는 단계; 저장된 이미지에 포함된 적어도 하나 이상의 시각적 콘텐트로부터 적어도 하나 이상의 콘텐트 블록 영역을 추출하고 가시화하는 단계; 사용자의 입력 신호에 따라 가시화된 적어도 하나 이상의 콘텐트 블록 영역에 대응하는 레이아웃을 수정하는 단계; 수정된 레이아웃에 대응하는 콘텐트 블록 영역에 포함된 데이터를 추출하여 XML을 생성하는 단계를 포함한다.

Description

XML 생성 시스템 및 방법{Systems and Methods for Producing XML}

본 발명은 국내 고유 학술 콘텐트 구축 및 유통기반 확대를 위한 학술논문 XML 생성에 관한 것으로, 더욱 상세하게는 레이아웃 편집 기능을 이용하여 구성이 상이한 학술논문으로부터 효과적으로 XML 을 생성하기 위한 XML 생성 시스템 및 방법에 관한 것이다.

SGML(standard generalized markup language)은 구조화된 전자문서를 만들기 위해 채택된 국제 표준규약이다. 문서의 구조를 정의할 수 있는 메타언어로써 국제적인 표준으로 1986년에 최초로 공개되었는데, 기능이 복잡하여 널리 쓰이지 못하고 있다. HTML(hypertext markup language)은 SGML에 근거해 만들어진 것으로 현재 웹 문서를 제작하는 언어로 가장 보편적으로 사용되고 있다. 하지만 단순성, 사용의 용이성이라는 장점을 가지면서도 제한된 몇 개의 태그만을 가짐으로써 문헌을 충분히 표현할 수 없다는 단점이 있다.

한편, 상기 문제점들을 해결하기 위해 차세대 인터넷 언어로 XML이 만들어졌다. 이는 확장성 표기언어(Extensible Makeup Language)의 약자로써 1998년 W3C(World Wide Web Consortium)에서 인터넷 표준문서로 지정되었다. XML은 사람이 이해하기 쉽고 기계가 다루기 쉬운 구조로 되어있으며, HTML의 표현 한계성을 극복하는 동시에 SGML의 단점을 보강해서 만든 언어이다. XML은 홈페이지 구축기능, 검색기능 등이 향상되었고, 웹 페이지의 추가와 작성을 편리하게 하며, 클라이언트 시스템의 복잡한 데이터 처리를 쉽게 한다. 또한 HTML은 웹 페이지에서 데이터베이스처럼 구조화된 데이터를 지원할 수 없지만 XML은 사용자가 구조화된 데이터베이스를 뜻대로 조작할 수 있다.

또한 XML은 웹에서 구조화된 문서를 전송 가능하도록 설계되었기 때문에 문서를 구성하는 각 요소들의 독립성을 보장함으로써 문서의 호환성, 내용의 독립성, 요소 변경의 용이성 등의 특성을 제공한다. HTML문서는 화면에 나타나는 문서가 하나의 파일로 되어 있지만, XML은 요소별로 개별 파일로 구성되어 있기 때문에 문서를 요소별로 저장, 검색할 수 있다. 또한 XML로 문서를 교환할 때 각자가 가지고 있는 응용프로그램이 달라도 호환이 가능하다.

이러한 XML의 장점을 기존 PDF형태의 문서에서도 활용하기 위해서는 JATS (Journal Article Tag Suite, http://jats.nlm.nih.gov/about.html) 와 같은 표준을 따르는 XML로 변환하는 작업의 수행이 필요하다. PDF전문을 JATS에서 정의한 XML으로 변환하는 작업은 PDF문서 안에 있는 텍스트 구조(text structure)를 파악하고 해당 구조가 가지는 의미를 찾는 것이 필요하다. 또한 의미가 부여된 텍스트 구조를 가지고 JATS에서 정의한 각각의 요소(element)로 분류되어야 한다. 이렇게 분류된 XML을 웹(web)을 통해 서비스하기 위해선 상당히 높은 품질과 정확도를 요구하기 때문에 여전히 사람에 의해 수동으로 변환되고 있다. 사람의 개입을 최소화시키며 비용을 줄이기 위해선 높은 정확도와 함께 자동으로 PDF문서를 지정된 형식의 XML로 변환하는 모듈이 필요하다.

자동으로 변환하는 작업은 PDF문서 안에 있는 텍스트의 문법적, 기하학적 특성을 분석함과 동시에 추출된 텍스트를 적절한 유형으로 분류하는 작업이 필요하다. 기존에 PDF문서 내에서 조판의 레이아웃(typographical layout)을 분석하고 자동적으로 메타데이터를 추출하는 연구가 많이 진행되어왔다. 가장 많이 사용되는 방법으로는 Rule-based Method 와 Machine Learning Method가 있다. Rule-based 방법은 추출하고자 하는 문서에 대한 준거 기준(rule-set)이 구축되어 있다면 최고 성능을 보이지만 새로운 문서의 적용에 있어서 새로운 준거 기준을 구축해야만 하는 번거로움 때문에 오픈 데이터(open data)를 처리하는 연구에서는 한계점이 있다. 반면에 Machine Learning 방법은 large training set이 구축되어 있다면 새로운 문서에 적용가능 하다는 장점 때문에 현재 많은 메타데이터 추출 연구(metadata extraction research)들이 Machine Learning Method에 기반을 두고 있다. 하지만 이 방법 또한 training set을 만들기 위해선 많은 시간이 소비되며 training set 에 사용된 문서와 다른 포맷의 문서에서는 여전히 성능이 감소가 되는 문제가 있다.

이처럼 XML의 생성대상인 저널이나 논문마다 구성이 다양하여 (구체적으로는 텍스트 단락, 이미지 등의 배치가 상이) 기존의 방식으로 XML을 효과적으로 생성하는데 어려움이 있다.

대한민국 등록특허공보 제10-1243058호(등록일 : 2013. 03. 07) 대한민국 등록특허공보 제10-1243057호(등록일 : 2013. 03. 07)

(학술논문 0001) Cartic Ramakrishnan, Abhishek Patnia, Eduard Hovy, and gully APC Burns, "Layout-aware text extraction from full-text PDF of scientific articles", Source Code for Biology and Medicine 2012, 7:7, (학술논문 0002) Priti P. Rege, Chanchal A. Chandrakar, "Text-Image Separation in Document Images Using Boundary/Perimeter Detection", ACEEE Int.J. on Signal&Image Processing, Vol.03, No.01, Jan 2012. (학술논문 0003)Luis D. Lopez, Jingyi Yu, et al., "An Antomatic System for Extracting Figures and Captions in Biomedical PDF Documents", In Proc. of IEEE Int. Conf. on Bioinformatics and Biomedicine, pp. 578-581. (학술논문 0004) Luis D. Lopez, Jingyi Yu, et al., "A framework for biomedical figure segmentation towards image-based document retrieval", BMC Systems Biology 2013, 7(Suppl 4);S8, (학술논문 0005) Jianguo Chen and Hao Chen, "A Structured Information Extraction Algorithm for Scientific Papers based on Feature Rules Learning", Journal of Software, vol. 8, no. 1., JANUARY 2013.

본 발명은 상기한 바와 같은 문제점을 해결하기 위한 것으로서, 저널이나 논문과 같은 문서로부터 효과적으로 XML 생성하기 위한 시스템 및 방법을 제공하는 데 그 목적이 있다.

이와 같은 목적을 달성하기 위한, 본 발명의 제 1측면에 따르면, 본 발명에 따른 XML 생성방법은, 적어도 하나 이상의 시각적 콘텐트를 포함하는 파일을 입력받는 단계로서, 상기 적어도 하나 이상의 시각적 콘텐트는 텍스트 콘텐트 또는 그림 콘텐트를 포함하고; 상기 시각적 콘텐트를 좌표화하여 HTML형태의 텍스트 데이터를 추출하는 단계; 상기 파일의 각 페이지를 이미지로 변환하여 저장하는 단계; 상기 저장된 이미지에 포함된 상기 적어도 하나 이상의 시각적 콘텐트를 레이아웃 처리하여 적어도 하나 이상의 콘텐트 블록 영역을 추출하고 가시화하는 단계; 사용자의 입력 신호에 따라 상기 가시화된 적어도 하나 이상의 콘텐트 블록 영역에 대응하는 레이아웃을 수정하는 단계; 및 상기 수정된 레이아웃에 대응하는 콘텐트 블록 영역에 포함된 데이터를 추출하고, 상기 각 콘텐트 블록 영역에 대응하는 XML태그들을 부착하여 XML을 생성하는 단계를 포함한다.

또한, 본 발명의 제 2 측면에 따르면, 적어도 하나 이상의 시각적 콘텐트를 포함하는 파일을 입력받는 파일입력모듈로서, 상기 적어도 하나 이상의 시각적 콘텐트는 텍스트 콘텐트 또는 그림 콘텐트를 포함하고; 상기 시각적 콘텐트를 좌표화하여 HTML형태의 텍스트 데이터를 추출하는 HTML형태의 텍스트 데이터 추출모듈; 상기 파일의 각 페이지를 이미지로 변환하여 저장하는 이미지변환모듈; 상기 저장된 이미지에 포함된 상기 적어도 하나 이상의 시각적 콘텐트를 레이아웃 처리하여 적어도 하나 이상의 콘텐트 블록 영역을 추출하고 가시화하는 레이아웃가시화 모듈; 사용자의 입력 신호에 따라 상기 가시화된 적어도 하나 이상의 콘텐트 블록 영역에 대응하는 레이아웃을 수정하는 레이아웃수정모듈; 및 상기 수정된 레이아웃에 대응하는 콘텐트 블록 영역에 포함된 데이터를 추출하고, 상기 각 콘텐트 블록 영역에 대응하는 XML태그들을 부착하여 XML을 생성하는 XML생성모듈을 포함한다.

이상에서 설명한 바와 같이 본 발명에 의하면 XML 생성 시스템 및 방법을 제공함으로써 XML 생산성이 높아지는 효과가 있다.

또한 XML 생성 시스템 및 방법을 제공함으로써 각 논문 구성의 상이로 인해 자동화하기 어려운 부분에 대해 사용자가 원하는 XML의 생산이 용이하다.

도 1은 본 발명의 일 실시예에 따른 XML 생성 시스템 및 방법을 설명하기 위한 개략적인 흐름도,
도 2는 본 발명의 일 실시예에 따른 XML 생성 시스템을 설명하기 위한 모듈 구성도,
도 3은 본 발명의 일 실시예에 따른 시각적 콘텐트를 포함한 파일을 입력하는 파일입력모듈을 나타낸 도면,
도 4는 본 발명의 일 실시예에 따른 추출된 HTML 형태의 텍스트 데이터를 나타낸 도면,
도 5는 본 발명의 일 실시예에 따른 입력 파일의 각 페이지를 이미지로 변환된 것을 나타낸 도면,
도 6은 본 발명의 일 실시예에 따른 레이아웃 분석 및 가시화를 나타낸 도면,
도 7은 본 발명의 일 실시예에 따른 가시화된 레이아웃 중 일정영역을 확대한 것을 나타낸 도면,
도 8은 본 발명의 일 실시예에 따른 사용자에 의한 레이아웃 편집을 통한 추출된 텍스트 블록 영역의 수정을 나타낸 도면,
도 9는 본 발명의 일 실시예에 따른 사용자에 의한 레이아웃 편집을 통한 추출된 그림 블록 영역의 수정을 나타낸 도면,
도 10은 본 발명의 일 실시예에 따른 사용자에 의한 레이아웃 편집을 통해 수정된 그림 블록 영역으로부터 그림을 추출하고 저장하는 것을 나타낸 도면,
도 11은 본 발명의 일 실시예에 따른 XML의 생성을 나타낸 도면,
도 12는 본 발명의 일 실시예에 따른 XML 생성방법을 설명하기 위한 흐름도이다.

본 발명의 일 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

도 1은 본 발명의 일 실시예에 따른 PDF파일을 입력파일로 하여 XML 생성 시스템 및 방법을 설명하기 위한 개략적인 흐름도이다.

도 1을 참조하면, 본 발명에 따른 XML 생성은 PDF파일 입력(10), HTML형태로 텍스트 추출(11), 각 페이지별 이미지 형태로 변환(12), 레이아웃(layout) 분석 및 가시화(13), 사용자에 의한 레이아웃영역 수정(14), 수정영역의 이미지 추출/다운로드(15), 수정영역의 텍스트 추출 및 태그수정(16), XML(17)생성 및 검증의 과정을 통해 진행된다.

도 2는 본 발명의 일 실시예에 따른 XML 생성 시스템을 설명하기 위한 모듈 구성도이다.

도 2를 참조하면, 본 발명에 따른 XML 생성 시스템은 파일입력 모듈(20), HTML형태의 텍스트 데이터 추출모듈(21), 이미지 변환 모듈(22), 레이아웃 가시화 모듈(23), 사용자 입력신호를 받는 레이아웃 수정모듈(24), XML생성모듈(25)을 포함한다. 파일입력모듈(20)은 사용자는 XML을 생성하고 싶은 파일의 입력을 받는다. HTML형태의 텍스트 데이터 추출모듈(21)은 업로드했던 파일 내 각 페

이지에서 텍스트 콘텐트를 단위별로 좌표화하여 HTML형태의 텍스트 데이터를 추출한다. 이미지 변환 모듈(22)은 파일의 각 페이지들을 이미지형태의 파일로 변환하여 저장한다. 레이아웃 가시화 모듈(23)은 레이아웃처리를 통해 시각적 콘텐트에 대한 블록 영역을 가시화한다. 사용자 입력신호를 받는 레이아웃 수정모듈(24)은 사용자의 입력 신호(26) 즉 피드백을 받아 레이아웃 분석에 의해 가시화된 각 콘텐트 블록 영역을 정확한 데이터 추출을 위해 재조정한다. XML생성모듈(25)은 JATS 기반의 태그(tag)를 부착하여 구조화하여 XML을 생성한다.

도 3은 본 발명의 일 실시예에 따른 시각적 콘텐트를 포함한 파일을 입력하는 파일입력모듈을 나타낸 도면이다.

도 3을 참조하면, 본 발명에 따른 파일입력모듈(20)은 사용자는 XML을 생성하고 싶은 파일을, 예를 들어 PDF파일, XML 생성시스템에 업로드 한다. 이하에서는 PDF파일을 예로 들어 설명한다.

도 4는 본 발명의 일 실시예에 따른 추출된 HTML 형태의 텍스트 데이터를 나타낸 도면이다.

도 4를 참조하면, 본 발명에 따른 HTML형태의 텍스트 데이터 추출모듈(21)은 업로드했던 파일 내 각 페이지에서 텍스트 콘텐트를 단위별로 좌표화하여 HTML형태의 텍스트 데이터를 추출한다. 여기서 말하는 단위 별이란 단어단위, 문장단위, 구 단위, 절 단위, 문단단위 등을 의미하는 것으로 사용자가 임의로 정할 수 있다.

기존 방식에 따라 PDF원문에서 텍스트 문자들을 추출하는 경우, 특수 문자의 추출이 용이하지 않다. 따라서 본 발명의 일 실시예에 따라 특수 문자를 정확하고 용이하게 추출하기 위해서는 각 문자의 위치 좌표, 폰트 크기, 서체 등의 정보를 추출하고 추출된 정보를 기반으로, PDF 원문에서 추출된 위치 좌표의 소정의 일정크기를(예를 들어, 1%, 2% 등) 더한 좌표 내에 위치한 문자를 묶어 HTML 형태의 텍스트 데이터를 추출한다. HTML 형태의 텍스트 데이터는 그림 블록 영역, 텍스트 블록 영역 등 입력된 파일문서에 대해 폰트크기(40), 위치좌표(41), 텍스트의 내용(42), 추출된 특수문자(43) 등의 각종 정보를 포함하고 있다. 이 경우 miniPDF (www.minipdf.com), PDF-extract (github.com / nisaacson / pdf-extract) PDFbox(pdfbox.apache.org) 등의 소프트웨어를 사용하는데, 소프트웨어의 선택은 사용자의 의도에 따라 변경이 가능하므로 이에 한정되지 않는다. 참고로 도 4는 전술한 PDFbox의 export HTML 기능을 사용하여 추출한 HTML 형태의 텍스트 데이터이다.

도 5는 본 발명의 일 실시예에 따른 입력 파일의 각 페이지를 이미지로 변환된 것을 나타낸 도면이다.

도 5를 참조하면, 본 발명에 따른 이미지 변환 모듈(22)은 PDF문서 내 각 페이지들을 이미지형태의 파일로 변환하여 저장한다. 도 5는 PNG (Portable Network Graphics) 형태로의 파일변환을 나타내고 있지만 이는 사용자의 선택에 의해 다른 형식의 이미지파일로도 변환이 가능하다. 이는 추후 레이아웃 편집을 위한 사전작업이며 그림 블록 영역에서 그림 추출을 위한 입력으로 사용된다. 참고로 정상적으로 생성된 PDF의 경우 PDFbox라는 소프트웨어를 이용하고, HTML문서 변환 등의 범용적 포맷을 따르지 않는 PDF의 경우 PDF-renderer(java.net/projects/pdf-renderer) 소프트웨어를 사용하여 PDF 문서 내 각 페이지들을 이미지 형태로 변환하여 저장하지만 소프트웨어의 선택은 사용자의 의도에 따라 변경이 가능하므로 이에 한정되지 않는다.

도 6은 본 발명의 일 실시예에 따른 레이아웃 분석 및 가시화를 나타낸 도면이다.

도 6을 참조하면, 본 발명에 따른 레이아웃 가시화 모듈(23)은 PDF에 대한 레이아웃처리를 통해 시각적 콘텐트에 대한 블록 영역을 가시화한다. 이때 시각적 콘텐트 중 텍스트 블록 영역(61), 그림 블록 영역(60)에 대해 자동 추출 및 가시화 작업을 수행한다. 구체적으로 텍스트 블록 영역의 경우 본 발명은 단어 간의 위치와 특성을 고려하여 문단 수준으로 묶을 수 있는 연속된 텍스트의 좌표를 획득하여 텍스트 블록 영역을 추출한다. 여기서 특성이란 글자 블록 높이(word block height), 글자 사이 수평공간(horizontal space between words), 글자 사이 수직공간(vertical space between words) 등을 의미한다. 추가적으로 전술한 특성들을 기반으로 한 자체 블록 탐색 알고리즘(block detection algorithm)을 사용할 수도 있다. 참고로 본 발명은 LaPDF Text (bmkeg.github.io / lapdftext) 소프트웨어를 사용하였지만 소프트웨어의 선택은 사용자의 의도에 따라 변경이 가능하므로 이에 한정되지 않는다.

또한, 그림 블록 영역의 경우 HTML 형태의 텍스트 데이터 추출모듈(21)에서 추출된 HTML 텍스트 데이터 내에서 첨부된 그림에 대한 좌표를 획득할 수 있다. 하지만 입력파일이 스캔이 된 PDF원문일 경우의 HTML 형태의 텍스트 데이터에서 첨부된 그림 블록 영역의 좌표를 획득하기 어렵다. 이 경우 간단한 이미지처리를 통해 그림 블록 영역을 추출할 수 있다. 예를 들어, 이미지를 그레이 스케일(gray scale)변환 후 이진수 필터(binary filter)처리를 하여 이미지를 흑/백으로 변환시키고 erosion size, dilation element, dilation size, erosion element, 및 canny threshold를 조정하면서 윤곽선(contour)을 찾는 방법이 사용될 수 있다. 하지만 이 방법은 사용자의 의도에 따라 변경이 가능하다. 예를 들어, 다양한 이미지 처리를 통해 다양한 파라미터들의 최적화 및 기계학습을 수행할 수 있다. 참고로 본 발명은 전술한 방법을 구현하기 위해 wdl-viewer(github.com/ LibraryOfCongress/wdl-viewer) 소프트웨어가 사용하였지만 소프트웨어의 선택은 사용자의 의도에 따라 변경이 가능하므로 이에 한정되지 않는다.

도 7은 본 발명의 일 실시예에 따른 가시화된 레이아웃 중 일정영역을 확대한 것을 나타낸 도면으로 텍스트 블록 영역(71), 음영 처리된 부분을 통해 그림 블록 영역(70)을 확인할 수 있다.

도 8은 본 발명의 일 실시예에 따른 사용자에 의한 레이아웃 편집을 통한 추출된 텍스트 블록 영역의 수정을 나타낸 도면이며 도 9은 본 발명의 일 실시예에 따른 사용자에 의한 레이아웃 편집을 통한 추출된 그림 블록 영역의 수정을 나타낸 도면이다. 도 8에서 수정되지 않은 텍스트 블록 영역은 레이아웃 편집기능을 통해 상기 텍스트 블록 영역이 수정되었다. 도 9에서 수정되지 않는 그림 블록 영역은 레이아웃 편집기능을 통해 상기 그림 블록 영역이 수정되었다.

도 8,9를 참조하면, 본 발명에 따른 사용자 입력신호를 받는 레이아웃 수정모듈(24)에서 사용자의 입력신호에 의해, 즉 사용자 피드백으로 레이아웃 분석에 의해 가시화된 각 콘텐트 블록 영역을 추가, 삭제, 재조정 등의 편집과정이 수행된다. 레이아웃 편집과정은 향후 정확한 데이터 (텍스트, 그림)를 추출하기 위해서이다. 구체적으로 도 8은 텍스트 블록 영역의 삭제 편집과정을 통행 레이아웃 수정을 나타낸 것이다. 수정되기 전에 선택된 텍스트 블록 영역(80)은 7개이지만 사용자의 입력신호에 의해서, 즉 피드백에 의해서 수정 후 선택된 텍스트 블록영역(81)의 수는 5개이다. 또한 도 9는 그림 블록 영역의 재조정 편집과정을 통해 레이아웃 수정을 나타낸 것이다. 수정되기 전 그림 블록 영역의 레이아웃(90)은 재조정의 편집과정을 거쳐 수정된 그림 블록 영역(91)을 확인할 수 있다. 참고로 수정된 각 블록 영역들에 대한 레이아웃의 좌표는 추후 모듈을 위해서 저장된다. 사용자 피드백, 즉 사용자의 입력 신호를 수용한 레이아웃의 추가, 삭제, 편집을 위해 Image Map Editor (www.maschek.hu / imagemap)와 같은 소프트웨어를 사용할 수 있다. 하지만 소프트웨어의 선택은 사용자의 의도에 따라 변경이 가능하므로 이에 한정되지 않는다.

도 10은 본 발명의 일 실시예에 따른 사용자에 의한 레이아웃 편집을 통해 수정된 그림 블록 영역으로부터 그림을 추출하고 저장하는 것을 나타낸 도면이다.

도 10을 참조하면, 본 발명에 따른 자동으로 추출된 후 수정되지 않은 그림 블록 영역 혹은 사용자의 피드백을 거쳐 수정된 그림 블록 영역의 시작 좌표와 끝 좌표 내에서 그림을 추출하고 작업 PC의 정해진 물리적 공간에 파일 형태로 저장한다.

한편, 도면으로 나타나있지는 않지만, 수정된 텍스트 블록 영역의 경우 텍스트 블록 영역에서 텍스트 내용을 추출하고 보정 한다. 구체적으로 전술한 HTML형태의 텍스트 데이터 추출모듈(21)에서 추출된 HTML형태의 텍스트 데이터와 사용자 피드백에 의해 수정된 텍스트 블록 영역의 시작 좌표와 끝 좌표 내에서 추출한 텍스트를 비교하여 깨지거나 탈락된 특수문자 혹은 기타 텍스트 내용을 복원하여 PDF원문의 내용을 유지시킨다. 이 경우 보조적으로 OCR(Optical Character Recognition) 엔진을 이용하여 원문 내용 보정의 완성도를 높일 수 있다. 참고로Capture2Text(capture2text.sourceforge.net)를 이용하면 특정 블록 영역의 텍스트를 높은 정확도로 추출할 수 있다. 하지만 소프트웨어의 선택은 사용자의 의도에 따라 변경이 가능하므로 이에 한정되지 않는다.

도 11은 본 발명의 일실시예에 따른 XML의 생성을 나타낸 도면이다.

도 11을 참조하면, 본 발명에 따른 XML생성모듈(25)은 JATS 기반의 태그(tag)를 부착하여 구조화하여 XML을 생성한다. 또한 XML을 생성 후 생성된 XML에 대한 유효성 검사를 수행하는 것을 포함할 수 있다. 태그 부착에 대해 구체적으로 설명하면 그림 콘텐츠의 경우 도 10에서 전술한 바와 같이 추출되어 물리적 공간에 저장된 그림을 JATS 기반의 태그를 부착하고 물리적 장소의 상대주소로 링크하여 XML을 생성한다.

텍스트 콘텐트의 경우 전술한 바와 같이 수정된 텍스트 블록 영역에서 추출하고 보정된 텍스트를 위치 좌표 및 텍스트 내용을 기반으로 정해진 휴리스틱 규칙파일에 의해 태그를 추천과정이 포함된다. 여기서 휴리스틱 규칙파일이란 각 태그별로 빈번히 포함하는 논문 내 위치, 내용들에 기반한 조건을 명시한 것이다. 이 규칙파일은 데이터의 분석 경험에 입각하여 구축되고 확장되는 파일이므로 향후 변경이 가능하다. XML 생성 시에 자주 사용되는 태그들은 다음과 같다.

Element	Descrition
Front	저널과 논문의 메타 정보를 포함
Journal-meta	저널의 메타 정보를 포함
Journal-id	저널의 상호를 표기
Journal-title	저널의 제목을 표기
Issn	국제 표준 일련 번호를 표기
Article-meta	논문의 메타 정보를 포함
Article-id	DOI,Publisher-id 등의 논문 번호를 표기
Article-title	논문의 제목을 표기
Contribe-group	논문의 저자들을 포함
Contrib	저자 또는 편잡자들을 표기
Name	저자의 이름을 표기
Aff	저자의 소속을 표기
Author-notes	corresponding 저자의 정보를 표기
Pub-date	논문 출판 날짜를 표기
Volume	논문의 권호를 표기
issue	논문의 권호를 표기
History	논문의 출판 이력을 표기
Date	투고와 승인 날짜를 표기
Permission	논문의 저작권 정보를 표기
License	저작권 관련 정보를 표기
Abstract	논문의 초록 문단을 표기
Body	논문의 본문 내용을 포함
Sec	논문 내용의 section을 구분
Title	section의 제목을 표기
Graphic	본문 안에 있는 이미지파일을 표기
Table	본문 안에 있는 table을 표기
Back	regerence 내용을 포함
Ref	각 regerence를 구분
Source	citation 된 논문의 저널 정보를 표기
Fpage	citation 된 논문의 시작 페이지를 표기
Lpage	citation 된 논문의 끝 페이지를 표기

텍스트 블록 영역의 텍스트 내용에 맞게 태그가 추천되었는지 확인 후 사용자는 내용에 맞는 최종 태그를 선택한다. 본 발명에서 태그는 표 1 에서 front, body, back 부분의 각 세부 element 들을 사용한다. 예를 들어서 수정된 텍스트 블록 영역에서 텍스트 내용이 저널의 명칭(이름)일 경우 Journal-title를 추천하게 되며 저널의 초록 부분일 경우 Abstract를 추천하게 된다.

만약 사용자가 태그 추천이 올바르게 되었는지 확인하지 않고 수정하지 않는 경우 임의로 추천된 태그가 사용된다. 태그추천의 경우, 텍스트 블록 영역의 텍스트 내용 및 사용자 태그 패턴을 고려하여 텍스트 블록 영역별 자동 태그추천을 구현할 수 있으며, 다양한 기계학습 알고리즘을 활용하여 그 성능을 고도화시킬 수 있다.

도 12는 XML 생성방법을 설명하기 위한 흐름도이다.

도 12를 참조하면, 본 발명에 따른 XML 생성방법은 적어도 하나 이상의 시각적 콘텐트를 포함하는 파일을 입력받는 단계(S120), 텍스트 콘텐트를 좌표화하여 HTML 형태의 텍스트 데이터를 추출하는 단계(S121), 파일의 각 페이지를 이미지로 변환하여 저장하는 단계(S122), 저장된 이미지에 포함된 적어도 하나 이상의 시각적 콘텐트를 레이아웃 처리하여 적어도 하나 이상의 콘텐트 블록 영역을 추출하고 가시화하는 단계(S123), 사용자의 입력 신호에 따라 상기 가시화된 적어도 하나 이상의 콘텐트 블록 영역에 대응하는 레이아웃을 수정하는 단계(S124), 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역에 포함된 데이터를 추출하고, 상기 각 콘텐트 블록 영역에 대응하는 XML태그들을 부착하여 XML을 생성하는 단계(S125)를 포함한다.

파일입력 모듈(20)은 적어도 하나 이상의 시각적 콘텐트를 포함하는 파일을 입력받는 단계(S120)로 변환될 수 있으며 이에 대한 구체적인 설명은 도3에서 전술한 바 있다. HTML형태의 텍스트 데이터 추출모듈(21)은 텍스트 콘텐트를 좌표화하여 HTML 형태의 텍스트 데이터를 추출하는 단계(S121)로 변환될 수 있고 이에 대한 구체적인 설명은 도 4에서 전술한 바 있다. 이미지 변환 모듈(22)은 파일의 각 페이지를 이미지로 변환하여 저장하는 단계(S122)로 변환 될 수 있으며 이에 대한 구체적인 설명은 도 5에서 전술한바 있다. 레이아웃 가시화 모듈(23)은 저장된 이미지에 포함된 적어도 하나 이상의 시각적 콘텐트를 레이아웃 처리하여 적어도 하나 이상의 콘텐트 블록 영역을 추출하고 가시화하는 단계(S123)로 변환될 수 있으며 이에 대한 구체적인 설명은 도 6에서 전술한 바 있다. 사용자 입력신호를 받는 레이아웃 수정모듈(24)은 사용자의 입력 신호에 따라 상기 가시화된 적어도 하나 이상의 콘텐트 블록 영역에 대응하는 레이아웃을 수정하는 단계(S124)로 변환될 수 있으며 이에 대한 구체적인 설명은 도 8 및 도 9에서 전술한 바 있다. XML생성모듈(25)은 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역에 포함된 데이터를 추출하고, 상기 각 콘텐트 블록 영역에 대응하는 XML태그들을 부착하여 XML을 생성하는 단계(S125)로 변환될 수 있으며 이에 대한 구체적인 설명은 도 10 및 도 11에서 전술한바 있다.

본 발명의 명세서에 개시된 실시예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 특허청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.

20 : 시스템은 파일입력 모듈
21 : HTML형태의 텍스트 데이터 추출모듈
22 : 이미지 변환 모듈
23 : 레이아웃 가시화 모듈
24 : 사용자 입력신호를 받는 레이아웃 수정모듈
25 : XML생성모듈

Claims

적어도 하나 이상의 시각적 콘텐트를 포함하는 파일을 입력 받는 단계로서, 상기 적어도 하나 이상의 시각적 콘텐트는 텍스트 콘텐트 또는 그림 콘텐트를 포함하고;
상기 시각적 콘텐트를 좌표화하여 HTML 형태의 텍스트 데이터를 추출하는 단계;
상기 파일의 각 페이지를 이미지로 변환하는 단계;
상기 변환된 이미지에 포함된 상기 적어도 하나 이상의 시각적 콘텐트로부터 적어도 하나 이상의 콘텐트 블록 영역을 추출하고 가시화하는 단계;
사용자의 입력 신호에 따라 상기 가시화된 적어도 하나 이상의 콘텐트 블록 영역에 대응하는 레이아웃을 수정하는 단계; 및
상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역에 포함된 데이터를 추출하여 XML을 생성하는 단계를 포함하는 XML 생성방법.
제1항에 있어서, 상기 시각적 콘텐트를 좌표화하여 HTML 형태의 텍스트 데이터를 추출하는 단계는,
상기 시각적 콘텐트가 텍스트 콘텐트인 경우, 상기 텍스트 콘텐트를 구성하는 각 문자의 위치 좌표, 폰트 크기, 서체 정보를 포함하는 정보를 추출하는 단계; 및
상기 추출된 정보를 기반으로, 상기 추출된 위치 좌표의 일정 크기를 더한 좌표 내에 위치한 문자를 묶어 HTML 형태의 텍스트 데이터를 추출하는 단계를 더 포함하는 XML 생성방법.
제1항에 있어서, 상기 파일의 각 페이지를 이미지로 변환하는 단계는,
상기 변환된 이미지를 저장하는 단계를 더 포함하는 XML 생성방법.
제1항에 있어서, 상기 변환된 이미지에 포함된 상기 적어도 하나 이상의 시각적 콘텐트로부터 적어도 하나 이상의 콘텐트 블록 영역을 추출하고 가시화하는 단계는,
상기 시각적 콘텐트가 텍스트 콘텐트인 경우, 문단 수준으로 묶을 수 있는 연속된 텍스트의 좌표를 획득하여 상기 콘텐트 블록 영역을 추출하는 것을 포함하는 XML 생성방법.
제1항에 있어서, 상기 변환된 이미지에 포함된 상기 적어도 하나 이상의 시각적 콘텐트로부터 적어도 하나 이상의 콘텐트 블록영역을 추출하고 가시화하는 단계는,
상기 시각적 콘텐트가 그림 콘텐트인 경우, 상기 HTML 형태의 텍스트 데이터로부터 상기 콘텐트 블록 영역의 좌표를 획득하거나 또는 상기 변환된 이미지를 Gray Scale변환, Binary Filter처리를 하여 흑 /백 변환 후 Erosion Size, Dilation Element, Dilation Size, Erosion Element 및 Canny Threshold를 조정하면서Contour를 찾는 방법으로 상기 콘텐트 블록 영역을 추출하는 것을 포함하는 XML 생성방법.
제 1항에 있어서, 상기 사용자의 입력 신호에 따라 상기 가시화된 적어도 하나 이상의 콘텐트 블록 영역에 대응하는 레이아웃을 수정하는 단계는,
상기 수정된 레이아웃의 좌표를 저장하는 단계를 더 포함하는 XML 생성방법.
제1항에 있어서, 상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역에 포함된 데이터를 추출하여 XML을 생성하는 단계는,
상기 추출된 데이터가 그림 콘텐트에 대응하는 경우 콘텐트 블록 영역의 시작 좌표 및 끝 좌표 내에서 상기 데이터를 추출하는 것을 포함하는 XML 생성방법.
제 1항에 있어서, 상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역에 포함된 데이터를 추출하여 XML을 생성하는 단계는,
상기 추출된 데이터가 텍스트 콘텐트에 대응하는 경우 상기 HTML형태로 추출된 텍스트 데이터와 상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역 중 텍스트 블록 영역에서 추출한 텍스트를 비교하여 보정하는 단계를 더 포함하는 XML 생성방법.
제 1항에 있어서, 상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역에 포함된 데이터를 추출하여 XML을 생성하는 단계는,
상기 생성된 XML에 대한 유효성검사를 수행하는 단계를 더 포함하는 XML 생성방법.
제 1항에 있어서, 상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역에 포함된 데이터를 추출하여 XML을 생성하는 단계는,
상기 적어도 하나 이상의 콘텐트 블록 영역에 대응하는 XML태그들을 부착하는 단계를 더 포함하는 XML 생성방법.
적어도 하나 이상의 시각적 콘텐트를 포함하는 파일을 입력 받는 파일입력모듈로서, 상기 적어도 하나 이상의 시각적 콘텐트는 텍스트 콘텐트 또는 그림 콘텐트를 포함하고;
상기 시각적 콘텐트를 좌표화하여 HTML 형태의 텍스트 데이터를 추출하는 HTML 형태의 텍스트 데이터 추출모듈;
상기 파일의 각 페이지를 이미지로 변환하는 이미지변환모듈;
상기 변환된 이미지에 포함된 상기 적어도 하나 이상의 시각적 콘텐트로부터 적어도 하나 이상의 콘텐트 블록 영역을 추출하고 가시화하는 레이아웃가시화 모듈;
사용자의 입력 신호에 따라 상기 가시화된 적어도 하나 이상의 콘텐트 블록 영역에 대응하는 레이아웃을 수정하는 레이아웃수정모듈; 및
상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역에 포함된 데이터를 추출하는 XML생성모듈을 포함하는 XML 생성시스템.
제11항에 있어서, 상기 HTML 형태의 텍스트 데이터 추출모듈은,
상기 시각적 콘텐트가 텍스트 콘텐트인 경우, 상기 텍스트 콘텐트를 구성하는 각 문자의 위치 좌표, 폰트 크기, 서체를 포함하는 정보를 추출하여 상기 추출된 정보를 기반으로 상기 추출된 위치 좌표의 일정 크기를 더한 좌표 내에 위치한 문자를 묶어 HTML 형태의 텍스트 데이터를 추출하는 것을 포함하는 XML 생성시스템.
제11항에 있어서, 상기 이미지변환모듈은,
상기 변환된 이미지를 저장하는 것을 포함하는 XML 생성시스템.
제11항에 있어서, 상기 레이아웃가시화 모듈은,
상기 시각적 콘텐트가 텍스트 콘텐트인 경우, 문단 수준으로 묶을 수 있는 연속된 텍스트의 좌표를 획득하여 상기 콘텐트 블록 영역을 추출하는 것을 포함하는 XML 생성시스템.
제11항에 있어서, 상기 레이아웃가시화 모듈은,
상기 시각적 콘텐트가 그림 콘텐트인 경우, 상기 HTML 형태의 텍스트 데이터로부터 상기 콘텐트 블록영역의 좌표를 획득하거나 또는 상기 변환된 이미지를 Gray Scale변환, Binary Filter처리를 하여 흑 /백 변환 후 Erosion Size, Dilation Element, Dilation Size, Erosion Element 및 Canny Threshold를 조정하면서Contour를 찾는 방법으로 상기 콘텐트 블록 영역을 추출하는 것을 포함하는 XML 생성시스템.
제 11항에 있어서, 상기 레이아웃수정모듈은,
상기 수정된 레이아웃의 좌표를 저장하는 것을 포함하는 XML 생성시스템.
제11항에 있어서, 상기 XML생성모듈은,
상기 추출된 데이터가 그림 콘텐트에 대응하는 경우 콘텐트 블록 영역의 시작 좌표 및 끝 좌표 내에서 상기 데이터를 추출하는 것을 포함하는 XML 생성시스템.
제 11항에 있어서, 상기 XML생성모듈은,
상기 추출된 데이터가 텍스트 콘텐트에 대응하는 경우 상기 HTML형태로 추출된 텍스트 데이터와 상기 수정된 레이아웃에 대응하는 적어도 하나 이상의 콘텐트 블록 영역 중 텍스트 블록 영역에서 추출한 텍스트를 비교하여 보정하는 것을 포함하는 XML 생성시스템.
제 11항에 있어서, 상기 XML생성모듈은,
상기 생성된 XML에 대한 유효성검사를 수행하는 것을 포함하는 XML 생성시스템.
제 11항에 있어서, 상기 XML생성모듈은,
상기 적어도 하나 이상의 콘텐트 블록 영역에 대응하는 XML태그들을 부착하는 것을 포함하는 XML 생성시스템.