KR102457962B1

KR102457962B1 - 논문의 메타데이터 추출 방법 및 장치

Info

Publication number: KR102457962B1
Application number: KR1020200143837A
Authority: KR
Inventors: 정희석; 설재욱; 황혜경; 최성필; 김선우; 고건우; 지선영
Original assignee: 한국과학기술정보연구원; 경기대학교 산학협력단
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-10-24
Also published as: KR20220058259A

Abstract

논문의 메타데이터 추출 방법이 제공 된다. 본 발명의 일 실시예에 따른 논문의 메타데이터 추출 방법은 학술정보가 포함된 논문을 입력 받는 단계, 논문 메타데이터 추출 모델을 이용하여 상기 논문에 포함된 메타데이터의 메타데이터 영역을 생성하고, 상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 단계 및 상기 분류된 목차에서 메타데이터 항목을 추출하는 단계를 포함하되, 상기 논문 메타데이터 추출 모델은, 상기 논문의 메타데이터 영역의 배치에 따른 좌표와 상기 메타데이터 영역의 속성을 특징으로 하여 상기 메타데이터 영역이 해당되는 목차로 분류하도록 기계 학습된 것일 수 있다.

Description

논문의 메타데이터 추출 방법 및 장치{Method and apparatus for extracting metadata of thesis}

본 발명은 논문의 메타데이터 추출 방법 및 그 장치에 관한 것이다. 보다 자세하게는, 논문에 기재된 텍스트의 배치 좌표와 속성을 이용하여 메타데이터 영역을 결정하고 메타데이터 영역에 포함된 텍스트를 추출함에 따라 논문 메타데이터 DB를 효율적으로 구축할 수 있는 논문의 메타데이터 추출 방법 및 장치를 제공하는 것이다.

논문의 경우 기술 분야가 다양하고, 그 내용이 복잡하며 신규한 경우가 대부분이다. 방대한 문헌이 산발적으로 흩어져 있기 때문에 논문이 효율적으로 활용되기 위해서는 방대한 양의 논문 DB를 정형화시켜 구축하는 것이 필요하다.

JATS(Journal Article Tag Suite)-XML(Extensible Markup Language)은 논문을 저장하는 기준으로서, 미국의 NIH(National Institutes of Health)가 주도적으로 Tag를 전세계적으로 통일하는 작업을 하고 있으며, JATS-XML은 현재 NISO(National Information Standards Organization) 표준으로 지정(NISO Z39.96-2015)되어 있다.

종래의 논문 DB 구축 시스템의 경우 대부분의 논문을 PDF 파일의 형식으로 가공하여 서비스하지만, 일부 학술지는 사용자 편의 및 데이터의 효과적인 활용을 위해 JATS-XML로 서비스한다. JATS-XML 형식의 논문은 Tag를 공용으로 사용하기 때문에, 논문의 출판형식을 보다 쉽게 다양화할 수 있으며, JATS XML을 기준으로 HTML, Crossref DOI XML, PDF 등으로 변환이 가능하고, Science Central, PMC에서도 JATS XML 파일을 기준으로 논문을 제출 받고 있기 때문에 활용도가 높다. PLOS, Biomed Central, Hindawi 등 다수의 Open Access Journal에서도 JATS-XML을 제작하여 논문의 출판과 동시에 전세계적으로 빠르게 공유하고 있다. 다수의 저널이 Full Text JATS XML로 제작되고 있으며, 특히 일반적으로 영향력이 큰 저널들이 XML 형식의 서비스를 제공하고 있어, 경쟁력을 높이고자 하는 저널들을 중심으로 하여 향후 JATS-XML 기반의 저널 서비스가 더욱 늘어날 것으로 예상된다.

JATS-XML 포맷의 데이터의 경우 랜더링(rendering)만 하면 굳이 많은 저장 용량을 차지하지 않고 사용자의 화면에 제공할 수 있으며, XHTML 형태로도 제공할 수 있다. 또한, 단행본에서 필요한 CrossRef XML, CrossMark XML, FundRef XML 등 다양한 기능을 어려움 없이 해결할 수 있으며, 필요에 따라 PDF 변환이 가능하다. 즉 PDF에서 XML을 제작하는 것보다 더 빠르게 XSL-FO를 이용하여 PDF 변환이 가능하다. 현재 XML로 제작하는 경우에도 기술적인 한계에 의해 저널이나 책의 표, 그림 등의 위치 배열 등까지는 완벽하게 변환이 어려운 실정이다. 수식기호, 화학기호 등의 변환을 지원하는 여러 웹사이트들이 존재하기는 하지만 배열까지 원본대로 나타내기는 쉽지가 않으며, XML 문서가 제대로 되었는지 체크하는 유효성 검사(validation check)를 해도 오류를 찾아서 고치는 것은 수동적인 작업이 요구되기 때문에 많은 비용과 번거로움이 따른다.

그러나 종래의 논문은 ADOBE 사의 PDF 파일 형식으로 논문 공유가 이루어졌다. PDF 형식의 논문 또는 그 외의 형식으로 제공되는데 제각각 다른 형식의 논문 파일은 텍스트가 추출되기 어려운 형태인 경우가 많다. 예를 들어, PDF 형식의 논문 파일의 경우 저널 별로 포맷이 정해져 있지만, 시간에 따라 변하는 경우도 있고, 포맷을 따르더라도 각 논문마다 텍스트의 길이 및 위치에 차이가 발생한다. PDF 파일에 포함된 논문의 경우 제일 첫 페이지의 가장 상단에는 제목과 저자가 기재되는 경우가 일반적이지만, 저자 정보는 그 외의 분류인 초록, 키워드, 저자 정보의 경우에는 각각의 논문마다 상이한 구조로 이루어져 있다. 또한, 본문의 경우 어떠한 논문은 1단으로 이루어지고, 어떠한 논문은 2단으로 이루어져 있다.

이처럼 각각 상이한 구조로 이루어진 논문에 대하여 텍스트를 기계적으로 추출하기 위해서 종래에는 OCR과 같은 이미지 프로세싱 기술을 이용하거나, 텍스트 요소의 좌표를 이용하는 방법으로 논문의 메타데이터를 추출하였는데 이럴 경우 글자가 깨지거나, 문단 경계 또는 서로 다른 메타데이터 블록들과의 혼동이 발생하게 된다. 100% 정확도를 갖는 자동추출기를 만들기는 어려울 수 있겠지만, 최대한 상기 요소들로 인하여 발생하는 오류를 감소시킴으로써 사람이 확인해야 하는 메타데이터의 분량을 최대한 줄이기 위한 방법이 필요하다.

등록특허공보 제10-1500598호 "XML 생성 시스템 및 방법"(2015.03.10. 등록)

본 발명이 해결하고자 하는 기술적 과제는, 논문에 포함된 텍스트의 속성과 좌표 값을 동시에 활용하여 논문의 메타데이터 정보를 추출할 수 있는 논문의 메타데이터 추출 방법 및 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 다른 기술적 과제는 JATS-XML 포맷으로 변환에 충분할 정도의 메타데이터 항목을 추출할 수 있는 논문의 메타데이터 추출 방법 및 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 또 다른 기술적 과제는 정형화된 형식으로 정제된 메타데이터가 빅데이터에 활용되어 논문 메타데이터 DB를 효율적으로 구축할 수 있는 논문의 메타데이터 추출 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 또 다른 기술적 과제는 논문 메타데이터 추출 모델이 텍스트의 속성과 좌표 값을 이용하여 메타데이터 영역을 정확하게 결정하도록 기계 학습하는 논문의 메타데이터 추출 방법을 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.

상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 논문의 메타데이터 추출 방법은 컴퓨팅 장치에 의해 수행되는 방법에 있어서, 학술정보가 포함된 논문을 입력 받는 단계, 논문 메타데이터 추출 모델을 이용하여 상기 논문에 포함된 메타데이터의 메타데이터 영역을 생성하고, 상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 단계, 및 상기 분류된 목차에서 메타데이터 항목을 추출하는 단계를 포함하되, 상기 논문 메타데이터 추출 모델은, 상기 논문의 메타데이터 영역의 배치에 따른 좌표와 상기 메타데이터 영역의 속성을 특징으로 하여 상기 메타데이터 영역이 해당되는 목차로 분류하도록 기계 학습된 것일 수 있다.

일 실시예에서, 상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 단계는, 상기 논문에 포함된 인접한 글자 또는 단어를 텍스트 엘리먼트로 구성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 단계는, 상기 텍스트 엘리먼트와 인접한 엘리먼트를 반복적으로 병합하여 메타데이터 영역을 생성하는 단계, 및 상기 논문의 메타데이터 영역의 배치에 따른 좌표와 상기 메타데이터 영역의 속성을 결정하는 단계를 포함할 수 있다.

일 실시예에서, 상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 단계는, 상기 텍스트의 크기와 폰트를 이용하여 상기 텍스트가 밀집된 영역을 판단하고, 상기 텍스트가 밀집된 영역을 이용하여 상기 텍스트 엘리먼트가 메타데이터 영역을 이루는 것으로 판단되면 메타데이터 영역의 배치에 따른 좌표를 식별하는 단계를 포함할 수 있다.

일 실시예에서, 상기 논문에 포함된 인접한 글자 또는 단어를 텍스트 엘리먼트로 구성하는 단계는, 상기 상기 텍스트 엘리먼트를 둘러싸는 도형을 표시하는 단계를 포함할 수 있다.

일 실시예에서, 상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 단계는, 상기 논문의 메타데이터 영역의 배치에 따른 좌표와 상기 메타데이터 영역의 속성을 상기 논문 메타데이터 추출 모델에 입력하여 상기 메타데이터 영역이 해당되는 목차로 분류하는 단계를 포함할 수 있다.

일 실시예에서, 상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 단계는, 상기 메타데이터를 한/영 제목, 한/영 초록, 한/영 키워드, 저자 정보 및 사사로 분류하는 단계를 포함할 수 있다.

일 실시예에서, 상기 분류된 목차에서 메타데이터 항목을 추출하는 단계는, 상기 논문을 JATS-XML 포맷의 메타데이터로 변환시킬 수 있는 미리 설정된 항목을 추출하는 단계를 포함할 수 있다.

상기 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 논문의 메타데이터 추출 장치는 프로세서, 네트워크 인터페이스, 상기 프로세서에 의해 실행되어 컴퓨터 프로그램을 로드(load)하는 메모리, 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은, 학술정보가 포함된 논문을 입력 받는 인스트럭션(instruction), 논문 메타데이터 추출 모델을 이용하여 상기 논문에 포함된 메타데이터의 메타데이터 영역을 생성하고, 상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 인스트럭션, 및 상기 분류된 목차에서 메타데이터 항목을 추출하는 인스트럭션을 포함하되, 상기 논문 메타데이터 추출 모델은, 상기 논문의 메타데이터 영역의 배치에 따른 좌표와 상기 메타데이터 영역의 속성을 특징으로 하여 상기 메타데이터 영역이 해당되는 목차로 분류하도록 기계 학습된 것일 수 있다.

상기 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 논문의 메타데이터 추출 프로그램은 컴퓨팅 장치와 결합되어, 학술정보가 포함된 논문을 입력 받는 단계, 상기 논문의 메타데이터 영역의 배치에 따른 좌표와 상기 메타데이터 영역의 속성을 특징으로 하여 상기 메타데이터 영역이 해당되는 목차로 분류하도록 기계 학습된 논문 메타데이터 추출 모델을 이용하여 상기 논문에 포함된 메타데이터의 메타데이터 영역을 생성하고, 상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 단계, 및 상기 분류된 목차에서 메타데이터 항목을 추출하는 단계를 실행시키기 위하여 컴퓨터로 판독가능한 기록매체에 저장될 수 있다.

도 1은 본 발명의 일 실시예에 따른 논문의 메타데이터 추출 방법이 수행되는 예시도이다.
도 2는 본 발명의 일 실시예에 따른 논문의 메타데이터 추출 방법의 순서도이다.
도 3은 도 2의 단계 S100을 구체적으로 설명하기 위한 도면이다.
도 4는 도 2의 단계 S200을 참조하여 논문으로부터 메타데이터를 추출하는 과정을 구체적으로 설명하기 위한 도면이다.
도 5는 도 4의 단계 S300을 구체적으로 설명하기 위한 도면이다.
도 6은 메타데이터 영역이 논문의 목차에 따라 분류되는 예시를 설명하기 위한 도면이다.
도 7은 논문 메타데이터 추출 모델을 통해 추출되어 각 목차별로 분류된 논문의 메타데이터를 설명하기 위한 도면이다.
도 8은 논문 메타데이터 추출 모델에 입력되는 데이터와 논문 메타데이터 추출 모델에 의해 출력되는 결과를 설명하기 위한 도면이다.
도 9는 논문의 메타데이터를 추출하는 모델의 입출력 데이터를 개략적으로 설명하기 위한 도면이다.
도 10은 도 8 및 도 9에서 설명한 논문 메타데이터 추출 모델의 신경망을 개략적으로 나타낸 도면이다.
도 11은 본 발명의 또 다른 실시예에 따른 논문의 메타데이터 추출 장치의 하드웨어 구성도이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

이하, 도면들을 참조하여 본 발명의 몇몇 실시예들을 설명한다.

도 1은 본 발명의 일 실시예에 따른 논문의 메타데이터 추출 방법이 수행되는 예시도이며, 도 2는 본 발명의 일 실시예에 따른 논문의 메타데이터 추출 방법의 순서도이다.

본 실시예에 따른 논문의 메타데이터 추출 방법은 논문으로부터 논문 내에 포함된 한글, 영어 또는 기타 외국어 등의 텍스트를 각 목차 항목에 따라 분류하여 추출하는 방법이다. 본 명세서 내에서 논문은 학술정보가 포함된 문헌을 의미하며, 일반적으로 논문의 파일 형식으로 이용되는 PDF 파일을 의미할 수 있으나, 파일 형식이 이에 한정되는 것은 아니다. 도 1과 같이 논문(10)은 통상적인 구조에 따라 논문 제목(1-1), 영문 제목(1-2), 저자 정보(1-3), 영문 초록(1-4), 한글 초록(1-5), 본문(1-6, 1-7), 주석(1-8) 등으로 분류되어 작성된 문헌일 수 있다.

몇몇 실시예에서, 논문의 메타데이터 추출 장치는 논문 메타데이터 추출 모델을 이용하여 텍스트를 추출할 수 있다. 도 1과 같이 논문의 메타데이터 추출 장치에 논문이 입력되면 논문의 메타데이터 추출 모델을 통해 메타데이터가 추출될 수 있다.

도 2의 단계 S100에서 학술정보가 포함된 논문이 입력될 수 있다. 단계 S200에서 인접한 텍스트 엘리먼트를 합쳐 메타데이터 영역으로 분류될 수 있다. 단계 S300에서 분류된 영역에서 메타데이터 항목을 추출하고 JATS-XML이 출력될 수 있다. 이러한 도 2의 과정을 보다 상세하게 설명하기 위해 도 3 내지 도 6을 참조하여 본 실시예의 세부적인 동작을 설명하도록 한다. 본 실시예는 컴퓨팅 장치에 의하여 수행될 수 있다. 예를 들어, 상기 컴퓨팅 장치는 도 1을 참조하여 설명한 논문의 메타데이터 추출 장치일 수 있다. 본 실시예를 설명함에 있어서, 몇몇 동작의 수행 주체에 대한 기재가 생략될 수 있다. 이 때, 상기 수행 주체는 상기 컴퓨팅 장치이다.

도 3과 같이 단계 S110에서 학술정보가 포함된 PDF 논문이 입력될 수 있는데, 일반적으로 PDF 파일 형식의 논문이 입력될 수 있다. 이러한 논문 파일은 사용자에 의해 입력된 테이터이거나 통합 논문 서비스 데이터베이스에서 관리되는 데이터일 수 있다.

다시 도 2로 돌아와서 단계 S200에서 메타데이터 영역이 분류될 수 있는데, 인접한 텍스트 엘리먼트를 합쳐지고, 합쳐진 각각의 영역이 메타데이터 영역으로 분류될 수 있다. 이때 도 4와 같이 단계 S201 내지 단계 S220이 수행될 수 있다.

도 4의 단계 S201에서 텍스트 엘리먼트가 구성될 수 있다. 여기서, 텍스트 엘리먼트는 글자 또는 단어를 의미하며, 바람직하게는 1개 이상의 단어 묶음을 의미할 수 있다.

먼저 인접한 텍스트 엘리먼트들은 몇몇의 집합으로 묶여서 사각형과 같은 도형으로 구성될 수 있다. 이 때의 텍스트 엘리먼트들은 아직 제목, 초록 또는 키워드 등의 항목 중에서 어느 것으로 분류되는지 확정되지 않을 수 있다.

또한, 텍스트 엘리먼트의 속성은 텍스트의 폰트, 크기, 워드 임베딩을 통해 출력된 임베딩 벡터 등의 텍스트 자체에 대한 속성을 의미한다. 텍스트 엘리먼트의 배치에 따른 좌표는 텍스트 엘리먼트의 논문에서 배치된 상대적인 위치를 좌표로 나타낸 값이다.

다른 실시예에서 텍스트 엘리먼트는 논문의 PDF 파일을 이미지 프로세싱을 통해 밀집된 텍스트가 배치된 위치의 좌표를 이용하여 텍스트 엘리먼트 좌표가 결정될 수도 있다.

단계 S210에서는 반복적으로 인접한 텍스트 엘리먼트를 병합하여 메타데이터 영역이 생성될 수 있다. 본 단계에서는 텍스트 엘리먼트들을 이용하여 메타데이터 영역이 생성될 수 있는데, 한 번의 병합으로 메타데이터 영역이 생성되는 것이 아니라, 매 페이지에 대해서 더 이상 병합되는 메타데이터 영역이 발생하지 않을 때까지 반복하면서 메타데이터 영역이 생성될 수 있다. 일 실시예에서는 논문의 첫 페이지에만 메타데이터 영역이 생성될 수도 있다.

이러한 단계를 보다 구체적으로 설명하면, 몇몇의 인접한 텍스트 엘리먼트 들은 서로 미리 설정된 기준에 따라 텍스트 영역(사각형)으로 묶이는 과정이 수행될 수 있다. 미리 설정된 기준은 제목이나 저자 정보, 키워드, 요약 등은 동일한 폰트의 속성으로 기재된 텍스트를 하나의 구성으로 합치는 기준을 의미한다. 이 경우, 위치, 글자 크기, 기타 폰트 속성 등의 정보를 바탕으로 같은 텍스트 영역에 속하는 글자 또는 단어들끼리 묶여질 수 있다. 예를 들어 논문 내에서 크기와 폰트가 유사한 텍스트를 텍스트가 밀집된 영역으로 식별될 수 있다. 또한 각 영역 간에 소정 거리만큼 이격된 경우 목차가 달라지는 것으로 식별될 수 있다.

이후 단계 S220에서, 메타데이터 영역의 순서, 좌표, 속성, 단어(텍스트) 등을 입력으로 한 신경망을 통해 메타데이터 영역이 분류될 수 있다. 구체적으로, 본 단계에서 신경망을 이용하여 메타데이터가 속하는 목차가 분류될 수 있다. 예를 들어 도 6과 같이 논문(10)의 텍스트 엘리먼트(1-1 내지 1-8)의 속성과 배치에 따른 좌표를 이용하여 해당 영역이 한/영 제목, 한/영 초록, 한/영 키워드, 저자 정보 또는 사사 등의 목차로 분류될 수 있다. 일 실시예에서 메타데이터 영역은 17개로 분류된다. 이 과정은 하나 이상의 저널 포맷에 대하여 학습된 신경망 분류 모델에 의해 이루어진다. 만약 논문의 가장 첫 페이지의 상단에 배치된 텍스트 엘리먼트의 경우 텍스트 엘리먼트의 위치와 문장의 길이와 폰트 또는 크기, 문장의 단어, 문장 완성도 등의 데이터를 통해 제목 영역으로 분류되고, 그 하단에 위치하면서 사람의 이름으로 되어 있는 텍스트 엘리먼트의 경우 저자 정보 영역으로 분류되며, 그 하단에 위치하면서 영문 문장으로 되어 있는 텍스트 엘리먼트의 경우 길이와 폰트 또는 크기, 문장의 단어, 문장 완성도 등의 데이터를 통해 영문 초록 영역으로 분류되고, 한글 문장으로 되어 있는 텍스트 엘리먼트의 경우 한글 초록으로 분류될 수 있다. 해당 분류 모델을 통하여 다른 논문에서는 다른 배치에 대한 분류를 얻을 수 있다.

제목, 키워드, 초록 등은 하나의 영역 전체가 하나의 메타데이터 항목으로 볼 수 있지만, 저자 정보 영역의 경우 한/영 저자명, 한/영 소속기관, 한/영 소속기관 주소, 이메일 등 여러 메타데이터 항목으로 구성되고, 서지 정보 영역에는 저널명(또는 저널명 약어 표기), 권, 호, 페이지, 발행 년/월/일, DOI, ISSN 번호 등 정보가 포함되는 것과 같이 하나의 메타데이터 영역 안에 여러 메타데이터 항목이 포함되기도 한다. 이와 같은 메타데이터 영역 내 메타데이터 항목을 분류해 내는 것은 신경망 또는 직접 구현을 통한 후처리 작업에 의해 수행된다.

도 5를 참조하면, 단계 S300에서 상기 분류된 메타데이터 영역에 대한 메타데이터 목차의 항목이 추출되고 JATS-XML이 출력될 때, 단계 S310 내지 단계 S350이 수행될 수 있다.

단계 S310에서 메타데이터 추출 모델을 통해 목차의 항목이 추출되는데, 이때, 추출 모델이 하드코딩에 의한 모델인 경우 메타데이터 영역 수만큼의 모델이 필요하고, 추출 모델이 인공 지능 모델로 구현되는 경우 적어도 몇몇의 모델로 구성될 수 있다. 단계 S320에서 날짜/주소/이메일 등 저널별 다른 표기를 JATS-XML 표준 표기로 변환하는 메타데이터 표준화가 수행될 수 있다. 단계 S330에서 DOI/ ISSN 등의 메타데이터 항목과 데이터베이스를 대조하여 원본 파일에서 추출할 수 없는 표준 정보를 생성하여 관리하는 메타데이터 확장이 수행될 수 있다. 단계 S340에서 논문에 포함된 저자정보 등의 마커(* 등)를 이용하여 저자명, 저자 소속기관 등의 메타데이터 목차 항목이 대응될 수 있다. 단계 S350에서 도 7과 같은 JATS-XML 포맷의 데이터로 저장될 수 있다.

지금까지 도 3 내지 도 7을 참조하여 세부적인 동작 중심으로 본 실시예에 따른 논문의 메타데이터 추출 방법을 설명하였다. 이하, 도 8 및 도 9를 참조하여 논문 메타데이터 추출 모델의 동작에 대해 설명하도록 한다.

도 8은 논문 메타데이터 추출 모델에 입력되는 데이터와 논문 메타데이터 추출 모델에 의해 출력되는 결과를 설명하기 위한 도면이다.

도 8과 같이 논문 메타데이터 추출 모델에는 텍스트 엘리먼트의 배치에 따른 좌표와 텍스트 엘리먼트의 속성이 입력될 수 있다. 논문 메타데이터 추출 모델은 텍스트 엘리먼트의 배치에 따른 좌표와 텍스트 엘리먼트의 속성을 이용하여 각각의 텍스트 엘리먼트에 대한 메타데이터 영역을 결정할 수 있다.

이러한 논문 메타데이터 추출 모델은 논문의 텍스트 엘리먼트의 배치에 따른 좌표와 상기 텍스트 엘리먼트의 속성을 특징으로 하여 상기 메타데이터 영역을 결정하도록 딥러닝을 통해 기계 학습될 수 있다.

예를 들어, 논문 메타데이터 추출 모델은 반복적으로 논문의 메타데이터 영역을 결정하는 과정에서 논문의 텍스트 엘리먼트의 배치에 따른 좌표를 통해 텍스트의 배치와 텍스트의 크기, 글자의 수, 페이지 등의 논문의 구조에 대해서 학습을 할 수 있다.

또한, 논문 메타데이터 추출 모델은 각각의 텍스트 엘리먼트의 속성에 따라 분류되는 목차에 대해서 함께 학습할 수 있기 때문에 논문의 텍스트 엘리먼트를 통해 논문의 어느 위치에 어떤 목차가 존재하는지 학습될 수 있다. 즉, 논문 메타데이터 추출 모델은 논문의 메타데이터 영역을 결정하는 과정과 메타데이터 영역으로부터 메타데이터 항목을 추출하는 학습하기 때문에 새로운 구조로 작성된 논문을 접하더라도 어떠한 위치에 어떠한 목차의 텍스트가 기재되었는지 용이하고 신속하게 판단하여 텍스트의 추출을 시도할 수 있다.

예를 들면, 논문 내에서 키워드가 추출되는 과정은, 한 페이지 내에서 식별된 메타데이터 영역이 좌표에 의해 순서화 되고, 해당 메타데이터 영역의 등장 순서/좌표/폰트 속성들이 학습된 신경망 모델에 입력될 수 있다.

이후, 앞뒤(여러 개)의 메타데이터 영역의 속성과 해당 메타데이터 영역의 속성을 고려하여 해당 메타데이터 영역이 키워드 영역이라는 것으로 분류될 수 있다. 이후, 분류된 키워드 항목에서 각각의 키워드를 추출해낼 수 있는데, 이를 추출하기 위한 후처리 작업이 수행될 수 있다.예를 들어, '키워드' 항목 내에 어떤 키워드가 기재되어 있는지 추출하기 위해'키워드:'등의 선언부 문구를 잘라내고 구분자(','또는 ';' 등)에 의해 나누는 작업이 수행될 수 있다.

만약 해당 메타데이터 영역이 키워드에 관한 메타데이터 영역이 아닌 경우라도 하더라도 메타데이터 속성을 통해 그 내용을 개략적으로 판단하기 때문에 다른 영역을 탐색해 가면서 키워드가 속한 메타데이터 영역이 결정될 수 있다.

도 9는 논문의 메타데이터를 추출하는 모델의 입출력 데이터를 개략적으로 설명하기 위한 도면이고, 도 10은 도 8 및 도 9에서 설명한 논문 메타데이터 추출 모델의 신경망을 개략적으로 나타낸 도면이다.

도 9와 같이 논문 메타데이터 추출 모델은 텍스트 엘리먼트의 배치에 따른 좌표와 텍스트 엘리먼트의 속성을 출력하는 동작을 통합하여 수행할 수도 있다. 예를 들어, 논문 메타데이터 추출 모델에 논문 PDF 파일만 입력되면, 각 목차별로 분류된 메타데이터가 추출될 수 있다. 이 경우 텍스트 엘리먼트의 배치에 따른 좌표와 텍스트 엘리먼트의 속성을 따로 입력하지 않고도 PDF 논문만 간편하게 입력함에 따라 논문의 목차별로 텍스트가 추출될 수 있다.

구체적으로 PDF 형식의 논문 파일이 논문 메타데이터 추출 모델이 입력되면, 논문 내에서 텍스트 엘리먼트의 배치에 따른 좌표와 텍스트 엘리먼트의 속성이 출력되고, 출력된 텍스트 엘리먼트의 배치에 따른 좌표와 텍스트 엘리먼트의 속성을 이용하여 메타데이터 영역이 결정될 수 있다.

이후 논문 메타데이터 추출 모델에 의해 메타데이터의 영역이 출력될 수 있다. 이러한 메타데이터 영역으로부터 자연어 처리를 통해 텍스트가 추출되어 정형화된 메타데이터(20)이 생성될 수 있다.

도 10과 같이 논문 메타데이터 추출 모델은 PDF 논문으로부터 메타데이터 영역의 좌표/속성이 추출되면서 메타데이터 영역 결정 및 메타데이터 추출이 한번에 이루어질 수 있다. 예를 들어, 논문 메타데이터 추출 모델은 PDF 논문이 입력되면 텍스트 엘리먼트의 배치에 따른 좌표와 텍스트 엘리먼트의 속성을 출력하는 방법을 학습하여 모델을 강화시키고, 동시에 텍스트 엘리먼트의 배치에 따른 좌표와 텍스트 엘리먼트의 속성을 이용하여 메타데이터 영역을 결정하는 방법을 학습하여 모델을 강화시킬 수 있다.

본 발명의 일 실시예에 따른 논문의 메타데이터 추출 방법은 논문에 포함된 각 목차의 항목 별로 메타데이터 영역을 표시하여 표시된 메타데이터 영역의 좌표와 메타데이터 영역 내에 포함된 텍스트의 속성을 학습하기 때문에 JATS-XML 포맷으로 변환될 수 있는 메타데이터를 정확하게 추출할 수 있으며, JATS-XML 포맷으로 변환된 데이터를 이용하여 논문 DB를 구축하는데 소요되는 시간을 단축시키고 비용을 절감할 수 있는 장점이 있다.

또한, 본 발명에 따른 논문의 메타데이터 추출 방법은 논문을 서비스하는 학술기관, 민간 업체 등과 PDF 파일을 주로 다루는 시장에서 활용될 수 있으며, 특히 PDF 포맷의 파일 및 메타 데이터를 활용하는 빅데이터에 이용될 때 데이터 품질의 향상시키고 시간을 단축시킬 수 있다.

지금까지 도 8 내지 도 10을 참조하여 본 발명의 논문 메타데이터 추출 모델에 대하여 상세히 살펴보았다. 이하에서는, 도 11을 참조하여 본 발명의 다양한 실시예에서 설명된 장치를 구현할 수 있는 예시적인 컴퓨팅 장치(500)에 대하여 설명하도록 한다.

도 11은 컴퓨팅 장치(500)를 나타내는 예시적인 하드웨어 구성도이다.

도 11에 도시된 바와 같이, 컴퓨팅 장치(500)는 하나 이상의 프로세서(510), 버스(550), 통신 인터페이스(570), 프로세서(510)에 의하여 수행되는 컴퓨터 프로그램(591)을 로드(load)하는 메모리(530)와, 컴퓨터 프로그램(591)를 저장하는 스토리지(590)를 포함할 수 있다. 다만, 도 11에는 본 발명의 실시예와 관련 있는 구성요소들 만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 11에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.

프로세서(510)는 컴퓨팅 장치(500)의 각 구성의 전반적인 동작을 제어한다. 프로세서(510)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(510)는 본 발명의 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(500)는 하나 이상의 프로세서를 구비할 수 있다.

메모리(530)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(530)는 본 발명의 다양한 실시예들에 따른 방법/동작들을 실행하기 위하여 스토리지(590)로부터 하나 이상의 프로그램(591)을 로드(load) 할 수 있다. 예를 들어, 컴퓨터 프로그램(591)이 메모리(530)에 로드 되면, 도 4에 도시된 바와 같은 로직(또는 모듈)이 메모리(530) 상에 구현될 수 있다. 메모리(530)의 예시는 RAM이 될 수 있으나, 이에 한정되는 것은 아니다.

버스(550)는 컴퓨팅 장치(500)의 구성 요소 간 통신 기능을 제공한다. 버스(550)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.

통신 인터페이스(570)는 컴퓨팅 장치(500)의 유무선 인터넷 통신을 지원한다. 통신 인터페이스(570)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(570)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.

스토리지(590)는 하나 이상의 컴퓨터 프로그램(591)을 비임시적으로 저장할 수 있다. 스토리지(590)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.

컴퓨터 프로그램(591)은 본 발명의 다양한 실시예들에 따른 방법/동작들이 구현된 하나 이상의 인스트럭션들을 포함할 수 있다. 컴퓨터 프로그램(591)이 메모리(530)에 로드 되면, 프로세서(510)는 상기 하나 이상의 인스트럭션들을 실행시킴으로써 본 발명의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.

일 실시예에서, 프로세서, 네트워크 인터페이스, 상기 프로세서에 의해 실행되어 컴퓨터 프로그램을 로드(load)하는 메모리, 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은, 학술정보가 포함된 논문을 얻는 인스트럭션, 및 논문 메타데이터 영역 추출 모델을 이용하여 상기 논문에 포함된 메타데이터 영역을 추출하는 인스트럭션을 포함하되, 상기 논문에 포함된 메타데이터 영역을 추출하는 인스트럭션은, 상기 논문의 텍스트 엘리먼트의 배치에 따른 좌표와 상기 텍스트 엘리먼트의 속성을 이용하여 (텍스트 영역을 식별하고) 논문에 포함된 메타데이터 영역을 구분하는 인스트럭션, 상기 논문에 포함된 메타데이터가 배치된 영역을 메타데이터 영역으로 결정하는 인스트럭션, 및 상기 논문 메타데이터 영역으로부터 메타데이터 항목을 추출하는 인스트럭션을 포함할 수 있다.

일 실시예에서, 논문의 텍스트 엘리먼트의 배치에 따른 좌표와 상기 텍스트 엘리먼트의 속성을 이용하여 논문에 포함된 메타데이터 영역을 식별하는 인스트럭션은, 상기 텍스트의 크기와 폰트를 이용하여 상기 텍스트가 밀집된 영역을 판단하고, 상기 텍스트가 밀집된 영역을 이용하여 상기 텍스트 엘리먼트 배치에 따라 문장이 집합된 위치의 좌표를 식별하는 인스트럭션을 포함할 수 있다.

일 실시예에서, 상기 메타데이터 항목을 추출하는 인스트럭션은, 규칙에 의해 텍스트의 반복 또는 구조적인 패턴을 활용하여 잘라내는 부분이 직접 구현되거나, 패턴으로부터 자동 처리 과정을 학습하도록 하는 인스트럭션을 포함할 수 있다.

지금까지 설명된 본 발명의 실시예에 따른 방법들은 컴퓨터가 읽을 수 있는 코드로 구현된 컴퓨터프로그램의 실행에 의하여 수행될 수 있다. 상기 컴퓨터프로그램은 인터넷 등의 네트워크를 통하여 제1 컴퓨팅 장치로부터 제2 컴퓨팅 장치에 전송되어 상기 제2 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 제2 컴퓨팅 장치에서 사용될 수 있다. 상기 제1 컴퓨팅 장치 및 상기 제2 컴퓨팅 장치는, 서버 장치, 클라우드 서비스를 위한 서버 풀에 속한 물리 서버, 데스크탑 피씨와 같은 고정식 컴퓨팅 장치를 모두 포함한다.

상기 컴퓨터프로그램은 DVD-ROM, 플래시 메모리 장치 등의 기록매체에 저장된 것일 수도 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다.

Claims

컴퓨팅 장치에 의해 수행되는 방법에 있어서,
학술정보가 포함된 논문을 입력 받는 단계;
논문 메타데이터 추출 모델을 이용하여 상기 논문에 포함된 메타데이터 영역을 생성하고, 상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 단계; 및
상기 분류된 목차에서 메타데이터 항목을 추출하는 단계를 포함하되,
상기 논문 메타데이터 추출 모델은, 상기 논문의 메타데이터 영역의 배치에 따른 좌표, 상기 메타데이터 영역의 속성 및 상기 메타데이터 영역에 포함된 텍스트 엘리먼트의 문장 완성도와 단어를 특징으로 하여 상기 메타데이터 영역이 해당되는 목차로 분류하도록 기계 학습된 것이고,
상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 단계는,
논문에 포함된 인접한 글자 또는 단어를 상기 텍스트 엘리먼트로 구성하는 단계;
텍스트 엘리먼트와 인접한 엘리먼트를 반복적으로 병합하여 메타데이터 영역을 생성하는 단계; 및
논문의 메타데이터 영역의 배치에 따른 좌표와 상기 메타데이터 영역의 속성을 결정하는 단계를 포함하는,
논문의 메타데이터 추출 방법.
삭제
삭제
제1 항에 있어서,
상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 단계는,
상기 텍스트의 크기와 폰트를 이용하여 상기 텍스트가 밀집된 영역을 판단하고, 상기 텍스트가 밀집된 영역을 이용하여 상기 텍스트 엘리먼트가 메타데이터 영역을 이루는 것으로 판단되면 메타데이터 영역의 배치에 따른 좌표를 식별하는 단계를 포함하는,
논문의 메타데이터 추출 방법.
제1 항에 있어서,
상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 단계는,
상기 논문의 메타데이터 영역의 배치에 따른 좌표와 상기 메타데이터 영역의 텍스트를 포함한 속성을 상기 논문 메타데이터 추출 모델에 입력하여 상기 메타데이터 영역이 해당되는 목차로 분류하는 단계를 포함하는,
논문의 메타데이터 추출 방법.
제5 항에 있어서,
상기 분류된 목차에서 메타데이터 항목을 추출하는 단계는,
상기 논문을 JATS-XML 표준 표기로 변환하는 메타데이터 표준화 단계;
상기 메타데이터 항목과 데이터베이스를 대조하여 원본 파일에서 추출할 수 없는 표준 정보를 생성하여 관리하는 메타데이터 확장 단계; 및
상기 논문에 포함된 마커를 상기 메타데이터 항목에 대응시키는 단계를 포함하는,
논문의 메타데이터 추출 방법.
제6 항에 있어서,
상기 분류된 목차에서 메타데이터 항목을 추출하는 단계는,
상기 논문을 JATS-XML 포맷 또는 상기 JATS-XML 포맷 이외의 포맷의 메타데이터로 변환시킬 수 있는 미리 설정된 항목을 추출하는 단계를 더 포함하는,
논문의 메타데이터 추출 방법.
프로세서;
네트워크 인터페이스;
상기 프로세서에 의해 실행되어 컴퓨터 프로그램을 로드(load)하는 메모리; 및
상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되,
상기 컴퓨터 프로그램은,
학술정보가 포함된 논문을 입력 받는 인스트럭션(instruction);
논문 메타데이터 추출 모델을 이용하여 상기 논문에 포함된 메타데이터 영역을 생성하고, 상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 인스트럭션; 및
상기 분류된 목차에서 메타데이터 항목을 추출하는 인스트럭션을 포함하되,
상기 논문 메타데이터 추출 모델은, 상기 논문의 메타데이터 영역의 배치에 따른 좌표와 상기 메타데이터 영역의 속성 및 상기 메타데이터 영역에 포함된 텍스트 엘리먼트의 문장 완성도와 단어를 특징으로 하여 상기 메타데이터 영역이 해당되는 목차로 분류하도록 기계 학습된 것이고,
상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 인스트럭션은,
논문에 포함된 인접한 글자 또는 단어를 상기 텍스트 엘리먼트로 구성하는 인스트럭션;
텍스트 엘리먼트와 인접한 엘리먼트를 반복적으로 병합하여 메타데이터 영역을 생성하는 인스트럭션; 및
논문의 메타데이터 영역의 배치에 따른 좌표와 상기 메타데이터 영역의 속성을 결정하는 인스트럭션을 포함하는,
논문의 메타데이터 추출 장치.
컴퓨팅 장치와 결합되어,
학술정보가 포함된 논문을 입력 받는 단계;
상기 논문의 메타데이터 영역의 배치에 따른 좌표와 상기 메타데이터 영역의 속성 및 상기 메타데이터 영역에 포함된 텍스트 엘리먼트의 문장 완성도와 단어를 특징으로 하여 상기 메타데이터 영역이 해당되는 목차로 분류하도록 기계 학습된 논문 메타데이터 추출 모델을 이용하여 상기 논문에 포함된 메타데이터 영역을 생성하고, 상기 메타데이터 영역을 상기 메타데이터 영역이 해당되는 목차로 분류하는 단계;
상기 논문에 포함된 인접한 글자 또는 단어를 상기 텍스트 엘리먼트로 구성하고,텍스트 엘리먼트와 인접한 엘리먼트를 반복적으로 병합하여 메타데이터 영역을 생성하고, 논문의 메타데이터 영역의 배치에 따른 좌표와 상기 메타데이터 영역의 속성을 결정하는 단계; 및
상기 분류된 목차에서 메타데이터 항목을 추출하는 단계를 실행시키기 위하여 컴퓨터로 판독가능한 기록매체에 저장된,
컴퓨터 프로그램.