WO2021145541A1

WO2021145541A1 - Pdf 파일을 대상으로 하는 테이블 데이터 파싱 방법

Info

Publication number: WO2021145541A1
Application number: PCT/KR2020/015235
Authority: WO
Inventors: 구다해; 김동훈
Original assignee: 티아이테크놀로지 주식회사
Priority date: 2020-01-14
Filing date: 2020-11-03
Publication date: 2021-07-22
Also published as: KR102171325B1; TW202127301A

Abstract

본 발명은 PDF 파일을 대상으로 하는 테이블 데이터의 파싱 방법에 관한 것이다. 본 발명은 PDF 파일로부터 데이터를 추출하고 파일 구조를 분석하여 PDF 파일에 대한 파스 트리를 생성하는 단계, 생성된 파스 트리를 이용하여 검색하고자 하는 테이블의 표제어가 포함되어 있는 페이지의 위치를 검색하는 단계, 검색하고자 하는 테이블의 표제어에 대해 부여되어 있는 좌표(x, y)를 기준으로, 검색된 페이지 내에서의 파싱 범위를 설정하는 단계 및 설정된 파싱 범위를 대상으로 테이블 데이터를 파싱하는 단계를 포함하는 것을 특징으로 한다. 본 발명에 의하면, PDF 파일로부터 목적 테이블 데이터를 정확히 파싱해 낼 수 있는 장점이 있다.

Description

PDF 파일을 대상으로 하는 테이블 데이터 파싱 방법

본 발명은 PDF 파일을 대상으로 하는 테이블 데이터의 파싱 방법에 관한 것이다.

증권사 등에서는 기업의 경영실태나 재무현황 등을 정리한 보고서를 정기적으로 발행하며, 여기에는 기업 별로 손익계산, 재무상태, 현금흐름, 주요지표 등의 항목에 대한 데이터가 일목요연하게 알아볼 수 있도록 테이블 형태로 작성된다.

한편, PDF 파일을 실행했을 때 화면에서 출력되는 테이블이 실제 파일구조에서는 테이블로 저장되지 않은 경우가 많은데, PDF 파일의 테이블이 캐리지 리턴(CR), 라인피드(LF) 또는 뉴 라인(/n) 등의 명령어로 구현된 경우이다.

그 예로, 도 1은 본 발명의 배경이 되는 기술로서 PDF 파일의 테이블 형태를 나타낸 도면이다. 도 1을 참조하면, PDF 파일의 페이지(10)에는 재무제표의 항목1, 항목2, 항목3, 항목4까지의 총 네 가지 항목에 대한 테이블(11, 12, 13, 14)이 포함되어 있다.

그러나 도 1에 보인 테이블(11, 12, 13, 14)의 실제 파일 구조는 개별적인 문자열로 구성되어 있으며, 이러한 파일 구조에서는 각기 서로 다른 항목에 대한 테이블(11, 12, 13, 14)이 서로 구별이 되지 않는다.

이와 같이 PDF 파일의 테이블이 실제 파일 구조에서는 서로 구별이 되지 않고 문자열과 명령어로 구성되기 때문에, PDF 파일에 포함된 특정 항목에 대한 테이블 데이터만을 정확히 파싱하기에는 어려움이 있다.

도 2는 본 발명의 배경이 되는 기술로서 도 1의 테이블에 대한 테이블 데이터 파싱을 설명하기 위한 도면이다.

도 2에 도시된 것처럼 PDF 파일의 페이지(10)를 대상으로 테이블 데이터 파싱을 수행할 경우, 항목1에 대한 테이블 데이터(11)와 항목2에 대한 테이블 데이터(12)가 모두 같은 행 내의 단순 문자열로 인식되어, 파싱된 테이블 데이터(20)에 오버플로우 등의 오류를 야기시키는 문제점이 있다.

한편, 증권사의 보고서 정기적으로 발행되는 간행물은 특정 항목에 대한 테이블이나 데이터는 위치가 고정되고 수치 값만 변경되는 경우가 빈번하다.

이러한 배경에서, 도 3은 본 발명의 배경이 되는 기술로서 고정 좌표를 이용한 테이블 데이터 파싱을 설명하기 위한 도면이다.

도 3에서는 PDF 파일의 페이지(10)를 불러온 다음, 고정 좌표(30)를 기준으로 테이블 데이터를 파싱하게 된다. 도 3의 고정 좌표를 이용한 테이블 데이터 파싱 방법이 유효하기 위해서는, PDF 파일의 페이지(10)의 테이블은 그 수치 값만이 변동되고 그 테이블 데이터는 항상 고정 좌표(30)에 위치해야 한다는 조건이 유효하게 유지되어야 한다.

그러나 PDF 파일마다 페이지(10) 내의 테이블의 위치가 다를 수 있고, 예를 들어 도 3에 도시된 것처럼 고정 좌표(30)의 위치가 테이블 데이터의 매출액(40)에 정확히 일치하지 않을 경우, 해당 테이블로부터 파싱한 테이블 데이터(20)는 매출액(40)에 대한 테이블 데이터를 읽지 못하여 오류(41)가 생기는 문제점이 있다.

본 발명은 전술한 문제점을 해결하기 위한 것으로, PDF 파일로부터 목적 테이블 데이터를 정확히 파싱해 낼 수 있는 테이블 데이터 파싱 방법을 제공하는 것을 목적으로 한다.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

이러한 목적을 달성하기 위한 본 발명은 PDF 파일로부터 데이터를 추출하고 파일 구조를 분석하여 상기 PDF 파일에 대한 파스 트리를 생성하는 단계, 상기 생성된 파스 트리를 이용하여 검색하고자 하는 테이블의 표제어가 포함되어 있는 페이지의 위치를 검색하는 단계, 상기 검색하고자 하는 테이블의 표제어에 대해 부여되어 있는 좌표(x, y)를 기준으로, 상기 검색된 페이지 내에서의 파싱 범위를 설정하는 단계 및 상기 설정된 파싱 범위를 대상으로 테이블 데이터를 파싱하는 단계를 포함하는 것을 특징으로 한다.

전술한 바와 같은 본 발명에 의하면, PDF 파일로부터 목적 테이블 데이터를 정확히 파싱해 낼 수 있는 장점이 있다.

도 1은 본 발명의 배경이 되는 기술로서 PDF 파일의 테이블 형태를 나타낸 도면.

도 2는 본 발명의 배경이 되는 기술로서 도 1의 테이블에 대한 테이블 데이터 파싱을 설명하기 위한 도면.

도 3은 본 발명의 배경이 되는 기술로서 고정 좌표를 이용한 테이블 데이터 파싱을 설명하기 위한 도면.

도 4는 본 발명의 일 실시예에 따른 테이블 데이터 파싱 장치의 구성도.

도 5는 본 발명의 일 실시예에 따른 테이블 데이터 파싱 과정을 설명하기 위한 도면.

도 6은 본 발명의 일 실시예에 따른 테이블 데이터 파싱 방법의 흐름도.

전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.

도 4는 본 발명의 일 실시예에 따른 테이블 데이터 파싱 장치의 구성도이다. 도 4를 참조하면, 본 발명의 일 실시예에 따른 테이블 데이터 파싱 장치(400)는 파스 트리 생성부(410), 페이지 검색부(420), 파싱 범위 설정부(430) 및 데이터 파싱부(440)를 포함할 수 있다.

본 발명의 파스 트리 생성부(410)는 PDF 파일로부터 각 페이지 별로 텍스트와 비텍스트를 추출하는 기능을 수행한다. 여기서, 비텍스트는 이미지, 도표를 포함할 수 있다. 파스 트리 생성부(410)는 각 페이지에 포함된 영역의 텍스트와 이미지 등 비텍스트로 구분 지을 수 있다.

본 발명의 파스 트리 생성부(410)는 파일 구조를 분석하여 파스 트리를 생성하며, 본 발명에서 '파스 트리'는 각 페이지에 포함된 영역의 텍스트와 비텍스트가 트리 형태로 구조화 된 것을 의미한다.

본 발명의 페이지 검색부(420)는 파스 트리 생성부(410)에 의해서 생성된 파스 트리를 이용하여 검색하고자 하는 테이블의 표제어가 포함되어 있는 페이지를 검색하는 기능을 수행한다.

예를 들어, PDF 파일에 포함된 페이지 중 '손익계산서' 항목의 테이블을 검색하고자 하는 경우, 페이지 검색부(420)는 페이지 별로 파스 트리를 검색하여 테이블의 표제어가 '손익계산서'인 테이블이 있는 페이지를 검색할 수 있다.

또한, 페이지 검색부(420)는 테이블의 표제어 외에도 검색하고자 하는 테이블과 관련된 정보를 이용하여 페이지를 검색할 수 있다. 예를 들어, 항목의 명칭이 '○○투자'이고, 항목코드가 '000001'인 페이지 중에서 테이블의 표제어가 '손익계산서'인 테이블이 있는 페이지를 검색할 수 있다.

또한, PDF 파일 내의 모든 오브젝트는 페이지 내에서의 고유한 좌표를 갖고, 따라서 페이지 내에 존재하는 테이블의 표제어, 항목의 명칭, 항목코드는 모두 부여된 좌표를 갖는다. 본 발명의 페이지 검색부(420)는 테이블 표제어와 항목의 명칭, 항목코드에 부여되어 있는 좌표를 검색할 수 있다.

본 발명의 파싱 범위 설정부(430)는 검색된 페이지 내에서의 파싱 범위를 설정하는 기능을 수행한다. 보다 상세하게는, 본 발명의 파싱 범위 설정부(430)는 검색하고자 하는 테이블의 표제어의 좌표(x, y)를 기준으로 검색된 페이지 내에서의 파싱 범위를 설정한다.

본 발명의 일 실시예에서, 파싱 범위 설정부(430)는 검색된 페이지를 n개(여기서, n은 2 이상)의 영역으로 분할하고, 분할된 n개의 영역 중 테이블의 표제어의 좌표(x, y)가 위치한 영역을 검색된 페이지 내에서의 파싱 범위로 설정할 수 있다.

예를 들어, 본 발명의 파싱 범위 설정부(430)는 검색된 페이지를 2개의 영역으로 분할하고, 테이블의 표제어의 좌표(x, y)가 2개의 영역 중 어느 영역에 속하는지에 따라 그 중 하나의 영역을 파싱 범위로 설정할 수 있다.

본 발명의 일 실시예에서, 파싱 범위 설정부(430)는 검색된 페이지 내에서의 파싱 범위는 가로 축 범위가 분할된 n개의 영역 중 테이블의 표제어의 좌표(x, y)가 위치한 영역의 좌표(x1, x2)를 기준으로 설정되고, 세로 축 범위가 테이블의 표제어의 좌표(x, y) 중 y 좌표를 기준으로 y 좌표보다 작게 설정될 수 있다.

본 발명의 데이터 파싱부(440)는 파싱 범위 설정부(430)에 의해서 설정된 페이지 내에서의 파싱 범위에 대하여 테이블 데이터를 파싱하는 기능을 수행한다.

본 발명의 일 실시예에서, 데이터 파싱부(440)는 테이블 데이터를 행 단위로 읽어서 테이블 데이터를 파싱할 수 있다.

도 5는 본 발명의 일 실시예에 따른 테이블 데이터 파싱 과정을 설명하기 위한 도면이다. 도 5를 참조하면, 본 발명의 파스 트리 생성부(410)는 PDF 파일로부터 텍스트 및 비텍스트를 추출하고 파일 구조화하여 파스 트리를 생성한다.

본 발명의 페이지 검색부(420)는 파스 트리를 이용하여 검색하고자 하는 테이블의 표제어(510)가 포함되어 있는 페이지(500)를 검색한다. 이 때, 페이지 검색부(420)는 검색된 페이지(500) 내에서 테이블의 표제어(510)에 대해 부여되어 있는 좌표(x, y)를 획득한다.

본 발명의 파싱 범위 설정부(430)는 검색하고자 하는 테이블의 표제어(510)의 좌표를 기준으로 파싱 범위(520)를 설정한다. 보다 상세하게는, 파싱 범위 설정부(430)는 테이블의 표제어(510)가 위치한 페이지(500)를 2개의 영역으로 분할하고, 그 중 테이블의 표제어(510)의 좌표(x, y)가 위치한 영역을 파싱 범위(520)로 설정한다.

여기서, 파싱 범위는 가로 축 범위(521)가 분할된 2개의 영역 중 테이블의 표제어(510)가 위치한 영역의 좌표를 기준으로 설정되고, 세로 축 범위(522)는 테이블의 표제어(510)의 y 좌표보다 작게 설정된다.

그리고 본 발명의 데이터 파싱부(440)는 전술한 과정에 따라 설정된 파싱 범위(520)에 대하여 테이블 데이터를 행 단위로 읽어서 파싱한다.

그 결과, PDF 파일의 페이지(500)로부터 테이블 데이터(530)가 파싱된다.

도 6은 본 발명의 일 실시예에 따른 테이블 데이터 파싱 방법의 흐름도이다. 도 6의 테이블 데이터 파싱 방법은 전술한 테이블 데이터 파싱 장치(400) 및 여기에 포함된 구성들에 의해서 실행될 수 있다.

도 6을 참조하면, 본 발명의 테이블 데이터 파싱 방법은 먼저 파스 트리 생성부가 PDF 파일로부터 데이터를 추출하고 파일 구조를 분석하여 파스 트리를 생성한다(S600). 단계(S600)에서 생성된 파스 트리는 텍스트 및 이미지 등의 비텍스트를 포함할 수 있다. 단계(S600)를 수행한 결과, PDF 파일에 대하여 페이지 별로 텍스트 및 비텍스트가 트리 형태로 구조화된 파스 트리가 생성된다.

다음으로, 페이지 검색부가 파스 트리를 이용하여 검색하고자 하는 테이블이 위치한 페이지를 검색한다(S620). 보다 상세하게는, 단계(S620)는 파스 트리를 이용하여 검색하고자 하는 테이블의 표제어가 포함되어 있는 페이지의 위치를 검색할 수 있다. 또한, 단계(S620)는 테이블과 관련된 항목의 명칭, 항목코드 등을 이용하여 페이지를 검색하는 단계를 포함할 수 있다.

또한, 전술한 바와 같이 PDF 파일의 페이지 내의 모든 오브젝트에는 고유한 좌표가 부여되며, 단계(S620)는 테이블의 표제어가 갖는 좌표를 검색하여 획득하는 단계를 포함할 수 있다.

다음으로, 파싱 범위 설정부가 테이블의 표제어에 대해 부여된 좌표(x, y)를 기준으로 검색된 페이지 내에서의 파싱 범위를 설정한다(S630). 또한, 도 6에는 도시되지 않았지만 단계(S630)는 검색된 페이지를 n개(여기서, n은 2 이상)의 영역으로 분할하는 단계 및 분할된 n개의 영역 중 좌표(x, y)가 위치한 영역을 검색된 페이지 내에서의 파싱 범위로 설정하는 단계를 포함할 수 있다.

본 발명의 일 실시예에서, 단계(S630)의 파싱 범위는 가로 축 범위가 분할된 n개의 영역 중 테이블의 표제어의 좌표(x, y)가 위치한 영역의 좌표(x1, x2)를 기준으로 설정되고, 세로 축 범위가 테이블의 표제어의 좌표(x, y) 중 y 좌표를 기준으로 y좌표보다 작게 설정될 수 있다.

마지막으로, 데이터 파싱부(440)가 단계(S630)에서 설정된 파싱 범위를 대상으로 테이블 데이터를 행 단위로 읽어서 파싱한다(S640).

아래 <표 1>은 PDF 파일로 배포된 기업분석보고서를 대상으로 특정 종목 및 종목코드 중 '손익계산서' 항목의 테이블 데이터를 파싱한 결과를 보인 표이다.

연도	총합	성공	없음	실패	오류	성공률(%)
2019	26	23	3	0	0	100
2018	27	23	2	2	0	92
2017	49	43	2	3	1	91.5
2015	36	35	1	0	0	100
2014	26	26	0	0	0	100

위 <표 1>에서, '총합'은 테이블 데이터 파싱을 수행한 횟수이고, '성공'은 그 중 테이블 데이터 파싱이 성공한 횟수이다. '없음'은 기업분석보고서 중 테이블이 존재하지 않았던 경우이다. '실패'는 기업분석보고서에 따라 테이블의 표제어가 '손익계산서'가 아닌 경우이다. '오류'는 페이지에 종목명 또는 종목코드가 잘못 표기된 경우이다.

위 <표 1>은 테이블 데이터 파싱을 수행한 결과 중 테이블이 존재하지 않았던 경우를 제외하고 산출한 것이고, PDF 파일 자체에 발생한 '실패', '오류'를 제외하고는 100%의 성공률을 갖는 것으로 분석되었다.

전술한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

Claims

PDF 파일로부터 데이터를 추출하고 파일 구조를 분석하여 상기 PDF 파일에 대한 파스 트리를 생성하는 단계;

상기 생성된 파스 트리를 이용하여 검색하고자 하는 테이블의 표제어가 포함되어 있는 페이지의 위치를 검색하는 단계;

상기 검색하고자 하는 테이블의 표제어에 대해 부여되어 있는 좌표(x, y)를 기준으로, 상기 검색된 페이지 내에서의 파싱 범위를 설정하는 단계; 및

상기 설정된 파싱 범위를 대상으로 테이블 데이터를 파싱하는 단계

를 포함하는 PDF 파일을 대상으로 하는 테이블 데이터 파싱 방법.
제1항에 있어서,

상기 PDF 파일에 대한 파스트리는

텍스트 및 비텍스트를 포함하는 PDF 파일을 대상으로 하는 테이블 데이터 파싱 방법.
제1항에 있어서,

상기 생성된 파스 트리를 이용하여 검색하고자 하는 테이블의 표제어가 포함되어 있는 페이지의 위치를 검색하는 단계는

상기 검색하고자 하는 테이블과 관련된 항목의 명칭, 항목코드가 포함되어 있는 페이지의 위치를 검색하는 단계

를 포함하는 PDF 파일을 대상으로 하는 테이블 데이터 파싱 방법.
제1항에 있어서,

상기 검색하고자 하는 테이블의 표제어에 대해 부여되어 있는 좌표(x, y)를 기준으로, 상기 검색된 페이지 내에서의 파싱 범위를 설정하는 단계는

상기 검색된 페이지를 n개(n은 2 이상)의 영역으로 분할하는 단계;

상기 분할된 n개의 영역 중 상기 좌표(x, y)가 위치한 영역을 상기 검색된 페이지 내에서의 파싱 범위로 설정하는 단계

를 포함하는 PDF 파일을 대상으로 하는 테이블 데이터 파싱 방법.
제4항에 있어서,

상기 검색된 페이지 내에서의 파싱 범위는

가로 축 범위가 상기 분할된 n개의 영역 중 상기 좌표(x, y)가 위치한 영역의 좌표(x1, x2)를 기준으로 설정되고,

세로 축 범위가 상기 표제어에 대해 부여되어 있는 좌표(x, y) 중 y 좌표를 기준으로 설정되는

PDF 파일을 대상으로 하는 테이블 데이터 파싱 방법.
제1항에 있어서,

상기 설정된 파싱 범위를 대상으로 테이블 데이터를 파싱하는 단계는

상기 테이블 데이터를 행 단위로 읽어서 상기 테이블 데이터를 파싱하는 단계

를 포함하는 PDF 파일을 대상으로 하는 테이블 데이터 파싱 방법.