KR101449725B1 - Pdf 문서 파일을 자동 변환하는 장치 및 방법 - Google Patents

Pdf 문서 파일을 자동 변환하는 장치 및 방법 Download PDF

Info

Publication number
KR101449725B1
KR101449725B1 KR1020120127668A KR20120127668A KR101449725B1 KR 101449725 B1 KR101449725 B1 KR 101449725B1 KR 1020120127668 A KR1020120127668 A KR 1020120127668A KR 20120127668 A KR20120127668 A KR 20120127668A KR 101449725 B1 KR101449725 B1 KR 101449725B1
Authority
KR
South Korea
Prior art keywords
information
intersection
line
point
extracting
Prior art date
Application number
KR1020120127668A
Other languages
English (en)
Other versions
KR20140062563A (ko
Inventor
신용주
최기석
김재수
이홍로
이규철
차승준
최규진
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020120127668A priority Critical patent/KR101449725B1/ko
Publication of KR20140062563A publication Critical patent/KR20140062563A/ko
Application granted granted Critical
Publication of KR101449725B1 publication Critical patent/KR101449725B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Abstract

본 발명은 하는 PDF 문서 파일을 자동 변환하는 방법 및 장치가 개시되어 있다. 이러한 본 발명에 따르면, 변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 요청된 PDF 문서 파일의 표를 분석하고 분석된 표를 미리 정의된 기준 정보를 기준으로 표준 문서로 변환하여 표를 텍스트 대신 셀 범위 정보의 이미지로 추출한 후, 변환된 표준 문서를 XML 서신 변환 포맷에 따라 XML 문서로 변환하여 XML 구조화하여 제공함에 따라, PDF 문서 파일에 삽입된 표를 XML 문서 파일로 정확하게 변환하여 제공함에 따라, 문서의 서식 변환 품질을 근본적으로 향상시킬 수 있게 된다.

Description

PDF 문서 파일을 자동 변환하는 장치 및 방법{APPARATUS AND METHOD FOR CONVERTING PDF DOCUMENT}
본 발명은 PDF 문서 파일을 자동 변환하는 장치 및 방법에 관한 것으로, 더욱 상세하게는 PDF 문서에 포함된 표를 셀 범위 정보로 재설정한 후 설정된 셀 범위 정보를 XML 데이터로 변환할 수 있도록 한 장치 및 방법에 관한 것이다.
최근 들어, e-비즈니스와 IT 등에 대한 기술이 급속도로 발전함에 따라 기업 간의 업무처리에 있어서도, 종이로 된 문서를 교환하여 처리하는 방식에서 벗어나 전자적으로 정보를 처리하여 이를 토대로 기업 간에 업무를 처리하고 있다.
즉, 사업 주체 간의 거래 활동에 있어서 전자 문서를 사용함으로써 업무처리비용의 절감, 거래시간 단축, 기업 경영의 효율성 및 경쟁력 강화 등의 효과를 얻기 위한 노력들이 있어왔다.
하지만, 이러한 전자 문서 사용의 효과에도 불구하고, 여전히 국내외적으로는 오프라인 형태의 종이 서류를 전자 문서와 병행하여 이용하고 있는 상황이다.
또한, 종래에 전자 문서들은 매우 다양한 형태 또는 포맷의 전자 문서가 존재하고 있는데, 이러한 전자 문서의 다양한 형태 또는 포맷은 전자 문서의 원활한 교환과 이를 통한 업무 처리에 장애가 되는 요인으로 작용할 수 있으며, 시스템 간의 호환성 문제를 발생시켜 시스템 변경 및 추가 등의 불필요한 상호운용 비용을 발생시킬 수 있는 문제점도 있다.
특히 종래에 PDF(Portable Document Format) 파일을 XML(eXtensible Markup Language) 문서 파일로 변환하여 저장하기 위해, 변환 엔진을 실행하는 경우 상기 PDF 문서 파일에 삽입된 그림, 도표, 각주와 같은 비텍스트에 의해 텍스트가 분리되는 현상이 빈번하게 발생하였다.
이러한 이유로 PDF 문서 파일을 XML 문서 파일로 서식 변환하는 경우 변환하고자 하는 표가 보존되지 않는 현상이 발생하여 원문 자체에 텍스트 오류가 발생하게 되고, 그에 따라 서식 변환 품질이 낮아지는 문제점이 발생한다.
대한민국 공개특허공보 제10-2009-0011712 (2009.02.02)
본 발명은 상기 문제점을 해결하기 위하여 안출한 것으로, 본 발명의 목적은 변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보에서 미리 정의된 기준 정보를 토대로 시작점과 끝점을 가지는 단일 선 정보를 추출하고, 상기 단일 선 정보로부터 교점 정보를 도출하며, 상기 교점 정보를 토대로 셀 범위 정보를 추출하는 표준 문서 생성부와, XML 서식 변환 정보가 입력되면 상기 표준 문서를 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하는 XML 문서 생성부와, 상기 XML 문서 파일을 변환 문서 요청에 응답하여 제공하는 XML 문서 제공부를 포함하는 PDF 문서 파일을 자동 변환하는 장치를 제공함에 따라, PDF 문서 파일에 삽입된 표를 XML 문서 파일로 정확하게 변환하여 문서의 서식 변환 품질을 근본적으로 증가할 수 있게 된다.
본 발명의 다른 목적은, 변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보로부터 미리 정의된 기준 정보를 토대로 시작점과 끝점을 가지는 단일 선 정보를 추출하고 상기 단일 선 정보로부터 교점 정보를 도출하며 상기 교점 정보를 토대로 셀 범위 정보를 추출하는 표준 문서 생성 단계와, XML 서식 변환 정보가 입력되면 상기 표준 문서를 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하는 XML 문서 생성 단계와, 상기 XML 문서 파일을 변환 문서 요청에 응답하여 제공하는 XML 문서 제공 단계를 포함하는 PDF 문서 파일을 자동 변환하는 방법을 제공함에 따라, PDF 문서 파일에 삽입된 표를 XML 문서 파일로 정확하게 변환하여 문서의 서식 변환 품질을 근본적으로 증가할 수 있게 된다.
상기 목적을 달성하기 위한 본 발명의 제1 관점에 다른 기술적 과제는, 변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 요청된 PDF 문서 파일의 표를 분석하고, 분석된 표를 미리 정의된 기준 정보를 기준으로 표준 문서로 변환하며, 변환된 표준 문서를 XML 서신 변환 포맷에 따라 XML 문서로 변환하는 장치로 구비되고, 이러한 장치는,
변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보에서 미리 정의된 기준 정보를 토대로 시작점과 끝점을 가지는 단일 선 정보를 추출하고, 상기 단일 선 정보로부터 적어도 하나의 공통된 시작점 또는 끝점을 가지는 교점 정보를 도출하며, 상기 교점 정보를 토대로 셀 범위 정보를 추출 및 저장하는 표준 문서 변환부와,
XML 서식 변환 요청이 입력되면 상기 셀 범위 정보를 가지는 표준 문서를 미리 정의된 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하는 XML 문서 생성부와,
상기 XML 문서 파일을 변환 문서 요청에 응답하여 제공하는 XML 문서 제공부를 포함하는 것을 특징으로 한다.
바람직하게, 상기 표준 문서 변환부는,
변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보에서 미리 정의된 기준 정보를 토대로 도출된 각 시작점과 끝점에 대한 각 좌표 정보를 가지는 단일 선 정보를 추출하는 단일 선 추출부와,
상기 단일 선 정보로부터 단일 선들이 교차하는 교점 정보를 도출하는 교점 도출부와,
상기 교점 정보를 토대로 단일 선의 집합으로 생성된 셀 범위 정보를 추출하는 셀 범위 추출부를 포함하는 것을 특징으로 한다.
바람직하게, 상기 단일 선 추출부는,
이미 정의된 표를 구성하는 각 선에 대한 상기 끝점의 좌표 정보 중 Y축의 값(y)이 같은 값을 가지는 가로 라인의 단일 선 정보와 상기 시작점의 좌표 정보 중 X 축 값(x)이 같은 값을 가지는 세로 라인의 단일 선 정보를 각각 추출하는 것을 특징으로 한다.
바람직하게 상기 교점 도출부는,
상기 끝점의 좌표 정보 중 Y축의 값(y)이 같은 값을 가지는 가로 라인의 단일 선 정보의 집합(a)과 상기 시작점의 좌표 정보 중 X 축 값(x)이 같은 값을 가지는 세로 라인의 단일 선 정보의 집합(b)을 설정하고,
상기 가로 라인의 단일 선 정보의 집합(a) 중 제1 단일 선 정보(L(x,y)(x', y))와 상기 세로 라인의 단일 선 정보의 집합(b) 중 제1 단일 선 정보(M(p, q)(p, q'))로부터 제1 교점(p, y)을 도출하도록 구비되는 것을 특징으로 한다.
바람직하게, 상기 교점 도출부는,
상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y))과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))에서 임의의 점(p, y)를 도출하고,
도출된 임의의 점(p, y)이 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위(x, x', q, q') 내에 존재하는 경우 집합(a)(b)의 각 제1 단일 선으로부터 생성된 교점으로 판정하여 교점 리스트(N)에 교점 정보(p, y)를 추가하도록 구비되는 것을 특징으로 한다.
바람직하게 상기 교점 도출부는,
상기 도출된 임의의 점(p, y)이 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위 내에 존재하지 아니한 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y))과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))를 추출한 후,
추출된 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 지를 판단하고 판단 결과 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y))과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))로부터 제2 교점을 도출하도록 구비되는 것을 특징으로 한다.
바람직하게 상기 교점 도출부는,
상기 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y))과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))를 추출한 후,
추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y))과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))에 대한 교점을 도출하도록 구비되는 것을 특징으로 한다.
바람직하게, 상기 셀 범위 정보 도출부는,
상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 특정 교점의 집합(a)과 상기 집합(a)의 제1교점(L), 상기 제1교점(L)을 기준으로 행 방향으로 하단에 위치한 교점의 집합(b)과 상기 집합(b)의 제1교점(M)을 토대로 셀 범위 추출 및 저장하도록 구비되는 것을 특징으로 한다.
바람직하게, 상기 셀 범위 정보 도출부는,
상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하는 경우 집합(a)의 제1 교점(L)을 기준으로 열 방향에 위치한 제2 교점(N)을 설정하고,
설정된 제2 교점(N)을 통과하는 가로 라인의 단일 선 정보와 세로 라인의 단일 선 정보가 존재하는 지를 판단하며,
판단 결과 제2 교점을 지는 가로 라인의 단일 선 정보와 세로 라인의 단일 선 정보가 존재하는 경우 집합(a)의 제1 교점(L(x),L(y)) 및 제2 교점(N(x), N(y))과 집합(b)의 제1 교점(M(x), M(y)) 및 제2 교점(N(x), M(y))으로 셀 범위 정보를 추출한 후 저장하고,
상기 집합(a)의 제2 교점(N)을 제1 교점(L)으로 업데이트하며,
상기 업데이트된 제1 교점(L1)이 집합(a)의 마지막 교점인 지를 판단하고, 판단 결과 업데이트된 제1 교점(L1)이 집합(a)의 마지막 교점인 경우 상기 제1 교점을 기준으로 행 방향으로 위치한 교점들의 집합을 상기 집합(a)으로 업데이트한 후 상기 업데이트된 집합(a)이 마지막 집합에 도달할 때까지 셀 범위 정보 추출 및 저장을 반복 실행하도록 구비되는 것을 특징으로 한다.
본 발명의 다른 관점에 따른 기술적 과제에 따른 PDF 문서 파일을 자동 변환하는 방법은,
변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보에서 미리 정의된 기준 정보를 토대로 시작점과 끝점을 가지는 단일 선 정보를 추출하고, 상기 단일 선 정보로부터 적어도 하나의 공통된 시작점 또는 끝점을 가지는 교점 정보를 도출하며, 상기 교점 정보를 토대로 셀 범위 정보를 추출 및 저장하는 표준 문서 변환 과정과,
XML 서식 변환 요청이 입력되면 상기 셀 범위 정보를 가지는 표준 문서를 미리 정의된 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하는 XML 문서 생성 과정과,
변환 문서 요청에 응답하여 상기 XML 문서 파일을 제공하는 XML 문서 제공과정을 포함하는 것을 특징으로 한다.
바람직하게, 상기 표준 문서 생성 과정은,
변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보에서 미리 정의된 기준 정보를 토대로 각 시작점과 끝점의 좌표 정보를 가지는 단일 선 정보를 추출하는 단일 선 추출 단계와,
상기 단일 선 정보로부터 상기 교점 정보를 도출하는 교점 도출 단계와,
상기 교점 정보를 토대로 셀 범위 정보를 추출하는 셀 범위 추출 단계를 포함하는 것을 특징으로 한다.
바람직하게, 상기 단일 선 추출 단계는,
이미 정의된 표를 구성하는 각 선에 대한 상기 끝점의 좌표 정보 중 Y축 좌표값(y)이 같은 값을 가지는 가로 라인의 단일 선 정보와 상기 시작점의 좌표 정보 중 X축 좌표값(x)이 같은 값을 가지는 세로 라인의 단일 선 정보를 각각 추출하는 것을 특징으로 한다.
바람직하게 상기 교점 도출 단계는,
상기 끝점의 좌표 정보 중 Y축 좌표값(y)이 같은 값을 가지는 가로 라인의 단일 선 정보의 집합(a)와 상기 시작점의 좌표 정보 중 X축 좌표값(x)이 같은 값을 가지는 세로 라인의 단일 선 정보의 집합(b)를 설정하고,
상기 가로 라인의 단일 선 정보의 집합(a) 중 제1 단일 선 정보(L(x,y)(x', y))와 상기 세로 라인의 단일 선 정보의 집합(b) 중 제1 단일 선 정보(M(p, q)(p, q'))로부터 제1 교점(p, y)을 도출하도록 구비되는 것을 특징으로 한다.
바람직하게, 상기 교점 도출 단계는,
상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y))과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))을 토대로 임의의 점(p, y)를 도출하고,
도출된 임의의 점(p, y)이 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위 내에 존재하는 경우 임의의 점(p,y)을 교점으로 판정하여 교점 리스트에 추가하도록 구비되는 것을 특징으로 한다.
바람직하게 상기 교점 도출 단계는,
상기 임의의 점(p, y)이 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위 내에 존재하지 아니한 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y))과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))를 추출한 후,
추출된 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 지를 판단하고 판단 결과 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y))과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))으로부터 교점을 도출하도록 구비되는 것을 특징으로 한다.
바람직하게 상기 교점 도출 단계는,
상기 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y))과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))를 추출한 후,
추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y))과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))에 대한 교점을 도출하도록 구비되는 것을 특징으로 한다.
바람직하게, 상기 셀 범위 도출 단계는,
상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 특정 교점의 집합(a)과 상기 집합(a)의 제1교점(L), 상기 제1교점(L)을 기준으로 행 방향으로 하단에 위치한 교점의 집합(b)과 상기 집합(b)의 제1교점(M)을 토대로 셀 범위 추출 및 저장하도록 구비되는 것을 특징으로 한다.
바람직하게, 상기 셀 범위 도출 단계는,
상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하는 경우 제1 교점(L)을 기준으로 열 방향에 위치한 제2 교점(N)을 설정하고,
설정된 제2 교점(N)을 통과하는 가로 라인의 단일선 정보와 세로 라인의 단일 선 정보가 존재하는 지를 판단하며,
판단 결과 제2 교점을 지나는 가로 라인의 단일 선 정보와 세로 라인의 단일 선 정보가 존재하는 경우 셀 범위 정보를 집합(a)의 제1 교점(L(x),L(y)) 및 제2 교점(N(x), N(y))과 집합(b)의 제1 교점(M(x), M(y)) 및 제2 교점(N(x), M(y))으로 추출한 후 저장하고,
상기 집합(a)의 제2 교점(N)을 제1 교점(L)으로 업데이트하며,
상기 업데이트된 제1 교점(L)이 집합(a)의 마지막 교점인 지를 판단하고, 판단 결과 업데이트된 제1 교점(L)이 집합(a)의 마지막 교점인 경우 상기 제1 교점을 기준으로 행 방향으로 위치한 교점들의 집합을 집합(a)으로 업데이트한 후 상기 업데이트된 집합(a)가 마지막 집합에 도달할 때까지 셀 범위 정보 추출 및 저장을 반복 실행하도록 구비되는 것을 특징으로 한다.
상술한 바와 같이 본 발명에 따르면, 변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 요청된 PDF 문서 파일의 표를 분석하고 분석된 표를 미리 정의된 기준 정보를 기준으로 표준 문서로 변환하여 표를 텍스트 대신 셀 범위 정보의 이미지로 추출한 후, 변환된 표준 문서를 XML 서신 변환 포맷에 따라 XML 문서로 변환하여 XML 구조화하여 제공함에 따라, PDF 문서 파일에 삽입된 표를 XML 문서 파일로 정확하게 변환하여 제공함에 따라, 문서의 서식 변환 품질을 근본적으로 향상시킬 수 있는 효과를 얻는다.
도 1은 본 발명의 실시 예에 따른 PDF 문서 파일을 자동 변환하는 장치의 구성을 보인 도이다.
도 2는 본 발명의 실시 예에 따라 표준 문서 변환부의 구성을 보인 예시도이다.
도 3은 본 발명의 실시 예에 적용되는 PDF 문서 파일에 삽입된 표와 그 표의 표준 오퍼레이션을 보인 예시도이다.
도 4는 본 발명의 실시 예에 따라, PDF 문서 파일의 표로부터 추출된 단일 선 정보를 보인 예시도이다.
도 5는 본 발명의 실시 예에 따라, 추출된 단일 선 정보로부터 도출된 교점을 보인 예시도이다.
도 6은 본 발명의 실시 예에 따라, 도출된 교점으로부터 추출된 셀 범위 정보를 보인 예시도이다.
도 7은 본 발명의 다른 실시 예에 따른 PDF 문서 파일을 자동 변환하는 과정을 보인 흐름도이다.
도 8은 본 발명의 실시 예에 따라, PDF 문서 파일에 저장된 표준 오퍼레이션을 토대로 도출된 단일 선 정보로부터 교점을 도출하는 과정을 보인 흐름도이다.
도 9는 본 발명의 실시 예에 따른 교점 정보로부터 셀 범위 정보 추출하는 과정을 보인 흐름도이다.
본 발명과 본 발명의 동작상의 잇점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시 예를 예시하는 첨부 도면 및 도면에 기재된 내용을 참조하여야 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
하기 설명에서 구체적인 특정 사항들을 나타내고 있는데, 이는 본 발명의 보다 전반적인 이해를 돕기 위해 제공된 것이다. 그리고 본 발명을 설명함에 있어, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.
도 1은 본 발명의 실시 예에 따른 PDF 문서 파일을 자동 변환하는 장치의 구성을 보인 도이고, 도 2는 도 1에 도시된 PDF 문서 파일을 자동 변환하는 장치의 표준 문서 변환부의 구성을 보다 구체적으로 보인 도이다.
본 발명의 실시 예에 따른 PDF 문서 파일을 자동 변환하는 장치는, 도 1및 도 2에 도시한 바와 같이, 표준 분서 변환부(10), XML 문서 생성부(30), 및 XML 문서 제공부(50)를 포함한다.
여기서, 상기 표준 문서 변환부(10)는, 도 2에 도시된 바와 같이 단일 선 추출부(11), 교점 도출부(13), 및 셀 범위 도출부(15)를 포함한다.
상기 단일 선 추출부(11)는 PDF 문서 파일에 저장된 표를 표준 오퍼레이션에 따라 분석하고, 분석된 표 정보를 미리 정의된 기준 정보를 토대로 각 시작점과 끝점에 대한 좌표로 설정된 단일 선 정보로 추출하도록 구비된다.
즉, 도 3의 a)에 도시된 바와 같은 PDF 문서 파일에 첨부된 표가 삽입된 경우 표준 오퍼레이션을 통해 도 3의 b)에 도시된 바와 같은 표 정보가 저장된다.
상기 단일 선 추출부(11)는 도 3의 b)에 도시된 표 정보와 이미 정의된 기준 정보를 토대로 죄표계로 위치가 설정된 각 시작점(x, y)과 끝점(x', y)을 가지는 가로 라인의 단일 선 정보와 각 시작점(x, y)과 끝점(x, y')을 가지는 세로 라인의 단일 선 정보를 각각 추출한다. 이때 상기 단일 선 정보는 도 4에 도시된 바와 같다.
그리고, 상기 단일 선 정보는, 교점 도출부(13)로 제공된다.
삭제
상기 교점 도출부(13)는 각 좌표계로 표시된 시작점과 끝점을 가지는 단일 선 정보로부터 각 단일 선에 대한 교점을 도출하도록 구비된다.
즉, 상기 교점 도출부(13)는, 상기 끝점(y)가 같은 값을 가지는 가로 라인의 단일 선 정보의 집합(a)와 상기 시작점(x)가 같은 값을 가지는 세로 라인의 단일 선 정보의 집합(b)를 설정하고, 상기 가로 라인의 단일 선 정보의 집합(a) 중 제1 단일 선 정보(L(x,y)(x', y))와 상기 세로 라인의 단일 선 정보의 집합(b) 중 제1 단일 선 정보(M(p, q)(p, q'))로부터 제1 교점(p, y)을 도출한다.
예를 들어, 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y))과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))을 토대로 두 제1 단일 선이 교차하는 임의의 점(p, y)이 도출되고, 도출된 임의의 점(p, y)이 각 집합(a)(b)의 각 제1 단일 선 정보L((x,y)(x', y), M(p, q)(p, q'))로부터 도출된 각 소정 범위 내에 존재하는 경우 교점으로 판정하여 교점 리스트에 추가된다.
한편, 상기 도출된 임의의 점(p, y)이 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위 내에 존재하지 아니한 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))를 추출하고, 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y)과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))으로부터 교점이 도출된다.
또한 상기 교점 도출부(13)는, 상기 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y)과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))를 추출하고, 추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y))과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))에 대한 교점을 도출한다.
상기의 교점 도출부(13)의 교점의 도출하는 일련의 과정은 집합(a)과 집합(b)에 속하는 모든 단일 선 정보가 완료될 때까지 반복 실행된다.
상기의 일련의 과정을 통해 도출된 교점 정보는 도 5에 도시된 바와 같다.
본 발명의 실시 예에서, 집합(a)의 제1 단일 선 정보와 집합(b)의 제1 단일 선 정보를 토대로 제1 교점을 도출한 후 집합(a)의 제1 교점을 기준으로 열 방향으로 이동하여 다음 교점을 도출한 후 제1 교점을 기준으로 행 방향으로 이동하여 다음 교점을 도출하는 것으로 설명하였으나, 제1 교점 추출 후 제1 교점을 기준으로 행 방향으로 이동하여 다음 교점을 도출한 후 열 방향을 이동하여 다음 교점을 도출할 수 있으며, 제1 교점 추출 후 제1 교점을 기준으로 행 방향으로 이동하여 다음 교점을 도출한 후 열 방향을 이동하여 다음 교점을 도출하는 과정은 당업자에 의해 자명한 사항이므로 이에 대한 상세한 설명은 생략한다.
한편, 각 단일 선 정보를 토대로 모든 교점의 추출이 완료되면 상기 교점 정보는 셀 범위 추출부(15)로 제공된다.
상기 셀 범위 추출부(15)는 상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 특정 교점의 집합(a)과 상기 집합(a)의 제1교점(L), 상기 제1교점(L)을 기준으로 행 방향으로 하단에 위치한 교점의 집합(b)과 상기 집합(b)의 제1교점(M)을 토대로 셀 범위 추출 및 저장하도록 구비된다.
즉, 상기 셀 범위 도출부(15)는, 상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 열 방향에 위치한 교점들의 집합(a)의 제1 교점(L)과 상기 제1 교점(L)을 기준으로 행 방향에 위치한 집합(b)의 제1 교점(M)을 추출한다.
그리고, 상기 셀 범위 도출부(15)는 상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하는 경우 제1 교점(L)을 기준으로 열 방향에 위치한 제2 교점(N)을 추출하고, 추출된 제2 교점(N)을 통과하는 가로 라인의 단일 선 정보와 세로 라인의 단일 선 정보가 존재하는 지를 판단하며, 판단 결과 제2 교점을 지나는 가로 라인의 단일 선 정보와 세로 라인의 단일 선 정보가 존재하는 경우 집합(a)의 제1 교점(L(x),L(y)) 및 제2 교점(N(x), N(y))과 집합(b)의 제1 교점(M(x), M(y)) 및 제2 교점(N(x), M(y))으로 셀 범위 정보를 추출한 후 저장한다. 상기의 일련의 과정을 통해 도출된 셀 범위 정보는 도 6에 도시된 바와 같다.
또한, 상기 셀 범위 도출부15)는, 상기 집합(a)의 제2 교점(N)을 상기 제1 교점(L)으로 업데이트하고, 상기 업데이트된 제1 교점(L)이 집합(a)의 마지막 교점인 지를 판단하고, 판단 결과 업데이트된 제1 교점(L)이 집합(a)의 마지막 교점인 경우 상기 제1 교점(L)을 기준으로 행 방향에 위치한 교점들의 집합을 상기 집합(a)로 업데이트한 후 상기 업데이트된 집합(a)가 마지막 집합에 도달할 때 까지 셀 범위 정보 추출 및 저장을 반복 실행한다.
본 발명의 실시 예에서, 집합(a)의 제1 교점과 집합(b)의 제1 교점을 토대로 셀 범위 정보를 도출한 후 상기 제1 교점을 기준으로 열 방향으로 이동하여 다음 셀 범위 정보 도출한 후 상기 제1 교점을 기준으로 행 방향으로 이동하여 다음 셀 범위 정보를 도출하는 것으로 설명하였으나, 집합(a)의 제1 교점과 집합(b)의 제1 교점을 토대로 셀 범위 정보를 도출한 후행 방향으로 이동하여 다음 셀 범위를 도출한 후 열 방향을 이동하여 다음 셀 범위를 도출할 수 있으며, 셀 범위 추출 후 행 방향으로 이동하여 다음 셀 범위를 도출한 후 열 방향을 이동하여 다음 셀 범위를 도출하는 과정은 당업자에 의해 자명한 사항이므로 이에 대한 상세한 설명은 생략한다.
그리고, 상기 셀 범위 도출부(15)의 셀 범위 정보는 XML 문서 생성부(30)로 제공되며, 상기 XML 문서 생성부(30)는, XML 서식 변환 정보가 입력되면 셀 범위 정보를 포함하는 상기 표준 문서를 미리 정의된 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하고,생성된 XML 문서 파일은 XML 문서 제어부(50)로 제공된다.
상기 XM 문서 제어부(50)는 변환 문서 요청에 응답하여 상기 XML 문서 파일을 미리 정의된 XML 구조화하여 제공한다.
변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 요청된 PDF 문서 파일의 표를 분석하고 분석된 표를 미리 정의된 기준 정보를 기준으로 표준 문서로 변환하여 표를 텍스트 대신 셀 범위 정보의 이미지로 추출한 후, 변환된 표준 문서를 XML 서신 변환 포맷에 따라 XML 문서로 변환하여 XML 구조화하여 제공하는 일련의 과정을 도 7 내지 도 9을 참조하여 보다 구체적으로 설명한다.
도 7은 도 1 및 도 2에 도시된 PDF 문서 파일을 자동 변환하는 장치의 동작 과정을 보인 흐름도이고 도 8은 도 7의 교점 도출 과정을 보다 구체적으로 보인 흐름도이며, 도 9는 도 7의 셀 범위 도출 과정을 보인 흐름도이다, 도 3 내지 도 9을 참조하여 본 발명의 다른 실시 예에 따른 PDF 문서 파일을 자동 변환하는 과정을 설명한다.
우선, 상기 표준 문서 변환부(10)는 단계(100)를 통해 변환 요청된 PDF 문서 파일을 수신하고 수신된 PDF 문서 파일의 표 정보를 분석한다(단계 200).
그리고, 상기 분석된 표 정보와 이미 정의된 기준 정보를 토대로 PDF 문서 파일의 표에 대한 단일 선 정보를 도출한다(단계 300).
즉, 단일 선 정보는, 도 4에 도시된 바와 같이, 이미 정의된 표를 구성하는 각 선에 대한 시작점의 좌표(x, y)과 끝점의 좌표(x, y')을 가진다.
이러한 단일 선 정보는 표준 문서 변환부(10)의 교점 도출부(13)에 제공된다.
상기 교점 도출부(13)는 단계(400)를 통해 단일 선 정보를 토대로 각 선의 교차점인 교점을 도출한다.
이하 도 8을 참조하여 교점 도출부(13)에서 교점 정보를 도출하는 과정을 설명한다.
상기 교점 도출부(13)는 단계(401)를 통해 상기 끝점(y)가 같은 값을 가지는 가로 라인의 단일 선 정보의 집합(a)와 상기 시작점(x)가 같은 값을 가지는 세로 라인의 단일 선 정보의 집합(b)를 설정한다.
그리고, 상기 가로 라인의 단일 선 정보의 집합(a) 중 제1 단일 선 정보(L(x,y)(x', y))와 상기 세로 라인의 단일 선 정보의 집합(b) 중 제1 단일 선 정보(M(p, q)(p, q'))에 대한 제1 교점을 도출한다.
즉, 교점 도출부(13)는 단계(403) 및 단계(405)를 통해 가로 라인의 단일 선 정보의 집합(a) 중 제1 단일 선 정보(L(x,y)(x', y))와 상기 세로 라인의 단일 선 정보의 집합(b) 중 제1 단일 선 정보(M(p, q)(p, q'))을 추출하고, 단계(407)를 통해 추출된 두 집합(a)(b)의 각 단일 선의 임의의 점(p, y)을 도출한 후 도출된 임의의 점이 교점 인지를 판단한다.
여기서, 교점은 상기 단계(407)에서 도출된 교차점(N(p, y))의 X 축 값과 Y 축값이 소정 범위(x<= p<=x' 이고, p<=y<=p') 이내에 존재하는 지에 따라 판정된다.
즉, 상기 단계(407)의 판단 결과 교차점(N(p, y))의 X 축 값과 Y 축값이 소정 범위 내에 존재하는 경우 단계(409)를 통해 교점(p,y)으로 판정한 후 교점 정보가 교점 리스트에 존재하는 지를 판단하며(단계 411), 판단 결과 교점 정보(p, y)가 존재하지 아니한 경우 교점 리스트에 교점 정보(p, y)를 추가한다(단계 413).
그리고, 상기 단계(407)의 판단 결과, 임의의 점(p, y)의 X 축 값과 Y 축값이 상기 소정 범위 내에 존재하지 아니한 경우 상기 교점 도출부(13)는 단계(415)를 통해 상기 제1 교점을 기준으로 행 방향의 집합(b)의 제2 단일선 정보(M(p, q')(p, q"))를 추출하고, 추출된 제2 단일 선 정보가 상기 집합(b)의 마지막 단일 선 정보인 지를 판단하며(단계 417), 단계(417)의 판단 결과 추출된 제2 단일 선 정보가 상기 집합(b)의 마지막 단일 선 정보가 아닌 경우 상기 단계(407)로 진행하여, 집합(a)의 제1 단일선 정보(L(x,y)(x', y))와 집합(b)의 제2 단일 선 정보(M(p, q')(p,q"))의 공통점인 제2 교점을 도출한다.
한편, 상기 단계(417)에서 추출된 제2 단일 선 정보가 상기 집합(b)의 마지막 단일 선 정보가 인 경우 상기 교점 도출부(13)는 단계(419)를 통해 상기 제1 교점을 기준으로 열 방향의 집합(a)의 제2 단일 선 정보(L(x', y)(x", y))를 추출하고, 추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보인 지를 판단하며(단계 421), 단계(421)의 판단 결과 추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보인 경우 메인 로직으로 리턴한다.
한편, 상기 단계(421)의 판단 결과 추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보가 아닌 경우 상기 단계(405)로 진행하여 집합(b)의 제1 단일선 정보와 공통점인 교점을 도출한다.
이때 각 집합(a)(b)의 단일선 정보에 대해 도출된 교점은 도 5에 도시된 바와 같다.
그리고, 상기 단계(400)에서 도출된 교점 정보는 셀 범위 도출부(15)로 제공되며, 셀 범위 도출부(15)는 단계(500)를 통해 상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 가로 라인의 단일 선 정보의 집합(a)의 제1 교점(L), 상기 제1 교점(L)을 기준으로 하단에 위치한 교점의 집합(b), 및 세로 라인의 단일 선 정보인 집합(b)의 제1 교점(M)을 토대로 셀 범위 추출 및 저장한다.
상기 셀 범위 도출부(15)에서 교점 정보를 토대로 셀 범위 정보를 도출하는 과정은 도 9를 참조하여 설명한다.
즉, 도 9에 도시된 바와 같이, 셀 범위 도출부(15)는, 단계(501)를 통해 상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 이어 단계(503) 내지 단계(509)를 통해 정렬된 교점 정보의 열 방향에 위치한 교점의 집합(a)의 제1 교점(L), 상기 제1 교점(L)을 기준으로 행 방향에 위치한 교점의 집합(b)의 제1 교점(M)을 추출한다.
그리고 셀 범위 도출부(15)는 단계(511)를 통해 상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하는 지를 판단한다.
상기 단계(511)의 판단 결과 상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하는 경우 상기 셀 범위 도출부(15)는 단계(513)를 통해 제1 교점(L)의 열 방향에 위치한 제2 교점(N)을 추출한다.
그리고, 상기 셀 범위 도출부(15)는 단계(515)를 통해 상기 추출된 제2 교점(N)을 통과하는 가로 라인의 단일 선 정보와 세로 라인의 단일 선 정보가 존재하는 지를 판단하며, 제2 교점(N)을 통과하는 가로 라인의 단일 선 정보와 세로 라인의 단일 선 정보가 존재하는 경우 단계(517)를 통해 셀 범위 정보를 집합(a)의 제1 교점(L(x),L(y)) 및 제2 교점(N(x), N(y))과 집합(b)의 제1 교점(M(x), M(y)) 및 제2 교점(N(x), M(y))으로 추출한 후 저장한다.
또한, 상기 셀 범위 도출부(15)는, 단계(519)를 통해 상기 집합(a)의 제2 교점(N)을 제1 교점(L)으로 업데이트하고, 단계(521)를 통해 상기 업데이트된 제1 교점(L1)이 집합(a)의 마지막 교점인 지를 판단한다.
여기서, 상기 단계(521)의 판단 결과 업데이트된 제1 교점(L1)이 집합(a)의 마지막 교점이 아닌 경우 상기 단계(507)로 진행하여 업데이트된 제1 교점(L1)과 집합(b)의 제1 교점(M)을 토대로 셀 범위 정보를 추출한다.
상기 단계(521)의 판단 결과 업데이트된 제1 교점(L1)이 집합(a)의 마지막 교점인 경우 상기 셀 범위 도출부(15)는 단계(523)를 통해 상기 집합(a)의 제1 교점을 기준으로 행 방향에 위치한 교점들의 집합(a1)을 집합(a)로 업데이트한 후 단계(525)을 통해 상기 업데이트된 집합(a)가 마지막 집합인 지를 판단한다.
상기 단계(525)의 판단 결과 업데이트된 집합(a)이 마지막 집합이 아닌 경우 상기 단계(505)로 진행하여 업데이트된 집합(a)의 제1 교점과 업데이트된 집합(a)의 제1 교점을 기준으로 행 방향에 위치한 집합(b)의 제1 교점(M)을 토대로 셀 범위 정보를 추출한다.
그러나, 상기 단계(525)의 판단 결과 업데이트된 집합(a)가 마지막 집합인 경우 본 프로그램을 종료한다.
또한, 상기 단계(511)의 판단 결과, 상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하지 아니한 경우 상기 셀 범위 도출부(15)는 단계(527)를 통해 집합(b)의 하단에 위치한 집합을 집합(b)로 업데이트한다.
한편, 상기 단계(515)의 판단 결과, 상기 추출된 제2 교점(N)을 통과하는 가로 라인의 단일 선 정보 및 세로 라인의 단일 선 정보 중 하나가 존재하지 아니한 경우 셀 범위 도출부(15)는 단계(529)를 통해 상기 제2 교점(N)를 기준으로 열 방향에 위치한 교점을 상기 제2 교점으로 업데이트한다.
상기의 과정을 통해 도출된 셀 범위 정보는 도 6에 도시된 바와 같다.
상기 셀 범위 도출부(15)에서 도출된 셀 범위 정보를 포함하는 표준 문서는 XML 문서 생성부(30)로 제공된다.
상기 XML 문서 생성부(30)는 단계(600)를 통해 XML 서식 변환 정보가 입력되면 상기 표준 문서를 미리 정의된 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하고, 생성된 XML 문서 파일은 XML 문서 제공부(50)로 제공된다.
즉, 상기 XML 문서 제공부(50)는 단계(700)를 통해 변환된 문서 요청이 접수되면, 단계(800)를 통해 변환 문서 요청에 응답하여 XML 문서 생성부(30)에서 변환된 XML 문서 파일을 XML 구조화하여 제공한다.
본 발명의 실시 예에 따르면, 변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 요청된 PDF 문서 파일의 표를 분석하고 분석된 표를 미리 정의된 기준 정보를 기준으로 표준 문서로 변환하여 표를 텍스트 대신 셀 범위 정보의 이미지로 추출한 후, 변환된 표준 문서를 XML 서신 변환 포맷에 따라 XML 문서로 변환하여 XML 구조화하여 제공함에 따라, PDF 문서 파일에 삽입된 표를 XML 문서 파일로 정확하게 변환하여 제공함에 따라, 문서의 서식 변환 품질을 근본적으로 향상시킬 수 있게 된다.
여기에 제시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.
본 발명에 따른 PDF 문서 파일을 자동 변환하는 장치 및 방법에 의하면, 변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 요청된 PDF 문서 파일의 표를 분석하고 분석된 표를 미리 정의된 기준 정보를 기준으로 표준 문서로 변환하여 표를 텍스트 대신 셀 범위 정보의 이미지로 추출한 후, 변환된 표준 문서를 XML 서신 변환 포맷에 따라 XML 문서로 변환하여 XML 구조화하여 제공함에 따라, PDF 문서 파일에 삽입된 표를 XML 문서 파일로 정확하게 변환하여 제공함에 따라, 문서의 서식 변환 품질을 근본적으로 향상하는 전자 서식 변환 환경에 제공할 수 있다는 점에서 전자 서식 변환 시스템과 같은 기존의 기술과 접목될 수 있으며, 관련 기술에 대한 이용과 적용의 대상이 되는 장치를 현실적으로 실시할 수 있는 정도이므로 산업상 이용 가능성이 충분한 발명이다.
10 : 표준 문서 변환부
11 : 단일 선 도출부
13 : 교점 도출부
15 : 셀 범위 도출부
30 : XML 문서 파일 생성부
50 : XML 문서 제공부

Claims (18)

  1. 변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보에서 미리 정의된 기준 정보를 토대로 시작점과 끝점을 가지는 단일 선 정보를 추출하고, 상기 단일 선 정보로부터 적어도 하나의 공통된 시작점 또는 끝점을 가지는 교점 정보를 도출하며, 상기 교점 정보를 토대로 셀 범위 정보를 추출 및 저장하는 표준 문서 변환부와,
    XML 서식 변환 요청이 입력되면 상기 셀 범위 정보를 가지는 표준 문서를 미리 정의된 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하는 XML 문서 생성부와,
    상기 XML 문서 파일을 변환 문서 요청에 응답하여 제공하는 XML 문서 제공부를 포함하는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
  2. 제1항에 있어서, 상기 표준 문서 변환부는,
    변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보에서 미리 정의된 기준 정보를 토대로 도출된 각 시작점과 끝점에 대한 각 좌표 정보를 가지는 단일 선 정보를 추출하는 단일 선 추출부와,
    상기 단일 선 정보로부터 단일 선들이 교차하는 교점 정보를 도출하는 교점 도출부와,
    상기 교점 정보를 토대로 단일 선의 집합으로 생성된 셀 범위 정보를 추출하는 셀 범위 추출부를 포함하는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
  3. 제2항에 있어서, 상기 단일 선 추출부는,
    이미 정의된 표를 구성하는 각 선에 대해 상기 끝점의 좌표 정보 중 Y축의 값(y)이 같은 값을 가지는 가로 라인의 단일 선 정보와 상기 시작점의 좌표 정보 중 X 축 값(x)이 같은 값을 가지는 세로 라인의 단일 선 정보를 각각 추출하는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
  4. 제3항에 있어서, 상기 교점 도출부는,
    상기 끝점의 좌표 정보 중 Y축의 값(y)이 같은 값을 가지는 가로 라인의 단일 선 정보의 집합(a)과 상기 시작점의 좌표 정보 중 X 축 값(x)이 같은 값을 가지는 세로 라인의 단일 선 정보의 집합(b)을 설정하고,
    상기 가로 라인의 단일 선 정보의 집합(a) 중 제1 단일 선 정보(L(x,y)(x', y))와 상기 세로 라인의 단일 선 정보의 집합(b) 중 제1 단일 선 정보(M(p, q)(p, q'))로부터 제1 교점(p, y)을 도출하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
  5. 제4항에 있어서, 상기 교점 도출부는,
    상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y))과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))에서 임의의 점(p, y)을 도출하고,
    도출된 임의의 점(p, y)이 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 소정 범위(x, x', q, q') 내에 존재하는 경우 집합(a)(b)의 각 제1 단일 선으로부터 생성된 제1 교점으로 판정하여 교점 리스트에 제1 교점(p, y)을 추가하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
  6. 제5항에 있어서, 상기 교점 도출부는,
    상기 도출된 임의의 점(p, y)이 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위 내에 존재하지 아니한 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y))과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))를 추출한 후,
    추출된 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 지를 판단하고 판단 결과 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y))과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))로부터 제2 교점을 도출하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
  7. 제6항에 있어서, 상기 교점 도출부는,
    상기 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y))과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))를 추출한 후,
    추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y))과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))에 대한 교점을 도출하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
  8. 제7항에 있어서, 상기 셀 범위 도출부는,
    상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 특정 교점의 집합(a)과 상기 집합(a)의 제1교점(L), 상기 제1교점(L)을 기준으로 행 방향으로 하단에 위치한 교점의 집합(b)과 상기 집합(b)의 제1교점(M)을 토대로 셀 범위 추출 및 저장하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
  9. 제8항에 있어서, 상기 셀 범위 정보 도출부는,
    상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하는 경우 집합(a)의 제1 교점(L)을 기준으로 열 방향에 위치한 제2 교점(N)을 설정하고,
    설정된 제2 교점(N)을 통과하는 가로 라인의 단일 선 정보와 세로 라인의 단일선 정보가 존재하는 지를 판단하며,
    판단 결과 제2 교점을 지나는 가로 라인의 단일 선 정보와 세로 라인의 단일선 정보가 존재하는 경우 집합(a)의 제1 교점(L(x),L(y)) 및 제2 교점(N(x), N(y))과 집합(b)의 제1 교점(M(x), M(y)) 및 제2 교점(N(x), M(y))으로 셀 범위 정보를추출한 후 저장하고,
    상기 집합(a)의 제2 교점(N)을 제1 교점(L)으로 업데이트하며,
    상기 업데이트된 제1 교점(L1)이 집합(a)의 마지막 교점인 지를 판단하고, 판단 결과 업데이트된 제1 교점(L1)이 집합(a)의 마지막 교점인 경우 집합(a)의 제1 교점을 기준으로 행 방향에 위치한 교점의 집합을 상기 집합(a)으로 업데이트한 후 상기 업데이트된 집합(a)이 마지막 집합에 도달할 때까지 셀 범위 정보 추출 및 저장을 반복 실행하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 장치.
  10. 변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보에서 미리 정의된 기준 정보를 토대로 시작점과 끝점을 가지는 단일 선 정보를 추출하고, 상기 단일 선 정보로부터 적어도 하나의 공통된 시작점 또는 끝점을 가지는 교점 정보를 도출하며, 상기 교점 정보를 토대로 셀 범위 정보를 추출 및 저장하는 표준 문서 변환 과정과,
    XML 서식 변환 요청이 입력되면 상기 셀 범위 정보를 가지는 표준 문서를 미리 정의된 상기 XML 서식 변환 포맷 정보에 따라 변환하여 XML 문서 파일을 생성하는 XML 문서 생성 과정과,
    변환 문서 요청에 응답하여 상기 XML 문서 파일을 제공하는 XML 문서 제공과정을 포함하는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
  11. 제10항에 있어서, 상기 표준 문서 생성 과정은,
    변환 요청된 PDF 문서 파일의 표준 오퍼레이션에 따라 분석된 표 정보에서 미리 정의된 기준 정보를 토대로 각 시작점과 끝점의 좌표 정보를 가지는 단일 선 정보를 추출하는 단일 선 추출 단계와,
    상기 단일 선 정보로부터 상기 교점 정보를 도출하는 교점 도출 단계와,
    상기 교점 정보를 토대로 셀 범위 정보를 추출하는 셀 범위 추출 단계를 포함하는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
  12. 제11항에 있어서, 상기 단일 선 추출 단계는,
    이미 정의된 표를 구성하는 각 선에 대한 상기 끝점의 좌표 정보 중 Y축 좌표값(y)이 같은 값을 가지는 가로 라인의 단일 선 정보와 상기 시작점의 좌표 정보 중 X축 좌표값(x)이 같은 값을 가지는 세로 라인의 단일 선 정보를 각각 추출하는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
  13. 제12항에 있어서, 상기 교점 도출 단계는,
    상기 끝점의 좌표 정보 중 Y축 좌표값(y)이 같은 값을 가지는 가로 라인의 단일 선 정보의 집합(a)와 상기 시작점의 좌표 정보 중 X축 좌표값(x)이 같은 값을 가지는 세로 라인의 단일 선 정보의 집합(b)를 설정하고,
    상기 가로 라인의 단일 선 정보의 집합(a) 중 제1 단일 선 정보(L(x,y)(x', y))와 상기 세로 라인의 단일 선 정보의 집합(b) 중 제1 단일 선 정보(M(p, q)(p, q'))로부터 제1 교점(p, y)을 도출하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
  14. 제13항에 있어서, 상기 교점 도출 단계는,
    상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y))과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))을 토대로 임의의 점(p, y)을 도출하고,
    도출된 임의의 점(p, y)이 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위 내에 존재하는 경우 교점으로 판정하여 교점 리스트(N)에 추가하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
  15. 제14항에 있어서, 상기 교점 도출 단계는,
    상기 도출된 임의의 점(p, y)이 각 집합(a)(b)의 제1 단일 선 정보로부터 도출된 각 소정 범위 내에 존재하지 아니한 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y))과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))를 추출한 후,
    추출된 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 지를 판단하고 판단 결과 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제1 단일 선 정보(L(x,y)(x', y))과 집합(b)의 제2 단일 선 정보(M(p, q')(p, q"))으로부터 교점을 도출하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
  16. 제15항에 있어서, 상기 교점 도출 단계는,
    상기 집합(b)의 제2 단일 선 정보가 마지막 단일 선 정보인 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y))과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))를 추출한 후,
    추출된 집합(a)의 제2 단일 선 정보가 집합(a)의 마지막 단일 선 정보가 아닌 경우 상기 집합(a)의 제2 단일 선 정보(L(x',y)(x", y))과 집합(b)의 제1 단일 선 정보(M(p, q)(p, q'))에 대한 교점을 도출하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
  17. 제16항에 있어서, 상기 셀 범위 도출 단계는,
    상기 교점 리스트의 각 교점에 대한 좌표 정보를 토대로 정렬한 후 특정 교점의 집합(a)과 상기 집합(a)의 제1교점(L), 상기 제1교점(L)을 기준으로 행 방향으로 하단에 위치한 교점의 집합(b)과 상기 집합(b)의 제1교점(M)을 토대로 셀 범위 추출 및 저장하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
  18. 제17항에 있어서, 상기 셀 범위 도출 단계는,
    상기 집합(a)의 제1 교점(L)의 X축 좌표값과 상기 집합(b)의 제1 교점(M)의 X축 좌표값이 일치하는 경우 집합(a)의 제1 교점(L)을 기준으로 열 방향으로 위치한 제2 교점(N)을 설정하고,
    설정된 제2 교점(N)을 통과하는 가로 라인의 단일 선 정보와 세로 라인의 단일 선 정보가 존재하는 지를 판단하며,
    판단 결과 제2 교점을 지나는 가로 라인의 단일 선 정보와 세로 라인의 단일선 정보가 존재하는 경우 집합(a)의 제1 교점(L(x),L(y)) 및 제2 교점(N(x), N(y))과 집합(b)의 제1 교점(M(x), M(y)) 및 제2 교점(N(x), M(y))으로 셀 범위 정보를 추출한 후 저장하고,
    상기 집합(a)의 제2 교점(N)을 제1 교점(L)으로 업데이트하며,
    상기 업데이트된 제1 교점(L)이 집합(a)의 마지막 교점인 지를 판단하고, 판단 결과 업데이트된 제1 교점(L)이 집합(a)의 마지막 교점인 경우 집합(a)의 제1 교정(L)를 기준으로 행 방향에 위치한 교점들의 집합을 집합(a)로 업데이트한 후 상기 업데이트된 집합(a)이 마지막 집합에 도달할 때까지 셀 범위 정보 추출 및 저장을 반복 실행하도록 구비되는 것을 특징으로 하는 PDF 문서 파일을 자동 변환하는 방법.
KR1020120127668A 2012-11-12 2012-11-12 Pdf 문서 파일을 자동 변환하는 장치 및 방법 KR101449725B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120127668A KR101449725B1 (ko) 2012-11-12 2012-11-12 Pdf 문서 파일을 자동 변환하는 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120127668A KR101449725B1 (ko) 2012-11-12 2012-11-12 Pdf 문서 파일을 자동 변환하는 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20140062563A KR20140062563A (ko) 2014-05-26
KR101449725B1 true KR101449725B1 (ko) 2014-10-16

Family

ID=50890740

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120127668A KR101449725B1 (ko) 2012-11-12 2012-11-12 Pdf 문서 파일을 자동 변환하는 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101449725B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102471587B1 (ko) * 2019-11-28 2022-11-28 한국과학기술정보연구원 문서변환장치 및 그 동작 방법
CN112925747A (zh) * 2021-03-31 2021-06-08 浙江太美医疗科技股份有限公司 文件格式转换方法、装置和计算机存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080027251A (ko) * 2005-05-09 2008-03-26 아마데우스 에스.에이.에스. 데이터베이스로부터 xml 문서를 동적으로 생성하는 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080027251A (ko) * 2005-05-09 2008-03-26 아마데우스 에스.에이.에스. 데이터베이스로부터 xml 문서를 동적으로 생성하는 방법

Also Published As

Publication number Publication date
KR20140062563A (ko) 2014-05-26

Similar Documents

Publication Publication Date Title
WO2021088400A1 (zh) 一种文档审核方法、装置、系统、设备及存储介质
JP6710483B2 (ja) 損害賠償請求書類の文字認識方法、装置、サーバ及び記憶媒体
KR101319966B1 (ko) 전자 서식 변환 장치 및 방법
US10049096B2 (en) System and method of template creation for a data extraction tool
US20150026556A1 (en) Systems and Methods for Extracting Table Information from Documents
KR20210130790A (ko) 문서들에서 키-값 쌍들의 식별
US20130174024A1 (en) Method and device for converting document format
US20210312195A1 (en) Lane marking detecting method, apparatus, electronic device, storage medium, and vehicle
WO2017090475A1 (ja) 情報処理システム、関数作成方法および関数作成プログラム
CN105677716A (zh) 一种计算机数据采集处理分析系统
CN103677821A (zh) 软件开发工具代码发布的方法和装置
JP2022088602A (ja) テーブル生成方法、装置、電子機器、記憶媒体及びプログラム
CN112286907A (zh) 一种数据库配置方法、装置、电子设备和可读存储介质
KR101449725B1 (ko) Pdf 문서 파일을 자동 변환하는 장치 및 방법
CN111045654A (zh) 基于Vue快速生成常用指令的方法、装置、计算机设备及存储介质
US9524354B2 (en) Device, method, and program for processing data with tree structure
JP6158430B2 (ja) データベースのハッシュ結合処理をストレージ装置が実行するシステム
JP5107157B2 (ja) 文字認識プログラム、文字認識装置および文字認識方法
US20140310248A1 (en) Verification support program, verification support apparatus, and verification support method
KR20120075626A (ko) 웹 기반 서비스에서의 전자해도 처리 장치 및 방법
CN105320603A (zh) 浏览器页面元素的定位系统和方法及其自动化测试方法
CN105653549A (zh) 一种提取文档信息的方法及装置
JP2016532190A (ja) 文書フォーマット変換装置及び方法
CN109840609B (zh) 拣货点数据校验方法及装置、存储介质、电子设备
JP2011141664A (ja) 文書比較装置、文書比較方法、及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170927

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180809

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20191001

Year of fee payment: 6