KR20230068654A - 전자문서 데이터 추출 시스템 및 방법 - Google Patents

전자문서 데이터 추출 시스템 및 방법 Download PDF

Info

Publication number
KR20230068654A
KR20230068654A KR1020210154667A KR20210154667A KR20230068654A KR 20230068654 A KR20230068654 A KR 20230068654A KR 1020210154667 A KR1020210154667 A KR 1020210154667A KR 20210154667 A KR20210154667 A KR 20210154667A KR 20230068654 A KR20230068654 A KR 20230068654A
Authority
KR
South Korea
Prior art keywords
data
extracted
data extraction
unit
electronic document
Prior art date
Application number
KR1020210154667A
Other languages
English (en)
Other versions
KR102693355B1 (ko
Inventor
이선명
조우석
노문종
Original Assignee
이선명
조우석
노문종
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이선명, 조우석, 노문종 filed Critical 이선명
Priority to KR1020210154667A priority Critical patent/KR102693355B1/ko
Publication of KR20230068654A publication Critical patent/KR20230068654A/ko
Application granted granted Critical
Publication of KR102693355B1 publication Critical patent/KR102693355B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 전자문서(PDF)의 데이터를 관리자가 원하는 전자문서 데이터에서 키(Key)값과 매칭하여 JSON 형태로 제공함으로써 전자문서(PDF)안의 데이터를 효율적으로 관리할 수 있는 전자문서 데이터 추출 시스템 및 방법을 제공하기 위한 것이다. 이와 같은 본 발명은 전자문서 데이터를 추출하는 단말인 작업측 단말(100, 101)과, 상기 작업측 단말(100, 101)에서 추출한 전자문서 데이터를 송수신하거나 추출하고자 하는 원본 데이터가 존재하는 PC 또는 서버인 원본측 단말(200, 201) 및 전자문서 데이터를 발생시키는 단말인 체지방 측정기를 포함하는 병원이나 피트니스 센터의 각종 측정기를 포함하는 측정단말(300);과 상기 작업측 단말(100, 101)과 원본측 단말(200, 201)간 통신을 위한 네트워크(400)를 포함하는 전자문서 데이터 추출 시스템에 있어서, 상기 작업측 단말(100, 101)은 상기 작업측 단말(100, 101)의 주변기기들인 마우스, 모니터, 키보드, 프린트 및 상기 측정단말(300)과 연결되어 데이터를 입출력받는 인터페이스부(110); 상기 원본측 데이터에서 추출 문서양식을 분류하고, 추출데이터의 위치값과, 추출데이터와 키(Key)값을 매칭, 추출데이터의 가공 데이터 추출양식을 생성하는 이러한 데이터 추출양식 설정부(120); 상기 데이터 추출양식 설정부(120)에서 생성된 데이터 추출양식을 통해 전자문서에서 데이터를 추출하고 추출한 데이터를 JSON형태로 변환하는 데이터 추출부(130); 외부의 PC나 서버와 통신하기 위한 통신부(140); 및 상기 인터페이스부(110), 데이터 추출양식 설정부(120), 데이터 추출부(130) 및 통신부(140)를 제어하는 제어부(150)를 포함하여 구성됨을 특징으로 하는 전자문서 데이터 추출 시스템을 제공한다.

Description

전자문서 데이터 추출 시스템 및 방법{Electronic document data extraction system and method}
본 발명은 전자문서 데이터 추출에 관한 것으로, 더욱 상세하게는 전자문서(PDF)의 데이터를 관리자가 원하는 키(Key) 값과 매칭하여 JSON 형태로 제공해 줌으로써 전자문서(PDF)안의 데이터를 효율적으로 관리할 수 있는 전자문서 데이터 추출 시스템 및 방법에 관한 것이다.
정부의 페이퍼리스 사업추진으로 인해 전자문서(PDF)의 사용량이 증가하고 있다. 은행, 보험사, 국세청, 기업 등 많은 기관들은 증빙자료를 전자문서형태로 받고 있는데, 아직까지 실무자들은 각 기관에서 사용하는 프로그램에 증빙자료의 내용을 보고 직접 기입하고 있다. 이 때문에 오타, 미기입과 같은 오류가 발생하고 많은 양의 단순 반복 업무가 발생 중이다.
또한 빅데이터, AI기술의 발전으로 많은 기관들은 기관이 보유한 수많은 전자문서에서 AI 활용에 필요한 데이터를 정제하고 추출해서 사용하기를 원하고 있다.
한편 기존에는 전자문서의 데이터 추출을 위한 방법으로 OCR(광학문자인식)방식을 사용하였다. OCR(광학문자인식)기술은 AI로 문자를 학습시켜 이미지안의 문자를 추론하여 추출하는 방식이다. 하지만 이 방식의 경우 문자의 폰트에 따라 인식률이 상이 하며, 영문 대문자I(아이)와 소문자 l(엘)을 구분하는비슷한 문자 분류의 어려움, 11,172개의 조합이 가능한 한글의 경우 인식률이 떨어진다는 문제점을 갖고 있다.
이러한 페이퍼리스 시스템화에 의한 업무의 효율화 및 자원 절약화를 목적으로, 종이 매체의 정보를 문서 데이터로 대체하는 기업의 수가 증가하고 있다. 예를 들어, 회사 운영을 위한 업무 문서는 그러한 시스템의 대상이 되는 경우가 많고, 특히 기본 시스템에서 그러한 대량의 페이지의 문서를 출력하는 운영 비용이 막대하기 때문에, 그러한 문서의 전자 문서화가 적극적으로 실시되고 있다. 또한, 폼 문서의 모형이 되는 폼 정보에 대한 필드 데이터를 오버레이(적용)하기 위한 오버레이 처리를 수행함으로써 PDF 형식 등으로 폼 문서(폼 이미지)를 작성하는 방법이 제안되고 있다.
또한, 서버 컴퓨터 측에서 업무 데이터의 관리나 각종 처리를 행하기 위한 문서로서 클라우드 컴퓨팅 시스템이 사용되기 시작했다. 유저는, 클라이언트 컴퓨터의 WWW 브라우저(웹브라우저)로부터 인터넷을 통해 클라우드서버 컴퓨터의 웹페이지를 액세스하고, 웹페이지 상에서 전자화 폼 문서 데이터를 브라우징한다. 또한, 업무플로우에 따라 브라우징될 폼 문서 데이터를 편집 및 인쇄하는 처리가 고려된다.
일본 특허 공개 제2005-190432호 공보는, 클라이언트의 WWW 브라우저가 문서 출력 확인 화면에 폼 문서 이미지를 표시하고, 수정 화면 버튼이 눌려지면 수정 프로그램을 다운로드해서 수정 화면을 표시하고, 데이터의 수정을 행하는 시스템을 개시하고 있다.
일본 특허 공개 제2005-190432호 공보에 개시된 시스템에서는, 유저가 문서 출력 확인 화면에서 브라우징한 폼 문서 페이지(PDF 형식)에 대하여 수정이 필요한 경우, 수정 화면을 표시하기 위한 수정 프로그램을 별도 다운로드할 필요가 있다. 따라서, WWW 브라우저 상에 표시된 문서의 브라우징 화면에서 편집도 행해질 수 있게, 오버레이 처리에서 작성된 PDF 형식의 폼 문서를, WWW 브라우저 화면 상에서 용이하게 편집될 수 있는 형식(예를 들어, 확장 가능한 벡터 그래픽(SVG) 형식)으로 변환해서 이 변환된 문서를 표시하기 위한 시스템이 고려된다.
그러나, 오버레이 처리에서 작성된 PDF 형식의 폼 문서 페이지를 변환해서 얻어진 SVG 형식의 파일에서는, 문서의 필드 속성을 나타내는 속성 정보는 상실된다. 예를 들어, 오버레이 처리를 통해 작성된 청구서의 폼 문서페이지에서, 폼 정보로서 정의된 각 상품의 금액을 나타내는 "금액" 필드에서, 텍스트 위치 정렬에 관한 정보로서 "우정렬"이 설정되는 것으로 한다. 그 서식으로서, 수치는 3자리수 마다 ","(콤마)를 이용하여 분리되는 것으로 한다.
그러나, PDF 형식의 폼 문서 페이지를 변환해서 얻어진 SVG 형식의 폼 문서 페이지에서, 레이아웃 정보, 텍스트 위치 정렬에 관한 정보, 서식 정보 등이 상실되면, 이하의 과제가 발생한다. SVG 파일이 그대로 WWW 브라우저의 편집 브라우징 화면에 표시되고, 편집 브라우징 화면에 "10,000"으로 표시된 금액을 유저가 "9000"로 변경하더라도, 텍스트 위치 정렬에 관한 정보가 상실되기 때문에, 좌정렬이 수행된다. 또한, ","(콤마)에 의한 분리가 이루어지지 않는다. 즉, 레이아웃 정보, 텍스트 위치 정렬에 관한 정보, 및 서식 정보가 상실된 상태의 파일에서는, 유저가 문자열의 위치나 서식을 수동으로 조정해서 편집할 필요가 있고, 이는 편집 작업에는 적합하지 않다는 문제점 등도 있었다.
또한 기존에는 전자문서의 데이터 추출을 위한 방법으로 OCR(광학문자인식)방식을 사용하였다. OCR(광학문자인식)기술은 AI로 문자를 학습시켜 이미지안의 문자를 추론하여 추출하는 방식이다. 하지만 이 방식의 경우 문자의 폰트에 따라 인식률이 상이 하며, 영문 대문자I(아이)와 소문자 l(엘)과 같은 비슷한 문자 분류의 어려움과, 11,172개의 조합이 가능한 한글의 경우 인식률이 떨어진다는 문제점을 갖고 있었다.
특허문헌 1 : 대한민국 공개특허 10-2021-0000479호(2021. 01. 05) 특허문헌 2 : 대한민국 공개특허 10-2016-0106494호(2016. 09. 12.)
따라서, 본 발명은 상기와 같은 종래 기술의 제반 단점과 문제점을 해결하기 위한 것으로, 전자문서(PDF)의 데이터를 관리자가 원하는 전자문서 데이터에서 키(Key)값과 매칭하여 JSON 형태로 제공함으로써 전자문서(PDF)안의 데이터를 효율적으로 관리할 수 있는 전자문서 데이터 추출 시스템 및 방법을 제공하는데 그 목적이 있다.
상기한 목적을 달성하기 위하여 본 발명의 형태에 따르면, 전자문서 데이터를 추출하는 단말인 작업측 단말(100, 101)과, 상기 작업측 단말(100, 101)에서 추출한 전자문서 데이터를 송수신하거나 추출하고자 하는 원본 데이터가 존재하는 PC 또는 서버인 원본측 단말(200, 201) 및 전자문서 데이터를 발생시키는 단말인 체지방 측정기를 포함하는 병원이나 피트니스 센터의 각종 측정기를 포함하는 측정단말(300);과 상기 작업측 단말(100, 101)과 원본측 단말(200, 201)간 통신을 위한 네트워크(400)를 포함하는 전자문서 데이터 추출 시스템에 있어서, 상기 작업측 단말(100, 101)은 상기 작업측 단말(100, 101)의 주변기기들인 마우스, 모니터, 키보드, 프린트 및 상기 측정단말(300)과 연결되어 데이터를 입출력받는 인터페이스부(110); 상기 원본측 데이터에서 추출 문서양식을 분류하고, 추출데이터의 위치값과, 추출데이터와 키(Key)값을 매칭, 추출데이터의 가공 데이터 추출양식을 생성하는 이러한 데이터 추출양식 설정부(120); 상기 데이터 추출양식 설정부(120)에서 생성된 데이터 추출양식을 통해 전자문서에서 데이터를 추출하고 추출한 데이터를 JSON형태로 변환하는 데이터 추출부(130); 외부의 PC나 서버와 통신하기 위한 통신부(140); 및 상기 인터페이스부(110), 데이터 추출양식 설정부(120), 데이터 추출부(130) 및 통신부(140)를 제어하는 제어부(150)를 포함하여 구성됨을 특징으로 하는 전자문서 데이터 추출 시스템을 제공한다.
여기서 데이터 추출양식 설정부(120)는 데이터 추출양식을 생성할 전자문서(PDF)를 불러와 이미지로 변환하고, 프로그램의 그림도구를 활용하여 추출하고자 하는 데이터 위치에서 추출 좌표값이 설정되면 매칭하고자 하는 키(Key)값과 매칭 및 특정 문자 추가, 제거를 포함하는 가공을 통해 추출하고자 하는 텍스트값을 추출하여 원하는 데이터 추출양식파일을 생성하는 것을 특징으로 한다.
그리고 상기한 목적을 달성하기 위하여 본 발명은 작업자 단말(100)의 추출문서양식 분류부(121)에서 추출하고자 하는 문서의 문서양식이 분류되는 단계(S100); 데이터 추출양식을 만들 전자문서(PDF)가 이미지 변환부(122)에서 이미지로 변환되는 단계(S110); 추출데이터의 위치값과 추출 데이터와 키(Key) 값을 매칭하며, 추출데이터의 가공 데이터 추출양식을 추출 데이터 추출 양식부(123)에서 생성하는 단계(S120); 데이터 추출양식 파일 생성부(124)에서는 데이터 추출 양식부(123)에서 생성된 추출 양식파일에서 해당문서에 존재하는 특정 위치의 추출하고자 하는 고유한 값을 추출하여 분류하는 단계(S130); 상기 데이터 추출양식 파일 생성부(124)에서 생성된 데이터 추출양식을 통해 전자문서 데이터 추출부(131)는 전자문서에서 데이터가 추출되는 단계(S140); 상기 추출된 데이터는 추출 데이터 JSON 변환부(132)에서 JSON 파일 형태로 변환되는 단계(S150); 및 상기 변환된 JSON파일을 문서 양식에 따라 분류되어 JSON 파일 저장부(133)에서 저장된다(S160);를 포함하여 이루어지는 것을 특징으로 하는 전자문서 데이터 추출 방법을 제공한다.
여기서 해당문서에 존재하는 특정 위치의 추출하고자 하는 고유한 값을 추출하여 분류하는 단계(S130)는, 프로그램의 그림도구를 활용하여 추출하고자 하는 데이터 위치에 추출 좌표값이 설정되게 되고 매칭하고자 하는 키(Key)값과 매칭 및 특정 문자 추가, 제거를 포함하여 가공하는 설정을 거쳐 전자문서에 실제로 존재하는 텍스트값을 추출하게 되는 것을 특징으로 한다.
본 발명은 다음과 같은 효과가 있다.
첫째, 의료기관에서 사용하는 검사장비는 일정한 형태의 폼을 갖춘 결과지를 제공한다. 따라서 검사장비에서 발생하는 수치정보를 추출하여 의료기관에 제공할 경우 의료기관은 이를 활용하여 환자의 수치변화 추세를 확인하거나 AI를 활용한 질병예측, 예방 서비스를 위한 활용 데이터로 사용할 수 있다.
둘째, 피트니스센터에는 보통 회원을 위한 인바디기기가 존재한다. 인바디기기에서 발생하는 결과지의 데이터를 추출하여 피트니스센터에 제공할 경우 각 회원의 건강상태를 관리하기 용이해진다.
셋째, 은행 및 공공기관의 경우 고객의 증빙자료를 받아 자료안의 내용을 검토하거나 각 기관의 프로그램에 그내용을 직접 기입하고 있는데, 본 발명 전자문서데이터추출시스템을 활용할 경우 증빙자료의 첨부된 전자문서에서 데이터를 추출하여 기관에 제공하게 되면 자동으로 데이터를 검토하고 입력하여 실무자의 부담을 줄여 줄 수 있다.
넷째, 기업의 경우 기업에서 보유하고 있는 대량의 전자문서(PDF)가 있다면 전자문서데이터추출시스템을 통해 데이터를 추출하여 제공함으로써 AI용 데이터 수집이 가능하다.
도 1은 본 발명에 따른 전자문서 데이터 추출 시스템의 실시예를 설명하기 위한 도면,
도 2는 도 1에 나타낸 전자문서 데이터 추출 시스템에서 작업측 단말의 실시예를 설명하기 위한 도면,
도 3은 도 2에 나타낸 전자문서 데이터 추출 시스템에서 데이터 추출양식 설정부 및 데이터 추출부의 실시예를 설명하기 위한 도면,
도 4는 본 발명에 따른 전자문서 데이터 추출 시스템에서 데이터 추출양식 설정 및 데이터 추출의 개념을 설명하기 위한 도면,
도 5는 본 발명에 따른 전자문서 데이터 추출 방법의 실시예를 설명하기 위한 흐름도이다.
본 발명의 바람직한 실시 예를 첨부된 도면에 의하여 상세히 설명하면 다음과 같다.
아울러, 본 발명에서 사용되는 용어는 가능한 한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며 이 경우는 해당되는 발명의 설명부분에서 상세히 그 의미를 기재하였으므로, 단순한 용어의 명칭이 아닌 용어가 가지는 의미로서 본 발명을 파악하여야 함을 밝혀두고자 한다. 또한 실시예를 설명함에 있어서 본 발명이 속하는 기술 분야에 익히 알려져 있고, 본 발명과 직접적으로 관련이 없는 기술 내용에 대해서는 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 발명의 요지를 흐리지 않고 더욱 명확히 전달하기 위함이다.
도 1은 본 발명에 따른 전자문서 데이터 추출 시스템의 실시예를 설명하기 위한 도면이고, 도 2는 도 1에 나타낸 전자문서 데이터 추출 시스템에서 작업측 안말의 실시예를 설명하기 위한 도면이다.
본 발명에 따른 전자문서 데이터 추출 시스템의 실시예는 도 1에 나타낸 바와 같이, 작업측 단말(100, 101), 의뢰측 단말(200, 201), 측정단말(300) 및 네트워크(400)를 포함하여 구성된다.
여기서 작업측 단말(100, 101)은 전자문서 데이터를 추출하는 단말로 PC로 구성되며, 원본측 단말(200, 201)은 작업측 단말(100, 101)에서 추출하는 전자문서 데이터의 원본측 데이터가 존재하는 단말로 PC 또는 서버일 수 있다.
그리고, 측정단말(300)은 전자문서 데이터를 발생시키는 단말로 피트니스 센터의 체지방 측정기를 포함하는 병원이나 피트니스 센터의 각종 측정기를 포함할 수 있다. 예를 들어 의료기관에서 사용하는 검사장비는 일정한 형태의 폼을 갖춘 결과지를 제공한다. 따라서 검사장비에서 발생하는 수치정보를 추출하여 의료기관에 제공할 경우 의료기관은 이를 활용하여 환자의 수치변화 추세를 확인하거나 AI를 활용한 질병예측, 예방 서비스를 위한 활용 데이터로 사용할 수 있다.
또한 피트니스센터에는 보통 회원을 위한 인바디기기가 존재한다. 인바디기기에서 발생하는 결과지의 데이터를 추출하여 피트니스센터에 제공할 경우 각 회원의 건강상태를 관리하기 용이해진다.
또한 원본측 단말(200, 201)은 예를 들어 전자의무기록(EMR, Electronic Medical Record) 시스템, 처방전달 시스템(OCS, Ordering Communication System) 및 영상저장전송 시스템(PACS, Picture Archiving and Communication System) 등의 병원 및 약국에 적용 가능한 진료 지원 관련 디지털 시스템일 수 있는데, 여기서, 전자의무기록(EMR, Electronic Medical Record)은 종이 매체에 의해 기록되어 온 모든 의료 기록에 대해 정보의 범위 및 내용 변형 없이 동일하게 전산화시킨 형태로서, 환자의 진료 행위를 중심으로 발생한 업무상의 자료나 진료 및 수술/검사 기록을 전산에 기반을 두고 입력/정리/보관하는 시스템을 말한다. 또한, 처방전달시스템(OCS, Ordering Communication System)은 각종 의학 정보 및 환자들의 진찰 자료를 보관한 DB와 처방전을 통신망을 통해 각 해당 진료 부서로 전달해 주는 시스템으로, 환자의 등록에서 진료, 수납까지 원내의 모든 데이터를 관리, 전달하는 것은 물론 병원의 모든 행정을 효율적으로 관리할 수 있다.
이와 같이 은행 및 공공기관의 경우 고객의 증빙자료를 받아 자료안의 내용을 검토하거나 각 기관의 프로그램에 그내용을 직접 기입하고 있는데, 본 발명 전자문서데이터추출시스템을 활용할 경우 증빙자료의 첨부된 전자문서에서 데이터를 추출하여 기관에 제공하게 되면 자동으로 데이터를 검토하고 입력하여 실무자의 부담을 줄여 줄 수 있다. 또한 기업의 경우에도 기업에서 보유하고 있는 대량의 전자문서(PDF)가 있다면 전자문서데이터추출시스템을 통해 데이터를 추출하여 제공함으로써 AI용 데이터 수집이 가능하다.
네트워크(400)는 통신분야에서는 단말기 등을 접속하기 위해 사용되는 단말기기, 선로 및 교환기 등으로 구성되는 전송매체로, 데이터 송수신이 가능한 유무선 통신망이라면 특별히 한정할 필요는 없다.
한편 작업측 단말의 실시예는 도 2에서 그 실시예를 나타내고 있는데, 인터페이스부(110), 데이터 추출양식 설정부(120), 데이터 추출부(130), 통신부(140) 및 제어부(150)를 포함하여 구성된다.
여기서 인터페이스부(110)는 PC로 구성되는 작업측 단말의 주변기기들인 마우스, 모니터, 키보드, 프린트 등은 물론 측정단말(300)과 연결되어 데이터를 입출력받는다.
데이터 추출양식 설정부(120)는 추출 문서양식을 분류하고, 추출데이터의 위치값과, 추출데이터와 키(Key)값을 매칭, 추출데이터의 가공 데이터 추출양식을 생성한다. 이러한 데이터 추출양식 설정부(120)는 예를 들어 데이터 추출양식을 만들 전자문서(PDF)를 불러와 이미지로 변환하고, 프로그램의 그림도구를 활용하여 추출하고자 하는 데이터 위치에 사각형의 박스를 그린다. 이에 따라 추출 좌표값이 설정되게 되고 매칭하고자 하는 키(Key)값과 매칭하고 가공(특정 문자 추가, 제거 등)하는 설정을 거쳐 실제로 존재하는 추출하고자 하는 텍스트값을 추출하여 원하는 데이터 추출양식파일을 생성한다. 그리고 각각의 전자문서의 분류는 해당문서에 존재하는 특정 위치의 고유한 값을 추출하여 분류하도록 한다.
데이터 추출부(130)는 데이터 추출양식 설정부(120)에서 생성된 데이터 추출양식을 통해 전자문서에서 데이터를 추출하고 추출한 데이터를 JSON형태로 변환한다. 만들어진 JSON파일은 문서 양식에 따라 분류하여 사용자가 원하는 디렉토리에 저장한다. 또한 Http통신을 통해 통신부(140)를 이용하여 서버로 JSON 데이터를 전송하여 기관은 추출 데이터를 활용하여 사용할 수 있다.
통신부(140)는 인터넷이나 인트라넷 등을 위한 구성으로 외부의 PC나 서버 등과 연결된다.
제어부(150)는 인터페이스부(110), 데이터 추출양식 설정부(120), 데이터 추출부(130) 및 통신부(140)를 제어한다.
도 3은 도 2에 나타낸 전자문서 데이터 추출 시스템에서 데이터 추출양식 설정부 및 데이터 추출부의 실시예를 설명하기 위한 도면이고, 도 4는 본 발명에 따른 전자문서 데이터 추출 시스템에서 데이터 추출양식 설정 및 데이터 추출의 개념을 설명하기 위한 도면이다.
도 2에 나타낸 전자문서 데이터 추출 시스템에서 데이터 추출양식 설정부 및 데이터 추출부의 실시예는 도 3에 나타낸 바와 같은데, 우선 데이터 추출양식 설정부(120)는 추출문서양식 분류부(121), 이미지 변환부(122), 추출 데이터 추출 양식부(123) 및 데이터 추출양식 파일 생성부(124)를 포함하여 구성되고, 데이터 추출부(130)는 전자문서 데이터 추출부(131), 추출 데이터 JSON 변환부(132) 및 JSON 파일 저장부(133)를 포함하여 구성된다.
여기서 추출문서양식 분류부(121)는 다양한 문서 중 추출하고자 하는 문서양식을 분류한다.
이미지 변환부(122)는 데이터 추출양식을 만들 전자문서(PDF)를 불러와 이미지로 변환한다.
추출 데이터 추출 양식부(123)는 추출데이터의 위치값과 추출 데이터와 키(Key) 값을 매칭하며, 추출데이터의 가공 데이터 추출양식을 생성된다. 예를 들어 프로그램의 그림도구를 활용하여 추출하고자 하는 데이터 위치에 사각형의 박스를 그린다(예를 들어 작업자가 마우스를 활용할 수 있다). 이에 따라 추출 좌표값이 설정되게 되고 매칭하고자 하는 키(Key)값과 매칭 및 특정 문자 추가, 제거 등의 가공하는 설정을 거쳐 데이터 추출 양식파일을 생성한다.
데이터 추출양식 파일 생성부(124)는 각각의 전자문서 분류는 생성된 추출 양식파일에서 해당문서에 존재하는 특정 위치의 추출하고자 하는 고유한 값을 추출하여 분류한다.
그리고 전자문서 데이터 추출부(131)는 데이터 추출양식 파일 생성부(124)에서 생성된 데이터 추출양식을 통해 전자문서에서 데이터를 추출한다.
추출 데이터 JSON 변환부(132)는 추출한 데이터를 JSON형태로 변환한다.
JSON 파일 저장부(133)는 변환된 JSON파일을 문서 양식에 따라 분류하여 작업자가 원하는 디렉토리에 저장된다. 이렇게 저장된 데이터는 Http통신을 통해 기관 서버로 JSON데이터를 전송하여 기관은 추출 데이터를 활용하여 사용할 수 있다.
참고로, JSON(JavaScript Object Notation)(이하, '제이슨'이라 함)은 사람이 읽고 쓰기에 용이하며, 기계가 분석하고 생성하기에도 용이한 경량의 데이터 교환 형식으로써, 특정 프로그래밍 언어나 플랫폼에 구속되지 않는 독립적인 특성을 가지고 있기 때문에, C, C++, C#, Java, JavaScript, Perl 및 Python 등 다양한 프로그래밍언어를 통해 쉽게 이용 가능하다는 장점이 있다.
이때, 도 4는 본 발명에 따른 전자문서 데이터 추출 시스템에서 데이터 추출양식 설정 및 데이터 추출의 개념을 보다 쉽게 설명하고 있는데, 작업자는 예를 들어 모니터를 보면서 마우스 등을 이용하여 작업할 파일의 경로를 설정하고, 부서 및 검사코드를 설정한 후, 추출하고자 하는 문서의 양식을 분류한다. 이어 데이터 추출 양식을 만들 전자문서를 불러와 이미지로 변한한다. 그리고 데이터 추출 양식을 마우스 등을 이용하여 데이터추출 영역을 설정하고, 추출된 문자를 가공 및 문서분류기준을 설정한 후 데이터 추출을 위한 양식 파일을 생성한다.
도 5는 본 발명에 따른 전자문서 데이터 추출 방법의 실시예를 설명하기 위한 흐름도이다.
본 발명에 따른 전자문서 데이터 추출 방법의 실시예는 도 5에 나타낸 바와 같이, 작업자가 PC를 통해 전자문서 데이터를 추출하고자 모니터와 마우스 등을 이용하여 다양한 문서 중 추출하고자 하는 문서양식을 분류한다. 이때, 작업자 단말(100)의 추출문서양식 분류부(121)에서 추출하고자 하는 문서의 문서양식이 분류된다(S100).
그리고 데이터 추출양식을 만들 전자문서(PDF)를 불러와 이미지 변환부(122)에서 이미지로 변환한다(S110).
이어 추출데이터의 위치값과 추출 데이터와 키(Key) 값을 매칭하며, 추출데이터의 가공 데이터 추출양식을 추출 데이터 추출 양식부(123)에서 생성한다(S120).
한편 각각의 전자문서 분류는 데이터 추출양식 파일 생성부(124)에서는 데이터 추출 양식부(123)에서 생성된 추출 양식파일에서 해당문서에 존재하는 특정 위치의 추출하고자 하는 고유한 값을 추출하여 분류한다(S130). 이러한 고유의 값 추출은 예를 들어 프로그램의 그림도구를 활용하여 추출하고자 하는 데이터 위치에 사각형의 박스를 그린다(예를 들어 작업자가 마우스를 활용할 수 있다). 이에 따라 추출 좌표값이 설정되게 되고 매칭하고자 하는 키(Key)값과 매칭 및 특정 문자 추가, 제거 등의 가공하는 설정을 거쳐 전자문서에 실제로 존재하는 텍스트값을 추출하게 된다.
데이터 추출양식 파일 생성부(124)에서 생성된 데이터 추출양식을 통해 전자문서 데이터 추출부(131)는 전자문서에서 데이터를 추출한다(S140).
그리고 추출한 데이터는 추출 데이터 JSON 변환부(132)에서 JSON 파일 형태로 변환된다(S150).
그리고 변환된 JSON파일이 문서 양식에 따라 분류되어 JSON 파일 저장부(133)에서 작업자가 원하는 디렉토리에 저장된다(S160). 이렇게 저장된 데이터는 네트워크를 통해 다른 PC나 기관의 서버로 JSON 데이터를 전송하여 기관은 추출 데이터를 활용하여 사용할 수 있다.
이상과 같은 예로 본 발명을 설명하였으나, 본 발명은 반드시 이러한 예들에 국한되는 것이 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서 본 발명에 개시된 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 예들에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 한다.
100, 101 : 작업측 단말 110 : 인터페이스부
120 : 데이터 추출양식 설정부 121 : 추출문서양식 분류부
122 : 이미지 변환부 123 : 추출 데이터 추출 양식부
124 : 데이터 추출양식 파일 생성부 130 : 데이터 추출부
131 : 전자문서 데이터 추출부 132 : 추출 데이터 JSON 변환부
133: JSON 파일 저장부 140 : 통신부
150 : 제어부 200 : 원본측 단말
300 : 측정단말 400 : 네트워크

Claims (4)

  1. 전자문서 데이터를 추출하는 단말인 작업측 단말(100, 101)과, 상기 작업측 단말(100, 101)에서 추출한 전자문서 데이터를 송수신하거나 추출하고자 하는 원본 데이터가 존재하는 PC 또는 서버인 원본측 단말(200, 201) 및 전자문서 데이터를 발생시키는 단말인 체지방 측정기를 포함하는 병원이나 피트니스 센터의 각종 측정기를 포함하는 측정단말(300);과 상기 작업측 단말(100, 101)과 원본측 단말(200, 201)간 통신을 위한 네트워크(400)를 포함하는 전자문서 데이터 추출 시스템에 있어서,
    상기 작업측 단말(100, 101)은 상기 작업측 단말(100, 101)의 주변기기들인 마우스, 모니터, 키보드, 프린트 및 상기 측정단말(300)과 연결되어 데이터를 입출력받는 인터페이스부(110);
    상기 원본측 데이터에서 추출 문서양식을 분류하고, 추출데이터의 위치값과, 추출데이터와 키(Key)값을 매칭, 추출데이터의 가공 데이터 추출양식을 생성하는 이러한 데이터 추출양식 설정부(120);
    상기 데이터 추출양식 설정부(120)에서 생성된 데이터 추출양식을 통해 전자문서에서 데이터를 추출하고 추출한 데이터를 JSON형태로 변환하는 데이터 추출부(130);
    외부의 PC나 서버와 통신하기 위한 통신부(140); 및
    상기 인터페이스부(110), 데이터 추출양식 설정부(120), 데이터 추출부(130) 및 통신부(140)를 제어하는 제어부(150)를 포함하여 구성됨을 특징으로 하는 전자문서 데이터 추출 시스템.
  2. 제1항에 있어서,
    상기 데이터 추출양식 설정부(120)는 데이터 추출양식을 생성할 전자문서(PDF)를 불러와 이미지로 변환하고, 프로그램의 그림도구를 활용하여 추출하고자 하는 데이터 위치에서 추출 좌표값이 설정되면 매칭하고자 하는 키(Key)값과 매칭 및 특정 문자 추가, 제거를 포함하는 가공을 통해 추출하고자 하는 텍스트값을 추출하여 원하는 데이터 추출양식파일을 생성하는 것을 특징으로 하는 전자문서 데이터 추출 시스템.
  3. 작업자 단말(100)의 추출문서양식 분류부(121)에서 추출하고자 하는 문서의 문서양식이 분류되는 단계(S100);
    데이터 추출양식을 만들 전자문서(PDF)가 이미지 변환부(122)에서 이미지로 변환되는 단계(S110);
    추출데이터의 위치값과 추출 데이터와 키(Key) 값을 매칭하며, 추출데이터의 가공 데이터 추출양식을 추출 데이터 추출 양식부(123)에서 생성하는 단계(S120);
    데이터 추출양식 파일 생성부(124)에서는 데이터 추출 양식부(123)에서 생성된 추출 양식파일에서 해당문서에 존재하는 특정 위치의 추출하고자 하는 고유한 값을 추출하여 분류하는 단계(S130).
    상기 데이터 추출양식 파일 생성부(124)에서 생성된 데이터 추출양식을 통해 전자문서 데이터 추출부(131)는 전자문서에서 데이터가 추출되는 단계(S140);
    상기 추출된 데이터는 추출 데이터 JSON 변환부(132)에서 JSON 파일 형태로 변환되는 단계(S150); 및
    상기 변환된 JSON파일을 문서 양식에 따라 분류되어 JSON 파일 저장부(133)에서 저장된다(S160);를 포함하여 이루어지는 것을 특징으로 하는 전자문서 데이터 추출 방법.
  4. 제3항에 있어서,
    상기 해당문서에 존재하는 특정 위치의 추출하고자 하는 고유한 값을 추출하여 분류하는 단계(S130)는,
    프로그램의 그림도구를 활용하여 추출하고자 하는 데이터 위치에 추출 좌표값이 설정되게 되고 매칭하고자 하는 키(Key)값과 매칭 및 특정 문자 추가, 제거를 포함하는 가공하는 설정을 거쳐 전자문서에 실제로 존재하는 텍스트값을 추출하게 되는 것을 특징으로 하는 전자문서 데이터 추출 방법.
KR1020210154667A 2021-11-11 2021-11-11 전자문서 데이터 추출 시스템 및 방법 KR102693355B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210154667A KR102693355B1 (ko) 2021-11-11 2021-11-11 전자문서 데이터 추출 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210154667A KR102693355B1 (ko) 2021-11-11 2021-11-11 전자문서 데이터 추출 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20230068654A true KR20230068654A (ko) 2023-05-18
KR102693355B1 KR102693355B1 (ko) 2024-08-08

Family

ID=86545645

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210154667A KR102693355B1 (ko) 2021-11-11 2021-11-11 전자문서 데이터 추출 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102693355B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120063684A1 (en) * 2010-09-09 2012-03-15 Fuji Xerox Co., Ltd. Systems and methods for interactive form filling
KR20160106494A (ko) 2015-03-02 2016-09-12 캐논 가부시끼가이샤 정보 처리 시스템, 서버 장치, 제어 방법 및 저장 매체
KR20210000479A (ko) 2019-06-25 2021-01-05 인충교 전자처방전 관리 시스템
KR20210008545A (ko) * 2018-10-25 2021-01-22 주식회사 피앤피소프트 보고서 자동 생성 기반의 업무 프로세스 관리 시스템 제공 방법
KR20210099152A (ko) * 2019-01-02 2021-08-11 삼성전자주식회사 문서 관리를 위한 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120063684A1 (en) * 2010-09-09 2012-03-15 Fuji Xerox Co., Ltd. Systems and methods for interactive form filling
KR20160106494A (ko) 2015-03-02 2016-09-12 캐논 가부시끼가이샤 정보 처리 시스템, 서버 장치, 제어 방법 및 저장 매체
KR20210008545A (ko) * 2018-10-25 2021-01-22 주식회사 피앤피소프트 보고서 자동 생성 기반의 업무 프로세스 관리 시스템 제공 방법
KR20210099152A (ko) * 2019-01-02 2021-08-11 삼성전자주식회사 문서 관리를 위한 방법 및 장치
KR20210000479A (ko) 2019-06-25 2021-01-05 인충교 전자처방전 관리 시스템

Also Published As

Publication number Publication date
KR102693355B1 (ko) 2024-08-08

Similar Documents

Publication Publication Date Title
JP7447965B2 (ja) 文書を編集するためのプログラム、方法、及び装置
US10671805B2 (en) Digital processing and completion of form documents
US11792257B2 (en) Form engine
US7936925B2 (en) Paper interface to an electronic record system
US10178248B2 (en) Computing device for generating a document by combining content data with form data
JPWO2004104862A1 (ja) 電子化サービスマニュアル表示制御装置
JP6840597B2 (ja) 検索結果要約装置、プログラム及び方法
JP2012098878A (ja) 帳票作成処理システムと帳票作成処理方法およびプログラム
US12033414B2 (en) Document readability enhancements
JP2021056641A (ja) 医療情報管理装置及び医療レポートのメタデータ付加方法
JP4925689B2 (ja) 画面再現用データ生成システム、画面再現用データ生成方法、およびコンピュータプログラム
JP6388756B2 (ja) 電子マニュアル出力システム及び電子マニュアル出力方法並びに電子マニュアル出力プログラム
US7356458B1 (en) Multi-language correspondence/form generator
CN112948880A (zh) 文件签名方法、装置、电子设备和计算机可读存储介质
WO2006092805A1 (en) System and method for revising an electronic draft
KR102693355B1 (ko) 전자문서 데이터 추출 시스템 및 방법
Wenzel et al. New ways of data entry in doctor-patient encounters
TWI602069B (zh) 以電子格式產生技術文件的系統
JP2005107635A (ja) 電子フォーム入力システム、方法、プログラムおよび媒体
JP7366473B1 (ja) 文書処理プログラム及び情報処理装置
JP2004289357A (ja) 付加情報付加方法及び付加情報付加装置、並びに付加情報付加プログラム
WO2024177160A1 (ja) 情報処理方法
JP2003132078A (ja) データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体
US20230335001A1 (en) Document Processing Method, Information Processing Device, And Computer Program Product
US20240184985A1 (en) Information representation structure analysis device, and information representation structure analysis method

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
N231 Notification of change of applicant
GRNT Written decision to grant