KR102276184B1

KR102276184B1 - 데이터 추출 장치 및 방법

Info

Publication number: KR102276184B1
Application number: KR1020200004352A
Authority: KR
Inventors: 최진영; 김현조
Original assignee: 와이즈평가정보 주식회사
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2021-07-15

Abstract

다양한 문서 형태의 입력 데이터로부터 데이터를 추출할 수 있는 데이터 추출 장치 및 방법, 기록 매체가 개시된다. 본 발명의 실시예에 따른 데이터 추출 방법은, 문서 형태 판단부에 의해, 상기 입력 데이터의 문서 형태를 판단하는 단계; 데이터 추출방식 결정부에 의해, 상기 입력 데이터의 문서 형태를 기반으로 상기 입력 데이터로부터 데이터를 추출하는 추출 방식을 결정하는 단계; 및 데이터 추출부에 의해, 복수개의 추출 방식 중 상기 입력 데이터의 문서 형태를 기반으로 결정된 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계를 포함한다.

Description

데이터 추출 장치 및 방법{APPARATUS AND METHOD FOR EXTRACTING DATA}

본 발명은 데이터 추출 장치 및 방법에 관한 것으로, 보다 상세하게는 다양한 문서 형태의 입력 데이터로부터 필요로 하는 데이터를 효율적으로 추출할 수 있는 데이터 추출 장치 및 방법에 관한 것이다.

일반적으로 개인이 조회, 발급할 수 있는 서류의 발급처 및 발급시스템이 다양하게 존재하는 경우가 있다. 이러한 경우에 다양한 발급처 및 발급시스템에 빈번하게 공통으로 필요한 정보가 있어도 각 서류를 발급처 및 발급시스템 마다 별도로 발급받아 제출하거나, 발급처 및 발급시스템에서 출력한 자료를 개인이 수기로 입력하는 방식을 사용해야 하는 불편함이 있다. 이와 같이 각기 다른 형태로 발급되는 자료로 인해, 인적 자원 및 시간을 비효율적으로 사용할 수 밖에 없으며, 불필요한 인쇄 비용을 비롯하여 자료의 관리 및 보관에 자원과 시간이 낭비되는 문제가 있다. 일본 공개특허공보 특개2019-086860호(2019.06.06. 공개)에는 문서 핸들링 시스템이 개시되어 있다.

본 발명은 다양한 문서 형태의 입력 데이터로부터 필요로 하는 데이터를 효율적으로 추출하기 위한 데이터 추출 장치 및 방법, 기록 매체를 제공하기 위한 것이다.

또한, 본 발명은 입력 데이터를 출력한 후 사용자에 의해 수기 작업을 하거나 출력물을 별도로 관리하는데 소요되는 시간과 비용을 절감할 수 있는 데이터 추출 장치 및 방법, 기록 매체를 제공하기 위한 것이다.

본 발명의 실시예에 따른 데이터 추출 장치는, 다양한 문서 형태의 입력 데이터로부터 데이터를 추출하기 위한 데이터 추출 장치로서, 상기 입력 데이터의 문서 형태를 판단하는 문서 형태 판단부; 상기 입력 데이터의 문서 형태를 기반으로 상기 입력 데이터로부터 데이터를 추출하는 추출 방식을 결정하는 데이터 추출방식 결정부; 및 복수개의 추출 방식 중 상기 입력 데이터의 문서 형태를 기반으로 결정된 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 데이터 추출부를 포함한다.

상기 문서 형태 판단부는, 상기 입력 데이터를 미리 설정된 복수개의 문서 형태 중 어느 하나의 문서 형태로 분류하도록 구성될 수 있다. 상기 복수개의 문서 형태는, 광학식 문자 판독(OCR; Optical Character Recognition) 엔진에 의해 텍스트 인식이 가능한 제1 문서 형태; 웹 페이지로부터 스크래핑에 의해 데이터 추출이 가능한 제2 문서 형태; 문서 출력만 가능한 제3 문서 형태; 및 사용자에 의한 데이터 입력이 필요한 제4 문서 형태를 포함할 수 있다.

상기 데이터 추출방식 결정부는 미리 설정된 복수개의 추출 방식 중 상기 입력 데이터의 문서 형태에 대응되는 추출 방식을 결정할 수 있다. 상기 복수개의 추출 방식은, 상기 OCR 엔진에 의해 상기 입력 데이터로부터 데이터를 추출하는 제1 추출 방식; 상기 웹 페이지로부터 스크래핑에 의해 데이터를 추출하는 제2 추출 방식; 가상 프린터를 사용하여 인쇄 파일을 출력한 후 인쇄 파일에 대해 상기 OCR 엔진을 사용하여 데이터를 추출하는 제3 추출 방식; 및 템플릿 매칭을 기반으로 사용자 입력 영역을 추출하고 기 정의된 패턴에 따라 사용자 입력 영역을 자동으로 입력하여 데이터를 추출하는 제4 추출 방식을 포함할 수 있다.

상기 데이터 추출부는, 상기 입력 데이터의 문서 형태가 상기 제1 문서 형태에 해당하는 경우, 상기 제1 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하고; 상기 입력 데이터의 문서 형태가 상기 제2 문서 형태에 해당하는 경우, 상기 제2 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하고; 상기 입력 데이터의 문서 형태가 상기 제3 문서 형태에 해당하는 경우, 상기 제3 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하고; 그리고 상기 입력 데이터의 문서 형태가 상기 제4 문서 형태에 해당하는 경우, 상기 제4 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하도록 구성될 수 있다.

상기 입력 데이터의 문서 형태가 상기 제4 문서 형태에 해당하는 경우, 상기 데이터 추출부는, 상기 템플릿 매칭을 사용하여 상기 입력 데이터 중 내용을 입력해야 할 입력창에 해당하는 제1 오브젝트를 검출하고; 상기 템플릿 매칭을 사용하여 상기 입력 데이터 중 입력해야 할 버튼에 해당하는 제2 오브젝트를 검출하고; 상기 제1 오브젝트의 위치를 기반으로 상기 입력창을 검출하여 상기 입력창에 미리 설정된 내용을 자동 입력하고; 그리고 상기 제2 오브젝트의 위치를 기반으로 상기 버튼을 자동 입력하도록 구성될 수 있다.

상기 문서 형태 판단부는 상기 입력 데이터에 포함된 정보, 상기 입력 데이터의 확장자 정보, 상기 입력 데이터를 수집한 주소 정보 및 사용자에 의해 입력된 정보를 기반으로 상기 입력 데이터의 문서 형태를 판단할 수 있다.

본 발명의 실시예에 따른 데이터 추출 방법은, 다양한 문서 형태의 입력 데이터로부터 데이터를 추출하기 위한 데이터 추출 방법으로서, 문서 형태 판단부에 의해, 상기 입력 데이터의 문서 형태를 판단하는 단계; 데이터 추출방식 결정부에 의해, 상기 입력 데이터의 문서 형태를 기반으로 상기 입력 데이터로부터 데이터를 추출하는 추출 방식을 결정하는 단계; 및 데이터 추출부에 의해, 복수개의 추출 방식 중 상기 입력 데이터의 문서 형태를 기반으로 결정된 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계를 포함한다.

상기 문서 형태를 판단하는 단계는, 상기 입력 데이터를 미리 설정된 복수개의 문서 형태 중 어느 하나의 문서 형태로 분류하는 단계를 포함할 수 있다. 상기 복수개의 문서 형태는, 광학식 문자 판독(OCR; Optical Character Recognition) 엔진에 의해 텍스트 인식이 가능한 제1 문서 형태; 웹 페이지로부터 스크래핑에 의해 데이터 추출이 가능한 제2 문서 형태; 문서 출력만 가능한 제3 문서 형태; 및 사용자에 의한 데이터 입력이 필요한 제4 문서 형태를 포함할 수 있다.

상기 추출 방식을 결정하는 단계는, 미리 설정된 복수개의 추출 방식 중 상기 입력 데이터의 문서 형태에 대응되는 추출 방식을 결정하는 단계를 포함할 수 있다. 상기 복수개의 추출 방식은, 상기 OCR 엔진에 의해 상기 입력 데이터로부터 데이터를 추출하는 제1 추출 방식; 상기 웹 페이지로부터 스크래핑에 의해 데이터를 추출하는 제2 추출 방식; 가상 프린터를 사용하여 인쇄 파일을 출력한 후 인쇄 파일에 대해 상기 OCR 엔진을 사용하여 데이터를 추출하는 제3 추출 방식; 및 템플릿 매칭을 기반으로 사용자 입력 영역을 추출하고 기 정의된 패턴에 따라 사용자 입력 영역을 자동으로 입력하여 데이터를 추출하는 제4 추출 방식을 포함할 수 있다.

상기 데이터를 추출하는 단계는, 상기 입력 데이터의 문서 형태가 상기 제1 문서 형태에 해당하는 경우, 상기 제1 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계; 상기 입력 데이터의 문서 형태가 상기 제2 문서 형태에 해당하는 경우, 상기 제2 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계; 상기 입력 데이터의 문서 형태가 상기 제3 문서 형태에 해당하는 경우, 상기 제3 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계; 및 상기 입력 데이터의 문서 형태가 상기 제4 문서 형태에 해당하는 경우, 상기 제4 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계를 포함할 수 있다.

상기 입력 데이터의 문서 형태가 상기 제4 문서 형태에 해당하는 경우, 상기 데이터를 추출하는 단계는, 상기 템플릿 매칭을 사용하여 상기 입력 데이터 중 내용을 입력해야 할 입력창에 해당하는 제1 오브젝트를 검출하는 단계; 상기 템플릿 매칭을 사용하여 상기 입력 데이터 중 입력해야 할 버튼에 해당하는 제2 오브젝트를 검출하는 단계; 상기 제1 오브젝트의 위치를 기반으로 상기 입력창을 검출하여 상기 입력창에 미리 설정된 내용을 자동 입력하는 단계; 및 상기 제2 오브젝트의 위치를 기반으로 상기 버튼을 자동 입력하는 단계를 포함할 수 있다.

상기 문서 형태를 판단하는 단계는, 상기 입력 데이터에 포함된 정보, 상기 입력 데이터의 확장자 정보, 상기 입력 데이터를 수집한 주소 정보 및 사용자에 의해 입력된 정보를 기반으로 상기 입력 데이터의 문서 형태를 판단할 수 있다.

본 발명의 실시예에 따르면, 상기 데이터 추출 방법을 실행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체가 제공된다.

본 발명의 실시예에 의하면, 다양한 문서 형태의 입력 데이터로부터 필요로 하는 데이터를 효율적으로 추출할 수 있는 데이터 추출 장치 및 방법, 기록 매체가 제공된다.

또한, 본 발명의 실시예에 의하면, 입력 데이터를 출력한 후 수기 작업을 하거나 출력물을 별도로 관리하는데 소요되는 시간과 비용을 절감할 수 있는 데이터 추출 장치 및 방법, 기록 매체가 제공된다.

도 1은 본 발명의 실시예에 따른 데이터 추출 장치의 구성도이다.
도 2는 본 발명의 실시예에 따른 데이터 추출 방법의 순서도이다.
도 3 내지 도 5는 본 발명의 실시예에 따른 데이터 추출 방법을 설명하기 위한 예시도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 명세서에서, 어떤 부분이 어떤 구성요소를 '포함'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 본 명세서에서 사용되는 '~부'는 적어도 하나의 기능이나 동작을 처리하는 단위로서, 예를 들어 소프트웨어, FPGA 또는 하드웨어 구성요소를 의미할 수 있다. '~부'에서 제공하는 기능은 복수의 구성요소에 의해 분리되어 수행되거나, 다른 추가적인 구성요소와 통합될 수도 있다. 본 명세서의 '~부'는 반드시 소프트웨어 또는 하드웨어에 한정되지 않으며, 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.

본 발명의 실시예에 따른 데이터 추출 장치 및 방법은, 다양한 문서 형태의 입력 데이터로부터 데이터를 추출하기 위한 것으로, 입력 데이터의 문서 형태를 기반으로 입력 데이터로부터 데이터를 추출하는 추출 방식을 결정하고, 복수개의 추출 방식 중 입력 데이터의 문서 형태를 기반으로 결정된 추출 방식에 따라 입력 데이터로부터 데이터를 추출한다. 본 발명의 실시예에 의하면, 다양한 입력 데이터의 문서 형태에 따라 적절한 추출 방식으로 필요로 하는 데이터를 효율적으로 추출할 수 있다.

도 1은 본 발명의 실시예에 따른 데이터 추출 장치의 구성도이다. 도 1을 참조하면, 본 발명의 실시예에 따른 데이터 추출 장치(100)는 다양한 문서 형태의 입력 데이터로부터 데이터를 추출하기 위한 것으로, 문서 형태 판단부(120)와, 데이터 추출방식 결정부(140) 및 데이터 추출부(160)를 포함할 수 있다.

입력 데이터는 예를 들어, 자동차 등록증, 주민등록증, 가족관계 확인서, 부동산 종합증명서 등과 같이, 관공서, 공공기관 혹은 그밖의 다양한 기관 또는 발급시스템으로부터 조회, 발급할 수 있는 데이터를 포함할 수 있으나, 이에 제한되는 것은 아니다.

문서 형태 판단부(120)는 입력 데이터의 문서 형태를 판단할 수 있다. 문서 형태 판단부(120) 입력 데이터를 미리 설정된 복수개의 문서 형태 중 어느 하나의 문서 형태로 분류하도록 구성될 수 있다. 복수개의 문서 형태는 제1 내지 제4 문서 형태(122, 124, 126, 128)를 포함할 수 있다.

실시예에서, 문서 형태 판단부(120)는 입력 데이터에 포함된 정보, 입력 데이터의 확장자 정보, 입력 데이터를 수집한 주소 정보, 사용자 또는 관리자에 의해 입력된 정보(사용자 입력 값) 등에 의해 입력 데이터의 문서 형태를 판단할 수 있다.

제1 문서 형태(122)는 PDF 파일과 같이, 광학식 문자 판독(OCR; Optical Character Recognition) 엔진에 의해 텍스트 인식이 가능한 문서 형태일 수 있다. 제2 문서 형태(124)는 웹 페이지로부터 스크래핑에 의해 데이터 추출이 가능한 문서 형태일 수 있다.

제3 문서 형태(126)는 이미지 캡쳐나 스크래핑이 불가능하고 문서 출력만 가능한 문서 형태일 수 있다. 제4 문서 형태(128)는 예를 들어, 텍스트 입력, 버튼 클릭과 같은 사용자의 인터액션, 인증서 등에 의해 접근할 수 있는 데이터와 같이, 사용자에 의한 데이터 입력이 필요한 문서 형태일 수 있다.

데이터 추출방식 결정부(140)는 문서 형태 판단부(120)에 의해 판단되는 입력 데이터의 문서 형태를 기반으로 입력 데이터로부터 데이터를 추출하는 추출 방식을 결정할 수 있다. 데이터 추출방식 결정부(140)는 미리 설정된 복수개의 추출 방식 중 입력 데이터의 문서 형태에 대응되는 추출 방식을 결정할 수 있다. 복수개의 추출 방식은 제1 내지 제4 추출 방식(142, 144, 146, 148)을 포함할 수 있다.

제1 추출 방식(142)은 OCR 엔진에 의해 입력 데이터로부터 데이터를 추출(텍스트 인식 및 내용 발췌)하는 추출 방식일 수 있다. 제2 추출 방식(144)은 스크래퍼에 의해 웹 페이지로부터 웹 문서를 스크래핑하여 데이터를 추출하는 추출 방식일 수 있다.

제3 추출 방식(146)은 가상 프린터를 사용하여 인쇄 파일을 출력한 후 인쇄 파일에 대해 OCR 엔진을 사용하여 데이터를 추출하는 추출 방식일 수 있다. 제4 추출 방식(148)은 템플릿 매칭(template matching)을 기반으로 사용자 입력/선택 영역을 추출하고 기 정의된 패턴에 따라 사용자 입력/선택 영역에 미리 정의된 내용을 자동으로 입력하거나 선택(클릭)하여 데이터를 추출하는 추출 방식일 수 있다.

데이터 추출부(160)는 복수개의 데이터 추출 방식 중 입력 데이터의 문서 형태를 기반으로 결정된 추출 방식에 따라 입력 데이터로부터 데이터를 추출할 수 있다. 데이터 추출부(160)는 입력 데이터의 문서 형태에 따라, OCR 엔진(162), 스크래퍼(164), 가상 프린터(166) 및 템플릿 매칭부(168) 중 하나 이상을 선택하여 데이터를 추출할 수 있다.

데이터 추출부(160)는 입력 데이터의 문서 형태가 제1 문서 형태(122)에 해당하는 경우(예를 들어, 입력 데이터가 PDF와 같은 문서 파일 또는 인쇄물 형태로 제공되는 경우), 제1 추출 방식(142)에 따라 OCR 엔진(162)을 이용하여 텍스트를 추출하여 내용을 발췌함으로써, 입력 데이터로부터 데이터를 추출할 수 있다.

OCR 엔진(162)은 인쇄 문서의 영상을 이미지 스캐너로 획득하고, 이미지 스캔으로 얻은 문서의 활자 영상을 기계가 읽을 수 있고 컴퓨터가 편집 가능한 문자코드 등의 형식으로 변환할 수 있다. 데이터 추출부(160)는 예를 들어 입력 데이터가 이미지를 포함한 문서 형태로 제공되는 경우 OCR 엔진(162)을 통하여 텍스트를 인식하여 데이터를 추출할 수 있다.

데이터 추출부(160)는 입력 데이터의 문서 형태가 제2 문서 형태(124)에 해당하는 경우, 제2 추출 방식(144)에 따라 스크래퍼(164)에 의해 웹 페이지에 해당하는 입력 데이터를 스크래핑하여 데이터를 추출할 수 있다. 데이터 추출부(160)는 웹 어플리케이션 라이브러리인 셀레늄(Selenium)을 이용하여 대상 URL에 접속한 후 API를 이용하여 텍스트 형태로 해당 내용을 저장하여 데이터를 추출할 수 있다.

스크래퍼(164)는 예를 들어, 텍스트와 이미지가 혼합되어 있는 HTML 형식으로 구성된 구조화되지 않은 웹 문서(웹 사이트)를 스크래핑하여 구조화된 형태로 변환하여 데이터베이스나 스프레드시트에 저장 및 분석함으로써, 웹 사이트에 포함된 정보를 추출할 수 있다.

데이터 추출부(160)는 입력 데이터의 문서 형태가 제3 문서 형태(126)에 해당하는 경우(예를 들어, 캡쳐 방지 기술 등이 적용되어 직접 문서를 출력하는 방법만 가능한 경우), 제3 추출 방식(146)에 따라 가상 프린터(166)를 사용하여 입력 데이터에 대해 인쇄 파일(예를 들어, PDF 파일)을 출력(저장)한 후 인쇄 파일에 대해 OCR 엔진(162)을 사용하여 텍스트 인식 후 텍스트에서 필요한 내용을 발췌함으로써 입력 데이터로부터 데이터를 추출할 수 있다.

가상 프린터(166)는 소프트웨어적인 가상의 프린터 하드웨어 장치로서, 실제 프린터를 통해 출력물을 종이로 인쇄하는 것이 아니라, PDF 파일이나 TIFF 등의 컴퓨터 파일로 출력할 수 있다. 데이터 추출부(160)는 입력 데이터가 제3 문서 형태(126)에 해당하는 경우, 가상 프린터(166)로 인쇄 확인용 문서(예를 들어, PDF 파일)를 출력한 후, OCR 엔진(162)을 사용하여 데이터를 추출하고 내용을 발췌할 수 있다.

데이터 추출부(160)는 입력 데이터의 문서 형태가 제4 문서 형태(128)에 해당하는 경우(예를 들어, 텍스트 입력, 버튼 클릭과 같은 사용자와의 인터액션이 필요한 경우), 제4 추출 방식(138)에 따라 템플릿 매칭부(168)에 의해 템플릿 매칭을 기반으로 사용자 입력 영역을 추출하고 기 정의된 패턴에 따라 사용자 입력/선택 영역을 자동으로 입력/선택하여 입력 데이터로부터 데이터를 추출할 수 있다.

즉, 입력 데이터의 문서 형태가 사용자로부터 데이터 입력(사용자 인터액션)이 필요한 제4 문서 형태(128)에 해당하는 경우(예를 들어, 사용자가 내용을 입력하거나 버튼을 클릭해야 하는 경우나 인증서를 사용해야 하는 경우 등), 데이터 추출부(160)는 템플릿 매칭을 사용하여 기 정의된 패턴과 맞는 부분에 미리 가지고 있는 데이터를 자동으로 입력하거나 버튼을 자동 클릭함으로써 입력 데이터에서 내용을 발췌할 수 있다.

실시예에서, 입력 데이터의 문서 형태가 제4 문서 형태(128)에 해당하는 경우(예를 들어, 캡쳐/조작 불가능한 외부 공인 인증서 프로그램 등을 사용해야 접근할 수 있는 입력 데이터인 경우), 데이터 추출부(160)는 템플릿 매칭부(168)에 의해 템플릿 매칭을 기반으로 입력 데이터 중 내용을 입력해야 할 입력창에 해당하는 제1 오브젝트와, 입력 데이터 중 입력해야 할 버튼에 해당하는 제2 오브젝트를 검출한 후, 제1 오브젝트 및 제2 오브젝트의 위치를 기반으로 입력창과 버튼의 위치를 검출하여 입력창에 미리 설정된 내용을 자동 입력하고 버튼을 자동 입력하여 데이터를 추출할 수 있다.

실시예에서, 템플릿 매칭부(168)는 미리 정의된 입력창 및/또는 버튼에 해당하는 템플릿 영상을 입력 데이터의 일측(예를 들어, 좌측상단)으로부터 타측(예를 들어, 우측하단)으로 이동시키며 비교하는 방법을 통해 입력창 및/또는 버튼에 해당하는 오브젝트를 검출할 수 있다.

실시예에서, 템플릿 매칭부(168)는 제곱차 매칭, 정규화된 제곱차 매칭, 상관관계, 정규화된 상관관계 등의 방법을 기반으로 템플릿 영상과 입력 데이터 내의 영역 별 영상을 비교하여 입력창 및/또는 버튼 등에 해당하는 오브젝트를 검출할 수 있다.

이를 위해, 템플릿 매칭부(168)는 입력 데이터에 내용을 입력해야 할 입력창과 클릭해야 할 버튼에 대한 정보를 미리 정의하여 저장할 수 있으며, 해당 입력창 및 버튼에 해당하는 템플릿 매칭을 사용하여 입력창과 버튼에 해당하는 위치에 미리 정의된 값을 입력하거나 클릭하여 데이터를 추출할 수 있다.

도 2는 본 발명의 실시예에 따른 데이터 추출 방법의 순서도이다. 도 3 내지 도 5는 본 발명의 실시예에 따른 데이터 추출 방법을 설명하기 위한 예시도이다. 본 발명의 실시예에 따른 데이터 추출 방법은 예를 들어, 온라인 출력물을 대상으로 이미지 OCR, 스크래핑, 가상 프린터 및 템플릿 매칭에 의해 데이터를 추출할 수 있다. 본 발명의 실시예에 따른 데이터 추출 방법은 먼저 문서 형태 판단부(120)에 의해, 입력 데이터의 문서 형태를 판단할 수 있다(S120).

문서 형태 판단부(120)는 입력 데이터에 포함된 정보, 입력 데이터의 확장자 정보, 입력 데이터를 수집한 주소 정보, 사용자 또는 관리자에 의해 입력된 정보(사용자 입력 값) 등에 의해 입력 데이터의 문서 형태를 판단할 수 있다. 문서 형태 판단부(120)는 입력 데이터를 미리 설정된 복수개의 문서 형태 중 어느 하나의 문서 형태로 분류할 수 있다. 복수개의 문서 형태는 제1 내지 제4 문서 형태(122, 124, 126, 128)를 포함할 수 있다.

제1 문서 형태(122)는 광학식 문자 판독(OCR) 엔진에 의해 텍스트 인식이 가능한 문서 형태일 수 있다. 제2 문서 형태(124)는 웹 페이지로부터 스크래핑에 의해 데이터 추출이 가능한 문서 형태일 수 있다. 제3 문서 형태(126)는 문서 출력만 가능한 문서 형태일 수 있다. 제4 문서 형태(128)는 사용자에 의한 데이터 입력이 필요한 문서 형태일 수 있다.

데이터 추출방식 결정부(140)는 문서 형태 판단부(120)에 의해 판단되는 입력 데이터의 문서 형태를 기반으로 입력 데이터로부터 데이터를 추출하는 추출 방식을 결정할 수 있다(S140). 데이터 추출방식 결정부(140)는 미리 설정된 복수개의 추출 방식 중 입력 데이터의 문서 형태에 대응되는 추출 방식을 결정할 수 있다. 복수개의 추출 방식은 제1 내지 제4 추출 방식(142, 144, 146, 148)을 포함할 수 있다.

제1 추출 방식(142)은 OCR 엔진에 의해 입력 데이터로부터 데이터를 추출하는 추출 방식일 수 있다. 제2 추출 방식(144)은 웹 페이지로부터 스크래핑에 의해 데이터를 추출하는 추출 방식일 수 있다. 제3 추출 방식(146)은 가상 프린터를 사용하여 인쇄 파일을 출력한 후 인쇄 파일에 대해 OCR 엔진을 사용하여 데이터를 추출하는 추출 방식일 수 있다. 제4 추출 방식(148)은 템플릿 매칭을 기반으로 사용자 입력 영역을 추출하고 기 정의된 패턴에 따라 사용자 입력/선택 영역을 자동으로 입력/선택하여 데이터를 추출하는 추출 방식일 수 있다.

데이터 추출부(160)는 복수개의 추출 방식 중 입력 데이터의 문서 형태를 기반으로 결정된 추출 방식에 따라 입력 데이터로부터 데이터를 추출할 수 있다(S160). 데이터 추출부(160)는 입력 데이터의 문서 형태에 따라, OCR 엔진(162), 스크래퍼(164), 가상 프린터(166) 및 템플릿 매칭부(168) 중 하나 이상을 선택하여 데이터를 추출할 수 있다.

데이터 추출부(160)는 입력 데이터의 문서 형태가 제1 문서 형태(122)에 해당하는 경우(예를 들어, 입력 데이터가 PDF와 같은 문서 파일 또는 인쇄물 형태로 제공되는 경우), 도 3에 도시된 바와 같이, 제1 추출 방식(142)에 따라 OCR 엔진(162)을 이용하여 텍스트(10)를 추출하여 내용을 발췌함으로써, 입력 데이터로부터 데이터를 추출할 수 있다.

OCR 엔진(162)은 인쇄 문서의 영상을 이미지 스캐너로 획득하고, 이미지 스캔으로 얻은 문서의 활자 영상을 기계가 읽을 수 있고 컴퓨터가 편집 가능한 문자코드 등의 형식으로 변환할 수 있다. 데이터 추출부(160)는 예를 들어 입력 데이터가 이미지를 포함한 문서 형태로 제공되는 경우 OCR 엔진(162)을 통하여 텍스트를 인식하고, 출력 값으로 나온 문서에 대하여 기 정의해 놓은 패턴에 맞게 데이터를 추출할 수 있다.

데이터 추출부(160)는 입력 데이터의 문서 형태가 제2 문서 형태(124)에 해당하는 경우, 도 4에 도시된 바와 같이, 제2 추출 방식(144)에 따라 스크래퍼(164)에 의해 웹 페이지에 해당하는 입력 데이터를 스크래핑하여 데이터(20)를 추출할 수 있다.

데이터 추출부(160)는 예를 들어, 웹 어플리케이션 라이브러리인 셀레늄(Selenium)을 이용하여 대상 URL(Uniform Resource Locator) 웹 페이지에 접속한 후 응용 프로그램 인터페이스(API; Application Program Interface)를 이용하여 텍스트 형태로 해당 내용을 저장하여 데이터를 추출할 수 있다.

스크래퍼(164)는 텍스트와 이미지가 혼합되어 있는 HTML 형식으로 구성된 구조화되지 않은 웹 문서(웹 사이트)를 스크래핑하여 구조화된 형태로 변환하여 데이터베이스나 스프레드시트에 저장 및 분석함으로써, 웹 사이트에 포함된 정보를 추출할 수 있다.

데이터 추출부(160)는 입력 데이터의 문서 형태가 제3 문서 형태(126)에 해당하는 경우(예를 들어, 캡쳐 방지 기술 등이 적용되어 직접 문서를 출력하는 방법만 가능한 경우), 제3 추출 방식(146)에 따라 가상 프린터(166)를 사용하여 입력 데이터에 대해 인쇄 파일(예를 들어, PDF 파일)을 출력(저장)한 후 인쇄 파일에 대해 OCR 엔진(162)을 사용하여 텍스트를 인식하고 텍스트로부터 내용을 발췌함으로써 입력 데이터로부터 데이터를 추출할 수 있다.

가상 프린터(166)는 소프트웨어적인 가상의 프린터 하드웨어 장치로서, 실제 프린터를 통해 출력물을 종이로 인쇄하는 것이 아니라, PDF 파일이나 TIFF 등의 컴퓨터 파일로 출력할 수 있다. 데이터 추출부(160)는 입력 데이터가 제3 문서 형태(126)에 해당하는 경우, 도 5에 도시된 바와 같이, 가상 프린터(166)로 인쇄 확인용 문서(예를 들어, PDF 파일)(30)를 출력한 후, OCR 엔진(162)을 사용하여 데이터(40, 50)를 추출하고 내용을 발췌할 수 있다.

데이터 추출부(160)는 입력 데이터의 문서 형태가 제4 문서 형태(128)에 해당하는 경우(예를 들어, 텍스트 입력, 버튼 클릭과 같은 사용자와의 인터액션이 필요한 경우), 제4 추출 방식(138)에 따라 템플릿 매칭부(168)에 의해 템플릿 매칭을 기반으로 사용자 입력 영역을 추출하고 기 정의된 패턴에 따라 사용자 입력 영역을 자동으로 입력하여 입력 데이터로부터 데이터를 추출할 수 있다.

즉, 입력 데이터의 문서 형태가 사용자로부터 데이터 입력이 필요한 제4 문서 형태(128)에 해당하는 경우, 데이터 추출부(160)는 템플릿 매칭을 사용하여 기 정의된 패턴과 맞는 부분에 미리 가지고 있는 데이터를 자동으로 입력하거나 버튼을 자동 클릭함으로써 입력 데이터에서 내용을 발췌할 수 있다.

실시예에서, 입력 데이터의 문서 형태가 제4 문서 형태(128)에 해당하는 경우(예를 들어, 캡쳐/조작 불가능한 외부 공인 인증서 프로그램 등을 사용해야 접근할 수 있는 입력 데이터인 경우), 데이터 추출부(160)는 템플릿 매칭을 사용하여 입력 데이터 중 내용을 입력해야 할 입력창의 형태를 가지는 제1 오브젝트와, 입력 데이터 중 입력해야 할 버튼의 형태를 가지는 제2 오브젝트를 검출하고, 제1 오브젝트 및 제2 오브젝트의 위치를 기반으로 입력창과 버튼의 위치를 검출하여 입력창에 미리 설정된 내용을 자동 입력하고 버튼을 자동 입력하여 데이터를 추출할 수 있다.

이를 위해, 템플릿 매칭부(168)는 입력 데이터에 내용을 입력해야 할 입력창과 클릭해야 할 버튼에 대한 정보를 미리 정의해두고, 템플릿 매칭을 사용하여 입력창과 버튼에 해당하는 위치에 미리 정의된 값을 입력하거나 클릭하여 데이터를 추출할 수 있다. 실시예에서, 템플릿 매칭부(168)는 제곱차 매칭, 정규화된 제곱차 매칭, 상관관계, 정규화된 상관관계 등의 방법을 기반으로 템플릿 영상과 입력 데이터의 영상을 비교하여 오브젝트를 검출할 수 있다.

본 발명의 실시예에 의하면, 예를 들어 금융사의 데이터를 스크래핑하여 스코어링 서비스를 제공하는 신용평가 목적, 부동산이나 자동차 관련 증명서 혹은 그 밖의 다양한 조회/발급 데이터에서 필요한 데이터를 추출할 수 있으며, 자동화된 데이터 추출을 위해 다양한 플랫폼 또는 발급시스템에서 제공하는 문서 형태에 따라 상이한 데이터 추출 방식을 사용하여 데이터를 효율적으로 수집할 수 있다.

본 발명의 실시예에 의하면, 다양한 형태의 입력 데이터(예를 들어, 웹 페이지 및 문서)에 대해서 효율적인 데이터 추출이 가능하며, 입력 데이터를 프린터에 의해 출력한 후 사용자에 의해 수기 작업을 하거나 출력물을 별도로 관리하는데 소요되는 시간과 비용을 절감할 수 있다.

본 발명의 실시예에 의하면, 효과적인 정보 취합 및 관리 시스템을 구축하는데 활용될 수 있으며, 스크래핑 대상에 따라 신용점수 평가와 같은 활용도 높은 스코어링 서비스 제공이 가능하다. 또한, 개인정보 서류를 제3자에게 오픈하지 않고 인증 절차와 같이 활용 가능하다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/ 또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(Digital Signal Processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다.

처리 장치는 운영 체제 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술 분야에서 통상의 지식을 가진 자는 처리 장치가 복수 개의 처리 요소(Processing Element) 및/또는 복수 유형의 처리요소를 포함할 수 있음을 이해할 것이다.

예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(Parallel Processor) 와 같은, 다른 처리 구성(Processing configuration)도 가능하다. 소프트웨어는 컴퓨터 프로그램(Computer Program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.

소프트웨어 및/ 또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody) 될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CDROM, DVD와 같은 광기록 매체(optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

100: 데이터 추출 장치
120: 문서 형태 판단부
140: 데이터 추출방식 결정부
160: 데이터 추출부
162: OCR 엔진
164: 스크래퍼
166: 가상 프린터
168: 템플릿 매칭부

Claims

다양한 문서 형태의 입력 데이터로부터 데이터를 추출하기 위한 데이터 추출 장치로서,
상기 입력 데이터의 문서 형태를 판단하는 문서 형태 판단부;
상기 입력 데이터의 문서 형태를 기반으로 상기 입력 데이터로부터 데이터를 추출하는 추출 방식을 결정하는 데이터 추출방식 결정부; 및
복수개의 추출 방식 중 상기 입력 데이터의 문서 형태를 기반으로 결정된 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 데이터 추출부를 포함하고,
상기 입력 데이터의 문서 형태가 미리 설정된 복수개의 문서 형태 중 사용자에 의한 데이터 입력이 필요한 문서 형태에 해당하는 경우, 상기 데이터 추출부는,
템플릿 매칭을 사용하여 상기 입력 데이터 중 내용을 입력해야 할 입력창에 해당하는 제1 오브젝트를 검출하고;
상기 템플릿 매칭을 사용하여 상기 입력 데이터 중 입력해야 할 버튼에 해당하는 제2 오브젝트를 검출하고;
상기 제1 오브젝트의 위치를 기반으로 상기 입력창을 검출하여 상기 입력창에 미리 설정된 내용을 자동 입력하고; 그리고
상기 제2 오브젝트의 위치를 기반으로 상기 버튼을 자동 입력하도록 구성되는, 데이터 추출 장치.
제1항에 있어서,
상기 문서 형태 판단부는,
상기 입력 데이터를 상기 미리 설정된 복수개의 문서 형태 중 어느 하나의 문서 형태로 분류하도록 구성되고,
상기 복수개의 문서 형태는,
광학식 문자 판독(OCR; Optical Character Recognition) 엔진에 의해 텍스트 인식이 가능한 제1 문서 형태; 웹 페이지로부터 스크래핑에 의해 데이터 추출이 가능한 제2 문서 형태; 문서 출력만 가능한 제3 문서 형태; 및 사용자에 의한 데이터 입력이 필요한 제4 문서 형태를 포함하는, 데이터 추출 장치.
제2항에 있어서,
상기 데이터 추출방식 결정부는 미리 설정된 복수개의 추출 방식 중 상기 입력 데이터의 문서 형태에 대응되는 추출 방식을 결정하고,
상기 복수개의 추출 방식은,
상기 OCR 엔진에 의해 상기 입력 데이터로부터 데이터를 추출하는 제1 추출 방식; 상기 웹 페이지로부터 스크래핑에 의해 데이터를 추출하는 제2 추출 방식; 가상 프린터를 사용하여 인쇄 파일을 출력한 후 인쇄 파일에 대해 상기 OCR 엔진을 사용하여 데이터를 추출하는 제3 추출 방식; 및 상기 템플릿 매칭을 기반으로 사용자 입력 영역을 추출하고 기 정의된 패턴에 따라 사용자 입력 영역을 자동으로 입력하여 데이터를 추출하는 제4 추출 방식을 포함하는, 데이터 추출 장치.
제3항에 있어서,
상기 데이터 추출부는,
상기 입력 데이터의 문서 형태가 상기 제1 문서 형태에 해당하는 경우, 상기 제1 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하고;
상기 입력 데이터의 문서 형태가 상기 제2 문서 형태에 해당하는 경우, 상기 제2 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하고;
상기 입력 데이터의 문서 형태가 상기 제3 문서 형태에 해당하는 경우, 상기 제3 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하고; 그리고
상기 입력 데이터의 문서 형태가 상기 제4 문서 형태에 해당하는 경우, 상기 제4 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하도록 구성되는, 데이터 추출 장치.
삭제
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 문서 형태 판단부는 상기 입력 데이터에 포함된 정보, 상기 입력 데이터의 확장자 정보, 상기 입력 데이터를 수집한 주소 정보 및 사용자에 의해 입력된 정보를 기반으로 상기 입력 데이터의 문서 형태를 판단하는, 데이터 추출 장치.
다양한 문서 형태의 입력 데이터로부터 데이터를 추출하기 위한 데이터 추출 방법으로서,
문서 형태 판단부에 의해, 상기 입력 데이터의 문서 형태를 판단하는 단계;
데이터 추출방식 결정부에 의해, 상기 입력 데이터의 문서 형태를 기반으로 상기 입력 데이터로부터 데이터를 추출하는 추출 방식을 결정하는 단계; 및
데이터 추출부에 의해, 복수개의 추출 방식 중 상기 입력 데이터의 문서 형태를 기반으로 결정된 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계를 포함하고,
상기 입력 데이터의 문서 형태가 미리 설정된 복수개의 문서 형태 중 사용자에 의한 데이터 입력이 필요한 문서 형태에 해당하는 경우, 상기 데이터를 추출하는 단계는,
템플릿 매칭을 사용하여 상기 입력 데이터 중 내용을 입력해야 할 입력창에 해당하는 제1 오브젝트를 검출하는 단계;
상기 템플릿 매칭을 사용하여 상기 입력 데이터 중 입력해야 할 버튼에 해당하는 제2 오브젝트를 검출하는 단계;
상기 제1 오브젝트의 위치를 기반으로 상기 입력창을 검출하여 상기 입력창에 미리 설정된 내용을 자동 입력하는 단계; 및
상기 제2 오브젝트의 위치를 기반으로 상기 버튼을 자동 입력하는 단계를 포함하는, 데이터 추출 방법.
제7항에 있어서,
상기 문서 형태를 판단하는 단계는,
상기 입력 데이터를 상기 미리 설정된 복수개의 문서 형태 중 어느 하나의 문서 형태로 분류하는 단계를 포함하고,
상기 복수개의 문서 형태는,
광학식 문자 판독(OCR; Optical Character Recognition) 엔진에 의해 텍스트 인식이 가능한 제1 문서 형태; 웹 페이지로부터 스크래핑에 의해 데이터 추출이 가능한 제2 문서 형태; 문서 출력만 가능한 제3 문서 형태; 및 사용자에 의한 데이터 입력이 필요한 제4 문서 형태를 포함하는, 데이터 추출 방법.
제8항에 있어서,
상기 추출 방식을 결정하는 단계는, 미리 설정된 복수개의 추출 방식 중 상기 입력 데이터의 문서 형태에 대응되는 추출 방식을 결정하는 단계를 포함하고,
상기 복수개의 추출 방식은,
상기 OCR 엔진에 의해 상기 입력 데이터로부터 데이터를 추출하는 제1 추출 방식; 상기 웹 페이지로부터 스크래핑에 의해 데이터를 추출하는 제2 추출 방식; 가상 프린터를 사용하여 인쇄 파일을 출력한 후 인쇄 파일에 대해 상기 OCR 엔진을 사용하여 데이터를 추출하는 제3 추출 방식; 및 상기 템플릿 매칭을 기반으로 사용자 입력 영역을 추출하고 기 정의된 패턴에 따라 사용자 입력 영역을 자동으로 입력하여 데이터를 추출하는 제4 추출 방식을 포함하는, 데이터 추출 방법.
제9항에 있어서,
상기 데이터를 추출하는 단계는,
상기 입력 데이터의 문서 형태가 상기 제1 문서 형태에 해당하는 경우, 상기 제1 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계;
상기 입력 데이터의 문서 형태가 상기 제2 문서 형태에 해당하는 경우, 상기 제2 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계;
상기 입력 데이터의 문서 형태가 상기 제3 문서 형태에 해당하는 경우, 상기 제3 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계; 및
상기 입력 데이터의 문서 형태가 상기 제4 문서 형태에 해당하는 경우, 상기 제4 추출 방식에 따라 상기 입력 데이터로부터 데이터를 추출하는 단계를 포함하는, 데이터 추출 방법.
삭제
제7항에 있어서,
상기 문서 형태를 판단하는 단계는, 상기 입력 데이터에 포함된 정보, 상기 입력 데이터의 확장자 정보, 상기 입력 데이터를 수집한 주소 정보 및 사용자에 의해 입력된 정보를 기반으로 상기 입력 데이터의 문서 형태를 판단하는, 데이터 추출 방법.
제7항 내지 제10항, 제12항 중 어느 한 항의 데이터 추출 방법을 실행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.