KR102179792B1 - 웹 브라우저 기반 스크래핑 시스템 및 방법 - Google Patents

웹 브라우저 기반 스크래핑 시스템 및 방법 Download PDF

Info

Publication number
KR102179792B1
KR102179792B1 KR1020180098245A KR20180098245A KR102179792B1 KR 102179792 B1 KR102179792 B1 KR 102179792B1 KR 1020180098245 A KR1020180098245 A KR 1020180098245A KR 20180098245 A KR20180098245 A KR 20180098245A KR 102179792 B1 KR102179792 B1 KR 102179792B1
Authority
KR
South Korea
Prior art keywords
scraping
server
client
web browser
relay server
Prior art date
Application number
KR1020180098245A
Other languages
English (en)
Other versions
KR20200022289A (ko
Inventor
박영준
Original Assignee
주식회사 핑거
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 핑거 filed Critical 주식회사 핑거
Priority to KR1020180098245A priority Critical patent/KR102179792B1/ko
Priority to PCT/KR2019/010664 priority patent/WO2020040556A1/ko
Publication of KR20200022289A publication Critical patent/KR20200022289A/ko
Application granted granted Critical
Publication of KR102179792B1 publication Critical patent/KR102179792B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/33User authentication using certificates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/66Arrangements for connecting between networks having differing types of switching systems, e.g. gateways
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/16Implementing security features at a particular protocol layer
    • H04L63/166Implementing security features at a particular protocol layer at the transport layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

본 발명은 웹 브라우저 기반 스크래핑 시스템 및 방법에 관한 것으로서, 웹 브라우저 기반 스크래핑 시스템은 클라이언트 기기에 설치되며, 타겟서버에 접속할 수 있는 사용자 인증서가 저장되어 있으며, 사용자의 스크래핑 요청을 받아들이는 웹 브라우저; 웹 브라우저로부터 스크래핑 요청을 수신하는 스크래핑 엔진; 스크래핑에 필요한 타겟서버의 요구사항을 만족하는 전문을 생성하는 중계서버; 및 중계서버로부터 스크래핑 요청과 전문을 수신하고, 중계서버의 IP와는 다른 IP 로 타겟서버에 접속하여 스크래핑하고, 스크래핑한 데이터를 중계서버로 전달하며, 각각 다른 IP를 갖는 복수의 보안 게이트웨이; 복수의 보안 게이트웨이의 IP들과 동작 상태를 관리하는 스크래핑 관리서버(SMS)를 포함하고, 보안 게이트웨이는 기동하면 자신의 IP 정보와 사용 준비 완료 상태를 스크래핑 관리서버로 전송하고, 중계서버는 웹브라우저로부터 스크래핑 요청을 수신하면 스크래핑 관리서버에게 보안 게이트웨이의 IP를 요청하며, 스크래핑 관리서버는 복수의 보안 게이트웨이 중 하나를 선택하여 선택된 보안 게이트웨이의 IP를 상기 중계서버로 전달하고, 스크래핑 엔진은 서비스 스크립트와 클라이언트의 인증서 정보가 포함된 스크래핑 요청 정보를 상기 중계서버로 전달한다.

Description

웹 브라우저 기반 스크래핑 시스템 및 방법{SYSTEM AND METHOD FOR SCRAPING BASED ON WEB BROWSER}
본 발명은 스크래핑에 관한 것으로서, 특히 웹 브라우저 기반 스크래핑 시스템 및 방법에 관한 것이다.
스크래핑(scraping)이란 네트워크로 연결된 인터넷 시스템에 자동으로 접속해 데이터를 화면에 나타낸 후 필요한 데이터만을 추출하도록 만들어진 기술 또는 프로그램으로, 웹 사이트나 프로그램의 정보를 수집한 후 다른 프로그램이나 데이터베이스에 저장하여 필요할 때마다 조회하거나 사용할 수 있으며 저장된 데이터를 비교 분석하여 새로운 데이터를 생성할 수도 있다.
이러한 스크래핑 기술을 이용하는 분야로는 각 금융 기관에 흩어져 있는 금융 자산을 통합해 한 번에 조회, 이체 등의 거래를 관리하는 계좌 통합 관리 분야, 여러 웹 메일을 사용하는 경우 한 번에 모든 메일을 종합적으로 확인할 수 있는 이메일 통합 조회 분야 등이 있다.
종래에는 두 가지 방식으로 스크래핑을 수행하였다. 첫째는 PC 스크래핑으로 PC에 별도의 스크래핑 모듈을 설치해서 스크래핑 모듈을 통해 스크래핑을 수행하여 결과를 받았다. PC 스크래핑은 인증서가 PC에 저장되어 있다. 둘째는 모바일 앱 스크래핑으로 모바일 앱에서 정보를 보내서 결과를 받는다. 모바일 앱 스크래핑은 인증서가 모바일 기기에 저장되어 있다.
PC 스크래핑은 스크래핑 모듈을 PC에 설치하고 인증서도 PC에 저장되어 있어야 하며, 모바일 기기(예: 스마트 폰)를 이용해 스크래핑을 하기 위해서는 별도로 스크래핑을 위한 앱을 모바일에 설치해서 인증서도 모바일 기기에 저장해서 스크래핑 하는 불편함이 있었다.
등록특허공보 제10-1815235호(2017.12.28)
본 발명이 해결하고자 하는 과제는 상술한 문제점을 해결하기 위해 창출된 것으로서, 다양한 고객별 수요와 변화를 반영할 수 있도록 운영체제 제약이 없는 표준 웹 기반의 유연한 서비스를 제공할 수 있으며, 고객 시스템 내에 앱, PC모듈, 서버 등 별도의 설치 없이 쉽게 적용할 수 있는, 웹 브라우저 기반 스크래핑 시스템 및 방법을 제공하는 것이다.
상기 기술적 과제를 이루기 위한 본 발명에 의한 웹 브라우저 기반 스크래핑 시스템은, 클라이언트 기기에 설치되며, 스크래핑 대상 정보가 있는 타겟서버에 접속할 수 있는 사용자 인증서가 저장되어 있으며, 사용자의 스크래핑 요청을 받아들이는 웹 브라우저; 상기 웹 브라우저로부터 스크래핑 요청을 수신하는 스크래핑 엔진; 스크래핑에 필요한 타겟서버의 요구사항을 만족하는 정보(전문)를 생성하는 중계서버(WSGS); 및 상기 중계서버로부터 스크래핑 요청과 전문을 수신하고, 상기 중계서버의 IP와는 다른 IP 로 상기 타겟서버에 접속하여 스크래핑하고, 스크래핑한 데이터를 상기 중계서버로 전달하며, 각각 다른 IP를 갖는 복수의 보안 게이트웨이(SG); 상기 복수의 보안 게이트웨이의 IP들과 동작 상태를 관리하는 스크래핑 관리서버(SMS)를 포함하고, 상기 보안 게이트웨이는 기동하면 자신의 IP 정보와 사용 준비 완료 상태를 상기 스크래핑 관리서버로 전송하고, 상기 중계서버는 상기 웹브라우저로부터 스크래핑 요청을 수신하면 상기 스크래핑 관리서버에게 보안 게이트웨이의 IP를 요청하며, 상기 스크래핑 관리서버는 상기 복수의 보안 게이트웨이 중 하나를 선택하여 선택된 보안 게이트웨이의 IP를 상기 중계서버로 전달하고, 상기 스크래핑 엔진은 서비스 스크립트와 상기 클라이언트의 인증서 정보가 포함된 스크래핑 요청 정보를 상기 중계서버로 전달하는 것을 특징으로 한다.
본 발명에 의한 웹 브라우저 기반 스크래핑 시스템은, 스크래핑에 필요한 서비스 스크립트와 클라이언트의 스크래핑 라이선스 정보를 관리하는 클라이언트 관리 서버(SSLS)를 더 포함하고, 상기 웹 브라우저는 클라이언트로부터 스크래핑 요청을 받으면 상기 스크래핑 엔진을 통해 상기 클라이언트 관리 서버(SSLS)에게 서비스 스크립트를 요청하고, 상기 클라이언트 관리 서버는 상기 클라이언트의 스크래핑 라이선스를 검증하여 정상 사용자일 경우 상기 스크래핑 엔진에게 서비스 스크립트를 전달하는 것을 특징으로 한다. 상기 중계서버, 복수의 보안 게이트웨이, 스크래핑 관리서버 및 클라이언트 관리서버는 클라우드 웹서비스 플랫폼에서 제공되는 것을 특징으로 한다. 상기 복수의 보안 게이트웨이의 IP는 상기 클라우드 웹서비스 플랫폼에 의해 제공되는 것을 특징으로 한다. 상기 복수의 보안 게이트웨이는 비동기적 연결을 제공하며, 구간 간(end-to-end) 통신시 직접 타겟서버에 접속한 것과 동일한 보안 수준을 제공하며, SSL(Secure Socket Layer) 통신시 세션(session) 중간에 복호화하지 않고 암호문 상태를 유지하는 것을 특징으로 한다.
상기 기술적 과제를 이루기 위한 본 발명에 의한 웹 브라우저 기반 스크래핑 방법은, 웹 브라우저가 클라이언트로부터 타겟서버에 대한 스크래핑 요청을 받으면, 스크래핑 엔진(120)에게 상기 클라이언트의 스크래핑 요청과 사용자 인증서를 전달하는 단계; 스크래핑 엔진은 상기 스크래핑에 대한 서비스 스크립트와 상기 사용자 인증서를 중계서버로 전송하는 단계; 중계서버는 스크래핑에 필요한 타겟서버의 요구사항을 만족하는 정보(전문)를 구성하고, 상기 사용자 인증서, 서비스 스크립트 및 상기 전문을 개인정보 유지 프로토콜(SSL)을 이용하여 보안 게이트웨이에게 전송하는 단계; 상기 보안 게이트웨이는 상기 중계서버의 IP와는 다른 IP를 통해 상기 전문과 사용자 인증서 정보 및 서비스 스크립트를 이용하여 상기 타겟서버에 접속하여 스크래핑하는 단계; 및 상기 웹브라우저는 상기 보안 게이트웨이와 중계서버 및 스크래핑 엔진을 통해 스크래핑한 정보를 수신하는 단계를 포함하고, 상기 중계서버가 상기 타겟서버에 접속할 때 마다 IP가 다른 보안 게이트웨이를 할당 받아 상기 할당 받은 보안 게이트웨이를 통해 상기 타겟 서버에 접속하는 것을 특징으로 한다.
본 발명에 의한 웹 브라우저 기반 스크래핑 방법은, 상기 스크래핑 엔진이 상기 웹 브라우저로부터 클라이언트의 스크래핑 요청을 수신하면 클라이언트 관리 서버로에게 서비스 스크립트를 요청하는 단계; 및 상기 클라이언트 관리서버는 상기 클라이언트의 스크래핑 라이선스를 검증하여 정당한 클라이언트이면 서비스 스크립트를 상기 스크래핑 서버에게 제공하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 의한 웹 브라우저 기반 스크래핑 방법은, 상기 보안 게이트웨이는 기동하면 자신의 IP와 사용준비 완료 메시지를 스크래핑 관리서버로 전송하는 단계; 상기 스크래핑 관리서버는 상기 보안 게이트웨이의 IP와 사용준비 상태를 저장하고 관리하는 단계; 상기 중계서버는 상기 스크래핑 엔진으로부터 클라이언트의 스크래핑 요청을 수신하면, 상기 스크래핑 관리서버에게 보안 게이트웨이 IP를 요청하는 단계; 상기 스크래핑 관리서버는 보안 게이트웨이의 동작상태를 보고 사용 준비된 보안 게이트웨이의 IP를 상기 중계서버로 전송하는 단계를 더 포함한다.
상기 보안 게이트웨이는 비동기적 연결을 제공하며, 구간 간(end-to-end) 통신시 직접 타겟서버에 접속한 것과 동일한 보안 수준을 제공하며, SSL(Secure Socket Layer) 통신시 세션(session) 중간에 복호화하지 않고 암호문 상태를 유지한다.
상기 기술적 과제를 이루기 위한 본 발명에 의한 웹 브라우저 기반 스크래핑 시스템은, 클라이언트 기기에 설치되며, 스크래핑 대상 정보가 있는 타겟서버에 접속할 수 있는 사용자 인증서가 저장되어 있으며, 사용자의 스크래핑 요청을 받아들이는 웹 브라우저; 상기 웹 브라우저로부터 스크래핑 요청을 수신하는 스크래핑 엔진; 스크래핑에 필요한 타겟서버의 요구사항을 만족하는 정보(전문)를 생성하는 중계서버(WSGS); 상기 중계서버로부터 스크래핑 요청과 전문을 수신하고, 상기 중계서버의 IP와는 다른 IP 로 상기 타겟서버에 접속하여 스크래핑하고, 스크래핑한 데이터를 상기 중계서버로 전달하며, 각각 다른 IP를 갖는 복수의 보안 게이트웨이(SG); 및 상기 복수의 보안 게이트웨이의 IP들과 동작 상태를 관리하는 고객사 서버를 포함하고, 상기 보안 게이트웨이는 기동하면 자신의 IP 정보와 사용 준비 완료 상태를 상기 고객사 서버로 전송하고, 상기 중계서버는 상기 웹브라우저로부터 스크래핑 요청을 수신하면 상기 고객사서버에게 보안 게이트웨이의 IP를 요청하며, 상기 고객사서버는 상기 복수의 보안 게이트웨이 중 사용준비 상태인 하나를 선택하여 선택된 보안 게이트웨이의 IP를 상기 중계서버로 전달하고, 상기 스크래핑 엔진은 서비스 스크립트와 상기 클라이언트의 인증서 정보가 포함된 스크래핑 요청 정보를 상기 중계서버로 전달한다.
본 발명에 따른 웹 브라우저 기반 스크래핑 시스템 및 방법에 의하면, 고객사의 서비스 앱에 제한 없이 사용할 수 있고, HTML 5를 지원하는 브라우저라면 단말의 종류에 제한없이 실행할 수 있다.
그리고 본 발명에 의하면, 하나의 개별 언어로 구성되었고, 별도의 앱 설치나 업데이트(update) 없이 스크립트 적용만으로 사용할 수 있고 유지보수에 편리하다.
또한 대상기관이나 데이터 종류의 추가 변경이 자유롭고 모듈 설치 등 별도의 작업없이 쉽게 적용 가능해 서비스 확장이 용이하다.
도 1은 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 구성에 대한 일실시예를 블록도로 나타낸 것이다.
도 2는 본 발명에 따른 웹 브라우저 기반 스크래핑 방법에 대한 일실시예를 타이밍도로 나타낸 것이다.
도 3은 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 구성에 대한 다른 실시예를 블록도로 나타낸 것이다.
도 4 및 도 5는 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 제1실시예의 전체 구성도이다.
도 6 및 도 7은 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 제2실시예의 전체 구성도이다.
도 8은 HTML 5 기반의 클라이언트의 구성을 블록도로 나타낸 것이다.
도 9는 구간 암호화(E2E, End-to-End) 측면에서 Secure Gateway(SG)와 Proxy를 비교한 것
도 10은 스크래핑 과정에서 중계서버(WSGS), 보안 게이트웨이(SG) 및 스크래핑 관리서버(SMS) 간의 통신 절차를 나타낸 것이다.
이하, 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 바람직한 일 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원 시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1은 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 구성에 대한 일실시예를 블록도로 나타낸 것이다. 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 구성에 대한 일실시예는 웹브라우저(110), 스크래핑 엔진(120), 중계서버(WSGS, 130), 복수의 보안 게이트웨이(140, 145) 및 스크래핑 관리서버(SMS, 150)를 포함하여 이루어진다. 그리고 클라이언트 관리 서버(SSLS, 160)를 더 포함할 수 있다.
웹브라우저(110)는 클라이언트 기기(미도시)에 설치되며, 스크래핑 대상 정보가 있는 타겟서버(170, 175)에 접속할 수 있는 사용자 인증서가 저장되어 있으며, 클라이언트로부터 스크래핑 요청을 받아들인다. 웹 브라우저(110)는 클라이언트로부터 스크래핑 요청을 받으면 스크래핑 엔진(120)을 통해 클라이언트 관리 서버(SSLS, 160)에게 서비스 스크립트를 요청한다.
스크래핑 엔진(120)는 웹 브라우저(110)로부터 스크래핑 요청을 수신한다.
중계서버(WSGS, 130)는 스크래핑에 필요한 타겟서버(170)의 요구사항을 만족하는 정보(전문)를 생성한다. 중계서버(130)는 웹브라우저(110)로부터 스크래핑 요청을 수신하면 스크래핑 관리서버(150)에게 보안 게이트웨이(SG)의 IP를 요청한다.
복수의 보안 게이트웨이(SG, 140, 145)는 중계서버(130)로부터 스크래핑 요청과 전문을 수신하고, 중계서버(130)의 IP와는 다른 IP 로 타겟서버(170)에 접속하여 스크래핑하고, 스크래핑한 데이터를 중계서버(130)로 전달하며, 각각 다른 IP를 갖는다. 보안 게이트웨이(140)는 기동하면 자신의 IP 정보와 사용 준비 완료 상태를 상기 스크래핑 관리서버(150)로 전송한다. 복수의 보안 게이트웨이(140, 145)의 IP는 클라우드 웹서비스 플랫폼에 의해 제공될 수 있다. 또한 복수의 보안 게이트웨이(140, 145)는 비동기적 연결을 제공하며, 구간 간(end-to-end) 통신시 직접 타겟서버(170)에 접속한 것과 동일한 보안 수준을 제공하며, SSL(Secure Socket Layer) 통신시 세션(session) 중간에 복호화하지 않고 암호문 상태를 유지할 수 있다.
스크래핑 관리서버(SMS, 150)는 복수의 보안 게이트웨이(140, 145)의 IP들과 동작 상태를 관리하며, 보안 게이트웨이(140)로부터 IP 정보와 사용준비 완료 상태를 수신하면 저장한다. 스크래핑 관리서버(150)는 중계서버(130)가 보안 게이트웨이(140, 145)의 IP를 요청하면 복수의 보안 게이트웨이 중 하나를 선택하여 선택된 보안 게이트웨이의 IP를 중계서버(130)로 전달한다. 이 때, 스크래핑 관리서버(SMS, 150)는 스크래핑 요청 및 인스턴스 사용량(SG당 콜 수)에 따라 보안 게이트웨이의 IP를 재할당 할 수 있다. 그리고 스크래핑 엔진(120)은 서비스 스크립트와 상기 클라이언트의 인증서 정보가 포함된 스크래핑 요청 정보를 중계서버(130)로 전달한다.
클라이언트 관리 서버(SSLS, 160)는 스크래핑에 필요한 서비스 스크립트와 클라이언트의 스크래핑 라이선스 정보를 관리한다. 클라이언트 관리 서버(160)는 상기 클라이언트의 스크래핑 라이선스를 검증하여 정상 사용자일 경우 스크래핑 엔진(120)에게 서비스 스크립트를 전달한다.
중계서버(130), 복수의 보안 게이트웨이(140, 145), 스크래핑 관리서버(150) 및 클라이언트 관리서버(160)는 클라우드 웹서비스 플랫폼, 예를 들어 클라우드(Cloud)가 제공할 수 있다.
도 2는 본 발명에 따른 웹 브라우저 기반 스크래핑 방법에 대한 일실시예를 타이밍도로 나타낸 것이다. 웹 브라우저(110)가 클라이언트(105)로부터 타겟서버(170)에 대한 스크래핑 요청을 받으면(S200단계), 스크래핑 엔진(120)에게 클라이언트(105)의 스크래핑 요청과 사용자 인증서를 전달한다.(S205단계) 스크래핑 엔진(120)이 웹 브라우저(110)로부터 클라이언트의 스크래핑 요청을 수신하면 클라이언트 관리 서버(160)에게 서비스 스크립트를 요청한다.(S210단계) 클라이언트 관리서버(160)는 상기 클라이언트의 스크래핑 라이선스를 검증하여(S215단계) 정당한 클라이언트이면 서비스 스크립트를 스크래핑 엔진(120)에게 제공한다.(S220단계)
스크래핑 엔진(120)은 상기 스크래핑에 대한 서비스 스크립트와 상기 사용자 인증서를 중계서버(130)로 전송한다.(S225단계)
한편, 보안 게이트웨이(140)는 기동하면 자신의 IP와 사용준비 완료 메시지를 스크래핑 관리서버(150)로 전송한다.(S212단계) 스크래핑 관리서버(150)는 보안 게이트웨이(140)의 IP와 사용준비 상태를 저장하고 관리한다.
중계서버(130)는 스크래핑 엔진(120)으로부터 클라이언트의 스크래핑 요청을 수신하면, 스크래핑 관리서버(150)에게 보안 게이트웨이 IP를 요청할 수 있다.(S230단계) 스크래핑 관리서버(150)는 보안 게이트웨이(140)의 사용 준비된 보안 게이트웨이의 IP를 중계서버(130)로 전송할 수 있다.(S235단계) 예를 들어, 스크래핑 관리서버(SMS, 150)는 스크래핑 요청 및 인스턴스 사용량(SG당 콜 수)에 따라 보안 게이트웨이의 IP를 재할당 할 수 있다.
중계서버(130)이 미리 보안 게이트웨이(140)의 IP를 알고 있으면, 상기 S230 단계 및 상기 S235 단계는 생략가능하다.
중계서버(130)는 스크래핑에 필요한 타겟서버(170)의 요구사항을 만족하는 정보(전문)를 구성하고, 상기 사용자 인증서, 서비스 스크립트 및 상기 전문을 개인정보 유지 프로토콜(SSL)을 이용하여 보안 게이트웨이(140)에게 전송한다.(S240단계) 보안 게이트웨이(170)는 중계서버(130)의 IP와는 다른 IP를 통해 상기 전문과 사용자 인증서 정보 및 서비스 스크립트를 이용하여 타겟서버(170)에 접속하여 스크래핑한다.(S245단계) 여기서, 중계서버(130)는 타겟서버(170)에 접속할 때 마다 IP가 다른 보안 게이트웨이(140)를 할당 받아 상기 할당 받은 보안 게이트웨이(140)를 통해 타겟 서버(170)에 접속한다.
웹브라우저(110)는 보안 게이트웨이(140)와 중계서버(130) 및 스크래핑 엔진(120)을 통해 스크래핑한 정보를 수신한다.(S250, S255, S260단계)
보안 게이트웨이(140)는 비동기적 연결을 제공하며, 구간 간(end-to-end) 통신시 직접 타겟서버(170)에 접속한 것과 동일한 보안 수준을 제공하며, SSL(Secure Socket Layer) 통신시 세션(session) 중간에 복호화하지 않고 암호문 상태를 유지한다. 여기서, 중계서버(130), 복수의 보안 게이트웨이(140, 145), 스크래핑 관리서버(150) 및 클라이언트 관리서버(160)는 클라우드 웹서비스 플랫폼에 의해 제공될 수 있다. 보안 게이트웨이(140)의 IP는 상기 클라우드 웹서비스 플랫폼에서 제공될 수 있다.
도 3은 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 구성에 대한 다른 실시예를 블록도로 나타낸 것이다. 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 구성에 대한 다른 실시예는 웹브라우저(310), 스크래핑 엔진(320), 중계서버(WSGS, 330), 복수의 보안 게이트웨이(340, 345) 및 고객사서버(350)를 포함하여 이루어진다. 그리고 클라이언트 관리 서버(SSLS, 360)를 더 포함할 수 있다.
웹 브라우저(310)는 클라이언트 기기(미도시)에 설치되며, 스크래핑 대상 정보가 있는 타겟서버(370, 375)에 접속할 수 있는 사용자 인증서가 저장되어 있으며, 클라이언트로부터 스크래핑 요청을 받아들인다. 웹 브라우저(310)는 클라이언트(사용자)로부터 스크래핑 요청을 받으면 스크래핑 엔진(320)을 통해 클라이언트 관리 서버(SSLS, 360)에게 서비스 스크립트를 요청한다.
스크래핑 엔진(320)는 웹 브라우저(110)로부터 스크래핑 요청을 수신한다. 중계서버(WSGS, 330)는 스크래핑에 필요한 타겟서버(370)의 요구사항을 만족하는 정보(전문)를 생성한다. 중계서버(330)는 웹브라우저(310)로부터 스크래핑 요청을 수신하면 고객사서버(350)에게 보안 게이트웨이의 IP를 요청한다.
복수의 보안 게이트웨이(SG, 340, 345)는 중계서버(330)로부터 스크래핑 요청과 전문을 수신하고, 중계서버(330)의 IP와는 다른 IP 로 타겟서버(370)에 접속하여 스크래핑하고, 스크래핑한 데이터를 중계서버(330)로 전달하며, 각각 다른 IP를 갖는다. 보안 게이트웨이(340)는 기동하면 자신의 IP 정보와 사용 준비 완료 상태를 고객사서버(350)로 전송한다. 복수의 보안 게이트웨이(340, 345)의 IP는 클라우드 웹서비스 플랫폼에 의해 제공될 수 있다. 또한 복수의 보안 게이트웨이(340, 345)는 비동기적 연결을 제공하며, 구간 간(end-to-end) 통신시 직접 타겟서버(170)에 접속한 것과 동일한 보안 수준을 제공하며, SSL(Secure Socket Layer) 통신시 세션(session) 중간에 복호화하지 않고 암호문 상태를 유지할 수 있다.
고객사서버(SMS, 350)는 복수의 보안 게이트웨이(340, 345)의 IP들과 동작 상태를 관리하며, 보안 게이트웨이(340)로부터 IP 정보와 사용준비 완료 상태를 수신하면 저장한다. 고객사서버(350)는 중계서버(330)가 보안 게이트웨이(340, 345)의 IP를 요청하면 복수의 보안 게이트웨이 중 하나를 선택하여 선택된 보안 게이트웨이의 IP를 중계서버(330)로 전달한다. 이 때, 고객사서버(350)는 스크래핑 요청 및 인스턴스 사용량(SG당 콜 수)에 따라 보안 게이트웨이의 IP를 재할당 할 수 있다. 그리고 스크래핑 엔진(120)은 서비스 스크립트와 상기 클라이언트의 인증서 정보가 포함된 스크래핑 요청 정보를 중계서버(330)로 전달한다.
클라이언트 관리 서버(SSLS, 360)는 스크래핑에 필요한 서비스 스크립트와 클라이언트의 스크래핑 라이선스 정보를 관리한다. 클라이언트 관리 서버(360)는 상기 클라이언트의 스크래핑 라이선스를 고객사 서버(350)을 통해 검증하여 정상 사용자일 경우 스크래핑 엔진(320)에게 서비스 스크립트를 전달한다.
중계서버(330), 복수의 보안 게이트웨이(340, 345), 고객사서버(350)는 고객사 IDC(Internet Data Center, 300)에 설치될 수 있다.
한편, 본 발명은 모바일 기기, 예를 들어 스마트폰에 설치된 웹 브라우저를 통해 스크래핑을 진행(로그인, 인증서)하여 타겟기관의 서버를 스크래핑하여 그 결과를 수신한다. 타겟기관은 예를 들면 국세청, 건강보험공단, 현금영수증, 부동산 정보, 통신사, SNS 등이 될 수 있다. 본 발명에 사용되는 웹 브라우저는 크롬(Chrome, safari 등 HTML5 기반 브라우저가 될 수 있으며, 개발시 언어는 JavaScript 가 될 수 있고, 앱을 설치할 필요 없다.
이하, 본 발명에서 사용되는 용어를 간략히 설명하면 표 1과 같다.
Figure 112018083395270-pat00001
표 1에서 WSGS는 통신중계서로서, 대상기관 즉 타겟 서버와 E2E(End-to-End, 종단간 암호화)를 시작한다.
도 4 및 도 5는 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 전체 구성도에 대한 제1실시예로서, 클라우드(Cloud)를 이용하여 구성한 것이다. 도 4 및 도 5에서 핑거(Finger)는 스크래핑 서비스 관리 회사의 이름이다. 본 발명에서는 개인 정보를 보호하기 위한 개인정보 유지 프로토콜인 SSL(Secure Socket Layer)을 사용하여 개인정보를 보호한다. 그리고 IP가 서로 다른 SG1 ~ SG n 을 두어 타겟 기관의 서버에서 볼 때 IP가 다양하게 보이도록 한다. SG(Secure Gateway)는 타겟 기관과 HTTP Request Get / Post Method 방식으로 HTTP Response Html File 을 송수신한다.
도 5를 참조하면, WSGS, SMS, SSLS, SG, SMDB는 클라우드(Cloud)가 제공한다. SG 기동 시 자신의 IP 정보와 함께 사용 준비가 완료되었다고 SMS Update API 호출한다. SMS 가 SMDB로 SG 정보를 Update 한다. Client에서 통신 요청 시 WSGS 가 어떤 SG로 통신을 요청해야 하는지 SG Search API를 통해 SMS에게 확인한다. Client의 통신 요청 내용에 맞게 WSGS 는 전문을 구성하고 선택된 SG를 경유해 대상 기관의 서버와 통신한다.
SMS의 IP할당 프로세스는 다음과 같이 이루어진다. SMS는 각 SG의 IP 및 상태를 관리한다. SMS는 스크래핑 요청 및 인스턴스 사용량(SG당 콜수)에 따라 SG IP를 재할당 한다
Client(사용자)는 서비스 화면에서 Scraping Library(스크래핑 엔진)에게 스크래핑을 요청한다. SSLS에 서비스 스크립트를 요청한다.(서비스명, 라이선스키, 기타 정보) SSLS는 라이선스 키를 SMS를 통해 검증한다. SMS는 라이선스 검증 결과가 정상 사용자일 경우 클라이언트로 스크립트 전달한다. Scraping Labrary(스트래핑 엔진)은 스크립트를 분석하여 스크래핑 서비스를 수행하고 스크래핑 결과를 수신한다. 스크래핑 결과를 구성하고 웹 브라우저를 통해 서비스화면에 전달한다.
Client(관리자)는 서버정보, 고객사 정보, 성공률 등 각종 정보를 보여주는 관리자 페이지이다. Client(개발자)는 스크래핑 개발자가 스크립트 개발하고 SSLS로 스크립트를 업로드한다.
도 6 및 도 7은 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 전체 구성도에 대한 제2실시예로서, 클라우드(Cloud)를 이용하여 구성한 것이다. 도 6 및 도 7에서 핑거(Finger)는 스크래핑 서비스 관리 회사의 이름이다. 본 발명에서는 개인 정보를 보호하기 위한 개인정보 유지 프로토콜인 SSL(Secure Socket Layer)을 사용하여 개인정보를 보호한다. 그리고 IP가 서로 다른 SG1 ~ SG n 을 두어 타겟 기관의 서버에서 볼 때 IP가 다양하게 보이도록 한다. SG(Secure Gateway)는 타겟 기관과 HTTP Request Get / Post Method 방식으로 HTTP Response Html File 을 송수신한다.
도 7을 참조하면, Customer(고객사) IDC에 있는 SG는 기동 시 자신의 IP 정보와 함께 사용 준비가 완료되었다고 고객사서버의 Update API를 호출한다. 고객사서버는 고객사DB로 SG 정보를 Update한다. Client가 통신을 요청할 때 WSGS 는 어떤 SG로 통신을 요청해야 하는지 SG Search API를 통해 고객사 서버에게 확인한다. WSGS는 Client의 통신 요청 내용에 맞게 전문을 구성하고 선택된 SG를 경유해 대상기관(서버)와 통신한다.
고객사(Custom) 서버의 SG IP 할당 프로세스는 다음과 같이 이루어진다. 고객사(Customer) 서버는 각 SG의 IP 및 상태를 관리한다. 고객사(Customer) 서버는 스크래핑 요청 및 인스턴스 사용량(SG당 콜수 MAX 150)에 따라 SG IP를 재 할당한다. Finger 서버에 속한 SSLS는 라이선스를 검증하고 스크립트를 전달한다. SMS는 로그 적재 및 현황 리포트를 담당한다. Client(사용자)는 서비스 화면에서 Scraping Library에게 스크래핑을 요청한다. Scraping Library는 SSLS에게 서비스 스크립트를 요청한다.(서비스명, 라이선스키, 기타정보) SSLS는 라이선스 키를 SMS를 통해 검증한다. SMS에서 라이선스 검증 결과가 정상 사용자일 경우 SSLS는 클라이언트로 스크립트 전달한다. Scraping Library(스크래핑 엔진)은 스크립트를 분석하여 스크래핑 서비스를 수행하고, 수행된 스크래핑 결과를 구성하여 웹 브라우저의 서비스 화면에 전달한다.
Client(관리자)는 서버정보, 고객사 정보, 성공률 등 각종 정보를 보여주는 관리자 페이지를 관리한다. Client(개발자)에서는 스크래핑 개발자가 스크립트를 개발하고, SSLS로 스크립트를 업로드 한다.
도 8은 HTML 5 기반의 클라이언트의 구성을 블록도로 나타낸 것이다. 도 8을 참조하면, 고객사 페이지에서 스크래핑 요청 값을 구성하여 Scraping Library 의 Standard API를 통해 호출한다. Standard API를 통해 입력 받은 입력값 중 서비스 종류, 고객사 라이선스 등을 클라이언트 관리서버(SSLS)로 전송한다. 클라이언트 관리서버는 라이선스를 검증한 후 서비스 스크립트를 리턴 받아 스크래핑 엔진에서 실행한다. 서비스 스크립트 수행 과정에서 필요에 따라 Crypto/PKI/Net/Common 등의 외부 라이브러리 또는 Native 기능을 사용 할 수 있다. 수집 결과는 고객사의 요청에 따라 직접 브라우저로 결과를 주거나 Customizing I/F 를 통해 고객사 서버로 결과를 전송 할 수 있다.
도 9는 구간 암호화(E2E, End-to-End) 측면에서 Secure Gateway(SG)와 Proxy를 비교한 것으로서, Secure Gateway는 비동기적 연결을 제공하여 구간 간 통신 시 직접 서버에 접속한 것과 동일한 보안 수준을 제공한다. 특히 SSL(TLS) 통신 시 세션 중간에 복호화 하지 않고 완벽한 E2E 연결 기능을 제공한다. 즉, Proxy는 복호화하여 평문 상태로 되지만, Secure Gateway는 암호문 상태를 유지함으로써, 개인정보를 보다 확실하게 보호할 수 있다.
표 2는 Proxy 서버와 Secure Gateway을 비교하여 장단점을 나타낸 것이다.
Figure 112018083395270-pat00002
도 10은 스크래핑 과정에서 중계서버(WSGS), 보안 게이트웨이(SG) 및 스크래핑 관리서버(SMS) 간의 통신 절차를 나타낸 것이다. 도 10을 참조하면, 중계서버(WSGS, 1010)가 통신 중계를 하는 보안 게이트웨이(SG, 1030)의 IP 를 스크래핑 관리서버(SMS, 1020)에게 요청하면, 스크래핑 관리서버(SMS, 1020)가 중계서버(WSGS, 1010)에게 SG의 IP를 제공한다. 중계서버(1010)는 할당받은 SG의 IP를 이용하여 SG(1030)에게 스크래핑 요청을 전달하고, SG(1030)는 타겟서버(미도시)에서 스크래핑 한 스크래핑한 데이터를 수신한다. 이 때 SMS(1020)는 보안 게이트웨이(1030)의 사용량을 체크하여 다음에 IP를 할당할 때 참조한다.
본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
100 : 클라우드 서비스 105 : 클라이언트
110 : 웹 브라우저 120 : 스크래핑 엔진
130 : 중계서버(WSGS) 140 : 제1보안 게이트웨이(SG1)
145 : 제2보안 게이트웨이(SG2) 150 : 스크래핑 관리서버(SMS)
160 : 클라이언트 관리서버(SSLS) 170 : 타겟서버 1
175 : 타겟서버 2 310 : 웹 브라우저
320 : 스크래핑 엔진 330 : 중계서버(WSGS)
340 : 제1보안 게이트웨이(SG1) 345 : 제2보안 게이트웨이(SG2)
350 : 고객사서버 360 : 클라이언트 관리서버(SSLS)
370 : 타겟서버 1 375 : 타겟서버 2
1010 : 중계서버(WSGS) 1020 :스크래핑 관리서버(SMS)
1030 : 보안 게이트웨이(SG)

Claims (10)

  1. 클라이언트 기기에 설치되며, 스크래핑 대상 정보가 있는 타겟서버에 접속할 수 있는 사용자 인증서가 저장되어 있으며, 사용자의 스크래핑 요청을 받아들이는 웹 브라우저;
    상기 웹 브라우저로부터 스크래핑 요청을 수신하는 스크래핑 엔진;
    스크래핑에 필요한 타겟서버의 요구사항을 만족하는 정보를 전문이라 할 때, 상기 전문을 생성하는 중계서버(WSGS); 및
    상기 중계서버로부터 스크래핑 요청과 전문을 수신하고, 상기 중계서버의 IP와는 다른 IP 로 상기 타겟서버에 접속하여 스크래핑하고, 스크래핑한 데이터를 상기 중계서버로 전달하며, 각각 다른 IP를 갖는 복수의 보안 게이트웨이(SG);
    상기 복수의 보안 게이트웨이의 IP들과 동작 상태를 관리하는 스크래핑 관리서버(SMS)를 포함하고,
    상기 보안 게이트웨이는 기동하면 자신의 IP 정보와 사용 준비 완료 상태를 상기 스크래핑 관리서버로 전송하고, 상기 중계서버는 상기 웹브라우저로부터 스크래핑 요청을 수신하면 상기 스크래핑 관리서버에게 보안 게이트웨이의 IP를 요청하며, 상기 스크래핑 관리서버는 상기 복수의 보안 게이트웨이 중 하나를 선택하여 선택된 보안 게이트웨이의 IP를 상기 중계서버로 전달하고, 상기 스크래핑 엔진은 서비스 스크립트와 상기 클라이언트의 인증서 정보가 포함된 스크래핑 요청 정보를 상기 중계서버로 전달하는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 시스템.
  2. 제1항에 있어서,
    스크래핑에 필요한 서비스 스크립트와 클라이언트의 스크래핑 라이선스 정보를 관리하는 클라이언트 관리 서버(SSLS)를 더 포함하고,
    상기 웹 브라우저는 클라이언트로부터 스크래핑 요청을 받으면 상기 스크래핑 엔진을 통해 상기 클라이언트 관리 서버(SSLS)에게 서비스 스크립트를 요청하고, 상기 클라이언트 관리 서버는 상기 클라이언트의 스크래핑 라이선스를 검증하여 정상 사용자일 경우 상기 스크래핑 엔진에게 서비스 스크립트를 전달하는 것을 특징으로 하는 웹 브라우저 기반 스크래핑 시스템.
  3. 제2항에 있어서,
    상기 중계서버, 복수의 보안 게이트웨이, 스크래핑 관리서버 및 클라이언트 관리서버는 클라우드 웹서비스 플랫폼에서 제공되고, 상기 복수의 보안 게이트웨이의 IP는 상기 클라우드 웹서비스 플랫폼에 의해 제공되는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 시스템.
  4. 제1항에 있어서, 상기 복수의 보안 게이트웨이는
    비동기적 연결을 제공하며, 구간 간(end-to-end) 통신시 직접 타겟서버에 접속한 것과 동일한 보안 수준을 제공하며, SSL(Secure Socket Layer) 통신시 세션(session) 중간에 복호화하지 않고 암호문 상태를 유지하는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 시스템.
  5. 웹 브라우저가 클라이언트로부터 타겟서버에 대한 스크래핑 요청을 받으면, 스크래핑 엔진(120)에게 상기 클라이언트의 스크래핑 요청과 사용자 인증서를 전달하는 단계;
    스크래핑 엔진은 상기 스크래핑에 대한 서비스 스크립트와 상기 사용자 인증서를 중계서버로 전송하는 단계;
    스크래핑에 필요한 타겟서버의 요구사항을 만족하는 정보를 전문이라 할 때, 중계서버는 상기 전문을 구성하고, 상기 사용자 인증서, 서비스 스크립트 및 상기 전문을 개인정보 유지 프로토콜(SSL)을 이용하여 보안 게이트웨이에게 전송하는 단계;
    상기 보안 게이트웨이는 상기 중계서버의 IP와는 다른 IP를 통해 상기 전문과 사용자 인증서 정보 및 서비스 스크립트를 이용하여 상기 타겟서버에 접속하여 스크래핑하는 단계; 및
    상기 웹브라우저는 상기 보안 게이트웨이와 중계서버 및 스크래핑 엔진을 통해 스크래핑한 정보를 수신하는 단계를 포함하고,
    상기 중계서버가 상기 타겟서버에 접속할 때 마다 IP가 다른 보안 게이트웨이를 할당 받아 상기 할당 받은 보안 게이트웨이를 통해 상기 타겟 서버에 접속하는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 방법.
  6. 제5항에 있어서,
    상기 스크래핑 엔진이 상기 웹 브라우저로부터 클라이언트의 스크래핑 요청을 수신하면 클라이언트 관리 서버로에게 서비스 스크립트를 요청하는 단계; 및
    상기 클라이언트 관리서버는 상기 클라이언트의 스크래핑 라이선스를 검증하여 정당한 클라이언트이면 서비스 스크립트를 상기 스크래핑 엔진에게 제공하는 단계를 포함하는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 방법.
  7. 제5항에 있어서,
    상기 보안 게이트웨이는 기동하면 자신의 IP와 사용준비 완료 메시지를 스크래핑 관리서버로 전송하는 단계;
    상기 스크래핑 관리서버는 상기 보안 게이트웨이의 IP와 사용준비 상태를 저장하고 관리하는 단계;
    상기 중계서버는 상기 스크래핑 엔진으로부터 클라이언트의 스크래핑 요청을 수신하면, 상기 스크래핑 관리서버에게 보안 게이트웨이 IP를 요청하는 단계; 및
    상기 스크래핑 관리서버는 보안 게이트웨이의 동작상태를 보고 사용 준비된 보안 게이트웨이의 IP를 상기 중계서버로 전송하는 단계를 더 포함하는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 방법.
  8. 제5항에 있어서,
    상기 보안 게이트웨이는 비동기적 연결을 제공하며, 구간 간(end-to-end) 통신시 직접 타겟서버에 접속한 것과 동일한 보안 수준을 제공하며, SSL(Secure Socket Layer) 통신시 세션(session) 중간에 복호화하지 않고 암호문 상태를 유지하는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 방법.
  9. 제5항 내지 제8항 중 어느 한 항에 있어서,
    상기 중계서버, 복수의 보안 게이트웨이, 스크래핑 관리서버 및 클라이언트 관리서버는 클라우드 웹서비스 플랫폼에 의해 제공되고,
    상기 보안 게이트웨이의 IP는 상기 클라우드 웹서비스 플랫폼에서 제공되는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 방법.
  10. 클라이언트 기기에 설치되며, 스크래핑 대상 정보가 있는 타겟서버에 접속할 수 있는 사용자 인증서가 저장되어 있으며, 사용자의 스크래핑 요청을 받아들이는 웹 브라우저;
    상기 웹 브라우저로부터 스크래핑 요청을 수신하는 스크래핑 엔진;
    스크래핑에 필요한 타겟서버의 요구사항을 만족하는 정보를 전문이라 할 때, 상기 전문을 생성하는 중계서버(WSGS);
    상기 중계서버로부터 스크래핑 요청과 전문을 수신하고, 상기 중계서버의 IP와는 다른 IP 로 상기 타겟서버에 접속하여 스크래핑하고, 스크래핑한 데이터를 상기 중계서버로 전달하며, 각각 다른 IP를 갖는 복수의 보안 게이트웨이(SG); 및
    상기 복수의 보안 게이트웨이의 IP들과 동작 상태를 관리하는 고객사 서버를 포함하고,
    상기 보안 게이트웨이는 기동하면 자신의 IP 정보와 사용 준비 완료 상태를 상기 고객사 서버로 전송하고, 상기 중계서버는 상기 웹브라우저로부터 스크래핑 요청을 수신하면 상기 고객사서버에게 보안 게이트웨이의 IP를 요청하며, 상기 고객사서버는 상기 복수의 보안 게이트웨이 중 사용준비 상태인 하나를 선택하여 선택된 보안 게이트웨이의 IP를 상기 중계서버로 전달하고, 상기 스크래핑 엔진은 서비스 스크립트와 상기 클라이언트의 인증서 정보가 포함된 스크래핑 요청 정보를 상기 중계서버로 전달하는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 시스템.
KR1020180098245A 2018-08-22 2018-08-22 웹 브라우저 기반 스크래핑 시스템 및 방법 KR102179792B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180098245A KR102179792B1 (ko) 2018-08-22 2018-08-22 웹 브라우저 기반 스크래핑 시스템 및 방법
PCT/KR2019/010664 WO2020040556A1 (ko) 2018-08-22 2019-08-22 웹 브라우저 기반 스크래핑 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180098245A KR102179792B1 (ko) 2018-08-22 2018-08-22 웹 브라우저 기반 스크래핑 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20200022289A KR20200022289A (ko) 2020-03-03
KR102179792B1 true KR102179792B1 (ko) 2020-11-17

Family

ID=69592961

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180098245A KR102179792B1 (ko) 2018-08-22 2018-08-22 웹 브라우저 기반 스크래핑 시스템 및 방법

Country Status (2)

Country Link
KR (1) KR102179792B1 (ko)
WO (1) WO2020040556A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102352041B1 (ko) 2021-06-08 2022-01-14 이영수 계층 추상화 인증기능을 구비한 웹 스크래핑 시스템 및 그 방법
KR102416805B1 (ko) 2021-11-05 2022-07-05 주식회사 온투인 데이터 스크래핑 방법 및 이를 지원하는 장치

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7502618B2 (ja) * 2020-07-20 2024-06-19 富士通株式会社 通信プログラム、通信装置、及び通信方法
CN111833198A (zh) * 2020-07-20 2020-10-27 民生科技有限责任公司 一种智能处理保险条款的方法
KR102383998B1 (ko) * 2021-04-05 2022-04-08 주식회사 틸코블렛 Ip주소를 관리하는 프록시 서버가 포함된 정보수집 대행 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100624705B1 (ko) 2006-05-16 2006-09-15 웹케시 주식회사 스크래핑 머신을 이용한 스크린 스크래핑 분산처리 방법 및그 시스템
KR100948162B1 (ko) 2008-09-29 2010-03-16 웹케시 주식회사 금융 기관 직접 연결을 통한 금융 계좌 통합 조회 방법, 그방법을 수행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체 및 통합 조회 서버

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101691726B1 (ko) * 2015-04-22 2016-12-30 강헌 웹 스크래핑 기반 계좌 통합 관리 시스템 및 이의 웹 스크래핑 처리 방법
KR101785481B1 (ko) * 2015-10-07 2017-11-15 한국정보통신주식회사 스크래핑 서비스 제공 방법, 그를 위한 서버 장치 및 시스템
US10210255B2 (en) * 2015-12-31 2019-02-19 Fractal Industries, Inc. Distributed system for large volume deep web data extraction
KR101815235B1 (ko) * 2015-12-30 2018-01-08 주식회사쿠콘 데이터 스크래핑 시스템, 방법 및 컴퓨터 프로그램
KR20180047353A (ko) * 2016-10-31 2018-05-10 주식회사 핑거 스크래핑 클라우드 서비스 제공 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100624705B1 (ko) 2006-05-16 2006-09-15 웹케시 주식회사 스크래핑 머신을 이용한 스크린 스크래핑 분산처리 방법 및그 시스템
KR100948162B1 (ko) 2008-09-29 2010-03-16 웹케시 주식회사 금융 기관 직접 연결을 통한 금융 계좌 통합 조회 방법, 그방법을 수행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체 및 통합 조회 서버

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102352041B1 (ko) 2021-06-08 2022-01-14 이영수 계층 추상화 인증기능을 구비한 웹 스크래핑 시스템 및 그 방법
KR102416805B1 (ko) 2021-11-05 2022-07-05 주식회사 온투인 데이터 스크래핑 방법 및 이를 지원하는 장치

Also Published As

Publication number Publication date
KR20200022289A (ko) 2020-03-03
WO2020040556A1 (ko) 2020-02-27

Similar Documents

Publication Publication Date Title
KR102179792B1 (ko) 웹 브라우저 기반 스크래핑 시스템 및 방법
US10666745B2 (en) Method and procedure for dynamic services orchestration that runs within an on-device software container
US10884825B2 (en) Application programming interface (API) service apparatus and application programming interface (API) service system
US10263963B2 (en) Method and apparatus for mediating communications
US8874685B1 (en) Compliance protocol and architecture
US8639785B2 (en) Unsolicited cookie enabled contextual data communications platform
US11741264B2 (en) Security systems and methods for social networking
EP3292475B1 (en) Secure container platform for resource access and placement on unmanaged and unsecured devices
US20130290710A1 (en) System and method for a cloud-based electronic communication vault
US10643002B1 (en) Provision and execution of customized security assessments of resources in a virtual computing environment
US11616847B2 (en) Leveraging web cookies for carrying messages across cloud application communications
CN109861973A (zh) 信息传输方法、装置、电子设备及计算机可读介质
CN106559405A (zh) 一种Portal认证方法和设备
US10216926B2 (en) Isolation of untrusted code in operating system without isolation capability
US20230385430A1 (en) Techniques for providing security-related information
CN113347217A (zh) 一种网络请求的审计方法和装置
CN113760563A (zh) 基于开放平台的数据处理方法、装置以及数据处理系统
CN115296881A (zh) 信息的获取方法、装置、电子设备及计算机可读介质
CN116074024A (zh) 基于云计算技术的监控插件鉴权方法及系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant