WO2020040556A1 - 웹 브라우저 기반 스크래핑 시스템 및 방법 - Google Patents
웹 브라우저 기반 스크래핑 시스템 및 방법 Download PDFInfo
- Publication number
- WO2020040556A1 WO2020040556A1 PCT/KR2019/010664 KR2019010664W WO2020040556A1 WO 2020040556 A1 WO2020040556 A1 WO 2020040556A1 KR 2019010664 W KR2019010664 W KR 2019010664W WO 2020040556 A1 WO2020040556 A1 WO 2020040556A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- scraping
- server
- web browser
- client
- relay server
- Prior art date
Links
- 238000007790 scraping Methods 0.000 title claims abstract description 254
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013515 script Methods 0.000 claims abstract description 50
- 238000004891 communication Methods 0.000 claims description 27
- 238000012546 transfer Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims 1
- 238000007726 management method Methods 0.000 description 55
- 238000010586 diagram Methods 0.000 description 12
- 230000008520 organization Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000009434 installation Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/33—User authentication using certificates
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/66—Arrangements for connecting between networks having differing types of switching systems, e.g. gateways
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/16—Implementing security features at a particular protocol layer
- H04L63/166—Implementing security features at a particular protocol layer at the transport layer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Definitions
- the present invention relates to scraping, and more particularly, to a web browser-based scraping system and method.
- Scraping is a technology or program designed to automatically connect to a networked Internet system to display data on a screen and then extract only the data you need. It collects information about a website or program and stores it in another program or database. It can be viewed or used at any time, and new data can be generated by comparing and analyzing stored data.
- scraping technologies are used to consolidate financial assets scattered in each financial institution, to manage transactions such as retrieval and transfer at once, and to integrate all mail at once when using multiple web mails. E-mail integrated inquiry can be found.
- scraping was performed in two ways. First, PC scraping installed a separate scraping module on the PC and scraping through the scraping module received the results. In PC scraping, the certificate is stored on the PC. The second is mobile app scraping, which sends information from the mobile app and receives the results. Mobile app scraping has a certificate stored on the mobile device.
- PC scraping requires that the scraping module is installed on the PC and the certificate is stored on the PC.
- a mobile device for example, a smartphone
- a separate app for scraping is installed on the mobile and the certificate is stored on the mobile device. There was inconvenience of scraping.
- the problem to be solved by the present invention was created to solve the above-described problems, can provide a standard web-based flexible service without operating system constraints to reflect various customer demands and changes, the app within the customer system To provide a web browser-based scraping system and method that can be easily applied without a separate installation, such as PC module, server.
- Web browser-based scraping system for achieving the above technical problem, is installed in the client device, the user certificate for accessing the target server with the information to be scraped is stored, the web browser accepting the user's scraping request ;
- a scraping engine that receives a scraping request from the web browser;
- a relay server for generating information (full text) satisfying the requirements of the target server for scraping;
- receiving a scraping request and a full message from the relay server accessing and scraping the target server with an IP different from that of the relay server, and transferring the scraped data to the relay server, each of which has a different IP.
- SG Gateway
- SMS scraping management server
- the server receives the scraping request from the web browser, the server requests the IP of the security gateway from the scraping management server, and the scraping management server selects one of the plurality of security gateways and delivers the IP of the selected security gateway to the relay server.
- the scraping engine is characterized in that for transmitting the scraping request information including the service script and the certificate information of the client to the relay server.
- the web browser-based scraping system further includes a client management server (SSLS) that manages a service script and scraping license information of a client necessary for scraping, and the web browser receives the scraping engine upon receiving a scraping request from a client.
- Request a service script to the client management server (SSLS) through, and the client management server is characterized in that the service script to pass to the scraping engine if the normal user to verify the scraping license of the client.
- the relay server, the plurality of security gateways, the scraping management server and the client management server is characterized in that provided in the cloud web service platform. IP of the plurality of security gateways is characterized by being provided by the cloud web service platform.
- the plurality of security gateways provide an asynchronous connection, provide the same level of security as directly connected to the target server for end-to-end communication, and provide sessions for SSL (Secure Socket Layer) communication. It is characterized by maintaining the ciphertext state without decrypting in the middle.
- SSL Secure Socket Layer
- a web browser-based scraping method comprising: when a web browser receives a scraping request for a target server from a client, transmitting a scraping request and a user certificate of the client to a scraping engine (120); Sending a service script for the scraping and the user certificate to a relay server by a scraping engine;
- the relay server constructs information (full text) that satisfies the requirements of the target server for scraping, and transmits the user certificate, service script, and the full text to a security gateway using a personal information maintaining protocol (SSL);
- SSL personal information maintaining protocol
- the security gateway accessing and scraping the target server using the full text and user certificate information and a service script through an IP different from the IP of the relay server; And receiving, by the web browser, the scraped information through the security gateway, the relay server, and the scraping engine, and each time the relay server accesses the target server, the IP is assigned a different security gateway. And accessing the target server through a gateway.
- a web browser-based scraping method includes: requesting, by a scraping engine, a service script to a client management server when a scraping request of a client is received from the web browser; And the client management server verifying the scraping license of the client and providing a service script to the scraping server if the client is a legitimate client.
- the web browser-based scraping method includes the steps of: when the security gateway is activated, transmitting its IP and ready to use message to the scraping management server;
- the scraping management server storing and managing an IP and a ready state of use of the security gateway;
- When the relay server receives a client's scraping request from the scraping engine, requesting a security gateway IP from the scraping management server;
- the scraping management server further includes the step of viewing the operating state of the security gateway and transmitting the IP of the security gateway ready for use to the relay server.
- the secure gateway provides an asynchronous connection, provides the same level of security as directly connected to the target server for end-to-end communication, and in the middle of a session during SSL (Secure Socket Layer) communication. Maintain ciphertext without decrypting.
- SSL Secure Socket Layer
- Web browser-based scraping system for achieving the above technical problem, is installed in the client device, the user certificate for accessing the target server with the information to be scraped is stored, the web browser accepting the user's scraping request ;
- a scraping engine that receives a scraping request from the web browser;
- a relay server for generating information (full text) satisfying the requirements of the target server for scraping;
- SG a client company server managing IPs and operation states of the plurality of security gateways.
- the security gateway transmits its IP information and a ready-to-use state to the client company server when the security gateway is activated, and the relay server transmits the web.
- the client server Upon receiving a scraping request from the browser, the client server requests the IP of the security gateway, and the client server selects one of the plurality of security gateways in a ready state, and delivers the IP of the selected security gateway to the relay server.
- the scraping engine delivers the scraping request information including the service script and the certificate information of the client to the relay server.
- the customer's service app can be used without limitation, and if the browser supports HTML 5, the type of terminal can be executed without limitation.
- FIG. 1 is a block diagram showing an embodiment of the configuration of a web browser-based scraping system according to the present invention.
- FIG. 2 is a timing diagram illustrating an embodiment of a web browser-based scraping method according to the present invention.
- FIG. 3 is a block diagram illustrating another embodiment of the configuration of the web browser based scraping system according to the present invention.
- FIGS. 4 and 5 are overall configuration diagrams of a first embodiment of a web browser based scraping system according to the present invention.
- FIGS. 6 and 7 are overall configuration diagrams of a second embodiment of a web browser-based scraping system according to the present invention.
- FIG. 8 is a block diagram illustrating a configuration of an HTML 5 based client.
- FIG. 10 illustrates a communication procedure between the relay server WSGS, the security gateway SG, and the scraping management server SMS in the scraping process.
- FIG. 1 is a block diagram showing an embodiment of the configuration of a web browser-based scraping system according to the present invention.
- One embodiment of the configuration of the web browser-based scraping system according to the present invention is a web browser 110, scraping engine 120, relay server (WSGS, 130), a plurality of security gateways (140, 145) and scraping management server (SMS, 150).
- the server may further include a client management server (SSLS) 160.
- SSLS client management server
- the web browser 110 is installed in a client device (not shown), and stores a user certificate for accessing the target servers 170 and 175 having the scraping target information, and receives a scraping request from the client.
- the web browser 110 requests a service script from the client management server (SSLS) 160 through the scraping engine 120.
- SSLS client management server
- the scraping engine 120 receives a scraping request from the web browser 110.
- the relay server WSGS 130 generates information (full text) satisfying the requirements of the target server 170 necessary for scraping.
- the relay server 130 requests the IP of the security gateway (SG) from the scraping management server 150.
- the plurality of security gateways SG, 140, and 145 receive the scraping request and the full text from the relay server 130, access the target server 170 with an IP different from that of the relay server 130, and then scrape and scrape.
- the data is transmitted to the relay server 130, and each has a different IP.
- the security gateway 140 starts, it transmits its IP information and ready to use state to the scraping management server 150.
- IPs of the plurality of security gateways 140 and 145 may be provided by a cloud web service platform.
- the plurality of security gateways 140 and 145 provide an asynchronous connection, provide the same level of security as that directly connected to the target server 170 during end-to-end communication, and SSL (Secure Socket) Layer) During communication, a ciphertext state can be maintained without decrypting in the middle of a session.
- SSL Secure Socket
- the scraping management server (SMS) 150 manages IPs and operating states of the plurality of security gateways 140 and 145, and stores the IP information and the ready to use state from the security gateway 140.
- the scraping management server 150 selects one of the plurality of security gateways and transfers the IP of the selected security gateway to the relay server 130.
- the scraping management server (SMS) 150 may reassign the IP of the security gateway according to the scraping request and the instance usage (number of calls per SG).
- the scraping engine 120 transmits the scraping request information including the service script and the certificate information of the client to the relay server 130.
- the client management server (SSLS) 160 manages a service script required for scraping and scraping license information of the client.
- the client management server 160 verifies the scraping license of the client and delivers the service script to the scraping engine 120 when the client is a normal user.
- the relay server 130, the plurality of security gateways 140 and 145, the scraping management server 150, and the client management server 160 may be provided by a cloud web service platform, for example, a cloud.
- FIG. 2 is a timing diagram illustrating an embodiment of a web browser-based scraping method according to the present invention.
- the web browser 110 receives the scraping request for the target server 170 from the client 105 (step S200)
- the web browser 110 transmits the scraping request and the user certificate of the client 105 to the scraping engine 120 (step S205).
- the scraping engine 120 receives the client's scraping request from the web browser 110
- the scraping engine 120 requests a service script from the client management server 160 (step S210).
- the client management server 160 applies the scraping license of the client. If it is verified (step S215) and a legitimate client, the service script is provided to the scraping engine 120. (step S220).
- the scraping engine 120 transmits the service script for the scraping and the user certificate to the relay server 130 (step S225).
- the security gateway 140 transmits its own IP and the usage readiness completion message to the scraping management server 150 (step S212).
- the scraping management server 150 prepares the IP and use of the security gateway 140. Store and manage state
- the relay server 130 may request the security gateway IP from the scraping management server 150.
- the scraping management server 150 is secure gateway 140 IP address of the prepared security gateway may be transmitted to the relay server 130 (step S235).
- the scraping management server (SMS) 150 may secure the service according to the scraping request and the instance usage (number of calls per SG). You can reassign the gateway's IP.
- steps S230 and S235 may be omitted.
- the relay server 130 configures information (full text) that satisfies the requirements of the target server 170 for scraping, and secures the user certificate, service script, and the full text using a personal information maintaining protocol (SSL).
- the security gateway 170 accesses and scrapes the target server 170 using the full text and user certificate information and a service script through an IP different from the IP of the relay server 130 (step S240).
- the relay server 130 is assigned to the security gateway 140 having a different IP every time it connects to the target server 170 to the target server 170 through the assigned security gateway 140. Connect.
- the web browser 110 receives the scraped information through the security gateway 140, the relay server 130, and the scraping engine 120 (steps S250, S255, and S260).
- the secure gateway 140 provides an asynchronous connection, provides the same level of security as directly connected to the target server 170 for end-to-end communication, and sessions during SSL communication. (session) Maintain ciphertext without decrypting in the middle.
- the relay server 130, the plurality of security gateways 140 and 145, the scraping management server 150, and the client management server 160 may be provided by a cloud web service platform.
- the IP of the security gateway 140 may be provided in the cloud web service platform.
- FIG. 3 is a block diagram illustrating another embodiment of the configuration of the web browser based scraping system according to the present invention.
- Another embodiment of the configuration of the web browser-based scraping system according to the present invention is a web browser 310, scraping engine 320, relay server (WSGS, 330), a plurality of security gateway (340, 345) and customer company server ( 350). And it may further include a client management server (SSLS, 360).
- SSLS client management server
- the web browser 310 is installed in a client device (not shown), and stores a user certificate for accessing target servers 370 and 375 having scraping target information, and receives a scraping request from the client.
- the web browser 310 requests a service script from the client management server (SSLS) 360 through the scraping engine 320.
- SSLS client management server
- the scraping engine 320 receives a scraping request from the web browser 110.
- the relay server WSGS 330 generates information (full text) satisfying the requirements of the target server 370 required for scraping.
- the relay server 330 requests the IP of the security gateway from the client company 350.
- the plurality of security gateways receives the scraping request and the full text from the relay server 330, accesses and scrapes by accessing the target server 370 with an IP different from that of the relay server 330.
- the data is transmitted to the relay server 330, and each has a different IP.
- the security gateway 340 starts, it transmits its IP information and ready to use state to the customer company server 350.
- the IPs of the plurality of security gateways 340 and 345 may be provided by the cloud web service platform.
- the plurality of security gateways 340 and 345 provide an asynchronous connection, provide the same level of security as directly connected to the target server 170 in end-to-end communication, and SSL (Secure Socket) Layer) During communication, a ciphertext state can be maintained without decrypting in the middle of a session.
- SSL Secure Socket
- the customer company server (SMS) 350 manages IPs and operating states of the plurality of security gateways 340 and 345, and stores the IP information and the ready to use state from the security gateway 340.
- the client company server 350 selects one of the plurality of security gateways and transfers the IP of the selected security gateway to the relay server 330.
- the client server 350 may reassign the IP of the security gateway according to the scraping request and the instance usage (number of calls per SG).
- the scraping engine 120 transmits the scraping request information including the service script and the certificate information of the client to the relay server 330.
- the client management server (SSLS) 360 manages a service script required for scraping and scraping license information of the client.
- the client management server 360 verifies the scraping license of the client through the client company server 350 and delivers a service script to the scraping engine 320 when the client is a normal user.
- the relay server 330, the plurality of security gateways 340 and 345, and the customer company server 350 may be installed in the customer IDC (Internet Data Center) 300.
- the present invention by scraping (login, certificate) through a web browser installed on a mobile device, for example, a smartphone scrapes the server of the target organization and receives the result.
- Target institutions may be, for example, the IRS, the Health Insurance Corporation, cash receipts, real estate information, telecommunications companies, and SNS.
- the web browser used in the present invention may be an HTML5-based browser such as Chrome (Chrome, safari), and the language may be JavaScript at development time, and there is no need to install an app.
- WSGS is a communication relay station that initiates E2E (end-to-end) with the target organization, the target server.
- 4 and 5 are a first embodiment of the overall configuration diagram of the web browser-based scraping system according to the present invention, it is configured using the cloud (Cloud, 400). 4 and 5, the finger is the name of the scraping service management company.
- the present invention protects personal information using SSL (Secure Socket Layer) which is a personal information maintenance protocol for protecting personal information.
- SSL Secure Socket Layer
- SG1 410_1 to SG n (410_n) having different IPs are placed so that various IPs can be seen when viewed from the server 450 of the target organization.
- SG Secure Gateway
- the WSGS 510, the SMS 520, the SSLS 530, the SG 540, and the SMDB 550 are provided by the cloud 500.
- the SG 540 starts, it calls the SMS Update API that it is ready to use with its IP information.
- SMS 520 updates the SG information to SMDB 550.
- the WSGS 510 confirms to the SMS 520 through the SG Search API which SG the communication request should be made.
- the WSGS 510 configures the full text and communicates with the server 570 of the target organization via the selected SG 540.
- the IP allocation process of the SMS 520 is performed as follows. SMS 520 manages the IP and status of each SG. SMS 520 reallocates SG IP based on scraping request and instance usage (calls per SG)
- the client 560 requests a scraping from the scraping library 580 on the service screen.
- Request a service script from the SSLS 530 (service name, license key, other information).
- the SSLS 530 verifies the license key through the SMS 520. If the license verification result is a normal user, the SMS 520 delivers the script to the client.
- Scraping Labrary (Scraping Engine) 580 analyzes the script to perform the scraping service and receive the scraping results. Configure scraping result and deliver it to service screen through web browser.
- Client (manager 590) is an administrator page showing various information such as server information, customer information, success rate.
- the client (developer) 595 develops the script by the scraping developer and uploads the script to the SSLS 530.
- 6 and 7 are second embodiments of the overall configuration diagram of the web browser-based scraping system according to the present invention, and are constructed using a cloud. 6 and 7 is the name of the scraping service management company.
- the present invention protects personal information using SSL (Secure Socket Layer) which is a personal information maintenance protocol for protecting personal information.
- SSL Secure Socket Layer
- SG1 610_1 to SG n (619_n) having different IPs are placed so that the IPs look various when viewed from the server 620 of the target organization.
- the SG (Secure Gateway) transmits and receives an HTTP Response Html File with the target authority 620 using the HTTP Request Get / Post Method.
- the SG 710 in the Customer IDC 700 calls the Update API of the customer server 720 that it is ready for use with its IP information at startup.
- the customer company server 720 updates the SG information to the customer company DB 725.
- the WSGS 740 checks with the client server 720 through the SG Search API which SG the communication request should be made.
- the WSGS 740 configures the full text according to the communication request content of the client and communicates with the target institution server 750 via the selected SG.
- the SG IP allocation process of the customer server 720 is performed as follows. Customer server 720 manages the IP and status of each SG. The customer server 720 reassigns the SG IP according to the scraping request and the instance usage (MAX 150 calls per SG). The SSLS 770 belonging to the finger server 760 verifies the license and delivers the script. SMS 780 is responsible for log loading and status reports. The client (user 730) requests scraping from the scraping library on the service screen. The scraping library 780 requests the service script from the SSLS 770 (service name, license key, and other information). The SSLS 770 verifies the license key through SMS. If the license verification result in the SMS 780 is a normal user, the SSLS 770 transfers the script to the client. Scraping Library (Scraping Engine, 780) analyzes the script to perform the scraping service, configures the result of the scraping and delivers to the service screen of the web browser.
- Scraping Library Scping Engine, 780
- the client manages an administrator page showing various information such as server information, customer information, and success rate.
- the scraping developer develops the script and uploads the script to the SSLS 770.
- the client page 810 configures a scraping request value and calls it through the standard API 822 of the scraping library 820.
- the service type and the client license are transmitted to the client management server (SSLS) 840.
- the client management server 840 receives the service script after verifying the license and executes the scraping engine 824.
- external library such as Crypto / PKI / Net / Common or Native function can be used as needed.
- the collection result may be directly sent to the browser 800 according to the request of the customer, or may be sent to the customer server 850 through the customizing I / F 830.
- Secure Gateway provides an asynchronous connection so that the same security level is directly connected to the server when communicating between segments.
- SSL TLS
- SSL TLS
- Table 2 shows the advantages and disadvantages of comparing Proxy Server with Secure Gateway.
- the scraping management server SMS 2020 relays the relay.
- the relay server 1010 transmits a scraping request to the SG 1030 using the assigned SG IP, and the SG 1030 receives the scraped data scraped from the target server (not shown).
- the SMS 1020 checks the usage amount of the security gateway 1030 and references it when assigning an IP next time.
- the present invention can be embodied as code that can be read by a computer (including all devices having an information processing function) on a computer-readable recording medium.
- Computer-readable recording media include all kinds of recording devices that store data that can be read by a computer system. Examples of computer-readable recording devices include ROM, RAM, CD-ROM, magnetic tape, floppy disks, optical data storage devices, and the like.
- “unit” may be a hardware component such as a processor or a circuit, and / or a software component executed by a hardware component such as a processor.
- the present invention can be used to scrape information displayed on a web browser-based web page, in particular, the field of account integration management that manages transactions such as inquiry and transfer at a time by integrating financial assets scattered in each financial institution For example, in case of using multiple web mails, it can be used for the field of integrated e-mail search which can check all mails at once.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Information Transfer Between Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
본 발명은 웹브라우저 기반 스크래핑 시스템 및 방법에 관한 것으로서, 웹브라우저 기반 스크래핑 시스템은 클라이언트 기기에 설치되며, 타겟서버에 접속할 수 있는 사용자 인증서가 저장되어 있으며, 사용자의 스크래핑 요청을 받아들이는 웹브라우저; 웹브라우저로부터 스크래핑 요청을 수신하는 스크래핑 엔진; 스크래핑에 필요한 타겟서버의 요구사항을 만족하는 전문을 생성하는 중계서버; 및 중계서버로부터 스크래핑 요청과 전문을 수신하고, 중계서버의 IP와는 다른 IP로 타겟서버에 접속하여 스크래핑하고, 스크래핑한 데이터를 중계서버로 전달하며, 각각 다른 IP를 갖는 복수의 보안 게이트웨이; 복수의 보안 게이트웨이의 IP들과 동작 상태를 관리하는 스크래핑 관리서버(SMS)를 포함하고, 보안 게이트웨이는 기동하면 자신의 IP정보와 사용 준비 완료 상태를 스크래핑 관리서버로 전송하고, 중계서버는 웹브라우저로부터 스크래핑 요청을 수신하면 스크래핑 관리서버에게 보안 게이트웨이의 IP를 요청하며, 스크래핑 관리서버는 복수의 보안 게이트웨이 중 하나를 선택하여 선택된 보안 게이트웨이의 IP를 상기 중계서버로 전달하고, 스크래핑 엔진은 서비스 스크립트와 클라이언트의 인증서 정보가 포함된 스크래핑 요청 정보를 상기 중계서버로 전달한다.
Description
본 발명은 스크래핑에 관한 것으로서, 특히 웹 브라우저 기반 스크래핑 시스템 및 방법에 관한 것이다.
스크래핑(scraping)이란 네트워크로 연결된 인터넷 시스템에 자동으로 접속해 데이터를 화면에 나타낸 후 필요한 데이터만을 추출하도록 만들어진 기술 또는 프로그램으로, 웹 사이트나 프로그램의 정보를 수집한 후 다른 프로그램이나 데이터베이스에 저장하여 필요할 때마다 조회하거나 사용할 수 있으며 저장된 데이터를 비교 분석하여 새로운 데이터를 생성할 수도 있다.
이러한 스크래핑 기술을 이용하는 분야로는 각 금융 기관에 흩어져 있는 금융 자산을 통합해 한 번에 조회, 이체 등의 거래를 관리하는 계좌 통합 관리 분야, 여러 웹 메일을 사용하는 경우 한 번에 모든 메일을 종합적으로 확인할 수 있는 이메일 통합 조회 분야 등이 있다.
종래에는 두 가지 방식으로 스크래핑을 수행하였다. 첫째는 PC 스크래핑으로 PC에 별도의 스크래핑 모듈을 설치해서 스크래핑 모듈을 통해 스크래핑을 수행하여 결과를 받았다. PC 스크래핑은 인증서가 PC에 저장되어 있다. 둘째는 모바일 앱 스크래핑으로 모바일 앱에서 정보를 보내서 결과를 받는다. 모바일 앱 스크래핑은 인증서가 모바일 기기에 저장되어 있다.
PC 스크래핑은 스크래핑 모듈을 PC에 설치하고 인증서도 PC에 저장되어 있어야 하며, 모바일 기기(예: 스마트 폰)를 이용해 스크래핑을 하기 위해서는 별도로 스크래핑을 위한 앱을 모바일에 설치해서 인증서도 모바일 기기에 저장해서 스크래핑 하는 불편함이 있었다.
본 발명이 해결하고자 하는 과제는 상술한 문제점을 해결하기 위해 창출된 것으로서, 다양한 고객별 수요와 변화를 반영할 수 있도록 운영체제 제약이 없는 표준 웹 기반의 유연한 서비스를 제공할 수 있으며, 고객 시스템 내에 앱, PC모듈, 서버 등 별도의 설치 없이 쉽게 적용할 수 있는, 웹 브라우저 기반 스크래핑 시스템 및 방법을 제공하는 것이다.
상기 기술적 과제를 이루기 위한 본 발명에 의한 웹 브라우저 기반 스크래핑 시스템은, 클라이언트 기기에 설치되며, 스크래핑 대상 정보가 있는 타겟서버에 접속할 수 있는 사용자 인증서가 저장되어 있으며, 사용자의 스크래핑 요청을 받아들이는 웹 브라우저; 상기 웹 브라우저로부터 스크래핑 요청을 수신하는 스크래핑 엔진; 스크래핑에 필요한 타겟서버의 요구사항을 만족하는 정보(전문)를 생성하는 중계서버(WSGS); 및 상기 중계서버로부터 스크래핑 요청과 전문을 수신하고, 상기 중계서버의 IP와는 다른 IP 로 상기 타겟서버에 접속하여 스크래핑하고, 스크래핑한 데이터를 상기 중계서버로 전달하며, 각각 다른 IP를 갖는 복수의 보안 게이트웨이(SG); 상기 복수의 보안 게이트웨이의 IP들과 동작 상태를 관리하는 스크래핑 관리서버(SMS)를 포함하고, 상기 보안 게이트웨이는 기동하면 자신의 IP 정보와 사용 준비 완료 상태를 상기 스크래핑 관리서버로 전송하고, 상기 중계서버는 상기 웹브라우저로부터 스크래핑 요청을 수신하면 상기 스크래핑 관리서버에게 보안 게이트웨이의 IP를 요청하며, 상기 스크래핑 관리서버는 상기 복수의 보안 게이트웨이 중 하나를 선택하여 선택된 보안 게이트웨이의 IP를 상기 중계서버로 전달하고, 상기 스크래핑 엔진은 서비스 스크립트와 상기 클라이언트의 인증서 정보가 포함된 스크래핑 요청 정보를 상기 중계서버로 전달하는 것을 특징으로 한다.
본 발명에 의한 웹 브라우저 기반 스크래핑 시스템은, 스크래핑에 필요한 서비스 스크립트와 클라이언트의 스크래핑 라이선스 정보를 관리하는 클라이언트 관리 서버(SSLS)를 더 포함하고, 상기 웹 브라우저는 클라이언트로부터 스크래핑 요청을 받으면 상기 스크래핑 엔진을 통해 상기 클라이언트 관리 서버(SSLS)에게 서비스 스크립트를 요청하고, 상기 클라이언트 관리 서버는 상기 클라이언트의 스크래핑 라이선스를 검증하여 정상 사용자일 경우 상기 스크래핑 엔진에게 서비스 스크립트를 전달하는 것을 특징으로 한다. 상기 중계서버, 복수의 보안 게이트웨이, 스크래핑 관리서버 및 클라이언트 관리서버는 클라우드 웹서비스 플랫폼에서 제공되는 것을 특징으로 한다. 상기 복수의 보안 게이트웨이의 IP는 상기 클라우드 웹서비스 플랫폼에 의해 제공되는 것을 특징으로 한다. 상기 복수의 보안 게이트웨이는 비동기적 연결을 제공하며, 구간 간(end-to-end) 통신시 직접 타겟서버에 접속한 것과 동일한 보안 수준을 제공하며, SSL(Secure Socket Layer) 통신시 세션(session) 중간에 복호화하지 않고 암호문 상태를 유지하는 것을 특징으로 한다.
상기 기술적 과제를 이루기 위한 본 발명에 의한 웹 브라우저 기반 스크래핑 방법은, 웹 브라우저가 클라이언트로부터 타겟서버에 대한 스크래핑 요청을 받으면, 스크래핑 엔진(120)에게 상기 클라이언트의 스크래핑 요청과
사용자 인증서를 전달하는 단계; 스크래핑 엔진은 상기 스크래핑에 대한 서비스 스크립트와 상기 사용자 인증서를 중계서버로 전송하는 단계; 중계서버는 스크래핑에 필요한 타겟서버의 요구사항을 만족하는 정보(전문)를 구성하고, 상기 사용자 인증서, 서비스 스크립트 및 상기 전문을 개인정보 유지 프로토콜(SSL)을 이용하여 보안 게이트웨이에게 전송하는 단계; 상기 보안 게이트웨이는 상기 중계서버의 IP와는 다른 IP를 통해 상기 전문과 사용자 인증서 정보 및 서비스 스크립트를 이용하여 상기 타겟서버에 접속하여 스크래핑하는 단계; 및 상기 웹브라우저는 상기 보안 게이트웨이와 중계서버 및 스크래핑 엔진을 통해 스크래핑한 정보를 수신하는 단계를 포함하고, 상기 중계서버가 상기 타겟서버에 접속할 때 마다 IP가 다른 보안 게이트웨이를 할당 받아 상기 할당 받은 보안 게이트웨이를 통해 상기 타겟 서버에 접속하는 것을 특징으로 한다.
본 발명에 의한 웹 브라우저 기반 스크래핑 방법은, 상기 스크래핑 엔진이 상기 웹 브라우저로부터 클라이언트의 스크래핑 요청을 수신하면 클라이언트 관리 서버로에게 서비스 스크립트를 요청하는 단계; 및 상기 클라이언트 관리서버는 상기 클라이언트의 스크래핑 라이선스를 검증하여 정당한 클라이언트이면 서비스 스크립트를 상기 스크래핑 서버에게 제공하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 의한 웹 브라우저 기반 스크래핑 방법은, 상기 보안 게이트웨이는 기동하면 자신의 IP와 사용준비 완료 메시지를 스크래핑 관리서버로 전송하는 단계; 상기 스크래핑 관리서버는 상기 보안 게이트웨이의 IP와 사용준비 상태를 저장하고 관리하는 단계; 상기 중계서버는 상기 스크래핑 엔진으로부터 클라이언트의 스크래핑 요청을 수신하면, 상기 스크래핑 관리서버에게 보안 게이트웨이 IP를 요청하는 단계; 상기 스크래핑 관리서버는 보안 게이트웨이의 동작상태를 보고 사용 준비된 보안 게이트웨이의 IP를 상기 중계서버로 전송하는 단계를 더 포함한다.
상기 보안 게이트웨이는 비동기적 연결을 제공하며, 구간 간(end-to-end) 통신시 직접 타겟서버에 접속한 것과 동일한 보안 수준을 제공하며, SSL(Secure Socket Layer) 통신시 세션(session) 중간에 복호화하지 않고 암호문 상태를 유지한다.
상기 기술적 과제를 이루기 위한 본 발명에 의한 웹 브라우저 기반 스크래핑 시스템은, 클라이언트 기기에 설치되며, 스크래핑 대상 정보가 있는 타겟서버에 접속할 수 있는 사용자 인증서가 저장되어 있으며, 사용자의 스크래핑 요청을 받아들이는 웹 브라우저; 상기 웹 브라우저로부터 스크래핑 요청을 수신하는 스크래핑 엔진; 스크래핑에 필요한 타겟서버의 요구사항을 만족하는 정보(전문)를 생성하는 중계서버(WSGS); 상기 중계서버로부터 스크래핑 요청과 전문을 수신하고, 상기 중계서버의 IP와는 다른 IP 로 상기 타겟서버에 접속하여 스크래핑하고, 스크래핑한 데이터를 상기 중계서버로 전달하며, 각각 다른 IP를 갖는 복수의 보안 게이트웨이(SG); 및 상기 복수의 보안 게이트웨이의 IP들과 동작 상태를 관리하는 고객사 서버를 포함하고, 상기 보안 게이트웨이는 기동하면 자신의 IP 정보와 사용 준비 완료 상태를 상기 고객사 서버로 전송하고, 상기 중계서버는 상기 웹브라우저로부터 스크래핑 요청을 수신하면 상기 고객사서버에게 보안 게이트웨이의 IP를 요청하며, 상기 고객사서버는 상기 복수의 보안 게이트웨이 중 사용준비 상태인 하나를 선택하여 선택된 보안 게이트웨이의 IP를 상기 중계서버로 전달하고, 상기 스크래핑 엔진은 서비스 스크립트와 상기 클라이언트의 인증서 정보가 포함된 스크래핑 요청 정보를 상기 중계서버로 전달한다.
본 발명에 따른 웹 브라우저 기반 스크래핑 시스템 및 방법에 의하면, 고객사의 서비스 앱에 제한 없이 사용할 수 있고, HTML 5를 지원하는 브라우저라면 단말의 종류에 제한없이 실행할 수 있다.
그리고 본 발명에 의하면, 하나의 개별 언어로 구성되었고, 별도의 앱 설치나 업데이트(update) 없이 스크립트 적용만으로 사용할 수 있고 유지보수에 편리하다.
또한 대상기관이나 데이터 종류의 추가 변경이 자유롭고 모듈 설치 등 별도의 작업없이 쉽게 적용 가능해 서비스 확장이 용이하다.
도 1은 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 구성에 대한 일실시예를 블록도로 나타낸 것이다.
도 2는 본 발명에 따른 웹 브라우저 기반 스크래핑 방법에 대한 일실시예를 타이밍도로 나타낸 것이다.
도 3은 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 구성에 대한 다른 실시예를 블록도로 나타낸 것이다.
도 4 및 도 5는 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 제1실시예의 전체 구성도이다.
도 6 및 도 7은 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 제2실시예의 전체 구성도이다.
도 8은 HTML 5 기반의 클라이언트의 구성을 블록도로 나타낸 것이다.
도 9는 구간 암호화(E2E, End-to-End) 측면에서 Secure Gateway(SG)와 Proxy를 비교한 것
도 10은 스크래핑 과정에서 중계서버(WSGS), 보안 게이트웨이(SG) 및 스크래핑 관리서버(SMS) 간의 통신 절차를 나타낸 것이다.
이하, 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 바람직한 일 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원 시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1은 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 구성에 대한 일실시예를 블록도로 나타낸 것이다. 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 구성에 대한 일실시예는 웹브라우저(110), 스크래핑 엔진(120), 중계서버(WSGS, 130), 복수의 보안 게이트웨이(140, 145) 및 스크래핑 관리서버(SMS, 150)를 포함하여 이루어진다. 그리고 클라이언트 관리 서버(SSLS, 160)를 더 포함할 수 있다.
웹브라우저(110)는 클라이언트 기기(미도시)에 설치되며, 스크래핑 대상 정보가 있는 타겟서버(170, 175)에 접속할 수 있는 사용자 인증서가 저장되어 있으며, 클라이언트로부터 스크래핑 요청을 받아들인다. 웹 브라우저(110)는 클라이언트로부터 스크래핑 요청을 받으면 스크래핑 엔진(120)을 통해 클라이언트 관리 서버(SSLS, 160)에게 서비스 스크립트를 요청한다.
스크래핑 엔진(120)는 웹 브라우저(110)로부터 스크래핑 요청을 수신한다.
중계서버(WSGS, 130)는 스크래핑에 필요한 타겟서버(170)의 요구사항을 만족하는 정보(전문)를 생성한다. 중계서버(130)는 웹브라우저(110)로부터 스크래핑 요청을 수신하면 스크래핑 관리서버(150)에게 보안 게이트웨이(SG)의 IP를 요청한다.
복수의 보안 게이트웨이(SG, 140, 145)는 중계서버(130)로부터 스크래핑 요청과 전문을 수신하고, 중계서버(130)의 IP와는 다른 IP 로 타겟서버(170)에 접속하여 스크래핑하고, 스크래핑한 데이터를 중계서버(130)로 전달하며, 각각 다른 IP를 갖는다. 보안 게이트웨이(140)는 기동하면 자신의 IP 정보와 사용 준비 완료 상태를 상기 스크래핑 관리서버(150)로 전송한다. 복수의 보안 게이트웨이(140, 145)의 IP는 클라우드 웹서비스 플랫폼에 의해 제공될 수 있다. 또한 복수의 보안 게이트웨이(140, 145)는 비동기적 연결을 제공하며, 구간 간(end-to-end) 통신시 직접 타겟서버(170)에 접속한 것과 동일한 보안 수준을 제공하며, SSL(Secure Socket Layer) 통신시 세션(session) 중간에 복호화하지 않고 암호문 상태를 유지할 수 있다.
스크래핑 관리서버(SMS, 150)는 복수의 보안 게이트웨이(140, 145)의 IP들과 동작 상태를 관리하며, 보안 게이트웨이(140)로부터 IP 정보와 사용준비 완료 상태를 수신하면 저장한다. 스크래핑 관리서버(150)는 중계서버(130)가 보안 게이트웨이(140, 145)의 IP를 요청하면 복수의 보안 게이트웨이 중 하나를 선택하여 선택된 보안 게이트웨이의 IP를 중계서버(130)로 전달한다. 이 때, 스크래핑 관리서버(SMS, 150)는 스크래핑 요청 및 인스턴스 사용량(SG당 콜 수)에 따라 보안 게이트웨이의 IP를 재할당 할 수 있다. 그리고 스크래핑 엔진(120)은 서비스 스크립트와 상기 클라이언트의 인증서 정보가 포함된 스크래핑 요청 정보를 중계서버(130)로 전달한다.
클라이언트 관리 서버(SSLS, 160)는 스크래핑에 필요한 서비스 스크립트와 클라이언트의 스크래핑 라이선스 정보를 관리한다. 클라이언트 관리 서버(160)는 상기 클라이언트의 스크래핑 라이선스를 검증하여 정상 사용자일 경우 스크래핑 엔진(120)에게 서비스 스크립트를 전달한다.
중계서버(130), 복수의 보안 게이트웨이(140, 145), 스크래핑 관리서버(150) 및 클라이언트 관리서버(160)는 클라우드 웹서비스 플랫폼, 예를 들어 클라우드(Cloud)가 제공할 수 있다.
도 2는 본 발명에 따른 웹 브라우저 기반 스크래핑 방법에 대한 일실시예를 타이밍도로 나타낸 것이다. 웹 브라우저(110)가 클라이언트(105)로부터 타겟서버(170)에 대한 스크래핑 요청을 받으면(S200단계), 스크래핑 엔진(120)에게 클라이언트(105)의 스크래핑 요청과 사용자 인증서를 전달한다.(S205단계) 스크래핑 엔진(120)이 웹 브라우저(110)로부터 클라이언트의 스크래핑 요청을 수신하면 클라이언트 관리 서버(160)에게 서비스 스크립트를 요청한다.(S210단계) 클라이언트 관리서버(160)는 상기 클라이언트의 스크래핑 라이선스를 검증하여(S215단계) 정당한 클라이언트이면 서비스 스크립트를 스크래핑 엔진(120)에게 제공한다.(S220단계)
스크래핑 엔진(120)은 상기 스크래핑에 대한 서비스 스크립트와 상기 사용자 인증서를 중계서버(130)로 전송한다.(S225단계)
한편, 보안 게이트웨이(140)는 기동하면 자신의 IP와 사용준비 완료 메시지를 스크래핑 관리서버(150)로 전송한다.(S212단계) 스크래핑 관리서버(150)는 보안 게이트웨이(140)의 IP와 사용준비 상태를 저장하고 관리한다.
중계서버(130)는 스크래핑 엔진(120)으로부터 클라이언트의 스크래핑 요청을 수신하면, 스크래핑 관리서버(150)에게 보안 게이트웨이 IP를 요청할 수 있다.(S230단계) 스크래핑 관리서버(150)는 보안 게이트웨이(140)의 사용 준비된 보안 게이트웨이의 IP를 중계서버(130)로 전송할 수 있다.(S235단계) 예를 들어, 스크래핑 관리서버(SMS, 150)는 스크래핑 요청 및 인스턴스 사용량(SG당 콜 수)에 따라 보안 게이트웨이의 IP를 재할당 할 수 있다.
중계서버(130)이 미리 보안 게이트웨이(140)의 IP를 알고 있으면, 상기 S230 단계 및 상기 S235 단계는 생략가능하다.
중계서버(130)는 스크래핑에 필요한 타겟서버(170)의 요구사항을 만족하는 정보(전문)를 구성하고, 상기 사용자 인증서, 서비스 스크립트 및 상기 전문을 개인정보 유지 프로토콜(SSL)을 이용하여 보안 게이트웨이(140)에게 전송한다.(S240단계) 보안 게이트웨이(170)는 중계서버(130)의 IP와는 다른 IP를 통해 상기 전문과 사용자 인증서 정보 및 서비스 스크립트를 이용하여 타겟서버(170)에 접속하여 스크래핑한다.(S245단계) 여기서, 중계서버(130)는 타겟서버(170)에 접속할 때 마다 IP가 다른 보안 게이트웨이(140)를 할당 받아 상기 할당 받은 보안 게이트웨이(140)를 통해 타겟 서버(170)에 접속한다.
웹브라우저(110)는 보안 게이트웨이(140)와 중계서버(130) 및 스크래핑 엔진(120)을 통해 스크래핑한 정보를 수신한다.(S250, S255, S260단계)
보안 게이트웨이(140)는 비동기적 연결을 제공하며, 구간 간(end-to-end) 통신시 직접 타겟서버(170)에 접속한 것과 동일한 보안 수준을 제공하며, SSL(Secure Socket Layer) 통신시 세션(session) 중간에 복호화하지 않고 암호문 상태를 유지한다. 여기서, 중계서버(130), 복수의 보안 게이트웨이(140, 145), 스크래핑 관리서버(150) 및 클라이언트 관리서버(160)는 클라우드 웹서비스 플랫폼에 의해 제공될 수 있다. 보안 게이트웨이(140)의 IP는 상기 클라우드 웹서비스 플랫폼에서 제공될 수 있다.
도 3은 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 구성에 대한 다른 실시예를 블록도로 나타낸 것이다. 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 구성에 대한 다른 실시예는 웹브라우저(310), 스크래핑 엔진(320), 중계서버(WSGS, 330), 복수의 보안 게이트웨이(340, 345) 및 고객사서버(350)를 포함하여 이루어진다. 그리고 클라이언트 관리 서버(SSLS, 360)를 더 포함할 수 있다.
웹 브라우저(310)는 클라이언트 기기(미도시)에 설치되며, 스크래핑 대상 정보가 있는 타겟서버(370, 375)에 접속할 수 있는 사용자 인증서가 저장되어 있으며, 클라이언트로부터 스크래핑 요청을 받아들인다. 웹 브라우저(310)는 클라이언트(사용자)로부터 스크래핑 요청을 받으면 스크래핑 엔진(320)을 통해 클라이언트 관리 서버(SSLS, 360)에게 서비스 스크립트를 요청한다.
스크래핑 엔진(320)는 웹 브라우저(110)로부터 스크래핑 요청을 수신한다. 중계서버(WSGS, 330)는 스크래핑에 필요한 타겟서버(370)의 요구사항을 만족하는 정보(전문)를 생성한다. 중계서버(330)는 웹브라우저(310)로부터 스크래핑 요청을 수신하면 고객사서버(350)에게 보안 게이트웨이의 IP를 요청한다.
복수의 보안 게이트웨이(SG, 340, 345)는 중계서버(330)로부터 스크래핑 요청과 전문을 수신하고, 중계서버(330)의 IP와는 다른 IP 로 타겟서버(370)에 접속하여 스크래핑하고, 스크래핑한 데이터를 중계서버(330)로 전달하며, 각각 다른 IP를 갖는다. 보안 게이트웨이(340)는 기동하면 자신의 IP 정보와 사용 준비 완료 상태를 고객사서버(350)로 전송한다. 복수의 보안 게이트웨이(340, 345)의 IP는 클라우드 웹서비스 플랫폼에 의해 제공될 수 있다. 또한 복수의 보안 게이트웨이(340, 345)는 비동기적 연결을 제공하며, 구간 간(end-to-end) 통신시 직접 타겟서버(170)에 접속한 것과 동일한 보안 수준을 제공하며, SSL(Secure Socket Layer) 통신시 세션(session) 중간에 복호화하지 않고 암호문 상태를 유지할 수 있다.
고객사서버(SMS, 350)는 복수의 보안 게이트웨이(340, 345)의 IP들과 동작 상태를 관리하며, 보안 게이트웨이(340)로부터 IP 정보와 사용준비 완료 상태를 수신하면 저장한다. 고객사서버(350)는 중계서버(330)가 보안 게이트웨이(340, 345)의 IP를 요청하면 복수의 보안 게이트웨이 중 하나를 선택하여 선택된 보안 게이트웨이의 IP를 중계서버(330)로 전달한다. 이 때, 고객사서버(350)는 스크래핑 요청 및 인스턴스 사용량(SG당 콜 수)에 따라 보안 게이트웨이의 IP를 재할당 할 수 있다. 그리고 스크래핑 엔진(120)은 서비스 스크립트와 상기 클라이언트의 인증서 정보가 포함된 스크래핑 요청 정보를 중계서버(330)로 전달한다.
클라이언트 관리 서버(SSLS, 360)는 스크래핑에 필요한 서비스 스크립트와 클라이언트의 스크래핑 라이선스 정보를 관리한다. 클라이언트 관리 서버(360)는 상기 클라이언트의 스크래핑 라이선스를 고객사 서버(350)을 통해 검증하여 정상 사용자일 경우 스크래핑 엔진(320)에게 서비스 스크립트를 전달한다.
중계서버(330), 복수의 보안 게이트웨이(340, 345), 고객사서버(350)는 고객사 IDC(Internet Data Center, 300)에 설치될 수 있다.
한편, 본 발명은 모바일 기기, 예를 들어 스마트폰에 설치된 웹 브라우저를 통해 스크래핑을 진행(로그인, 인증서)하여 타겟기관의 서버를 스크래핑하여 그 결과를 수신한다. 타겟기관은 예를 들면 국세청, 건강보험공단, 현금영수증, 부동산 정보, 통신사, SNS 등이 될 수 있다. 본 발명에 사용되는 웹 브라우저는 크롬(Chrome, safari 등 HTML5 기반 브라우저가 될 수 있으며, 개발시 언어는 JavaScript 가 될 수 있고, 앱을 설치할 필요 없다.
이하, 본 발명에서 사용되는 용어를 간략히 설명하면 표 1과 같다.
이름 | 기능 | |
웹스크래핑전용 | SGLB(SecureGateWay LoadBalancer) | 중계서버의 로드 밸런싱 |
WSGS(Webscraping SecureGateway Server) | 통신중계서버로 대상기관과 E2E를시작 | |
SG(SecureGateway) | 통신중계, 복호화하지 않고 IP만 변경 | |
스크래핑공통 | SLLB(Sript&License LoadBalancer) | 스크립트, 라이선스 서버의 로드밸런싱 |
SSLS(Scraping Sreipt&License Server) | 스크립트 다운로드, 라이선스 검증 | |
MLB(Scapong Management Server) | 관리서버 로드 밸런싱 | |
SMS(Scraping Management Server) | 스크래핑 관리서버 | |
SMDB(Scraping Management DataBase) | 관리 DB |
표 1에서 WSGS는 통신중계서로서, 대상기관 즉 타겟 서버와 E2E(End-to-End, 종단간 암호화)를 시작한다.
도 4 및 도 5는 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 전체 구성도에 대한 제1실시예로서, 클라우드(Cloud, 400)를 이용하여 구성한 것이다. 도 4 및 도 5에서 핑거(Finger)는 스크래핑 서비스 관리 회사의 이름이다. 본 발명에서는 개인 정보를 보호하기 위한 개인정보 유지 프로토콜인 SSL(Secure Socket Layer)을 사용하여 개인정보를 보호한다. 그리고 IP가 서로 다른 SG1(410_1) ~ SG n(410_n) 을 두어 타겟 기관의 서버(450)에서 볼 때 IP가 다양하게 보이도록 한다. SG(Secure Gateway)는 타겟 기관과 HTTP Request Get / Post Method 방식으로 HTTP Response Html File 을 송수신한다.
도 5를 참조하면, WSGS(510), SMS(520), SSLS(530), SG(540), SMDB(550)는 클라우드(Cloud, 500)가 제공한다. SG(540) 기동 시 자신의 IP 정보와 함께 사용 준비가 완료되었다고 SMS Update API 호출한다. SMS(520) 가 SMDB(550)로 SG 정보를 Update 한다. Client에서 통신 요청 시 WSGS(510) 가 어떤 SG로 통신을 요청해야 하는지 SG Search API를 통해 SMS(520)에게 확인한다. Client의 통신 요청 내용에 맞게 WSGS(510) 는 전문을 구성하고 선택된 SG(540)를 경유해 대상(target) 기관의 서버(570)와 통신한다.
SMS(520)의 IP할당 프로세스는 다음과 같이 이루어진다. SMS(520)는 각 SG의 IP 및 상태를 관리한다. SMS(520)는 스크래핑 요청 및 인스턴스 사용량(SG당 콜수)에 따라 SG IP를 재할당 한다
Client(사용자, 560)는 서비스 화면에서 Scraping Library(스크래핑 엔진, 580)에게 스크래핑을 요청한다. SSLS(530)에 서비스 스크립트를 요청한다.(서비스명, 라이선스키, 기타 정보) SSLS(530)는 라이선스 키를 SMS(520)를 통해 검증한다. SMS(520)는 라이선스 검증 결과가 정상 사용자일 경우 클라이언트로 스크립트 전달한다. Scraping Labrary(스트래핑 엔진, 580)은 스크립트를 분석하여 스크래핑 서비스를 수행하고 스크래핑 결과를 수신한다. 스크래핑 결과를 구성하고 웹 브라우저를 통해 서비스화면에 전달한다.
Client(관리자, 590)는 서버정보, 고객사 정보, 성공률 등 각종 정보를 보여주는 관리자 페이지이다. Client(개발자, 595)는 스크래핑 개발자가 스크립트 개발하고 SSLS(530)로 스크립트를 업로드한다.
도 6 및 도 7은 본 발명에 따른 웹 브라우저 기반 스크래핑 시스템의 전체 구성도에 대한 제2실시예로서, 클라우드(Cloud)를 이용하여 구성한 것이다. 도 6 및 도 7에서 핑거(Finger)는 스크래핑 서비스 관리 회사의 이름이다. 본 발명에서는 개인 정보를 보호하기 위한 개인정보 유지 프로토콜인 SSL(Secure Socket Layer)을 사용하여 개인정보를 보호한다. 그리고 IP가 서로 다른 SG1(610_1) ~ SG n(619_n) 을 두어 타겟 기관의 서버(620)에서 볼 때 IP가 다양하게 보이도록 한다. SG(Secure Gateway)는 타겟 기관(620)과 HTTP Request Get / Post Method 방식으로 HTTP Response Html File 을 송수신한다.
도 7을 참조하면, Customer(고객사) IDC(700)에 있는 SG(710)는 기동 시 자신의 IP 정보와 함께 사용 준비가 완료되었다고 고객사서버(720)의 Update API를 호출한다. 고객사서버(720)는 고객사DB(725)로 SG 정보를 Update한다. Client가 통신을 요청할 때 WSGS(740)는 어떤 SG로 통신을 요청해야 하는지 SG Search API를 통해 고객사 서버(720)에게 확인한다. WSGS(740)는 Client의 통신 요청 내용에 맞게 전문을 구성하고 선택된 SG를 경유해 대상(target)기관 서버(750)와 통신한다.
고객사(Custom) 서버(720)의 SG IP 할당 프로세스는 다음과 같이 이루어진다. 고객사(Customer) 서버(720)는 각 SG의 IP 및 상태를 관리한다. 고객사(Customer) 서버(720)는 스크래핑 요청 및 인스턴스 사용량(SG당 콜수 MAX 150)에 따라 SG IP를 재 할당한다. Finger 서버(760)에 속한 SSLS(770)는 라이선스를 검증하고 스크립트를 전달한다. SMS(780)는 로그 적재 및 현황 리포트를 담당한다. Client(사용자,730)는 서비스 화면에서 Scraping Library에게 스크래핑을 요청한다. Scraping Library(780)는 SSLS(770)에게 서비스 스크립트를 요청한다.(서비스명, 라이선스키, 기타정보) SSLS(770)는 라이선스 키를 SMS를 통해 검증한다. SMS(780)에서 라이선스 검증 결과가 정상 사용자일 경우 SSLS(770)는 클라이언트로 스크립트 전달한다. Scraping Library(스크래핑 엔진, 780)은 스크립트를 분석하여 스크래핑 서비스를 수행하고, 수행된 스크래핑 결과를 구성하여 웹 브라우저의 서비스 화면에 전달한다.
Client(관리자,790)는 서버정보, 고객사 정보, 성공률 등 각종 정보를 보여주는 관리자 페이지를 관리한다. Client(개발자, 795)에서는 스크래핑 개발자가 스크립트를 개발하고, SSLS(770)로 스크립트를 업로드 한다.
도 8은 HTML 5 기반의 클라이언트의 구성을 블록도로 나타낸 것이다. 도 8을 참조하면, 고객사 페이지(810)에서 스크래핑 요청 값을 구성하여 Scraping Library(820)의 Standard API(822)를 통해 호출한다. Standard API(822)를 통해 입력 받은 입력값 중 서비스 종류, 고객사 라이선스 등을 클라이언트 관리서버(SSLS, 840)로 전송한다. 클라이언트 관리서버(840)는 라이선스를 검증한 후 서비스 스크립트를 리턴 받아 스크래핑 엔진(824)에서 실행한다. 서비스 스크립트 수행 과정에서 필요에 따라 Crypto/PKI/Net/Common 등의 외부 라이브러리 또는 Native 기능을 사용 할 수 있다. 수집 결과는 고객사의 요청에 따라 직접 브라우저(800)로 결과를 주거나 Customizing I/F (830)를 통해 고객사 서버(850)로 결과를 전송 할 수 있다.
도 9는 구간 암호화(E2E, End-to-End) 측면에서 Secure Gateway(SG)와 Proxy를 비교한 것으로서, Secure Gateway는 비동기적 연결을 제공하여 구간 간 통신 시 직접 서버에 접속한 것과 동일한 보안 수준을 제공한다. 특히 SSL(TLS) 통신 시 세션 중간에 복호화 하지 않고 완벽한 E2E 연결 기능을 제공한다. 즉, Proxy는 복호화하여 평문 상태로 되지만, Secure Gateway는 암호문 상태를 유지함으로써, 개인정보를 보다 확실하게 보호할 수 있다.
표 2는 Proxy 서버와 Secure Gateway을 비교하여 장단점을 나타낸 것이다.
구분 | SSL Proxy Server Farm | Secure Gateway Farm | 비 고 |
특징 | 일반적인 HTTP/HTTPSProxy 서비스 | Secure Gateway는 네트워크 통로 역할만 제공 | |
보안 | Proxy Farm 에서 복호화 발생 | 기존 서비스와 동급 | Secure Gateway는 데이터복호화 불가능 |
속도 | 보다 느림 | 보다 빠름 | SSL Proxy는 추가적 복호화/암호화 수행 |
언어 | 대부분 Java (일부 C/C++) | C/C++ | |
Proxy 서버 사양 조건 | 보다 고사양(Java) | 저사양기능 |
도 10은 스크래핑 과정에서 중계서버(WSGS), 보안 게이트웨이(SG) 및 스크래핑 관리서버(SMS) 간의 통신 절차를 나타낸 것이다. 도 10을 참조하면, 중계서버(WSGS, 1010)가 통신 중계를 하는 보안 게이트웨이(SG, 1030)의 IP 를 스크래핑 관리서버(SMS, 1020)에게 요청하면, 스크래핑 관리서버(SMS, 1020)가 중계서버(WSGS, 1010)에게 SG의 IP를 제공한다. 중계서버(1010)는 할당받은 SG의 IP를 이용하여 SG(1030)에게 스크래핑 요청을 전달하고, SG(1030)는 타겟서버(미도시)에서 스크래핑 한 스크래핑한 데이터를 수신한다. 이 때 SMS(1020)는 보안 게이트웨이(1030)의 사용량을 체크하여 다음에 IP를 할당할 때 참조한다.
본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
본 발명은 웹 브라우저 기반의 웹페이지에 나타나 있는 정보를 스크래핑하는 데 이용될 수 있으며, 특히 각 금융 기관에 흩어져 있는 금융 자산을 통합해 한 번에 조회, 이체 등의 거래를 관리하는 계좌 통합 관리 분야, 여러 웹 메일을 사용하는 경우 한 번에 모든 메일을 종합적으로 확인할 수 있는 이메일 통합 조회 분야 등에 이용될 수 있다.
Claims (11)
- 클라이언트 기기에 설치되며, 스크래핑 대상 정보가 있는 타겟서버에 접속할 수 있는 사용자 인증서가 저장되어 있으며, 사용자의 스크래핑 요청을 받아들이는 웹 브라우저;상기 웹 브라우저로부터 스크래핑 요청을 수신하는 스크래핑 엔진;스크래핑에 필요한 타겟서버의 요구사항을 만족하는 정보(전문)를 생성하는 중계서버(WSGS); 및상기 중계서버로부터 스크래핑 요청과 전문을 수신하고, 상기 중계서버의 IP와는 다른 IP 로 상기 타겟서버에 접속하여 스크래핑하고, 스크래핑한 데이터를 상기 중계서버로 전달하며, 각각 다른 IP를 갖는 복수의 보안 게이트웨이(SG);상기 복수의 보안 게이트웨이의 IP들과 동작 상태를 관리하는 스크래핑 관리서버(SMS)를 포함하고,상기 보안 게이트웨이는 기동하면 자신의 IP 정보와 사용 준비 완료 상태를 상기 스크래핑 관리서버로 전송하고, 상기 중계서버는 상기 웹브라우저로부터 스크래핑 요청을 수신하면 상기 스크래핑 관리서버에게 보안 게이트웨이의 IP를 요청하며, 상기 스크래핑 관리서버는 상기 복수의 보안 게이트웨이 중 하나를 선택하여 선택된 보안 게이트웨이의 IP를 상기 중계서버로 전달하고, 상기 스크래핑 엔진은 서비스 스크립트와 상기 클라이언트의 인증서 정보가 포함된 스크래핑 요청 정보를 상기 중계서버로 전달하는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 시스템.
- 제1항에 있어서,스크래핑에 필요한 서비스 스크립트와 클라이언트의 스크래핑 라이선스 정보를 관리하는 클라이언트 관리 서버(SSLS)를 더 포함하고,상기 웹 브라우저는 클라이언트로부터 스크래핑 요청을 받으면 상기 스크래핑 엔진을 통해 상기 클라이언트 관리 서버(SSLS)에게 서비스 스크립트를 요청하고, 상기 클라이언트 관리 서버는 상기 클라이언트의 스크래핑 라이선스를 검증하여 정상 사용자일 경우 상기 스크래핑 엔진에게 서비스 스크립트를 전달하는 것을 특징으로 하는 웹 브라우저 기반 스크래핑 시스템.
- 제2항에 있어서,상기 중계서버, 복수의 보안 게이트웨이, 스크래핑 관리서버 및 클라이언트 관리서버는 클라우드 웹서비스 플랫폼에서 제공되는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 시스템.
- 제3항에 있어서,상기 복수의 보안 게이트웨이의 IP는 상기 클라우드 웹서비스 플랫폼에 의해 제공되는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 시스템.
- 제1항에 있어서, 상기 복수의 보안 게이트웨이는비동기적 연결을 제공하며, 구간 간(end-to-end) 통신시 직접 타겟서버에 접속한 것과 동일한 보안 수준을 제공하며, SSL(Secure Socket Layer) 통신시 세션(session) 중간에 복호화하지 않고 암호문 상태를 유지하는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 시스템.
- 웹 브라우저가 클라이언트로부터 타겟서버에 대한 스크래핑 요청을 받으면, 스크래핑 엔진(120)에게 상기 클라이언트의 스크래핑 요청과 사용자 인증서를 전달하는 단계;스크래핑 엔진은 상기 스크래핑에 대한 서비스 스크립트와 상기 사용자 인증서를 중계서버로 전송하는 단계;중계서버는 스크래핑에 필요한 타겟서버의 요구사항을 만족하는 정보(전문)를 구성하고, 상기 사용자 인증서, 서비스 스크립트 및 상기 전문을 개인정보 유지 프로토콜(SSL)을 이용하여 보안 게이트웨이에게 전송하는 단계;상기 보안 게이트웨이는 상기 중계서버의 IP와는 다른 IP를 통해 상기 전문과 사용자 인증서 정보 및 서비스 스크립트를 이용하여 상기 타겟서버에 접속하여 스크래핑하는 단계; 및상기 웹브라우저는 상기 보안 게이트웨이와 중계서버 및 스크래핑 엔진을 통해 스크래핑한 정보를 수신하는 단계를 포함하고,상기 중계서버가 상기 타겟서버에 접속할 때 마다 IP가 다른 보안 게이트웨이를 할당 받아 상기 할당 받은 보안 게이트웨이를 통해 상기 타겟 서버에 접속하는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 방법.
- 제6항에 있어서,상기 스크래핑 엔진이 상기 웹 브라우저로부터 클라이언트의 스크래핑 요청을 수신하면 클라이언트 관리 서버로에게 서비스 스크립트를 요청하는 단계; 및상기 클라이언트 관리서버는 상기 클라이언트의 스크래핑 라이선스를 검증하여 정당한 클라이언트이면 서비스 스크립트를 상기 스크래핑 서버에게 제공하는 단계를 포함하는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 방법.
- 제6항에 있어서,상기 보안 게이트웨이는 기동하면 자신의 IP와 사용준비 완료 메시지를 스크래핑 관리서버로 전송하는 단계;상기 스크래핑 관리서버는 상기 보안 게이트웨이의 IP와 사용준비 상태를 저장하고 관리하는 단계;상기 중계서버는 상기 스크래핑 엔진으로부터 클라이언트의 스크래핑 요청을 수신하면, 상기 스크래핑 관리서버에게 보안 게이트웨이 IP를 요청하는 단계; 및상기 스크래핑 관리서버는 보안 게이트웨이의 동작상태를 보고 사용 준비된 보안 게이트웨이의 IP를 상기 중계서버로 전송하는 단계를 더 포함하는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 방법.
- 제6항에 있어서,상기 보안 게이트웨이는 비동기적 연결을 제공하며, 구간 간(end-to-end) 통신시 직접 타겟서버에 접속한 것과 동일한 보안 수준을 제공하며, SSL(Secure Socket Layer) 통신시 세션(session) 중간에 복호화하지 않고 암호문 상태를 유지하는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 시스템.
- 제6항에 있어서,상기 중계서버, 복수의 보안 게이트웨이, 스크래핑 관리서버 및 클라이언트 관리서버는 클라우드 웹서비스 플랫폼에 의해 제공되고,상기 보안 게이트웨이의 IP는 상기 클라우드 웹서비스 플랫폼에서 제공되는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 방법.
- 클라이언트 기기에 설치되며, 스크래핑 대상 정보가 있는 타겟서버에 접속할 수 있는 사용자 인증서가 저장되어 있으며, 사용자의 스크래핑 요청을 받아들이는 웹 브라우저;상기 웹 브라우저로부터 스크래핑 요청을 수신하는 스크래핑 엔진;스크래핑에 필요한 타겟서버의 요구사항을 만족하는 정보(전문)를 생성하는 중계서버(WSGS);상기 중계서버로부터 스크래핑 요청과 전문을 수신하고, 상기 중계서버의 IP와는 다른 IP 로 상기 타겟서버에 접속하여 스크래핑하고, 스크래핑한 데이터를 상기 중계서버로 전달하며, 각각 다른 IP를 갖는 복수의 보안 게이트웨이(SG); 및상기 복수의 보안 게이트웨이의 IP들과 동작 상태를 관리하는 고객사 서버를 포함하고,상기 보안 게이트웨이는 기동하면 자신의 IP 정보와 사용 준비 완료 상태를 상기 고객사 서버로 전송하고, 상기 중계서버는 상기 웹브라우저로부터 스크래핑 요청을 수신하면 상기 고객사서버에게 보안 게이트웨이의 IP를 요청하며, 상기 고객사서버는 상기 복수의 보안 게이트웨이 중 사용준비 상태인 하나를 선택하여 선택된 보안 게이트웨이의 IP를 상기 중계서버로 전달하고, 상기 스크래핑 엔진은 서비스 스크립트와 상기 클라이언트의 인증서 정보가 포함된 스크래핑 요청 정보를 상기 중계서버로 전달하는 것을 특징으로 하는, 웹 브라우저 기반 스크래핑 시스템.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2018-0098245 | 2018-08-22 | ||
KR1020180098245A KR102179792B1 (ko) | 2018-08-22 | 2018-08-22 | 웹 브라우저 기반 스크래핑 시스템 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020040556A1 true WO2020040556A1 (ko) | 2020-02-27 |
Family
ID=69592961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2019/010664 WO2020040556A1 (ko) | 2018-08-22 | 2019-08-22 | 웹 브라우저 기반 스크래핑 시스템 및 방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102179792B1 (ko) |
WO (1) | WO2020040556A1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833198A (zh) * | 2020-07-20 | 2020-10-27 | 民生科技有限责任公司 | 一种智能处理保险条款的方法 |
US20220021522A1 (en) * | 2020-07-20 | 2022-01-20 | Fujitsu Limited | Storage medium, relay device, and communication method |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102383998B1 (ko) * | 2021-04-05 | 2022-04-08 | 주식회사 틸코블렛 | Ip주소를 관리하는 프록시 서버가 포함된 정보수집 대행 시스템 |
KR102352041B1 (ko) * | 2021-06-08 | 2022-01-14 | 이영수 | 계층 추상화 인증기능을 구비한 웹 스크래핑 시스템 및 그 방법 |
KR102416805B1 (ko) | 2021-11-05 | 2022-07-05 | 주식회사 온투인 | 데이터 스크래핑 방법 및 이를 지원하는 장치 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100948162B1 (ko) * | 2008-09-29 | 2010-03-16 | 웹케시 주식회사 | 금융 기관 직접 연결을 통한 금융 계좌 통합 조회 방법, 그방법을 수행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체 및 통합 조회 서버 |
KR20160125653A (ko) * | 2015-04-22 | 2016-11-01 | 강헌 | 웹 스크래핑 기반 계좌 통합 관리 시스템 및 이의 웹 스크래핑 처리 방법 |
KR20170041523A (ko) * | 2015-10-07 | 2017-04-17 | 한국정보통신주식회사 | 스크래핑 서비스 제공 방법, 그를 위한 서버 장치 및 시스템 |
US20170193110A1 (en) * | 2015-12-31 | 2017-07-06 | Fractal Industries, Inc. | Distributed system for large volume deep web data extraction |
KR20180047353A (ko) * | 2016-10-31 | 2018-05-10 | 주식회사 핑거 | 스크래핑 클라우드 서비스 제공 방법 및 시스템 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100624705B1 (ko) * | 2006-05-16 | 2006-09-15 | 웹케시 주식회사 | 스크래핑 머신을 이용한 스크린 스크래핑 분산처리 방법 및그 시스템 |
KR101815235B1 (ko) * | 2015-12-30 | 2018-01-08 | 주식회사쿠콘 | 데이터 스크래핑 시스템, 방법 및 컴퓨터 프로그램 |
-
2018
- 2018-08-22 KR KR1020180098245A patent/KR102179792B1/ko active IP Right Grant
-
2019
- 2019-08-22 WO PCT/KR2019/010664 patent/WO2020040556A1/ko active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100948162B1 (ko) * | 2008-09-29 | 2010-03-16 | 웹케시 주식회사 | 금융 기관 직접 연결을 통한 금융 계좌 통합 조회 방법, 그방법을 수행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체 및 통합 조회 서버 |
KR20160125653A (ko) * | 2015-04-22 | 2016-11-01 | 강헌 | 웹 스크래핑 기반 계좌 통합 관리 시스템 및 이의 웹 스크래핑 처리 방법 |
KR20170041523A (ko) * | 2015-10-07 | 2017-04-17 | 한국정보통신주식회사 | 스크래핑 서비스 제공 방법, 그를 위한 서버 장치 및 시스템 |
US20170193110A1 (en) * | 2015-12-31 | 2017-07-06 | Fractal Industries, Inc. | Distributed system for large volume deep web data extraction |
KR20180047353A (ko) * | 2016-10-31 | 2018-05-10 | 주식회사 핑거 | 스크래핑 클라우드 서비스 제공 방법 및 시스템 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833198A (zh) * | 2020-07-20 | 2020-10-27 | 民生科技有限责任公司 | 一种智能处理保险条款的方法 |
US20220021522A1 (en) * | 2020-07-20 | 2022-01-20 | Fujitsu Limited | Storage medium, relay device, and communication method |
Also Published As
Publication number | Publication date |
---|---|
KR20200022289A (ko) | 2020-03-03 |
KR102179792B1 (ko) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020040556A1 (ko) | 웹 브라우저 기반 스크래핑 시스템 및 방법 | |
US20190158462A1 (en) | Secure application delivery system with dial out and associated method | |
CN101802837B (zh) | 通过对设备的动态地址隔离来提供网络和计算机防火墙保护的系统和方法 | |
CN106412024B (zh) | 一种页面获取方法和装置 | |
US9621559B2 (en) | Network apparatus for secure remote access and control | |
CN112448856B (zh) | 一种内网kubernetes对外提供公网访问的方法和系统 | |
US8131830B2 (en) | System and method for providing support services using administrative rights on a client computer | |
CN107113319A (zh) | 一种虚拟网络计算认证中应答的方法、装置、系统和代理服务器 | |
US8291214B2 (en) | Apparatus and method for secure remote processing | |
US20130036206A1 (en) | Method and apparatus for extending remote network visibility of the push functionality | |
WO2018143605A1 (ko) | 전자메일 제공 시스템 및 그 방법 | |
KR102017038B1 (ko) | 패스워드 변경 기능이 구비된 웹 어플리케이션의 접근통제 시스템 | |
US11722447B2 (en) | Systems and methods for electronically distributing information | |
KR100311000B1 (ko) | 다자 참여 웹서버 및 그것을 이용한 사용자간 통신방법 | |
US20140310522A1 (en) | Network apparatus for secure remote access and control | |
WO2015182873A1 (ko) | Dns 서버 선별 차단 및 proxy를 이용한 dns 주소 변경 방법 | |
CN110474884B (zh) | 以太坊网络系统及通信方法、设备及计算机可读存储介质 | |
JP3649180B2 (ja) | セキュリティ管理システムおよび経路指定プログラム | |
US10216926B2 (en) | Isolation of untrusted code in operating system without isolation capability | |
KR102120225B1 (ko) | 4-tier 방식 CASB의 접근통제 관리 시스템 및 그 방법 | |
WO2015190692A1 (ko) | 에이전트 프로그램을 이용한 인터넷 접속 차단 방법 | |
US20200112619A1 (en) | Method and device to secure display of online advertisements on a user device | |
WO2019022584A1 (ko) | 크로스-리소스 구독 관리 방법 | |
WO2023286985A1 (ko) | 보안 장치에서 쿠키를 활용한 사용자 인증 방법 | |
CN109829284A (zh) | 一种整合Linux与Windows操作系统统一用户认证的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19851248 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19851248 Country of ref document: EP Kind code of ref document: A1 |