WO2017150791A2 - 디지털 콘텐츠 모니터링 시스템 및 그 처리 방법 - Google Patents

디지털 콘텐츠 모니터링 시스템 및 그 처리 방법 Download PDF

Info

Publication number
WO2017150791A2
WO2017150791A2 PCT/KR2016/014700 KR2016014700W WO2017150791A2 WO 2017150791 A2 WO2017150791 A2 WO 2017150791A2 KR 2016014700 W KR2016014700 W KR 2016014700W WO 2017150791 A2 WO2017150791 A2 WO 2017150791A2
Authority
WO
WIPO (PCT)
Prior art keywords
script
digital content
web
crawler
crawling
Prior art date
Application number
PCT/KR2016/014700
Other languages
English (en)
French (fr)
Other versions
WO2017150791A3 (ko
Inventor
유대걸
Original Assignee
(주)엠더블유스토리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)엠더블유스토리 filed Critical (주)엠더블유스토리
Publication of WO2017150791A2 publication Critical patent/WO2017150791A2/ko
Publication of WO2017150791A3 publication Critical patent/WO2017150791A3/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Definitions

  • the present invention relates to a digital content monitoring system.
  • a digital content monitoring system In particular, in order to track and monitor a website providing various digital contents distributed and distributed on the web in real time, when a visual part of a web page is visually selected, an access path To create a crawl script by analyzing the data, and to provide a script setting interface for detecting and responding to changes in the crawled website in real time and providing a quick response and detection according to the website change.
  • the present invention relates to a digital content monitoring system and a processing method thereof.
  • DRM Digital Rights Management
  • the measures for copyright protection of digital contents can be divided into proactive measures that make it difficult to copy, distribute and distribute copyrighted works, and follow-up measures to detect and control illegally copied, distributed and distributed works.
  • Proactive measures have been made in a number of advances as technically developed methods such as non-replicable or watermarking techniques for limiting the number of copies.
  • the proactive measures are mostly incapacitated by the development of the technology to release the restrictions, and in many cases, the application of the proactive measures is inadequate due to the effect of prohibiting the distinction of copying which is not a direct infringement of the work. . Therefore, as a follow-up measure, monitoring, detection, and detection of copyright infringement should be continued.
  • An object of the present invention is to provide a digital content monitoring system for web crawling and a processing method thereof.
  • Another object of the present invention is to provide a digital content monitoring system and a method for processing the same, which generate a crawling script in accordance with a change of a connection path of a crawling target site and detect and monitor digital content.
  • Still another object of the present invention is to provide a digital content monitoring system for easily generating and crawling script information and a processing method thereof.
  • the digital content monitoring system of the present invention for achieving the above objects includes an interface unit, a monitoring database, a digital content management server, a digital content detection server, a web link parsing processor and a web crawling processor.
  • the interface unit connects to a web site of a digital content providing system that provides various copyrighted digital contents through a communication network.
  • the monitoring database stores the digital content.
  • the digital content management server receives the digital content from a user terminal through the communication network and registers and manages the digital content in the monitoring database.
  • the digital content detection server processes the crawling of the web site to collect the digital content disclosed on the web site, and compares the collected digital content with original information stored in the monitoring database to determine copyright infringement. Digital content to be detected.
  • the web link parsing processor extracts and collects web site information including at least one of HTML, script, Cascading Style Sheets (CSS), Flash, Silverlight, and a plug-in of a web browser.
  • the web crawling processor extracts attachment file information attached to a post on the web site, and checks the integrity by comparing the web site information and the attachment file information with original information stored in the monitoring database.
  • the processing method of the digital content monitoring system of the present invention for achieving the above object is a portion in which the access path is changed by visually selecting a specific part of the web site for the crawl processing of the web site providing various digital contents with copyrights. Analyzing whether there is a message, generating a crawling script for the selected portion, detecting a site change for the selected portion, and informing a crawler of a changed crawling script; Operating a crawler, detecting whether there is a script change during the operation of the crawler, managing the crawler's operation, and statistically processing data related to the crawler's operation.
  • the digital content monitoring system of the present invention visually selects a part of a web page to be crawled, by analyzing an access path and generating and applying a crawl script, the digital content monitoring system detects a change in a crawled target web site in real time. Quick response and detection according to site change is possible.
  • the digital content monitoring system of the present invention can easily manage various web crawlers even those who do not have special developmental knowledge.
  • the digital content monitoring system of the present invention can quickly detect a change of a crawling target site (OSP site) that is changed from time to time, and can minimize the leakage time of monitoring through a quick and easy change.
  • OSP site crawling target site
  • the digital content monitoring system of the present invention can check at a glance statistical information on whether crawling is working well, thus enabling a systematic approach to digital content monitoring.
  • FIG. 1 is a block diagram showing a network configuration of a digital content monitoring system according to the present invention.
  • FIG. 2 is a block diagram showing the configuration of the digital content monitoring system shown in FIG.
  • FIG. 3 is a block diagram showing the configuration of the web crawling processor shown in FIG.
  • FIG. 4 is a flowchart showing the processing procedure of the digital content monitoring system according to the present invention.
  • FIG. 5 is a flowchart showing the detailed procedure of the visual access path analysis routine shown in FIG. 4.
  • FIG. 6 is a flowchart showing the detailed procedure of the site change detection processing routine shown in FIG.
  • FIG. 7 is a flowchart showing the detailed procedure of the crawler operation and script change detection management routine shown in FIG.
  • FIG. 8 is a flowchart showing the detailed procedure of the crawler operation statistics processing routine shown in FIG.
  • FIG. 9 is a diagram illustrating a configuration of a web crawler management screen according to an embodiment of the present invention.
  • FIG. 10 is a diagram showing the configuration of a web crawler statistics screen according to an embodiment of the present invention.
  • FIG. 1 is a block diagram showing a network configuration of a digital content monitoring system according to the present invention
  • Figure 2 is a block diagram showing the configuration of a digital content monitoring system shown in Figure 1
  • Figure 3 is shown in Figure 2
  • It is a block diagram which shows the structure of a web crawl processing part.
  • the digital content monitoring system 100 of the present invention is to track the portion of the web page to be crawled in order to track and monitor a website providing various digital content distributed and distributed on the web in real time.
  • crawl paths are analyzed by generating a crawl script by analyzing access paths, and providing a script setting interface for detecting and responding to changes in a website in real time to quickly respond to and detect changes in a website. Process the configuration, change, and applicability.
  • the digital content monitoring system 100 of the present invention is connected to a plurality of digital content providing systems 10 for providing various digital contents through a communication network 30 and various digital contents having a copyright from the user terminal 20. Receive, register and manage them.
  • the digital content monitoring system 100 of the present invention crawls the digital content from the web page of the digital content providing system 10, detects this when the access path of the website is changed, and automatically generates and monitors the crawl script. .
  • the digital content monitoring system 100 of the present invention includes an interface unit 110, a digital content management server 120, a digital content detection server 130, a web link parsing processor 140, and a web crawling. It includes a processing unit 160, a notification guide server 180, and a monitoring database (DB) 150.
  • DB monitoring database
  • the interface unit 110 allows the digital content monitoring system 100 to access the web site 12 of the digital content providing system 10 through the communication network 30, and when the access path of the web site is changed, the changed web site. It provides an interface to set and generate a crawl script by detecting an access path change in real time or periodically from 12a.
  • the digital content management server 120 receives copyrighted digital content from the user terminal 20, stores, registers, and manages the digital content in the monitoring database 150.
  • the digital content registered by the user terminal 20 includes, for example, various data files such as text, images, moving images, and sound sources.
  • the digital content management server 120 interoperates with all operations of the digital content detection server 130, the monitoring database 150, the web link parsing processor 140, the web crawling processor 160, and the information notification server 180. Take care of it.
  • the digital content detection server 130 processes crawling of websites operated by a plurality of online service providers (OSPs) on the web to collect digital contents disclosed on the website.
  • the digital content detection server 130 compares the collected content with a work stored in the monitoring DB 150 to detect digital content that is determined to be copyright infringement.
  • the digital content detection server 130 includes, for example, a comparator for comparing images, texts, and the like, and detects copyright infringement content of images and texts from the collected digital content.
  • the web link parsing unit 140 includes, for example, a hooker, a web link parser, an HTML parser, an image downloader, a log maker, and the like.
  • the web link parsing processor 140 accesses a website through a hooker to extract an environment for the website policy, and includes HTML, script, CSS, flash, and silverlight in the website. And web site information including at least one of a plug-in of a web browser.
  • the web link parsing unit 140 loads the environment for the policy of the website extracted by the hooker and collects website information.
  • the web link parsing processor 140 obtains link data, that is, a job, for parsing the digital content to be performed from the monitoring DB 150.
  • the web link parsing processor 140 acquires HTML and scripts, analyzes HTML, temporarily stores the downloaded image file through an image downloader, and stores a log file in the monitoring DB 150 through a log maker. do.
  • the web crawl processing unit 160 processes crawling of a website to extract HTML, script, cascading style sheets (CSS), flash, and silverlight information in the website, Collect.
  • the web crawler 160 may include HTML, script, cascading style sheets (CSS), flash, and silverlight information through plug-in information included in a post that is posted as digital content of a website. Extract the back.
  • the web crawling processor 160 includes a hooker, a web crawler, an HTML parser, and the like.
  • the web crawling processor 160 extracts attachment file information attached to a post on the web. At this time, the extracted attachment file includes audio information, video information, document information, image information, and the like.
  • the web crawling processor 160 includes a script setting interface module 162, a script editor 164, a script task manager 166, and a plurality of web crawlers 170 to 174. .
  • the script setting interface module 162 accesses a web site, and if a change in the access path of the web site is detected, the script setting interface module 162 processes the script setting.
  • the script setting interface module 162 may include, for example, a script editor 164 for editing an access path of a web site when an image, an HTML element, a table name, a login button, a post URL, and the like are changed. It is provided for easy setup and application in the form of an Excel or text editor.
  • the script editor 164 edits the script from the script setting interface module 162 to set and apply the changed access path of the web site.
  • the script editor 164 edits and applies various information included in a script, for example, an image, an HTML element, a table name, a login button, and a post URL to set a changed access path of a web site. do.
  • the script task manager 166 works with scripts set by the script editor 164 to manage scripts to crawl digital content published on the web site.
  • Each of the web crawlers 170 to 174 stores the extracted plug-in information and attachment file information in the monitoring DB 150. To this end, the web crawlers 170 to 174 store original information corresponding to the original file related to the plug-in information and the attachment file information, load the information posted on the web and the previously stored original information, and Integrity is checked by comparing original information corresponding to each attachment file information.
  • the check of integrity is defined as a broad concept including the accuracy of data, such as deletion, modification and modification of data. Therefore, the integrity check between the original information corresponding to the plug-in information and the attachment file information can be inspected for all data changed from the normal original data such as data modification, deletion, and modification.
  • each of the web crawlers 170 to 174 uses a cryptographic hash algorithm, a fingerprinting technique, a similarity comparison, an OCR engine, an HTML tag tree, HTML file information, an electronic signature, Javascript, XML information, and the like for different integrity checks.
  • the plug-in information and the attachment file information are compared with the original information to process the integrity check.
  • the monitoring DB 150 stores digital content received and registered by the digital content management server 120.
  • the monitoring DB 150 provides the stored digital content so that the digital content detection server 130 detects copyright infringement.
  • the information notification server 180 provides at least one of, for example, an e-mail, a messenger, a social network service (SNS), and an SMS text message to the user or administrator, and provides the digital content on the web with respect to the digital content detected as copyright infringement. Send an email notifying you of a copyright infringement to a website published by.
  • the information notification server 180, e-mail, messenger, social network service (SNS), SMS text message for information announcement about the website required to change the contents and scripts to change when the post of the website is changed Provide at least one of the representatives (ie, users or administrators).
  • the digital content monitoring system 100 of the present invention can visually select a portion to be crawled on a web page, analyze the access path of the changed web site, and easily generate and apply a crawl script.
  • FIG. 4 is a flowchart showing the processing procedure of the digital content monitoring system according to the present invention
  • FIG. 5 is a flowchart showing the detailed procedure of the visual access path analysis routine shown in FIG. 4
  • FIG. 6 is shown in
  • FIG. 7 is a flowchart showing the detailed procedure of the site change detection processing routine
  • FIG. 7 is a flowchart showing the detailed procedure of the crawler operation and the script change detection management routine shown in FIG. 4
  • FIG. 8 is the crawler operation statistics shown in FIG. It is a flowchart showing the detailed procedure of a processing routine.
  • 9 is a view showing the configuration of a web crawler management screen according to an embodiment of the present invention
  • Figure 10 is a view showing the configuration of a web crawler statistics screen according to an embodiment of the present invention.
  • the digital content monitoring system 100 of the present invention processes a visual access path analysis routine by visually selecting a specific part of the web site for the crawl process of the web site in step S200. Process the visual crawl script generation routine for the selected part in S220 to provide a completed script.
  • step S230 a site change for the selected portion is detected and a routine for notifying the changed script is processed.
  • step S250 the crawler operation and the script change detection management routine are processed according to the script setting of the site changed access path.
  • step S270 a statistical routine of data related to the crawler operation is processed.
  • the visual access path analysis routine S200 starts a visual access path analysis program in step S202 and inputs a corresponding URL to visually find an access path in step S204.
  • the corresponding URL is browsed, and the part of which the path is desired to be found by clicking on the browsed URL web page is selected.
  • the path to the portion selected in step S208 is provided as a result.
  • the visual crawling script generation routine programs the output of the crawling script for the selected portion to change the access path to generate a crawling script that visually analyzes the access path.
  • the result of the selected part for example, OSP information and login-related information in this embodiment is shown in Table 1 below.
  • This result is operated by a program as shown in Table 2 below to generate a completed script result.
  • itemname ID
  • itemname Password
  • src http: //img.applefile.com/img/new_login/login_btn_ok.jpg
  • OSP_LOGIN_ID npick
  • the automatically generated script result includes not only OSP information and login-related information, but also download-related information, bulletin board movement and table-related information, DB linkage-related information, pop-up window related information, and download pop-up window related information corresponding to the changed script.
  • the site change detection processing routine S230 crawls along the script in step S232, and determines whether the next script command is not executed during the crawl in step S234. As a result of the determination, if the next script instruction is not executed, that is, if the script instruction of the next task is not executed during the crawling operation, it detects that the access path of the site has been changed, and the procedure proceeds to step S236 to detect the site change, Notify the user or administrator of the detected content. At this time, the contents for the script change is stored in the monitoring database 150. If no changes have been made, this procedure proceeds to step S232 to detect changes in other web sites or web posts.
  • step S240 a portion of the script that needs to be changed is notified to the user using a popup window of the corresponding website. This is to notify the person in charge by using e-mail, SNS, messenger, SMS text message, etc. in order to announce the contents of the changed access path of the web post and the information on the portion that needs to be changed.
  • step S252 when the crawler operation and the script change detection management routine S250 starts a web crawler management process for periodically detecting a crawl target site, as illustrated in FIG. 7, an administrator who is notified in step S252 performs a crawler operation. Inquiry is made through the monitoring screen, and in step S254 it is determined whether the crawler operation is normal.
  • step S256 confirm the current script operation line, the crawler operation time, and the accumulated operation time from the crawler start time to the current time.
  • step S258 the procedure goes to step S258 to check the change detection and the stopped script line, execute the command to restart the crawler by editing and saving the script.
  • Such a crawler operation and a script change detection management routine are performed by periodically detecting a web crawler at a set time.
  • the crawler stops through a web crawler management screen shown in FIG. 9.
  • Check the crawl leakage time by checking the current time.
  • the web crawler management screen includes the OSP (what is being crawled) site, whether there is an action, whether a change is detected, whether the current script action line, whether the script is viewed, whether the crawler is running, the crawler start time, the crawler stop time, and the accumulated crawler time. to provide.
  • the statistics processing routine S270 related to the crawler operation may include data required for the crawler operation in step S272, for example, time, number of crawled posts, change detection count, etc. for each OSP site. ), And calculates a statistical value from the data of the monitoring database collected in step S247. Subsequently, in step S276, statistical values are displayed on a web screen for each period of days, weeks, and months, and the like.
  • the crawler management statistics screen includes a crawling target (OSP) site, a cumulative crawler continuous operation time, a number of crawled posts, an average crawl time of one post, a change detection count, a crawler leak time, and the like.
  • OSP crawling target

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Technology Law (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 디지털 콘텐츠 모니터링 시스템 및 그 처리 방법에 관한 것이다. 본 발명의 디지털 콘텐츠 모니터링 시스템은 웹상에서 다양한 디지털 콘텐츠를 제공하는 웹 사이트의 접근 경로가 변경된 부분을 비주얼하게 선택하여, 크롤링 스크립트를 자동 생성하고, 이를 통해 크롤링 작업이 이루어지도록 적용한다. 이를 위해 본 발명의 디지털 콘텐츠 모니터링 시스템은 인터페이스와, 웹 링크 파싱 처리부와, 웹 크롤링 처리부 및 모니터링 데이터베이스를 포함한다. 웹 크롤링 처리부는 스크립트 설정 인터페이스 모듈, 스크립트 편집기, 스트립트 작업 관리기 및 복수 개의 웹 크롤러를 포함한다. 이러한 웹 크롤링 처리부는 웹페이지의 크롤링할 부분을 시각적으로 선택하면, 접근 경로를 분석하여 크롤링 스크립트를 생성하여 적용함으로써, 크롤링 대상 웹사이트의 변경을 실시간으로 감지하여 웹사이트 변경에 따른 신속한 대응 및 검출이 가능하다.

Description

디지털 콘텐츠 모니터링 시스템 및 그 처리 방법
본 발명은 디지털 콘텐츠 모니터링 시스템에 관한 것으로, 특히, 웹상에서 배포 및 유통되는 다양한 디지털 콘텐츠를 제공하는 웹사이트를 실시간으로 추적, 모니터링하기 위하여, 웹페이지의 크롤링 할 부분을 시각적으로 선택하면, 접근 경로를 분석하여 크롤링 스크립트를 생성하고, 크롤링 대상 웹사이트의 변경을 실시간으로 감지하여 웹사이트 변경에 따른 신속한 대응 및 검출 가능하도록 스크립트 설정 인터페이스를 제공하여, 사이트 변경에 따른 크롤링을 설정, 변경 및 적용 가능하도록 처리하는 디지털 콘텐츠 모니터링 시스템 및 그 처리 방법에 관한 것이다.
디지털 콘텐츠는 아날로그 데이터와는 달리 손실이 없이 복제할 수 있다는 점, 재사용 및 가공이 용이하여, 복제와 배포를 손쉽게 할 수 있다는 특성이 있다. 그러한, 디지털 콘텐츠의 제작에는 비용과 시간이 많이 필요하므로 디지털 콘텐츠의 불법 복제 및 배포는 문제가 된다. 불법 복제로 인한 콘텐츠 및 콘텐츠 제작자를 보호하기 위하여, 디지털 저작권 관리(Digital Rights Management : DRM)에 관한 연구가 활발하며, 디지털 저작권 관리(DRM)를 이용한 많은 서비스들이 도입되고 있다. 디지털 권한 관리(DRM)는 콘텐츠 제공자의 권리와 이익을 안전하게 보호하며 불법복제를 막고 사용료 부과와 결제 대행 등 콘텐츠의 생성에서 유통 관리까지를 지원하는 기술이다.
유무선 통신망, 이동 통신망을 발달로 인하여, 웹(web) 상에서 다양한 디지털 콘텐츠가 자유롭게 배포 및 유통됨에 따라, 디지털 콘텐츠에 대한 저작물 보호 및 위법 게시물에 대한 모니터링이 중요한 문제가 되었다.
디지털 콘텐츠는 복제, 유통 및 배포가 매우 용이하며, 이와 같이 배포된 디지털 콘텐츠는 진본과 실질적으로 동일하므로, 디지털 콘텐츠에 의한 저작권 침해는 저작권자의 권익을 심각하게 훼손하게 되고, 인터넷이나 소셜 네트워크 서비스(SNS) 등을 이용한 위법 게시물의 게시로 인하여 개인 정보 유출 및 허위 사실 공표 및 비방 등이 심각하다.
디지털 콘텐츠에 대한 저작권 보호를 위한 방안은 저작물의 복제, 유통, 배포가 어렵게 하는 사전적 조치와, 불법으로 복제, 유통, 배포된 저작물에 대해 검출하고 단속하는 사후적 조치로 나눌 수 있다.
사전적 조치는 예컨대, 복제 불가능하거나, 복제 횟수를 제한하기 위한 워터마킹 기술 등과 같이 기술적 측면에서 개발되는 방식으로서 많은 발전이 이루어져 왔다. 그러나 사전적 조치에 의한 방식은 제한을 해제하는 기술의 개발에 의해 대부분 무력화되고 있으며, 또한 저작물의 직접적 침해에 해당하지 않는 복제 등에 대해서도 구분을 두지 않고 금지하는 효과로 인해 현실적으로 적용이 부적절한 경우가 많다. 따라서 사후적 조치로서 저작권을 침해하고 있는 행위에 대해 모니터링, 검출 및 적발이 지속적으로 병행되어야 한다.
그런데 현재의 디지털 콘텐츠 저작물의 침해 검출은 저작권자 스스로 또는 저작권을 위탁받아 관리하는 위탁 기관이 개별적으로 웹사이트들을 접속하여 검출하는 수작업에 의존하고 있다. 이러한 방식은 무수히 많은 수의 웹사이트들에 대한 모니터링, 검출 및 적발을 매우 어렵게 하며, 기존에 검출된 웹사이트에서도 새로이 저작권 침해 사례가 추가되는 경우에 재접속 및 재검출을 하지 않는 한 지속적인 감시가 어렵게 된다. 나아가, 저작권자가 소자본의 개인일 때에는 위탁 기관에 자신의 저작물에 대한 권리 보호를 위탁하는 것도 쉽지 않다.
그뿐만 아니라, 현재 관리 대상이 될 수 있는 많은 수의 웹사이트들은 지속적으로 웹사이트를 변경하면서 모니터링을 우회하고 있다. 웹사이트가 변경되면, 웹사이트를 모니터링하는 웹 크롤러(web crawler)의 게시물 수집이 중단되므로, 웹 크롤러를 동작하게 하는 스크립트(script)를 다시 변경해서 적용해야만 모니터링이 가능하다. 이에 변경된 스크립트를 다시 적용하는 시간이 예를 들어, 하루에서 이틀 또는 일주일이 걸릴 수 있어서, 모니터링 단속의 누수 시간이 발생한다. 그리고 스크립트를 변경해서 적용하는 부분이 개발자와 같은 전문가들만 가능하므로, 한정된 인력으로 많은 수의 웹사이트들이 변경되는 것에 대응해서 실시간으로 스크립트를 변경 및 적용하는 데에는 많은 한계가 존재한다.
본 발명의 목적은 웹 크롤링을 위한 디지털 콘텐츠 모니터링 시스템 및 그 처리 방법을 제공하는 것이다.
본 발명의 다른 목적은 크롤링 대상 사이트의 접속 경로 변경에 따라 신속하게 크롤링 스트립트를 생성하여, 디지털 콘텐츠를 검출 및 모니터링하도록 처리하는 디지털 콘텐츠 모니터링 시스템 및 그 처리 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 용이하게 스크립트 정보를 생성하여 크롤링 처리하는 디지털 콘텐츠 모니터링 시스템 및 그 처리 방법을 제공하는 것이다.
상기 목적들을 달성하기 위한 본 발명의 디지털 콘텐츠 모니터링 시스템은, 인터페이스부, 모니터링 데이터베이스, 디지털 콘텐츠 관리 서버, 디지털 콘텐츠 검출서버, 웹 링크 파싱 처리부 및 웹 크롤링 처리부를 포함한다. 상기 인터페이스부는 통신망을 통하여 저작권을 갖는 다양한 디지털 콘텐츠를 제공하는 디지털 콘텐츠 제공 시스템의 웹 사이트에 접속하도록 한다. 상기 모니터링 데이터베이스는 상기 디지털 콘텐츠를 저장한다. 상기 디지털 콘텐츠 관리 서버는 상기 통신망을 통하여 사용자 단말기로부터 상기 디지털 콘텐츠를 전송받아서 상기 모니터링 데이터베이스에 등록, 관리한다. 상기 디지털 콘텐츠 검출 서버는 상기 웹 사이트에 대해 크롤링을 처리하여 상기 웹 사이트에 개시된 상기 디지털 콘텐츠를 수집하고, 수집된 상기 디지털 콘텐츠를 상기 모니터링 데이터베이스에 저장되어 있는 원본 정보와 비교하여, 저작권 침해로 판단되는 디지털 콘텐츠를 검출한다. 상기 웹 링크 파싱 처리부는 상기 웹 사이트 내의 HTML, 스크립트, CSS(Cascading Style Sheets), 플래시, 실버라이트 및 웹 브라우저의 플러그인 중 적어도 어느 하나를 포함하는 웹 사이트 정보를 추출하여 수집한다. 상기 웹 크롤링 처리부는 상기 웹 사이트 상의 게시물에 첨부된 첨부 파일 정보를 추출하고, 상기 웹 사이트 정보와 상기 첨부 파일 정보를 상기 모니터링 데이터베이스에 저장된 원본 정보들과 각각 비교하여 무결성 여부를 체크한다.
상기 목적들을 달성하기 위한 본 발명의 디지털 콘텐츠 모니터링 시스템의 처리 방법은, 저작권을 갖는 다양한 디지털 콘텐츠를 제공하는 웹 사이트의 크롤링 처리를 위하여 상기 웹 사이트의 특정 부분을 비주얼로 선택하여 접근 경로가 변경된 부분이 있는지를 분석하는 단계, 상기 선택된 부분에 대한 크롤링 스크립트를 생성하는 단계, 상기 선택된 부분에 대한 사이트 변경을 감지하여 변경된 크롤링 스크립트를 크롤러에게 알려주는 단계, 상기 사이트 변경된 접근 경로의 스크립트 설정에 따라 상기 크롤러를 동작시키고, 상기 크롤러의 동작 중에 스크립트 변경이 있는지를 감지하여 상기 크롤러의 동작을 관리하는 단계 및 상기 크롤러의 동작과 관련된 데이터를 통계 처리하는 단계를 포함한다.
상술한 바와 같이, 본 발명의 디지털 콘텐츠 모니터링 시스템은 웹페이지의 크롤링할 부분을 시각적으로 선택하면, 접근 경로를 분석하여 크롤링 스크립트를 생성하여 적용함으로써, 크롤링 대상 웹사이트의 변경을 실시간으로 감지하여 웹사이트 변경에 따른 신속한 대응 및 검출이 가능하다.
또 본 발명의 디지털 콘텐츠 모니터링 시스템은 특별한 개발적인 지식이 없는 사람들도 다양한 웹 크롤러를 손쉽게 관리할 수 있다.
또 본 발명의 디지털 콘텐츠 모니터링 시스템은 수시로 변경되는 크롤링 대상 사이트(OSP 사이트)의 변경을 빠르게 감지하고 빠르고 손쉬운 변경을 통하여 모니터링의 누수 시간을 최소화 할 수 있다.
또한 본 발명의 디지털 콘텐츠 모니터링 시스템은 크롤링이 잘 동작하고 있는지에 대한 통계 정보를 한눈에 확인할 수 있으므로, 디지털 콘텐츠 모니터링에 대한 체계적인 접근이 가능하다.
도 1은 본 발명에 따른 디지털 콘텐츠 모니터링 시스템의 네트워크 구성을 도시한 블럭도이다.
도 2는 도 1에 도시된 디지털 콘텐츠 모니터링 시스템의 구성을 도시한 블럭도이다.
도 3은 도 2에 도시된 웹 크롤링 처리부의 구성을 도시한 블럭도이다.
도 4는 본 발명에 따른 디지털 콘텐츠 모니터링 시스템의 처리 수순을 도시한 흐름도이다.
도 5는 도 4에 도시된 비주얼 접근 경로 분석 루틴의 상세한 수순을 도시한 흐름도이다.
도 6은 도 4에 도시된 사이트 변경 감지 처리 루틴의 상세한 수순을 도시한 흐름도이다.
도 7은 도 4에 도시된 크롤러 동작 및 스크립트 변경 감지 관리 루틴의 상세한 수순을 도시한 흐름도이다.
도 8은 도 4에 도시된 크롤러 동작 통계 처리 루틴의 상세한 수순을 도시한 흐름도이다.
도 9는 본 발명의 실시예에 따른 웹 크롤러 관리 화면의 구성을 나타내는 도면이다.
도 10은 본 발명의 실시예에 따른 웹 크롤러 통계 화면의 구성을 나타내는 도면이다.
이하 첨부된 도 1 내지 도 10을 참조하여 본 발명의 실시 예를 상세히 설명한다.
도 1은 본 발명에 따른 디지털 콘텐츠 모니터링 시스템의 네트워크 구성을 도시한 블럭도이고, 도 2는 도 1에 도시된 디지털 콘텐츠 모니터링 시스템의 구성을 도시한 블럭도이며, 도 3은 도 2에 도시된 웹 크롤링 처리부의 구성을 도시한 블럭도이다.
도 1 내지 도 3을 참조하면, 본 발명의 디지털 콘텐츠 모니터링 시스템(100)은 웹 상에서 배포 및 유통되는 다양한 디지털 콘텐츠를 제공하는 웹사이트를 실시간으로 추적, 모니터링하기 위하여, 웹페이지의 크롤링할 부분을 시각적으로 선택하면, 접근 경로를 분석하여 크롤링 스크립트를 생성하고, 크롤링 대상 웹사이트의 변경을 실시간으로 감지하여 웹사이트 변경에 따른 신속한 대응 및 검출 가능하도록 스크립트 설정 인터페이스를 제공하여, 사이트 변경에 따른 크롤링을 설정, 변경 및 적용 가능하도록 처리한다.
이를 위해 본 발명의 디지털 콘텐츠 모니터링 시스템(100)은 다양한 디지털 콘텐츠를 제공하는 복수 개의 디지털 콘텐츠 제공 시스템(10)과 통신망(30)을 통해 연결되고, 사용자 단말기(20)로부터 저작권을 갖는 다양한 디지털 콘텐츠들을 전송받아서, 등록 및 관리한다. 또 본 발명의 디지털 콘텐츠 모니터링 시스템(100)은 디지털 콘텐츠 제공 시스템(10)의 웹페이지로부터 디지털 콘텐츠를 크롤링 처리하고, 웹사이트의 접근 경로 변경 시, 이를 감지하고 크롤링 스크립트를 자동 생성하여 모니터링 처리한다.
구체적으로, 본 발명의 디지털 콘텐츠 모니터링 시스템(100)은 인터페이스부(110)와, 디지털 콘텐츠 관리 서버(120)와, 디지털 콘텐츠 검출 서버(130)와, 웹 링크 파싱 처리부(140)와, 웹 크롤링 처리부(160)와, 공지 안내 서버(180) 및, 모니터링 데이터베이스(DB)(150)를 포함한다.
인터테이스부(110)는 디지털 콘텐츠 모니터링 시스템(100)이 통신망(30)을 통하여 디지털 콘텐츠 제공 시스템(10)의 웹 사이트(12)에 접속하도록 하고, 웹 사이트의 접근 경로 변경 시, 변경된 웹 사이트(12a)로부터 실시간 또는 주기적으로 접근 경로 변경을 감지하여 크롤링 스크립트를 설정, 생성하도록 인터페이스를 제공한다.
디지털 콘텐츠 관리 서버(120)는 사용자 단말기(20)로부터 저작권을 갖는 디지털 콘텐츠를 전송받아서 모니터링 데이터베이스(150)에 저장, 등록 및 관리한다. 사용자 단말기(20)가 등록하는 디지털 콘텐츠는 예를 들어, 텍스트, 이미지, 동영상 및 음원 등과 같은 다양한 데이터 파일을 포함한다. 디지털 콘텐츠 관리 서버(120)는 디지털 콘텐츠 검출 서버(130), 모니터링 데이터베이스(150), 웹링크 파싱 처리부(140), 웹 크롤링 처리부(160) 및 정보 공지 서버(180)들의 제반 동작을 상호 연동 및 관리하도록 처리한다.
디지털 콘텐츠 검출 서버(130)는 웹상에서 다수의 OSP(Online Service Provider)에 의해 운영되는 웹사이트에 대해 크롤링(crawling)을 처리하여 웹사이트에 개시된 디지털 콘텐츠를 수집한다. 디지털 콘텐츠 검출 서버(130)는 수집된 콘텐츠를 모니터링 DB(150)에 저장되어 있는 저작물과 비교하여, 저작권 침해로 판단되는 디지털 콘텐츠를 검출한다. 디지털 콘텐츠 검출 서버(130)는 예를 들어, 이미지, 텍스트 등을 비교하는 비교기를 구비하고, 이를 통해 수집된 디지털 콘텐츠 중에서 이미지와 텍스트에 대한 저작권 침해 콘텐츠를 검출한다.
웹 링크 파싱 처리부(140)는 예컨대, 후커(Hooker), 웹 링크 파서(Web Link Parser), HTML 파서(HTML Parser), 이미지 다운로더(Image Downloader) 및 로그 메이커(Log Maker) 등을 구비한다. 웹 링크 파싱 처리부(140)는 후커(hooker)를 통해 웹사이트에 접속하여 웹사이트 정책에 대한 환경을 추출하고, 웹사이트 내의 HTML, 스크립트(Script), CSS, 플래시(flash), 실버라이트(silverlight) 및 웹 브라우저의 플러그인(plug-in) 중 적어도 어느 하나를 포함하는 웹사이트 정보를 추출한다.
웹 링크 파싱 처리부(140)는 후커에 의해 추출된 웹사이트의 정책에 대한 환경을 로드하고, 웹사이트 정보를 수집한다. 웹 링크 파싱 처리부(140)는 모니터링 DB(150)로부터 수행할 디지털 콘텐츠를 파싱 처리하기 위한 링크 데이터 즉, 잡(Job)을 획득한다. 웹 링크 파싱 처리부(140)는 HTML, 스크립트를 획득하여 HTML을 분석하고, 이미지 다운로더를 통해 다운로드 한 이미지 파일을 임시 저장하고, 로그 메이커(log maker)를 통해 모니터링 DB(150)에 로그 파일을 저장한다.
웹 크롤링 처리부(160)는 웹사이트에 대한 크롤링(crawling)를 처리하여 웹사이트 내의 HTML, 스크립트(Script), CSS(Cascading Style Sheets), 플래시(flash) 및 실버라이트(silverlight) 정보 등을 추출, 수집한다. 이때, 웹 크롤링 처리부(160)는 웹사이트의 디지털 콘텐츠로 개재된 게시물에 포함된 플러그인 정보를 통해 HTML, 스크립트(Script), CSS(Cascading Style Sheets), 플래시(flash) 및 실버라이트(silverlight) 정보 등을 추출한다.
웹 크롤링 처리부(160)는 후커, 웹 크롤러, HTML 파서 등을 구비한다. 웹 크롤링 처리부(160)는 웹 상의 게시물에 첨부된 첨부 파일 정보를 추출한다. 이 때, 추출된 첨부 파일에는 음성 정보, 영상 정보, 문서 정보 및 이미지 정보 등을 포함한다.
구체적으로 웹 크롤링 처리부(160)는 도 3에 도시된 바와 같이, 스크립트 설정 인터페이스 모듈(162), 스크립트 편집기(164), 스트립트 작업 관리기(166) 및 복수 개의 웹 크롤러(170 ~ 174)를 포함한다.
스크립트 설정 인터페이스 모듈(162)은 웹 사이트에 접속하여 웹 사이트의 접속 경로가 변경 감지되면, 스크립트를 설정하도록 처리한다. 스크립트 설정 인터페이스 모듈(162)은 예를 들어, 이미지, HTML 요소(HTML element), 테이블 명, 로그인 버튼 및, 게시물 URL 등이 변경되면, 웹 사이트의 접근 경로를 편집하기 위한 스크립트 편집기(164) 예컨대, Excel 또는 텍스트 편집기 형태로 쉽게 설정 및 적용 가능하도록 제공된다.
스크립트 편집기(164)는 스크립트 설정 인터페이스 모듈(162)로부터 웹 사이트의 변경된 접근 경로를 설정 적용하도록 스크립트를 편집한다. 스크립트 편집기(164)는 웹 사이트의 변경된 접근 경로를 설정하기 위하여 스크립트에 포함되는 다양한 정보들 예를 들어, 이미지, HTML 요소(HTML element), 테이블 명, 로그인 버튼 및, 게시물 URL 등을 편집, 적용한다.
스트립트 작업 관리기(166)는 스트립트 편집기(164)에 의해 설정된 스트립트를 작업하여, 해당 웹 사이트에 게재된 디지털 콘텐츠를 크롤링 하도록 스트립트를 관리한다.
웹 크롤러(170 ~ 174)들 각각은 추출된 플러그인 정보와 첨부 파일 정보를 모니터링 DB(150)에 저장한다. 이를 위해 웹 크롤러(170 ~ 174)들은 플러그인 정보와 첨부 파일 정보와 관련한 원본 파일에 해당하는 원본 정보를 저장하고, 웹 상에 게시된 정보들과 미리 저장한 원본 정보를 불러온 후, 플러그인 정보와 첨부 파일 정보 각각에 대응하는 원본 정보를 각각 비교하여 무결성 여부를 체크한다.
여기서, 무결성 여부의 체크는 데이터의 정확성, 예컨대 데이터의 삭제, 수정 및 변형을 포함한 넓은 개념으로서 정의된다. 따라서, 플러그인 정보와 첨부 파일 정보에 각각 해당하는 원본 정보들 간의 무결성 체크는 데이터의 변형, 삭제, 수정과 같이 정상적인 원본 데이터와 다르게 바뀐 모든 데이터에 대해 검사할 수 있다.
또 웹 크롤러(170 ~ 174)들 각각은 서로 다른 무결성 체크를 위하여, 암호학적 해쉬 알고리즘, 핑거 프린팅 기법, 유사도 비교, OCR 엔진, HTML 태그 트리, HTML 파일 정보, 전자 서명, 자바 스크립트, XML 정보 등 다양한 방식을 이용하여 플러그인 정보와 첨부 파일 정보를 원본 정보와 비교하여 무결성 체크를 처리한다.
다시 도 2를 참조하면, 모니터링 DB(150)는 디지털 콘텐츠 관리 서버(120)에 의해 수신되어 등록된 디지털 콘텐츠를 저장한다. 모니터링 DB(150)는 저장된 디지털 콘텐츠를 디지털 콘텐츠 검출 서버(130)가 저작권 침해 여부를 검출하도록 제공한다.
그리고 정보 공지 서버(180)는 예컨대, 전자 메일, 메신저, 소셜 네트워크 서비스(SNS), SMS 문자 메시지 중 적어도 하나를 사용자 또는 관리자에게 제공하며, 저작권 침해로 검출된 디지털 콘텐츠에 대해 동 디지털 콘텐츠를 웹상에서 개시(publishing)한 웹사이트로 저작권 침해 사실을 통지하는 메일을 발송한다. 또 정보 공지 서버(180)는 웹사이트의 게시물의 접속 경로가 변경되면, 공지할 내용과 스크립트 변경에 필요한 웹사이트에 대한 정보 공지를 위한 전자 메일, 메신저, 소셜 네트워크 서비스(SNS), SMS 문자 메시지 중 적어도 하나를 담당자(즉, 사용자 또는 관리자)에게 제공한다.
따라서 본 발명의 디지털 콘텐츠 모니터링 시스템(100)은 웹페이지의 크롤링할 부분을 시각적으로 선택하여, 변경된 웹 사이트의 접근 경로를 분석하여 크롤링 스크립트를 용이하게 생성, 적용할 수 있다.
도 4는 본 발명에 따른 디지털 콘텐츠 모니터링 시스템의 처리 수순을 도시한 흐름도이고, 도 5는 도 4에 도시된 비주얼 접근 경로 분석 루틴의 상세한 수순을 도시한 흐름도이고, 도 6은 도 4에 도시된 사이트 변경 감지 처리 루틴의 상세한 수순을 도시한 흐름도이고, 도 7은 도 4에 도시된 크롤러 동작 및 스크립트 변경 감지 관리 루틴의 상세한 수순을 도시한 흐름도이며, 도 8은 도 4에 도시된 크롤러 동작 통계 처리 루틴의 상세한 수순을 도시한 흐름도이다. 도 9는 본 발명의 실시예에 따른 웹 크롤러 관리 화면의 구성을 나타내는 도면이고, 도 10은 본 발명의 실시예에 따른 웹 크롤러 통계 화면의 구성을 나타내는 도면이다.
도 4 내지 도 8을 참조하면, 본 발명의 디지털 콘텐츠 모니터링 시스템(100)은 단계 S200에서 웹 사이트의 크롤링 처리를 위하여 웹 사이트의 특정 부분을 비주얼로 선택하여 비주얼 접근 경로 분석 루틴을 처리하고, 단계 S220에서 선택된 부분에 대한 비주얼 크롤링 스크립트 생성 루틴을 처리하여 완성된 스크립트를 제공한다.
단계 S230에서 선택된 부분에 대한 사이트 변경을 감지하여 변경된 스크립트를 알려주는 루틴을 처리한다. 이는 기존에 크롤링을 하는 사이트의 구조나 URL 등이 변경되었을 때, 기존 크롤러가 정상적으로 동작하지 못하는 문제가 발생하는 것을 해소하기 위하여, 관리자가 크롤링 사이트에 변동 사항이 발생하였을 때, 신속하게 대응할 수 있도록 스크립트 편집기 예컨대, Excel 또는 Text 편집기 형태 등을 이용하여 누구나 수정할 수 있도록 간단한 인터페이스를 제공하고, 이를 통해 스크립트 설정을 변경하여 적용 가능하게 함으로써, 사이트 변경에 따른 신속 대응 및 검출이 가능하다.
단계 S250에서 사이트 변경된 접근 경로의 스크립트 설정에 따라 크롤러 동작과 스크립트 변경 감지 관리 루틴을 처리한다. 이어서 단계 S270에서 크롤러 동작과 관련된 데이터의 통계 루틴을 처리한다.
구체적으로, 비주얼 접근 경로 분석 루틴(S200)은 도 5에 도시된 바와 같이, 단계 S202에서 비주얼 접근 경로 분석 프로그램을 시작하여, 단계 S204에서 비주얼하게 접근 경로를 알아내려고 하는 해당 URL을 입력한다. 단계 S206에서 해당 URL이 브라우징되고, 브라우징된 URL 웹페이지 상에서 경로를 알아내고 싶은 부분을 클릭하여 선택한다. 단계 S208에서 선택된 부분에 대한 경로가 결과물로 제공된다.
또 비주얼 크롤링 스크립트 생성 루틴(S220)은 선택한 부분에 대한 크롤링 스크립트의 결과물을 프로그램 처리하여 접근 경로가 변경되어 비주얼하게 접근 경로를 분석한 크롤링 스크립트를 생성한다.
즉, 이 실시 예에서 선택한 부분 예컨대, OSP 정보 및 로그인 관련 정보에 대한 결과물은 아래의 표 1과 같다.
1 = www.applefile.com 2 = http://applefile.com/contents/?category1=MUS 3 = <input type="text" class="id" name="m_id" onfocus="this.style.backgroundImage='url(none)';" tabindex ="1" required_ chk ="" itemname="아이디" value="" style="background-image: url(&quot;none&quot;);"> 4 = <input type="password" class=" pw " name="m_ pwd " onfocus="this.style.backgroundImage='url(none)';" tabindex ="2" required_ chk ="" itemname="비밀번호" onkeypress ="if(event. keyCode == 13){ loginCheckMain (); }" style="background-image: url(&quot;none&quot;);"> 5= < img src="http://img.applefile.com/img/new_login/login_btn_ok.jpg" title="로그인" style="cursor:pointer" onclick="loginCheckMain();">
이러한 결과물을 프로그램에 의해 아래의 표 2와 같이, 동작하여 완성된 스크립트 결과물을 생성한다.
(1) 1 -> OSP _ID, OSP _NAME, OSP _DOMAIN_URL 같은 여러가지 태그 리스트 중에서 선택함 -> OSP_DOMAIN_URL=www.applefile.com (2) 2 -> OSP _ID, OSP _NAME, OSP _DOMAIN_URL, OSP _HOME_CURL 같은 여러 가지 태그 리스트 중에서 선택함 -> OSP _HOME_URL = http://applefile.com/contents/?category1=MUS (3) 3 -> OSP _ID, OSP _NAME, OSP _DOMAIN_URL, OSP _HOME_CURL, OSP _LOGIN_ID_TAG 같은 여러가지 태그 리스트 중에서 선택함 -> OSP_LOGIN_ID_TAG = tag=input|itemname=아이디 (4) 4 -> OSP _ID, OSP _NAME, OSP _DOMAIN_URL, OSP _HOME_CURL, OSP _LOGIN_ID_TAG 같은 여러가지 태그 리스트 중에서 선택함 -> OSP_LOGIN_PW_TAG = tag=input|itemname=비밀번호 (5) 5 -> OSP _ID, OSP _NAME, OSP _DOMAIN_URL, OSP _HOME_CURL, OSP _LOGIN_ID_TAG, OSP_LOGIN_BTN_TAG 같은 여러 가지 태그 리스트 중에서 선택함 -> OSP _LOGIN_ BTN _TAG = tag=img|src=http://img.applefile.com/img/new_login/login_btn_ok.jpg
이에 따라, 완성된 스크립트 결과물은 아래의 표 3과 같다.
;OSP 정보 및 로그인 관련 OSP_ID=4 OSP_NAME = AppleFile OSP_DOMAIN_URL=www.applefile.com OSP_HOME_URL = http://applefile.com/contents/?category1=MUS OSP_HOME_CURL = http://applefile.com/contents/?category1=MUS OSP_LOGIN_CURL = http://applefile.com/member/loginCheck.php OSP_LOGIN_ID_TAG = tag=input|itemname=아이디 OSP_LOGIN_PW_TAG = tag=input|itemname=비밀번호 OSP_LOGIN_BTN_TAG=tag=img|src=http://img.applefile.com/img/new_login/login_btn_ok.jpg OSP_LOGIN_ID = npick OSP_LOGIN_PW = npick
이러한 자동 생성된 스크립트 결과물에는 OSP 정보 및 로그인 관련 정보뿐만 아니라, 다운로드 관련 정보, 게시판 이동 및 테이블 관련 정보, DB 연동 관련 정보, 팝업창 관련 정보 및 다운로드 팝업창 관련 정보 등이 변경된 스크립트에 대응하여 포함된다.
또 사이트 변경 감지 처리 루틴(S230)은 도 6에 도시된 바와 같이, 단계 S232에서 스크립트를 따라 크롤링 진행하고, 단계 S234에서 크롤링 진행 중 다음 스크립트 명령어가 실행이 안 되는 지를 판별한다. 판별 결과, 다음 스크립트 명령어가 실행되지 않으면, 즉, 크롤링 작업 중에 다음 작업의 스크립트 명령어가 실행되지 않으면, 사이트의 접근 경로가 변경되었음을 감지하여 이 수순은 단계 S236으로 진행하여, 사이트 변경을 감지하고, 감지된 내용을 사용자 또는 관리자에게 공지한다. 이때, 스크립트 변경이 필용한 부분에 대한 내용은 모니터링 데이터베이스(150)에 저장된다. 만약 변경된 내용이 없으면, 이 수순은 단계 S232로 진행하여 다른 웹 사이트 또는 웹 게시물의 변경을 감지한다. 이어서 단계 S240에서 스크립트 변경이 필요한 부분에 대해 해당 웹 사이트의 팝업창을 이용하여 사용자에게 공지한다. 이는 웹 게시물의 접근 경로가 변경된 부분을 공지한 내용과 스트립트 변경이 필요한 부분에 대한 정보를 공지하기 위하여, 전자 메일, SNS, 메신저, SMS 문자 메시지 등을 이용하여 담당자에게 공지한다.
또 크롤러 동작 및 스크립트 변경 감지 관리 루틴(S250)은 크롤링 대상 사이트를 주기적으로 변화 감지하기 위한 웹 크롤러 관리 프로세스가 시작되면, 도 7에 도시된 바와 같이, 단계 S252에서 공지를 받은 관리자가 크롤러 동작을 모니터링 화면을 통해 조회하고, 단계 S254에서 크롤러 동작이 정상 동작이 이루어지는지를 판별한다.
판별 결과, 정상 동작이 이루어지면, 이 수순은 단계 S256으로 진행하여, 현재 스크립트 동작 라인과, 크롤러 동작시간과, 크롤러 시작시간으로부터 현재 시간까지 누적 동작시간을 확인한다.
그러나 정상 동작이 이루어지지 않으면, 이 수순은 단계 S258로 진행하여, 변경 감지와 동작 멈춘 스크립트 라인을 확인하고, 스트립트 편집 및 저장하여 크롤러를 재구동하도록 명령을 실행한다.
이러한 크롤러 동작 및 스크립트 변경 감지 관리 루틴(S250)은 설정된 시간마다 주기적으로 웹 크롤러를 감지하여 이루어지며, 구동 중지된 웹 크롤러의 경우, 도 9에 도시된 웹 크롤러 관리 화면을 통해 크롤러의 구동 중지 시간과 현재시간을 확인하여 크롤링 누수 시간을 체크한다. 이때, 웹 크롤러 관리 화면에는 OSP(크롤링하는 대상) 사이트, 동작 유무, 변경 감지 여부, 현재 스크립트 동작 라인, 스크립트 조회 여부, 크롤러 구동 여부, 크롤러 구동 시간, 크롤러 중지 시간, 크롤러 계속 동작 누적 시간 등을 제공한다.
그리고 크롤러 동작 관련 통계 처리 루틴(S270)은 도 8에 도시된 바와 같이, 단계 S272에서 크롤러 동작 시 필요한 데이터 예를 들어, OSP 사이트 별로 시간, 크롤링 한 게시물 개수, 변경 감지 횟수 등을 모니터링 데이터베이스(150)에 기록하고, 단계 S247에서 수집된 모니터링 데이터베이스의 데이터로 통계값을 계산한다. 이어서 단계 S276에서 일 단위, 주 단위 및 월 단위 등의 기간별로 통계값을 웹 화면에 표시하여 제공한다. 이때, 크롤러 관리 통계 화면에는 도 10에 도시된 바와 같이, OSP(크롤링하는 대상) 사이트, 크롤러 계속 동작 누적 시간, 크롤링한 게시물 개수, 한 게시물 크롤링 평균 소요 시간, 변경 감지 횟수, 크롤러 동작 누수 시간 등을 제공한다.

Claims (10)

  1. 디지털 콘텐츠 모니터링 시스템에 있어서,
    통신망을 통하여 저작권을 갖는 다양한 디지털 콘텐츠를 제공하는 디지털 콘텐츠 제공 시스템의 웹 사이트에 접속하도록 하는 인터페이스부;
    상기 디지털 콘텐츠를 저장하는 모니터링 데이터베이스;
    상기 통신망을 통하여 사용자 단말기로부터 상기 디지털 콘텐츠를 전송받아서 상기 모니터링 데이터베이스에 등록, 관리하는 디지털 콘텐츠 관리 서버;
    상기 웹 사이트에 대해 크롤링을 처리하여 상기 웹 사이트에 개시된 상기 디지털 콘텐츠를 수집하고, 수집된 상기 디지털 콘텐츠를 상기 모니터링 데이터베이스에 저장되어 있는 원본 정보와 비교하여, 저작권 침해로 판단되는 디지털 콘텐츠를 검출하는 디지털 콘텐츠 검출 서버;
    상기 웹 사이트 내의 HTML, 스크립트, CSS(Cascading Style Sheets), 플래시, 실버라이트 및 웹 브라우저의 플러그인 중 적어도 어느 하나를 포함하는 웹 사이트 정보를 추출하여 수집하는 웹 링크 파싱 처리부; 및
    상기 웹 사이트 상의 게시물에 첨부된 첨부 파일 정보를 추출하고, 상기 웹 사이트 정보와 상기 첨부 파일 정보를 상기 모니터링 데이터베이스에 저장된 원본 정보들과 각각 비교하여 무결성 여부를 체크하는 웹 크롤링 처리부;를
    포함하는 것을 특징으로 하는 디지털 콘텐츠 모니터링 시스템.
  2. 제 1 항에 있어서, 상기 웹 크롤링 처리부는,
    웹 사이트에 접속하여 웹 사이트의 접속 경로가 변경 감지되면, 스크립트를 설정하도록 인터페이스를 제공하는 스크립트 설정 인터페이스 모듈;
    상기 스크립트 설정 인터페이스 모듈로부터 선택한 상기 웹 사이트의 변경된 접근 경로를 설정 적용하도록 크롤링 스크립트를 편집하는 스크립트 편집기;
    상기 스트립트 편집기에 의해 설정된 상기 크롤링 스트립트를 동작하도록 하고, 상기 웹 사이트에 게재된 상기 디지털 콘텐츠를 크롤링하도록 스트립트의 동작 상태를 관리하는 스트립트 작업 관리기; 및
    서로 다른 방식으로 상기 웹 사이트 정보와 상기 첨부 파일 정보를 무결성 체크하는 복수 개의 웹 크롤러;를
    포함하는 것을 특징으로 하는 디지털 콘텐츠 모니터링 시스템.
  3. 제 2 항에 있어서, 상기 스트립트 편집기는,
    상기 크롤링 스크립트를 텍스트로 편집 가능한 것을 특징으로 하는 디지털 콘텐츠 모니터링 시스템.
  4. 제 3 항에 있어서,
    상기 웹 사이트의 접근 경로가 변경된 것이 감지되면, 변경되었음을 알려주는 정보와, 상기 웹 크롤링 처리부에 의해 상기 디지털 콘텐츠 중 저작권 침해로 검출된 디지털 콘텐츠를 게시한 웹 사이트로 저작권 침해 사실을 통지하는 정보를 전송하는 정보 공지 서버; 를
    더 포함하는 것을 특징으로 하는 디지털 콘텐츠 모니터링 시스템.
  5. 디지털 콘텐츠 모니터링 시스템의 처리 방법에 있어서,
    저작권을 갖는 다양한 디지털 콘텐츠를 제공하는 웹 사이트의 크롤링 처리를 위하여 상기 웹 사이트의 특정 부분을 비주얼로 선택하여 접근 경로가 변경된 부분이 있는지를 분석하는 단계;
    상기 선택된 부분에 대한 크롤링 스크립트를 생성하는 단계;
    상기 선택된 부분에 대한 사이트 변경을 감지하여 변경된 크롤링 스크립트를 크롤러에게 알려주는 단계;
    상기 사이트 변경된 접근 경로의 스크립트 설정에 따라 상기 크롤러를 동작시키고, 상기 크롤러의 동작 중에 스크립트 변경이 있는지를 감지하여 상기 크롤러의 동작을 관리하는 단계; 및
    상기 크롤러의 동작과 관련된 데이터를 통계 처리하는 단계; 를
    수행하는 것을 특징으로 하는 디지털 콘텐츠 모니터링 시스템의 처리 방법.
  6. 제 5 항에 있어서, 상기 분석하는 단계는,
    비주얼하게 접근 경로를 알아내려고 하는 해당 URL을 입력하고, 해당 URL이 브라우징되고, 브라우징된 URL의 웹 페이지 상에서 접근 경로를 알아내고 싶은 부분을 클릭하여 선택하며, 상기 선택된 부분에 대한 접근 경로가 결과물로 제공되는 것을 특징으로 하는 디지털 콘텐츠 모니터링 시스템의 처리 방법.
  7. 제 6 항에 있어서, 상기 크롤링 스크립트를 생성하는 단계는,
    상기 선택한 부분에 대한 크롤링 스크립트의 결과물을 변경된 접근 경로에 적합하도록 프로그램 처리하여 상기 크롤링 스크립트를 자동 생성하는 것을 특징으로 하는 디지털 콘텐츠 모니터링 시스템의 처리 방법.
  8. 제 7 항에 있어서, 상기 크롤러에게 알려주는 단계는,
    상기 크롤링 스크립트를 따라 크롤링 진행하고, 크롤링 진행 중 다음 스크립트 명령어가 실행이 안되는지를 판별하고, 판별 결과, 다음 스크립트 명령어가 실행되지 않으면, 사이트의 접근 경로가 변경되었음을 감지하여 사이트 변경을 감지하고, 감지된 내용을 사용자 또는 관리자에게 공지하는 것을 특징으로 하는 디지털 콘텐츠 모니터링 시스템의 처리 방법.
  9. 제 8 항에 있어서, 상기 크롤러의 동작을 관리하는 단계는,
    공지를 받은 관리자가 상기 크롤러의 동작을 모니터링 화면을 통해 조회하고, 상기 크롤러의 동작이 정상 동작이 이루어지는지를 판별하고, 판별 결과, 정상 동작이 이루어지면, 현재 스크립트 동작 라인과, 크롤러 동작시간과, 크롤러 시작시간부터 현재시간까지 누적 동작시간을 확인하고, 정상 동작이 이루어지지 않으면, 변경 감지와 동작 멈춘 스크립트 라인을 확인하고, 스트립트 편집 및 저장하여 크롤러를 재구동하도록 명령을 실행하는 것을 특징으로 하는 디지털 콘텐츠 모니터링 시스템의 처리 방법.
  10. 제 9 항에 있어서, 상기 크롤러의 동작과 관련된 데이터를 통계 처리하는 단계는,
    크롤러 동작 시 상기 웹 사이트별로 시간, 크롤링 한 게시물 개수, 변경 감지 횟수를 적어도 포함하는 데이터를 모니터링 데이터베이스에 기록하고, 수집된 상기 모니터링 데이터베이스의 데이터로 통계값을 계산하며, 이어서 기간별로 상기 통계값을 제공하는 것을 특징으로 하는 디지털 콘텐츠 모니터링 시스템의 처리 방법.
PCT/KR2016/014700 2016-02-29 2016-12-15 디지털 콘텐츠 모니터링 시스템 및 그 처리 방법 WO2017150791A2 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2016-0024415 2016-02-29
KR1020160024415A KR20170101624A (ko) 2016-02-29 2016-02-29 디지털 콘텐츠 모니터링 시스템 및 그 처리 방법

Publications (2)

Publication Number Publication Date
WO2017150791A2 true WO2017150791A2 (ko) 2017-09-08
WO2017150791A3 WO2017150791A3 (ko) 2018-03-08

Family

ID=59743042

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/014700 WO2017150791A2 (ko) 2016-02-29 2016-12-15 디지털 콘텐츠 모니터링 시스템 및 그 처리 방법

Country Status (2)

Country Link
KR (1) KR20170101624A (ko)
WO (1) WO2017150791A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309326A (zh) * 2020-02-12 2020-06-19 深圳壹账通智能科技有限公司 路径脚本的生成方法、装置、设备及计算机可读存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832197A (zh) * 2017-11-28 2018-03-23 江苏方天电力技术有限公司 一种业务应用系统的巡检系统和巡检方法
CN109507384A (zh) * 2019-01-02 2019-03-22 南通大学 一种基于b/s架构下的水质监控方法
KR102245915B1 (ko) * 2020-09-24 2021-04-29 윤혜영 블록체인 기반 저작콘텐츠 모니터링 방법
KR20220058125A (ko) 2020-10-30 2022-05-09 (주)아이와즈 비주얼 리포팅을 접목시킨 콘텐츠 모니터링 시스템 및 방법
KR102546331B1 (ko) 2021-04-14 2023-06-21 한국해양대학교 산학협력단 이미지 기반 크롤링 방법 및 그 시스템
KR102436357B1 (ko) * 2021-11-09 2022-08-25 주식회사 비즈니스 링커 시스템 웹 스크래핑용 스크립트 작성 방법 및 이를 이용한 웹 스크래핑 방법 및 시스템

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100805819B1 (ko) * 2006-07-25 2008-02-21 한국전자통신연구원 인터넷상에서 접속/검색 어플리케이션을 이용한 불법콘텐츠 자동 검색 시스템 및 그 방법
EP2304676A1 (en) * 2008-06-23 2011-04-06 Double Verify Inc. Automated monitoring and verification of internet based advertising
KR101100395B1 (ko) * 2009-03-25 2011-12-30 주식회사 비티웍스 저작물 보호 시스템 및 방법
KR101480040B1 (ko) * 2011-09-23 2015-01-07 네이버비즈니스플랫폼 주식회사 웹 페이지 변조 식별방법, 시스템 및 컴퓨터로 판독 가능한 기록매체
KR20130093230A (ko) * 2012-02-14 2013-08-22 (주)엠더블유스토리 웹상에서의 저작권 침해 컨텐츠에 대한 검출 및 관리 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309326A (zh) * 2020-02-12 2020-06-19 深圳壹账通智能科技有限公司 路径脚本的生成方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
WO2017150791A3 (ko) 2018-03-08
KR20170101624A (ko) 2017-09-06

Similar Documents

Publication Publication Date Title
WO2017150791A2 (ko) 디지털 콘텐츠 모니터링 시스템 및 그 처리 방법
US10257199B2 (en) Online privacy management system with enhanced automatic information detection
WO2018182126A1 (ko) 안전 소프트웨어 인증 시스템 및 방법
CN102375742B (zh) 用以避免潜在不安全内容的计算机实现的方法和系统
CN103493061A (zh) 用于应对恶意软件的方法和装置
EP2560120B1 (en) Systems and methods for identifying associations between malware samples
WO2018124495A1 (ko) 불법 콘텐츠 검색 시스템 및 그 방법
Arshad et al. Identifying extension-based ad injection via fine-grained web content provenance
CN112231711B (zh) 一种漏洞检测方法、装置、计算机设备及存储介质
WO2021085718A1 (ko) 유해 콘텐츠 게시 방지 및 차단 장치
CN110213234A (zh) 应用程序文件的开发者识别方法、装置、设备及存储介质
WO2019117635A1 (ko) 동적 웹 페이지의 방문자 행동 분석 정보 제공 장치 및 이를 이용한 웹 사이트의 방문자 행동 분석 정보 제공 방법
CN103220277B (zh) 监控跨站脚本攻击的方法、装置及系统
KR20130093230A (ko) 웹상에서의 저작권 침해 컨텐츠에 대한 검출 및 관리 시스템
Mavropoulos et al. Apparatus: Reasoning about security requirements in the internet of things
Zhu et al. Detecting privilege escalation attacks through instrumenting web application source code
Li et al. Identifying Cross-User Privacy Leakage in Mobile Mini-Apps at a Large Scale
WO2014098372A1 (ko) 유해 사이트 수집 장치 및 방법
WO2020204268A1 (ko) 블록체인 기반 개인정보 제공 방법 및 그 시스템
CN108038233B (zh) 一种采集文章的方法、装置、电子设备及存储介质
WO2019027106A1 (ko) 머신러닝을 이용한 악성코드 유포지 위험도 분석 시스템
WO2015088195A1 (ko) 링크정보의 악성코드에 대응한 단말기의 로컬환경 보호방법과 보호시스템
CN111865977A (zh) 一种信息处理方法及系统
CN108664489B (zh) 网站内容监控方法和装置
WO2015005578A1 (ko) 통신 단말기의 해킹 방지 방법 및 해킹 방지 방법이 실행되는 통신 단말기

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16892804

Country of ref document: EP

Kind code of ref document: A2

122 Ep: pct application non-entry in european phase

Ref document number: 16892804

Country of ref document: EP

Kind code of ref document: A2