WO2018124495A1 - 불법 콘텐츠 검색 시스템 및 그 방법 - Google Patents

불법 콘텐츠 검색 시스템 및 그 방법 Download PDF

Info

Publication number
WO2018124495A1
WO2018124495A1 PCT/KR2017/013642 KR2017013642W WO2018124495A1 WO 2018124495 A1 WO2018124495 A1 WO 2018124495A1 KR 2017013642 W KR2017013642 W KR 2017013642W WO 2018124495 A1 WO2018124495 A1 WO 2018124495A1
Authority
WO
WIPO (PCT)
Prior art keywords
keyword
information
website
illegal
unique
Prior art date
Application number
PCT/KR2017/013642
Other languages
English (en)
French (fr)
Inventor
유대걸
Original Assignee
(주)엠더블유스토리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)엠더블유스토리 filed Critical (주)엠더블유스토리
Priority to US16/312,032 priority Critical patent/US20190377764A1/en
Priority to JP2018567712A priority patent/JP2019526109A/ja
Publication of WO2018124495A1 publication Critical patent/WO2018124495A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/103Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00 applying security measure for protecting copy right

Definitions

  • the present invention relates to an illegal content retrieval system and method that can protect copyright holders or youth by extracting illegally distributed contents such as webtoons, sound recordings, books, and video contents including web information using modified keywords.
  • the measures for copyright protection of digital contents can be divided into preliminary measures that make it difficult to copy, distribute, and distribute copyrighted works, and follow-up measures that search for and control illegally copied, distributed, and distributed works.
  • crawlers have been used to retrieve the distribution of pirated works.
  • a crawler can visit a vast number of web pages and automatically collect various kinds of information, so that the crawler can extract pirated works.
  • the conventional crawler detects illegal copyrighted works using only limited keywords, it is difficult to determine whether or not the illegal copyrighted work is from the web information including the modified keyword.
  • the technical problem to be solved by the present invention is an illegal content retrieval system that can protect the copyright holder or the youth by extracting illegally distributed content, such as webtoons, sound recordings, books and videos containing the web information using the modified keyword and To provide a way.
  • the illegal content search system of the present invention for solving the technical problem includes a website and a crawl server.
  • web information is stored.
  • the crawling server accesses the website, collects the first illegal web information including at least one syllable corresponding to the circular keyword among the syllables of the first modified keyword included in the web information, and collects the first illegal web information.
  • the first modified keyword is divided into phonemes or divided into phonemes and special characters to generate a second modified keyword in which phonemes except special characters are sequentially combined, and whether the second modified keyword matches the circular keyword is mutually determined. If there is a match, the first illegal web information including the second modified keyword matching the original keyword is classified as second illegal web information.
  • the crawl server accesses the website using at least one of the unique authority information among a plurality of unique authority information having the access authority of the website.
  • the crawling server divides a phoneme of the second modified keyword, inserts another special character into the divided phoneme of the second modified keyword, generates a third modified keyword by combining them sequentially, and generates the third modified keyword.
  • the first illegal web information is collected using at least one syllable corresponding to the third modified keyword among syllables of the first modified keyword.
  • the crawling server interlocks with a search site to add an associated keyword related to the circular keyword, and the first illegal web including at least one syllable corresponding to the associated keyword among syllables of the first modified keyword using the associated keyword. Collect information.
  • the crawling server converts the circular keyword into a conversion keyword corresponding to a language of each country, and the first illegal web including at least one syllable corresponding to the conversion keyword among syllables of the first modified keyword using the conversion keyword. Collect information.
  • the crawling server continuously accesses the website using the unique authority information other than the blocked unique authority information.
  • the crawling server if the unique authority information is blocked from the website, the unique authority different from the script information which commands each crawler to access the website and collect the first illegal web information. Automatically assign information.
  • the crawling server stores the mapping table in which the unique authority information blocked from the website and the website blocking the unique authority information are mutually mapped, and the other unique authority from the website blocking the unique authority information.
  • the unique authority information corresponding to the website that blocks the unique authority information is extracted from the mapping table, and the extracted unique authority information is used based on whether the extracted unique authority information is unblocked. Resume access to the website that blocked the unique authority information.
  • the illegal content search system and method thereof according to the present invention can protect copyright holders or teenagers by extracting illegally distributed contents such as webtoons, sound recordings, books, and video contents including web information using modified keywords. Can be.
  • the illegal content search system and method according to the present invention generates another modified keyword from the modified keyword, thereby increasing the probability of finding illegal distribution content including web information using various modified keywords. .
  • the illegal content retrieval system and method according to the present invention has an effect of widely finding illegal distribution content by using an associated keyword associated with a keyword.
  • the illegal content search system and method thereof according to the present invention utilize the conversion keywords corresponding to the languages of each country, thereby making it possible to extract illegally distributed contents even in the local areas of each country.
  • 1 is a view showing the configuration of the illegal content search system according to the present invention.
  • FIG. 2 is a diagram illustrating a configuration of the crawl server of FIG. 1.
  • FIG. 3 is a diagram illustrating the mapping table of FIG. 2.
  • 4A to 4C are diagrams illustrating a monitoring interface for the crawl server of FIG. 2.
  • FIG. 5 is a view showing an illegal content search method according to the present invention.
  • 1 is a view showing the configuration of the illegal content search system according to the present invention.
  • the illegal content retrieval system 10 retrieves illegal content from the plurality of websites 100 in which the web information 110 is stored to the crawling server 200. That is, the illegal content retrieval system 10 uses a circular keyword, a keyword modified from a modified keyword, an associated keyword, and a modified keyword according to the language of each country in order to protect the copyright holder of the illegal content or a teenager who is not allowed to contact the illegal content. Set the search term to increase the search accuracy of illegal content.
  • the illegal content may include literary works, music works, theatrical works, art works, photographic works, video works, figure works, computer program works, and architectural works that violates copyright law, as well as adult videos harmful to adolescents.
  • the illegal content search system 10 may newly add a related keyword to be used when searching for illegal content from a search site 300 linked with the crawl server 200, and the crawl server 200 may add a website ( If the access is blocked from 100, the unique authority information (226 of FIG. 2) having the access authority of the website 100 is reset to re-execute the monitoring operation.
  • the illegal content search system 10 may provide various types of information related to the monitoring operation of the crawl server 200 to the client 400 so that the administrator of the crawl server 200 or the original copyright holder of the illegal content may check. have.
  • the illegal content search system 10 includes a website 100, a crawl server 200, a search site 300, and a client 400.
  • the website 100 stores web information 110 including various digital contents such as webtoons, sound sources, books, and videos.
  • the website 100 also permits the search, ie monitoring, of the web information 110 with respect to the unique rights information 226 having access rights to the website 100.
  • the web information 110 can be uploaded by an individual website administrator.
  • the web information 110 includes identifiable attribute information, such as a tag, so that when monitoring is activated from the crawling server 200, the web information 110 may provide attribute information.
  • crawl server 200 The configuration and operation of the crawl server 200 will be further described with reference to FIGS. 2 to 4C.
  • FIG. 2 is a diagram illustrating a configuration of the crawl server of FIG. 1.
  • 3 is a diagram illustrating the mapping table of FIG. 2.
  • 4A to 4C are diagrams illustrating a monitoring interface for the crawl server of FIG. 2.
  • the crawl server 200 is connected to the website 100, the search site 300, and the client 400 through a communication path such as a communication network to retrieve illegal content that is illegally copied and distributed from the website 100, and searched. Related keywords related to illegal content are recommended from the site 300 and used for monitoring operation.
  • the crawl server 200 accesses the website 100 using at least one of the plurality of unique authority information 226, and access to the website 100 is prevented in response to the access being blocked from the website 100. In addition to being made continuous, it provides various information related to the monitoring operation to the client (400).
  • Such a crawl server 200 may be located in every country in the world to perform each monitoring operation, although not shown in the drawings, for example, may be executed under the control of the management server (not shown).
  • the crawl server 200 includes a communication unit 201, a control unit 202, a monitoring program 210 and a database 220.
  • the communication unit 201 processes the crawling server 200 to communicate data with the plurality of websites 100, the search sites 300, and the clients 400 through a communication path such as a communication network. That is, the communication unit 201 may transmit all signals including information transmitted between the crawl server 200, the website 100, the search site 300, and the client 400.
  • the controller 202 controls the overall operation of the crawl server 200 to be processed using the monitoring program 210. That is, the controller 202 controls the communication unit 201, the monitoring program 210, and the database 220.
  • the control unit 202 may be, for example, a computing device such as a general-purpose central computing unit (CPU), programmable device elements (CPLD, FPGA), application-specific semiconductor computing units (ASICs), and microcontroller chips. At least one may be provided.
  • the monitoring program 210 accesses the website 100 through the communication unit 201, sets a keyword of the original keyword, a modified keyword from the modified keyword, an associated keyword, and a modified keyword according to the language of each country as a search word to display illegal content. Search and extract.
  • the monitoring program 210 adds an associated keyword to be used when monitoring illegal content from the search site 300 and uses the added associated keyword in the search.
  • the monitoring program 210 re-executes the monitoring operation by resetting the unique authority information 226 even if the access of the crawl server 200 is blocked from the website 100, and various kinds of monitoring operations of the monitoring program 210 are performed.
  • the information is provided to the client 400 so that the administrator of the crawl server 200 or the original copyright holder of the illegal content can check.
  • the monitoring program 210 includes a web information collection unit 211, a keyword processing unit 212, a keyword conversion unit 213, a crawl re-execution unit 214, and a data processing unit 215.
  • the web information collection unit 211 accesses the website 100 using the unique authority information 226 and includes at least one syllable corresponding to the circular keyword among the syllables of the first modified keyword included in the web information 110.
  • the first illegal web information is collected.
  • the original keyword may refer to an original name of illegal content
  • the first modified keyword may refer to a name in which a morpheme of the original keyword is modified. That is, the circular keyword may include, for example, a syllable and a morpheme of the movie title "Avatar”, but the first modified keyword may include a syllable of "A_ba_ta" which is a variation of the original movie title "Avatar". Can be.
  • the web information collector 211 may be provided as a computer program that performs a search and indexing function such as a crawler.
  • the keyword processing unit 212 divides the first modified keyword of the first illegal web information collected from the web information collecting unit 211 into phonemes (sounds) or phonemes and special characters so that phonemes except for special characters are sequentially. Generate a combined second modified keyword. That is, the keyword processing unit 212 may extract, for example, a phoneme which is combined with each other among the divided phonemes of the first modified keyword including the syllable of "A_Ba_ta" and extracts a phoneme which is usable as a syllable, and is called a "Avatar”. Generate morphemes corresponding to variant keywords.
  • the keyword processing unit 212 determines whether the generated second modified keywords match the original keywords, and if they coincide with each other, converts the first illegal web information including the second modified keywords that match the original keywords into second illegal web information, In other words, it is classified as illegal contents that are illegally copied and distributed.
  • the keyword processing unit 212 divides the phoneme of the second modified keyword, inserts another special character into the phoneme of the divided second modified keyword, and generates a third modified keyword by sequentially combining them. That is, the keyword processing unit 212 is, for example, "*", "#” to "o", " ⁇ ", “ ⁇ ", “ ⁇ ”, “ ⁇ ” and " ⁇ ” which are phonemes of the second modified keyword.
  • the keyword processing unit 212 may include a first syllable corresponding to the third modified keyword among the syllables of the first modified keyword included in the web information 110 by using the third modified keyword. It can be used to collect illegal web information.
  • the keyword processing unit 212 receives an associated keyword related to the circular keyword from the search site 300 and additionally provides the web information collecting unit 211 to the web information collecting unit 211 so as to search for the first illegal web information.
  • the association keyword may include, for example, the related search terms "avatar”, "Sam Washington”, “Joe Saldana”, and the like.
  • the keyword conversion unit 213 converts the circular keyword into a conversion keyword corresponding to a language of each country, and the web information collection unit 211 uses at least one syllable corresponding to the conversion keyword among syllables of the first modified keyword using the conversion keyword. It is possible to collect the included first illegal web information.
  • the crawl re-execution unit 214 may be configured such that the monitoring program 210 continuously accesses the website 100 when access is blocked from the website 100 that is being accessed while the monitoring program 210 executes the monitoring operation.
  • the unique authority information 226 having the access authority of the site 100 is reset. Specifically, when the crawl redo unit 214 blocks access from the website that was being accessed while the monitoring program 210 executes the monitoring operation, the blocked website and the unique authority information 226 and the unique authority information 226 are blocked. 100 stores the mapping table 227 mapped to each other. The crawl re-execution unit 214 may then reestablish access to the website 100 by resetting the monitoring operation with other unique rights information 226 that replaces the blocked unique rights information 226.
  • the crawl re-execution unit 214 substitutes the script information 225 for giving an access command to execute the access to the website 100 and the collection of the first illegal web information, that is, other unique authority information 226 in the command. Allows access to the website 100.
  • the crawl redo unit 214 blocks the unique authority information 226 from the mapping table 227 when the other unique authority information 226 is blocked again from the website 100 which blocked the unique authority information 226.
  • the unique rights information 226 corresponding to the blocked website 100 is extracted, and the unique rights information 226 using the extracted unique rights information 226 according to whether the extracted unique rights information 226 is unblocked.
  • the monitoring operation of the monitoring program 210 may be reset so that access of the website 100 which has blocked the access is resumed.
  • the data processing unit 215 collects and processes web information 110 collected by the crawling server 200 and statistical data related to the execution status and execution of the crawling server 200.
  • the execution status information and statistical information related to the execution of the processed crawl server 200 are stored in the database 220.
  • the monitoring program 210 selects at least one of a circular keyword, a third modified keyword, an associated keyword, and a modified keyword from the keyword information 221 to the web information collection unit 211. You can enter In addition, the monitoring program 210 may be provided with a plurality of web information collecting unit 211 to select the number of web information collecting unit 211 to execute the monitoring operation.
  • the database 220 includes keyword information 221, language information 222, web information hash value 223, website information 224, script information 225, and unique permission information ( 226 is stored, the unique permission information 226 blocked from the crawl re-execution unit 214 and the website 100 blocked with the unique permission information 226 are received and stored in the mapping table 227, and the data processing.
  • the execution status information and the statistical information are received from the unit 215 and stored as the crawl information 228.
  • the keyword information 221 includes a circular keyword input by an administrator, a first modified keyword, a second modified keyword, a third modified keyword, and a modified keyword generated or generated during the monitoring operation of the monitoring program 210.
  • the keyword information 221 may be provided during the monitoring operation of the monitoring program 210 or may be stored in the database 220 by the controller 202 as a result of the monitoring operation of the monitoring program 210.
  • the language information 222 includes language information of each country provided by the monitoring program 210 to convert a circular keyword into a conversion keyword.
  • the web information hash value 223 is a password for determining the web information 110 that is illegally distributed from the plurality of web information 110, and is provided to the monitoring program 210 so that the second illegal web information and the unreplicated copy are not provided.
  • the identity of the web information 110 may be determined.
  • the website information 224 may include a location record, such as a Uniform Resource Locator (URL), from which the website 100 can be searched.
  • URL Uniform Resource Locator
  • the website information 224 when the website information 224 attempts to execute the monitoring operation in the monitoring program 210, the website information 224 provides information for accessing the website 100 to be monitored by providing a location record and the like.
  • the script information 225 includes a plurality of instructions for giving an access command to execute the access to the website 100 and the collection of the first illegal web information in the monitoring program 210.
  • the unique authority information 226 is identification information having an access right of the website 100, for example, an IP (Internet Protocol: IP), an ID (ID) authorized to access the website 100, It may be provided with a plurality, it is preferable that at least one unique authority information 226 is blocked from the website (100). Referring to FIG.
  • the mapping table 227 may allow the blocked unique authority information 226 and the website 100 blocking the unique authority information 226 to have a one-to-one correspondence with each other.
  • the crawl information 228 receives the crawl information 227 from the data processing unit 213 and stores execution status information and statistical information.
  • the crawl information 228 is provided to the administrator of the crawl server 200 as an interface screen or provided to the client 400.
  • the execution status information is execution status data related to the execution of the crawl server 200.
  • the statistical information is statistical data related to the execution related to the execution of the crawling server 200 and includes first to fourth statistical information.
  • the first statistical information represents the number of first illegal web information collected from the crawl server 200.
  • the second statistical information indicates the number of first illegal web information for each date collected from the crawl server 200.
  • the third statistical information indicates the number of first illegal web information for each time zone collected from the crawl server 200.
  • the fourth statistical information represents the accumulated first illegal web information collection count for each website 100 where the first illegal web information is collected by the crawl server 200.
  • each of the first to fourth statistical information may be provided to the client 400 in the form of a graph or a diagram.
  • the search site 300 is linked with the crawling server 200 through a communication path such as a communication network and provides an associated keyword, that is, an associated search word, related to the circular keyword at the request of the crawling server 200.
  • the search site 300 has a search engine function, and may extract related keywords according to a request of the crawl server 200 from a database in the search site 300.
  • the client 400 is an information providing means provided to an administrator or copyright holder of the crawling server 200 so that the crawling server 200 can be checked.
  • the client 400 may receive crawling information 228 from the crawling server 200 by installing a crawling viewer (not shown).
  • the crawler viewer can directly modify the information as well as the viewer function.
  • the administrator of the crawl server 200 can modify the script information 225 or visit the website 100 through the website information 224 without directly visiting the place where the crawl server 200 is provided.
  • the copyright holder can monitor the illegal distribution of his work.
  • FIG. 5 is a view showing an illegal content search method according to the present invention.
  • the illegal content search method will be described in detail using the components of the illegal content search system 10 shown in Figs.
  • the illegal content retrieval method 500 includes a data collection step 510, a data processing step 520, a web information classification step 530, a crawl rerun step 540, and the like.
  • Information provision step 550 is included.
  • the crawling server 200 accesses the website 100, and includes at least one syllable corresponding to a circular keyword among syllables of the first modified keyword included in the web information 110. Collect web information.
  • the crawling server 200 divides the first modified keyword of the first illegal web information into phonemes or divides the second modified keyword in which phonemes except for special characters are sequentially combined by dividing the first modified keyword into phonemes. Create In addition, in the data processing step 520, the crawling server 200 divides the phoneme of the second modified keyword, inserts another special character into the phoneme of the divided second modified keyword, and generates a third modified keyword by sequentially combining them. do. In addition, in the data processing step 520, the crawling server 200 is linked with the search site 300 to add the associated keyword associated with the circular keyword. In addition, in the data processing step 520, the crawl server 200 converts the circular keyword into a conversion keyword corresponding to the language of each country. In addition, the data processing step 520 may enable the crawl server 200 to use at least one of the third modified keyword, the associated keyword, and the transform keyword generated or added in the data processing step 520 in the data collection step 510. have.
  • the crawling server 200 determines whether the second modified keyword and the circular keyword match each other, the crawled server 200 removes the first illegal web information including the second modified keyword that matches the circular keyword. 2 Classify as illegal web information and search for illegal contents.
  • the crawl server 200 controls to access the website using at least one unique authority information 226 of the plurality of unique authority information 226.
  • the redo crawl step 540 detects whether the unique permission information 226 is blocked from the website 100, and if the unique permission information 226 is blocked from the website 100, the blocked unique permission information 226 is detected. Access to the website 100 using other unique authority information 226 except for.
  • other unique authority information 226 is automatically substituted into the script information 225.
  • the mapping table in which the crawling server 200 blocks the unique permission information 226 blocked from the website 100 and the website 100 blocking the unique permission information 226 are mutually mapped. Save 227.
  • the web that blocks the unique permission information 226 from the mapping table 227 is blocked.
  • the unique authority information 226 corresponding to the site 100 is extracted, and the unique authority information 226 is blocked by using the extracted unique authority information 226 according to whether the extracted unique authority information 226 is unblocked. Access to the website 100 is resumed.
  • the crawling server 200 provides the crawling server 200 with the client 400 with execution status information of the crawling server 200 and statistical information related to the execution of the crawling server 200.
  • the crawler remote management system 10 is a crawl server (100) located in each country in order to extract a variety of digital content, such as webtoons, sound recordings, videos and books that are illegally copied and distributed on websites of each country ),
  • the crawling operation of the crawler 110 is continuously executed according to the delay time setting and the unique credential reset, and the execution status information and the statistical information can be provided from the remote management server 200 to the client 300. Can be.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)

Abstract

본 발명에 따른 불법 콘텐츠 검색 시스템 및 그 검색 방법은 변형된 키워드를 사용하는 웹 정보가 포함된 웹툰, 음원, 서적 및 영상물 등의 불법 유통 콘텐츠를 색출하여 저작권자 내지 청소년을 보호할 수 있다. 이러한 본 발명의 불법 콘텐츠 검색 시스템은 복수의 웹사이트로부터 불법으로 복제 및 유통되는 불법 콘텐츠를 색출해내기 위해 복수의 웹사이트를 검색하는 크롤링서버를 포함한다.

Description

불법 콘텐츠 검색 시스템 및 그 방법
본 발명은 변형된 키워드를 사용하는 웹 정보가 포함된 웹툰, 음원, 서적 및 영상물 등의 불법 유통 콘텐츠를 색출하여 저작권자 내지 청소년을 보호할 수 있는 불법 콘텐츠 검색 시스템 및 그 방법에 관한 것이다.
웹툰, 음원, 서적 및 동영상 등의 다양한 디지털 콘텐츠는 정보화 사회가 도래됨에 따라 웹사이트 등의 정보제공 매체를 통해 자유롭게 배포 및 유통되고 있다. 이에 따라 디지털 콘텐츠는 전세계 어느 지역에 있든지 간에 누구나 공유할 수 있게 되었다. 한편, 디지털 콘텐츠의 빠른 확산에 비해 디지털 콘텐츠의 저작물 보호에 대한 사용자들의 인식은 턱없이 부족한 실정이며, 이를 극복하기 위해 디지털 콘텐츠의 불법 유통을 색출하기 위한 웹사이트 모니터링이 정보화 사회에서 중요한 수단으로 작용되고 있다.
디지털 콘텐츠에 대한 저작권 보호를 위한 방안은 저작물의 복제, 배포 및 유통을 어렵게 하는 사전적 조치와 불법으로 복제, 배포 및 유통된 저작물을 색출하여 단속하는 사후적 조치로 구분될 수 있다.
사전적 조치는 이를테면 복제가 불가능하거나 복제 횟수를 제한하기 위한 워터마킹(Watermarking) 기술 등과 같이 기술적 측면에서 개발되는 방식으로써 많은 발전이 이루어져 왔다. 그러나 사전적 조치에 의한 방식은 제한을 임의로 해제하는 기술이 개발됨에 따라 대부분 무력화되고 있고, 저작물의 직접적 침해에 해당되지 않는 복제 등에 대해서도 구분을 두지 않고 금지하는 문제가 발생하여 현실적으로 적용이 무의미한 경우가 빈번하다.
따라서 디지털 콘텐츠의 불법적인 복제, 유통 및 배포를 제한하기 위해서는 사후적 조치를 이용해 지속적인 웹사이트 모니터링과 디지털 콘텐츠의 불법 유통에 대한 적발이 병행되어야 한다.
하지만 현재 불법 유통되는 디지털 콘텐츠에 대한 색출은 저작권자 개인 또는 저작권을 위탁 관리하는 위탁기관이 자발적으로 웹사이트에 접속하여 색출하는 수작업에 의존하고 있다. 이러한 방식은 무수히 많은 웹사이트들에 대한 모니터링과 적발을 매우 어렵게 하며, 색출된 웹사이트들에서도 새로이 저작권 침해 사례가 추가되는 경우에는 재접속 및 재검출을 하지 않는 한 지속적인 감시가 무용지물이 되고 만다.
종래에는 불법 복제 저작물의 유통을 색출하기 위해 크롤러가 사용되고 있다. 크롤러는 방대한 웹페이지를 두루 방문하여 각종 정보를 자동적으로 수집해옴으로써 불법 복제 저작물을 색출해내는 기능을 실행할 수 있다. 그러나 종래의 크롤러는 제한된 키워드만을 이용해 불법 복제 저작물을 검새하였기 때문에 변형된 키워드가 포함된 웹 정보로부터 불법 복제 저작물인지 여부를 판별하기는 어려움이 있었다. 또한 관리 대상이 될 수 있는 웹사이트들은 웹사이트 모니터링 서버의 IP나 ID 등의 고유 정보를 차단하는 등의 방법으로 불법 유통되는 디지털 콘텐츠를 지속척으로 노출시키고 있다.
종래 기술로는 KR 등록특허공보 제10-1634754호가 있다.
본 발명이 해결하고자 하는 기술적 과제는 변형된 키워드를 사용하는 웹 정보가 포함된 웹툰, 음원, 서적 및 영상물 등의 불법으로 유통되는 콘텐츠를 색출하여 저작권자 내지 청소년을 보호할 수 있는 불법 콘텐츠 검색 시스템 및 그 방법을 제공하는 것이다.
상기 기술적 과제를 해결하기 위한 본 발명의 불법 콘텐츠 검색 시스템은 웹사이트 및 크롤링서버를 포함한다. 복수의 웹사이트는 웹 정보가 저장된다. 크롤링서버는 상기 웹사이트에 접근하여 상기 웹 정보에 포함된 제 1 변형키워드의 음절 중 원형키워드에 대응되는 음절이 적어도 하나 포함된 제 1 불법 웹 정보를 수집하고, 상기 제 1 불법 웹 정보의 상기 제 1 변형키워드를 음소로 분할하거나 음소 및 특수문자로 분할하여 특수문자를 제외한 음소가 순차적으로 조합된 제 2 변형키워드를 생성하며, 상기 제 2 변형키워드가 상기 원형키워드와 일치되는지를 판별하여 상호 일치되면, 상기 원형키워드와 일치되는 상기 제 2 변형키워드가 포함된 상기 제 1 불법 웹 정보를 제 2 불법 웹 정보로 분류한다. 또한 상기 크롤링서버는 상기 웹사이트의 접근 권한을 갖는 복수의 고유 권한 정보 중 적어도 하나의 상기 고유 권한 정보를 이용해 상기 웹사이트로 접근한다.
상기 크롤링서버는 상기 제 2 변형키워드의 음소를 분할하고, 분할된 상기 제 2 변형키워드의 음소에 다른 특수문자를 끼워넣은 후 순차적으로 조합하여 제 3 변형키워드를 생성하며, 상기 제 3 변형키워드를 이용해 상기 제 1 변형키워드의 음절 중 상기 제 3 변형키워드에 대응되는 음절이 적어도 하나 포함된 상기 제 1 불법 웹 정보를 수집한다.
상기 크롤링서버는 검색사이트와 연동되어 상기 원형키워드와 관련된 연관키워드를 추가하고, 상기 연관키워드를 이용해 상기 제 1 변형키워드의 음절 중 상기 연관키워드에 대응되는 음절이 적어도 하나 포함된 상기 제 1 불법 웹 정보를 수집한다.
상기 크롤링서버는 상기 원형키워드를 각국의 언어에 대응되는 변환키워드로 변환하고, 상기 변환키워드를 이용해 상기 제 1 변형키워드의 음절 중 상기 변환키워드에 대응되는 음절이 적어도 하나 포함된 상기 제 1 불법 웹 정보를 수집한다.
상기 크롤링서버는 상기 웹사이트로부터 상기 고유 권한 정보가 차단되면, 차단된 상기 고유 권한 정보를 제외한 다른 상기 고유 권한 정보를 이용해 상기 웹사이트에 지속적으로 접근한다.
상기 크롤링서버는 상기 웹사이트로부터 상기 고유 권한 정보가 차단되면, 각각의 상기 크롤러가 상기 웹사이트로의 접근 및 상기 제 1 불법 웹 정보의 수집을 실행하도록 접근 명령을 내리는 스크립트 정보에 다른 상기 고유 권한 정보를 자동으로 대입한다.
상기 크롤링서버는 상기 웹사이트로부터 차단된 상기 고유 권한 정보와 상기 고유 권한 정보를 차단시킨 상기 웹사이트가 상호 매핑된 매핑 테이블을 저장하고, 상기 고유 권한 정보를 차단시킨 상기 웹사이트로부터 다른 상기 고유 권한 정보가 차단되면, 상기 매핑 테이블로부터 상기 고유 권한 정보를 차단시킨 상기 웹사이트에 대응되는 상기 고유 권한 정보를 추출하며, 추출된 상기 고유 권한 정보가 차단 해제되었는지에 따라 추출된 상기 고유 권한 정보를 이용해 상기 고유 권한 정보를 차단시킨 상기 웹사이트로의 접근을 재개한다.
상술한 바와 같이, 본 발명에 따른 불법 콘텐츠 검색 시스템 및 그 방법은 변형된 키워드를 사용하는 웹 정보가 포함된 웹툰, 음원, 서적 및 영상물 등의 불법 유통 콘텐츠를 색출함으로써, 저작권자 내지 청소년을 보호할 수 있다.
또한 본 발명에 따른 불법 콘텐츠 검색 시스템 및 그 방법은 변형된 키워드로부터 또 다른 변형된 키워드를 생성함으로써, 다양하게 변형된 키워드를 사용하는 웹 정보가 포함된 불법 유통 콘텐츠의 색출 확률을 높이는 효과가 있다.
뿐만 아니라 본 발명에 따른 불법 콘텐츠 검색 시스템 및 그 방법은 키워드와 관련된 연관키워드를 이용함으로써, 불법 유통 콘텐츠를 폭넓게 색출하는 효과가 있다.
더 나아가 본 발명에 따른 불법 콘텐츠 검색 시스템 및 그 방법은 각국의 언어에 대응되는 변환키워드를 이용함으로써, 각국의 현지에서도 불법 유통 콘텐츠를 색출하는 효과가 있다.
도 1은 본 발명에 따른 불법 콘텐츠 검색 시스템에 대한 구성을 표현한 도면이다.
도 2는 도 1의 크롤링서버에 대한 구성을 표현한 도면이다.
도 3은 도 2의 매핑 테이블을 예시한 도면이다.
도 4a 내지 도 4c는 도 2의 크롤링서버에 대한 모니터링 인터페이스를 예시한 도면이다.
도 5는 본 발명에 따른 불법 콘텐츠 검색 방법을 표현한 도면이다.
본 발명의 실시예는 여러 가지 형태로 변형될 수 있으며, 본 발명의 범위가 아래에서 서술하는 실시예로 인해 한정되어지는 것으로 해석되어서는 아니 된다. 본 실시예는 당업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서 본 발명과 본 발명의 작동상의 이점 및 본 발명의 실시예에 의해 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 실시예를 설명하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하 첨부된 도면을 참조하여 본 발명에 따른 불법 콘텐츠 검색 시스템 및 그 방법의 바람직한 실시예를 상세히 설명한다.
도 1은 본 발명에 따른 불법 콘텐츠 검색 시스템에 대한 구성을 표현한 도면이다.
도 1을 참조하면, 본 발명에 따른 불법 콘텐츠 검색 시스템(10)은 웹 정보(110)가 저장된 복수의 웹사이트(100)로부터 크롤링서버(200)로 불법 콘텐츠를 색출한다. 즉, 불법 콘텐츠 검색 시스템(10)은 불법 콘텐츠의 저작권자 내지 불법 콘텐츠를 접하는 행위가 불허된 청소년을 보호하기 위해 원형의 키워드, 변형된 키워드로부터 변형된 키워드, 연관키워드 및 각국의 언어에 따른 변형키워드를 검색어로 설정하여 불법 콘텐츠의 검색 정확도를 높인다. 여기서 불법 콘텐츠란 저작권법을 위반한 어문저작물, 음악저작물, 연극저작물, 미술저작물, 사진저작물, 영상저작물, 도형저작물, 컴퓨터프로그램저작물 및 건축저작물뿐만 아니라 청소년에게 유해한 성인용 영상물 등이 포함될 수 있다. 또한 불법 콘텐츠 검색 시스템(10)은 불법 콘텐츠의 검색 시에 사용될 연관키워드를 크롤링서버(200)와 연동된 검색사이트(300)로부터 추천받아 새로이 추가할 수 있으며, 크롤링서버(200)가 웹사이트(100)로부터 접근 차단되면, 웹사이트(100)의 접근 권한을 갖는 고유 권한 정보(도 2의 226)를 재설정하여 모니터링 작동을 재실행한다. 뿐만 아니라 불법 콘텐츠 검색 시스템(10)은 크롤링서버(200)의 모니터링 작동과 관련된 각종 정보를 클라이언트(400)로 제공하여 크롤링서버(200)의 관리자 내지 불법 콘텐츠의 원 저작권자로 하여금 확인 가능하도록 할 수 있다. 이러한 불법 콘텐츠 검색 시스템(10)은 웹사이트(100), 크롤링서버(200), 검색사이트(300) 및 클라이언트(400)를 포함한다.
웹사이트(100)는 웹툰, 음원, 서적 및 동영상 등의 다양한 디지털 콘텐츠가 포함된 웹 정보(110)를 저장한다. 또한 웹사이트(100)는 웹사이트(100)의 접근 권한을 갖는 고유 권한 정보(226)에 대해 웹 정보(110)의 검색, 즉 모니터링을 인허한다. 아울러 웹사이트(100)는 장소의 구분없이 곳곳에 산재되어 있으므로, 개개인의 웹사이트 관리자에 의해 웹 정보(110)가 업로드될 수 있는 것으로 가정한다. 특히, 웹 정보(110)는 태그(Tag) 등의 식별 가능한 속성 정보를 포함하고 있어, 크롤링서버(200)로부터 모니터링이 작동되면, 속성 정보를 제공할 수 있다.
도 2 내지 도 4c를 더 참조하여 크롤링서버(200)의 구성 및 작동을 설명한다.
도 2는 도 1의 크롤링서버에 대한 구성을 표현한 도면이다. 도 3은 도 2의 매핑 테이블을 예시한 도면이다. 도 4a 내지 도 4c는 도 2의 크롤링서버에 대한 모니터링 인터페이스를 예시한 도면이다.
크롤링서버(200)는 웹사이트(100), 검색사이트(300) 및 클라이언트(400)와 통신망 등의 통신 경로를 통해 연결되어 웹사이트(100)로부터 불법 복제 및 유통되는 불법 콘텐츠를 색출하고, 검색사이트(300)로부터 불법 콘텐츠와 관련된 연관키워드를 추천받아 모니터링 작동에 이용한다. 또한 크롤링서버(200)는 복수의 고유 권한 정보(226) 중 적어도 하나를 이용해 웹사이트(100)에 접근하고, 웹사이트(100)로부터 접근이 차단되는 것에 대응하여 웹사이트(100)로의 접근이 지속적 이루어지도록 할 뿐만 아니라, 모니터링 작동과 관련된 각종 정보를 클라이언트(400)로 제공한다. 이러한 크롤링서버(200)는 전세계 각국에 위치하여 각각의 모니터링 작동을 실행할 수 있으며, 도면에는 표현되지 않았지만, 예컨대 관리서버(미도시 됨)의 제어에 따라 모니터링 작동을 실행할 수도 있다. 이러한 크롤링서버(200)는 통신부(201), 제어부(202), 모니터링 프로그램(210) 및 데이터베이스(220)를 포함한다.
통신부(201)는 크롤링서버(200)가 예컨대 통신망 등의 통신 경로를 통해 복수의 웹사이트(100), 검색사이트(300) 및 클라이언트(400)와 상호 데이터 통신되도록 처리한다. 즉, 통신부(201)는 크롤링서버(200), 웹사이트(100), 검색사이트(300) 및 클라이언트(400) 사이에 전송되는 정보가 포함된 모든 신호들을 전달할 수 있다.
제어부(202)는 모니터링 프로그램(210)을 이용해 크롤링서버(200)의 제반 작동이 처리되도록 제어한다. 즉, 제어부(202)는 통신부(201), 모니터링 프로그램(210) 및 데이터베이스(220)를 제어한다. 제어부(202)는 예를 들어, 범용적인 중앙연산장치(CPU), 특정한 목적에 적합하게 구현된 프로그래머블 디바이스 소자(CPLD, FPGA), 주문형 반도체 연산장치(ASIC) 및 마이크로 컨트롤러 칩 등의 연산 장치 중 적어도 하나로 마련될 수 있다.
모니터링 프로그램(210)은 통신부(201)를 통해 웹사이트(100)에 접근하여 원형의 키워드, 변형된 키워드로부터 변형된 키워드, 연관키워드 및 각국의 언어에 따른 변형키워드를 검색어로 설정하여 불법 콘텐츠를 검색 및 색출해낸다. 또한 모니터링 프로그램(210)은 불법 콘텐츠를 모니터링 할 때에 사용될 연관키워드를 검색사이트(300)로부터 추가하여 추가된 연관키워드를 검색에 이용한다. 뿐만 아니라 모니터링 프로그램(210)은 크롤링서버(200)의 접근이 웹사이트(100)로부터 차단되더라도 고유 권한 정보(226)를 재설정하여 모니터링 작동을 재실행하고, 모니터링 프로그램(210)의 모니터링 작동과 관련된 각종 정보를 클라이언트(400)로 제공하여 크롤링서버(200)의 관리자 내지 불법 콘텐츠의 원 저작권자가 확인 가능하도록 한다. 이러한 모니터링 프로그램(210)은 웹 정보 수집부(211), 키워드 처리부(212), 키워드 변환부(213), 크롤링 재실행부(214) 및 데이터 가공부(215)를 포함한다.
웹 정보 수집부(211)는 고유 권한 정보(226)를 이용해 웹사이트(100)에 접근하여 웹 정보(110)에 포함된 제 1 변형키워드의 음절 중 원형키워드에 대응되는 음절이 적어도 하나 포함된 제 1 불법 웹 정보를 수집한다. 원형키워드는 불법 콘텐츠 본연의 명칭을 지칭할 수 있으며, 제 1 변형키워드는 원형키워드의 형태소가 변형된 명칭을 지칭할 수 있다. 즉, 원형키워드는 예를 들어, 영화 제목인 "아바타"의 음절 및 형태소을 포함하지만, 제 1 변형키워드는 본연의 영화 제목인 "아바타"를 변형한 "아_바_타"의 음절을 포함할 수 있다. 아울러 웹 정보 수집부(211)는 크롤러(Crawler) 등의 탐색 및 색인 기능을 수행하는 컴퓨터 프로그램으로 마련될 수 있다.
키워드 처리부(212)는 웹 정보 수집부(211)로부터 수집된 제 1 불법 웹 정보의 제 1 변형키워드를 음소(낱소리)로 분할하거나 음소 및 특수문자로 분할하여 특수문자를 제외한 음소가 순차적으로 조합된 제 2 변형키워드를 생성한다. 즉, 키워드 처리부(212)는 예를 들어, "아_바_타"의 음절이 포함된 제 1 변형키워드의 분할된 음소 중 서로 결합되어 음절으로 사용 가능한 음소를 추출하여 "아바타"라는 제 2 변형키워드에 해당되는 형태소를 생성해낸다. 이어서 키워드 처리부(212)는 생성된 제 2 변형키워드가 원형키워드와 일치되는지를 판별하여 상호 일치되면, 원형키워드와 일치되는 제 2 변형키워드가 포함된 제 1 불법 웹 정보를 제 2 불법 웹 정보, 즉 불법으로 복제 및 유통되는 불법 콘텐츠로 간주하여 별도로 분류한다. 또한 키워드 처리부(212)는 제 2 변형키워드의 음소를 분할하고, 분할된 제 2 변형키워드의 음소에 다른 특수문자를 끼워넣은 후 순차적으로 조합하여 제 3 변형키워드를 생성한다. 즉, 키워드 처리부(212)는 예를 들어, 제 2 변형키워드의 음소인 "ㅇ", "ㅏ", "ㅂ", "ㅏ", "ㅌ", "ㅏ"에 "*", "#"의 다른 특수문자를 끼워넣은 후, "아*바#타"라는 제 3 변형키워드를 생성한다. 이어서 키워드 처리부(212)는 키워드 수집부(211)에서 제 3 변형키워드를 이용해 웹 정보(110)에 포함된 제 1 변형키워드의 음절 중 제 3 변형키워드에 대응되는 음절이 적어도 하나 포함된 제 1 불법 웹 정보를 수집하도록 할 수 있다. 뿐만 아니라 키워드 처리부(212)는 검색사이트(300)로부터 원형키워드와 관련된 연관키워드를 제공받아 제 1 불법 웹 정보를 검색하도록 웹 정보 수집부(211)로 추가 제공하여 웹 정보 수집부(211)가 연관키워드를 이용해 제 1 변형키워드의 음절 중 연관키워드에 대응되는 음절이 적어도 하나 이상 포함된 제 1 불법 웹 정보를 수집하도록 할 수 있다. 연관키워드는 예를 들어, "아바타"의 연관검색어인 "샘 워싱턴", "조 샐다나" 등이 포함될 수 있다.
키워드 변환부(213)는 원형키워드를 각국의 언어에 대응되는 변환키워드로 변환하고, 웹 정보 수집부(211)가 변환키워드를 이용해 제 1 변형키워드의 음절 중 변환키워드에 대응되는 음절이 적어도 하나 포함된 제 1 불법 웹 정보를 수집하도록 할 수 있다.
크롤링 재실행부(214)는 모니터링 프로그램(210)이 모니터링 작동을 실행하는 중, 접근 중이던 웹사이트(100)로부터 접근이 차단되면, 모니터링 프로그램(210)이 웹사이트(100)에 지속적으로 접근하도록 웹사이트(100)의 접근 권한을 갖는 고유 권한 정보(226)를 재설정한다. 구체적으로 크롤링 재실행부(214)는 모니터링 프로그램(210)이 모니터링 작동을 실행하는 중에 접근 중이던 웹사이트로부터 접근 차단되면, 차단된 고유 권한 정보(226)와 고유 권한 정보(226)를 차단시킨 웹사이트(100)가 상호 매핑된 매핑 테이블(227)을 저장한다. 이어서 크롤링 재실행부(214)는 차단된 고유 권한 정보(226)를 대체하는 다른 고유 권한 정보(226)를 이용해 모니터링 작동을 재설정하여 웹사이트(100)에 대한 접근을 재개할 수 있다. 이때 크롤링 재실행부(214)는 웹사이트(100)로의 접근 및 상기 제 1 불법 웹 정보의 수집을 실행하도록 접근 명령을 내리는 스크립트 정보(225), 즉 명령어에 다른 고유 권한 정보(226)를 대입하여 웹사이트(100)에 대한 접근이 이루어질 수 있도록 한다. 뿐만 아니라 크롤링 재실행부(214)는 고유 권한 정보(226)를 차단시킨 웹사이트(100)로부터 다른 고유 권한 정보(226)가 또 다시 차단되면, 매핑 테이블(227)로부터 고유 권한 정보(226)를 차단시킨 웹사이트(100)에 대응되는 고유 권한 정보(226)를 추출하고, 추출된 고유 권한 정보(226)가 차단 해제되었는지에 따라 추출된 고유 권한 정보(226)를 이용해 고유 권한 정보(226)를 차단시킨 웹사이트(100)의 접근이 재개되도록 모니터링 프로그램(210)의 모니터링 작동을 재설정할 수있다.
데이터 가공부(215)는 크롤링서버(200)가 수집한 웹 정보(110), 크롤링서버(200)의 실행 상황 및 실행과 관련된 통계 데이터를 수집하여 가공한다. 이렇게 가공된 크롤링서버(200)의 실행과 관련된 실행 상황 정보 및 통계 정보는 데이터베이스(220)에 저장된다.
구체적으로 도 4a 내지 도 4c를 참고하면, 모니터링 프로그램(210)은 키워드 정보(221)로부터 원형키워드, 제 3 변형키워드, 연관키워드 및 변형키워드 중 적어도 하나를 선택하여 웹 정보 수집부(211)에 입력할 수 있다. 또한 모니터링 프로그램(210)은 복수의 웹 정보 수집부(211)가 마련되어 모니터링 작동을 실행할 웹 정보 수집부(211)의 개수를 선택할 수 있다.
데이터베이스(220)는 제어부(202)의 제어를 받아 키워드 정보(221), 언어 정보(222), 웹 정보 해시값(223), 웹사이트 정보(224), 스크립트 정보(225) 및 고유 권한 정보(226)를 저장하고, 크롤링 재실행부(214)로부터 차단된 고유 권한 정보(226)와 고유 권한 정보(226)를 차단시킨 웹사이트(100)를 받아들여 매핑 테이블(227)에 저장하며, 데이터 가공부(215)로부터 실행 상황 정보 및 통계 정보를 전달받아 크롤링 정보(228)로 저장한다. 키워드 정보(221)는 관리자에 의해 입력된 원형키워드, 모니터링 프로그램(210)의 모니터링 작동 중 수집 또는 생성된 제 1 변형키워드, 제 2 변형키워드, 제 3 변형키워드 및 변형키워드를 포함한다. 이러한 키워드 정보(221)는 모니터링 프로그램(210)의 모니터링 작동 시에 제공되거나 모니터링 프로그램(210)의 모니터링 작동 결과, 제어부(202)에 의해 데이터베이스(220)에 저장될 수 있다. 언어 정보(222)는 모니터링 프로그램(210)에서 원형키워드를 변환키워드로 변환하기 위해 제공되는 각국의 언어 정보를 포함한다. 웹 정보 해시값(223)은 다수의 웹 정보(110)로부터 불법 유통되는 웹 정보(110)를 판별하기 위한 암호로써, 모니터링 프로그램(210)에 제공되어 제 2 불법 웹 정보와 불법 복제되지 않은 원형의 웹 정보(110)의 동일성이 판별되도록 할 수 있다. 웹사이트 정보(224)는 웹사이트(100)를 검색할 수 있는 URL(Uniform Resource Locator : URL) 등의 위치 기록을 포함할 수 있다. 즉, 웹사이트 정보(224)는 모니터링 프로그램(210)에서 모니터링 작동을 실행하려고 하면, 위치 기록 등을 제공하여 모니터링하고자 하는 웹사이트(100)에 접근할 수 있도록 정보를 제공한다. 스크립트 정보(225)는 웹사이트(100)로의 접근 및 제 1 불법 웹 정보의 수집을 모니터링 프로그램(210)에서 실행하도록 접근 명령을 내리는 복수의 명령어가 포함된다. 고유 권한 정보(226)는 예를 들어, IP(Internet Protocol : IP), 웹사이트(100)의 접근이 인허된 ID(Identification : ID) 등 웹사이트(100)의 접근 권한을 갖는 식별 정보로써, 복수로 구비될 수 있으며, 웹사이트(100)로부터 적어도 하나의 고유 권한 정보(226)가 차단되는 것에 대응하는 것이 바람직하다. 도 3을 참조하면, 매핑 테이블(227)은 차단된 고유 권한 정보(226)와 고유 권한 정보(226)를 차단시킨 웹사이트(100)가 상호 일대일 대응되도록 할 수 있다. 물론, 도면에서는 일대일 대응만을 나타내었지만, 복수의 차단된 고유 권한 정보(226)에 하나의 웹사이트(100)가 중복된다면 다대일 대응될 수 있음은 물론이다. 크롤링 정보(228)는 크롤링 정보(227)는 데이터 가공부(213)로부터 실행 상황 정보 및 통계 정보를 전달받아 저장한다. 또한 크롤링 정보(228)는 인터페이스 화면으로 크롤링서버(200)의 관리자에게 제공되거나 클라이언트(400)에 제공된다. 먼저 실행 상황 정보는 크롤링서버(200)의 실행과 관련된 실행 상황 데이터로써, 크롤링서버(200)가 접근하는 웹사이트(100)의 URL 등의 위치 기록, 크롤링서버(200)의 실행 여부 및 크롤링서버(200)의 로그 정보 중 적어도 하나를 포함한다. 한편 통계 정보는 크롤링서버(200)의 실행과 관련된 실행과 관련된 통계 데이터로써, 제 1 내지 제 4 통계 정보를 포함한다. 제 1 통계 정보는 크롤링서버(200)로부터 수집된 제 1 불법 웹 정보의 건수를 나타낸다. 제 2 통계 정보는 크롤링서버(200)로부터 수집된 일자별 일자별 제 1 불법 웹 정보의 건수를 나타낸다. 제 3 통계 정보는 크롤링서버(200)로부터 수집된 시간대별 제 1 불법 웹 정보의 건수를 나타낸다. 제 4 통계 정보는 크롤링서버(200)에 의해 제 1 불법 웹정보가 수집된 웹사이트(100) 저마다의 누적된 제 1 불법 웹정보 수집 건수를 나타낸다. 아울러 제 1 내지 제 4 통계 정보 각각은 그래프, 다이어그램 형태로 클라이언트(400)에 제공될 수 있다.
검색사이트(300)는 통신망 등의 통신 경로를 통해 크롤링서버(200)와 연동되어 크롤링서버(200)의 요청에 따라 원형키워드와 관련된 연관키워드, 즉 연관검색어를 제공한다. 이러한 검색사이트(300)는 검색엔진 기능을 갖고, 검색사이트(300) 내의 데이터베이스로부터 크롤링서버(200)의 요청에 따른 연관키워드를 추출할 수 있다.
클라이언트(400)는 크롤링서버(200)에 대한 확인이 가능하도록 크롤링서버(200)의 관리자 내지 저작권자에게 제공되는 정보 제공 수단이다. 클라이언트(400)는 예컨대 크롤링뷰어(미도시 됨)가 설치됨으로써 크롤링서버(200)로부터 크롤링 정보(228)를 제공받을 수 있다. 물론 크롤러뷰어는 뷰어 기능뿐만 아니라, 정보를 직접적으로 수정할 수도 있다. 이를 통해 크롤링서버(200)의 관리자는 크롤링서버(200)가 마련된 장소에 직접 방문하지 않고도 스크립트 정보(225)의 수정이나 웹사이트 정보(224)를 통한 웹사이트(100)의 방문이 가능하고, 저작권자는 본인의 저작물이 불법으로 유통되는 것을 모니터링 할 수 있다.
구체적으로 도 5를 참조하여 본 발명의 실시예에 따른 크롤러 원격 관리 방법을 상세히 설명한다.
도 5는 본 발명에 따른 불법 콘텐츠 검색 방법을 표현한 도면이다. 이 실시예에서는 도 1 내지 도 4c에 표현한 불법 콘텐츠 검색 시스템(10)의 구성요소들을 이용해 불법 콘텐츠 검색 방법을 상세히 설명한다.
도 5를 참조하면, 본 발명의 실시예에 따른 불법 콘텐츠 검색 방법(500)은 데이터 수집 단계(510), 데이터 처리 단계(520), 웹 정보 분류 단계(530), 크롤링 재실행 단계(540) 및 정보 제공 단계(550)를 포함한다.
데이터 수집 단계(510)에서는 크롤링서버(200)가 웹사이트(100)에 접근하여 웹 정보(110)에 포함된 제 1 변형키워드의 음절 중 원형키워드에 대응되는 음절이 적어도 하나 포함된 제 1 불법 웹 정보를 수집한다.
데이터 처리 단계(520)에서는 크롤링서버(200)가 제 1 불법 웹 정보의 제 1 변형키워드를 음소로 분할하거나 음소 및 특수문자로 분할하여 특수문자를 제외한 음소가 순차적으로 조합된 제 2 변형키워드를 생성한다. 또 데이터 처리 단계(520)에서는 크롤링서버(200)가 제 2 변형키워드의 음소를 분할하고, 분할된 제 2 변형키워드의 음소에 다른 특수문자를 끼워넣은 후 순차적으로 조합하여 제 3 변형키워드를 생성한다. 또한 데이터 처리 단계(520)에서는 크롤링서버(200)가 검색사이트(300)와 연동되어 원형키워드와 관련된 연관키워드를 추가한다. 뿐만 아니라 데이터 처리 단계(520)에서는 크롤링서버(200)가 원형키워드를 각국의 언어에 대응되는 변환키워드로 변환한다. 아울러 데이터 처리 단계(520)는 크롤링서버(200)가 데이터 처리 단계(520)에서 생성 또는 추가된 제 3 변형키워드, 연관키워드 및 변환키워드 중 적어도 하나를 데이터 수집 단계(510)에서 이용하도록 할 수 있다.
웹 정보 분류 단계(530)에서는 크롤링서버(200)가 제 2 변형키워드 및 원형키워드의 일치 여부를 판별하여 상호 일치되면, 원형키워드와 일치되는 제 2 변형키워드가 포함된 제 1 불법 웹 정보를 제 2 불법 웹 정보로 분류하여 불법 콘텐츠를 색출한다.
크롤링 재실행 단계(540)에서는 크롤링서버(200)가 복수의 고유 권한 정보(226) 중 적어도 하나의 고유 권한 정보(226)를 이용해 웹사이트에 접근하도록 제어한다. 이때 크롤링 재실행 단계(540)에서는 웹사이트(100)로부터 고유 권한 정보(226)가 차단되는지를 감지하고, 웹사이트(100)로부터 고유 권한 정보(226)가 차단되면, 차단된 고유 권한 정보(226)를 제외한 다른 고유 권한 정보(226)를 이용해 웹사이트(100)에 접근한다. 또한 크롤링 재실행 단계(540)에서는 웹사이트(100)로부터 고유 권한 정보(226)가 차단되면, 스크립트 정보(225)에 다른 고유 권한 정보(226)를 자동으로 대입한다. 뿐만 아니라 크롤링 재실행 단계(540)에서는 크롤링서버(200)가 웹사이트(100)로부터 차단된 고유 권한 정보(226)와 고유 권한 정보(226)를 차단시킨 웹사이트(100)가 상호 매핑된 매핑 테이블(227)을 저장한다. 이때 크롤링 재실행 단계(540)에서는 고유 권한 정보(226)를 차단시킨 웹사이트(100)로부터 다른 고유 권한 정보(226)가 차단되면, 매핑 테이블(227)로부터 고유 권한 정보(226)를 차단시킨 웹사이트(100)에 대응되는 고유 권한 정보(226)를 추출하며, 추출된 고유 권한 정보(226)가 차단 해제되었는지에 따라 추출된 고유 권한 정보(226)를 이용해 고유 권한 정보(226)를 차단시킨 웹사이트(100)로의 접근을 재개한다.
정보 제공 단계(550)에서는 크롤링서버(200)가 크롤링서버(200)로부터 클라이언트(400)로 크롤링서버(200)의 실행 상황 정보 및 크롤링서버(200)의 실행과 관련된 통계 정보를 제공한다.
따라서, 본 발명에 따른 크롤러 원격 관리 시스템(10)은 각국의 웹사이트에서 불법으로 복제 및 유통되는 웹툰, 음원, 동영상 및 서적 등의 다양한 디지털 콘텐츠를 색출해내기 위해, 각국에 위치한 크롤링 서버(100)를 모니터링하고, 지연 시간 설정 및 고유 권한 정보 재설정에 따라 크롤러(110)의 크롤링 작동이 지속적으로 실행되도록 하며, 원격 관리 서버(200)로부터 클라이언트(300)로 실행 상황 정보 및 통계 정보를 제공할 수 있다.
이상에서, 본 발명에 따른 크롤러 원격 관리 시스템을 상세한 설명과 도면에 따라 나타내었지만, 이는 실시예를 들어 설명한 것에 불과하며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양한 변화 및 변경이 가능하다.

Claims (7)

  1. 웹 정보가 저장된 복수의 웹사이트; 및
    상기 웹사이트에 접근하여 상기 웹 정보에 포함된 제 1 변형키워드의 음절 중 원형키워드에 대응되는 음절이 적어도 하나 포함된 제 1 불법 웹 정보를 수집하고, 상기 제 1 불법 웹 정보의 상기 제 1 변형키워드를 음소로 분할하거나 음소 및 특수문자로 분할하여 특수문자를 제외한 음소가 순차적으로 조합된 제 2 변형키워드를 생성하며, 상기 제 2 변형키워드가 상기 원형키워드와 일치되는지를 판별하여 상호 일치되면, 상기 원형키워드와 일치되는 상기 제 2 변형키워드가 포함된 상기 제 1 불법 웹 정보를 제 2 불법 웹 정보로 분류하는 크롤링서버;를 포함하고,
    상기 크롤링서버는,
    상기 웹사이트의 접근 권한을 갖는 복수의 고유 권한 정보 중 적어도 하나의 상기 고유 권한 정보를 이용해 상기 웹사이트로 접근하는 것을 특징으로 하는 불법 콘텐츠 검색 시스템.
  2. 청구항 1에 있어서,
    상기 크롤링서버는,
    상기 제 2 변형키워드의 음소를 분할하고, 분할된 상기 제 2 변형키워드의 음소에 다른 특수문자를 끼워넣은 후 순차적으로 조합하여 제 3 변형키워드를 생성하며, 상기 제 3 변형키워드를 이용해 상기 제 1 변형키워드의 음절 중 상기 제 3 변형키워드에 대응되는 음절이 적어도 하나 포함된 상기 제 1 불법 웹 정보를 수집하는 것을 특징으로 하는 불법 콘텐츠 검색 시스템.
  3. 청구항 1에 있어서,
    상기 크롤링서버는,
    검색사이트와 연동되어 상기 원형키워드와 관련된 연관키워드를 추가하고, 상기 연관키워드를 이용해 상기 제 1 변형키워드의 음절 중 상기 연관키워드에 대응되는 음절이 적어도 하나 포함된 상기 제 1 불법 웹 정보를 수집하는 것을 특징으로 하는 불법 콘텐츠 검색 시스템.
  4. 청구항 1에 있어서,
    상기 크롤링서버는,
    상기 원형키워드를 각국의 언어에 대응되는 변환키워드로 변환하고, 상기 변환키워드를 이용해 상기 제 1 변형키워드의 음절 중 상기 변환키워드에 대응되는 음절이 적어도 하나 포함된 상기 제 1 불법 웹 정보를 수집하는 것을 특징으로 하는 불법 콘텐츠 검색 시스템.
  5. 청구항 1에 있어서,
    상기 크롤링서버는,
    상기 웹사이트로부터 상기 고유 권한 정보가 차단되면, 차단된 상기 고유 권한 정보를 제외한 다른 상기 고유 권한 정보를 이용해 상기 웹사이트에 지속적으로 접근하는 것을 특징으로 하는 불법 콘텐츠 검색 시스템.
  6. 청구항 1에 있어서,
    상기 크롤링서버는,
    상기 웹사이트로부터 상기 고유 권한 정보가 차단되면, 상기 크롤링서버가 상기 웹사이트로의 접근 및 상기 제 1 불법 웹 정보의 수집을 실행하도록 접근 명령을 내리는 스크립트 정보에 다른 상기 고유 권한 정보를 자동으로 대입하는 것을 특징으로 하는 불법 콘텐츠 검색 시스템.
  7. 청구항 1에 있어서,
    상기 크롤링서버는,
    상기 웹사이트로부터 차단된 상기 고유 권한 정보와 상기 고유 권한 정보를 차단시킨 상기 웹사이트가 상호 매핑된 매핑 테이블을 저장하고, 상기 고유 권한 정보를 차단시킨 상기 웹사이트로부터 다른 상기 고유 권한 정보가 차단되면, 상기 매핑 테이블로부터 상기 고유 권한 정보를 차단시킨 상기 웹사이트에 대응되는 상기 고유 권한 정보를 추출하며, 추출된 상기 고유 권한 정보가 차단 해제되었는지에 따라 추출된 상기 고유 권한 정보를 이용해 상기 고유 권한 정보를 차단시킨 상기 웹사이트로의 접근을 재개하는 것을 특징으로 하는 불법 콘텐츠 검색 시스템.
PCT/KR2017/013642 2016-12-30 2017-11-28 불법 콘텐츠 검색 시스템 및 그 방법 WO2018124495A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/312,032 US20190377764A1 (en) 2016-12-30 2017-11-28 Illegal content search system and method thereof
JP2018567712A JP2019526109A (ja) 2016-12-30 2017-11-28 違法コンテンツ検索システム及びその方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2016-0184155 2016-12-30
KR20160184155 2016-12-30
KR10-2017-0124164 2017-09-26
KR1020170124164A KR101800373B1 (ko) 2016-12-30 2017-09-26 불법 콘텐츠 검색 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
WO2018124495A1 true WO2018124495A1 (ko) 2018-07-05

Family

ID=60809684

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/013642 WO2018124495A1 (ko) 2016-12-30 2017-11-28 불법 콘텐츠 검색 시스템 및 그 방법

Country Status (4)

Country Link
US (1) US20190377764A1 (ko)
JP (1) JP2019526109A (ko)
KR (1) KR101800373B1 (ko)
WO (1) WO2018124495A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020126465A (ja) * 2019-02-05 2020-08-20 株式会社日立製作所 検出装置、検出方法、および検出プログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6762678B2 (ja) * 2018-03-27 2020-09-30 日本電信電話株式会社 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
JP6876649B2 (ja) * 2018-03-27 2021-05-26 日本電信電話株式会社 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
KR102126839B1 (ko) 2019-03-28 2020-06-25 (주)아이와즈 딥러닝 기반 국가별 저작물 검색 시스템
US11373103B2 (en) * 2019-05-28 2022-06-28 Accenture Global Solutions Limited Artificial intelligence based system and method for predicting and preventing illicit behavior
KR102188205B1 (ko) 2020-05-12 2020-12-08 주식회사 애터미아자 마케팅 콘텐츠에 대한 감수 장치 및 방법
KR102423968B1 (ko) 2020-10-06 2022-07-22 동명대학교산학협력단 영상의 객체 재인식 방법
KR20220045705A (ko) 2020-10-06 2022-04-13 동명대학교산학협력단 객체인식 및 추적을 통한 불법복제 영상 검출방법
KR102631271B1 (ko) * 2023-09-21 2024-01-30 키즐링 주식회사 자녀를 위한 보호자 승인 기반의 안전콘텐츠 추천서비스 제공 장치 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110408A (ja) * 1997-10-07 1999-04-23 Sharp Corp 情報検索装置および方法
KR20010067853A (ko) * 2001-04-03 2001-07-13 김종민 음절결합 정보를 이용한 음란/비속어 차단시스템
KR20010076995A (ko) * 2000-01-29 2001-08-17 전윤호 네트워크상의 권리 침해 데이타의 검색 및 증거 확보 시스템
KR20080082297A (ko) * 2007-03-08 2008-09-11 한국전자통신연구원 저작권이 있는 정보의 불법 공유를 차단하기 위한 사용자검색어 필터링 방법 및 장치
KR20090080801A (ko) * 2008-01-22 2009-07-27 주식회사 비티웍스 콘텐츠 관리 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110408A (ja) * 1997-10-07 1999-04-23 Sharp Corp 情報検索装置および方法
KR20010076995A (ko) * 2000-01-29 2001-08-17 전윤호 네트워크상의 권리 침해 데이타의 검색 및 증거 확보 시스템
KR20010067853A (ko) * 2001-04-03 2001-07-13 김종민 음절결합 정보를 이용한 음란/비속어 차단시스템
KR20080082297A (ko) * 2007-03-08 2008-09-11 한국전자통신연구원 저작권이 있는 정보의 불법 공유를 차단하기 위한 사용자검색어 필터링 방법 및 장치
KR20090080801A (ko) * 2008-01-22 2009-07-27 주식회사 비티웍스 콘텐츠 관리 시스템 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020126465A (ja) * 2019-02-05 2020-08-20 株式会社日立製作所 検出装置、検出方法、および検出プログラム
JP7269747B2 (ja) 2019-02-05 2023-05-09 株式会社日立製作所 検出装置、検出方法、および検出プログラム

Also Published As

Publication number Publication date
KR101800373B1 (ko) 2017-11-22
JP2019526109A (ja) 2019-09-12
US20190377764A1 (en) 2019-12-12

Similar Documents

Publication Publication Date Title
WO2018124495A1 (ko) 불법 콘텐츠 검색 시스템 및 그 방법
US6289341B1 (en) Intelligent agent for identifying intellectual property infringement issues in computer network sites and method of operation thereof
JP4358188B2 (ja) インターネット検索エンジンにおける無効クリック検出装置
WO2013044748A1 (zh) 网页恶意属性监测方法和系统
RU2677368C1 (ru) Способ и система для автоматического определения нечетких дубликатов видеоконтента
WO2012108623A1 (ko) 이미지 데이터베이스에 신규 이미지 및 이에 대한 정보를 추가하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
Sun et al. A large-scale study of robots. txt
WO2015034175A1 (ko) 기업 내부 정보 보안을 강화하기 위한 방법, 시스템 및 장치
US10846377B2 (en) Secure file sharing using semantic watermarking
CN108337269B (zh) 一种WebShell检测方法
WO2017150791A2 (ko) 디지털 콘텐츠 모니터링 시스템 및 그 처리 방법
CN107832618A (zh) 一种基于细粒度权限控制的sql注入检测系统及其方法
KR100930077B1 (ko) 디지털 저작권 관리를 위한 워터마크 추적 시스템
WO2018124431A1 (ko) 웹사이트 모니터링 시스템 및 모니터링 방법
WO2015122620A1 (ko) 디지털콘텐츠의 무결성 보장을 위한 디지털 콘텐츠 모니터링 시스템
WO2019083159A1 (ko) 저작권 보호를 통한 콘텐츠 유통 방법 및 그 시스템
KR101904486B1 (ko) 트리 구조를 비교하여 웹 페이지의 변경을 감지하는 모니터링 시스템 및 그 방법
WO2017146348A1 (ko) 위치 기반 빅데이터 시스템
WO2013176433A1 (ko) 디지털 에이징 시스템 및 그 운용방법
Ahmed et al. A fault tolerant approach for malicious URL filtering
WO2021002485A1 (ko) 웹 애플리케이션 서버를 통한 사용자 식별 기반의 데이터베이스 보안장치
WO2018124757A1 (ko) 크롤러 원격 관리 시스템 및 그 관리 방법
KR101640929B1 (ko) 데이터 접근 경로를 추적하는 방법 및 장치
WO2018074856A1 (ko) 단어 정보 제공 방법 및 시스템
Li et al. Crawler for Nodes in the Internet of Things

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17887510

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018567712

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17887510

Country of ref document: EP

Kind code of ref document: A1