KR101908665B1 - Artificial intelligence system for detecting life cycle of osp site using machine learning - Google Patents
Artificial intelligence system for detecting life cycle of osp site using machine learning Download PDFInfo
- Publication number
- KR101908665B1 KR101908665B1 KR1020160152645A KR20160152645A KR101908665B1 KR 101908665 B1 KR101908665 B1 KR 101908665B1 KR 1020160152645 A KR1020160152645 A KR 1020160152645A KR 20160152645 A KR20160152645 A KR 20160152645A KR 101908665 B1 KR101908665 B1 KR 101908665B1
- Authority
- KR
- South Korea
- Prior art keywords
- site
- pattern
- candidate
- osp
- unit
- Prior art date
Links
Images
Classifications
-
- G06N3/0427—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G06N99/005—
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
본 발명은 신규로 생성된 후보 사이트를 업데이트하면서 불법 사이트 또는 소멸 사이트의 생애주기를 감지하고, 주기적으로 불법 사이트의 접속 가능 여부를 점검하며, UI 패턴에 대한 변동 여부를 판별하고, 소멸 사이트의 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적하여, 수시로 경로 또는 UI 패턴이 변경된 사이트를 감지하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템을 개시한다.The present invention detects a life cycle of an illegal site or an annihilation site while updating a newly generated candidate site, periodically checks whether or not the illegal site can be accessed, determines whether the UI pattern is changed or not, And detecting a site where the route or the UI pattern is changed at any time by tracking the change site where the route of the destruction site is changed by analyzing the pattern, and detecting the site where the route or the UI pattern is changed at any time.
Description
본 발명은 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템에 관한 것으로, 상세하게는 OSP 사이트의 생성, 유지, 변경 또는 소멸을 자동으로 감지하는 기술에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an OSP life cycle sensing artificial intelligence system using machine learning, and more particularly, to a technique for automatically detecting generation, maintenance, change, or extinction of an OSP site.
온라인 서비스 제공자(OSP: Online Service Provider)는 제공자와 운영자로 구분된다. 제공자는 사용자가 선택한 저작물 등을 수정 없이 사용자가 정보통신망을 통하여 전달하기 위해 송신하거나 경로를 지정하여 연결을 제공하는 자이고, 운영자는 사용자들이 정보통신망에 접속하여 저작물 등을 복제 및 전송할 수 있도록 서비스를 제공하거나 이를 위한 설비를 제공 또는 운영하는 자로 구분된다. An online service provider (OSP) is divided into a provider and an operator. A provider is a person who transmits a selected work or a user's choice without modifying it, or provides a connection by designating a route for the user to transmit through the information communication network. The operator can access the information communication network to replicate and transmit the work Or provide or operate facilities for such facilities.
인터넷 서비스, 이메일, 뉴스, 신문, 음악, 영화, 이미지, 게임, 소프트웨어, e-쇼핑, 전자금융, e-헬스 및 전자정부의 서비스가 해당될 수 있다. 예를 들어, OSP 사이트는 음악 및 영화 등 다양한 엔터테인먼트 콘텐츠를 제공하는 웹하드 사이트일 수 있다.Internet services, e-mail, news, newspapers, music, movies, images, games, software, e-shopping, electronic finance, e-health and e-government services. For example, an OSP site can be a web hard site that provides a variety of entertainment content, such as music and movies.
OSP 사이트는 적법 사이트, 불법 사이트 및 소멸 사이트를 포함한다. 적법 사이트는 저작권료를 지불하고, 다양한 엔터테인먼트 콘텐츠를 유통시키는 사이트이다. 불법 사이트는 저작권료를 지불하지 않고, 콘텐츠를 유통시키는 사이트이다. 소멸 사이트는 불법 사이트가 소멸되어 접속되지 않는 사이트이다.OSP sites include legitimate sites, illegal sites, and destruction sites. A legitimate site is a site that distributes a variety of entertainment contents by paying royalties. Illegal sites are sites that distribute content without paying royalties. Destruction sites are sites that are not connected because the illegal sites have disappeared.
최근에는 OSP 사이트의 게시물과 콘텐츠를 다운받아 저작권 불법 유무를 모니터링 요원이 수동으로 불법 사이트를 감시하였다.Recently, OSP site postings and contents were downloaded, and monitoring agents manually monitored illegal sites for copyright infringement.
특허문헌 1은 디지털 저작권 불법 유통사이트 검색시스템을 이용한 저작권 관리방법에 관한 것으로, 저작권 정보 검색어를 입력하여 사이트를 수집하고, 수집된 사이트와 적법 사이트 목록과 비교하여 저작권 침해 혐의가 있는 사이트인지 판별한다.Patent Document 1 relates to a copyright management method using a digital copyright illegal distribution site search system, collects sites by inputting copyright information search terms, compares the collected sites with a list of legitimate sites, and determines whether the sites are allegedly infringing .
그러나 최근에는 불법 사이트의 OSP는 사이트의 경로(URL: Uniform Resource Locator) 또는 디스플레이 상에 보여주는 화면과 관련된 유저 인터페이스(UI: User Interface) 패턴을 수시로 변경하여 저작권 단속을 피하는 문제점이 있다.However, in recent years, the OSP of the illegal site has a problem of changing the URL (Uniform Resource Locator) of the site or the UI (User Interface) pattern related to the screen displayed on the display from time to time to avoid coping with the copyright.
상기 문제점을 해결하기 위하여 본 발명은 저장된 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 유사성을 분석하여 저작권 침해 혐의가 있는 사이트인지 판별하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템을 제공한다.In order to solve the above problems, the present invention provides an OSP site lifecycle detection artificial intelligence system that utilizes machine learning to determine whether there is a copyright infringement site by analyzing the similarity between a UI pattern of a stored OSP site and a UI pattern of a candidate site do.
본 발명은 주기적으로 불법 사이트의 접속 가능 여부를 점검하고, UI 패턴에 대한 변동 여부를 판별하여 수시로 경로 또는 UI 패턴이 변경된 사이트의 생애주기를 감지하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템을 제공한다.The present invention relates to an OSP site lifecycle detection artificial intelligence (UI) detection system that utilizes machine learning to periodically check whether or not an illegal site can be accessed, and to detect a life cycle of a site whose route or UI pattern has changed at any time by determining whether the UI pattern is changed. System.
본 발명은 소멸 사이트의 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템을 제공한다.The present invention provides an OSP site lifecycle detection artificial intelligence system that utilizes machine learning to track a change site whose path of a destruction site is changed by analyzing an identification pattern of a destruction site.
상기의 해결하고자 하는 과제를 위한 본 발명에 따른 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템은, 적법 사이트, 불법 사이트 및 소멸 사이트를 포함하는 OSP 사이트에 대한 생애주기 정보, UI 패턴 정보 및 키워드 정보를 저장하는 저장부; 상기 키워드 정보를 이용하여 신규로 생성된 후보 사이트를 수집하는 수집부; 상기 후보 사이트의 접속 가능 여부를 점검하는 점검부; 상기 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 유사성을 분석하여 후보 사이트를 분류하는 분석 분류부 및 분류된 후보 사이트에 대한 정보가 업데이트되도록 제어하는 제어부를 포함하여, 상기 OSP 사이트의 생성, 유지, 변경 또는 소멸을 감지하고 추적하는 것을 특징으로 한다.The OSP site lifecycle detection artificial intelligence system using the machine learning according to the present invention for solving the above problem includes lifecycle information, UI pattern information, and lifecycle information for an OSP site including a legitimate site, an illegal site, A storage unit for storing keyword information; A collection unit for collecting candidate sites newly generated using the keyword information; An inspection unit for checking whether or not the candidate site can be connected; An analysis classifying unit for classifying a candidate site by analyzing the similarity between the UI pattern of the OSP site and the UI pattern of the candidate site, and a controller for controlling information for the classified candidate site to be updated, , Change, or disappearance of the user.
상기 수집부는 반복적 또는 범용적으로 사용되는 키워드 및 특정 키워드에서 대체 또는 파생되는 키워드를 포함하는 키워드 정보를 이용하여 모바일 웹 환경의 OSP 사이트와 관련된 후보 사이트를 수집하는 것을 특징으로 할 수 있다.The collecting unit may collect candidate sites related to the OSP site of the mobile web environment by using keyword information including keywords repeatedly or universally used and keywords substituted or derived from specific keywords.
상기 분석 분류부는 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 특징들을 비교 분석하기 위한 신경망 기반의 딥러닝 기계학습을 수행하여 불법 사이트 또는 소멸 사이트의 생애주기를 감지하는 것을 특징으로 할 수 있다.The analysis classifier may perform a deep learning machine learning based on a neural network to compare features between the UI pattern of the OSP site and the UI pattern of the candidate site to detect the life cycle of the illegal site or the destruction site.
상기 점검부는 설정된 주기로 불법 사이트의 접속 가능 여부를 점검하고, 상기 분석 분류부는 불법 사이트의 UI 패턴에 대한 변동 여부를 판별하여 UI 패턴이 변동된 불법 사이트를 재 분류하는 것을 특징으로 할 수 있다.The checking unit checks whether or not the illegal site can be connected at a set period, and the analysis classifying unit discriminates whether the UI pattern of the illegal site is changed or not and reclassifies the illegal site where the UI pattern has changed.
상기 분석 분류부는 미 접속된 불법 사이트를 소멸 사이트로 재 분류하는 것을 특징으로 할 수 있다.And the analysis classifying unit classifies the unconnected illegal sites as annihilation sites.
기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템은 상기 소멸 사이트의 경로, 명칭 및 UI 패턴 중 하나 이상을 포함하는 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적하는 추적부를 더 포함할 수 있다.The OSP site lifecycle detection artificial intelligence system utilizing machine learning further includes a tracking unit for tracking an alteration site in which the path of the destruction site is changed by analyzing an identification pattern including at least one of a path, a name, and a UI pattern of the destruction site can do.
상기 추적부는 식별 패턴과 관련된 블로그, 카페, SNS 및 게시판을 포함하는 웹로그에서 경로 소스를 추출하여 후보 경로를 생성하는 것을 특징으로 할 수 있다.The tracking unit may generate a candidate path by extracting a path source from a web log including a blog, a cafe, an SNS, and a bulletin board related to the identification pattern.
상기 점검부는 후보 경로의 접속 가능 여부를 점검하고, 상기 분석 분류부는 소멸 사이트의 UI 패턴과 후보 경로로 접속된 사이트의 UI 패턴 간의 유사성을 분석하고, 유사도 수치가 기준값 이상이면 소멸 사이트에 의해 변경된 사이트로 분류하는 것을 특징으로 할 수 있다.The analysis unit analyzes the similarity between the UI pattern of the destruction site and the UI pattern of the site connected by the candidate path. If the similarity degree value is not less than the reference value, the analysis unit classifies the changed site by the destruction site As shown in FIG.
본 발명은 저장된 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 유사성을 분석하여 후보 사이트가 저작권 침해 혐의가 있는 사이트인지 판별할 수 있고, 후보 사이트를 분류하면서 UI 패턴이 변경된 불법 사이트 또는 소멸 사이트를 감지할 수 있으며, 유사성 판별 정확도를 높여 저작권 단속이 필요한 불법 사이트를 효율적으로 모니터링하는 환경을 제공할 수 있다.The present invention analyzes similarity between a UI pattern of a stored OSP site and a UI pattern of a candidate site to determine whether the candidate site is a site suspected of copyright infringement, It is possible to provide an environment for efficiently monitoring an illegal site that requires copyright interception by increasing the accuracy of affinity discrimination.
본 발명은 주기적으로 불법 사이트의 접속 가능 여부를 점검하고, UI 패턴에 대한 변동 여부를 판별하여 수시로 경로 또는 UI 패턴이 변경된 사이트에 대한 빠른 대처가 가능하도록 저작권 단속을 실시할 수 있다.The present invention can periodically check the availability of an illegal site, judge whether the UI pattern is changed or not, and enforce the copyrights so that quick response to a site whose route or UI pattern is changed at any time is possible.
본 발명은 소멸 사이트의 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적함으로써, 수시로 경로가 변경된 사이트에 대한 빠른 대처가 가능하도록 저작권 단속을 실시할 수 있다.According to the present invention, the identification pattern of the destruction site is analyzed, and the change site whose path of the destruction site is changed is tracked, so that the copyright enforcement can be performed so that quick response to the site whose path has changed from time to time is possible.
도 1은 본 발명의 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템을 도시한 블록도이다.
도 2는 도 1의 저장부를 상세하게 도시한 것이다.
도 3은 도 2의 OSP 베이스에 저장되는 생애주기 정보를 도시한 예이다.
도 4는 도 1의 분석 분류부를 상세하게 도시한 블록도이다.
도 5는 본 발명의 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 도시한 흐름도이다.
도 6은 도 5의 패턴 분석과 업데이트하는 방법을 도시한 흐름도이다.
도 7은 본 발명의 다른 실시예에 따른 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 도시한 흐름도이다.
도 8은 본 발명의 또 다른 실시예에 따른 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 도시한 흐름도이다.
도 9는 도 8의 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 상세하게 도시한 흐름도이다.1 is a block diagram illustrating an OSP site lifecycle detection artificial intelligence system using machine learning of the present invention.
Fig. 2 shows the storage unit of Fig. 1 in detail.
3 illustrates an example of lifecycle information stored in the OSP base of FIG.
FIG. 4 is a block diagram showing the analysis classifying unit of FIG. 1 in detail.
FIG. 5 is a flowchart illustrating an operation method of an OSP site lifecycle sensing artificial intelligence system utilizing the machine learning of the present invention.
6 is a flowchart showing a pattern analysis and updating method of FIG.
7 is a flowchart illustrating an operation method of an OSP site lifecycle detection artificial intelligence system using machine learning according to another embodiment of the present invention.
8 is a flowchart illustrating an operation method of an OSP site lifecycle detection artificial intelligence system using machine learning according to another embodiment of the present invention.
FIG. 9 is a flowchart illustrating an operation method of an OSP site lifecycle detection artificial intelligence system using the machine learning of FIG. 8 in detail.
이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예에 의해 제한되거나 한정되는 것은 아니다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings and accompanying drawings, but the present invention is not limited to or limited by the embodiments.
도 1은 본 발명의 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템을 도시한 블록도로서, 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템(100)은 온라인 서비스 제공자(OSP: Online Service Provider) 사이트의 생성, 유지, 변경 또는 소멸을 감지한다.FIG. 1 is a block diagram showing an OSP life cycle sensing artificial intelligence system using machine learning of the present invention. The OSP site life cycle sensing
기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템(100)은 저장부(110), 수집부(120), 점검부(130), 분석 분류부(140) 및 제어부(160)를 포함한다.The OSP site lifecycle detection
저장부(110)는 적법 사이트, 불법 사이트 및 소멸 사이트를 포함하는 OSP 사이트에 대한 생애주기 정보, UI(UI: User Interface) 패턴 정보 및 키워드 정보를 저장한다.The
도 2는 도 1의 저장부를 상세하게 도시한 것이고, 도 3은 도 2의 OSP 베이스에 저장되는 생애주기 정보를 도시한 예로서, 저장부(110)는 OSP 베이스(111), UI 베이스(112) 및 키워드 베이스(113)를 포함한다.FIG. 2 is a detailed view of the storage unit of FIG. 1. FIG. 3 is a diagram illustrating life cycle information stored in the OSP base of FIG. 2. The
OSP 베이스(111)는 도 3에 도시된 바와 같이 생애주기 정보를 테이블 형태로 저장할 수 있다. 생애주기 정보는 적법 사이트, 불법 사이트 및 소멸 사이트로 구분되고, 각 구분된 OSP 사이트 별로 명칭, 경로 및 생애주기 히스토리를 포함할 수 있다.The
명칭은 포털 검색 사이트에서 키워드로 검색할 때 키워드와 관련된 OSP 사이트의 이름일 수 있고, 경로는 인터넷 주소 또는 URL(Uniform Resource Locator)일 수 있다.The name may be the name of the OSP site associated with the keyword when searching by keywords on the portal search site, and the path may be an Internet address or a URL (Uniform Resource Locator).
생애주기 히스토리는 각 구분된 OSP 사이트의 생성, 유지, 변경 또는 소멸 등 상태 변화를 나타낼 수 있다.The lifecycle history can indicate a state change such as creation, maintenance, change, or disappearance of each classified OSP site.
UI 베이스(112)는 OSP 사이트의 UI 패턴 정보를 저장할 수 있다. UI 패턴 정보는 디스플레이 상에 보여주는 웹 화면과 관련된 정보일 수 있고, HTML 기반의 UI 소스일 수 있다.The UI
키워드 베이스(113)는 각각의 OSP 사이트에서 명칭, 경로 또는 UI 패턴 중에 반복적 또는 범용적으로 사용되는 키워드 및 특정 키워드에서 대체 또는 파생되는 키워드를 포함할 수 있다. 예를 들어 키워드는 반복적 또는 범용적으로 사용되는 웹하드가 키워드이면 웹하드 사이트, 영화 다운받는 곳 또는 토렌트 등을 대체 또는 파생된 키워드로 포함할 수 있다.The
수집부(120)는 키워드 정보를 이용하여 후보 사이트를 수집한다. 수집부(120)는 모바일 웹 환경의 OSP 사이트와 관련된 후보 사이트를 수집할 수 있다.The
점검부(130)는 후보 사이트의 접속 가능 여부를 점검한다. 점검부(130)는 후보 사이트의 접속이 되지 않으면 후보 사이트를 소멸 사이트로 분류한다.The checking
분석 분류부(140)는 후보 사이트의 접속이 가능하면 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 유사성을 분석하여 후보 사이트를 분류한다.The
도 4는 도 1의 분석 분류부를 상세하게 도시한 블록도로서, 분석 분류부(140)는 제1 분석부(141), 제1 분류부(142), 제2 분석부(143), 제2 분류부(144) 및 제3 분류부(145)를 포함한다.FIG. 4 is a detailed block diagram of the analysis classifying unit of FIG. 1. The
제1 분석부(141)는 딥러닝 기계학습 모듈을 이용하여 OSP 사이트와 후보 사이트 간의 UI 패턴을 분석하고, 제2 분석부(143)는 자연어처리 모듈을 이용하여 OSP 사이트와 후보 사이트 간의 식별 패턴을 분석한다.The
UI 패턴은 디스플레이 상에 보여주는 웹 화면과 관련될 수 있고, HTML 기반의 UI 소스와 관련될 수 있다.The UI pattern may be associated with a web screen that is displayed on the display, and may be associated with an HTML-based UI source.
기계학습을 위한 UI 패턴에 대한 특징들은 HTML 태그(tag)와 값(value)으로 구분되고, HTML 태그는 로그인 폼(form), 상하좌우 프레임, 버튼 및 배너 게시판에 대한 위치정보를 포함할 수 있으며, HTML 값은 장르 별로 카테고리를 클릭하는 클릭값 또는 각각의 카테고리에서 게시물을 클릭하는 클릭값을 포함할 수 있다. 예를 들어, 웹하드 OSP 사이트에서 카테고리는 영화, 드라마, 동영상, 게임, 애니, 유틸, 음악, 도서, 교육, 자작 및 성인 등 장르 별로 구분되고, 드라마 게시물에는 방송국 별로 방영 또는 종영된 드라마들이 게시되어 있다.The features of the UI pattern for machine learning are classified into an HTML tag and a value, and the HTML tag can include position information about a login form, an up / down / left / right frame, a button, and a banner bulletin board , The HTML value may include a click value to click on a category by genre or a click value to click on a post in each category. For example, categories on the web hard OSP site are divided into genres such as movies, dramas, videos, games, animations, utilities, music, books, education, home movies, and adults. In the drama postings, .
제1 분석부(141)는 상기 특징들을 비교 분석하기 위해 신경망 기반의 딥러닝 기계학습을 수행할 수 있다. 신경망은 심층 신경망(DNN: Deep Neural Network), 합성곱 신경망(CNN: Convolutional Neural Network), 순환 신경망(RNN: Recurrent Neural Network), 제한 볼츠만 머신(RBM: Restricted Boltzmann Machine) 또는 심층 신뢰 신경망(DBN: Deep Belief Network)일 수 있다.The
제1 분석부(141)는 미리 이용자가 만든 데이터를 입력한 뒤 출력까지 이끌어내는 감독(supervised) 학습과 출력 없이 입력만으로 패턴을 모델링하는 비감독(unsupervised) 학습으로 이루어질 수 있고, 정확도를 높이기 위해 Ensemble learning, Cortical learning, Incremental learning, Transfer learning 또는 Reinforcement learning으로 이루어질 수 있다.The
제1 분석부(141)는 논리추론, 베이지안추론 또는 결정트리탐색을 이용하여 유사한 사이트인지 추론할 수 있다.The
식별 패턴은 경로, 명칭 및 UI 패턴 중 하나 이상을 포함한다. 예를 들어, 제2 분석부(143)는 소멸 사이트의 경로가 http://OOOwebhard1.com/이고 후보 사이트의 경로가 http://OOOwebhard2.com/이면, 두 사이트 간의 숫자를 제외하고 동일하므로, 두 사이트 간의 식별 패턴이 유사하다고 분석할 수 있다.The identification pattern includes at least one of a path, a name, and a UI pattern. For example, if the path of the destruction site is http://OOOwebhard1/ and the path of the candidate site is http://OOOwebhard2.com/, the
제1 분류부(142)는 UI 패턴 결과에 대응하여 후보 사이트를 1차 분류하고, 제2 분류부(144)식별 패턴 결과에 대응하여 후보 사이트를 2차 분류하며, 제3 분류부(145)는 후보 사이트와 관련된 불법 사이트의 접속 유무에 대응하여 후보 사이트를 3차 분류한다. 이하 도 5 내지 8을 참조하여 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템(100)의 동작 방법을 상세히 설명하기로 한다.The
도 5는 본 발명의 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 도시한 흐름도로서, 저장부(110)는 적법 사이트, 불법 사이트 및 소멸 사이트를 포함하는 OSP 사이트에 대한 생애주기 정보, UI 패턴 정보 및 키워드 정보를 저장하여 유지하고, 수집부(120)는 키워드 정보를 이용하여 후보 사이트를 수집한다.FIG. 5 is a flowchart illustrating an operation method of an OSP site lifecycle sensing artificial intelligence system utilizing the machine learning of the present invention. The
점검부(130)는 후보 사이트의 접속 가능 여부를 점검한다. 점검부(130)는 후보 사이트의 접속이 되지 않으면 후보 사이트를 소멸 사이트로 분류한다.The
분석 분류부(140)는 후보 사이트의 접속이 가능하면 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 유사성을 분석하여 후보 사이트를 분류하여 업데이트한다.When the candidate site is accessible, the
도 6은 도 5의 패턴 분석과 업데이트하는 방법을 도시한 흐름도로서, 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템(100)은 후보 사이트를 분류하면서 불법 사이트 또는 소멸 사이트의 생애주기를 감지할 수 있다.FIG. 6 is a flowchart illustrating a method of analyzing and updating the pattern of FIG. 5, wherein the OSP site lifecycle detection
제1 분석부(141)는 후보 사이트의 접속이 가능하면 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 유사성을 분석한다. If the candidate site can be accessed, the
제1 분류부(142)는 후보 사이트의 UI 패턴이 불법 또는 소멸 사이트의 UI 패턴과 유사하면 후보 사이트를 불법 사이트로 임시 분류하고, 유사하지 않으면 후보 사이트를 적법 사이트로 분류한다.If the UI pattern of the candidate site is similar to the UI pattern of the illegal site or the destruction site, the
제2 분석부(143)는 후보 사이트의 UI 패턴이 불법 사이트의 UI 패턴과 유사하면 불법 사이트의 식별 패턴과 후보 사이트의 식별 패턴을 분석하고, 후보 사이트의 UI 패턴이 소멸 사이트의 UI 패턴과 유사하면 소멸 사이트의 식별 패턴과 후보 사이트의 식별 패턴을 분석한다.If the UI pattern of the candidate site is similar to the UI pattern of the illegal site, the
제2 분류부(144)는 후보 사이트의 식별 패턴이 불법 사이트의 식별 패턴과 유사하면 후보 사이트가 불법 사이트에 의해 변경된 것인지 점검하기 위해 점검부(130)에 불법 사이트의 접속 점검을 요청하고, 유사하지 않으면 후보 사이트를 신규 불법 사이트로 분류한다.When the identification pattern of the candidate site is similar to the identification pattern of the illegal site, the
제2 분류부(144)는 후보 사이트의 식별 패턴이 소멸 사이트의 식별 패턴과 유사하면 후보 사이트를 소멸 사이트에 의해 변경된 불법 사이트로 분류하고, 유사하지 않으면 후보 사이트를 신규 불법 사이트로 분류한다.If the identification pattern of the candidate site is similar to the identification pattern of the destruction site, the
제3 분류부(145)는 후보 사이트의 식별 패턴과 유사한 불법 사이트의 접속이 가능하면 후보 사이트를 신규 불법 사이트로 분류한다. 불가능하면 불법 사이트를 소멸 사이트로 분류하고, 후보 사이트를 불법 사이트에 의해 변경된 불법 사이트로 분류한다.The
제어부(400)는 분류된 후보 사이트에 대한 정보가 업데이트되도록 제어한다.The control unit 400 controls the information about the classified candidate sites to be updated.
도 7은 본 발명의 다른 실시예에 따른 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 도시한 흐름도로서, 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템(100)은 주기적으로 불법 사이트의 접속 가능 여부를 점검하고, UI 패턴에 대한 변동 여부를 판별하여 수시로 경로 또는 UI 패턴이 변경된 사이트에 대한 저작권 단속을 실시할 수 있다.FIG. 7 is a flowchart illustrating an operation method of an OSP site lifecycle detection artificial intelligence system using machine learning according to another embodiment of the present invention. The OSP site life cycle detection
점검부(130)는 설정된 주기로 불법 사이트의 접속 가능 여부를 점검하고, 불법 사이트의 접속이 불가능하면 불법 사이트를 소멸 사이트로 분류한다.The
제1 분석부(141)는 불법 사이트의 접속이 가능하면 기 저장된 불법 사이트의 UI 패턴과 현재 접속된 불법 사이트의 UI 패턴 간의 유사성을 분석한다.The
제1 분류부(142)는 UI 패턴 변동이 없으면 종료하고, UI 패턴 변동이 있으면 접속된 불법 사이트의 UI 패턴으로 업데이트한다.The
도 8은 본 발명의 또 다른 실시예에 따른 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 도시한 흐름도로서, 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템(100)은 소멸 사이트의 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적하는 추적부(150)를 더 포함하여, 수시로 경로가 변경된 사이트에 대한 저작권 단속을 실시할 수 있다.FIG. 8 is a flowchart illustrating an operation method of an OSP site lifecycle sensing artificial intelligence system using machine learning according to another embodiment of the present invention. Referring to FIG. 8, an OSP site life cycle sensing
추적부(150)는 소멸 사이트의 경로, 명칭 및 UI 패턴 중 하나 이상을 포함하는 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적한다.The
추적부(150)는 식별 패턴과 관련된 블로그, 카페, SNS 및 게시판을 포함하는 웹로그의 UI 소스에서 경로 소스를 추출하여 후보 경로를 생성한다.The
점검부(130)는 후보 경로의 접속 가능 여부를 점검하고, 제1 분석부(141)는 접속이 가능하면 소멸 사이트의 UI 패턴과 후보 경로로 접속된 후보 경로 사이트의 UI 패턴 간의 유사성을 분석한다.The
제1 분류부(142)는 소멸 사이트의 UI 패턴과 후보 경로 사이트의 UI 패턴이 유사하면 후보 경로 사이트를 소멸 사이트에 의해 변경된 불법 사이트로 분류하고, 유사하지 않으면 추적 실패 사이트로 분류한다.If the UI pattern of the destruction site is similar to the UI pattern of the candidate route site, the
웹하드 사이트 소멸 후 추적 시, 수집부(120)는 먼저 해당 사이트 경로 또는 명칭으로 포털 검색 하여 관련된 웹로그를 수집한다. 추적부(150)는 수집된 웹로그에서 웹하드의 명칭과 경로에 대한 형태소 분석 및 개체명 인식을 수행하여 주요 개체들을 추출하고, 후보 경로를 추출한다. 예를 들어 블로그에 "파일노리 주소가 www.filenori2.co.kr로 변경되었어요" 라는 문구가 있으면, 파일노리, 주소, www.filenori2.co.kr 및 변경 이라는 개체들을 추출하고, 연관성을 고려하여 변경된 주소인지 후보 경로를 생성할 수 있다.When the web hard site disappears, the collecting
추적부(150)는 사이트 경로와 명칭에 대한 유사도를 비교 시 Euclidean Distance, Cosine Distance, Jaccard Distance, Correlation Distance 및 Levenshtein distance 등 다양한 알고리즘을 이용할 수 있다.The
점검부(130)는 후보 경로에 접속하여 접속 유무를 확인하고, 제1 분석부(141)는 접속이 가능하면 딥러닝 알고리즘을 사용하여 UI 패턴을 분석하고, 제1 분류부(142)는 유사도 수치가 기준값 이상이면 소멸 사이트에 의해 변경된 사이트로 분류한다.The
도 9는 도 8의 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 상세하게 도시한 흐름도이다.FIG. 9 is a flowchart illustrating an operation method of an OSP site lifecycle detection artificial intelligence system using the machine learning of FIG. 8 in detail.
추적부(150)는 소멸 사이트의 경로, 명칭 및 UI 패턴 중 하나 이상을 포함하는 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적한다.The
추적부(150)는 식별 패턴과 관련된 블로그, 카페, SNS 및 게시판을 포함하는 웹로그의 UI 소스에서 경로 소스를 추출하여 하나 이상의 후보 경로를 생성한다.The
점검부(130)는 후보 경로의 접속 가능 여부를 점검한다. 점검부(130)는 모든 후보 경로의 접속 가능 여부를 점검할 수 있다. 제1 분류부(142)는 모든 후보 경로의 접속이 가능하지 않으면 후보 경로 사이트를 추적 실패 사이트로 분류한다.The
분석 분류부(140)는 접속이 가능하면 소멸 사이트의 UI 패턴과 후보 경로로 접속된 후보 경로 사이트의 UI 패턴 간의 유사성을 분석한다.The
분석 분류부(140)는 소멸 사이트의 UI 패턴과 후보 경로 사이트의 UI 패턴이 유사하면 후보 경로 사이트를 소멸 사이트에 의해 변경된 불법 사이트로 분류하고, 유사하지 않으면 OSP 사이트의 UI 패턴과 후보 경로 사이트의 UI 패턴 간의 유사성을 분석하여 후보 경로 사이트를 분류한다. 제어부(400)는 분류된 후보 경로 사이트에 대한 정보가 업데이트되도록 제어하면서 OSP 사이트에 대한 정보가 업데이트되도록 제어한다.If the UI pattern of the destruction site is similar to the UI pattern of the candidate route site, the
즉, 소멸 사이트와 유사하지 않은 후보 경로 사이트는 다른 OSP 사이트와 유사성이 있는 사이트일 가능성이 높으므로, OSP 사이트의 UI 패턴과 후보 경로 사이트의 UI 패턴 간의 유사성 분석이 필요하다.In other words, it is highly likely that a candidate route site that is not similar to the destruction site is similar to another OSP site, so it is necessary to analyze the similarity between the UI pattern of the OSP site and the UI pattern of the candidate route site.
후보 경로 사이트에 대한 UI 패턴 분석과 업데이트하는 방법은 도 6을 참조하기로 한다.A method of analyzing and updating the UI pattern for the candidate route site will be described with reference to FIG.
100: OSP 사이트 생애주기 감지 시스템 110: 저장부
120: 수집부 130: 점검부
140: 분석 분류부 150: 추적부
160: 제어부100: OSP site life cycle detection system 110:
120: collecting unit 130: checking unit
140: Analysis Classification Unit 150: Tracking Unit
160:
Claims (8)
상기 키워드 정보를 이용하여 신규로 생성된 후보 사이트를 수집하는 수집부;
상기 후보 사이트의 접속 가능 여부를 점검하는 점검부;
상기 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 유사성을 분석하여 후보 사이트를 분류하며, OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 특징들을 비교 분석하기 위한 신경망 기반의 딥러닝 기계학습을 수행하여 불법 사이트 또는 소멸 사이트의 생애주기를 감지하는 분석 분류부 및
분류된 후보 사이트에 대한 정보가 업데이트되도록 제어하는 제어부를 포함하여,
상기 OSP 사이트의 생성, 유지, 변경 또는 소멸을 감지하고 추적하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템.A storage unit for storing lifecycle information, UI pattern information, and keyword information for an OSP site including a legitimate site, an illegal site, and a destruction site;
A collection unit for collecting candidate sites newly generated using the keyword information;
An inspection unit for checking whether or not the candidate site can be connected;
Deep learning machine learning based on neural network is performed to classify candidate sites by analyzing the similarity between the UI pattern of the OSP site and the UI pattern of the candidate site, and to compare and analyze features between the UI pattern of the OSP site and the UI pattern of the candidate site An analysis classification section for detecting the life cycle of illegal sites or annihilation sites, and
And a control unit for controlling the information about the classified candidate sites to be updated,
Wherein the generation, maintenance, change, or disappearance of the OSP site is detected and tracked.
상기 수집부는 반복적 또는 범용적으로 사용되는 키워드 및 특정 키워드에서 대체 또는 파생되는 키워드를 포함하는 키워드 정보를 이용하여 모바일 웹 환경의 OSP 사이트와 관련된 후보 사이트를 수집하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템.The method according to claim 1,
Wherein the collecting unit collects candidate sites related to an OSP site of a mobile web environment by using keyword information including keywords repeatedly or universally used and keywords substituted or derived from specific keywords OSP site life cycle detection artificial intelligence system.
상기 점검부는 설정된 주기로 불법 사이트의 접속 가능 여부를 점검하고,
상기 분석 분류부는 불법 사이트의 UI 패턴에 대한 변동 여부를 판별하여 UI 패턴이 변동된 불법 사이트를 재 분류하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템.The method according to claim 1,
The checking unit checks whether or not an illegal site can be accessed at a set period,
Wherein the analysis classifier determines whether the UI pattern of the illegal site is changed or not, and reclassifies the illegal site in which the UI pattern has been changed.
상기 분석 분류부는 미 접속된 불법 사이트를 소멸 사이트로 재 분류하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템.5. The method of claim 4,
Wherein the analysis classification unit reclassifies the unconnected illegal sites to the destruction sites, and the OSP site lifecycle detection artificial intelligence system utilizing the machine learning.
상기 소멸 사이트의 경로, 명칭 및 UI 패턴 중 하나 이상을 포함하는 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적하는 추적부를 더 포함하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템.The method according to claim 1,
Further comprising a tracking unit for analyzing an identification pattern including at least one of a path name, a name, and a UI pattern of the destruction site, and tracking the changed site whose path of the destruction site has been changed. Sensing artificial intelligence system.
상기 추적부는 식별 패턴과 관련된 블로그, 카페, SNS 및 게시판을 포함하는 웹로그에서 경로 소스를 추출하여 후보 경로를 생성하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템.The method according to claim 6,
Wherein the tracking unit generates a candidate path by extracting a path source from a web log including a blog, a cafe, a SNS, and a bulletin board related to an identification pattern, and generates a candidate path.
상기 점검부는 후보 경로의 접속 가능 여부를 점검하고,
상기 분석 분류부는 소멸 사이트의 UI 패턴과 후보 경로로 접속된 사이트의 UI 패턴 간의 유사성을 분석하고, 유사도 수치가 기준값 이상이면 소멸 사이트에 의해 변경된 사이트로 분류하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템.8. The method of claim 7,
The checking unit checks whether or not the candidate path can be connected,
Wherein the analysis classifying unit classifies the similarity between the UI pattern of the destruction site and the UI pattern of the site connected by the candidate path and classifies the site as a site changed by the destruction site if the similarity value is not less than a reference value, Site life cycle detection artificial intelligence system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160152645A KR101908665B1 (en) | 2016-11-16 | 2016-11-16 | Artificial intelligence system for detecting life cycle of osp site using machine learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160152645A KR101908665B1 (en) | 2016-11-16 | 2016-11-16 | Artificial intelligence system for detecting life cycle of osp site using machine learning |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180055170A KR20180055170A (en) | 2018-05-25 |
KR101908665B1 true KR101908665B1 (en) | 2018-10-16 |
Family
ID=62299423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160152645A KR101908665B1 (en) | 2016-11-16 | 2016-11-16 | Artificial intelligence system for detecting life cycle of osp site using machine learning |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101908665B1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102199587B1 (en) * | 2019-09-05 | 2021-01-07 | 한국과학기술원 | Method and apparatus for analyzing transaction of cryptocurrency |
KR102058683B1 (en) | 2019-09-05 | 2019-12-23 | (주)에스투더블유랩 | Method and apparatus for analyzing transaction of cryptocurrency |
KR102408205B1 (en) * | 2020-10-20 | 2022-06-13 | 아주대학교산학협력단 | Method and apparatus for detecting life cycle step of website |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002073607A (en) * | 2000-08-25 | 2002-03-12 | Nippon Telegr & Teleph Corp <Ntt> | Method and apparatus for automatically estimating similarity between web pages and medium with its program recorded thereon |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020081774A (en) * | 2001-04-19 | 2002-10-30 | 주식회사 플랜티넷 | Apparatus and method for uholesome site database saving |
KR20030046768A (en) * | 2001-12-06 | 2003-06-18 | (주)와이솔루션즈 | Web site management system and method based on the inference theory of the artificial intelligence expert systems |
KR20040076712A (en) | 2003-02-26 | 2004-09-03 | 김시우 | Digital rights management method using unlawful websites searching system |
-
2016
- 2016-11-16 KR KR1020160152645A patent/KR101908665B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002073607A (en) * | 2000-08-25 | 2002-03-12 | Nippon Telegr & Teleph Corp <Ntt> | Method and apparatus for automatically estimating similarity between web pages and medium with its program recorded thereon |
Also Published As
Publication number | Publication date |
---|---|
KR20180055170A (en) | 2018-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Temporally evolving graph neural network for fake news detection | |
Boididou et al. | Detection and visualization of misleading content on Twitter | |
Boididou et al. | Learning to detect misleading content on twitter | |
KR20210092979A (en) | Fake news artificial intelligence classification system, and method thereof | |
KR101908665B1 (en) | Artificial intelligence system for detecting life cycle of osp site using machine learning | |
US11301522B1 (en) | Method and apparatus for collecting information regarding dark web | |
Rokon et al. | Repo2vec: A comprehensive embedding approach for determining repository similarity | |
Makhabel et al. | R: Mining spatial, text, web, and social media data | |
Mangal et al. | A Framework for Detection and Validation of Fake News via authorize source matching | |
Kim et al. | Discovering undisclosed paid partnership on social media via aspect-attentive sponsored post learning | |
Alterkavı et al. | Novel authorship verification model for social media accounts compromised by a human | |
CN111797904A (en) | Method and device for detecting tampering of webpage features | |
Chua et al. | Problem Understanding of Fake News Detection from a Data Mining Perspective | |
CN117763510A (en) | Webpage identification method, device, equipment, medium and program product | |
Yousuf et al. | PROVENANCE: An intermediary-free solution for digital content verification | |
Das et al. | Attribute driven temporal active online community search | |
Martin | A Wikipedia literature review | |
KR102483004B1 (en) | Method for detecting harmful url | |
Spahiu et al. | Topic profiling benchmarks in the linked open data cloud: Issues and lessons learned | |
Kotenko et al. | The intelligent system for detection and counteraction of malicious and inappropriate information on the Internet | |
Jang et al. | A study on the detection method for malicious urls based on a number of search results matching the internet search engines combining the machine learning | |
KR102381181B1 (en) | System and method for tracking and analyzing digital information by using artificial intelligence | |
Govind et al. | CALVADOS: a tool for the semantic analysis and digestion of web contents | |
Boratto et al. | Robustness in Fairness against Edge-level Perturbations in GNN-based Recommendation | |
Rahimi et al. | A multi-view rumor detection framework using dynamic propagation structure, interaction network, and content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |