KR20180055170A - 기계학습을 활용한 osp 사이트 생애주기 감지 인공지능 시스템 - Google Patents

기계학습을 활용한 osp 사이트 생애주기 감지 인공지능 시스템 Download PDF

Info

Publication number
KR20180055170A
KR20180055170A KR1020160152645A KR20160152645A KR20180055170A KR 20180055170 A KR20180055170 A KR 20180055170A KR 1020160152645 A KR1020160152645 A KR 1020160152645A KR 20160152645 A KR20160152645 A KR 20160152645A KR 20180055170 A KR20180055170 A KR 20180055170A
Authority
KR
South Korea
Prior art keywords
site
pattern
candidate
osp
unit
Prior art date
Application number
KR1020160152645A
Other languages
English (en)
Other versions
KR101908665B1 (ko
Inventor
양중식
Original Assignee
(주)아이와즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아이와즈 filed Critical (주)아이와즈
Priority to KR1020160152645A priority Critical patent/KR101908665B1/ko
Publication of KR20180055170A publication Critical patent/KR20180055170A/ko
Application granted granted Critical
Publication of KR101908665B1 publication Critical patent/KR101908665B1/ko

Links

Images

Classifications

    • G06N3/0427
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N99/005

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 신규로 생성된 후보 사이트를 업데이트하면서 불법 사이트 또는 소멸 사이트의 생애주기를 감지하고, 주기적으로 불법 사이트의 접속 가능 여부를 점검하며, UI 패턴에 대한 변동 여부를 판별하고, 소멸 사이트의 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적하여, 수시로 경로 또는 UI 패턴이 변경된 사이트를 감지하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템을 개시한다.

Description

기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템{ARTIFICIAL INTELLIGENCE SYSTEM FOR DETECTING LIFE CYCLE OF OSP SITE USING MACHINE LEARNING}
본 발명은 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템에 관한 것으로, 상세하게는 OSP 사이트의 생성, 유지, 변경 또는 소멸을 자동으로 감지하는 기술에 관한 것이다.
온라인 서비스 제공자(OSP: Online Service Provider)는 제공자와 운영자로 구분된다. 제공자는 사용자가 선택한 저작물 등을 수정 없이 사용자가 정보통신망을 통하여 전달하기 위해 송신하거나 경로를 지정하여 연결을 제공하는 자이고, 운영자는 사용자들이 정보통신망에 접속하여 저작물 등을 복제 및 전송할 수 있도록 서비스를 제공하거나 이를 위한 설비를 제공 또는 운영하는 자로 구분된다.
인터넷 서비스, 이메일, 뉴스, 신문, 음악, 영화, 이미지, 게임, 소프트웨어, e-쇼핑, 전자금융, e-헬스 및 전자정부의 서비스가 해당될 수 있다. 예를 들어, OSP 사이트는 음악 및 영화 등 다양한 엔터테인먼트 콘텐츠를 제공하는 웹하드 사이트일 수 있다.
OSP 사이트는 적법 사이트, 불법 사이트 및 소멸 사이트를 포함한다. 적법 사이트는 저작권료를 지불하고, 다양한 엔터테인먼트 콘텐츠를 유통시키는 사이트이다. 불법 사이트는 저작권료를 지불하지 않고, 콘텐츠를 유통시키는 사이트이다. 소멸 사이트는 불법 사이트가 소멸되어 접속되지 않는 사이트이다.
최근에는 OSP 사이트의 게시물과 콘텐츠를 다운받아 저작권 불법 유무를 모니터링 요원이 수동으로 불법 사이트를 감시하였다.
특허문헌 1은 디지털 저작권 불법 유통사이트 검색시스템을 이용한 저작권 관리방법에 관한 것으로, 저작권 정보 검색어를 입력하여 사이트를 수집하고, 수집된 사이트와 적법 사이트 목록과 비교하여 저작권 침해 혐의가 있는 사이트인지 판별한다.
그러나 최근에는 불법 사이트의 OSP는 사이트의 경로(URL: Uniform Resource Locator) 또는 디스플레이 상에 보여주는 화면과 관련된 유저 인터페이스(UI: User Interface) 패턴을 수시로 변경하여 저작권 단속을 피하는 문제점이 있다.
1. 한국공개특허 제10-2004-0076712호(2004.09.03.)
상기 문제점을 해결하기 위하여 본 발명은 저장된 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 유사성을 분석하여 저작권 침해 혐의가 있는 사이트인지 판별하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템을 제공한다.
본 발명은 주기적으로 불법 사이트의 접속 가능 여부를 점검하고, UI 패턴에 대한 변동 여부를 판별하여 수시로 경로 또는 UI 패턴이 변경된 사이트의 생애주기를 감지하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템을 제공한다.
본 발명은 소멸 사이트의 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템을 제공한다.
상기의 해결하고자 하는 과제를 위한 본 발명에 따른 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템은, 적법 사이트, 불법 사이트 및 소멸 사이트를 포함하는 OSP 사이트에 대한 생애주기 정보, UI 패턴 정보 및 키워드 정보를 저장하는 저장부; 상기 키워드 정보를 이용하여 신규로 생성된 후보 사이트를 수집하는 수집부; 상기 후보 사이트의 접속 가능 여부를 점검하는 점검부; 상기 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 유사성을 분석하여 후보 사이트를 분류하는 분석 분류부 및 분류된 후보 사이트에 대한 정보가 업데이트되도록 제어하는 제어부를 포함하여, 상기 OSP 사이트의 생성, 유지, 변경 또는 소멸을 감지하고 추적하는 것을 특징으로 한다.
상기 수집부는 반복적 또는 범용적으로 사용되는 키워드 및 특정 키워드에서 대체 또는 파생되는 키워드를 포함하는 키워드 정보를 이용하여 모바일 웹 환경의 OSP 사이트와 관련된 후보 사이트를 수집하는 것을 특징으로 할 수 있다.
상기 분석 분류부는 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 특징들을 비교 분석하기 위한 신경망 기반의 딥러닝 기계학습을 수행하여 불법 사이트 또는 소멸 사이트의 생애주기를 감지하는 것을 특징으로 할 수 있다.
상기 점검부는 설정된 주기로 불법 사이트의 접속 가능 여부를 점검하고, 상기 분석 분류부는 불법 사이트의 UI 패턴에 대한 변동 여부를 판별하여 UI 패턴이 변동된 불법 사이트를 재 분류하는 것을 특징으로 할 수 있다.
상기 분석 분류부는 미 접속된 불법 사이트를 소멸 사이트로 재 분류하는 것을 특징으로 할 수 있다.
기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템은 상기 소멸 사이트의 경로, 명칭 및 UI 패턴 중 하나 이상을 포함하는 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적하는 추적부를 더 포함할 수 있다.
상기 추적부는 식별 패턴과 관련된 블로그, 카페, SNS 및 게시판을 포함하는 웹로그에서 경로 소스를 추출하여 후보 경로를 생성하는 것을 특징으로 할 수 있다.
상기 점검부는 후보 경로의 접속 가능 여부를 점검하고, 상기 분석 분류부는 소멸 사이트의 UI 패턴과 후보 경로로 접속된 사이트의 UI 패턴 간의 유사성을 분석하고, 유사도 수치가 기준값 이상이면 소멸 사이트에 의해 변경된 사이트로 분류하는 것을 특징으로 할 수 있다.
본 발명은 저장된 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 유사성을 분석하여 후보 사이트가 저작권 침해 혐의가 있는 사이트인지 판별할 수 있고, 후보 사이트를 분류하면서 UI 패턴이 변경된 불법 사이트 또는 소멸 사이트를 감지할 수 있으며, 유사성 판별 정확도를 높여 저작권 단속이 필요한 불법 사이트를 효율적으로 모니터링하는 환경을 제공할 수 있다.
본 발명은 주기적으로 불법 사이트의 접속 가능 여부를 점검하고, UI 패턴에 대한 변동 여부를 판별하여 수시로 경로 또는 UI 패턴이 변경된 사이트에 대한 빠른 대처가 가능하도록 저작권 단속을 실시할 수 있다.
본 발명은 소멸 사이트의 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적함으로써, 수시로 경로가 변경된 사이트에 대한 빠른 대처가 가능하도록 저작권 단속을 실시할 수 있다.
도 1은 본 발명의 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템을 도시한 블록도이다.
도 2는 도 1의 저장부를 상세하게 도시한 것이다.
도 3은 도 2의 OSP 베이스에 저장되는 생애주기 정보를 도시한 예이다.
도 4는 도 1의 분석 분류부를 상세하게 도시한 블록도이다.
도 5는 본 발명의 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 도시한 흐름도이다.
도 6은 도 5의 패턴 분석과 업데이트하는 방법을 도시한 흐름도이다.
도 7은 본 발명의 다른 실시예에 따른 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 도시한 흐름도이다.
도 8은 본 발명의 또 다른 실시예에 따른 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 도시한 흐름도이다.
도 9는 도 8의 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 상세하게 도시한 흐름도이다.
이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예에 의해 제한되거나 한정되는 것은 아니다.
도 1은 본 발명의 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템을 도시한 블록도로서, 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템(100)은 온라인 서비스 제공자(OSP: Online Service Provider) 사이트의 생성, 유지, 변경 또는 소멸을 감지한다.
기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템(100)은 저장부(110), 수집부(120), 점검부(130), 분석 분류부(140) 및 제어부(160)를 포함한다.
저장부(110)는 적법 사이트, 불법 사이트 및 소멸 사이트를 포함하는 OSP 사이트에 대한 생애주기 정보, UI(UI: User Interface) 패턴 정보 및 키워드 정보를 저장한다.
도 2는 도 1의 저장부를 상세하게 도시한 것이고, 도 3은 도 2의 OSP 베이스에 저장되는 생애주기 정보를 도시한 예로서, 저장부(110)는 OSP 베이스(111), UI 베이스(112) 및 키워드 베이스(113)를 포함한다.
OSP 베이스(111)는 도 3에 도시된 바와 같이 생애주기 정보를 테이블 형태로 저장할 수 있다. 생애주기 정보는 적법 사이트, 불법 사이트 및 소멸 사이트로 구분되고, 각 구분된 OSP 사이트 별로 명칭, 경로 및 생애주기 히스토리를 포함할 수 있다.
명칭은 포털 검색 사이트에서 키워드로 검색할 때 키워드와 관련된 OSP 사이트의 이름일 수 있고, 경로는 인터넷 주소 또는 URL(Uniform Resource Locator)일 수 있다.
생애주기 히스토리는 각 구분된 OSP 사이트의 생성, 유지, 변경 또는 소멸 등 상태 변화를 나타낼 수 있다.
UI 베이스(112)는 OSP 사이트의 UI 패턴 정보를 저장할 수 있다. UI 패턴 정보는 디스플레이 상에 보여주는 웹 화면과 관련된 정보일 수 있고, HTML 기반의 UI 소스일 수 있다.
키워드 베이스(113)는 각각의 OSP 사이트에서 명칭, 경로 또는 UI 패턴 중에 반복적 또는 범용적으로 사용되는 키워드 및 특정 키워드에서 대체 또는 파생되는 키워드를 포함할 수 있다. 예를 들어 키워드는 반복적 또는 범용적으로 사용되는 웹하드가 키워드이면 웹하드 사이트, 영화 다운받는 곳 또는 토렌트 등을 대체 또는 파생된 키워드로 포함할 수 있다.
수집부(120)는 키워드 정보를 이용하여 후보 사이트를 수집한다. 수집부(120)는 모바일 웹 환경의 OSP 사이트와 관련된 후보 사이트를 수집할 수 있다.
점검부(130)는 후보 사이트의 접속 가능 여부를 점검한다. 점검부(130)는 후보 사이트의 접속이 되지 않으면 후보 사이트를 소멸 사이트로 분류한다.
분석 분류부(140)는 후보 사이트의 접속이 가능하면 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 유사성을 분석하여 후보 사이트를 분류한다.
도 4는 도 1의 분석 분류부를 상세하게 도시한 블록도로서, 분석 분류부(140)는 제1 분석부(141), 제1 분류부(142), 제2 분석부(143), 제2 분류부(144) 및 제3 분류부(145)를 포함한다.
제1 분석부(141)는 딥러닝 기계학습 모듈을 이용하여 OSP 사이트와 후보 사이트 간의 UI 패턴을 분석하고, 제2 분석부(143)는 자연어처리 모듈을 이용하여 OSP 사이트와 후보 사이트 간의 식별 패턴을 분석한다.
UI 패턴은 디스플레이 상에 보여주는 웹 화면과 관련될 수 있고, HTML 기반의 UI 소스와 관련될 수 있다.
기계학습을 위한 UI 패턴에 대한 특징들은 HTML 태그(tag)와 값(value)으로 구분되고, HTML 태그는 로그인 폼(form), 상하좌우 프레임, 버튼 및 배너 게시판에 대한 위치정보를 포함할 수 있으며, HTML 값은 장르 별로 카테고리를 클릭하는 클릭값 또는 각각의 카테고리에서 게시물을 클릭하는 클릭값을 포함할 수 있다. 예를 들어, 웹하드 OSP 사이트에서 카테고리는 영화, 드라마, 동영상, 게임, 애니, 유틸, 음악, 도서, 교육, 자작 및 성인 등 장르 별로 구분되고, 드라마 게시물에는 방송국 별로 방영 또는 종영된 드라마들이 게시되어 있다.
제1 분석부(141)는 상기 특징들을 비교 분석하기 위해 신경망 기반의 딥러닝 기계학습을 수행할 수 있다. 신경망은 심층 신경망(DNN: Deep Neural Network), 합성곱 신경망(CNN: Convolutional Neural Network), 순환 신경망(RNN: Recurrent Neural Network), 제한 볼츠만 머신(RBM: Restricted Boltzmann Machine) 또는 심층 신뢰 신경망(DBN: Deep Belief Network)일 수 있다.
제1 분석부(141)는 미리 이용자가 만든 데이터를 입력한 뒤 출력까지 이끌어내는 감독(supervised) 학습과 출력 없이 입력만으로 패턴을 모델링하는 비감독(unsupervised) 학습으로 이루어질 수 있고, 정확도를 높이기 위해 Ensemble learning, Cortical learning, Incremental learning, Transfer learning 또는 Reinforcement learning으로 이루어질 수 있다.
제1 분석부(141)는 논리추론, 베이지안추론 또는 결정트리탐색을 이용하여 유사한 사이트인지 추론할 수 있다.
식별 패턴은 경로, 명칭 및 UI 패턴 중 하나 이상을 포함한다. 예를 들어, 제2 분석부(143)는 소멸 사이트의 경로가 http://OOOwebhard1.com/이고 후보 사이트의 경로가 http://OOOwebhard2.com/이면, 두 사이트 간의 숫자를 제외하고 동일하므로, 두 사이트 간의 식별 패턴이 유사하다고 분석할 수 있다.
제1 분류부(142)는 UI 패턴 결과에 대응하여 후보 사이트를 1차 분류하고, 제2 분류부(144)식별 패턴 결과에 대응하여 후보 사이트를 2차 분류하며, 제3 분류부(145)는 후보 사이트와 관련된 불법 사이트의 접속 유무에 대응하여 후보 사이트를 3차 분류한다. 이하 도 5 내지 8을 참조하여 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템(100)의 동작 방법을 상세히 설명하기로 한다.
도 5는 본 발명의 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 도시한 흐름도로서, 저장부(110)는 적법 사이트, 불법 사이트 및 소멸 사이트를 포함하는 OSP 사이트에 대한 생애주기 정보, UI 패턴 정보 및 키워드 정보를 저장하여 유지하고, 수집부(120)는 키워드 정보를 이용하여 후보 사이트를 수집한다.
점검부(130)는 후보 사이트의 접속 가능 여부를 점검한다. 점검부(130)는 후보 사이트의 접속이 되지 않으면 후보 사이트를 소멸 사이트로 분류한다.
분석 분류부(140)는 후보 사이트의 접속이 가능하면 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 유사성을 분석하여 후보 사이트를 분류하여 업데이트한다.
도 6은 도 5의 패턴 분석과 업데이트하는 방법을 도시한 흐름도로서, 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템(100)은 후보 사이트를 분류하면서 불법 사이트 또는 소멸 사이트의 생애주기를 감지할 수 있다.
제1 분석부(141)는 후보 사이트의 접속이 가능하면 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 유사성을 분석한다.
제1 분류부(142)는 후보 사이트의 UI 패턴이 불법 또는 소멸 사이트의 UI 패턴과 유사하면 후보 사이트를 불법 사이트로 임시 분류하고, 유사하지 않으면 후보 사이트를 적법 사이트로 분류한다.
제2 분석부(143)는 후보 사이트의 UI 패턴이 불법 사이트의 UI 패턴과 유사하면 불법 사이트의 식별 패턴과 후보 사이트의 식별 패턴을 분석하고, 후보 사이트의 UI 패턴이 소멸 사이트의 UI 패턴과 유사하면 소멸 사이트의 식별 패턴과 후보 사이트의 식별 패턴을 분석한다.
제2 분류부(144)는 후보 사이트의 식별 패턴이 불법 사이트의 식별 패턴과 유사하면 후보 사이트가 불법 사이트에 의해 변경된 것인지 점검하기 위해 점검부(130)에 불법 사이트의 접속 점검을 요청하고, 유사하지 않으면 후보 사이트를 신규 불법 사이트로 분류한다.
제2 분류부(144)는 후보 사이트의 식별 패턴이 소멸 사이트의 식별 패턴과 유사하면 후보 사이트를 소멸 사이트에 의해 변경된 불법 사이트로 분류하고, 유사하지 않으면 후보 사이트를 신규 불법 사이트로 분류한다.
제3 분류부(145)는 후보 사이트의 식별 패턴과 유사한 불법 사이트의 접속이 가능하면 후보 사이트를 신규 불법 사이트로 분류한다. 불가능하면 불법 사이트를 소멸 사이트로 분류하고, 후보 사이트를 불법 사이트에 의해 변경된 불법 사이트로 분류한다.
제어부(400)는 분류된 후보 사이트에 대한 정보가 업데이트되도록 제어한다.
도 7은 본 발명의 다른 실시예에 따른 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 도시한 흐름도로서, 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템(100)은 주기적으로 불법 사이트의 접속 가능 여부를 점검하고, UI 패턴에 대한 변동 여부를 판별하여 수시로 경로 또는 UI 패턴이 변경된 사이트에 대한 저작권 단속을 실시할 수 있다.
점검부(130)는 설정된 주기로 불법 사이트의 접속 가능 여부를 점검하고, 불법 사이트의 접속이 불가능하면 불법 사이트를 소멸 사이트로 분류한다.
제1 분석부(141)는 불법 사이트의 접속이 가능하면 기 저장된 불법 사이트의 UI 패턴과 현재 접속된 불법 사이트의 UI 패턴 간의 유사성을 분석한다.
제1 분류부(142)는 UI 패턴 변동이 없으면 종료하고, UI 패턴 변동이 있으면 접속된 불법 사이트의 UI 패턴으로 업데이트한다.
도 8은 본 발명의 또 다른 실시예에 따른 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 도시한 흐름도로서, 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템(100)은 소멸 사이트의 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적하는 추적부(150)를 더 포함하여, 수시로 경로가 변경된 사이트에 대한 저작권 단속을 실시할 수 있다.
추적부(150)는 소멸 사이트의 경로, 명칭 및 UI 패턴 중 하나 이상을 포함하는 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적한다.
추적부(150)는 식별 패턴과 관련된 블로그, 카페, SNS 및 게시판을 포함하는 웹로그의 UI 소스에서 경로 소스를 추출하여 후보 경로를 생성한다.
점검부(130)는 후보 경로의 접속 가능 여부를 점검하고, 제1 분석부(141)는 접속이 가능하면 소멸 사이트의 UI 패턴과 후보 경로로 접속된 후보 경로 사이트의 UI 패턴 간의 유사성을 분석한다.
제1 분류부(142)는 소멸 사이트의 UI 패턴과 후보 경로 사이트의 UI 패턴이 유사하면 후보 경로 사이트를 소멸 사이트에 의해 변경된 불법 사이트로 분류하고, 유사하지 않으면 추적 실패 사이트로 분류한다.
웹하드 사이트 소멸 후 추적 시, 수집부(120)는 먼저 해당 사이트 경로 또는 명칭으로 포털 검색 하여 관련된 웹로그를 수집한다. 추적부(150)는 수집된 웹로그에서 웹하드의 명칭과 경로에 대한 형태소 분석 및 개체명 인식을 수행하여 주요 개체들을 추출하고, 후보 경로를 추출한다. 예를 들어 블로그에 "파일노리 주소가 www.filenori2.co.kr로 변경되었어요" 라는 문구가 있으면, 파일노리, 주소, www.filenori2.co.kr 및 변경 이라는 개체들을 추출하고, 연관성을 고려하여 변경된 주소인지 후보 경로를 생성할 수 있다.
추적부(150)는 사이트 경로와 명칭에 대한 유사도를 비교 시 Euclidean Distance, Cosine Distance, Jaccard Distance, Correlation Distance 및 Levenshtein distance 등 다양한 알고리즘을 이용할 수 있다.
점검부(130)는 후보 경로에 접속하여 접속 유무를 확인하고, 제1 분석부(141)는 접속이 가능하면 딥러닝 알고리즘을 사용하여 UI 패턴을 분석하고, 제1 분류부(142)는 유사도 수치가 기준값 이상이면 소멸 사이트에 의해 변경된 사이트로 분류한다.
도 9는 도 8의 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템의 동작 방법을 상세하게 도시한 흐름도이다.
추적부(150)는 소멸 사이트의 경로, 명칭 및 UI 패턴 중 하나 이상을 포함하는 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적한다.
추적부(150)는 식별 패턴과 관련된 블로그, 카페, SNS 및 게시판을 포함하는 웹로그의 UI 소스에서 경로 소스를 추출하여 하나 이상의 후보 경로를 생성한다.
점검부(130)는 후보 경로의 접속 가능 여부를 점검한다. 점검부(130)는 모든 후보 경로의 접속 가능 여부를 점검할 수 있다. 제1 분류부(142)는 모든 후보 경로의 접속이 가능하지 않으면 후보 경로 사이트를 추적 실패 사이트로 분류한다.
분석 분류부(140)는 접속이 가능하면 소멸 사이트의 UI 패턴과 후보 경로로 접속된 후보 경로 사이트의 UI 패턴 간의 유사성을 분석한다.
분석 분류부(140)는 소멸 사이트의 UI 패턴과 후보 경로 사이트의 UI 패턴이 유사하면 후보 경로 사이트를 소멸 사이트에 의해 변경된 불법 사이트로 분류하고, 유사하지 않으면 OSP 사이트의 UI 패턴과 후보 경로 사이트의 UI 패턴 간의 유사성을 분석하여 후보 경로 사이트를 분류한다. 제어부(400)는 분류된 후보 경로 사이트에 대한 정보가 업데이트되도록 제어하면서 OSP 사이트에 대한 정보가 업데이트되도록 제어한다.
즉, 소멸 사이트와 유사하지 않은 후보 경로 사이트는 다른 OSP 사이트와 유사성이 있는 사이트일 가능성이 높으므로, OSP 사이트의 UI 패턴과 후보 경로 사이트의 UI 패턴 간의 유사성 분석이 필요하다.
후보 경로 사이트에 대한 UI 패턴 분석과 업데이트하는 방법은 도 6을 참조하기로 한다.
100: OSP 사이트 생애주기 감지 시스템 110: 저장부
120: 수집부 130: 점검부
140: 분석 분류부 150: 추적부
160: 제어부

Claims (8)

  1. 적법 사이트, 불법 사이트 및 소멸 사이트를 포함하는 OSP 사이트에 대한 생애주기 정보, UI 패턴 정보 및 키워드 정보를 저장하는 저장부;
    상기 키워드 정보를 이용하여 신규로 생성된 후보 사이트를 수집하는 수집부;
    상기 후보 사이트의 접속 가능 여부를 점검하는 점검부;
    상기 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 유사성을 분석하여 후보 사이트를 분류하는 분석 분류부 및
    분류된 후보 사이트에 대한 정보가 업데이트되도록 제어하는 제어부를 포함하여,
    상기 OSP 사이트의 생성, 유지, 변경 또는 소멸을 감지하고 추적하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템.
  2. 제1항에 있어서,
    상기 수집부는 반복적 또는 범용적으로 사용되는 키워드 및 특정 키워드에서 대체 또는 파생되는 키워드를 포함하는 키워드 정보를 이용하여 모바일 웹 환경의 OSP 사이트와 관련된 후보 사이트를 수집하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템.
  3. 제1항에 있어서,
    상기 분석 분류부는 OSP 사이트의 UI 패턴과 후보 사이트의 UI 패턴 간의 특징들을 비교 분석하기 위한 신경망 기반의 딥러닝 기계학습을 수행하여 불법 사이트 또는 소멸 사이트의 생애주기를 감지하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템.
  4. 제1항에 있어서,
    상기 점검부는 설정된 주기로 불법 사이트의 접속 가능 여부를 점검하고,
    상기 분석 분류부는 불법 사이트의 UI 패턴에 대한 변동 여부를 판별하여 UI 패턴이 변동된 불법 사이트를 재 분류하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템.
  5. 제4항에 있어서,
    상기 분석 분류부는 미 접속된 불법 사이트를 소멸 사이트로 재 분류하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템.
  6. 제1항에 있어서,
    상기 소멸 사이트의 경로, 명칭 및 UI 패턴 중 하나 이상을 포함하는 식별 패턴을 분석하여 소멸 사이트의 경로가 변경된 변경 사이트를 추적하는 추적부를 더 포함하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템.
  7. 제6항에 있어서,
    상기 추적부는 식별 패턴과 관련된 블로그, 카페, SNS 및 게시판을 포함하는 웹로그에서 경로 소스를 추출하여 후보 경로를 생성하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템.
  8. 제7항에 있어서,
    상기 점검부는 후보 경로의 접속 가능 여부를 점검하고,
    상기 분석 분류부는 소멸 사이트의 UI 패턴과 후보 경로로 접속된 사이트의 UI 패턴 간의 유사성을 분석하고, 유사도 수치가 기준값 이상이면 소멸 사이트에 의해 변경된 사이트로 분류하는 것을 특징으로 하는 기계학습을 활용한 OSP 사이트 생애주기 감지 인공지능 시스템.
KR1020160152645A 2016-11-16 2016-11-16 기계학습을 활용한 osp 사이트 생애주기 감지 인공지능 시스템 KR101908665B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160152645A KR101908665B1 (ko) 2016-11-16 2016-11-16 기계학습을 활용한 osp 사이트 생애주기 감지 인공지능 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160152645A KR101908665B1 (ko) 2016-11-16 2016-11-16 기계학습을 활용한 osp 사이트 생애주기 감지 인공지능 시스템

Publications (2)

Publication Number Publication Date
KR20180055170A true KR20180055170A (ko) 2018-05-25
KR101908665B1 KR101908665B1 (ko) 2018-10-16

Family

ID=62299423

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160152645A KR101908665B1 (ko) 2016-11-16 2016-11-16 기계학습을 활용한 osp 사이트 생애주기 감지 인공지능 시스템

Country Status (1)

Country Link
KR (1) KR101908665B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102199587B1 (ko) * 2019-09-05 2021-01-07 한국과학기술원 암호화폐 거래 분석 방법 및 장치
WO2021045331A1 (ko) * 2019-09-05 2021-03-11 (주)에스투더블유랩 암호화폐 거래 분석 방법 및 장치
KR20220052168A (ko) * 2020-10-20 2022-04-27 아주대학교산학협력단 웹사이트의 생애주기 단계 탐지 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073607A (ja) * 2000-08-25 2002-03-12 Nippon Telegr & Teleph Corp <Ntt> ウェブページ間の類似度自動推定方法、装置及びそのプログラムを記録した媒体
KR20020081774A (ko) * 2001-04-19 2002-10-30 주식회사 플랜티넷 유해사이트 데이터베이스 현행화 방법 및 장치
KR20030046768A (ko) * 2001-12-06 2003-06-18 (주)와이솔루션즈 인공지능 전문가시스템의 추론 이론을 바탕으로 한 웹사이트 관리 시스템 및 웹 사이트 관리 방법
KR20040076712A (ko) 2003-02-26 2004-09-03 김시우 디지털 저작권 불법 유통사이트 검색시스템을 이용한저작권 관리방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073607A (ja) * 2000-08-25 2002-03-12 Nippon Telegr & Teleph Corp <Ntt> ウェブページ間の類似度自動推定方法、装置及びそのプログラムを記録した媒体
KR20020081774A (ko) * 2001-04-19 2002-10-30 주식회사 플랜티넷 유해사이트 데이터베이스 현행화 방법 및 장치
KR20030046768A (ko) * 2001-12-06 2003-06-18 (주)와이솔루션즈 인공지능 전문가시스템의 추론 이론을 바탕으로 한 웹사이트 관리 시스템 및 웹 사이트 관리 방법
KR20040076712A (ko) 2003-02-26 2004-09-03 김시우 디지털 저작권 불법 유통사이트 검색시스템을 이용한저작권 관리방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102199587B1 (ko) * 2019-09-05 2021-01-07 한국과학기술원 암호화폐 거래 분석 방법 및 장치
WO2021045331A1 (ko) * 2019-09-05 2021-03-11 (주)에스투더블유랩 암호화폐 거래 분석 방법 및 장치
US12093961B2 (en) 2019-09-05 2024-09-17 S2W Inc. Cryptocurrency transaction analysis method and apparatus
KR20220052168A (ko) * 2020-10-20 2022-04-27 아주대학교산학협력단 웹사이트의 생애주기 단계 탐지 방법 및 장치

Also Published As

Publication number Publication date
KR101908665B1 (ko) 2018-10-16

Similar Documents

Publication Publication Date Title
Song et al. Temporally evolving graph neural network for fake news detection
Boididou et al. Detection and visualization of misleading content on Twitter
Abdelhamid Multi-label rules for phishing classification
Boididou et al. Learning to detect misleading content on twitter
KR20210092979A (ko) 가짜 뉴스 인공지능 판별 시스템 및 그 방법
KR101908665B1 (ko) 기계학습을 활용한 osp 사이트 생애주기 감지 인공지능 시스템
US11301522B1 (en) Method and apparatus for collecting information regarding dark web
Alterkavı et al. Novel authorship verification model for social media accounts compromised by a human
Mangal et al. A Framework for Detection and Validation of Fake News via authorize source matching
Chua et al. Problem Understanding of Fake News Detection from a Data Mining Perspective
CN117763510A (zh) 网页识别方法、装置、设备、介质及程序产品
Yousuf et al. PROVENANCE: An intermediary-free solution for digital content verification
Martin A Wikipedia literature review
Xiao et al. The challenges of machine learning for trust and safety: A case study on misinformation detection
Kotenko et al. The intelligent system for detection and counteraction of malicious and inappropriate information on the Internet
Spahiu et al. Topic profiling benchmarks in the linked open data cloud: Issues and lessons learned
KR20240013640A (ko) 유해 url 탐지 방법
Qureshi et al. Detecting social polarization and radicalization
Govind et al. CALVADOS: a tool for the semantic analysis and digestion of web contents
CN112199573B (zh) 一种非法交易主动探测方法及系统
KR102180329B1 (ko) 가짜 뉴스 판단 시스템
Chaurasia et al. Sentiment Analysis of Twitter Data by Natural Language Processing and Machine Learning
Shetty et al. Video Description Based Youtube Comment Classification
Rahimi et al. A multi-view rumor detection framework using dynamic propagation structure, interaction network, and content
Alsmadi et al. URL links malicious classification towards autonomous threat detection systems

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant