KR102688150B1 - 동영상이 있는 불법 성인사이트의 고속 탐색 방법 - Google Patents

동영상이 있는 불법 성인사이트의 고속 탐색 방법 Download PDF

Info

Publication number
KR102688150B1
KR102688150B1 KR1020210169229A KR20210169229A KR102688150B1 KR 102688150 B1 KR102688150 B1 KR 102688150B1 KR 1020210169229 A KR1020210169229 A KR 1020210169229A KR 20210169229 A KR20210169229 A KR 20210169229A KR 102688150 B1 KR102688150 B1 KR 102688150B1
Authority
KR
South Korea
Prior art keywords
adult
seed domain
illegal
database
domain
Prior art date
Application number
KR1020210169229A
Other languages
English (en)
Other versions
KR20230081300A (ko
Inventor
이정영
문광
장재훈
Original Assignee
(주)에이펙스 이에스씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)에이펙스 이에스씨 filed Critical (주)에이펙스 이에스씨
Priority to KR1020210169229A priority Critical patent/KR102688150B1/ko
Publication of KR20230081300A publication Critical patent/KR20230081300A/ko
Application granted granted Critical
Publication of KR102688150B1 publication Critical patent/KR102688150B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Multimedia (AREA)
  • Development Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

개시되는 발명은 동영상이 있는 불법 성인사이트의 고속 탐색 방법에 관한 것으로서, 데이터베이스에서 검색된 시드 도메인에서 새로운 시드 도메인을 추출하는 제1 단계;와, 상기 새로운 시드 도메인이 성인사이트인지 구분하는 제2 단계;와, 성인사이트로 구분된 상기 새로운 시드 도메인을 상기 데이터베이스에 저장하는 제3 단계;와, 상기 데이터베이스에 저장된 시드 도메인의 웹사이트 상에서의 전체 하위 링크를 탐색하여 링크 데이터를 수집하는 제4 단계;와, 상기 제4 단계에서 수집된 링크 데이터에 접속하여 동영상 콘텐츠가 있는지 검출하는 제5 단계; 및 상기 동영상 콘텐츠가 검출된 하위 URL에서 새로운 시드 도메인을 추출하여 상기 데이터베이스에 저장하는 제6 단계를 포함한다.

Description

동영상이 있는 불법 성인사이트의 고속 탐색 방법{METHOD FOR HIGH SPEED SEARCHING OF ILLEGAL ADULTS WEBSITE INCLUDING VIDEO CONTENTS}
본 발명은 동영상이 포함된 불법 성인사이트를 고속으로 탐색할 수 있는 방법에 관한 발명이다.
인터넷의 발달은 정보의 공개와 전파 속도를 비약적으로 끌어올렸다. 따라서, 인터넷에만 접속할 수 있다면 세계 어디서든 동일한 정보를 동일한 품질로 제공받을 수 있음으로써 정보의 비대칭성이 완화되고, 사상과 표현의 자유로운 소통에 의해 사회적으로는 민주주의의 발달에 기여하기도 하였다.
그러나, 다종다양한 정보의 교류에는 필연적으로 부정적인 측면이 함께 하게 된다. 예를 들어, 정보의 바다에는 저작권을 침해하는 콘텐츠가 나날이 생산, 소비되고 있고, 다크웹과 같이 범죄의 도구로 인터넷이 이용되기도 한다.
이와 같이, 인터넷에는 불법적인 사이트가 다수 존재하는데, 불법의 기준은 각 국가의 법제에 따라 달라지기 마련으로서, 우리나라에서는 불법 사이트의 대표로서 불법 성인사이트가 손꼽힌다. 불법 성인사이트는 기본적으로 성인만이 이용할 수 있는 나이 제한이 있는 성인사이트로서, 법으로 금지되는 성인물 동영상, 퇴폐적인 유흥 커뮤니티, 성매매, 사설 도박 등을 공개, 알선, 매매, 운영하는 등의 불법행위가 벌어진다.
사회적으로 불법 성인사이트의 규제에 대해 강한 요구가 있지만, 매일매일 웹사이트의 숫자가 증가일로에 있는 현실에서 불법 성인사이트를 탐색하는데에는 수 많은 자원이 투자되어야 하기에 현실적으로 한계가 있다.
한국등록특허 제10-1485128호 (2015.01.15 등록)
본 발명은 불법 성인사이트, 특히 동영상이 포함된 불법 성인사이트를 고속으로 탐색할 수 있는 방법을 제공하는데 그 목적이 있다.
본 발명은 동영상이 있는 불법 성인사이트의 고속 탐색 방법에 관한 것으로서, 데이터베이스에서 검색된 시드 도메인에서 새로운 시드 도메인을 추출하는 제1 단계;와, 상기 새로운 시드 도메인이 성인사이트인지 구분하는 제2 단계;와, 성인사이트로 구분된 상기 새로운 시드 도메인을 상기 데이터베이스에 저장하는 제3 단계;와, 상기 데이터베이스에 저장된 시드 도메인의 웹사이트 상에서의 전체 하위 링크를 탐색하여 링크 데이터를 수집하는 제4 단계;와, 상기 제4 단계에서 수집된 링크 데이터에 접속하여 동영상 콘텐츠가 있는지 검출하는 제5 단계; 및 상기 동영상 콘텐츠가 검출된 하위 URL에서 새로운 시드 도메인을 추출하여 상기 데이터베이스에 저장하는 제6 단계를 포함한다.
상기 제1 단계는, 상기 시드 도메인을 브라우저로 불러내서 링크 데이터를 수집하고, 수집된 링크 데이터의 URL에서 상기 새로운 시드 도메인을 추출한다.
실시형태에 따라서는, 상기 제1 단계는, 상기 링크 데이터의 수집과 함께 스크린샷을 추출하고, 해당 URL과 함께 상기 데이터베이스에 저장할 수 있다.
그리고, 상기 제2 단계는, 크롤링을 지원하는 브라우저에서 상기 새로운 시드 도메인을 불러내서 HTML 정보를 수집하고, 상기 HTML 정보의 텍스트에 대해 형태소 분석을 하여 명사를 추출하며, 상기 추출된 명사에 대해 카테고리 분류를 수행하여 성인(Adult) 카테고리로 분류된 HTML 정보를 개시한 새로운 시드 도메인을 성인사이트인 것으로 구분할 수 있다.
여기서, 상기 제2 단계는, 상기 추출된 명사에 대해 키워드 분석과 이미지 분석을 병행하여 카테고리 분류를 수행할 수 있다.
그리고, 상기 제3 단계는, 성인사이트로 구분된 상기 새로운 시드 도메인과 상기 데이터베이스에 저장되어 있는 시드 도메인과의 중복 여부를 검사하고, 중복되지 않은 새로운 시드 도메인을 성인사이트로 저장할 수 있다.
한편, 상기 제4 단계는, 시드 도메인의 웹사이트 상에서의 전체 하위 링크를 패턴화하여 동일 패턴의 하위 링크에 대해서는 최초 한 번만 탐색을 하고, 마지막 패턴까지 하위 링크를 탐색한 후 해당 시드 도메인에 대한 탐색을 종료할 수 있다.
그리고, 상기 제5 단계는, 상기 제4 단계에서 수집된 패턴화된 링크 데이터를 크롤링을 지원하는 브라우저에서 불러내고, 상기 브라우저에서 Script 태그, Video 태그 및 iframe 태그를 확인하여 동영상 콘텐츠를 검출할 수 있다.
그리고, 상기 제5 단계는, 동영상 콘텐츠가 검출되면, 해당 동영상 콘텐츠의 정보 및 해당 URL 정보를 저장할 수 있다.
상기와 같은 구성을 포함하는 본 발명의 동영상이 있는 불법 성인사이트의 고속 탐색 방법에 의하면, 데이터베이스에 저장된 기존의 시드 도메인으로부터 더욱 확장된 새로운 시드 도메인을 추출할 수 있다.
그리고, 본 발명은 키워드의 카테고리 분류, 방대한 개수의 하위 URL에 대한 포맷팅, 포맷팅된 하위 URL에 대한 동영상 컨텐츠 검색 등의 일련의 최적화된 절차를 통해 고속으로 불법 성인사이트를 탐색하는 것을 가능케 한다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 상세한 설명으로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명에 따른 동영상이 있는 불법 성인사이트의 고속 탐색 방법의 전체적인 흐름을 도시한 도면.
도 2는 도 1에 나타난 제2 단계의 상세 절차를 도시한 도면.
도 3은 도 1에 나타난 제4 단계의 상세 절차를 도시한 도면.
도 4는 도 1에 나타난 제5 단계의 상세 절차를 도시한 도면.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들을 이하에서 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 발명에서, "포함한다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 발명에서, 층, 막, 영역, 판 등의 부분이 다른 부분 "상에" 있다고 기재된 경우, 이는 다른 부분 "바로 위에" 있는 경우뿐만 아니라 그 중간에 또 다른 부분이 있는 경우도 포함한다. 반대로 층, 막, 영역, 판 등의 부분이 다른 부분 "하에" 있다고 기재된 경우, 이는 다른 부분 "바로 아래에" 있는 경우뿐만 아니라 그 중간에 또 다른 부분이 있는 경우도 포함한다. 또한, 본 출원에서 "상에" 배치된다고 하는 것은 상부뿐만 아니라 하부에 배치되는 경우도 포함하는 것일 수 있다.
도 1은 본 발명에 따른 동영상이 있는 불법 성인사이트의 고속 탐색 방법의 전체적인 흐름을 도시한 도면이다.
도 1을 참조하면, 본 발명은 크게 나누어 6 단계의 과정을 통해 동영상이 있는 불법 성인사이트를 빠르게 탐색하고 그 정보를 데이터베이스에 저장하여 불법 성인사이트 정보를 효율적으로 업데이트할 수 있다.
첨부된 도면을 참조하여, 본 발명의 각 단계를 상세히 설명하면 다음과 같다.
제1 단계: 새로운 시드 도메인을 추출하는 단계
제1 단계는 새로운 시드 도메인을 추출하는 단계이다. 구체적으로, 새로운 시드 도메인은 기존에 이미 데이터베이스에 저장되어 있는 시드 도메인을 이용하여 이로부터 확장된 새로운 시드 도메인을 추출하는 단계에 해당한다.
시드 도메인은, 예를 들어 수사기관 등의 공공기관에서 제공하는 불법 성인사이트의 공개된 정보일 수 있다. 이러한 공공기관에서 데이터베이스에 저장하고 있는 불법 성인사이트의 도메인 정보는 검증된 시드 도메인으로서 유용하게 사용할 수 있다.
제1 단계에서는, 데이터베이스에서 시드 도메인을 검색하여 브라우저로 불러내 해당 도메인의 웹사이트에서 링크 데이터를 수집하고, 수집된 링크 데이터의 URL에서 새로운 시드 도메인을 추출한다. 즉, 이미 불법 성인사이트로 인증된 시드 도메인에 포함된 링크 데이터는 이 또한 불법 성인사이트로 연결할 가능성이 높은 것이므로, 이렇게 시드 도메인에서 수집된 링크 데이터의 URL 정보에서 새로운 시드 도메인을 추출하는 것은 불법 성인사이트의 고속 탐색 방법으로서 의미를 갖는다.
이러한 새로운 시드 도메인의 추출은 데이터베이스에 저장된 기존의 시드 도메인 전체에 대해 순차적으로 반복 수행된다.
그리고, 실시형태에 따라서, 본 발명의 제1 단계는 링크 데이터의 수집과 함께 스크린샷을 추출하고, 이를 해당 URL과 함께 상기 데이터베이스에 저장할 수 있다. 스크린샷은 새로운 시드 도메인이 불법 성인사이트인지를 바로 판정할 수 있는 유용한 정보이며, 또한 수사기관은 추출된 URL 및 스크린샷을 수사 참고자료로서 활용할 수 있다.
여기서, 본 발명의 각 단계는 메모리가 아닌 데이터베이스에 대해 읽고 쓰는 방식으로 데이터를 이동시키고 있다. 이는 메모리는 단계별 데이터의 이동속도와 입출력 로직이 빠르다는 장점이 있지만, 본 발명의 구동 중에 문제가 발생하면 데이터 복구가 불가능하고 외부 관계인이 데이터를 확인하는 것이 힘들다는 단점이 따른다. 따라서, 본 발명은 메모리 방식의 단점이 없이, 문제 발생시 복구가 가능하고 데이터베이스를 통한 데이터의 확인이 용이한 데이터베이스의 장점이 더 중요하기에 데이터베이스 방식을 채택하고 있다.
제2 단계: 새로운 시드 도메인이 성인사이트인지 구분하는 단계
제1 단계를 통해 새로운 시드 도메인이 추출되었지만, 아직까지 불법 성인사이트인지는 확실히 구별되어 있지 않은 상태이다. 이는 불법 성인사이트로 인증된 시드 도메인에 포함된 링크 데이터는 불법 성인사이트에 대한 링크일 가능성이 높을 뿐이지 아직 확정할 수는 없기 때문이다.
제2 단계는 전 단계에서 추출된 새로운 시드 도메인이 성인사이트인지를 구분 내지 판정하는 단계이다.
제2 단계에서는, 크롤링을 지원하는 브라우저에서 새로운 시드 도메인을 불러내서 HTML 정보를 수집한다. 크롤링은 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 빠르게 포함시키는 기술로서, 크롤링을 지원하는 브라우저로는 오픈 소스인 개발자 도구용 chromedp(Chrome DevTools Protocol)를 예로 들 수 있다.
그리고, 새로운 시드 도메인에서 HTML 정보가 수집되면, HTML 정보의 텍스트에 대해 형태소 분석을 하여 명사를 키워드로서 추출한다. 문장에 대한 형태소 분석 역시 오픈 소스, 예를 들면 엘라스틱서치(Elasticsearch) 사의 nori_tokenizer, tokenizer를 형태소 분석에 이용할 수 있다. 형태소 분석을 통해 추출된 명사는 문장 안에서 주어, 목적어 등으로 사용되기에 문장의 핵심내용을 파악하는데 유용한 키워드로 취급할 수 있다.
다음으로, HTML 정보의 텍스트에서 추출된 명사에 대해 카테고리 분석을 수행한다. 키워드의 카테고리 분류도 현재 공개되어 있는 GCP(Google Cloud Platform) 등의 플랫폼을 활용할 수 있으며, 이미 학습된 플랫폼의 인공지능 엔진은 입력된 명사를 자체적으로 수립해 놓은 카테고리별로 분류할 수 있다. 특히, 플랫폼의 카테고리에는 성인용으로 분류되는 성인(Adult) 카테고리를 포함하고 있다.
실시형태에 따라서는, 카테고리로 분류되는 명사에 대해서 성인 키워드인지의 확실성 내지 연관성을 수치로서 부여할 수도 있다. 구체적인 예를 든다면, adult_confidence라는 태그를 부여하고, 해당 태그에 0∼1 사이의 값을 성인 키워드의 유사성에 따라 부여할 수 있다. adult_confidence 태그의 값이 0인 것은 비성인 키워드이기 때문에 성인 카테고리로 분류되지 않으며, 1에 가까운 값일수록 성인 키워드임이 확실해진다.
이러한 절차에 따라, 성인 카테고리로 분류된 명사를 포함하는 새로운 시드 도메인은 불법 성인사이트로 구분될 수 있으므로, 이러한 정보는 데이터베이스에 저장된다. 데이터베이스에 저장된 정보로는 새로운 시드 도메인의 주소, 키워드, adult_confidence 태그의 값 등을 포함하게 된다.
또한, 제2 단계에서는, HTML 정보의 텍스트에서 추출된 명사에 대한 키워드 분석과 함께 이미지 분석을 병행하여 카테고리 분류를 수행할 수도 있다. 키워드 분석이 사전적 의미를 기준으로 한다면, 이미지 분석은 해당 키워드와 연관된 이미지를 보조적인 기준으로 삼는 것이다. 이는 키워드의 사전적 의미 외에, 분류시에 사회적으로 은어나 비속어로도 사용되는 키워드의 연관 이미지를 함께 분석함으로써 성인 카테고리의 분류 정확성을 더욱 향상시키기 위한 것이다.
제3 단계: 성인사이트로 구분된 새로운 시드 도메인을 데이터베이스에 저장하는 단계
제3 단계는, 시드 도메인에서부터 확장되어 추출된 새로운 시드 도메인을 데이터베이스에 저장함으로써 시드 도메인 정보를 갱신하는 단계이다.
전술한 바와 같이, 데이터베이스에는 새로운 시드 도메인의 주소, 키워드, adult_confidence 태그의 값 등이 함께 저장될 수 있다.
여기서, 제3 단계는, 성인사이트로 구분된 새로운 시드 도메인과 데이터베이스에 기저장되어 있는 시드 도메인과의 중복 여부를 검사하고, 중복되지 않은 새로운 시드 도메인을 성인사이트로 추가하는 방식으로 저장할 수 있다.
특히, 본 발명은 빅데이터의 병렬처리를 가능하게 하고 설계자의 의도대로 원활히 작동할 수 있도록, 각 단계별로 그 역할을 하나로 제한하고 있다. 즉, 제1 단계는 데이터베이스에 대한 읽기 동작을 수행하고, 제3 단계는 쓰기 동작을 수행하도록 분리되어 있다.
이러한 이유로, 제1 단계에서 새로운 시드 도메인을 추출했을 때 바로 중복여부를 검사하지 않고 있으며, 제2 단계에서 불법 성인사이트로 구분하는 절차를 끝낸 다음에 제3 단계에서 중복여부를 검사하고 중복되지 않은 새로운 시드 도메인을 저장하는 방식으로 본 발명을 구성하였다.
제4 단계: 성인사이트로 저장된 시드 도메인에 대해 전체 하위 링크를 탐색하는 단계
제4 단계는, 데이터베이스에 저장된 시드 도메인의 웹사이트 상에서의 전체 하위 링크를 탐색하여 링크 데이터를 수집하는 단계이다.
제3 단계까지는 불법 성인사이트에 대한 시드 도메인의 정보를 확장하여 데이터베이스에 저장하는 단계이며, 제4 단계에서는 저장된 각 시드 도메인의 웹사이트 하위로 무수히 존재하는 하위 링크 전체를 탐색하여 링크 데이터를 수집하는 단계이다. 즉, 제4 단계는 시드 도메인의 하위 링크까지 확장하여 불법 성인사이트를 탐색하는 것이며, 우선적으로 불법 성인사이트인지 여부를 확인한 후에 시드 도메인의 하위 링크로 탐색범위를 확장함으로써 시간, 인력의 불필요한 자원낭비를 방지하게 된다.
여기서, 시드 도메인 하나마다 수많은 하위 URL이 존재하므로, 이를 고려한 효율적인 탐색방법이 필요하다. 본 발명에서는, 시드 도메인의 웹사이트 상에서의 전체 하위 링크를 패턴화하는 방안을 마련하고 있다.
하위 링크를 패턴화한다는 것은, 유사한 구조를 가진 링크를 하나의 그룹으로 묶는 것을 의미한다. 예를 들어, /doc.html?num=1209, /doc.html?num=1210 등과 같은 패턴을 가진 URL 주소들은 모두 /doc.html?num={d}로 묶을 수 있으며, 이러한 작업을 전체 하위 링크에 대해 수행하면 이것을 하위 링크를 포맷팅했다고 표현할 수 있다.
이렇게 하위 링크의 포맷팅을 통해 패턴화된 하위 링크 주소는 그룹의 개수로 보면 크게 감소하게 되고, 유사한 패턴의 하위 링크 주소는 유사한 정보를 개시하고 있다고 논리적으로 가정할 수 있으므로, 동일 패턴의 하위 링크에 대해서는 최초 한 번만 탐색을 하고 동일 패턴의 주소에 대해서는 건너뜀으로써 탐색 속도를 향상시킬 수 있다.
마지막 패턴까지 하위 링크를 탐색한 후 더 이상 포맷팅된 하위 링크 주소가 없다면, 여기서 해당 시드 도메인에 대한 탐색을 종료할 수 있다.
제5 단계: 제4 단계에서 수집된 링크 데이터에 접속하여 동영상 콘텐츠가 있는지 검출하는 단계
제5 단계는 전 단계에서 수집된 링크 데이터에 접속하여 동영상 콘텐츠가 있는지 검출하는 단계이다.
제5 단계는, 전술한 제4 단계에서 수집된 패턴화된 링크 데이터를 크롤링을 지원하는 브라우저, 예를 들어 전술한 개발자 도구용 chromedp(Chrome DevTools Protocol)를 이용하여 불러내고, 상기 브라우저에서 Script 태그, Video 태그 및 iframe 태그를 순차적으로 확인하여 동영상 콘텐츠를 검출할 수 있다.
브라우저를 이용하여 링크 데이터에 접속할 때에도, 제4 단계에서 설명한 하위 링크의 포맷팅을 수행하여 동일 패턴의 하위 링크에 대해서는 최초 한 번만 탐색을 수행할 수 있다.
그리고, 동영상 콘텐츠가 검출되면, 해당 동영상 콘텐츠의 정보 및 해당 URL 정보를 저장할 수 있다. 즉, 검출된 동영상 컨텐츠에 접속하기 직전의 링크를 parent_url과 같은 명칭이 부여된 태그에 접속 링크의 출처로서 기록하며, 또한 해당 URL에서 비디오 컨텐츠가 발견됐음을 표시하는 태그(예컨대, is_video)에 참(true) 플래그를 기록할 수 있다.
제6 단계: 동영상 콘텐츠가 검출된 하위 URL에서 새로운 시드 도메인을 추출하여 데이터베이스에 저장하는 단계
제6 단계는 동영상 콘텐츠가 검출된 하위 URL에서 새로운 시드 도메인을 추출하여 데이터베이스에 저장하는 단계이다.
동영상 콘텐츠의 링크를 제공하는 하위 URL에 대해, 전술한 제1 단계, 제2 단계, 제4 단계 및 제5 단계의 각 절차, 즉 새로운 시드 도메인을 추출하고, 불법 성인사이트인지 구분하며, 하위 링크를 분석하여 패턴화하고, 동영상 컨텐츠를 검출하는 일련의 절차를 수행하여 새로운 시드 도메인을 추출할 수 있다.
제6 단계를 거침으로써 데이터베이스 상의 시드 도메인의 하위 URL을 분석하여 더욱 확장된 새로운 시드 도메인을 추출할 수 있으며, 추출된 새로운 시드 도메인은 데이터베이스에 저장된다.
이상, 도면과 실시예 등을 통해 본 발명을 보다 상세히 설명하였다. 그러나, 본 명세서에 기재된 도면 또는 실시예 등에 기재된 구성은 본 발명의 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
한편, 본 명세서에서 기술한 방법은 하드웨어 또는 특정 애플리케이션(Application)에 적합한 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 여기서 하드웨어는 개인용 컴퓨터, 이동통신 단말기 등과 같은 범용 컴퓨터 디바이스와 기업형 특정 컴퓨터 디바이스를 모두 포함하며, 컴퓨터 디바이스는 메모리, 마이크로프로세서, 마이크로콘트롤러, 디지털 신호 프로세서, 애플리케이션 집적 회로, 프로그래머블 게이트 어레이, 프로그래머블 어레이 조직 등을 포함하는 디바이스 또는 이들의 조합으로 구현될 수 있다.
또한, 위에서 기술한 컴퓨터 소프트웨어, 명령어, 코드 등은 판독 가능한 디바이스에 의해 저장 또는 접근될 수 있으며, 여기서 판독 가능한 디바이스는 일정 시간 간격 동안 컴퓨팅하는데 사용되는 디지털 정보를 구비하는 컴퓨터 컴포넌트, RAM 또는 ROM과 같은 반도체 스토리지, 광디스크와 같은 영구적인 스토리지, 하드 디스크, 테이프, 드럼 등과 같은 대용량 스토리지, CD 또는 DVD와 같은 광 스토리지, 플래시 메모리, 플로피 디스크, 자기 테이프, 페이퍼 테이프, 독립형 RAM 디스크, 컴퓨터로부터 착탈 가능한 대용량 스토리지와 동적 메모리, 정적 메모리, 가변 스토리지, 클라우드와 같은 네트워크 접속형 스토리지 등과 같은 메모리를 포함할 수 있다. 한편, 여기서 명령어와 코드 등은 SQL, dBase 등과 같은 정보 지향 언어, C, Objective C, C++, 어셈블리 등과 같은 시스템 언어, Java, NET 등과 같은 아키텍처 언어, PHP, Ruby, Perl, Python 등과 같은 애플리케이션 언어 등과 같은 언어들을 모두 포함하지만, 이에 한정되지는 않고 제안된 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려진 언어들을 모두 포함할 수 있다.
또한, 본 명세서에서 기술한 "컴퓨터에서 판독 가능한 매체"는 프로그램 실행을 위해 명령어를 프로세서로 제공하는데 기여하는 모든 매체를 포함한다. 구체적으로 정보 스토리지 디바이스, 광디스크, 자기 디스크 등과 같은 비휘발성 매체, 동적 메모리 등과 같은 휘발성 매체와 정보를 전송하는 동축 케이블, 구리 와이어, 광섬유 등과 같은 전송 매체를 포함하지만 이에 한정되지는 않는다.

Claims (9)

  1. 데이터베이스에서 검색된 시드 도메인에서 새로운 시드 도메인을 추출하는 제1 단계;
    상기 새로운 시드 도메인이 성인사이트인지 구분하는 제2 단계;
    성인사이트로 구분된 상기 새로운 시드 도메인을 상기 데이터베이스에 저장하는 제3 단계;
    상기 데이터베이스에 저장된 시드 도메인의 웹사이트 상에서의 전체 하위 링크를 탐색하여 링크 데이터를 수집하는 제4 단계;
    상기 제4 단계에서 수집된 링크 데이터에 접속하여 동영상 콘텐츠가 있는지 검출하는 제5 단계; 및
    상기 동영상 콘텐츠가 검출된 하위 URL에서 새로운 시드 도메인을 추출하여 상기 데이터베이스에 저장하는 제6 단계;
    를 포함하고,
    상기 제4 단계는,
    시드 도메인의 웹사이트 상에서의 전체 하위 링크를 패턴화하여 동일 패턴의 하위 링크에 대해서는 최초 한 번만 탐색하는 것을 특징으로 하는, 동영상이 있는 불법 성인사이트의 고속 탐색 방법.
  2. 제1항에 있어서,
    상기 제1 단계는,
    상기 시드 도메인을 브라우저로 불러내서 링크 데이터를 수집하고, 수집된 링크 데이터의 URL에서 상기 새로운 시드 도메인을 추출하는 것을 특징으로 하는 불법 성인사이트의 고속 탐색 방법.
  3. 제2항에 있어서,
    상기 제1 단계는,
    상기 링크 데이터의 수집과 함께 스크린샷을 추출하고, 해당 URL과 함께 상기 데이터베이스에 저장하는 것을 특징으로 하는 불법 성인사이트의 고속 탐색 방법.
  4. 제2항에 있어서,
    상기 제2 단계는,
    크롤링을 지원하는 브라우저에서 상기 새로운 시드 도메인을 불러내서 HTML 정보를 수집하고,
    상기 HTML 정보의 텍스트에 대해 형태소 분석을 하여 명사를 추출하며,
    상기 추출된 명사에 대해 카테고리 분류를 수행하여 성인(Adult) 카테고리로 분류된 HTML 정보를 개시한 새로운 시드 도메인을 성인사이트인 것으로 구분하는 것을 특징으로 하는 불법 성인사이트의 고속 탐색 방법.
  5. 제4항에 있어서,
    상기 제2 단계는,
    상기 추출된 명사에 대해 키워드 분석과 이미지 분석을 병행하여 카테고리 분류를 수행하는 것을 특징으로 하는 불법 성인사이트의 고속 탐색 방법.
  6. 제4항에 있어서,
    상기 제3 단계는,
    성인사이트로 구분된 상기 새로운 시드 도메인과 상기 데이터베이스에 저장되어 있는 시드 도메인과의 중복 여부를 검사하고, 중복되지 않은 새로운 시드 도메인을 성인사이트로 저장하는 것을 특징으로 하는 불법 성인사이트의 고속 탐색 방법.
  7. 삭제
  8. 제1항에 있어서,
    상기 제5 단계는,
    상기 제4 단계에서 수집된 패턴화된 링크 데이터를 크롤링을 지원하는 브라우저에서 불러내고,
    상기 브라우저에서 Script 태그, Video 태그 및 iframe 태그를 확인하여 동영상 콘텐츠를 검출하는 것을 특징으로 하는 불법 성인사이트의 고속 탐색 방법.
  9. 제8항에 있어서,
    상기 제5 단계는,
    동영상 콘텐츠가 검출되면, 해당 동영상 콘텐츠의 정보 및 해당 URL 정보를 저장하는 것을 특징으로 하는 불법 성인사이트의 고속 탐색 방법.

KR1020210169229A 2021-11-30 2021-11-30 동영상이 있는 불법 성인사이트의 고속 탐색 방법 KR102688150B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210169229A KR102688150B1 (ko) 2021-11-30 2021-11-30 동영상이 있는 불법 성인사이트의 고속 탐색 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210169229A KR102688150B1 (ko) 2021-11-30 2021-11-30 동영상이 있는 불법 성인사이트의 고속 탐색 방법

Publications (2)

Publication Number Publication Date
KR20230081300A KR20230081300A (ko) 2023-06-07
KR102688150B1 true KR102688150B1 (ko) 2024-07-24

Family

ID=86761632

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210169229A KR102688150B1 (ko) 2021-11-30 2021-11-30 동영상이 있는 불법 성인사이트의 고속 탐색 방법

Country Status (1)

Country Link
KR (1) KR102688150B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102669024B1 (ko) * 2023-11-29 2024-05-24 주식회사 비욘드테크 Ott 콘텐츠 불법 유통 사이트의 증거 수집을 위한 적응형 정보 수집 장치 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100723837B1 (ko) * 2005-07-02 2007-05-31 한국전자통신연구원 유해 사이트 수집 장치 및 그 방법
KR101485128B1 (ko) 2013-09-27 2015-01-28 김병호 불법 저작물의 증거 채증 시스템 및 방법
KR102259730B1 (ko) * 2019-10-31 2021-06-02 김민석 인공지능 기반의 유해 컨텐츠 차단 장치
KR20210097408A (ko) * 2020-01-30 2021-08-09 한국전자통신연구원 유해 웹사이트 정보의 업데이트 장치 및 이에 의한 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
공개특허공보 제10-2007-0003495호 (2007.01.05.)*
공개특허공보 제10-2021-0051725호 (2021.05.10.)*
공개특허공보 제10-2021-0097408호 (2021.08.09.)*

Also Published As

Publication number Publication date
KR20230081300A (ko) 2023-06-07

Similar Documents

Publication Publication Date Title
Färber et al. Citation recommendation: approaches and datasets
Nastase et al. Decoding Wikipedia Categories for Knowledge Acquisition.
US8719308B2 (en) Method and system to process unstructured data
CN102053991B (zh) 用于多语言文档检索的方法及系统
CN112579155B (zh) 代码相似性检测方法、装置以及存储介质
US20170262429A1 (en) Collecting Training Data using Anomaly Detection
US20090248707A1 (en) Site-specific information-type detection methods and systems
Im et al. Linked tag: image annotation using semantic relationships between image tags
CN111797239A (zh) 应用程序的分类方法、装置及终端设备
CN112307303A (zh) 基于云计算的网络页面高效精准去重系统
Sivakumar Effectual web content mining using noise removal from web pages
US9984104B2 (en) Indexing content and source code of a software application
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN112000929A (zh) 一种跨平台数据分析方法、系统、设备及可读存储介质
US11182441B2 (en) Hypotheses generation using searchable unstructured data corpus
KR102688150B1 (ko) 동영상이 있는 불법 성인사이트의 고속 탐색 방법
CN112818206A (zh) 一种数据分类方法、装置、终端及存储介质
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
US20080033953A1 (en) Method to search transactional web pages
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN110347804B (zh) 一种线性时间复杂度的敏感信息检测方法
Wu et al. Design of a Computer‐Based Legal Information Retrieval System
CN105677827A (zh) 一种表单的获取方法及装置
US20240119547A1 (en) Generating legal research recommendations from an input data source

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right