KR20230170443A - Xai 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 및 이를 수행하는 시스템 - Google Patents

Xai 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 및 이를 수행하는 시스템 Download PDF

Info

Publication number
KR20230170443A
KR20230170443A KR1020220070923A KR20220070923A KR20230170443A KR 20230170443 A KR20230170443 A KR 20230170443A KR 1020220070923 A KR1020220070923 A KR 1020220070923A KR 20220070923 A KR20220070923 A KR 20220070923A KR 20230170443 A KR20230170443 A KR 20230170443A
Authority
KR
South Korea
Prior art keywords
keywords
classification model
harmful site
xai
extracted
Prior art date
Application number
KR1020220070923A
Other languages
English (en)
Inventor
조호묵
이경석
임규민
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020220070923A priority Critical patent/KR20230170443A/ko
Publication of KR20230170443A publication Critical patent/KR20230170443A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 및 이를 수행하는 시스템이 제공된다. XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법은, 컴퓨팅 장치에 의해 수행되는 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법에 있어서, 적어도 하나 이상의 유해 사이트로부터 추출된 키워드와, 적어도 하나 이상의 정상 사이트로부터 추출된 키워드를 이용하여 학습 데이터를 구축하는 단계, 상기 구축된 학습 데이터를 이용하여 유해 사이트 분류 모델을 생성하는 단계, 상기 유해 사이트 분류 모델에 대하여 XAI 기반 분석을 적용하여 추출된 키워드 별 상기 유해 사이트 분류 모델에 대한 기여도를 산출하는 단계, 및 상기 기여도에 기초하여 상기 추출된 키워드 가운데 유효 키워드를 탐색하는 단계를 포함한다.

Description

XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 및 이를 수행하는 시스템{KEYWORD SEARCH METHOD THROUGH XAI BASED UNSAFE WEBSITE CLASSIFICATION MODEL ANALYSIS AND SYSTEM FOR PERFORMING THE SAME}
본 발명은 XAI(eXplainable Artifical Intelligence) 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 및 이를 수행하는 시스템에 관한 것으로, 더욱 구체적으로는 기계학습 또는 AI 모델이 내린 결정의 원리 및 원인을 파악할 수 있는 설명 가능한 인공지능, 즉 XAI를 이용하여 유해 사이트의 분류를 수행하는 속성 가운데 기여도가 큰 키워드를 주요 키워드로 결정함으로써 유효 사이트의 분류를 효과적으로 수행할 수 있는 방법 및 이를 수행하는 시스템에 관한 것이다.
유해 사이트는 성인용 컨텐츠, 도박, 테러, 저작권 침해와 같은 불법 정보를 게재하는 웹 사이트로서 무분별한 접근을 차단하기 위해 DNS(Domain Name System) 또는 SNI(Server Name Indication)를 이용한 차단 방식이 도입되고 있다. 그러나 유해 사이트는 주소의 일부를 변형하여 등록된 도메인이나 새로운 링크를 이용하여 우회적으로 서비스를 지속하고 있어 단속 및 차단이 이루어지기 힘든 실정이다.
이와 같이 실시간으로 변화하는 유해 사이트를 추적하고 새로운 유해 사이트를 탐지하기 위해서는 유해 사이트에 특징적으로 포함되는 키워드를 탐지하는 것이 중요하다. 그런데 유해 사이트들이 새롭게 생성되고 진화하는 과정에서 주요 키워드도 변화함으로써 추적 및 탐지의 난이도를 증가하게 만든다. 따라서 유해 사이트들 사이에서 새롭게 유행하는 키워드를 탐색하여 특징적인 주요 키워드를 판단할 수 있는 시스템이 필요하다.
대한민국 등록특허 10-2269954 (공고일 2021.06.22.)
본 발명이 해결하고자 하는 기술적 과제는 유해 사이트들로부터 추출된 키워드에 대하여 설명 가능한 AI(eXplainable Artificial Intelligence, XAI) 기법을 이용하여 모델을 평가함으로써 기여도가 높은 키워드를 주요 키워드로 결정함으로써 유해 사이트 분류의 속도 및 효율을 증가시킬 수 있는 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 및 이를 수행하는 시스템을 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상술한 기술적 과제를 해결하기 위한 본 발명의 몇몇 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법은, 컴퓨팅 장치에 의해 수행되는 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법에 있어서, 적어도 하나 이상의 유해 사이트로부터 추출된 키워드와, 적어도 하나 이상의 정상 사이트로부터 추출된 키워드를 이용하여 학습 데이터를 구축하는 단계, 상기 구축된 학습 데이터를 이용하여 유해 사이트 분류 모델을 생성하는 단계, 상기 유해 사이트 분류 모델에 대하여 XAI 기반 분석을 적용하여 추출된 키워드 별 상기 유해 사이트 분류 모델에 대한 기여도를 산출하는 단계, 및 상기 기여도에 기초하여 상기 추출된 키워드 가운데 유효 키워드를 탐색하는 단계를 포함한다.
본 발명의 몇몇 실시예에서, 상기 적어도 하나 이상의 유해 사이트로부터 추출된 키워드는, 적어도 하나 이상의 유해 사이트로부터 일정 기간에 걸쳐 주기적으로 추출된 키워드의 그룹을 포함할 수 있다.
본 발명의 몇몇 실시예에서, 상기 기여도에 기초하여 상기 추출된 키워드 가운데 유효 키워드를 탐색하는 단계는, 상기 일정 기간에 걸쳐 주기적으로 추출된 키워드의 그룹에 대해 산출된 기여도가 미리 정한 수치 이상인 경우 유효 키워드로 판단하는 단계를 포함할 수 있다.
본 발명의 몇몇 실시예에서, 상기 유해 사이트 분류 모델에 대하여 XAI 기반 분석을 적용하여 추출된 키워드 별 상기 유해 사이트 분류 모델에 대한 기여도를 산출하는 단계는, 상기 유해 사이트 분류 모델에 대하여 SHAP(Shapley Additive exPlanations) 기법을 적용하여 추출된 키워드의 조합에 대한 속성의 평균 예상 기여도를 산출하는 단계를 포함할 수 있다.
본 발명의 몇몇 실시예에서, 적어도 하나 이상의 유해 사이트로부터 추출된 키워드와, 적어도 하나 이상의 정상 사이트로부터 추출된 키워드를 이용하여 학습 데이터를 구축하는 단계는, 상기 적어도 하나 이상의 유해 사이트와 정상 사이트로부터 HTML 데이터와 이미지 데이터를 수집하는 단계, 상기 HTML 데이터 가운데 태그(Tag) 내의 텍스트를 추출하고, 상기 이미지 데이터를 OCR(Optical Character Recognition) 적용하여 텍스트를 추출하는 단계, 추출된 텍스트로부터 형태소 분석을 이용한 필터링으로 키워드를 추출하여 학습 데이터를 구축하는 단계를 포함할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 발명의 몇몇 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템은, 컴퓨팅 장치에 의해 수행되는 XAI(eXplainable Artifical Intelligence) 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템에 있어서, 적어도 하나 이상의 유해 사이트 및 정상 사이트로부터 키워드를 추출하여 저장하는 키워드 추출부, 상기 적어도 하나 이상의 유해 사이트 및 정상 사이트로부터 추출된 키워드를 이용하여 학습 데이터를 구축하는 학습 데이터 구축부, 상기 구축된 학습 데이터를 이용하여 유해 사이트 분류 모델을 생성하는 모델 생성부, 상기 유해 사이트 분류 모델에 대하여 XAI 기반 분석을 적용하여 추출된 키워드 별 상기 유해 사이트 분류 모델에 대한 기여도를 산출하는 XAI 연산부, 및 상기 기여도에 기초하여 상기 추출된 키워드 가운데 유효 키워드를 탐색하는 키워드 탐색부를 포함한다.
본 발명의 몇몇 실시예에서, 상기 키워드 탐색부는 상기 일정 기간에 걸쳐 주기적으로 추출된 키워드의 그룹에 대해 산출된 기여도가 미리 정한 수치 이상인 경우 유효 키워드로 판단할 수 있다.
본 발명의 몇몇 실시예에서, 상기 XAI 연산부는, 상기 유해 사이트 분류 모델에 대하여 SHAP(Shapley Additive exPlanations) 기법을 적용하여 추출된 키워드의 조합에 대한 속성의 평균 예상 기여도를 산출할 수 있다.
본 발명의 몇몇 실시예에서, 상기 키워드 추출부는, 상기 적어도 하나 이상의 유해 사이트와 정상 사이트로부터 HTML 데이터와 이미지 데이터를 수집하는 크롤링부, 상기 HTML 데이터 가운데 태그(Tag) 내의 텍스트를 추출하고, 상기 이미지 데이터를 OCR(Optical Character Recognition) 적용하여 텍스트를 추출하는 텍스트 추출부, 및 상기 학습 데이터 추출부는, 추출된 텍스트로부터 형태소 분석을 이용한 필터링으로 키워드를 추출하는 전처리부를 포함할 수 있다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 및 이를 수행하는 시스템은 유해 사이트의 분류 모델에 대하여 XAI 기반 분석을 통해 전체 속성에 대하여 일정값 이상의 기여도를 갖는 키워드를 유효 키워드로 결정할 수 있다. 이를 통해 학습 모델을 재생성한 결과, 전체 속성에 의한 분류와 크게 떨어지지 않거나 향상된 분류 정확도를 갖는 분류 모델을 생성할 수 있으며, 또한 유효 키워드를 이용한 분류를 이용하는 경우 학습 모델 생성에 필요한 데이터의 크기가 감소하기 때문에 빠른 속도의 학습 및 모델 생성이 가능할 수 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템을 설명하기 위한 블록도이다.
도 2는 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템에 포함된 키워드 추출부의 구성을 설명하기 위한 블록도이다.
도 3은 본 발명의 실시예에 따른 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템에 포함된 학습 데이터 구축부에 의해 구축될 수 있는 학습 데이터의 예시를 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템에 의해 수행된 XAI 기반 분석을 적용하여 추출된 키워드 별 유해 사이트의 분류 모델에 대한 기여도를 설명하기 위한 도면이다.
도 5는 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템에 포함된 키워드 탐색부에 의해 결정된 유효 키워드를 기준으로 정리된 학습 데이터를 설명하기 위한 도면이다.
도 6 및 7은 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템에 의한 분석 효과를 설명하기 위한 도면이다.
도 8은 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법을 설명하기 위한 순서도이다.
도 9는 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 중 학습 데이터를 구축 단계를 설명하기 위한 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
하나의 구성 요소가 다른 구성 요소와 "연결된(connected to)" 또는 "커플링된(coupled to)" 이라고 지칭되는 것은, 다른 구성 요소와 직접 연결 또는 커플링된 경우 또는 중간에 다른 구성 요소를 개재한 경우를 모두 포함한다. 반면, 하나의 구성 요소가 다른 구성 요소와 "직접 연결된(directly connected to)" 또는 "직접 커플링된(directly coupled to)"으로 지칭되는 것은 중간에 다른 구성 요소를 개재하지 않은 것을 나타낸다. "및/또는"은 언급된 아이템들의 각각 및 하나 이상의 모든 조합을 포함한다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
비록 제1, 제2 등이 다양한 구성 요소들을 서술하기 위해서 사용되나, 이들 구성 요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성 요소를 다른 구성 요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성 요소는 본 발명의 기술적 사상 내에서 제2 구성 요소 일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 실시예에서 사용되는 '부' 또는 '모듈'이라는 용어는 소프트웨어 또는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '부' 또는 '모듈'은 어떤 역할들을 수행한다. 그러나 '부' 또는 '모듈'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부' 또는 '모듈'은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부' 또는 '모듈'은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소과, 함수들, 서브루틴들, 프로그램 코드의 세그먼트들, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함할 수 있다. 구성요소들과 '부' 또는 '모듈'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부' 또는 '모듈'들로 결합되거나 추가적인 구성요소들과 '부' 또는 '모듈'들로 더 분리될 수 있다.
도 1은 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템을 설명하기 위한 블록도이다.
시스템(100)은 본 발명의 실시예에서 설명하는 XAI 기반 유해 사이트 분류 모델분석을 통한 키워드 탐색 방법을 수행하는 컴퓨팅 장치일 수 있으며, 예를 들어 개인용 컴퓨터(PC), 서버 컴퓨터, 워크 스테이션, 랩탑 컴퓨터 등의 다양한 컴퓨터 시스템을 포함할 수 있으나 위에서 서술한 장치에 제한되는 것은 아니다.
시스템(100)은 메모리에 일시적 또는 비일시적으로 명령어들을 저장하고, 저장된 명령어들을 실행하는 하나 이상의 프로세서를 포함할 수 있다. 또한 시스템(100)은 상기 명령어들의 실행 결과 및 데이터를 저장하는 스토리지 장치를 포함할 수 있다.
본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템(100)은 유해 사이트 분류 모델 생성 및 XAI 기반 분석 등을 수행하기 위해 인공 지능(Artificial Intelligence, AI)을 이용할 수 있다. 인공 지능은 인공적인 지능 또는 이를 만들 수 있는 방법론을 연구하는 분야를 의미하며, 머신 러닝(기계 학습, Machine Learning)은 인공 지능 분야에서 다루는 다양한 문제를 정의하고 그것을 해결하는 방법론을 연구하는 분야를 의미한다. 머신 러닝은 어떠한 작업에 대하여 꾸준한 경험을 통해 그 작업에 대한 성능을 높이는 알고리즘으로 정의하기도 한다.
인공 신경망(ANN: Artificial Neural Network)은 머신 러닝에서 사용되는 모델로써, 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)들로 구성되는, 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다. 인공 신경망의 학습의 목적은 손실 함수를 최소화하는 모델 파라미터를 결정하는 것으로 볼 수 있다. 손실 함수는 인공 신경망의 학습 과정에서 최적의 모델 파라미터를 결정하기 위한 지표로 이용될 수 있다.
본 명세서에서 유해 사이트는 성인용 컨텐츠, 도박, 테러, 저작권 침해 등과 같이 정보통신망 상에 법령에 의해 불법정보로 분류될 수 있는 정보가 게재된 웹 사이트를 의미하며, 정상 사이트는 이러한 불법정보로 분류될 수 있는 정보가 게재되지 않은 일반 웹 사이트를 의미한다. 인터넷 상의 수없이 존재하며 끊임없이 새롭게 생성되는 웹 사이트들을 인간의 힘에 의해 일일이 탐색한 후 판단하여 유해 사이트 여부를 판단하는 것은 불가능에 가까우므로, 본 발명의 시스템(100)은 자동화된 과정을 거쳐 웹 사이트에 게재된 내용에 기초하여 유해 사이트를 분류할 수 있는 분류 모델 및 분류 모델로부터 평가된 기여도에 기초한 유효 키워드를 탐색할 수 있다.
시스템(100)은 키워드 추출부(110), 학습 데이터 구축부(120), 모델 생성부(130), XAI 연산부(140) 및 키워드 탐색부(150)를 포함할 수 있다.
키워드 추출부(110)는 적어도 하나 이상의 유해 사이트와, 적어도 하나 이상의 정상 사이트로부터 키워드를 추출하여 저장할 수 있다.
즉, 키워드 추출부(110)는 시스템(100)이 임의의 웹사이트를 유해 사이트 또는 정상 사이트로 분류하기 위하여 사용하는 기계학습 모델을 구축하기 위한 기본 데이터로서 복수의 웹 사이트로부터 텍스트 데이터 및 이미지 데이터를 크롤링하여 데이터를 수집한 후, 수집된 데이터를 처리하여 분류 모델에 사용하기 위한 키워드 데이터를 추출할 수 있다. 키워드 추출부(110)의 구성에 대한 더욱 자세한 설명은 도 2를 이용하여 설명한다.
도 2는 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템에 포함된 키워드 추출부의 구성을 설명하기 위한 블록도이다.
도 2를 참조하면, 키워드 추출부(110)는 크롤링부(111), 텍스트 추출부(112) 및 전처리부(113)를 포함할 수 있다.
크롤링부(111)는 적어도 하나 이상의 유해 사이트와 적어도 하나 이상의 정상 사이트의 페이지들을 자동적으로 서핑하며 HTML 데이터와 이미지 데이터를 수집할 수 있다. 수집된 HTML 데이터는 키워드를 추출하기 위한 처리가 되어 있지 않은 로우(raw) 데이터의 형태로, HTML 태그, 스크립트 등과 같은 텍스트 데이터가 그대로 포함되어 있을 수 있다.
또한 이미지 데이터는 jpg, png의 파일 형식을 갖는 정적인 이미지 데이터와, gif, webp 등과 같이 애니메이션을 포함하는 동적인 이미지 데이터를 포함할 수 있다. 크롤링부(111)는 HTML 데이터의 이미지 태그 또는 하이퍼링크 등으로 링크된 모든 이미지를 크롤링하여 개별적으로 다운로드함으로써 이미지 데이터를 수집할 수 있다.
본 발명의 몇몇 실시예에서, 크롤링부(111)는 탐색 대상인 적어도 하나 이상의 유해 사이트들에 대하여 일정 기간의 간격으로 주기적으로 크롤링하여 데이터를 수집할 수 있으며, 예를 들어 적어도 하나 이상의 유해 사이트를 대상으로 일주일 간격으로 해당 사이트에 게재된 페이지를 크롤링할 수 있다.
텍스트 추출부(112)는 수집된 HTML 데이터와 이미지 데이터로부터 텍스트를 추출할 수 있다.
구체적으로, 텍스트 추출부(112)는 로우 데이터 형태인 HTML 데이터로부터 태그(tag) 명과 같은 예약어를 비롯하여 스크립트 소스와 같은 웹 사이트의 내용과는 관련없는 무의미한 키워드를 제거할 수 있다. 한편 텍스트 추출부(112)는 HTML 데이터에 포함된 메타태그(meta tag)의 경우 사이트 명과 같은 유의미한 키워드를 포함하고 있기 때문에 메타태그에 포함된 텍스트 데이터 또한 추출할 수 있다.
이미지 데이터의 경우, 텍스트 추출부(112)는 OCR(Optical Character Recognition) 분석을 적용하여 이미지 데이터에 포함된 텍스트를 추출할 수 있다. 상술한 것과 같이, 수집된 이미지 데이터는 정적인 이미지와 동적인 이미지를 모두 포함하는 바, 텍스트 추출부(112)는 동적인 이미지에 포함된 프레임 단위로 OCR 분석을 수행함으로써 텍스트 데이터를 추출할 수 있다.
전처리부(113)는 추출된 텍스트로부터 예를 들어 형태소 분석과 같은 자연어 처리를 이용한 필터링을 적용하여 키워드를 추출할 수 있다. 구체적으로, 전처리부(113)는 추출된 텍스트를 의미를 지닌 가장 작은 단위인 형태소 단위를 분류하고 분류된 각 형태소가 어떤 품사를 가지는지를 결정한 후, 주로 명사구만을 추출하고 관련성이 떨어지는 키워드를 제거함으로써 키워드를 추출할 수 있다.
학습 데이터 구축부(120)는 키워드 추출부(110)로부터 추출된 키워드를 이용하여 학습 데이터를 구축할 수 있다. 학습 데이터 구축부(1120)는 추출된 키워드의 노이즈 제거, 라벨링 등을 수행하여 유해 사이트와 정상 사이트를 분류할 수 있는 분류 모델에 사용하기 위한 학습 데이터를 구축할 수 있다.
도 3은 본 발명의 실시예에 따른 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템에 포함된 학습 데이터 구축부에 의해 구축될 수 있는 학습 데이터의 예시를 설명하기 위한 도면이다.
도 3을 참조하면, 도표의 가로행은 추출된 키워드 및 이들을 분류하기 위한 레이블에 관한 것이고, 세로열은 각각의 유해 사이트 및 정상 사이트를 분류한 것으로 해당 키워드가 웹 사이트에 포함된 경우 1, 포함되지 않는 경우 0으로 표기하였다. 학습 데이터 구축부(120)는 유해 사이트 또는 정상 사이트로부터 추출된 키워드의 그룹과, 이에 대하여 라벨링된 분류 결과를 입력받아 학습 데이터를 구축할 수 있다.
모델 생성부(130)는 학습 데이터 구축부(120)에 의해 구축된 학습 데이터에 대하여 미리 정해진 기계학습 알고리즘을 이용하여 유해 사이트의 분류 모델을 생성할 수 있다.
모델 생성부(130)는 예를 들어 딥러닝(Deep Learning)과 같은 기계학습을 이용하여 유해 사이트의 분류 모델을 생성할 수 있으나 본 발명이 이에 제한되는 것은 아니다. 모델 생성부(130)는 여러 개의 약한 결정 트리를 조합하여 학습 에러에 가중치를 두고 강한 예측 모형을 만드는 Boosting을 이용한 모델 중 하나인 XGBoost와 같이 딥러닝에 비하여 모델의 복잡도가 작고 연산이 간단한 기계학습 알고리즘을 이용하여 분류 모델을 생성할 수도 있다. 이 경우 모델 생성부(130)는 병렬 학습을 이용하여 기존의 Boosting 모델보다 빠르게 분류 모델을 생성할 수 있다.
XAI 연산부(140)는 모델 생성부(130)에 의해 생성된 유해 사이트의 분류 모델에 대하여 XAI 기반 분석을 적용하여 추출된 키워드 별 유해 사이트의 분류 모델에 대한 기여도를 산출할 수 있다.
XAI는 기계학습 모델이나 AI 모델이 결정을 내린 원인과 원리를 파악할 수 있는 기술로서, 복잡도가 증가한 모델을 이용한 기계학습의 신뢰성과 안정성을 보장하고자 결과에 대한 분석을 수행하기 위해 활용되고 있다. XAI를 통하여 분류 모델을 분석하는 경우 각각의 속성, 즉 본 발명에서는 각각의 키워드의 기여도를 알 수 있거나 데이터 단위로 분류 결과에 대한 이유를 파악할 수 있다.
XAI 연산부(140)는 XAI의 대표적인 알고리즘인 SHAP(Shapley Additive exPlanations)을 적용함으로써 유해 사이트의 분류 모델에 대한 추출된 키워드의 기여도를 산출할 수 있다. SHAP은 모든 기계학습 모델의 결과를 설명하기 위한 게임 이론적인 접근 방식으로 가능한 모든 조합을 고려하여 속성의 평균 예상 기여도인 Shapely 값을 계산할 수 있다. XAI 연산부(140)가 SHAP을 이용하여 키워드 데이터를 학습한 분류 모델을 분석하는 경우, 유해 사이트를 분류하기 위해 필요한 중요한 키워드를 기여도 기준으로 판단할 수 있다.
도 4는 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템에 의해 수행된 XAI 기반 분석을 적용하여 추출된 키워드 별 유해 사이트의 분류 모델에 대한 기여도를 설명하기 위한 도면이다.
도 4를 참조하면, 유해 사이트들을 대상으로 일주일 간격으로 해당 사이트에 게재된 페이지를 크롤링하여 추출한 키워드를 대상으로 기계학습을 수행하여 유해 사이트의 분류 모델을 생성하고, 분류 모델에 SHAP을 적용하여 추출된 키워드 별 유해 사이트의 분류 모델에 대한 기여도가 도시된다. 기여도가 높을수록 유해 사이트의 분류 모델에서 중요한 속성, 즉 중요한 키워드로서 유해 사이트를 분류하기 위해 필요한 키워드이다. 분석 결과에서, 기여도를 기준으로 상위 키워드 사이의 기여도의 차이는 큰 편이지만, 하위로 내려갈수록 기여도 차이는 감소하는 것을 알 수 있으며, 따라서 기여도에 따라 상위 키워드가 분류 모델에 기여하는 중요성이 확인될 수 있다.
키워드 탐색부(150)는 산출된 기여도에 기초하여 추출된 키워드 가운데 유효 키워드를 탐색할 수 있다. 키워드 탐색부(150)는 예를 들어 미리 정한 기여도보다 큰 키워드를 유효 키워드로 선택할 수 있으며, 또는 전체 키워드의 평균 또는 중간값보다 큰 키워드를 유효 키워드로 선택할 수도 있으나 본 발명이 이에 제한되는 것은 아니다.
키워드 탐색부(150)에 의해 결정된 유효 키워드를 기준으로 정리된 학습 데이터는 도 5와 같이 도시될 수 있다. 학습 데이터 구축부(120)는 기여도가 미리 정한 값 이상으로 나타나 유효 키워드로 결정된 키워드와, 이들을 포함하는 유해 사이트 및 정상 사이트를 이용하여 학습 데이터를 재생성할 수 있다.
도 6 및 7은 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템에 의한 분석 효과를 설명하기 위한 도면이다.
먼저 도 6을 참조하면, 상술한 과정을 거쳐 결정된 유효 키워드를 이용하여 학습한 분류 모델에 의한 분류 결과 및 정확도가 도시된다. 전체 속성(키워드)에 대하여 일정값 이상의 기여도를 갖는 키워드를 유효 키워드로 하여 학습 모델을 생성한 결과, 전체 속성에 의한 분류와 크게 떨어지지 않거나 향상된 분류 정확도를 보이는 것을 알 수 있다. 또한 유효 키워드를 이용한 분류를 이용하는 경우 학습 모델 생성에 필요한 데이터의 크기가 감소하기 때문에 빠른 속도의 학습 및 모델 생성이 가능할 수 있다.
도 7을 참조하면, 분석 효과를 검증하기 위해 유해 사이트 가운데 임의의 속성(키워드 A)를 추가한 후 각 속성들에 대한 기여도를 산출한 결과가 도시된다. 전체 유해 사이트 중 1/3에 키워드 A를 추가한 경우 해당 키워드의 기여도는 0.18로 나타났으며, 2/3 및 전체에 키워드 A를 추가한 경우의 기여도는 각각 0.94 및 1.71로 나타났다.
이러한 결과를 앞서 도 4를 이용하여 설명한 기여도의 산출 결과와 연관하여 설명하면, 새로운 키워드가 유해 사이트 가운데 등장한 초기(전체 유해 사이트 중 1/3에 포함된 경우)에는 해당 키워드가 유효 키워드로 선정되지만 작은 기여도를 갖게 되며, 2/3 또는 전체에 해당 키워드가 포함된 경우 그 기여도가 점점 상승하여 상위 기여도를 갖는 키워드로 나타나는 것을 알 수 있다. 이와 같이 일정한 주기를 가지고 웹 사이트로부터 추출된 키워드의 변화를 탐색함으로써 신조어 또는 새로운 용어가 등장하는 경우 해당 키워드의 기여도 변화를 감지함으로써 신규 키워드를 탐색하고 분류 모델의 업데이트를 수행할 수 있다. 또한 이와는 반대로 시간이 지날수록 기여도가 감소하는 키워드에 대해 유행이 지난 키워드로 판단하여 유효 키워드로부터 제외함으로써 효율적인 분류 모델을 생성할 수 있다.
도 8은 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법을 설명하기 위한 순서도이다.
도 8을 참조하면, 본 발명의 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법은 적어도 하나 이상의 유해 사이트와 정상 사이트로부터 추출된 키워드를 이용하여 학습 데이터를 구축하는 단계(S110), 구축된 학습 데이터를 이용하여 유해 사이트 분류 모델을 생성하는 단계(S120), 유해 사이트 분류 모델에 대하여 XAI 기반 분석을 적용하여 추출된 키워드 별 유해 사이트 분류 모델에 대한 기여도를 산출하는 단계(S130), 기여도에 기초하여 추출된 키워드 가운데 유효 키워드를 탐색하는 단계(S140)를 포함한다.
도 9는 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 중 학습 데이터를 구축 단계를 설명하기 위한 순서도이다.
도 9를 참조하면, 본 발명의 실시예에 따른 XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 중 학습 데이터의 구축 단계(S110)는 적어도 하나 이상의 유해 사이트와 정상 사이트로부터 HTML 데이터와 이미지 데이터를 수집하는 단계(S111), HTML 데이터 가운데 태그 내의 텍스트를 추출하고 이미지 데이터를 OCR 적용하여 텍스를 추출하는 단계(S112), 추출된 텍스트로부터 형태소 분석을 이용한 필터링으로 키워드를 추출하여 학습 데이터를 구축하는 단계(S113)를 포함할 수 있다. 이러한 단계는 앞서 설명한 것과 같이 키워드 추출부(110) 및 학습 데이터 구축부(120)에 의하여 순차적 또는 비순차적으로 수행될 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 장치에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 하드디스크, ROM, RAM, CD-ROM, 하드 디스크, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100: 시스템 110: 키워드 추출부
111: 크롤링부 112: 텍스트 추출부
113: 전처리부 120: 학습 데이터 구축부
130: 모델 생성부 140: XAI 연산부
150: 키워드 탐색부

Claims (11)

  1. 컴퓨팅 장치에 의해 수행되는 XAI(eXplainable Artifical Intelligence) 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법에 있어서,
    적어도 하나 이상의 유해 사이트로부터 추출된 키워드와, 적어도 하나 이상의 정상 사이트로부터 추출된 키워드를 이용하여 학습 데이터를 구축하는 단계;
    상기 구축된 학습 데이터를 이용하여 유해 사이트 분류 모델을 생성하는 단계;
    상기 유해 사이트 분류 모델에 대하여 XAI 기반 분석을 적용하여 추출된 키워드 별 상기 유해 사이트 분류 모델에 대한 기여도를 산출하는 단계; 및
    상기 기여도에 기초하여 상기 추출된 키워드 가운데 유효 키워드를 탐색하는 단계를 포함하는,
    XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법.
  2. 제 1 항에 있어서,
    상기 적어도 하나 이상의 유해 사이트로부터 추출된 키워드는,
    적어도 하나 이상의 유해 사이트로부터 일정 기간에 걸쳐 주기적으로 추출된 키워드의 그룹을 포함하는,
    XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법.
  3. 제 2항에 있어서,
    상기 기여도에 기초하여 상기 추출된 키워드 가운데 유효 키워드를 탐색하는 단계는,
    상기 일정 기간에 걸쳐 주기적으로 추출된 키워드의 그룹에 대해 산출된 기여도가 미리 정한 수치 이상인 경우 유효 키워드로 판단하는 단계를 포함하는,
    XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법.
  4. 제 1항에 있어서,
    상기 유해 사이트 분류 모델에 대하여 XAI 기반 분석을 적용하여 추출된 키워드 별 상기 유해 사이트 분류 모델에 대한 기여도를 산출하는 단계는,
    상기 유해 사이트 분류 모델에 대하여 SHAP(Shapley Additive exPlanations) 기법을 적용하여 추출된 키워드의 조합에 대한 속성의 평균 예상 기여도를 산출하는 단계를 포함하는,
    XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법.
  5. 제 1항에 있어서,
    적어도 하나 이상의 유해 사이트로부터 추출된 키워드와, 적어도 하나 이상의 정상 사이트로부터 추출된 키워드를 이용하여 학습 데이터를 구축하는 단계는,
    상기 적어도 하나 이상의 유해 사이트와 정상 사이트로부터 HTML 데이터와 이미지 데이터를 수집하는 단계;
    상기 HTML 데이터 가운데 태그(Tag) 내의 텍스트를 추출하고, 상기 이미지 데이터를 OCR(Optical Character Recognition) 적용하여 텍스트를 추출하는 단계; 및
    추출된 텍스트로부터 형태소 분석을 이용한 필터링으로 키워드를 추출하여 학습 데이터를 구축하는 단계를 포함하는,
    XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법.
  6. 컴퓨터를 이용하여 제 1항 내지 제 5항의 방법 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 상기 컴퓨터로 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
  7. 컴퓨팅 장치에 의해 수행되는 XAI(eXplainable Artifical Intelligence) 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템에 있어서,
    적어도 하나 이상의 유해 사이트 및 정상 사이트로부터 키워드를 추출하여 저장하는 키워드 추출부;
    상기 적어도 하나 이상의 유해 사이트 및 정상 사이트로부터 추출된 키워드를 이용하여 학습 데이터를 구축하는 학습 데이터 구축부;
    상기 구축된 학습 데이터를 이용하여 유해 사이트 분류 모델을 생성하는 모델 생성부;
    상기 유해 사이트 분류 모델에 대하여 XAI 기반 분석을 적용하여 추출된 키워드 별 상기 유해 사이트 분류 모델에 대한 기여도를 산출하는 XAI 연산부; 및
    상기 기여도에 기초하여 상기 추출된 키워드 가운데 유효 키워드를 탐색하는 키워드 탐색부를 포함하는,
    XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템.
  8. 제 7항에 있어서,
    상기 적어도 하나 이상의 유해 사이트로부터 추출된 키워드는,
    적어도 하나 이상의 유해 사이트로부터 일정 기간에 걸쳐 주기적으로 추출된 키워드의 그룹을 포함하는,
    XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템.
  9. 제 8항에 있어서,
    상기 키워드 탐색부는
    상기 일정 기간에 걸쳐 주기적으로 추출된 키워드의 그룹에 대해 산출된 기여도가 미리 정한 수치 이상인 경우 유효 키워드로 판단하는,
    XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템.
  10. 제 7항에 있어서,
    상기 XAI 연산부는,
    상기 유해 사이트 분류 모델에 대하여 SHAP(Shapley Additive exPlanations) 기법을 적용하여 추출된 키워드의 조합에 대한 속성의 평균 예상 기여도를 산출하는,
    XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템.
  11. 제 7항에 있어서,
    상기 키워드 추출부는,
    상기 적어도 하나 이상의 유해 사이트와 정상 사이트로부터 HTML 데이터와 이미지 데이터를 수집하는 크롤링부;
    상기 HTML 데이터 가운데 태그(Tag) 내의 텍스트를 추출하고, 상기 이미지 데이터를 OCR(Optical Character Recognition) 적용하여 텍스트를 추출하는 텍스트 추출부, 및
    상기 학습 데이터 추출부는, 추출된 텍스트로부터 형태소 분석을 이용한 필터링으로 키워드를 추출하는 전처리부를 포함하는,
    XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 시스템.
KR1020220070923A 2022-06-10 2022-06-10 Xai 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 및 이를 수행하는 시스템 KR20230170443A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220070923A KR20230170443A (ko) 2022-06-10 2022-06-10 Xai 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 및 이를 수행하는 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220070923A KR20230170443A (ko) 2022-06-10 2022-06-10 Xai 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 및 이를 수행하는 시스템

Publications (1)

Publication Number Publication Date
KR20230170443A true KR20230170443A (ko) 2023-12-19

Family

ID=89385557

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220070923A KR20230170443A (ko) 2022-06-10 2022-06-10 Xai 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 및 이를 수행하는 시스템

Country Status (1)

Country Link
KR (1) KR20230170443A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102269954B1 (ko) 2019-02-28 2021-06-25 안상필 유해 사이트 현황 자동 수집 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102269954B1 (ko) 2019-02-28 2021-06-25 안상필 유해 사이트 현황 자동 수집 시스템

Similar Documents

Publication Publication Date Title
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN112307473A (zh) 一种基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测模型
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
CN108229170A (zh) 利用大数据和神经网络的软件分析方法和装置
CN111581956A (zh) 基于bert模型和k近邻的敏感信息识别方法及系统
CN112989831A (zh) 一种应用在网络安全领域的实体抽取方法
CN103914538B (zh) 基于锚文本上下文和链接分析的主题抓取方法
CN115391570A (zh) 一种基于方面的情感知识图谱构建方法及装置
CN111190873B (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
Makkar et al. Fs2rnn: Feature selection scheme for web spam detection using recurrent neural networks
CN117272142A (zh) 一种日志异常检测方法、系统及电子设备
CN116108191A (zh) 一种基于知识图谱的深度学习模型推荐方法
CN110750981A (zh) 一种基于机器学习的高准确度网站敏感词检测方法
CN117608889A (zh) 基于日志语义的异常检测方法以及相关设备
CN113111645A (zh) 一种媒体文本相似性检测方法
CN111538893A (zh) 一种从非结构化数据中提取网络安全新词的方法
CN108717637B (zh) 一种电商安全相关实体的自动挖掘方法及系统
KR102483004B1 (ko) 유해 url 탐지 방법
KR20230170443A (ko) Xai 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 및 이를 수행하는 시스템
CN111695117B (zh) 一种webshell脚本检测方法及装置
Zulkifeli et al. Classic term weighting technique for mining web content outliers
Neela et al. An Ensemble Learning Frame Work for Robust Fake News Detection
US20240296231A1 (en) Automated attribute scraping for security feature implementation prediction
Sharmila Tapering Malicious Language for Identifying Fake Web Content