KR102503204B1 - 인공지능 자연어 처리를 이용한 사이트 차단 방법 및 이를 이용하여 사이트 차단을 수행하는 단말기 - Google Patents

인공지능 자연어 처리를 이용한 사이트 차단 방법 및 이를 이용하여 사이트 차단을 수행하는 단말기 Download PDF

Info

Publication number
KR102503204B1
KR102503204B1 KR1020210163911A KR20210163911A KR102503204B1 KR 102503204 B1 KR102503204 B1 KR 102503204B1 KR 1020210163911 A KR1020210163911 A KR 1020210163911A KR 20210163911 A KR20210163911 A KR 20210163911A KR 102503204 B1 KR102503204 B1 KR 102503204B1
Authority
KR
South Korea
Prior art keywords
web
content
text
natural language
artificial intelligence
Prior art date
Application number
KR1020210163911A
Other languages
English (en)
Inventor
김민석
Original Assignee
김민석
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김민석 filed Critical 김민석
Priority to KR1020210163911A priority Critical patent/KR102503204B1/ko
Application granted granted Critical
Publication of KR102503204B1 publication Critical patent/KR102503204B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0823Network architectures or network communication protocols for network security for authentication of entities using certificates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/306Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information intercepting packet switched data communications, e.g. Web, Internet or IMS communications

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Technology Law (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 인공지능 자연어 처리를 이용한 사이트 차단 방법 및 이를 이용하여 사이트 차단을 수행하는 단말기에 관한 것으로, 인공지능 자연어 처리를 이용한 사이트 차단 방법은 웹 사이트 주소에 대응하는 웹 서버에 접속하여 데이터를 수신하고, 수신된 데이터에 인증서가 포함되어 있는지 여부 및 해당 인증서의 유효 여부를 검사하는 단계, 상기 인증서가 포함되어 있지 않거나 수신된 인증서가 유효하지 않은 경우, 해당 웹 서버에 대응되는 웹 사이트 주소가 화이트리스트에 포함되어 있는지 여부를 검사하는 단계, 상기 웹 사이트 주소가 화이트리스트에 포함되어 있지 않은 경우, 상기 웹 서버에서 하이퍼텍스트로 인코딩 된 웹 컨텐츠 데이터를 수신하여 파싱하는 단계 및 상기 웹 컨텐츠 데이터에서 메타(meta) 태그에 포함된 정보를 추출하여 인공지능 기반의 자연어 검사를 수행하고, 상기 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 단계를 포함한다.

Description

인공지능 자연어 처리를 이용한 사이트 차단 방법 및 이를 이용하여 사이트 차단을 수행하는 단말기{UNALLOWABLE SITE BLOCKING METHOD USING ARTIFICIAL INTELLIGENCE NATURAL LANGUAGE PROCESSING AND UNALLOWABLE SITE BLOCKING TERMINAL USING THE SAME}
본 발명은 원하지 않는 컨텐츠를 포함하는 웹 사이트를 차단하는 기술에 관한 것으로, 보다 상세하게는 인공지능을 이용하여 유해 컨텐츠를 포함하는 웹 사이트의 접근을 차단할 수 있는 인공지능 자연어 처리를 이용한 사이트 차단 방법에 관한 것이다.
단말기는 사용자의 제어에 따라 고유의 웹 사이트 주소를 갖는 웹 서버에 접속할 수 있으며, 웹 서버로부터 해당 웹 사이트의 웹 컨텐츠를 수신하여 화면에 디스플레이 할 수 있다. 이때, 화면에 디스플레이되는 웹 사이트의 컨텐츠는 다양한 컨텐츠들로 구성된다. 예를 들어, 웹 컨텐츠는 텍스트, 이미지, 동영상, 소리 등 다양한 컨텐츠들로 구성될 수 있다.
웹 컨텐츠에는 사용자가 원하지 않는 컨텐츠도 포함될 수 있다. 예를 들어, 사용자에게 불쾌감을 유발하거나 유해한 영향을 미칠 수 있는 유해 컨텐츠(Harmful contents), 웹 사이트 운영자의 수익을 목적으로 의도된 컨텐츠 등이 포함된 웹 컨텐츠들이 사용자에게 노출될 수 있다.
웹 사이트의 컨텐츠에 원하지 않는 컨텐츠가 포함되어 있는지 여부를 검사하는 방법으로, 웹 컨텐츠에 포함된 단어 가운데 기 정의된 단어가 포함되어 있는지 여부를 검색하여 검사하는 단어 검색 방법이 있다.
그러나, 기존의 단어 위주의 검사의 경우, 띄어쓰기 변경, 맞춤법 변경 등과 같은 회피 수단에 취약한 문제가 있다. 또한, 비속어, 욕과 같이 원하지 않는 단어를 라이브러리로 만들어 단어 검색 방법을 보완하고 필터링을 진행하고 있으나, 단어 검색 방법만으로는 새롭게 발생하는 단어 및 표현에 대해 모두 대응하기 어려운 문제가 있다.
한국등록특허 제10-1200906호 (2012.11.07)
본 발명의 일 실시예는 인공지능을 활용하여 단어 위주 검사의 한계를 벗어나 문장 단위의 의미를 분석하는 방식으로 원하지 않는 컨텐츠를 포함하는 웹 사이트의 접근을 차단할 수 있는 인공지능 자연어 처리를 이용한 사이트 차단 방법 및 이를 이용하여 사이트 차단을 수행하는 단말기를 제공하고자 한다.
본 발명의 일 실시예는 인공지능을 이용한 자연어 처리 방식과 함께 단어 검색 방식을 병행하여, 원하지 않는 컨텐츠를 포함하는 웹 사이트의 차단 정확성을 높일 수 있는 인공지능 자연어 처리를 이용한 사이트 차단 방법 및 이를 이용하여 사이트 차단을 수행하는 단말기를 제공하고자 한다.
실시예들 중에서, 인공지능 자연어 처리를 이용한 사이트 차단 방법은 웹 사이트 주소에 대응하는 웹 서버에 접속하여 데이터를 수신하고, 수신된 데이터에 인증서가 포함되어 있는지 여부 및 해당 인증서의 유효 여부를 검사하는 단계, 상기 인증서가 포함되어 있지 않거나 수신된 인증서가 유효하지 않은 경우, 해당 웹 서버에 대응되는 웹 사이트 주소가 화이트리스트에 포함되어 있는지 여부를 검사하는 단계, 상기 웹 사이트 주소가 화이트리스트에 포함되어 있지 않은 경우, 상기 웹 서버에서 하이퍼텍스트로 인코딩 된 웹 컨텐츠 데이터를 수신하여 파싱하는 단계 및 상기 웹 컨텐츠 데이터에서 메타(meta) 태그에 포함된 정보를 추출하여 인공지능 기반의 자연어 검사를 수행하고, 상기 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 단계를 포함한다.
상기 인공지능 자연어 처리를 이용한 사이트 차단 방법은 수신된 인증서가 유효한 경우 또는 상기 웹 사이트 주소가 화이트리스트에 포함되어 있는 경우, 웹 서버에서 수신된 웹 컨텐츠 데이터를 디코딩하여 화면에 디스플레이하는 단계를 더 포함할 수 있다.
상기 유해 컨텐츠의 포함 여부를 확인하는 단계는 a) 상기 메타 태그에서 타이틀(title) 태그에 포함된 정보를 추출하고 인공지능 기반의 자연어 검사 및 단어 검사를 수행하여, 상기 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 단계, b) 상기 a) 단계를 수행한 결과 유해 컨텐츠가 포함되지 않은 경우, 상기 메타 태그에서 키워드(keyword) 태그에 포함된 정보를 추출하고 단어 검사를 수행하여, 상기 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 단계 및 c) 상기 b) 단계를 수행한 결과 유해 컨텐츠가 포함되지 않은 경우, 상기 메타 태그에서 기술(description) 태그에 포함된 정보를 추출하고 인공지능 기반의 자연어 검사 및 단어 검사를 수행하여, 상기 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 단계를 포함할 수 있다.
상기 a)단계는 a-1) 상기 타이틀 태그에 텍스트의 포함 여부를 체크하는 단계, a-2) 상기 타이틀 태그에 텍스트가 포함되어 있는 경우, 상기 텍스트를 추출하여 소문자로 변환하는 단계, a-3) 상기 소문자로 변환된 텍스트에 대해 인공지능 기반의 자연어 검사를 수행하여 해당 텍스트의 의미 속성을 분류하고, 상기 분류된 의미 속성을 기초로 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 단계, a-4) 상기 분류된 속성을 기초로 유해 컨텐츠가 포함되어 있지 않은 웹 컨텐츠로 분류되는 경우, 상기 소문자로 변환된 텍스트에 기 정의된 치명 단어(critic word)가 포함되어 있는지 여부를 검사하는 단계 및 a-5) 상기 소문자로 변환된 텍스트에 상기 치명 단어가 포함되어 있지 않은 경우, 상기 소문자로 변환된 텍스트에 기 정의된 유해 단어(bad word)가 기 설정된 개수 이상 포함되어 있는지 여부를 검사하는 단계를 포함할 수 있다.
상기 분류된 의미 속성을 기초로 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 단계는 기 저장된 인공지능 기반의 자연어 검사 모델로 상기 소문자로 변환된 텍스트를 분석하여 기 설정된 적어도 하나 이상의 의미 속성에 해당하는지 여부를 분석하는 단계 및 상기 소문자로 변환된 텍스트가 상기 의미 속성 가운데 기 설정된 속성에 해당하는 경우, 상기 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 것으로 검사하는 단계를 포함하되, 상기 기 설정된 적어도 하나 이상의 의미 속성은 긍정, 부정, 포르노, 일반, 나쁜 말 및 성적인 표현 가운데 적어도 하나 이상을 포함할 수 있다.
상기 인공지능 기반의 자연어 검사 모델은 관제 서버에서 수신되어 기 저장된 모델일 수 있다.
상기 b)단계는 b-1) 상기 키워드 태그에 텍스트의 포함 여부를 체크하는 단계, b-2) 상기 키워드 태그에 텍스트가 포함되어 있는 경우, 상기 텍스트를 추출하여 소문자로 변환하는 단계, b-3) 상기 소문자로 변환된 텍스트에 기 정의된 치명 단어(critic word)가 포함되어 있는지 여부를 검사하는 단계 및 b-4) 상기 소문자로 변환된 텍스트에 상기 치명 단어가 포함되어 있지 않은 경우, 상기 소문자로 변환된 텍스트에 기 정의된 유해 단어(bad word)가 기 설정된 개수 이상 포함되어 있는지 여부를 검사하는 단계를 포함할 수 있다.
상기 c)단계는 c-1) 상기 기술 태그에 텍스트의 포함 여부를 체크하는 단계, c-2) 상기 기술 태그에 텍스트가 포함되어 있는 경우, 상기 텍스트를 추출하여 소문자로 변환하는 단계, c-3) 상기 소문자로 변환된 텍스트에 대해 인공지능 기반의 자연어 검사를 수행하여 해당 텍스트의 의미 속성을 분류하고, 상기 분류된 의미 속성을 기초로 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 단계, c-4) 상기 분류된 속성을 기초로 유해 컨텐츠가 포함되어 있지 않은 웹 컨텐츠로 분류되는 경우, 상기 소문자로 변환된 텍스트에 기 정의된 치명 단어(critic word)가 포함되어 있는지 여부를 검사하는 단계 및 c-5) 상기 소문자로 변환된 텍스트에 상기 치명 단어가 포함되어 있지 않은 경우, 상기 소문자로 변환된 텍스트에 기 정의된 유해 단어(bad word)가 기 설정된 개수 이상 포함되어 있는지 여부를 검사하는 단계를 포함할 수 있다.
실시예들 중에서, 인공지능 자연어 처리를 이용한 사이트 차단을 수행하는 단말기는 사용자 입력을 수신하고 및 사용자에게 특정 정보를 출력하는 사용자 입출력부, 네트워크를 통해 외부 장치 또는 시스템과 연결하는 네트워크 입출력부, 인공지능 자연어 처리를 이용한 유해 컨텐츠 포함 사이트 차단 어플리케이션을 저장하는 메모리 및 웹 사이트 주소에 대응하는 웹 서버에 접속하는 경우, 상기 인공지능 자연어 처리를 이용한 유해 컨텐츠 포함 사이트 차단 어플리케이션을 실행하는 프로세서를 포함하되, 상기 프로세서는 상기 어플리케이션을 실행하여 상기 웹 서버에서 수신된 데이터에 인증서가 포함되어 있지 않거나 수신된 인증서가 유효하지 않은 경우, 해당 웹 서버에 대응되는 웹 사이트 주소가 화이트리스트에 포함되어 있는지 여부를 검사하며, 상기 웹 사이트 주소가 화이트리스트에 포함되어 있지 않은 경우, 상기 웹 서버에서 하이퍼텍스트로 인코딩 된 웹 컨텐츠 데이터를 수신하여 파싱하고, 상기 웹 컨텐츠 데이터에서 메타(meta) 태그에 포함된 정보를 추출하여 인공지능 기반의 자연어 검사를 수행하고, 상기 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사할 수 있다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 일 실시예에 따른 인공지능 자연어 처리를 이용한 사이트 차단 방법 및 이를 이용하여 사이트 차단을 수행하는 단말기는 인공지능을 활용하여 단어 위주 검사의 한계를 벗어나 문장 단위의 의미를 분석하는 방식으로 원하지 않는 컨텐츠를 포함하는 웹 사이트의 접근을 차단할 수 있다.
본 발명의 일 실시예에 따른 인공지능 자연어 처리를 이용한 사이트 차단 방법 및 이를 이용하여 사이트 차단을 수행하는 단말기는 인공지능을 이용한 자연어 처리 방식과 함께 단어 검색 방식을 병행하여, 원하지 않는 컨텐츠를 포함하는 웹 사이트의 차단 정확성을 높일 수 있다.
도 1은 본 발명에 따른 인공지능 자연어 처리를 이용한 사이트 차단 시스템을 설명하는 도면이다.
도 2는 도 1의 사용자 단말기의 시스템 구성을 설명하는 도면이다.
도 3은 도 1의 사용자 단말기의 기능적 구성을 설명하는 도면이다.
도 4는 본 발명에 따른 인공지능 자연어 처리를 이용한 사이트 차단 방법을 설명하는 흐름도이다.
도 5는 도 4의 유해 컨텐츠를 검사하는 단계를 상세히 설명하는 흐름도이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
도 1은 본 발명에 따른 인공지능 자연어 처리를 이용한 사이트 차단 시스템을 설명하는 도면이다.
도 1을 참조하면, 인공지능 자연어 처리를 이용한 사이트 차단 시스템(100)은 관제 서버(110), 사용자 단말기(120) 및 웹 서버(130)를 포함할 수 있다.
관제 서버(110)는 유해 컨텐츠를 포함하는 웹 사이트의 리스트를 저장 및 관리한다. 관제 서버(110)는 해당 웹 사이트 리스트를 사용자 단말기(120)로부터 수신하여 저장할 수 있으며, 유해 컨텐츠를 포함하는 웹 사이트를 제공하는 웹 서버(130)의 관리자에게 리포트할 수 있다.
일 실시예에서, 관제 서버(110)는 유해 컨텐츠가 포함되어 있는지 여부를 체크할 수 있는 인공지능 기반의 자연어 검사 모델을 저장하고, 사용자 단말기(120)에 제공할 수 있다. 일 실시예에서, 관제 서버(110)는 각각의 기 정의된 의미 속성을 갖는 문장 또는 구절 샘플들을 로 데이터(raw data)로 하여 머신 러닝(Machine Learning)을 수행하여, 인공지능 기반의 자연어 검사 모델을 생성할 수 있다. 인공지능 기반의 자연어 검사 모델은 자연어로 된 텍스트 문장을 입력 데이터로 받아 해당 문장의 의미 속성을 분류하고 분류된 값을 출력할 수 있다.
예를 들어, 관제 서버(110)는 BoW(Bag of Words)나 BoW에 기반한 단어 표현 방법인 DTM(Document-Term Matrix), TF-IDF(Term Frequency - Inverse Document Frequency), 또는 워드투벡터(Word2Vec) 등과 같은 방법을 이용하여 기 정의된 의미 속성을 갖는 문장 또는 구절 샘플들을 수치화(또는 벡터화)한다. 일 실시예에서, 관제 서버(110)는 각 의미 속성을 갖는 문장 또는 구절 샘플들을 수치화한 값을 기초로 머신 러닝을 수행하여 인공지능 기반의 자연어 검사 모델을 생성할 수 있다. 예를 들어, 관제 서버(110)는 각 의미 속성의 샘플들의 수치 값을 분석하여 해당 수치 값과 유사한 값이 포함되어 있는 지 여부를 분석하여 문장의 의미 속성을 분류하고 분류된 값을 출력할 수 있는 인공지능 기반의 자연어 검사 모델을 생성할 수 있다.
관제 서버(110)는 관리자의 제어에 따라 인공지능 기반의 자연어 검사 모델을 업데이트할 수 있다. 인공지능 기반의 자연어 검사 모델이 업데이트되는 경우, 관제 서버(110)는 사용자 단말기(120)에 업데이트된 자연어 검사 모델을 전송할 수 있다.
사용자 단말기(120)는 사용자의 제어에 따라 웹 사이트 주소에 대응하는 웹 서버(130)에 접속하여 해당 웹 서버(130)에 제공하는 웹 사이트의 컨텐츠를 수신하고, 수신된 컨텐츠를 디스플레이부(미도시)에 디스플레이한다. 일 실시예에서, 사용자 단말기(120)는 네트워크를 통해 웹 서버(130)에 접속할 수 있는 컴퓨터, 랩탑 PC, 태블릿 PC, 스마트 TV 및 휴대 단말기를 포함할 수 있다.
일 실시예에서, 사용자 단말기(120)는 인공지능 자연어 처리를 이용한 유해 컨텐츠 포함 사이트 차단 어플리케이션을 메모리에 저장할 수 있다. 웹 사이트 주소에 대응하는 웹 서버(130)에 접속하는 경우, 사용자 단말기(120)는 해당 유해 컨텐츠 포함 사이트 차단 어플리케이션을 실행하여 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 체크한다. 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 경우, 사용자 단말기(120)는 기 설정된 정책을 실행할 수 있다. 예를 들어, 사용자 단말기(120)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 웹 사이트를 차단하거나, 사용자 단말기(120)는 유해 컨텐츠가 포함되어 있음을 알리는 메시지를 화면에 디스플레이하고, 사용자로부터 해당 웹 사이트의 웹 컨텐츠를 화면에 디스플레이할지 여부에 대한 명령을 입력받을 수 있다.
웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 경우, 사용자 단말기(120)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 웹 사이트의 주소 정보를 관제 서버(110)에 전송할 수 있다.
웹 서버(130)는 고유의 웹 사이트 주소에 대응하는 웹 사이트 컨텐츠를 저장한다. 웹 사이트 컨텐츠는 관리자에 의해 관리될 수 있으며, 관리자 또는 사용자 단말기(120)의 사용자에 의해 저장 또는 업데이트될 수 있다. 웹 서버(130)는 네트워크를 통해 인터넷 연결되며, 웹 사이트 주소를 이용하여 해당 웹 서버(130)에 접속한 사용자 단말기(120)에 웹 사이트의 컨텐츠 데이터(웹 컨텐츠 데이터)를 전송할 수 있다.
도 2는 도 1의 사용자 단말기의 시스템 구성을 설명하는 도면이다.
도 2를 참조하면, 사용자 단말기(120)는 프로세서(210), 메모리(220), 사용자 입출력부(230) 및 네트워크 입출력부(240)를 포함하여 구현될 수 있다.
프로세서(210)는 사용자 단말기(120)가 동작하는 과정에서의 각 단계들을 처리하는 프로시저를 실행할 수 있고, 그 과정 전반에서 읽혀지거나 작성되는 메모리(220)를 관리할 수 있으며, 메모리(220)에 있는 휘발성 메모리와 비휘발성 메모리 간의 동기화 시간을 스케줄할 수 있다. 프로세서(210)는 사용자 단말기(120)의 동작 전반을 제어할 수 있고, 메모리(220), 사용자 입출력부(230) 및 네트워크 입출력부(240)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다. 프로세서(210)는 사용자 단말기(120)의 CPU(Central Processing Unit)로 구현될 수 있다.
일 실시예에서, 프로세서(210)는 인공지능 자연어 처리를 이용한 유해 컨텐츠 포함 사이트 차단 어플리케이션을 실행할 수 있다. 예를 들어, 프로세서(210)는 해당 어플리케이션을 실행하여 웹 서버(130)에서 수신된 데이터에 인증서가 포함되어 있지 않거나 수신된 인증서가 유효하지 않은 경우, 해당 웹 서버(130)에 대응되는 웹 사이트 주소가 화이트리스트에 포함되어 있는지 여부를 검사한다. 해당 웹 사이트 주소가 화이트리스트에 포함되어 있지 않은 경우, 프로세서(210)는 웹 서버(130)에서 하이퍼텍스트로 인코딩된 웹 컨텐츠 데이터를 수신하여 파싱하고, 웹 컨텐츠 데이터에서 메타(meta) 태그에 포함된 정보를 추출하여 인공지능 기반의 자연어 검사를 수행하고, 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사한다.
메모리(220)는 SSD(Solid State Drive) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현되어 사용자 단말기(120)에 필요한 데이터 전반을 저장하는데 사용되는 보조기억장치를 포함할 수 있고, RAM(Random Access Memory)과 같은 휘발성 메모리로 구현된 주기억장치를 포함할 수 있다. 일 실시예에서, 메모리(220)는 인공지능 자연어 처리를 이용한 유해 컨텐츠 포함 사이트 차단 어플리케이션을 저장할 수 있다.
사용자 입출력부(230)는 사용자 입력을 수신하기 위한 환경 및 사용자에게 특정 정보를 출력하기 위한 환경을 포함할 수 있다. 예를 들어, 사용자 입출력부(230)는 터치 패드, 터치 스크린, 화상 키보드 또는 포인팅 장치와 같은 어댑터를 포함하는 입력장치 및 모니터 또는 터치스크린과 같은 어댑터를 포함하는 출력장치를 포함할 수 있다.
네트워크 입출력부(240)는 네트워크를 통해 외부 장치 또는 시스템과 연결하기 위한 환경을 포함하고, 예를 들어, LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 VAN(Value Added Network) 등의 통신을 위한 어댑터를 포함할 수 있다.
도 3은 도 1의 사용자 단말기의 기능적 구성을 설명하는 도면이다.
도 3을 참조하면, 사용자 단말기(120)는 인증부(310), 화이트리스트 확인부(320) 및 유해 컨텐츠 검사부(330)를 포함할 수 있다. 유해 컨텐츠 검사부(330)는 파싱부(332), 메타(meta) 태그 정보 검사부(334) 및 바디(body) 태그 정보 검사부(336)를 포함할 수 있다.
사용자 단말기(120)는 사용자의 제어에 따라 웹 브라우저를 실행하고, 웹 사이트 주소에 대응하는 웹 서버(130)에 접속하여 데이터를 수신한다. 웹 서버(130)로부터 데이터를 수신하면, 유해 컨텐츠 포함 사이트 차단 어플리케이션의 인증부(310)는 수신된 데이터에 인증서가 포함되어 있는지 여부 및 해당 인증서의 유효 여부를 검사할 수 있다.
일 실시예에서, 인증부(310)는 인증서가 공인 인증기관에 의해 발급된 것인지 확인할 수 있다. 인증서는 클라이언트(사용자 단말기(120))가 접속한 웹 서버(130)가 클라이언트가 의도한 서버가 맞는지 보장하는 역할을 한다. 인증서는 CA(Certificate authority)(또는 Root Certificate)라고 불리는 인증 기관이 관리하는 인증 관리 서버(미도시)에 의해 발급 및 관리된다.
사용자 단말기(120)는 내부적으로 CA의 리스트를 미리 저장하고 있다. 사용자 단말기(120)의 웹 브라우저가 웹 사이트 주소에 대응하는 웹 서버(130)에 접속할 때 웹 서버(130)는 제일 먼저 인증서를 제공한다. 웹 브라우저는 이 인증서를 발급한 CA가 기 저장된 CA의 리스트에 있는지를 확인한다. 웹 서버(130)로부터 수신한 인증서가 기 저장된 CA 리스트에 포함되어 있으면 해당 CA의 공개키를 이용해서 인증서를 복호화하여 해당 인증서가 유효한지 검사한다. CA의 공개키를 이용해서 인증서가 복호화 할 수 있다는 것은 이 인증서가 CA의 비공개키에 의해서 암호화되었다는 것을 의미한다. 인증서가 CA의 공개키에 의해서 복호화되어 유효한 것으로 확인된 경우, 인증부(310)는 웹 서버(130)가 제공한 인증서가 CA에 의해서 발급된 것으로 확인할 수 있다.
CA에 의해서 발급된 인증서로 확인된 경우, 해당 웹 사이트는 CA에 의해서 검토되었다는 것을 의미하며, 해당 웹 사이트가 신뢰할 수 있다는 것을 의미하므로, 사용자 단말기(120)는 웹 서버(130)에서 웹 컨텐츠 데이터를 수신하여 해당 웹 사이트의 웹 컨텐츠를 화면에 디스플레이한다.
인증서가 포함되어 있지 않거나 수신된 인증서가 유효하지 않은 경우, 화이트리스트 확인부(320)는 해당 웹 서버(130)에 대응되는 웹 사이트 주소가 화이트리스트(White List)에 포함되어 있는지 여부를 검사한다. 일 실시예에서, 화이트리스트는 사용자에 의해 작성되어 저장되거나 또는 관제 서버(110)로부터 수신되어 저장될 수 있다. 웹 서버(130)에 대응되는 웹 사이트 주소가 화이트리스트에 포함되어 있는 경우, 해당 웹 사이트가 신뢰할 수 있다는 것을 의미하므로, 사용자 단말기(120)는 웹 서버(130)에서 수신된 웹 컨텐츠 데이터를 디코딩하여 해당 웹 사이트의 웹 컨텐츠를 화면에 디스플레이한다.
웹 사이트 주소가 화이트리스트에 포함되어 있지 않은 경우, 유해 컨텐츠 검사부(330)는 웹 서버(130)에서 웹 컨텐츠 데이터를 수신하여 파싱(Parsing)하고, 웹 컨텐츠 데이터에서 메타(meta) 태그에 포함된 정보를 추출한다. 일 실시예에서, 웹 컨텐츠 데이터는 웹 컨텐츠가 하이퍼텍스트(HyperText)로 인코딩된 데이터를 포함할 수 있다. 일 실시예에서, 웹 컨텐츠는 문자(Text), 오디오(audio), 동영상(video) 등으로 제작된 컨텐츠를 포함할 수 있다.
유해 컨텐츠 검사부(330)는 메타(meta) 태그에 포함된 정보를 추출하여 인공지능 기반의 자연어 검사를 수행하고, 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사한다. 웹 컨텐츠에 유해 컨텐츠가 포함되어 있지 않은 경우, 사용자 단말기(120)는 웹 서버(130)에서 웹 컨텐츠 데이터를 수신하여 해당 웹 사이트의 웹 컨텐츠를 화면에 디스플레이한다. 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 경우, 유해 컨텐츠 검사부(330)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 해당 웹 사이트를 차단하거나, 유해 컨텐츠가 포함되어 있음을 알리는 메시지를 화면에 디스플레이하고, 사용자로부터 해당 웹 사이트의 웹 컨텐츠를 계속 화면에 디스플레이할지 여부에 대한 명령을 입력받을 수 있다. 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 경우, 유해 컨텐츠 검사부(330)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 웹 사이트의 주소 정보를 관제 서버(110)에 전송할 수 있다.
이하에서는, 유해 컨텐츠 검사부(330)가 메타 태그에 포함된 정보를 추출하여 인공지능 기반의 자연어 검사를 수행하고, 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 과정을 상세히 설명하기로 한다.
파싱부(332)는 HTML(HyperText Mark-up Language)에 따라 인코딩된 웹 컨텐츠 데이터를 파싱(Parsing)하여 메타 태그 내의 정보를 추출한다.
HTML으로 만들어진 웹 사이트의 경우 다양한 태그(tag)로 구성될 수 있다. 그 가운데 메타(meta) 태그에는 웹 사이트의 타이틀(title), 기술(description), 검색엔진을 위한 키워드(keywords) 등의 정보가 포함될 수 있다. 해당 정보들은 해당 웹사이트들이 구글, 네이버, yahoo 등과 같은 검색 엔진의 검색에 노출되기 위해 포함되는 정보이다. 유해 컨텐츠 검사부(330)는 메타 태그에 포함된 정보를 이용하여, 해당 웹 사이트에 유해 컨텐츠가 포함되어 있는지 여부를 검사한다.
메타 태그 정보 검사부(334)는 메타 태그에서 타이틀(title) 태그에 포함된 정보를 추출하고, 인공지능 기반의 자연어 검사 및 단어 검사를 수행하여, 해당 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사한다.
예를 들어, 메타 태그 정보 검사부(334)는 타이틀 태그에 텍스트가 포함되어 있는 지 여부를 체크한다. 타이틀 태그에 텍스트가 포함되어 있지 않은 경우 메타 태그 정보 검사부(334)는 다음 키워드(keyword) 태그 검사를 수행한다. 타이틀 태그에 텍스트가 포함되어 있는 경우, 메타 태그 정보 검사부(334)는 타이틀 태그에서 텍스트를 추출하여 소문자로 변환한다.
메타 태그 정보 검사부(334)는 소문자로 변환된 텍스트에 대해 인공지능 기반의 자연어 검사를 수행하여 해당 텍스트의 의미 속성을 분류하고, 분류된 의미 속성을 기초로 유해 컨텐츠가 포함되어 있는지 여부를 검사한다.
일 실시예에서, 메타 태그 정보 검사부(334)는 소문자로 변환된 텍스트를 기 저장된 인공지능 기반의 자연어 검사 모델로 분석하여, 타이틀 태그에서 추출된 정보가 기 설정된 적어도 하나 이상의 의미 속성에 해당하는 지 여부를 분석한다. 인공지능 기반의 자연어 검사 모델은 관제 서버(110)에서 수신되어 기 저장될 수 있다.
일 실시예에서, 인공지능 기반의 자연어 검사 모델은 BoW(Bag of Words)나 BoW에 기반한 단어 표현 방법인 DTM(Document-Term Matrix), TF-IDF(Term Frequency - Inverse Document Frequency), 또는 워드투벡터(Word2Vec) 등과 같은 방법을 이용하여 텍스트 문장을 수치화(또는 벡터화)한다. 일 실시예에서, 인공지능 기반의 자연어 검사 모델은 각 의미 속성을 갖는 문장들과 입력된 임의의 텍스트 문장을 수치화하고, 코사인 유사도(Cosine Similarity), 유클리드 거리(Euclidean distance), 자카드 유사도(Jaccard similarity) 등을 계산하여 문장의 유사도를 구할 수 있다. 인공지능 기반의 자연어 검사 모델은 해당 유사도 값을 기초로 해당 문장의 의미 속성 값을 출력할 수 있다. 예를 들어, 입력된 임의의 텍스트 문장과 유사도 값이 기 설정된 이상 값 이상인 의미 속성을 갖는 문장의 의미 속성 값을 출력할 수 있다. 일 실시예에서, 의미 속성은 긍정, 부정, 포르노, 일반, 나쁜 말 및 성적인 표현 가운데 적어도 하나 이상을 포함할 수 있다.
예를 들어, 하기와 같은 문장이 인공지능 기반의 자연어 검사 모델에 입력될 경우, 하기와 같은 문장의 의미 속성 값이 출력될 수 있다.
1. 입력 문장
(1) 최고의 화질과 영상으로 잊지못한 경험을 드리는 최고의 포르노 사이트.
(2) 우리는 최고로 엄선된 아름다운 HD 포르노 영상을 제공합니다.
(3) 유해 웹사이트 (포르노, 도박, 음란물)을 차단합니다.
(4) HD급 영상을 포르노 카테고리 2020에서 사용자에 알맞게 제공합니다.
(5) 어차피 굿즈 팔아봐야 made in china임...
(6) 조선징들 몰살게임해서 조선징들 굿즈도 팔면 아이대갓니?
(7) 뜨겁게 포옹하며, 그의 **한 가슴을 ***했다. 그의 혀가……
2. 의미 속성 값
(1)번 문장 : 긍정:O, 부정:X, 포르노:O, 일반:X, 나쁜 말(욕설, 비하어, 등):X, 성적인 표현:X
(2)번 문장 : 긍정:O, 부정:X, 포르노:O, 일반:X, 나쁜 말:X, 성적인 표현:X
(3)번 문장 : 긍정:O, 부정:X, 포르노:X, 일반:O, 나쁜 말:X, 성적인 표현:X
(4)번 문장 : 긍정:O, 부정:X, 포르노:O, 일반:X, 나쁜 말:X, 성적인 표현:X
(5)번 문장 : 긍정:X, 부정:O, 포르노:X, 일반:O, 나쁜 말:X, 성적인 표현:X
(6)번 문장 : 긍정:X, 부정:O, 포르노:X, 일반:O, 나쁜 말:O, 성적인 표현:X
(7)번 문장 : 긍정:X, 부정:X, 포르노:X, 일반:X, 나쁜 말:X, 성적인 표현: O
소문자로 변환된 텍스트가 기 설정된 의미 속성 가운데 기 설정된 속성에 해당하는 경우, 메타 태그 정보 검사부(334)는 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 것으로 결정할 수 있다. 예를 들어, 텍스트의 의미 속성이 포르노, 나쁜 말, 성적인 표현 가운데 하나의 속성에 해당하는 경우, 메타 태그 정보 검사부(334)는 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 것으로 결정할 수 있다.
분류된 의미 속성을 기초로 유해 컨텐츠가 포함되어 있는 경우, 메타 태그 정보 검사부(334)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 해당 웹 사이트를 차단하거나, 유해 컨텐츠가 포함되어 있음을 알리는 메시지를 화면에 디스플레이하고, 사용자로부터 해당 웹 사이트의 웹 컨텐츠를 계속 화면에 디스플레이할지 여부에 대한 명령을 입력받을 수 있다. 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 경우, 유해 컨텐츠 검사부(330)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 웹 사이트의 주소 정보를 관제 서버(110)에 전송할 수 있다.
분류된 의미 속성을 기초로 유해 컨텐츠가 포함되어 있지 않은 웹 컨텐츠로 분류되는 경우, 메타 태그 정보 검사부(334)는 타이틀 태그에 포함된 텍스트에 대해 단어 검사를 수행한다. 예를 들어, 메타 태그 정보 검사부(334)는 소문자로 변환된 텍스트에 기 정의된 치명 단어(critic word)가 포함되어 있는지 여부를 검사한다. 일 실시예에서, 치명 단어는 성(Sex)과 관련하여 구체적인 표현을 담고 있는 2개 이상의 단어로 구성된 단어 뭉치, 유해 사이트에서만 사용되는 단어의 뭉치(은어 뭉치)를 포함할 수 있다. 예를 들어, 치명 단어는 hな アダルト,おまんこ動映像(おまんこ
Figure 112021136092312-pat00001
), xvideos, порно онлайн, porn tube 등을 포함할 수 있다.
치명 단어가 포함되어 있는 경우, 메타 태그 정보 검사부(334)는 해당 웹 사이트에 유해 컨텐츠가 포함되어 있는 것으로 결정할 수 있다. 메타 태그 정보 검사부(334)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 해당 웹 사이트를 차단하거나, 유해 컨텐츠가 포함되어 있음을 알리는 메시지를 화면에 디스플레이하고, 사용자로부터 해당 웹 사이트의 웹 컨텐츠를 계속 화면에 디스플레이할지 여부에 대한 명령을 입력받을 수 있다. 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 경우, 유해 컨텐츠 검사부(330)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 웹 사이트의 주소 정보를 관제 서버(110)에 전송할 수 있다.
치명 단어가 포함되어 있지 않은 경우, 메타 태그 정보 검사부(334)는 소문자로 변환된 텍스트에 기 정의된 유해 단어(bad word)가 기 설정된 개수 이상 포함되어 있는지 여부를 검사한다. 일 실시예에서, 유해 단어는 성(Sex)과 관련하여 일반적으로 알려진 유해 단어들을 포함한다. 예를 들어, 유해 단어는 sex, 포르노, porno, porn, アナルセックス, blowjob, 야동, порно 등을 포함할 수 있다.
유해 단어가 기 설정된 개수이상 포함되어 있는 경우, 메타 태그 정보 검사부(334)는 해당 웹 사이트에 유해 컨텐츠가 포함되어 있는 것으로 결정할 수 있다. 예를 들어, 유해 단어가 3개 이상 포함되어 있는 경우, 메타 태그 정보 검사부(334)는 해당 웹 사이트에 유해 컨텐츠가 포함되어 있는 것으로 결정할 수 있다. 메타 태그 정보 검사부(334)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 해당 웹 사이트를 차단하거나, 유해 컨텐츠가 포함되어 있음을 알리는 메시지를 화면에 디스플레이하고, 사용자로부터 해당 웹 사이트의 웹 컨텐츠를 계속 화면에 디스플레이할지 여부에 대한 명령을 입력받을 수 있다. 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 경우, 유해 컨텐츠 검사부(330)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 웹 사이트의 주소 정보를 관제 서버(110)에 전송할 수 있다.
메타 태그 정보 검사부(334)는 기 저장된 치명 단어와 유해 단어에 대한 리스트를 이용하여 단어 검사를 수행할 수 있다. 일 실시예에서, 메타 태그 정보 검사부(334)는 관제 서버(110)로부터 치명 단어와 유해 단어 리스트를 수신하여 이를 갱신할 수 있다.
타이틀(title) 태그에 포함된 정보를 이용하여 유해 컨텐츠가 포함되어 있는지 여부를 체크한 결과 유해 컨텐츠가 포함되지 않은 경우, 메타 태그 정보 검사부(334)는 메타 태그에서 키워드(keyword) 태그에 포함된 정보를 추출하고 단어 검사를 수행하여, 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사한다.
예를 들어, 메타 태그 정보 검사부(334)는 키워드 태그에 텍스트가 포함되어 있는 지 여부를 체크한다. 키워드 태그에 텍스트가 포함되어 있지 않은 경우 메타 태그 정보 검사부(334)는 다음 기술(description) 태그 검사를 수행한다. 키워드 태그에 텍스트가 포함되어 있는 경우, 메타 태그 정보 검사부(334)는 키워드 태그에서 텍스트를 추출하여 소문자로 변환한다.
메타 태그 정보 검사부(334)는 키워드 태그에 포함된 텍스트에 대해 단어 검사를 수행한다. 예를 들어, 메타 태그 정보 검사부(334)는 소문자로 변환된 텍스트에 기 정의된 치명 단어(critic word)가 포함되어 있는지 여부를 검사한다.
치명 단어가 포함되어 있는 경우, 메타 태그 정보 검사부(334)는 해당 웹 사이트에 유해 컨텐츠가 포함되어 있는 것으로 결정할 수 있다. 메타 태그 정보 검사부(334)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 해당 웹 사이트를 차단하거나, 유해 컨텐츠가 포함되어 있음을 알리는 메시지를 화면에 디스플레이하고, 사용자로부터 해당 웹 사이트의 웹 컨텐츠를 계속 화면에 디스플레이할지 여부에 대한 명령을 입력받을 수 있다. 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 경우, 유해 컨텐츠 검사부(330)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 웹 사이트의 주소 정보를 관제 서버(110)에 전송할 수 있다.
치명 단어가 포함되어 있지 않은 경우, 메타 태그 정보 검사부(334)는 소문자로 변환된 텍스트에 기 정의된 유해 단어(bad word)가 기 설정된 개수 이상 포함되어 있는지 여부를 검사한다.
유해 단어가 기 설정된 개수이상 포함되어 있는 경우, 메타 태그 정보 검사부(334)는 해당 웹 사이트에 유해 컨텐츠가 포함되어 있는 것으로 결정할 수 있다. 예를 들어, 유해 단어가 3개 이상 포함되어 있는 경우, 메타 태그 정보 검사부(334)는 해당 웹 사이트에 유해 컨텐츠가 포함되어 있는 것으로 결정할 수 있다. 메타 태그 정보 검사부(334)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 해당 웹 사이트를 차단하거나, 유해 컨텐츠가 포함되어 있음을 알리는 메시지를 화면에 디스플레이하고, 사용자로부터 해당 웹 사이트의 웹 컨텐츠를 계속 화면에 디스플레이할지 여부에 대한 명령을 입력받을 수 있다. 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 경우, 유해 컨텐츠 검사부(330)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 웹 사이트의 주소 정보를 관제 서버(110)에 전송할 수 있다.
키워드(keyword) 태그에 포함된 정보를 이용하여 유해 컨텐츠가 포함되어 있는지 여부를 체크한 결과 유해 컨텐츠가 포함되지 않은 경우, 메타 태그 정보 검사부(334)는 기술(description) 태그에 포함된 정보를 추출하고 인공지능 기반의 자연어 검사 및 단어 검사를 수행하여, 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사한다.
예를 들어, 메타 태그 정보 검사부(334)는 기술 태그에 텍스트가 포함되어 있는 지 여부를 체크한다. 기술 태그에 텍스트가 포함되어 있지 않은 경우 바디 태그 정보 검사부(336)는 다음 바디(body) 태그 검사를 수행한다. 기술 태그에 텍스트가 포함되어 있는 경우, 메타 태그 정보 검사부(334)는 기술 태그에서 텍스트를 추출하여 소문자로 변환한다.
메타 태그 정보 검사부(334)는 소문자로 변환된 텍스트에 대해 인공지능 기반의 자연어 검사를 수행하여 해당 텍스트의 의미 속성을 분류하고, 분류된 의미 속성을 기초로 유해 컨텐츠가 포함되어 있는지 여부를 검사한다.
일 실시예에서, 메타 태그 정보 검사부(334)는 소문자로 변환된 텍스트를 기 저장된 인공지능 기반의 자연어 검사 모델로 분석하여, 타이틀 태그에서 추출된 정보가 기 설정된 적어도 하나 이상의 의미 속성에 해당하는 지 여부를 분석한다. 일 실시예에서, 의미 속성은 긍정, 부정, 포르노, 일반, 나쁜 말 및 성적인 표현 가운데 적어도 하나 이상을 포함할 수 있다.
소문자로 변환된 텍스트가 기 설정된 의미 속성 가운데 기 설정된 속성에 해당하는 경우, 메타 태그 정보 검사부(334)는 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 것으로 결정할 수 있다. 예를 들어, 텍스트의 의미 속성이 포르노, 나쁜 말, 성적인 표현 가운데 하나의 속성에 해당하는 경우, 메타 태그 정보 검사부(334)는 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 것으로 결정할 수 있다.
분류된 의미 속성을 기초로 유해 컨텐츠가 포함되어 있는 경우, 메타 태그 정보 검사부(334)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 해당 웹 사이트를 차단하거나, 유해 컨텐츠가 포함되어 있음을 알리는 메시지를 화면에 디스플레이하고, 사용자로부터 해당 웹 사이트의 웹 컨텐츠를 계속 화면에 디스플레이할지 여부에 대한 명령을 입력받을 수 있다. 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 경우, 유해 컨텐츠 검사부(330)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 웹 사이트의 주소 정보를 관제 서버(110)에 전송할 수 있다.
분류된 의미 속성을 기초로 유해 컨텐츠가 포함되어 있지 않은 웹 컨텐츠로 분류되는 경우, 메타 태그 정보 검사부(334)는 기술 태그에 포함된 텍스트에 대해 단어 검사를 수행한다. 예를 들어, 메타 태그 정보 검사부(334)는 소문자로 변환된 텍스트에 기 정의된 치명 단어(critic word)가 포함되어 있는지 여부를 검사한다.
치명 단어가 포함되어 있는 경우, 메타 태그 정보 검사부(334)는 해당 웹 사이트에 유해 컨텐츠가 포함되어 있는 것으로 결정할 수 있다. 메타 태그 정보 검사부(334)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 해당 웹 사이트를 차단하거나, 유해 컨텐츠가 포함되어 있음을 알리는 메시지를 화면에 디스플레이하고, 사용자로부터 해당 웹 사이트의 웹 컨텐츠를 계속 화면에 디스플레이할지 여부에 대한 명령을 입력받을 수 있다. 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 경우, 유해 컨텐츠 검사부(330)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 웹 사이트의 주소 정보를 관제 서버(110)에 전송할 수 있다.
치명 단어가 포함되어 있지 않은 경우, 메타 태그 정보 검사부(334)는 소문자로 변환된 텍스트에 기 정의된 유해 단어(bad word)가 기 설정된 개수 이상 포함되어 있는지 여부를 검사한다.
유해 단어가 기 설정된 개수이상 포함되어 있는 경우, 메타 태그 정보 검사부(334)는 해당 웹 사이트에 유해 컨텐츠가 포함되어 있는 것으로 결정할 수 있다. 예를 들어, 유해 단어가 3개 이상 포함되어 있는 경우, 메타 태그 정보 검사부(334)는 해당 웹 사이트에 유해 컨텐츠가 포함되어 있는 것으로 결정할 수 있다. 메타 태그 정보 검사부(334)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 해당 웹 사이트를 차단하거나, 유해 컨텐츠가 포함되어 있음을 알리는 메시지를 화면에 디스플레이하고, 사용자로부터 해당 웹 사이트의 웹 컨텐츠를 계속 화면에 디스플레이할지 여부에 대한 명령을 입력받을 수 있다. 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 경우, 유해 컨텐츠 검사부(330)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 웹 사이트의 주소 정보를 관제 서버(110)에 전송할 수 있다.
메타 태그 내 타이틀, 기술, 키워드 태그에 포함된 정보를 이용하여 유해 컨텐츠가 포함되어 있는지 여부를 검사한 결과 유해 컨텐츠가 포함되지 않은 경우, 바디(body) 태그 정보 검사부(336)는 HTML으로 만들어진 웹 사이트의 바디 태그에 포함된 정보를 추출한다. 바디 태그 정보 검사부(336)는 바디 태그에 포함된 텍스트(단어, 문장) 정보를 검사하여 유해 컨텐츠가 포함되어 있는지 여부를 검사한다. 또한, 바디 태그 정보 검사부(336)는 바디 태그에 포함된 이미지 및 동영상 정보를 검사하여 유해 컨텐츠가 포함되어 있는지 여부를 검사한다.
메타 태그 정보 검사부(334)와 바디(body) 태그 정보 검사부(336)에서 검사한 결과 웹 컨텐츠에 유해 컨텐츠가 포함되어 있지 않은 경우, 사용자 단말기(120)는 웹 서버(130)에서 웹 컨텐츠 데이터를 수신하여 해당 웹 사이트의 웹 컨텐츠를 화면에 디스플레이한다.
일 실시예에서, 유해 컨텐츠 검사부(330)는 웹 사이트의 댓글에 있는 텍스트(단어, 문장) 정보를 검사하여 유해 컨텐츠가 포함되어 있는지 여부를 검사할 수도 있다. 예를 들어, 유해 컨텐츠 검사부(330)는 웹 사이트의 댓글에 있는 텍스트에 대해 인공지능 기반의 자연어 검사를 수행하여 기 설정된 의미 속성 가운데 기 설정된 속성에 해당하는 경우, 유해 컨텐츠 검사부(330)는 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 것으로 결정할 수 있다. 예를 들어, 텍스트의 의미 속성이 포르노, 나쁜 말, 성적인 표현 가운데 하나의 속성에 해당하는 경우, 유해 컨텐츠 검사부(330)는 해당 내용을 관제 서버(110)에 리포트하고, 관제 서버(110)는 웹 서버(130)에 이를 리포트한다. 웹 서버(130)는 해당 댓글을 게시한 사용자에 순화된 표현의 사용을 권고하거나 해당 사용자에게 경고 메시지를 보낼 수 있다. 또는, 웹 서버(130)는 내부 방침에 따라 해당 댓글이 웹 사이트에 게시되지 않도록 처리할 수도 있다.
도 4는 본 발명에 따른 인공지능 자연어 처리를 이용한 사이트 차단 방법을 설명하는 흐름도이다.
도 4를 참조하면, 사용자 단말기(120)는 사용자의 제어에 따라 웹 브라우저를 실행하여 웹 사이트 주소에 대응하는 웹 서버(130)에 접속하고(단계 S410), 웹 서버(130)는 사용자 단말기(120)에 데이터를 전송한다(단계 S412). 사용자 단말기(120)는 인공지능 자연어 처리를 이용한 유해 컨텐츠 포함 사이트 차단 어플리케이션을 실행한다.
사용자 단말기(120)는 수신된 데이터에 인증서가 포함되어 있는지 여부 및 해당 인증서의 유효 여부를 검사한다(단계 S414). 인증서가 포함되어 있고 수신된 인증서가 유효한 경우, 사용자 단말기(120)는 웹 서버(130)로부터 웹 컨텐츠 데이터를 수신하여 웹 컨텐츠를 화면에 디스플레이한다(단계 S424).
인증서가 포함되어 있지 않거나 수신된 인증서가 유효하지 않은 경우, 사용자 단말기(120)는 해당 웹 서버에 대응되는 웹 사이트 주소가 화이트리스트에 포함되어 있는지 여부를 검사한다(단계 S416). 웹 사이트 주소가 화이트리스트에 포함되어 있는 경우, 사용자 단말기(120)는 웹 서버(130)로부터 웹 컨텐츠 데이터를 수신하여 웹 컨텐츠를 화면에 디스플레이한다(단계 S424).
웹 사이트 주소가 화이트리스트에 포함되어 있지 않은 경우, 사용자 단말기(120)는 웹 서버에서 하이퍼텍스트로 인코딩 된 웹 컨텐츠 데이터를 수신하고, 웹 컨텐츠 데이터에서 메타(meta) 태그에 포함된 정보를 추출하여 인공지능 기반의 자연어 검사를 수행하고, 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사한다(단계 S418). 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있지 않은 경우, 사용자 단말기(120)는 웹 서버(130)로부터 웹 컨텐츠 데이터를 수신하여 웹 컨텐츠를 화면에 디스플레이한다(단계 S424).
도 5는 도 4의 유해 컨텐츠를 검사하는 단계를 상세히 설명하는 흐름도이다.
도 5를 참조하면, 사용자 단말기(120)는 메타 태그에서 타이틀(title) 태그에 포함된 정보를 추출하고 인공지능 기반의 자연어 검사 및 단어 검사를 수행하여, 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사한다(단계 S510).
S510단계에서 검사한 결과, 유해 컨텐츠가 포함되지 않은 경우, 사용자 단말기(120)는 메타 태그에서 키워드(keyword) 태그에 포함된 정보를 추출하고 단어 검사를 수행하여, 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사한다(단계 S520).
S520단계에서 검사한 결과, 유해 컨텐츠가 포함되지 않은 경우, 사용자 단말기(120)는 메타 태그에서 기술(description) 태그에 포함된 정보를 추출하고 인공지능 기반의 자연어 검사 및 단어 검사를 수행하여, 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사한다(단계 S530).
S530단계에서 검사한 결과, 유해 컨텐츠가 포함되지 않은 경우, 사용자 단말기(120)는 HTML으로 만들어진 웹 사이트의 바디 태그에 포함된 정보를 추출한다. 사용자 단말기(120)는 바디 태그에 포함된 텍스트(단어, 문장) 정보를 검사하여 유해 컨텐츠가 포함되어 있는지 여부를 검사한다(단계 S540).
S540단계에서 검사한 결과, 유해 컨텐츠가 포함되지 않은 경우, 사용자 단말기(120)는 바디 태그에 포함된 이미지 및 동영상 정보를 검사하여 유해 컨텐츠가 포함되어 있는지 여부를 검사한다(단계 S550).
S540단계에서 검사한 결과, 웹 컨텐츠에 유해 컨텐츠가 포함되어 있지 않은 경우, 사용자 단말기(120)는 웹 서버(130)에서 웹 컨텐츠 데이터를 수신하여 해당 웹 사이트의 웹 컨텐츠를 화면에 디스플레이한다(단계 S424).
S510, S520, S530, S540 및 S550단계에서 검사한 결과, 해당 단계에서 유해 컨텐츠가 포함되어 있는 것으로 검사된 경우, 사용자 단말기(120)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 해당 웹 사이트를 차단하거나, 유해 컨텐츠가 포함되어 있음을 알리는 메시지를 화면에 디스플레이하고, 사용자로부터 해당 웹 사이트의 웹 컨텐츠를 계속 화면에 디스플레이할지 여부에 대한 명령을 입력받을 수 있다(단계 S422). 사용자 단말기(120)는 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 웹 사이트의 주소 정보를 관제 서버(110)에 전송할 수 있다(단계 S420).
다시 도 4를 참조하면, 사용자 단말기(120)로부터 유해 컨텐츠 포함 웹 사이트에 대한 리포트가 수신되면, 관제 서버(110)는 블랙리스트(Black List) 목록을 검사하여(단계 S426), 해당 유해 컨텐츠가 포함된 웹 컨텐츠를 제공하는 웹 사이트가 블랙리스트에 포함되어 있는지 여부를 확인한다.
해당 웹 사이트가 블랙리스트에 포함되어 있지 않은 경우, 관제 서버(110)는 해당 웹 사이트를 블랙리스트에 추가하여 블랙리스트를 갱신한다. 해당 웹 사이트가 블랙리스트에 포함되어 있는 경우, 관제 서버(110)는 해당 웹 사이트의 관리 목록 등급을 확인한다(단계 S428).
관제 서버(110)는 해당 웹 사이트를 관리하는 관리자에게 해당 웹 사이트에 유해 컨텐츠가 포함되어 있음을 알리는 리포트를 제공할 수 있다(단계 S430). S428 단계에서 확인한 결과, 해당 웹 사이트의 관리 목록 등급이 높은 경우, 즉, 웹 사이트 관리자에게 고지(告知)할 수 있도록 설정되거나, 직접 웹사이트 관리 기능이 연계되어 있는 경우, 관제 서버(110)는 해당 웹 사이트를 관리하는 관리자에게 해당 웹 사이트의 서비스 중지 및 격리 등을 요청하는 리포트를 제공할 수 있다(단계 S432).
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. 예를 들어, 유해 컨텐츠 포함 사이트 차단 어플리케이션은 독립적인 프로그램 형태로 구현될 수도 있고, 다른 어플리케이션 내에 삽입된 API 형태로 구현될 수도 있다.
100: 인공지능 자연어 처리를 이용한 사이트 차단 시스템
110: 관제 서버 120: 사용자 단말기
130: 웹 서버 210: 프로세서
220: 메모리 230: 사용자 입출력부
240: 네트워크 입출력부

Claims (9)

  1. 웹 사이트 주소에 대응하는 웹 서버에 접속하여 데이터를 수신하고, 수신된 데이터에 인증서가 포함되어 있는지 여부 및 해당 인증서의 유효 여부를 검사하는 단계;
    상기 인증서가 포함되어 있지 않거나 수신된 인증서가 유효하지 않은 경우, 해당 웹 서버에 대응되는 웹 사이트 주소가 화이트리스트에 포함되어 있는지 여부를 검사하는 단계;
    상기 웹 사이트 주소가 화이트리스트에 포함되어 있지 않은 경우, 상기 웹 서버에서 하이퍼텍스트로 인코딩 된 웹 컨텐츠 데이터를 수신하여 파싱하는 단계; 및
    상기 웹 컨텐츠 데이터에서 메타(meta) 태그에 포함된 정보를 추출하여 인공지능 기반의 자연어 검사를 수행하고, 상기 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 단계를 포함하고,
    상기 유해 컨텐츠의 포함 여부를 검사하는 단계는
    a) 상기 메타 태그에서 타이틀(title) 태그에 포함된 정보를 추출하고 인공지능 기반의 자연어 검사 및 단어 검사를 수행하여, 상기 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 단계를 포함하되,
    a-1) 상기 타이틀 태그에 텍스트의 포함 여부를 체크하는 단계;
    a-2) 상기 타이틀 태그에 텍스트가 포함되어 있는 경우, 상기 텍스트를 추출하여 소문자로 변환하는 단계;
    a-3) 상기 소문자로 변환된 텍스트에 대해 인공지능 기반의 자연어 검사를 수행하여 해당 텍스트의 의미 속성을 분류하고, 상기 분류된 의미 속성을 기초로 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 단계;
    a-4) 상기 분류된 속성을 기초로 유해 컨텐츠가 포함되어 있지 않은 웹 컨텐츠로 분류되는 경우, 상기 소문자로 변환된 텍스트에 기 정의된 치명 단어(critic word)가 포함되어 있는지 여부를 검사하는 단계; 및
    a-5) 상기 소문자로 변환된 텍스트에 상기 치명 단어가 포함되어 있지 않은 경우, 상기 소문자로 변환된 텍스트에 기 정의된 유해 단어(bad word)가 기 설정된 개수 이상 포함되어 있는지 여부를 검사하는 단계를 포함하는 인공지능 자연어 처리를 이용한 사이트 차단 방법.
  2. 제1항에 있어서,
    상기 수신된 인증서가 유효한 경우 또는 상기 웹 사이트 주소가 화이트리스트에 포함되어 있는 경우, 웹 서버에서 수신된 웹 컨텐츠 데이터를 디코딩하여 화면에 디스플레이하는 단계를 더 포함하는 인공지능 자연어 처리를 이용한 사이트 차단 방법.
  3. 제1항에 있어서, 상기 유해 컨텐츠의 포함 여부를 검사하는 단계는
    b) 상기 a) 단계를 수행한 결과 유해 컨텐츠가 포함되지 않은 경우, 상기 메타 태그에서 키워드(keyword) 태그에 포함된 정보를 추출하고 단어 검사를 수행하여, 상기 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 단계; 및
    c) 상기 b) 단계를 수행한 결과 유해 컨텐츠가 포함되지 않은 경우, 상기 메타 태그에서 기술(description) 태그에 포함된 정보를 추출하고 인공지능 기반의 자연어 검사 및 단어 검사를 수행하여, 상기 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 단계를 포함하는 인공지능 자연어 처리를 이용한 사이트 차단 방법.
  4. 삭제
  5. 제1항에 있어서, 상기 분류된 의미 속성을 기초로 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 단계는
    기 저장된 인공지능 기반의 자연어 검사 모델로 상기 소문자로 변환된 텍스트를 분석하여 기 설정된 적어도 하나 이상의 의미 속성에 해당하는 지 여부를 분석하는 단계; 및
    상기 소문자로 변환된 텍스트가 상기 의미 속성 가운데 기 설정된 속성에 해당하는 경우, 상기 웹 컨텐츠에 유해 컨텐츠가 포함되어 있는 것으로 검사하는 단계를 포함하되,
    상기 기 설정된 적어도 하나 이상의 의미 속성은 긍정, 부정, 포르노, 일반, 나쁜 말 및 성적인 표현 가운데 적어도 하나 이상을 포함하는 인공지능 자연어 처리를 이용한 사이트 차단 방법.
  6. 제5항에 있어서, 상기 인공지능 기반의 자연어 검사 모델은
    관제 서버에서 수신되어 기 저장된 모델인 인공지능 자연어 처리를 이용한 사이트 차단 방법.
  7. 제3항에 있어서, 상기 b)단계는
    b-1) 상기 키워드 태그에 텍스트의 포함 여부를 체크하는 단계;
    b-2) 상기 키워드 태그에 텍스트가 포함되어 있는 경우, 상기 텍스트를 추출하여 소문자로 변환하는 단계;
    b-3) 상기 소문자로 변환된 텍스트에 기 정의된 치명 단어(critic word)가 포함되어 있는지 여부를 검사하는 단계; 및
    b-4) 상기 소문자로 변환된 텍스트에 상기 치명 단어가 포함되어 있지 않은 경우, 상기 소문자로 변환된 텍스트에 기 정의된 유해 단어(bad word)가 기 설정된 개수 이상 포함되어 있는지 여부를 검사하는 단계를 포함하는 인공지능 자연어 처리를 이용한 사이트 차단 방법.
  8. 제3항에 있어서, 상기 c)단계는
    c-1) 상기 기술 태그에 텍스트의 포함 여부를 체크하는 단계;
    c-2) 상기 기술 태그에 텍스트가 포함되어 있는 경우, 상기 텍스트를 추출하여 소문자로 변환하는 단계;
    c-3) 상기 소문자로 변환된 텍스트에 대해 인공지능 기반의 자연어 검사를 수행하여 해당 텍스트의 의미 속성을 분류하고, 상기 분류된 의미 속성을 기초로 유해 컨텐츠가 포함되어 있는지 여부를 검사하는 단계;
    c-4) 상기 분류된 속성을 기초로 유해 컨텐츠가 포함되어 있지 않은 웹 컨텐츠로 분류되는 경우, 상기 소문자로 변환된 텍스트에 기 정의된 치명 단어(critic word)가 포함되어 있는지 여부를 검사하는 단계; 및
    c-5) 상기 소문자로 변환된 텍스트에 상기 치명 단어가 포함되어 있지 않은 경우, 상기 소문자로 변환된 텍스트에 기 정의된 유해 단어(bad word)가 기 설정된 개수 이상 포함되어 있는지 여부를 검사하는 단계를 포함하는 인공지능 자연어 처리를 이용한 사이트 차단 방법.
  9. 사용자 입력을 수신하고 및 사용자에게 특정 정보를 출력하는 사용자 입출력부;
    네트워크를 통해 외부 장치 또는 시스템과 연결하는 네트워크 입출력부;
    인공지능 자연어 처리를 이용한 유해 컨텐츠 포함 사이트 차단 어플리케이션을 저장하는 메모리; 및
    웹 사이트 주소에 대응하는 웹 서버에 접속하는 경우, 상기 인공지능 자연어 처리를 이용한 유해 컨텐츠 포함 사이트 차단 어플리케이션을 실행하는 프로세서를 포함하되,
    상기 프로세서는 상기 어플리케이션을 실행하여
    상기 웹 서버에서 수신된 데이터에 인증서가 포함되어 있지 않거나 수신된 인증서가 유효하지 않은 경우, 해당 웹 서버에 대응되는 웹 사이트 주소가 화이트리스트에 포함되어 있는지 여부를 검사하며,
    상기 웹 사이트 주소가 화이트리스트에 포함되어 있지 않은 경우, 상기 웹 서버에서 하이퍼텍스트로 인코딩 된 웹 컨텐츠 데이터를 수신하여 파싱하고,
    상기 웹 컨텐츠 데이터에서 메타(meta) 태그에 포함된 정보를 추출하여 인공지능 기반의 자연어 검사를 수행하고, 상기 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사하고,
    상기 유해 컨텐츠의 포함 여부 검사는
    상기 메타 태그에서 타이틀(title) 태그에 포함된 정보를 추출하고 인공지능 기반의 자연어 검사 및 단어 검사를 수행하여, 상기 웹 컨텐츠에 기 정의된 유해 컨텐츠가 포함되어 있는지 여부를 검사하되,
    상기 타이틀 태그에 텍스트의 포함 여부를 체크하고,
    상기 타이틀 태그에 텍스트가 포함되어 있는 경우, 상기 텍스트를 추출하여 소문자로 변환하며,
    상기 소문자로 변환된 텍스트에 대해 인공지능 기반의 자연어 검사를 수행하여 해당 텍스트의 의미 속성을 분류하고, 상기 분류된 의미 속성을 기초로 유해 컨텐츠가 포함되어 있는지 여부를 검사하고,
    상기 분류된 속성을 기초로 유해 컨텐츠가 포함되어 있지 않은 웹 컨텐츠로 분류되는 경우, 상기 소문자로 변환된 텍스트에 기 정의된 치명 단어(critic word)가 포함되어 있는지 여부를 검사하며,
    상기 소문자로 변환된 텍스트에 상기 치명 단어가 포함되어 있지 않은 경우, 상기 소문자로 변환된 텍스트에 기 정의된 유해 단어(bad word)가 기 설정된 개수 이상 포함되어 있는지 여부를 검사하는 것을 특징으로 하는 인공지능 자연어 처리를 이용하여 사이트 차단을 수행하는 단말기.
KR1020210163911A 2021-11-25 2021-11-25 인공지능 자연어 처리를 이용한 사이트 차단 방법 및 이를 이용하여 사이트 차단을 수행하는 단말기 KR102503204B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210163911A KR102503204B1 (ko) 2021-11-25 2021-11-25 인공지능 자연어 처리를 이용한 사이트 차단 방법 및 이를 이용하여 사이트 차단을 수행하는 단말기

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210163911A KR102503204B1 (ko) 2021-11-25 2021-11-25 인공지능 자연어 처리를 이용한 사이트 차단 방법 및 이를 이용하여 사이트 차단을 수행하는 단말기

Publications (1)

Publication Number Publication Date
KR102503204B1 true KR102503204B1 (ko) 2023-02-24

Family

ID=85330129

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210163911A KR102503204B1 (ko) 2021-11-25 2021-11-25 인공지능 자연어 처리를 이용한 사이트 차단 방법 및 이를 이용하여 사이트 차단을 수행하는 단말기

Country Status (1)

Country Link
KR (1) KR102503204B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010097250A (ko) * 2000-04-21 2001-11-08 김태주 유해사이트의 접속차단 서비스 제공장치 및 방법
KR20090022406A (ko) * 2007-08-30 2009-03-04 주식회사 제이니스 유해 사이트 차단 방법 및 시스템
KR101200906B1 (ko) 2011-04-27 2012-11-13 (주)소만사 네트워크 기반 고성능 유해사이트 차단 시스템 및 방법
KR20200118712A (ko) * 2019-04-08 2020-10-16 한전케이디엔주식회사 머신러닝과 자연어처리 기술을 활용한 사이버위협 탐지 방법
KR20210051725A (ko) * 2019-10-31 2021-05-10 김민석 인공지능 기반의 유해 컨텐츠 차단 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010097250A (ko) * 2000-04-21 2001-11-08 김태주 유해사이트의 접속차단 서비스 제공장치 및 방법
KR20090022406A (ko) * 2007-08-30 2009-03-04 주식회사 제이니스 유해 사이트 차단 방법 및 시스템
KR101200906B1 (ko) 2011-04-27 2012-11-13 (주)소만사 네트워크 기반 고성능 유해사이트 차단 시스템 및 방법
KR20200118712A (ko) * 2019-04-08 2020-10-16 한전케이디엔주식회사 머신러닝과 자연어처리 기술을 활용한 사이버위협 탐지 방법
KR20210051725A (ko) * 2019-10-31 2021-05-10 김민석 인공지능 기반의 유해 컨텐츠 차단 장치

Similar Documents

Publication Publication Date Title
Lucas et al. Computer-assisted text analysis for comparative politics
US8346532B2 (en) Managing the creation, detection, and maintenance of sensitive information
KR100996311B1 (ko) 스팸 ucc를 감지하기 위한 방법 및 시스템
JP6042541B2 (ja) セキュリティ情報管理システム、セキュリティ情報管理方法及びセキュリティ情報管理プログラム
Ford et al. Getting to the source: where does Wikipedia get its information from?
US11948113B2 (en) Generating risk assessment software
US10216831B2 (en) Search results summarized with tokens
US20130275438A1 (en) Disambiguating authors in social media communications
JP6605022B2 (ja) 経験属性による体系化されていないデータのソースの分析、選定、及び取り込みのためのシステム及びプロセス
US8676791B2 (en) Apparatus and methods for providing assistance in detecting mistranslation
US11086830B2 (en) System and method for identifying duplicate document submission on a publishing platform
US20170011480A1 (en) Data analysis system, data analysis method, and data analysis program
CN114883005A (zh) 一种数据分类分级方法、装置、电子设备和存储介质
Wang et al. Validating multimedia content moderation software via semantic fusion
KR102503204B1 (ko) 인공지능 자연어 처리를 이용한 사이트 차단 방법 및 이를 이용하여 사이트 차단을 수행하는 단말기
US11222143B2 (en) Certified information verification services
WO2016107240A1 (zh) 一种用于对用户进行验证的方法和装置
Susuri et al. Machine learning based detection of vandalism in wikipedia across languages
US10223756B2 (en) Electronic message redacting
Bing et al. Unsupervised extraction of popular product attributes from web sites
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
Hale et al. Analyzing misinformation claims during the 2022 brazilian general election on whatsapp, twitter, and kwai
KR102081553B1 (ko) 문화 매체를 위한 홍보 컨텐츠의 빅데이터 기반 모니터링 시스템
JP6191277B2 (ja) 情報処理装置、情報処理方法、プログラム
Ma et al. “Hello, Fellow Villager!”: Perceptions and Impact of Displaying Users’ Locations on Weibo

Legal Events

Date Code Title Description
GRNT Written decision to grant