KR102169143B1

KR102169143B1 - 유해 콘텐츠 웹 페이지 url 필터링 장치

Info

Publication number: KR102169143B1
Application number: KR1020190041821A
Authority: KR
Inventors: 전광길
Original assignee: 인천대학교 산학협력단
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2020-10-23
Also published as: KR20200119534A

Abstract

본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치는, 로컬 다국어 어휘 사전, 유해 콘텐츠가 없는 웹 페이지를 포함하는 화이트리스트 클래스들을 포함하는 화이트리스트 및 유해 콘텐츠가 있는 웹 페이지를 포함하는 블랙리스트 클래스들을 포함하는 블랙리스트를 저장하고 있는 로컬 온톨로지; URL에 대한 사용자의 요청이 있는 경우, 상기 로컬 온톨로지의 로컬 다국어 어휘 사전, 화이트리스트 및 블랙리스트를 참조하여 해당 URL에 대한 평가 값을 계산하여 해당 URL의 웹 페이지의 허용 또는 차단 여부를 결정하고 해당 URL의 웹 페이지의 허용 또는 차단과 관련된 응답을 출력하며, URL이 처리될 때마다 해당 URL을 제목, 메타 데이터 및 평가 값과 함께 상기 로컬 온톨로지에 저장하기 위한 웹 필터링 시스템; 및 URL에 대한 사용자의 요청을 수신하여 상기 웹 필터링 시스템에 제공하고, 상기 웹 필터링 시스템에 의해 출력되는 해당 URL의 웹 페이지의 허용 또는 차단과 관련된 응답을 사용자에게 반환하는 레스트풀(Restful) 웹 서비스 모듈을 포함한다.

Description

유해 콘텐츠 웹 페이지 URL 필터링 장치{APPARATUS FOR FILTERING URL OF HARMFUL CONTENT WEB PAGES}

본 발명은 온톨로지 기반 다국어 URL 필터링 장치에 관한 것이다.

월드와이드웹(WWW: World Wide Web)은 모든 웹 소비자가 손쉽게 이용할 수 있는 다양한 콘텐츠 저장소로 거듭나게 되었다. 이 빅 데이터 저장소는 충분한 정보로 구성되어 있으며 그 중 상당 부분이 일부 소비자에게 불쾌하거나, 유해하거나 비 윤리적일 수 있다. 일반적으로 음란물이나 논쟁의 여지가 있는 내용이 들어있는 웹 사이트와 같은 부적절하거나 침입하는 자료의 접근을 막기 위해서는 필터링 시스템을 사용하는 중앙 제어기가 필요하다[1].

URL 필터링은 정보 통신 기술(ICT) 영역에서 흥미로운 주제이다. 윤리적으로나 사회적으로 사용자의 영역에 적합하지 않은 자료에 대한 액세스를 제한해야 한다. 이런 종류의 시나리오에서 그러한 내용을 필터링할 수 있는 시스템의 필요성이 강하게 대두된다. 이 시스템은 매우 단순한 원리로 작동한다. 일치하는 경우 스크리닝되는 바람직하지 않은 내용을 나타내는 문자 또는 문구를 지정한다. 이러한 기술은 더 단순해 보일 수 있지만 필터링을 위해 처리되는 정보의 양은 실시간 처리에 몇 가지 어려움을 낳는다.

많은 연구자들이 필터링 시스템 영역에 기여했으며, 그들의 연구는 다섯 가지 범주로 나눌 수 있다.

1. 브라우저 기반 필터링 시스템, 이메일 필터링과 같은 클라이언트 측 소프트웨어 기반 필터링

2. 컴퓨터에 소프트웨어 패키지 설치

3. 로컬 네트워크에 필터를 사용하는 프록시 서버와 같은 네트워크 구성을 통해

4. 인터넷 서비스 제공 업체(ISP)를 통한 필터링

5. 검색 엔진 또는 웹 서버 기반 필터링

한편, 콘텐츠 필터링은 원하지 않는 정보에 대한 액세스를 차단하는 데 사용되어 각 범주에서 이러한 문제를 완화하기 위한 추가 계층으로 구현된다. 화이트리스트/블랙리스트[2], 로컬 데이터베이스[3], 세션 기반 휴리스틱스[4]와 같은 필터링 기술의 발전에도 불구하고 진화와 동적 콘텐츠와 같은 기술적 한계로 인해 이러한 접근법에는 여전히 결함이 있다.

가장 간단한 기술인 URL 필터링은 빠른 처리의 가장 큰 이점을 가진 URL 평가를 기반으로 한다. 그러나 URL 기반 분류는 많은 URL이 실제 웹 페이지 콘텐츠를 반영하지 않기 때문에 효율적으로 작동하지 않는다. 이러한 제한을 처리하기 위해 콘텐츠 분석에 기반하여 분류가 수행되는 경우 콘텐츠 기반 필터링 또는 동적 필터링[5] 기술이 사용된다. 먼저, 학습 모델, 데이터 마이닝 기법 등과 같은 지능형 알고리즘을 이용하여 페이지의 내용을 분석한 후, 페이지를 콘텐츠 특징에 따라 분류한다. 이 접근법은 철저한 처리가 필요하고 필터링하는 동안 대기 시간과 지연이 발생하므로 분류 정확도는 이 접근법에서 더 높다. 웹 페이지의 다른 링크 및 HTML 태그에는 분류와 관련하여 사용할 수 있는 많은 정보가 포함되어 있다. 마찬가지로 이미지/비디오 기반 필터링/차단 기술은 외설적이거나 바람직하지 않은 콘텐츠에 대한 사용자 액세스를 제한하는데도 사용된다. 이러한 기술은 다양한 신경망 분류 알고리즘을 사용하여 웹 페이지에서 불쾌하거나 유해한 이미지를 감지하고 이러한 페이지를 필터링하여 표시한다.

필터링 시스템은 일반적으로 MIME 구조, 텍스트 인코딩, 이미지, HTML 구조, 피싱(phish) URL, 불량 프레이징(phrasing) 및 URL 평판 등의 여러 작업을 수행한다[6]. URL 기반 필터링을 사용하는 주된 이점은 들어오는 인터넷 트래픽을 필터링하는 속도이지만 이러한 접근 방식 중 일부는 원하는 정확도가 부족할 수 있다. URL 기반 및 콘텐츠 기반 필터링을 모두 사용하는 접근 방식이 몇 가지 있다. 먼저 URL을 분석한 다음 긍정적인 탐지의 경우 콘텐츠를 분석한다. 그런 다음 특정 URL을 차단할지 또는 필터를 통과시킬지 여부와 관계없이 내용을 분석한 후 결정이 내려진다[7]. 이 방법은 정확도가 높지만 모든 의심스러운 URL 콘텐츠를 분석하는 것은 시간과 처리 측면에서 비용이 많이 든다. 대부분 URL 기반 필터링 시스템보다 빠르게 작동하는 콘텐츠 기반 필터링 시스템은 없다.

마찬가지로 음란물에 대한 이미지 분석은 그 자체가 복잡하고 때로는 정확하지 않은 복잡한 작업이다. 멀티미디어 콘텐츠에 관한 한, 많은 접근법은 이미지 또는 프레임에서 피부 감지를 사용하고 이미지를 음란물로 분류할 수 있는 신경망을 사용한다. 내용 기반 이미지 검색 기술은 비특허문헌 [8] 내지 [10[에서 내용을 분류하기 위해 문헌에서 사용된다. 이러한 접근 방식은 정확성뿐만 아니라 우수한 처리량으로 유망한 결과를 보여준다.

웹 콘텐츠 필터링은 인터넷상의 선택적 콘텐츠 노출을 제한하는 많은 기술 중 하나이다. 시간이 지남에 따라 사소한 문제가 발생하지만 다국어 웹 콘텐츠를 필터링하는 것은 여전히 어려운 작업이다. 특히 빅 데이터 환경을 고려해야한다. 데이터의 엄청난 양은 실시간으로 작동할 수 있는 효과적인 콘텐츠 필터링 시스템 개발의 과제를 증가시킨다. 불쾌하거나 유해한 콘텐츠를 갖는 사이트를 식별하기 위해 인공 지능 기법을 기반으로 URL을 필터링할 수 있는 여러 시스템이 있다. 이러한 시스템의 대부분은 영어로만 URL을 분류한다. 이러한 시스템은 다국어 URL이 처리되거나 과도한 차단이 발생한 경우 대응하지 못한다.

따라서 다국어로 된 URL을 신속하고 정확하게 필터링할 수 있는 장치에 대한 요구가 존재한다.

KR

10-2004-0002656

A

[1] Dalek J, Haselton B, Noman H, Senft A, Crete-Nishihata M, Gill P, Deibert RJ (2013) A method for identifying and confirming the use of URL filtering products for censorship. In: Proceedings of the 2013 Conference on Internet Measurement Conference. ACM, pp 23-30 [2] Ma J, Saul LK, Savage S, Voelker GM (2009) Beyond blacklists: learning to detect malicious web sites from suspicious URLs. In: Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, pp 1245-1254 [3] Cowings D, Hoogstrate D, Jensen S, Medlar A, Schneider K (2012) U.S. Patent No. 8,145,710. U.S. Patent and Trademark Office, Washington [4] Srivastava M, Garg R, Mishra P (2014) Preprocessing techniques in web usage mining: a survey. Int J Comput Appl 97(18):1-9 [5] Huang D, Xu K, Pei J (2014) Malicious URL detection by dynamically mining patterns without predefined elements. World Wide Web 17(6):1375-1394 [6] Chandrinos K, Androutsopoulos I, Paliouras G, Spyropoulos C (2000) Automatic web rating: filtering obscene content on the web. In: Research and Advanced Technology for Digital Libraries, pp 403-406 [7] Lee LH, Juan YC,Chen HH, TsengYH(2013) Objectionable content filtering by click-through data. In: Proceedings of the 22nd ACMInternational Conference on Information and Knowledge Management. ACM, pp 1581-1584 [8] Zhou Z, Song T, Jia Y (2010) A high-performance url lookup engine for url filtering systems. In: 2010 IEEE International Conference on Communications (ICC). IEEE, pp 1-5 [9] Zheng H, Liu H, DaoudiM(2004) Blocking objectionable images: adult images and harmful symbols. In: 2004 IEEE International Conference on Multimedia and Expo, 2004. ICME’04, vol. 2. IEEE, pp 1223-1226 [10] Liu BB, Su JY, Lu ZM, Li Z (2008) Pornographic images detection based on CBIR and skin analysis. In: Fourth International Conference on Semantics, Knowledge and Grid, 2008. SKG’08. IEEE, pp 487-488 [11] Mahmood K, Takahashi H, Raza A, Qaiser A, Farooqui A (2015) Semantic based highly accurate autonomous decentralized URL classification system for Web filtering. In: 2015 IEEE twelfth international symposium on autonomous decentralized systems (ISADS). IEEE, pp 17-24

본 발명이 해결하고자 하는 과제는 다국어로 된 URL을 신속하고 정확하게 필터링할 수 있는 장치를 제공하는 것이다.

상기 과제를 해결하기 위한 본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치는,

로컬 다국어 어휘 사전, 유해 콘텐츠가 없는 웹 페이지를 포함하는 화이트리스트 클래스들을 포함하는 화이트리스트 및 유해 콘텐츠가 있는 웹 페이지를 포함하는 블랙리스트 클래스들을 포함하는 블랙리스트를 저장하고 있는 로컬 온톨로지;

URL에 대한 사용자의 요청이 있는 경우, 상기 로컬 온톨로지의 로컬 다국어 어휘 사전, 화이트리스트 및 블랙리스트를 참조하여 해당 URL에 대한 평가 값을 계산하여 해당 URL의 웹 페이지의 허용 또는 차단 여부를 결정하고 해당 URL의 웹 페이지의 허용 또는 차단과 관련된 응답을 출력하며, URL이 처리될 때마다 해당 URL을 제목, 메타 데이터 및 평가 값과 함께 상기 로컬 온톨로지에 저장하기 위한 웹 필터링 시스템; 및

URL에 대한 사용자의 요청을 수신하여 상기 웹 필터링 시스템에 제공하고, 상기 웹 필터링 시스템에 의해 출력되는 해당 URL의 웹 페이지의 허용 또는 차단과 관련된 응답을 사용자에게 반환하는 레스트풀(Restful) 웹 서비스 모듈을 포함한다.

본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치는, 워드넷(WordNet)과 위키톨로지(Wikitology)를 포함하는 야고(YAGO) 온톨로지를 더 포함하고,

상기 로컬 온톨로지가 해당 URL의 제목 및 메타 데이터의 개념을 포함하고 있지 않아 상기 웹 필터링 시스템이 상기 로컬 온톨로지를 참조하여 해당 URL의 웹 페이지에 대한 허용 또는 차단 여부를 결정할 수 없는 경우, 상기 웹 필터링 시스템은, 해당 URL의 제목 및 메타 데이터의 개념을 포함하고 있는 상기 야고 온톨로지를 참조하여 해당 URL의 클래스를 결정하고, 해당 URL의 클래스에 기반하여 해당 URL의 허용 또는 차단 여부를 결정할 수 있다.

또한, 본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치에 있어서, 상기 웹 필터링 시스템은, 상기 야고 온톨로지를 참조하여 해당 URL의 클래스를 결정하여 해당 URL의 허용 또는 차단 여부를 결정하는 경우, 추후 동일한 URL에 대한 허용 또는 차단 여부를 신속하게 결정하기 위하여, 해당 URL을 제목, 메타 데이터 및 평가 값과 함께 상기 로컬 온톨로지에 저장할 수 있다.

또한, 본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치에 있어서, 상기 웹 필터링 시스템은, 상기 URL이 처음 인지된 URL인 경우, 월드와이드웹(WWW)으로부터 해당 URL의 웹 페이지를 획득하고, 상기 로컬 온톨로지의 로컬 다국어 어휘 사전, 화이트리스트 및 블랙리스트에 기반하여 해당 URL, 해당 URL의 <head> 섹션으로부터 획득한 제목 및 메타 데이터 각각에 대한 평가 값을 계산하며, 상기 계산된 URL, 제목 및 메타 데이터 각각의 평가 값을 결합하여 하나의 최종 평가 값을 계산하고, 상기 최종 평가 값에 기반하여 해당 URL의 허용 또는 차단 여부를 결정할 수 있다.

본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치에 의하면, 다국어로 된 URL을 신속하고 정확하게 필터링할 수 있다.

도 1은 유니폼 리소스 로케이터를 설명하기 위한 도면.
도 2는 예시적인 화이트리스트 클래스들을 도시한 도면.
도 3은 예시적인 블랙리스트 클래스들을 도시한 도면.
도 4는 본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치를 도시한 도면.
도 5는 본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치의 필터링 동작을 설명하기 위한 도면.
도 6은 평가를 위한 데이터 세트를 도시한 도면.
도 7은 예시적인 SPARQL 질의를 도시한 도면.
도 8은 예시적인 포르노 클래스의 레코드들을 도시한 도면.
도 9는 온톨로지에 의한 URL의 예시적인 헤딩(heading) 및 메타 데이터를 도시한 도면.
도 10은 제목 부분에 "sex"라는 단어를 가진 URL들을 도시한 도면.

본 발명의 목적, 특정한 장점들 및 신규한 특징들은 첨부된 도면들과 연관되어지는 이하의 상세한 설명과 바람직한 실시예들로부터 더욱 명백해질 것이다.

이에 앞서 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이고 사전적인 의미로 해석되어서는 아니되며, 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있는 원칙에 입각하여 본 발명의 기술적 사상에 부합되는 의미와 개념으로 해석되어야 한다.

본 명세서에서 각 도면의 구성요소들에 참조번호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다.

또한, "제1", "제2", "일면", "타면" 등의 용어는, 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 상기 용어들에 의해 제한되는 것은 아니다.

이하, 본 발명을 설명함에 있어, 본 발명의 요지를 불필요하게 흐릴 수 있는 관련된 공지 기술에 대한 상세한 설명은 생략한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시형태를 상세히 설명하기로 한다.

본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치는, 웹 페이지의 URL, 제목 및 메타 데이터에 대한 사전 정의된 기준에 따라 다국어 URL을 분류할 수 있는 필터링 시스템이다. 필터링 기준을 충족시키지 못하는 URL을 차단하는 어려운 작업을 용이하게 하기 위해 로컬(현지) 다국어 어휘 사전과 함께 온톨로지 방식을 지식 기반으로 사용한다. 본 발명은 다국어 URL을 화이트와 블랙의 두 가지 범주로 분류할 때 높은 정확성을 보여준다. 대규모 데이터 세트에 대해 수행된 평가 결과는 제안된 시스템이 시맨틱 기반 URL 필터링에 관한 최첨단 문헌에서 얻은 것과 동등한 유망한 정확도를 달성한다는 것을 보여준다.

또한, 본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치는, 대규모 데이터 세트에 대해 빠르고 효율적이며 정확한 시스템의 요구 사항을 충족하는 의미 기반 다국어 URL 필터링 시스템이다. 거대한 지식 기반 필터링을 위한 보다 높은 처리량을 얻기 위해, 본 발명의 제안된 프레임워크는 캐시 구현을 통합하기 위해 사용자의 URL 요청을 캐시오닉스(Cacheonix) API를 사용하여 가져온다. 화이트리스트 또는 블랙리스트와 같은 대규모 URL 분류를 위해 본 발명에서는 레스트풀(RESTful) 웹 서비스를 통해 URL의 클래스를 할당하는 시맨틱 웹 기술을 사용한다. 이 기술은 특정 URL에 대해 블랙 클래스 또는 화이트 클래스를 반환한다.

본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치

본 발명에서 제안된 프레임워크는 URL 텍스트, 제목을 포함하는 <head> 태그의 내용 및 웹 페이지의 메타 태그를 활용하는 온톨로지 기반 다국어 URL 필터링 장치를 기반으로 한다. 본 발명의 일 실시예에 의한 온톨로지 기반 URL 필터링 장치는 웹 페이지에서 불쾌하거나 유해한 콘텐츠의 유무에 따라 웹 페이지를 화이트리스트 또는 블랙리스트로 분류할 수 있다. 본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치는, 온톨로지(로컬 온톨로지, YAGO2 온톨로지)와 다국어 어휘 사전을 사용한다.

유니폼 리소스 로케이터(URL)

URL은 uniform resource locator의 약자이며 인터넷의 리소스에 대한 참조로 사용된다. 이러한 리소스는 문서, 이미지 또는 다른 내용이 포함된 웹 페이지를 포함하여 어떤 것도 될 수 있다. 사용자는 브라우저의 주소 표시 줄에 URL을 입력하여 웹 사이트를 방문한다.

URL에는 두 가지 주요 구성 요소가 있다. 하나는 프로토콜 식별자이고 다른 하나는 리소스 이름이다. URL http://example.com의 경우 프로토콜 식별자는 "http"이고 리소스 이름은 example.com이다. HTTP, HTTPS 및 FTP는 가장 많이 사용되는 프로토콜 식별자이다. 도 1은 URL과 그 구성 요소를 보여준다.

웹 페이지의 <head> 태그

웹 페이지의 <head> 섹션은 HTML 페이지의 모든 head 요소에 대한 컨테이너이다. 이 섹션에는 스타일 시트, 스타일, 메타, 링크, 스크립트, 정보 등 다양한 유형의 스크립트가 있다.

HTML 문서의 예는 다음과 같다.

<html>

<head>

<title>This is title of the document</title>

</head>

</html>

<title> 및 <meta> 태그는 본 발명의 프레임워크에서 사용되는 기본 태그이다. 웹 페이지의 제목은 <title> 태그에 정의되는데 그것은 브라우저 툴바에 명확하게 표시되어 있다. 메타 요소는 일반적으로 페이지 키워드, 설명, 문서 작성자 및 기타 메타 데이터를 지정하는 데 사용된다. 이것은 검색 엔진이나 다른 웹 서비스에서 사용할 수 있다.

검색 엔진에 대한 키워드 정의는 다음과 같다.

웹 페이지에 대한 설명을 기술하는 것은 다음과 같다.

외설스러운 내용 온톨로지

온톨로지는 정의된 관계에 의해 상호 연관되는 개념의 계층에 의해 일반적으로 구성되는 대상 도메인을 나타내는 공식적인 모델이다. 철학적으로, 그것이 존재하는 것처럼 존재하거나 존재하는 것에 대해 묻는 것이다. 이것은 기본적으로 텍스트 인코딩 지침에 따라 XML로 주어진 엔티티 간의 관계를 표현한다. 온톨로지는 설명을 암시적으로 용이하게 하고 관심있는 개념에서 숨겨진 관계를 용이하게 하는 표현이다.

클래스는 명시적일 수 있는 공통된 특징을 가진 개별 그룹을 나타낸다. 본 발명에서는 웹 페이지를 화이트리스트와 블랙리스트의 두 가지 범주로 나눈다. 본 발명의 제안된 시스템에서, 화이트리스트와 블랙리스트 개념에 대한 온톨로지는 프로테제(protege) 툴을 사용하여 모델링된다.

화이트리스트 클래스

화이트리스트 클래스에는 불쾌하거나 유해한 콘텐츠를 포함하지 않는 웹 페이지가 포함된다. 화이트리스트 클래스들은 본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치에 의해 유효한 URL로 분류된다. 이러한 클래스와 관련된 URL이 시스템에 제공되면 이러한 웹 페이지의 내용을 최종 사용자에게 표시할 수 있다.

도 2에 제시된 클래스들, 서브클래스들 및 이들 사이의 연관들의 제안된 세트는 화이트리스트 클래스들로 분류될 수 있는 그러한 클래스들의 서브 세트일 뿐이다. 이 온톨로지는 화이트리스트 콘텐츠로 분류될 수 있는 다른 클래스 및 콘텐츠를 포함하도록 확장될 수 있다.

블랙리스트 클래스

블랙리스트 클래스는 불쾌하거나 유해한 콘텐츠가 있는 웹 페이지를 포함한다. 이러한 콘텐츠를 가지고 있는 URL이 시스템에 공급되면 사용자는 그러한 콘텐츠에 대한 액세스가 거부된다.

도 3은 블랙리스트 클래스에 대한 온톨로지를 제공하며, 대상 URL은 이 온톨로지에 정의된 클래스를 사용하여 분류된다. 시연된 블랙리스트클래스와 그 서브클래스는 해당 카테고리 아래에 배치할 수 있는 전체 클래스의 서브세트 뷰 만을 제공한다.

본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치의 구조

도 4에 도시된 본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치는, 로컬 다국어 어휘 사전, 유해 콘텐츠가 없는 웹 페이지를 포함하는 화이트리스트 클래스들을 포함하는 화이트리스트 및 유해 콘텐츠가 있는 웹 페이지를 포함하는 블랙리스트 클래스들을 포함하는 블랙리스트를 저장하고 있는 로컬 온톨로지(402), URL에 대한 사용자(408)의 요청이 있는 경우, 상기 로컬 온톨로지(402)의 로컬 다국어 어휘 사전, 화이트리스트 및 블랙리스트를 참조하여 해당 URL에 대한 평가 값을 계산하여 해당 URL의 웹 페이지의 허용 또는 차단 여부를 결정하고 해당 URL의 웹 페이지의 허용 또는 차단과 관련된 응답을 출력하며, URL이 처리될 때마다 해당 URL을 제목, 메타 데이터 및 평가 값과 함께 상기 로컬 온톨로지(402)에 저장하기 위한 웹 필터링 시스템(400), URL에 대한 사용자(408)의 요청을 수신하여 상기 웹 필터링 시스템(400)에 제공하고, 상기 웹 필터링 시스템(400)에 의해 출력되는 해당 URL의 웹 페이지의 허용 또는 차단과 관련된 응답을 사용자(408)에게 반환하는 레스트풀(Restful) 웹 서비스 모듈(406), 및 워드넷(WordNet)과 위키톨로지(Wikitology)를 포함하는 야고(YAGO) 온톨로지(404)를 포함한다.

상기 로컬 온톨로지(402)가 해당 URL의 제목 및 메타 데이터의 개념을 포함하고 있지 않아 상기 웹 필터링 시스템(400)이 상기 로컬 온톨로지(402)를 참조하여 해당 URL의 웹 페이지에 대한 허용 또는 차단 여부를 결정할 수 없는 경우, 상기 웹 필터링 시스템(400)은, 해당 URL의 제목 및 메타 데이터의 개념을 포함하고 있는 상기 야고 온톨로지(404)를 참조하여 해당 URL의 클래스를 결정하고, 해당 URL의 클래스에 기반하여 해당 URL의 허용 또는 차단 여부를 결정한다.

상기 웹 필터링 시스템(400)은, 상기 야고 온톨로지(404)를 참조하여 해당 URL의 클래스를 결정하여 해당 URL의 허용 또는 차단 여부를 결정하는 경우, 추후 동일한 URL에 대한 허용 또는 차단 여부를 신속하게 결정하기 위하여, 해당 URL을 제목, 메타 데이터 및 평가 값과 함께 상기 로컬 온톨로지(402)에 저장한다.

상기 웹 필터링 시스템(400)은, 상기 URL이 처음 인지된 URL인 경우, 월드와이드웹(WWW)으로부터 해당 URL의 웹 페이지를 획득하고, 상기 로컬 온톨로지(402)의 로컬 다국어 어휘 사전, 화이트리스트 및 블랙리스트에 기반하여 해당 URL, 해당 URL의 <head> 섹션으로부터 획득한 제목 및 메타 데이터 각각에 대한 평가 값을 계산하며, 상기 계산된 URL, 제목 및 메타 데이터 각각의 평가 값을 결합하여 하나의 최종 평가 값을 계산하고, 상기 최종 평가 값에 기반하여 해당 URL의 허용 또는 차단 여부를 결정한다.

상기와 같이 구성된 본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치에 대한 동작 설명은 다음과 같다.

1단계: 처음에 사용자(408)는 웹에서 요청에 대한 응답을 가져오는 레스트풀(Restful: Representational State Transfer) 웹 서비스 모듈(406)로 URL에 대한 요청을 보낸다.

2단계: URL에 대한 사용자의 요청은 레스트풀 웹 서비스 모듈(406)을 통해 웹 필터링 시스템(400)으로 전송된다. 상기 웹 필터링 시스템(400)은 월드와이드웹(410)(WWW: World Wide Web)에서 웹 페이지를 가져 오지 않고 로컬 온톨로지(402)의 화이트리스트/블랙리스트에서 URL을 찾는다.

URL이 있으면 요청이 성공적으로 완료되고 제1 결정부(412)에 의한 결정(허용/차단)이 웹 서비스(406)로 반환된다. URL이 처리될 때마다 이 URL을 제목, 메타 데이터, 평가 값 및 기타 매개 변수와 함께 로컬 온톨로지(402)에 저장한다. 다음 번에 동일한 URL이 발생하면 처리없이 URL의 유형으로 직접 응답한다. 이것은 시스템의 성능을 향상시킨다. 본 발명의 일 실시예에서 제1 결정부(412) 및 제2 결정부(414)는 웹 필터링 시스템(400)에 포함된다.

3단계: 이 단계는 웹 필터링 시스템(400)이 URL을 처음으로 발견할 때 실행된다. 여기서 웹 페이지의 제목과 메타 데이터는 월드와이드웹(410)에서 가져온다. 웹 필터링 시스템(400)의 문자열 분리기(미도시)는 텍스트에 존재할 수 있는 분리 문자 옵션의 최대 값을 사용하여 URL, 제목 및 메타 데이터 문자열을 분리하여 단어를 분리하는 데 사용된다.

순수한 주제 관련 문자열을 얻으려면 www, http, https, .com, .org, .edu, .pk, .fr, .de 등과 같은 URL 문자열의 일반적인 값을 무시한다. 그런 다음 웹 필터링 시스템(400)은 URL에 대한 결정을 내리기 위해 URL, 제목 및 메타 데이터에서 가져오는 모든 단어를 사용하며 제1 결정부(412)에 의한 결정(허용/차단)이 레스트풀 웹 서비스 모듈(406)로 전송된다.

4단계: 웹 필터링 시스템(400)이 로컬 온톨로지(402)의 지원 단어를 사용하여 결정을 내릴 수 없는 경우 야고(YAGO2) 온톨로지(404)가 추가 분석을 위해 호출된다. 야고(YAGO) 온톨로지(404)는 워드넷(WordNet)과 위키톨로지(Wikitology)의 조합을 포함한다. URL 클래스는 YAGO 온톨로지(404)를 통해 결정된다. URL과 단어가 평가 값, 화이트리스트 클래스 또는 블랙리스트 클래스 및 기타 매개 변수와 함께 로컬 온톨로지(404)에 추가된다.

5단계: 레스트풀 웹 서비스(Restful Web Service) 모듈(406)을 통해 허용 또는 차단된 응답이 사용자(408)에게 반환된다.

필터링 메커니즘

본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치는 웹 페이지의 <head> 섹션에 있는 URL 기능과 콘텐츠를 사용하여 URL, 웹 페이지 제목 및 메타 데이터와 같은 원하지 않는 웹 페이지를 필터링한다. 본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치의 동작은 도 5에 나와 있다.

본 발명의 일 실시예에서는 두 가지 유형의 다국어 어휘 사전을 화이트리스트와 블랙리스트라고 부른다. 첫 번째로 요청된 URL을 얻고 이 URL 문자열을 분할하여 http, https, .com, .edu 등과 같은 미리 정의된 단어를 무시하고 URL에서 단어를 가져온 다음 어휘 사전에서 해당 단어를 확인한다. 이것은 URL 기반 결정에 도움이 될 것이다. 위에 정의된 바와 같이 HTML에는 많은 태그가 있다. <Head> 섹션에는 페이지의 제목과 메타 데이터에 대한 정보가 있다. 웹 페이지 콘텐츠에는 모든 유형의 HTML 태그가 있기 때문에 URL 기반 필터링은 웹 페이지의 콘텐츠 필터링보다 훨씬 빠르다.

제목과 메타 태그가 페이지를 더 정교하게 만들기 때문에 <head> 섹션을 기반으로 하는 필터링은 URL 기반보다 더 상세하다. 예를 들어 원치 않는 단어를 포함하지만 제목과 메타 데이터가 의료와 관련된 것을 포함하는, 의학 관련 URL이 있는 경우 새로운 사실을 기반으로 필터링 결정을 변경해야 한다.

본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치의 필터링 알고리즘

도 5를 참조하여, URL 필터링 알고리즘이 설명된다.

단계 S500에서, 웹 필터링 시스템(400)이 브라우저의 주소 표시 줄에 사용자(408)가 입력한 URL을 웹 필터링 시스템(400)의 입력으로 가져온다. 특정 URL이 이미 분류되어 일부 클래스의 인스턴스로 존재하는 경우 URL을 허용 또는 차단할지 여부를 결정한다. 이것은 이미 분류된 URL을 재평가하지 않음으로써 웹 필터링 시스템(400)의 성능을 보장하기 위한 것이다.

웹 필터링 시스템(400)이 URL을 처음으로 발견하면 웹 페이지의 <head> 섹션으로부터 URL, 제목 및 메타 데이터를 가져와서(단계 S502), URL, 제목 및 메타 데이터 각각에 대한 평가 값을 계산한다(단계 S504). 그런 다음 URL, 제목 및 메타 데이터 각각의 평가 값을 집계하여 하나의 최종 평가 값을 계산한다(단계 S506).

그 개념들 중 어떤 것이 야고(YAGO) 온톨로지(404)에서 빌린 개념 중 하나인 경우, 웹 필터링 시스템(400)은 해당 목적을 위해 야고(YAGO) 온톨로지(404)를 참조한다.

단계 S508에서 웹 필터링 시스템(400)은 최종 평가 값을 임계값인 0.4와 비교한다.

최종 평가 값이 임계 값 0.4를 초과하면, 단계 S510에서 해당 URL을 차단하고 차단 이유를 사용자(408)에게 표시한다.

최종 평가 값이 임계 값 0.4 미만이면, 단계 S512에서, 해당 URL을 허용 목록 범주로 간주하여 해당 URL을 허용하며, 해당 내용을 담고있는 웹 페이지가 사용자(408)에게 표시된다.

평가

데이터세트

다국어 대형 목록 사전에 의해 총 65,000개의 임의의 URL이 수집되었다. 이 중 50,000개는 블랙리스트클래스에 속해 있고, 15,000개는 화이트리스트클래스에 속해 있다(도 6).

성과 평가

먼저 시스템의 거짓-양성 비율을 찾는다. 시스템의 작업은 분류 결정을 내리는 데 필요한 임계 값을 변경할 때 변했다. 요청된 각 URL에 대해 표시기 값을 계산하도록 설정된 완전한 기능을 갖춘 다국어 사전이 사용된다. 표시기 값이 0.4보다 크면 이 페이지는 "블랙리스트"로 분류되고 표시기 값이 0.4보다 작으면 요청된 페이지가 "화이트리스트"로 분류된다(표 1). 표 1은 데이터 세트에서 포지티브 케이스와 네거티브 케이스의 분해를 나타낸다.

- tp: 정확하게 식별된 올바른 요청 수

- fn: 부정확하게 부정적인 것으로 예상된 올바른 요청 수

- tn: 올바르게 식별된 잘못된 요청 수

- fp: 부정확하게 올바른 것으로 예상된 잘못된 요청 수.

fn과 fp는 수학식 1 및 수학식 2에 의해 계산된다.

본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치의 정밀도(Precision), 리콜(recall) 및 F-척도(F-measure)는 표 2에 나열되어 있다. 정밀도, 리콜 및 F-척도는 하기 수학식 3 내지 수학식 5에 의해 계산된다.

성능 비교

본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치의 결과는 의미 기반의 매우 정확한 필터링과 비교된다[11], 이것은 야고2(YAGO2) 온톨로지를 사용하는 URL/웹 분류 시스템이다. 이 시스템은 URL을 120개의 지정된 범주로 분류한다. 비교는 두 시스템의 분류 정확도를 기반으로 한다.

큰 블랙리스트 사전에서 무작위로 65,000개의 웹 페이지가 수집되었다. 표 3은 65,000개의 URL이 처리되고 의미 체계가 매우 정확한 필터링 시스템의 결과를 기반으로 할 때 본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치의 정확도를 나타낸다.

본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치는 의미 기반의 매우 정확한 필터링보다(표 4) 좋은 정확도를 갖는다.

질의 검색 프로세스

본 섹션에서는 SPARQL 질의 결과에 대해 설명하기로 한다. SPARQL 질의는 온톨로지로부터의 정보 추출에 사용된다. 후속 섹션에서는 설명과 함께 블랙리스트 클래스 및 화이트리스트 클래스의 인스턴스에 액세스하기 위한 샘플 SPARQL 질의가 표시된다.

질의 번호 1

본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치의 온톨로지는 "교육" 클래스가 화이트리스트 클래스의 하위 클래스라고 말한다. 도 7에 도시된 SPARQL 질의는 URL의 "교육"이라는 단어를 갖는 모든 레코드를 검색한다. 질의를 받을 때 http: www.oakland.edu/financialservices/costs/, http://collegeboysexperties.com 및 Punjab 대학의 URL은 부적절한 콘텐츠가 없으므로 정확하게 허용 목록 URL로 분류된다.

질의 번호 2

본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치의 온톨로지에 따르면, 포르노 클래스는 블랙리스트 클래스의 하위 클래스이다. 다음 SPARQL 질의 결과는 불쾌한 단어 "포르노"를 URL에 포함하고 있기 때문에 URL 세트를 블랙리스트 URL로 정확하게 분류한다. 포르노 클래스와 그 인스턴스는 도 8에 나와 있다.

질의 번호 3

본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치의 온톨로지는 웹 페이지에서 3가지 유형의 메타 데이터를 모델링한다. 첫 번째 유형은 <title> 태그를 사용하는 웹 페이지의 제목이고 다른 두 가지는 <meta> 태그를 사용하는 웹 페이지 및 키워드 세트에 대한 설명이다.

도 9에 제시된 SPARQL 질의는 본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치의 온톨로지로부터 특정 URL에 대한 웹 페이지의 표제 및 메타 데이터 정보를 얻는다. 질의의 결과는 지정된 URL에 해당하는 제목, 메타 데이터 및 메타 키워드 정보가 있는 질의의 출력을 표시한다.

질의 번호 4

이 질의는 질의 번호 3에 대해 설명한 섹션에 언급된 것의 확장으로서, 모든 URL에 대한 URL 및 메타 데이터를 반환하는 대신 블랙리스트 URL에 대한 정보만 반환한다. 도 10에서, 제목 섹션에서 단어 "sex"를 갖는 URL의 URL, 제목 및 메타 데이터를 검색한다.

결론

콘텐츠 필터링은 어렵지만 실제적인 문제이다. 특히 월드와이드웹의 막대한 크기를 고려할 때 그렇다. 웹 콘텐츠 필터링은 빅 데이터를 확장할 수 있는 효율적이고 효과적인 접근 방식을 필요로 한다. 본 발명에서는 외설스러운 콘텐츠가 미성년자에게 접근하는 것을 탐지하고 제한하는 프레임워크를 제안했다. 웹 페이지의 URL, 제목 및 메타 데이터에 대해 미리 정의된 기준을 사용하여 온톨로지 기반 공격 콘텐츠 필터링 접근 방식을 구현한다. 본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치의 94.1%의 정확도로 URL의 분류를 보여준다. URL 기반 기법을 사용하여 웹 페이지를 분류하는 시스템이 있지만 정확성면에서 부족하다.

이미 개발된 시스템과 비교했을 때, 기존 시스템의 정확도는 73.5%인 반면 본 발명의 일 실시예에 의한 온톨로지 기반 다국어 URL 필터링 장치의 정확도는 98%로 나타났다. 따라서 URL, 제목 및 메타를 결합하는 기준에 따라 필터링 성능이 크게 향상되었다.

이상 본 발명을 구체적인 실시예를 통하여 상세하게 설명하였으나, 이는 본 발명을 구체적으로 설명하기 위한 것으로, 본 발명은 이에 한정되지 않으며, 본 발명의 기술적 사상 내에서 당 분야의 통상의 지식을 가진 자에 의해 그 변형이나 개량이 가능함은 명백하다고 할 것이다.

본 발명의 단순한 변형 내지 변경은 모두 본 발명의 영역에 속하는 것으로, 본 발명의 구체적인 보호 범위는 첨부된 청구범위에 의하여 명확해질 것이다.

400 : 웹 필터링 시스템
402 : 로컬 온톨로지
404 : 야고 온톨로지
406 : 레스트풀 웹 서비스 모듈
408 : 사용자
410 : 월드와이드웹
412 : 제1 결정부
414 : 제2 결정부

Claims

로컬 다국어 어휘 사전, 유해 콘텐츠가 없는 웹 페이지를 포함하는 화이트리스트 클래스들을 포함하는 화이트리스트 및 유해 콘텐츠가 있는 웹 페이지를 포함하는 블랙리스트 클래스들을 포함하는 블랙리스트를 저장하고 있는 로컬 온톨로지;
URL에 대한 사용자의 요청이 있는 경우, 상기 로컬 온톨로지의 로컬 다국어 어휘 사전, 화이트리스트 및 블랙리스트를 참조하여 해당 URL에 대한 평가 값을 계산하여 해당 URL의 웹 페이지의 허용 또는 차단 여부를 결정하고 해당 URL의 웹 페이지의 허용 또는 차단과 관련된 응답을 출력하며, URL이 처리될 때마다 해당 URL을 제목, 메타 데이터 및 평가 값과 함께 상기 로컬 온톨로지에 저장하기 위한 웹 필터링 시스템;
URL에 대한 사용자의 요청을 수신하여 상기 웹 필터링 시스템에 제공하고, 상기 웹 필터링 시스템에 의해 출력되는 해당 URL의 웹 페이지의 허용 또는 차단과 관련된 응답을 사용자에게 반환하는 레스트풀(Restful) 웹 서비스 모듈; 및
워드넷(WordNet)과 위키톨로지(Wikitology)를 포함하는 야고(YAGO) 온톨로지를 포함하고,
상기 로컬 온톨로지가 해당 URL의 제목 및 메타 데이터의 개념을 포함하고 있지 않아 상기 웹 필터링 시스템이 상기 로컬 온톨로지를 참조하여 해당 URL의 웹 페이지에 대한 허용 또는 차단 여부를 결정할 수 없는 경우, 상기 웹 필터링 시스템은, 해당 URL의 웹 페이지의 제목 및 메타 데이터의 개념을 포함하고 있는 상기 야고 온톨로지를 참조하여 해당 URL의 클래스를 결정하고, 해당 URL의 클래스에 기반하여 해당 URL의 허용 또는 차단 여부를 결정하며,
상기 웹 필터링 시스템은, 상기 야고 온톨로지를 참조하여 해당 URL의 클래스를 결정하여 해당 URL의 허용 또는 차단 여부를 결정하는 경우, 추후 동일한 URL에 대한 허용 또는 차단 여부를 신속하게 결정하기 위하여, 해당 URL을 제목, 메타 데이터 및 평가 값과 함께 상기 로컬 온톨로지에 저장하고,
상기 웹 필터링 시스템은, 상기 URL이 처음 인지된 URL인 경우, 월드와이드웹(WWW)으로부터 해당 URL의 웹 페이지를 획득하고, 상기 로컬 온톨로지의 로컬 다국어 어휘 사전, 화이트리스트 및 블랙리스트에 기반하여 해당 URL, 해당 URL의 웹 페이지의 <head> 섹션으로부터 획득한 웹 페이지의 제목 및 메타 데이터 각각에 대한 평가 값을 계산하며, 상기 계산된 URL, 웹 페이지의 제목 및 메타 데이터 각각의 평가 값을 결합하여 하나의 최종 평가 값을 계산하고, 상기 최종 평가 값에 기반하여 해당 URL의 허용 또는 차단 여부를 결정하며,
상기 메타 데이터는 웹 페이지 키워드 및 웹 페이지에 대한 설명을 포함하는, 온톨로지 기반 다국어 URL 필터링 장치.
삭제
삭제
삭제