KR20190017556A

KR20190017556A - 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치 및 방법

Info

Publication number: KR20190017556A
Application number: KR1020170102566A
Authority: KR
Inventors: 권구형; 임원기; 고장혁; 김건욱
Original assignee: 국방과학연구소
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2019-02-20
Also published as: KR101994938B1

Abstract

공개 인터넷 환경 상의 데이터를 수집하고, 수집된 데이터를 이용하여 인터넷 사용자들 각각이 작성한 게시글을 결정하고, 게시글을 분석함으로써 인터넷 사용자들 각각에 대한 주제어를 추출하고, 인터넷 사용자들 각각에 대해 추출된 주제어를 이용하여 인터넷 사용자들 간의 유사성을 분석하며, 유사성 분석 결과에 기초하여 정보 유출자 군집을 검출하는, 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 방법이 개시된다.

Description

공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치 및 방법 {METHOD AND APPARATUS FOR DETECTING CLUSTER OF INFORMANTS IN PUBLIC INTERNET ENVIRONMENT}

본 개시는 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치 및 방법을 제공한다.

최근 공개 인터넷 환경에서 내부 정보를 외부로 유출하는 행위가 빈번하게 발생하고 있고, 유출 정보를 공개 인터넷 게시판에 업로드 하여 2차, 3차 유출로 인해 피해가 확산되는 경우도 있다.

하지만, 공개 인터넷 환경은 내부 인트라넷 환경과 다르게, 특정 사이버 ID에 대해 획득할 수 있는 정보가 제약적이다. 대부분의 공개 인터넷 게시판은 익명 기능을 제공하기 때문에 ID 또는 닉네임만으로 특정 인물의 정보유출 행위를 예단할 수 없다.

이에 따라, 익명화된 사이버 ID의 정보를 유추하기 위해 공개 인터넷 환경 상에 공개되어 있는 정보에서 새로운 정보를 추론하는 기술이 요구된다.

인터넷 환경에서 정보 유출자 군집을 검출하는 장치 및 방법을 제공하는데 있다. 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시예들로부터 또 다른 기술적 과제들이 유추될 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 방법에 있어서, 상기 공개 인터넷 환경 상의 데이터를 수집하는 단계; 상기 수집된 데이터를 이용하여, 상기 인터넷 사용자들 각각이 작성한 게시글을 결정하는 단계; 상기 게시글을 분석함으로써, 상기 인터넷 사용자들 각각에 대한 주제어를 추출하는 단계; 상기 인터넷 사용자들 각각에 대해 추출된 주제어를 이용하여, 상기 인터넷 사용자들 간의 유사성을 분석하는 단계; 및 상기 유사성 분석 결과에 기초하여 상기 정보 유출자 군집을 검출하는 단계;를 포함하는, 방법을 제공할 수 있다.

또한, 상기 추출된 주제어를 이용하여 상기 인터넷 사용자들 각각에 대한 벡터 값을 산출하는 단계; 및 상기 산출된 벡터 값에 기초하여 상기 인터넷 사용자들 간의 유사성을 분석하는 단계;를 포함하는, 방법을 제공할 수 있다.

또한, 군집 알고리즘에 상기 산출된 벡터 값을 적용하여 상기 인터넷 사용자들 중에서 유사성이 높은 인터넷 사용자들을 군집화하는 단계; 및 상기 군집화된 인터넷 사용자들을 정보 유출자 군집으로 검출하는 단계;를 포함하는, 방법을 제공할 수 있다.

또한, 상기 추출된 주제어 각각에 대한 가중치를 산출하는 단계; 및 상기 산출된 가중치를 적용하여 상기 인터넷 사용자들 간의 유사성을 분석하는 단계;를 포함하는, 방법을 제공할 수 있다.

또한, 텍스트 마이닝(Text Mining) 기법을 적용하여 상기 게시글을 분석하는 단계;를 더 포함하는 방법을 제공할 수 있다.

본 개시의 제 2 측면은, 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치에 있어서, 상기 공개 인터넷 환경 상의 데이터를 수집하는 통신부; 및 상기 수집된 데이터를 이용하여, 상기 인터넷 사용자들 각각이 작성한 게시글을 결정하고, 상기 게시글을 분석함으로써, 상기 인터넷 사용자들 각각에 대한 주제어를 추출하고, 상기 인터넷 사용자들 각각에 대해 추출된 주제어를 이용하여, 상기 인터넷 사용자들 간의 유사성을 분석하고, 상기 유사성 분석 결과에 기초하여 상기 정보 유출자 군집을 검출하는 제어부;를 포함하는, 장치를 제공할 수 있다.

또한, 상기 통신부로부터 수집된 데이터를 저장하는 메모리를 더 포함하는, 장치를 제공할 수 있다.

또한, 상기 추출된 주제어를 이용하여 상기 인터넷 사용자들 각각에 대한 벡터 값을 산출하고, 상기 산출된 벡터 값에 기초하여 상기 인터넷 사용자들 간의 유사성을 분석하는, 장치를 제공할 수 있다.

또한, 군집 알고리즘에 상기 산출된 벡터 값을 적용하여 상기 인터넷 사용자들 중에서 유사성이 높은 인터넷 사용자들을 군집화하고, 상기 군집화된 인터넷 사용자들을 정보 유출자 군집으로 검출하는, 장치를 제공할 수 있다.

본 개시의 제 3 측면은, 제 1 측면의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.

도 1은 일 실시예에 따른 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 시스템의 개략도이다.
도 2는 일 실시예에 따른 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 방법의 흐름도이다.
도 3은 일 실시예에 따른 인터넷 사용자들 및 주제어들을 매칭시킨 결과의 예시를 설명하는 도면이다.
도 4는 일 실시예에 따른 인터넷 사용자들 간의 유사성을 분석한 결과의 예시를 설명하는 도면이다.
도 5는 일 실시예에 따른 인터넷 사용자들을 군집화한 결과의 예시를 설명하는 도면이다.
도 6은 일 실시예에 따른 공개 인터넷 환경에서 정보 유출자 군집을 검출 장치의 블록도이다.

본 명세서에서 다양한 곳에 등장하는 "일부 실시예에서" 또는 "일 실시예에서" 등의 어구는 반드시 모두 동일한 실시예를 가리키는 것은 아니다.

본 개시의 일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단” 및 “구성”등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 또한, 명세서에 기재된 “…부”, “…모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.

이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.

도 1은 일 실시예에 따른 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 시스템의 개략도이다.

정보 유출자 검출 시스템은 장치(100), 공개 인터넷(200), 데이터베이스(database, DB)(300) 및 인터넷 사용자들(400)를 포함할 수 있다.

공개 인터넷(200)은 인터넷 사용자들(400)과 데이터베이스(300) 또는, 장치(100)와 데이터베이스(300) 간에 유무선 통신이 이루어지도록 하는 통신망이다. 공개 인터넷(200)이 무선 통신망으로 구현되는 경우 기지국(BTS;Base Transceiver Station), 이동교환국(MSC;Mobile Switching Center), 및 홈 위치 등록기(HLR;Home Location Register)으로 이루어진 무선 이동통신망을 이용하여 데이터 통신이 이루어질 수 있다. 또한, 공개 인터넷(200)이 유선 통신망으로 구현되는 경우, 네트워크 통신망으로 구현될 수 있는데 TCP/IP(Transmission Control Protocol/Internet Protocol) 등의 인터넷 프로토콜에 따라서 데이터 통신이 이루어질 수 있다.

한편, 공개 인터넷(200)은 내부 망인 인트라넷과 구별된다. 기업의 구성원 등 제한된 인원만이 접속 가능하며 게시글 작성자에 대한 추적이 용이한 인트라넷과 달리, 일반적으로 공개 인터넷(200)에는 누구든지 접속이 가능하며 실명 인증 없이 게시글 작성이 가능하므로 공개 인터넷(200) 환경에서는 게시글 작성자에 대한 추적이 어렵다.

데이터베이스(300)는 다수의 웹사이트(website) 등에서 관리하는 각종 데이터가 저장되어 있는 저장공간을 포함한다. 인터넷 사용자들(400)은 공개 인터넷(200)을 통해 다수의 웹사이트에 접속할 수 있으며, 웹사이트에서 관리하는 데이터베이스(300)로부터 각종 정보를 획득할 수 있다. 또한, 인터넷 사용자들(400)이 웹사이트에서 작성한 게시글 등은 해당 웹사이트의 데이터베이스(300)에 저장되어 관리될 수 있다.

인터넷 사용자들(400)은 불특정 다수의 사람들로서, 인터넷 사용자들(400)은 예를 들어, 스마트폰, HMD(Head Mound Display), HUD(Head Up Display), 웨어러블 디바이스, 태블릿 PC, PC, 스마트 TV, 랩톱, GPS(global positioning system) 장치, 디지털방송용 단말기, 네비게이션, 키오스크, 디지털 카메라 및 기타 모바일 또는 비모바일 컴퓨팅 장치를 이용하여 공개 인터넷(200)에 접속할 수 있다.

한편, 인터넷 사용자들(400)은 공개 인터넷(200)에 접속하여 데이터베이스(300)로부터 각종 데이터를 수집할 수 있으며, 또한, 인터넷 사용자들(400)이 생성한 데이터는 데이터베이스(300)에 저장될 수 있다.

장치(100)는 공개 인터넷 환경에서 정보 유출자 군집을 검출할 수 있다. 장치(100)는 공개 인터넷(200)을 통해 데이터베이스(300)로부터 인터넷 사용자들(400)에 관한 데이터를 수집할 수 있다. 장치(100)는 수집된 데이터를 이용하여 인터넷 사용자들(400) 간의 유사성을 분석함으로써, 공개 인터넷 환경에서 기밀자료 등의 정보 유출자 군집을 검출할 수 있다.

공개 인터넷 환경에서 인터넷 사용자들(400)에 관한 정보가 대부분 비공개 되어있다. 장치(100)는 인터넷 사용자들(400) 각각을 식별하고, 각각의 인터넷 사용자들(400)이 작성한 게시글의 주제어를 분석할 수 있다. 장치(100)는 주제어 분석 결과에 기초하여 인터넷 사용자들(400) 간의 유사도를 결정함으로써 정보 유출자 군집을 검출할 수 있다.

도 2는 일 실시예에 따른 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 방법의 흐름도이다.

도 2를 참조하면, 단계 210에서 장치(100)는 공개 인터넷 환경 상의 데이터를 수집할 수 있다.

일 실시예에서 장치(100)는 공개 인터넷(200)에 접속하여 웹 크롤러(web crawler)를 이용함으로써 데이터베이스(300)에 저장된 데이터를 수집할 수 있다. 예를 들어, 장치(100)는 웹 크롤러를 이용하여 인터넷 사용자들(400)의 아이디(identification, ID)와 같은 웹사이트에 공개된 정보를 획득할 수 있다. 한편, 웹 크롤러를 이용하여 인터넷 사용자들(400)의 ID를 획득하기 위해서, 장치(100)는 웹사이트 별로 상이한 정보를 분석하여 처리할 수 있다.

또한, 장치(100)는 장치(100)의 사용자에 의해 지정된 웹사이트를 주기적으로 방문하여 방문한 웹사이트의 데이터베이스(300)에 저장된 데이터를 수집할 수 있다. 장치(100)에서 수집하는 데이터는 웹사이트의 텍스트 데이터일 수 있으며, 텍스트 데이터는 구조화된 태그 정보를 포함할 수 있다.

단계 220에서 장치(100)는 수집된 데이터를 이용하여 인터넷 사용자들(400) 각각이 작성한 게시글을 결정할 수 있다.

일 실시예에서 장치(100)는 단계 210에서 수집한 데이터를 이용하여 인터넷 사용자들(400) 각각의 식별자를 획득할 수 있다. 예를 들어, 식별자는 웹사이트의 아이디, 닉네임 등일 수 있으나, 이에 제한되지 않는다. 또한, 장치(100)는 웹사이트에 작성된 게시글에 대한 텍스트 데이터를 획득할 수 있다.

장치(100)는 인터넷 사용자들(400) 각각의 식별자와, 게시글에 대한 텍스트 데이터를 매칭시킴으로써, 인터넷 사용자들(400) 각각이 작성한 게시글을 결정할 수 있다. 예를 들어, 하나의 식별자에는 복수의 게시글들이 매칭될 수 있다.

단계 230에서 장치(100)는 인터넷 사용자들(400)이 작성한 게시글을 분석함으로써, 인터넷 사용자들(400) 각각에 대한 주제어를 추출할 수 있다. 장치(100)는 데이터베이스(300)로부터 수집한 게시글에 대한 텍스트 데이터를 분석함으로써 게시글에 대한 주제어를 추출할 수 있다.

일 실시예에서 장치(100)는 텍스트 마이닝(Text Mining) 기법을 적용하여 주제어를 추출할 수 있다. 장치(100)는 수집한 게시글에서 태그 정보를 제외한 텍스트를 추출하여, 불용어 및 유의어를 처리할 수 있다. 또한, 장치(100)는 색인 엔진을 이용하여 처리 결과를 색인하여 저장할 수 있다. 또한, 장치(100)는 색인 결과에 기초하여, 게시글 별 주제어를 추출할 수 있다.

한편, 장치(100)는 단계 220 및 230에서 처리된 결과에 따라, 인터넷 사용자들(400) 별로 주제어를 매칭시켜 저장할 수 있다.

단계 240에서 장치(100)는 인터넷 사용자들 각각에 대해 추출된 주제어를 이용하여, 인터넷 사용자들 간의 유사성을 분석할 수 있다.

일 실시예에서 장치(100)는 추출된 주제어를 이용하여 인터넷 사용자들 각각에 대한 벡터 값을 산출할 수 있고, 산출된 벡터 값에 기초하여 인터넷 사용자들 간의 유사성을 분석할 수 있다.

또한, 일 실시예에서 장치(100)는 추출된 주제어 각각에 대한 가중치를 산출하고, 산출된 가중치를 적용하여 인터넷 사용자들 간의 유사성을 분석할 수 있다.

장치(100)에서 인터넷 사용자들 간의 유사성을 분석하는 구체적인 내용에 대해서는 아래 도 3 내지 4에서 설명하기로 한다.

단계 250에서 장치(100)는 유사성 분석 결과에 기초하여 정보 유출자 군집을 검출할 수 있다.

장치(100)는 군집 알고리즘을 적용하여 인터넷 사용자들 중에서 유사성이 높은 인터넷 사용자들을 군집화하고, 군집화된 인터넷 사용자들을 정보 유출자로 검출할 수 있다. 일 실시예에서 장치(100)는 단계 240에서 산출된 벡터 값을 군집 알고르짐에 적용하여 인터넷 사용자들 중에서 유사성이 높은 인터넷 사용자들을 군집화할 수 있다.

장치(100)에서 유사성 분석 결과에 기초하여 정보 유출자 군집을 검출하는 구체적인 내용에 대해서는 아래 도 5에서 설명하기로 한다.

도 3은 일 실시예에 따른 인터넷 사용자들 및 주제어들을 매칭시킨 결과의 예시를 설명하는 도면이다.

도 3을 참조하면, n명(n은 1보다 큰 정수)의 인터넷 사용자들(400)과 m개(m은 1보다 큰 정수)의 주제어의 매칭 결과가 도시된다. 인터넷 사용자들(400)과 주제어의 매칭 결과는 행렬로 표현될 수 있다.

일 실시예에서, 사용자 1 내지 사용자 n은 데이터베이스(300)로부터 수집한 데이터에서 획득된 웹사이트의 아이디 정보일 수 있다. 또한, 주제어 1 내지 주제어 m은, 게시글에 대한 텍스트 데이터에 텍스트 마이닝 기법을 적용한 결과값들일 수 있다. 인터넷 사용자들(400)과 주제어의 매칭 결과는 n*m 행렬로 표현될 수 있다.

한편, 특정 사용자는 여러 웹사이트에 복수개의 게시글을 등록할 수 있다. 이 경우 특정 사용자에 매칭되는 주제어는, 특정 사용자가 작성한 것으로 결정된 복수개의 게시글 전부를 분석함으로써 추출된 주제어들일 수 있다. 또한, 이 경우 특정 사용자에 매칭되는 주제어는, 특정 웹사이트에 게시된 게시글들만을 분석함으로써 추출된 주제어들일 수 있다.

일 실시예에서, 인터넷 사용자들 및 주제어들을 매칭시킨 결과는 가중치일 수 있다. 장치(100)는 TFIDF(Term Frequency Inverse Document Frequency) 알고리즘을 적용하여 가중치를 산출할 수 있다. TFIDF 알고리즘을 적용하는 경우 일반적인 게시글에서는 적게 등장하나 특정 게시글에서 많이 등장하는 단어들을 추출할 수 있고, 추출된 단어들 중에서 기밀정보와 관련될 수 있는 주제어들을 선택할 수 있다. 장치(100)는 선택된 주제어들에 높은 가중치를 부여할 수 있다.

다른 실시예에서 인터넷 사용자들 및 주제어들을 매칭시킨 결과는 '매칭됨' 또는 '매칭되지 않음'을 나타내는 임의의 값일 수 있다.

그러나, 인터넷 사용자들 및 주제어들을 매칭시키는 방법은 이에 제한되지 않는다.

도 4는 일 실시예에 따른 인터넷 사용자들 간의 유사성을 분석한 결과의 예시를 설명하는 도면이다.

도 4를 참조하면, n명(n은 1보다 큰 정수)의 인터넷 사용자들(400) 상호 간의 유사성을 분석한 결과가 도시된다. 인터넷 사용자들(400) 상호 간의 유사성 분석 결과는 n*n 행렬로 표현될 수 있으며, 도 4에 도시된 행렬은 대칭행렬이다.

일 실시예에서, 각각의 인터넷 사용자들(400)과 주제어들을 매칭시킨 가중치를 이용하여 인터넷 사용자들(400) 각각에 대한 벡터 값을 산출할 수 있다. 장치(100)는 산출된 벡터 값을 이용하여 인터넷 사용자들(400) 상호 간 유사성을 분석할 수 있다.

일 실시예에서, 장치(100)는 사용자 1에 대한 사용자 2 내지 사용자 n의 유사성을 분석할 수 있다. 사용자 1에 대한 사용자 2 내지 사용자 n의 유사성은 도 4에 도시된 바와 같이 sim(2,1), sim (3,1) … sim(n,1)로 산출할 수 있다. 예를 들어, sim(a, b) (a 및 b는 n과 같거나 n보다 크기가 작은 정수) 는 전체 주제어 개수 중에 사용자 a과 사용자 b 모두에 매칭되는 주제어 개수의 비율일 수 있다. 또한, 추가적으로 sim(a, b)는 주제어 별 가중치가 반영된 결과일 수 있다.

위와 같은 방식으로 사용자 2에 대한 사용자 3 내지 사용자 n의 유사성 등을 분석할 수 있다.

그러나, 인터넷 사용자들(400) 상호 간의 유사성을 분석하는 방법은 이에 제한되지 않는다.

도 5는 일 실시예에 따른 인터넷 사용자들을 군집화한 결과의 예시를 설명하는 도면이다.

장치(100)는 유사성 분석 결과에 기초하여 정보 유출자 군집을 검출할 수 있다. 장치(100)는 유사성 분석 결과에 군집 알고리즘을 적용하여 인터넷 사용자들(400)을 군집함으로써 정보 유출자 군집을 검출할 수 있다.

일 실시예에서 장치(100)는 주제어 별 가중치를 이용하여 인터넷 사용자들(400) 각각에 대한 벡터 값을 산출 할 수 있다. 장치(100)는 인터넷 사용자들(400) 각각에 대해 산출된 벡터 값을 군집 알고리즘에 적용하여 유사성이 높은 인터넷 사용자들을 군집화할 수 있다. 예를 들어, 장치(100)는 K-평균(K-Means), PAM(Partitioning Around Medoids)의 군집화 알고리즘을 이용하여 인터넷 사용자들(400)을 군집화할 수 있으나, 군집화 방법은 이에 제한되지 않는다.

도 5를 참조하면, 도 5에는 도 3에 도시된 행렬과 비교하여, '군집화 결과' 열이 더 추가된 행렬이 도시된다. 군집화 결과, 인터넷 사용자들(400) 중에서 유사성이 높은 인터넷 사용자들(400)로 결정된 사용자 1, 사용자 2 및 사용자 n은 각각 G[1, 1], G[1, 2] 및 G[1, 3]의 값을 가질 수 있다 (G[a, b]에서 a는 그룹 식별 값, b는 그룹원 식별 값을 나타낸다). 장치(100)는 사용자 1, 사용자 2 및 사용자 n을 정보 유출자 군집에 속하는 인터넷 사용자들(400)로 검출할 수 있다.

도 6은 일 실시예에 따른 공개 인터넷 환경에서 정보 유출자 군집을 검출 장치의 블록도이다.

도 6을 참조하면, 장치(600)는 통신부(610), 메모리(620) 및 제어부(630)를 포함할 수 있다. 도 6에 도시된 장치(600)에는 실시예와 관련된 구성요소들만이 도시되어 있다. 따라서, 도 6에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 당해 기술분야의 통상의 기술자라면 이해할 수 있다.

통신부(610)는 공개 인터넷 환경 상의 데이터를 수집할 수 있다. 일 실시예에서 통신부(610)는 공개 인터넷(200)에 접속하여 데이터베이스(300)로부터 데이터를 수집할 수 있다.

한편, 통신부(610)는 장치(600)와 데이터베이스(300) 간의 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(610)는, 근거리 통신부, 이동 통신부를 포함할 수 있다.

근거리 통신부(short-range wireless communication unit)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.

이동 통신부는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.

메모리(620)는, 제어부(630)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 통신부(610)에서 수집한 데이터를 저장할 수 있다.

메모리(620)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

제어부(630)는 도 1 내지 도 5에서 상술한 공개 인터넷 환경에서 정보 유출자 군집을 검출 일련의 과정을 제어할 수 있다.

일 실시예에서 제어부(630)는 공개 인터넷 환경 상의 데이터를 수집할 수 있다. 또한, 제어부(630)는 수집된 데이터를 이용하여 인터넷 사용자들(400) 각각이 작성한 게시글을 결정할 수 있다. 또한, 제어부(630)는 인터넷 사용자들(400)이 작성한 게시글을 분석함으로써, 인터넷 사용자들(400) 각각에 대한 주제어를 추출할 수 있다. 또한, 제어부(630)는 인터넷 사용자들 각각에 대해 추출된 주제어를 이용하여, 인터넷 사용자들 간의 유사성을 분석할 수 있다. 또한, 제어부(630)는 유사성 분석 결과에 기초하여 정보 유출자 군집을 검출할 수 있다.

한편, 장치(100)의 제어부(630)는 적어도 하나의 하드웨어 칩 형태로 제작되어 장치(100)에 탑재될 수 있다. 예를 들어, 제어부(630)는 공개 인터넷 환경에서 정보 유출자 군집을 검출하기 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 중앙 처리 장치(100)에 탑재될 수도 있다.

본 실시예들은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈과 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.

전술한 본 명세서의 설명은 예시를 위한 것이며, 본 명세서의 내용이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 실시예의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 포함되는 것으로 해석되어야 한다.

Claims

공개 인터넷 환경에서 정보 유출자 군집을 검출하는 방법에 있어서,
상기 공개 인터넷 환경 상의 데이터를 수집하는 단계;
상기 수집된 데이터를 이용하여, 상기 인터넷 사용자들 각각이 작성한 게시글을 결정하는 단계;
상기 게시글을 분석함으로써, 상기 인터넷 사용자들 각각에 대한 주제어를 추출하는 단계;
상기 인터넷 사용자들 각각에 대해 추출된 주제어를 이용하여, 상기 인터넷 사용자들 간의 유사성을 분석하는 단계; 및
상기 유사성 분석 결과에 기초하여 상기 정보 유출자 군집을 검출하는 단계;
를 포함하는, 방법.
제 1항에 있어서,
상기 인터넷 사용자들 간의 유사성을 분석하는 단계는,
상기 추출된 주제어를 이용하여 상기 인터넷 사용자들 각각에 대한 벡터 값을 산출하는 단계; 및
상기 산출된 벡터 값에 기초하여 상기 인터넷 사용자들 간의 유사성을 분석하는 단계;
를 포함하는, 방법.
제 2항에 있어서,
상기 정보 유출자 군집을 검출하는 단계는,
군집 알고리즘에 상기 산출된 벡터 값을 적용하여 상기 인터넷 사용자들 중에서 유사성이 높은 인터넷 사용자들을 군집화하는 단계; 및
상기 군집화된 인터넷 사용자들을 정보 유출자 군집으로 검출하는 단계;
를 포함하는, 방법.
제 1항에 있어서,
상기 인터넷 사용자들 간의 유사성을 분석하는 단계는,
상기 추출된 주제어 각각에 대한 가중치를 산출하는 단계; 및
상기 산출된 가중치를 적용하여 상기 인터넷 사용자들 간의 유사성을 분석하는 단계;
를 포함하는, 방법.
제 1항에 있어서,
상기 주제어를 추출하는 단계는,
텍스트 마이닝(Text Mining) 기법을 적용하여 상기 게시글을 분석하는 단계;
를 더 포함하는 방법.
공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치에 있어서,
상기 공개 인터넷 환경 상의 데이터를 수집하는 통신부; 및
상기 수집된 데이터를 이용하여, 상기 인터넷 사용자들 각각이 작성한 게시글을 결정하고, 상기 게시글을 분석함으로써, 상기 인터넷 사용자들 각각에 대한 주제어를 추출하고, 상기 인터넷 사용자들 각각에 대해 추출된 주제어를 이용하여, 상기 인터넷 사용자들 간의 유사성을 분석하고, 상기 유사성 분석 결과에 기초하여 상기 정보 유출자 군집을 검출하는 제어부;
를 포함하는, 장치.
제 6항에 있어서,
상기 장치는,
상기 통신부로부터 수집된 데이터를 저장하는 메모리를 더 포함하는, 장치.
제 6항에 있어서,
상기 제어부는,
상기 추출된 주제어를 이용하여 상기 인터넷 사용자들 각각에 대한 벡터 값을 산출하고, 상기 산출된 벡터 값에 기초하여 상기 인터넷 사용자들 간의 유사성을 분석하는, 장치.
제 8항에 있어서,
상기 제어부는,
군집 알고리즘에 상기 산출된 벡터 값을 적용하여 상기 인터넷 사용자들 중에서 유사성이 높은 인터넷 사용자들을 군집화하고, 상기 군집화된 인터넷 사용자들을 정보 유출자 군집으로 검출하는, 장치.
제 1항 내지 제 5항 중에 적어도 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.