KR20190017556A - 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치 및 방법 - Google Patents

공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치 및 방법 Download PDF

Info

Publication number
KR20190017556A
KR20190017556A KR1020170102566A KR20170102566A KR20190017556A KR 20190017556 A KR20190017556 A KR 20190017556A KR 1020170102566 A KR1020170102566 A KR 1020170102566A KR 20170102566 A KR20170102566 A KR 20170102566A KR 20190017556 A KR20190017556 A KR 20190017556A
Authority
KR
South Korea
Prior art keywords
internet users
internet
information
analyzing
detecting
Prior art date
Application number
KR1020170102566A
Other languages
English (en)
Other versions
KR101994938B1 (ko
Inventor
권구형
임원기
고장혁
김건욱
Original Assignee
국방과학연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국방과학연구소 filed Critical 국방과학연구소
Priority to KR1020170102566A priority Critical patent/KR101994938B1/ko
Publication of KR20190017556A publication Critical patent/KR20190017556A/ko
Application granted granted Critical
Publication of KR101994938B1 publication Critical patent/KR101994938B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • G06F17/27

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

공개 인터넷 환경 상의 데이터를 수집하고, 수집된 데이터를 이용하여 인터넷 사용자들 각각이 작성한 게시글을 결정하고, 게시글을 분석함으로써 인터넷 사용자들 각각에 대한 주제어를 추출하고, 인터넷 사용자들 각각에 대해 추출된 주제어를 이용하여 인터넷 사용자들 간의 유사성을 분석하며, 유사성 분석 결과에 기초하여 정보 유출자 군집을 검출하는, 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 방법이 개시된다.

Description

공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치 및 방법 {METHOD AND APPARATUS FOR DETECTING CLUSTER OF INFORMANTS IN PUBLIC INTERNET ENVIRONMENT}
본 개시는 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치 및 방법을 제공한다.
최근 공개 인터넷 환경에서 내부 정보를 외부로 유출하는 행위가 빈번하게 발생하고 있고, 유출 정보를 공개 인터넷 게시판에 업로드 하여 2차, 3차 유출로 인해 피해가 확산되는 경우도 있다.
하지만, 공개 인터넷 환경은 내부 인트라넷 환경과 다르게, 특정 사이버 ID에 대해 획득할 수 있는 정보가 제약적이다. 대부분의 공개 인터넷 게시판은 익명 기능을 제공하기 때문에 ID 또는 닉네임만으로 특정 인물의 정보유출 행위를 예단할 수 없다.
이에 따라, 익명화된 사이버 ID의 정보를 유추하기 위해 공개 인터넷 환경 상에 공개되어 있는 정보에서 새로운 정보를 추론하는 기술이 요구된다.
인터넷 환경에서 정보 유출자 군집을 검출하는 장치 및 방법을 제공하는데 있다. 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시예들로부터 또 다른 기술적 과제들이 유추될 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 방법에 있어서, 상기 공개 인터넷 환경 상의 데이터를 수집하는 단계; 상기 수집된 데이터를 이용하여, 상기 인터넷 사용자들 각각이 작성한 게시글을 결정하는 단계; 상기 게시글을 분석함으로써, 상기 인터넷 사용자들 각각에 대한 주제어를 추출하는 단계; 상기 인터넷 사용자들 각각에 대해 추출된 주제어를 이용하여, 상기 인터넷 사용자들 간의 유사성을 분석하는 단계; 및 상기 유사성 분석 결과에 기초하여 상기 정보 유출자 군집을 검출하는 단계;를 포함하는, 방법을 제공할 수 있다.
또한, 상기 추출된 주제어를 이용하여 상기 인터넷 사용자들 각각에 대한 벡터 값을 산출하는 단계; 및 상기 산출된 벡터 값에 기초하여 상기 인터넷 사용자들 간의 유사성을 분석하는 단계;를 포함하는, 방법을 제공할 수 있다.
또한, 군집 알고리즘에 상기 산출된 벡터 값을 적용하여 상기 인터넷 사용자들 중에서 유사성이 높은 인터넷 사용자들을 군집화하는 단계; 및 상기 군집화된 인터넷 사용자들을 정보 유출자 군집으로 검출하는 단계;를 포함하는, 방법을 제공할 수 있다.
또한, 상기 추출된 주제어 각각에 대한 가중치를 산출하는 단계; 및 상기 산출된 가중치를 적용하여 상기 인터넷 사용자들 간의 유사성을 분석하는 단계;를 포함하는, 방법을 제공할 수 있다.
또한, 텍스트 마이닝(Text Mining) 기법을 적용하여 상기 게시글을 분석하는 단계;를 더 포함하는 방법을 제공할 수 있다.
본 개시의 제 2 측면은, 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치에 있어서, 상기 공개 인터넷 환경 상의 데이터를 수집하는 통신부; 및 상기 수집된 데이터를 이용하여, 상기 인터넷 사용자들 각각이 작성한 게시글을 결정하고, 상기 게시글을 분석함으로써, 상기 인터넷 사용자들 각각에 대한 주제어를 추출하고, 상기 인터넷 사용자들 각각에 대해 추출된 주제어를 이용하여, 상기 인터넷 사용자들 간의 유사성을 분석하고, 상기 유사성 분석 결과에 기초하여 상기 정보 유출자 군집을 검출하는 제어부;를 포함하는, 장치를 제공할 수 있다.
또한, 상기 통신부로부터 수집된 데이터를 저장하는 메모리를 더 포함하는, 장치를 제공할 수 있다.
또한, 상기 추출된 주제어를 이용하여 상기 인터넷 사용자들 각각에 대한 벡터 값을 산출하고, 상기 산출된 벡터 값에 기초하여 상기 인터넷 사용자들 간의 유사성을 분석하는, 장치를 제공할 수 있다.
또한, 군집 알고리즘에 상기 산출된 벡터 값을 적용하여 상기 인터넷 사용자들 중에서 유사성이 높은 인터넷 사용자들을 군집화하고, 상기 군집화된 인터넷 사용자들을 정보 유출자 군집으로 검출하는, 장치를 제공할 수 있다.
본 개시의 제 3 측면은, 제 1 측면의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.
도 1은 일 실시예에 따른 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 시스템의 개략도이다.
도 2는 일 실시예에 따른 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 방법의 흐름도이다.
도 3은 일 실시예에 따른 인터넷 사용자들 및 주제어들을 매칭시킨 결과의 예시를 설명하는 도면이다.
도 4는 일 실시예에 따른 인터넷 사용자들 간의 유사성을 분석한 결과의 예시를 설명하는 도면이다.
도 5는 일 실시예에 따른 인터넷 사용자들을 군집화한 결과의 예시를 설명하는 도면이다.
도 6은 일 실시예에 따른 공개 인터넷 환경에서 정보 유출자 군집을 검출 장치의 블록도이다.
본 명세서에서 다양한 곳에 등장하는 "일부 실시예에서" 또는 "일 실시예에서" 등의 어구는 반드시 모두 동일한 실시예를 가리키는 것은 아니다.
본 개시의 일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단” 및 “구성”등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 또한, 명세서에 기재된 “…부”, “…모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 시스템의 개략도이다.
정보 유출자 검출 시스템은 장치(100), 공개 인터넷(200), 데이터베이스(database, DB)(300) 및 인터넷 사용자들(400)를 포함할 수 있다.
공개 인터넷(200)은 인터넷 사용자들(400)과 데이터베이스(300) 또는, 장치(100)와 데이터베이스(300) 간에 유무선 통신이 이루어지도록 하는 통신망이다. 공개 인터넷(200)이 무선 통신망으로 구현되는 경우 기지국(BTS;Base Transceiver Station), 이동교환국(MSC;Mobile Switching Center), 및 홈 위치 등록기(HLR;Home Location Register)으로 이루어진 무선 이동통신망을 이용하여 데이터 통신이 이루어질 수 있다. 또한, 공개 인터넷(200)이 유선 통신망으로 구현되는 경우, 네트워크 통신망으로 구현될 수 있는데 TCP/IP(Transmission Control Protocol/Internet Protocol) 등의 인터넷 프로토콜에 따라서 데이터 통신이 이루어질 수 있다.
한편, 공개 인터넷(200)은 내부 망인 인트라넷과 구별된다. 기업의 구성원 등 제한된 인원만이 접속 가능하며 게시글 작성자에 대한 추적이 용이한 인트라넷과 달리, 일반적으로 공개 인터넷(200)에는 누구든지 접속이 가능하며 실명 인증 없이 게시글 작성이 가능하므로 공개 인터넷(200) 환경에서는 게시글 작성자에 대한 추적이 어렵다.
데이터베이스(300)는 다수의 웹사이트(website) 등에서 관리하는 각종 데이터가 저장되어 있는 저장공간을 포함한다. 인터넷 사용자들(400)은 공개 인터넷(200)을 통해 다수의 웹사이트에 접속할 수 있으며, 웹사이트에서 관리하는 데이터베이스(300)로부터 각종 정보를 획득할 수 있다. 또한, 인터넷 사용자들(400)이 웹사이트에서 작성한 게시글 등은 해당 웹사이트의 데이터베이스(300)에 저장되어 관리될 수 있다.
인터넷 사용자들(400)은 불특정 다수의 사람들로서, 인터넷 사용자들(400)은 예를 들어, 스마트폰, HMD(Head Mound Display), HUD(Head Up Display), 웨어러블 디바이스, 태블릿 PC, PC, 스마트 TV, 랩톱, GPS(global positioning system) 장치, 디지털방송용 단말기, 네비게이션, 키오스크, 디지털 카메라 및 기타 모바일 또는 비모바일 컴퓨팅 장치를 이용하여 공개 인터넷(200)에 접속할 수 있다.
한편, 인터넷 사용자들(400)은 공개 인터넷(200)에 접속하여 데이터베이스(300)로부터 각종 데이터를 수집할 수 있으며, 또한, 인터넷 사용자들(400)이 생성한 데이터는 데이터베이스(300)에 저장될 수 있다.
장치(100)는 공개 인터넷 환경에서 정보 유출자 군집을 검출할 수 있다. 장치(100)는 공개 인터넷(200)을 통해 데이터베이스(300)로부터 인터넷 사용자들(400)에 관한 데이터를 수집할 수 있다. 장치(100)는 수집된 데이터를 이용하여 인터넷 사용자들(400) 간의 유사성을 분석함으로써, 공개 인터넷 환경에서 기밀자료 등의 정보 유출자 군집을 검출할 수 있다.
공개 인터넷 환경에서 인터넷 사용자들(400)에 관한 정보가 대부분 비공개 되어있다. 장치(100)는 인터넷 사용자들(400) 각각을 식별하고, 각각의 인터넷 사용자들(400)이 작성한 게시글의 주제어를 분석할 수 있다. 장치(100)는 주제어 분석 결과에 기초하여 인터넷 사용자들(400) 간의 유사도를 결정함으로써 정보 유출자 군집을 검출할 수 있다.
도 2는 일 실시예에 따른 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 방법의 흐름도이다.
도 2를 참조하면, 단계 210에서 장치(100)는 공개 인터넷 환경 상의 데이터를 수집할 수 있다.
일 실시예에서 장치(100)는 공개 인터넷(200)에 접속하여 웹 크롤러(web crawler)를 이용함으로써 데이터베이스(300)에 저장된 데이터를 수집할 수 있다. 예를 들어, 장치(100)는 웹 크롤러를 이용하여 인터넷 사용자들(400)의 아이디(identification, ID)와 같은 웹사이트에 공개된 정보를 획득할 수 있다. 한편, 웹 크롤러를 이용하여 인터넷 사용자들(400)의 ID를 획득하기 위해서, 장치(100)는 웹사이트 별로 상이한 정보를 분석하여 처리할 수 있다.
또한, 장치(100)는 장치(100)의 사용자에 의해 지정된 웹사이트를 주기적으로 방문하여 방문한 웹사이트의 데이터베이스(300)에 저장된 데이터를 수집할 수 있다. 장치(100)에서 수집하는 데이터는 웹사이트의 텍스트 데이터일 수 있으며, 텍스트 데이터는 구조화된 태그 정보를 포함할 수 있다.
단계 220에서 장치(100)는 수집된 데이터를 이용하여 인터넷 사용자들(400) 각각이 작성한 게시글을 결정할 수 있다.
일 실시예에서 장치(100)는 단계 210에서 수집한 데이터를 이용하여 인터넷 사용자들(400) 각각의 식별자를 획득할 수 있다. 예를 들어, 식별자는 웹사이트의 아이디, 닉네임 등일 수 있으나, 이에 제한되지 않는다. 또한, 장치(100)는 웹사이트에 작성된 게시글에 대한 텍스트 데이터를 획득할 수 있다.
장치(100)는 인터넷 사용자들(400) 각각의 식별자와, 게시글에 대한 텍스트 데이터를 매칭시킴으로써, 인터넷 사용자들(400) 각각이 작성한 게시글을 결정할 수 있다. 예를 들어, 하나의 식별자에는 복수의 게시글들이 매칭될 수 있다.
단계 230에서 장치(100)는 인터넷 사용자들(400)이 작성한 게시글을 분석함으로써, 인터넷 사용자들(400) 각각에 대한 주제어를 추출할 수 있다. 장치(100)는 데이터베이스(300)로부터 수집한 게시글에 대한 텍스트 데이터를 분석함으로써 게시글에 대한 주제어를 추출할 수 있다.
일 실시예에서 장치(100)는 텍스트 마이닝(Text Mining) 기법을 적용하여 주제어를 추출할 수 있다. 장치(100)는 수집한 게시글에서 태그 정보를 제외한 텍스트를 추출하여, 불용어 및 유의어를 처리할 수 있다. 또한, 장치(100)는 색인 엔진을 이용하여 처리 결과를 색인하여 저장할 수 있다. 또한, 장치(100)는 색인 결과에 기초하여, 게시글 별 주제어를 추출할 수 있다.
한편, 장치(100)는 단계 220 및 230에서 처리된 결과에 따라, 인터넷 사용자들(400) 별로 주제어를 매칭시켜 저장할 수 있다.
단계 240에서 장치(100)는 인터넷 사용자들 각각에 대해 추출된 주제어를 이용하여, 인터넷 사용자들 간의 유사성을 분석할 수 있다.
일 실시예에서 장치(100)는 추출된 주제어를 이용하여 인터넷 사용자들 각각에 대한 벡터 값을 산출할 수 있고, 산출된 벡터 값에 기초하여 인터넷 사용자들 간의 유사성을 분석할 수 있다.
또한, 일 실시예에서 장치(100)는 추출된 주제어 각각에 대한 가중치를 산출하고, 산출된 가중치를 적용하여 인터넷 사용자들 간의 유사성을 분석할 수 있다.
장치(100)에서 인터넷 사용자들 간의 유사성을 분석하는 구체적인 내용에 대해서는 아래 도 3 내지 4에서 설명하기로 한다.
단계 250에서 장치(100)는 유사성 분석 결과에 기초하여 정보 유출자 군집을 검출할 수 있다.
장치(100)는 군집 알고리즘을 적용하여 인터넷 사용자들 중에서 유사성이 높은 인터넷 사용자들을 군집화하고, 군집화된 인터넷 사용자들을 정보 유출자로 검출할 수 있다. 일 실시예에서 장치(100)는 단계 240에서 산출된 벡터 값을 군집 알고르짐에 적용하여 인터넷 사용자들 중에서 유사성이 높은 인터넷 사용자들을 군집화할 수 있다.
장치(100)에서 유사성 분석 결과에 기초하여 정보 유출자 군집을 검출하는 구체적인 내용에 대해서는 아래 도 5에서 설명하기로 한다.
도 3은 일 실시예에 따른 인터넷 사용자들 및 주제어들을 매칭시킨 결과의 예시를 설명하는 도면이다.
도 3을 참조하면, n명(n은 1보다 큰 정수)의 인터넷 사용자들(400)과 m개(m은 1보다 큰 정수)의 주제어의 매칭 결과가 도시된다. 인터넷 사용자들(400)과 주제어의 매칭 결과는 행렬로 표현될 수 있다.
일 실시예에서, 사용자 1 내지 사용자 n은 데이터베이스(300)로부터 수집한 데이터에서 획득된 웹사이트의 아이디 정보일 수 있다. 또한, 주제어 1 내지 주제어 m은, 게시글에 대한 텍스트 데이터에 텍스트 마이닝 기법을 적용한 결과값들일 수 있다. 인터넷 사용자들(400)과 주제어의 매칭 결과는 n*m 행렬로 표현될 수 있다.
한편, 특정 사용자는 여러 웹사이트에 복수개의 게시글을 등록할 수 있다. 이 경우 특정 사용자에 매칭되는 주제어는, 특정 사용자가 작성한 것으로 결정된 복수개의 게시글 전부를 분석함으로써 추출된 주제어들일 수 있다. 또한, 이 경우 특정 사용자에 매칭되는 주제어는, 특정 웹사이트에 게시된 게시글들만을 분석함으로써 추출된 주제어들일 수 있다.
일 실시예에서, 인터넷 사용자들 및 주제어들을 매칭시킨 결과는 가중치일 수 있다. 장치(100)는 TFIDF(Term Frequency Inverse Document Frequency) 알고리즘을 적용하여 가중치를 산출할 수 있다. TFIDF 알고리즘을 적용하는 경우 일반적인 게시글에서는 적게 등장하나 특정 게시글에서 많이 등장하는 단어들을 추출할 수 있고, 추출된 단어들 중에서 기밀정보와 관련될 수 있는 주제어들을 선택할 수 있다. 장치(100)는 선택된 주제어들에 높은 가중치를 부여할 수 있다.
다른 실시예에서 인터넷 사용자들 및 주제어들을 매칭시킨 결과는 '매칭됨' 또는 '매칭되지 않음'을 나타내는 임의의 값일 수 있다.
그러나, 인터넷 사용자들 및 주제어들을 매칭시키는 방법은 이에 제한되지 않는다.
도 4는 일 실시예에 따른 인터넷 사용자들 간의 유사성을 분석한 결과의 예시를 설명하는 도면이다.
도 4를 참조하면, n명(n은 1보다 큰 정수)의 인터넷 사용자들(400) 상호 간의 유사성을 분석한 결과가 도시된다. 인터넷 사용자들(400) 상호 간의 유사성 분석 결과는 n*n 행렬로 표현될 수 있으며, 도 4에 도시된 행렬은 대칭행렬이다.
일 실시예에서, 각각의 인터넷 사용자들(400)과 주제어들을 매칭시킨 가중치를 이용하여 인터넷 사용자들(400) 각각에 대한 벡터 값을 산출할 수 있다. 장치(100)는 산출된 벡터 값을 이용하여 인터넷 사용자들(400) 상호 간 유사성을 분석할 수 있다.
일 실시예에서, 장치(100)는 사용자 1에 대한 사용자 2 내지 사용자 n의 유사성을 분석할 수 있다. 사용자 1에 대한 사용자 2 내지 사용자 n의 유사성은 도 4에 도시된 바와 같이 sim(2,1), sim (3,1) … sim(n,1)로 산출할 수 있다. 예를 들어, sim(a, b) (a 및 b는 n과 같거나 n보다 크기가 작은 정수) 는 전체 주제어 개수 중에 사용자 a과 사용자 b 모두에 매칭되는 주제어 개수의 비율일 수 있다. 또한, 추가적으로 sim(a, b)는 주제어 별 가중치가 반영된 결과일 수 있다.
위와 같은 방식으로 사용자 2에 대한 사용자 3 내지 사용자 n의 유사성 등을 분석할 수 있다.
그러나, 인터넷 사용자들(400) 상호 간의 유사성을 분석하는 방법은 이에 제한되지 않는다.
도 5는 일 실시예에 따른 인터넷 사용자들을 군집화한 결과의 예시를 설명하는 도면이다.
장치(100)는 유사성 분석 결과에 기초하여 정보 유출자 군집을 검출할 수 있다. 장치(100)는 유사성 분석 결과에 군집 알고리즘을 적용하여 인터넷 사용자들(400)을 군집함으로써 정보 유출자 군집을 검출할 수 있다.
일 실시예에서 장치(100)는 주제어 별 가중치를 이용하여 인터넷 사용자들(400) 각각에 대한 벡터 값을 산출 할 수 있다. 장치(100)는 인터넷 사용자들(400) 각각에 대해 산출된 벡터 값을 군집 알고리즘에 적용하여 유사성이 높은 인터넷 사용자들을 군집화할 수 있다. 예를 들어, 장치(100)는 K-평균(K-Means), PAM(Partitioning Around Medoids)의 군집화 알고리즘을 이용하여 인터넷 사용자들(400)을 군집화할 수 있으나, 군집화 방법은 이에 제한되지 않는다.
도 5를 참조하면, 도 5에는 도 3에 도시된 행렬과 비교하여, '군집화 결과' 열이 더 추가된 행렬이 도시된다. 군집화 결과, 인터넷 사용자들(400) 중에서 유사성이 높은 인터넷 사용자들(400)로 결정된 사용자 1, 사용자 2 및 사용자 n은 각각 G[1, 1], G[1, 2] 및 G[1, 3]의 값을 가질 수 있다 (G[a, b]에서 a는 그룹 식별 값, b는 그룹원 식별 값을 나타낸다). 장치(100)는 사용자 1, 사용자 2 및 사용자 n을 정보 유출자 군집에 속하는 인터넷 사용자들(400)로 검출할 수 있다.
도 6은 일 실시예에 따른 공개 인터넷 환경에서 정보 유출자 군집을 검출 장치의 블록도이다.
도 6을 참조하면, 장치(600)는 통신부(610), 메모리(620) 및 제어부(630)를 포함할 수 있다. 도 6에 도시된 장치(600)에는 실시예와 관련된 구성요소들만이 도시되어 있다. 따라서, 도 6에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 당해 기술분야의 통상의 기술자라면 이해할 수 있다.
통신부(610)는 공개 인터넷 환경 상의 데이터를 수집할 수 있다. 일 실시예에서 통신부(610)는 공개 인터넷(200)에 접속하여 데이터베이스(300)로부터 데이터를 수집할 수 있다.
한편, 통신부(610)는 장치(600)와 데이터베이스(300) 간의 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(610)는, 근거리 통신부, 이동 통신부를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
메모리(620)는, 제어부(630)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 통신부(610)에서 수집한 데이터를 저장할 수 있다.
메모리(620)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
제어부(630)는 도 1 내지 도 5에서 상술한 공개 인터넷 환경에서 정보 유출자 군집을 검출 일련의 과정을 제어할 수 있다.
일 실시예에서 제어부(630)는 공개 인터넷 환경 상의 데이터를 수집할 수 있다. 또한, 제어부(630)는 수집된 데이터를 이용하여 인터넷 사용자들(400) 각각이 작성한 게시글을 결정할 수 있다. 또한, 제어부(630)는 인터넷 사용자들(400)이 작성한 게시글을 분석함으로써, 인터넷 사용자들(400) 각각에 대한 주제어를 추출할 수 있다. 또한, 제어부(630)는 인터넷 사용자들 각각에 대해 추출된 주제어를 이용하여, 인터넷 사용자들 간의 유사성을 분석할 수 있다. 또한, 제어부(630)는 유사성 분석 결과에 기초하여 정보 유출자 군집을 검출할 수 있다.
한편, 장치(100)의 제어부(630)는 적어도 하나의 하드웨어 칩 형태로 제작되어 장치(100)에 탑재될 수 있다. 예를 들어, 제어부(630)는 공개 인터넷 환경에서 정보 유출자 군집을 검출하기 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 중앙 처리 장치(100)에 탑재될 수도 있다.
본 실시예들은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈과 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
전술한 본 명세서의 설명은 예시를 위한 것이며, 본 명세서의 내용이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 실시예의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 포함되는 것으로 해석되어야 한다.

Claims (10)

  1. 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 방법에 있어서,
    상기 공개 인터넷 환경 상의 데이터를 수집하는 단계;
    상기 수집된 데이터를 이용하여, 상기 인터넷 사용자들 각각이 작성한 게시글을 결정하는 단계;
    상기 게시글을 분석함으로써, 상기 인터넷 사용자들 각각에 대한 주제어를 추출하는 단계;
    상기 인터넷 사용자들 각각에 대해 추출된 주제어를 이용하여, 상기 인터넷 사용자들 간의 유사성을 분석하는 단계; 및
    상기 유사성 분석 결과에 기초하여 상기 정보 유출자 군집을 검출하는 단계;
    를 포함하는, 방법.
  2. 제 1항에 있어서,
    상기 인터넷 사용자들 간의 유사성을 분석하는 단계는,
    상기 추출된 주제어를 이용하여 상기 인터넷 사용자들 각각에 대한 벡터 값을 산출하는 단계; 및
    상기 산출된 벡터 값에 기초하여 상기 인터넷 사용자들 간의 유사성을 분석하는 단계;
    를 포함하는, 방법.
  3. 제 2항에 있어서,
    상기 정보 유출자 군집을 검출하는 단계는,
    군집 알고리즘에 상기 산출된 벡터 값을 적용하여 상기 인터넷 사용자들 중에서 유사성이 높은 인터넷 사용자들을 군집화하는 단계; 및
    상기 군집화된 인터넷 사용자들을 정보 유출자 군집으로 검출하는 단계;
    를 포함하는, 방법.
  4. 제 1항에 있어서,
    상기 인터넷 사용자들 간의 유사성을 분석하는 단계는,
    상기 추출된 주제어 각각에 대한 가중치를 산출하는 단계; 및
    상기 산출된 가중치를 적용하여 상기 인터넷 사용자들 간의 유사성을 분석하는 단계;
    를 포함하는, 방법.
  5. 제 1항에 있어서,
    상기 주제어를 추출하는 단계는,
    텍스트 마이닝(Text Mining) 기법을 적용하여 상기 게시글을 분석하는 단계;
    를 더 포함하는 방법.
  6. 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치에 있어서,
    상기 공개 인터넷 환경 상의 데이터를 수집하는 통신부; 및
    상기 수집된 데이터를 이용하여, 상기 인터넷 사용자들 각각이 작성한 게시글을 결정하고, 상기 게시글을 분석함으로써, 상기 인터넷 사용자들 각각에 대한 주제어를 추출하고, 상기 인터넷 사용자들 각각에 대해 추출된 주제어를 이용하여, 상기 인터넷 사용자들 간의 유사성을 분석하고, 상기 유사성 분석 결과에 기초하여 상기 정보 유출자 군집을 검출하는 제어부;
    를 포함하는, 장치.
  7. 제 6항에 있어서,
    상기 장치는,
    상기 통신부로부터 수집된 데이터를 저장하는 메모리를 더 포함하는, 장치.
  8. 제 6항에 있어서,
    상기 제어부는,
    상기 추출된 주제어를 이용하여 상기 인터넷 사용자들 각각에 대한 벡터 값을 산출하고, 상기 산출된 벡터 값에 기초하여 상기 인터넷 사용자들 간의 유사성을 분석하는, 장치.
  9. 제 8항에 있어서,
    상기 제어부는,
    군집 알고리즘에 상기 산출된 벡터 값을 적용하여 상기 인터넷 사용자들 중에서 유사성이 높은 인터넷 사용자들을 군집화하고, 상기 군집화된 인터넷 사용자들을 정보 유출자 군집으로 검출하는, 장치.
  10. 제 1항 내지 제 5항 중에 적어도 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020170102566A 2017-08-11 2017-08-11 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치 및 방법 KR101994938B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170102566A KR101994938B1 (ko) 2017-08-11 2017-08-11 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170102566A KR101994938B1 (ko) 2017-08-11 2017-08-11 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190017556A true KR20190017556A (ko) 2019-02-20
KR101994938B1 KR101994938B1 (ko) 2019-09-30

Family

ID=65562056

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170102566A KR101994938B1 (ko) 2017-08-11 2017-08-11 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101994938B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130064447A (ko) * 2011-12-08 2013-06-18 주식회사 케이티 사용자의 성향 유사도를 이용한 검색 결과 제공 서버 및 방법, 그리고 단말
KR20150046431A (ko) * 2013-10-21 2015-04-30 주식회사 소프트자이온 효과적인 마케팅을 도출하는 자동학습 시스템 및 방법
KR20170022230A (ko) * 2015-08-19 2017-03-02 고려대학교 산학협력단 온라인 상의 사용자들에 의하여 작성된 비정형데이터로부터 범죄탐지를 수행하는 시스템 및 이를 이용한 범죄탐지 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130064447A (ko) * 2011-12-08 2013-06-18 주식회사 케이티 사용자의 성향 유사도를 이용한 검색 결과 제공 서버 및 방법, 그리고 단말
KR20150046431A (ko) * 2013-10-21 2015-04-30 주식회사 소프트자이온 효과적인 마케팅을 도출하는 자동학습 시스템 및 방법
KR20170022230A (ko) * 2015-08-19 2017-03-02 고려대학교 산학협력단 온라인 상의 사용자들에 의하여 작성된 비정형데이터로부터 범죄탐지를 수행하는 시스템 및 이를 이용한 범죄탐지 방법

Also Published As

Publication number Publication date
KR101994938B1 (ko) 2019-09-30

Similar Documents

Publication Publication Date Title
US10438297B2 (en) Anti-money laundering platform for mining and analyzing data to identify money launderers
Zimmeck et al. A privacy analysis of cross-device tracking
JP6759844B2 (ja) 画像を施設に対して関連付けるシステム、方法、プログラム及び装置
US20170300575A1 (en) Methods and systems for quantifying and tracking software application quality
US20170083523A1 (en) Granular Forward Indexes on Online Social Networks
US20120330959A1 (en) Method and Apparatus for Assessing a Person's Security Risk
US20140095308A1 (en) Advertisement distribution apparatus and advertisement distribution method
US9251395B1 (en) Providing resources to users in a social network system
US10262039B1 (en) Proximity-based searching on online social networks
US20200143238A1 (en) Detecting Augmented-Reality Targets
US10432738B2 (en) Dynamic rule allocation for visitor identification
CN104143005A (zh) 一种相关搜索系统及方法
US20130179421A1 (en) System and Method for Collecting URL Information Using Retrieval Service of Social Network Service
US11604968B2 (en) Prediction of next place visits on online social networks
US11768844B2 (en) Artificial intelligence and/or machine learning systems and methods for evaluating audiences in an embedding space based on keywords
US20210165911A1 (en) System and method for improving security of personally identifiable information
KR20190054478A (ko) 다크웹 범죄 사이트 모니터링 시스템
CN110619075B (zh) 一种网页识别方法与设备
US9665574B1 (en) Automatically scraping and adding contact information
US10506383B2 (en) Location prediction using wireless signals on online social networks
CN110895587A (zh) 用于确定目标用户的方法和装置
Kim et al. Recent research trends for geospatial information explored by Twitter data
US20230066149A1 (en) Method and system for data mining
US8515183B2 (en) Utilizing images as online identifiers to link behaviors together
KR101994938B1 (ko) 공개 인터넷 환경에서 정보 유출자 군집을 검출하는 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant