KR100799558B1

KR100799558B1 - Ｐ２ｐ 네트워크에서의 유해 파일 추적 장치 및 방법

Info

Publication number: KR100799558B1
Application number: KR1020050107040A
Authority: KR
Inventors: 이호균; 남택용
Original assignee: 한국전자통신연구원
Priority date: 2005-08-19
Filing date: 2005-11-09
Publication date: 2008-01-31
Also published as: KR20070021878A

Abstract

본 발명은 P2P 망에서 불법, 유해 정보를 유포 또는 획득하는 사용자를 추적하는 유해 파일 추적 장치 및 방법에 관한 것으로서, P2P 네트워크를 이용한 불법, 유해 정보의 유포를 차단한다. 본 발명의 유해 파일 추적 장치는 P2P 네트워크를 통하여 송수신 되는 패킷을 후킹 하여 P2P 네트워크를 이용하는 사용자들이 검색을 요청한 파일 또는 사용자들이 접속하고 있는 컴퓨터가 보유하고 있는 파일 리스트를 추출하는 후킹부, 기계학습 알고리즘 또는 특정 파일의 특성에 대한 정보를 포함한 해쉬 코드를 기초로 파일 리스트 내의 불법 파일을 분류하는 유해 파일 분류부 및 분류된 불법 파일을 종류별로 관리 및 저장하고, 불법 파일 종류별로 불법 파일을 송신 또는 수신한 인터넷 프로토콜 주소 및 유포 또는 획득 시간을 함께 저장하는 데이터 베이스부를 포함한다.

하니팟, P2P, 불법 유해 파일

Description

Ｐ２Ｐ 네트워크에서의 유해 파일 추적 장치 및 방법{Apparatus and method for tracking harmful file in P2P network}

도 1 은 일반적인 하니팟 장치의 네트워크 구성을 도시한다.

도 2 는 본 발명의 바람직한 일 실시예로서, P2P 하니팟 장치의 네트워크 구성을 도시한다.

도 3 은 본 발명의 바람직한 일 실시예로서, 유해 파일 추적 장치의 내부 구성도이다.

도 4 는 중앙 P2P 하니팟 시스템과 기능 P2P 하니팟 시스템간의 해쉬 코드를 이용한 불법 파일 검출 후 결과를 각각의 DB에 저장 과정을 도시한다.

도5는 P2P 하니팟 중앙 서버의 중앙 DB에서 불법 유해 파일 리스트 작성 및 배포 과정을 도시한다.

도 6 은 P2P 네트워크에서의 유해 파일 추적 방법의 흐름도이다.

도 7 은 송수신 파일과 해쉬 코드 비교를 수행하는 흐름도이다.

도 8 은 해쉬 코드를 기초로 불법, 유해 파일을 분류하는 과정을 도시한다.

본 발명은 유해 정보 및 불법 소프트웨어 유포 수단이 되고 있는 P2P 네트워크에서의 불법, 유해 정보의 유통 상황을 추적하고 기록하기 위한 장치 및 방법에 관한 것으로서, 보다 상세히, 해커 추적용 시스템 중 하나인 하니팟 개념을 적용하여 유해 정보를 추적하는 장치 및 방법에 관한 것이다.

P2P 네트워크는 미국의 냅스터와 한국의 소리바다를 시작으로 불법, 음란 정보 유통으로 비약적인 성장을 이룬 네트워크 기술이다. 종래의 클라이언트-서버 네트워크 모델과는 달리 사용자가 1대 1로 연결된다는 점에서 중앙 제어나 감시가 어려운 반면 네트워크 로드가 분산되기 때문에 클라이언트-서버 네트워크 모델에 비해서 망을 효율적으로 사용하고 정보의 유포가 훨씬 빠른 장점이 있다.

P2P 통신 방식에는 PP2P 방식과 HP2P 방식이 있다. HP2P 방식은 계층형 P2P 방식으로 순수한 P2P 방식이 아니라 서버가 존재하면서 최소의 기능을 수행하는 방식이다. 서버는 사용자 관리와 검색 중계 기능을 하고 실제 자료 전송은 일대일로 이루어진다.

상기와 같은 P2P 네트워크에서의 불법,유해 정보 유포 방지를 위한 종래의 기술로는 네트워크 에지단에 방화벽이나 IDS처럼 트래픽 감시 장치를 설치하고, 모든 트래픽을 감시해서 불법,유해 P2P 트래픽인 경우 차단하는 방식이 있다. 그러나 상기 기술은 모든 네트워크 에지단에 감시 장비를 설치해야 한다는 점에서 비용이 너무 많이 들것으로 예상되고, 구현상의 어려움이 예상된다.

또한 P2P 네트워크를 이용한 불법, 유해 정보의 유포가 사회적인 문제로 이슈화 되면서, 음악 라이센스를 소유하고 있는 음반회사를 대행하는 일부 법률 회사 에서는 수십에서 수백명의 사용자를 수동으로 추적하여 고소하거나 또는 P2P 네트워크를 통하여 가짜 파일을 유포하여 사용자들을 불편하게 만드는 방법이 고안되어 있으나,실질적인 대응책으로서의 역할이 미비한 상태이다.

상기와 같은 문제점을 해결하기 위하여, 본 발명에서는 P2P 네트워크상에서 불법, 유해 파일을 유포하는 사용자의 IP를 추적하고 증거 자료를 획득하는 장치 및 방법에 관한 것이다.

본 발명의 바람직한 일 실시예에서, 유해 파일 추적 장치는 P2P 네트워크를 통하여 송수신 되는 패킷을 후킹하여 상기 P2P 네트워크를 이용하는 사용자들이 검색을 요청한 파일 또는 상기 사용자들이 접속하고 있는 컴퓨터가 보유하고 있는 파일 리스트를 추출하는 후킹부; 기계학습 알고리즘 또는 특정 파일의 특성에 대한 정보를 포함한 해쉬코드를 기초로 상기 파일 리스트 내의 불법 파일을 분류하는 유해 파일 분류부; 및 상기 분류된 불법 파일을 종류별로 관리 및 저장하고, 상기 불법 파일 종류별로 상기 불법 파일을 송신 또는 수신한 인터넷 프로토콜 주소 및 유포 또는 획득 시간을 함께 저장하는 데이터베이스부;를 포함한다.

본 발명의 또 다른 바람직한 일 실시예에서, P2P 네트워크에서의 유해 파일 추적 방법은 (a)P2P 네트워크를 통하여 송수신 되는 패킷을 후킹하는 단계; (b)상기 P2P 네트워크를 이용하는 사용자들이 검색을 요청한 파일 또는 상기 사용자들이 접속하고 있는 컴퓨터가 보유하고 있는 파일 리스트를 추출하는 단계; (c)기계학습 알고리즘 또는 특정 파일의 특성에 대한 정보를 포함한 해쉬 코드를 기초로 상기 파일 리스트 내의 불법 파일을 분류하는 유해 파일 분류 단계; 및 (d)상기 분류된 불법 파일을 종류별로 관리 및 저장하고, 상기 불법 파일 종류별로 상기 불법 파일을 송신 또는 수신한 인터넷 프로토콜 주소 및 유포 또는 획득 시간을 함께 저장하는 단계;를 포함한다.

이하 본 발명의 바람직한 실시예가 첨부된 도면들을 참조하여 설명될 것이다. 도면들 중 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조번호들 및 부호들로 나타내고 있음에 유의해야 한다. 하기에서 본 발명을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.

도 1 은 일반적인 하니팟 장치의 네트워크 구성을 도시한다.

하니팟은 1990년대 중반 미국 매사추세츠공과대학 교수 데이비드 클록(David Clock)이 처음 제안한 뒤, 1999년 선마이크로시스템의 컴퓨터 보안전문가인 랜스 스피츠너(Lance Spitzner)와 2002년 소프트웨어 제조회사 사익(SAIC: Science Applications International Corporation)이 실제 프로젝트를 시행하였다.

하니팟은 일반적으로 실제 시스템으로 에뮬레이트 되는 가상 시스템들을 말하는 것으로, 일반 시스템에서 흔히 발견될 수 있는 서비스를 표준 포트를 통해서 운용하고 있는 것처럼 보이며, 해커들을 속이기 위해 네트워크 속에 포함된 일련의 프로그램, 컴퓨터, 장비 등을 지칭한다.

해커들이 하니팟 시스템에 들어와 해킹을 시도할 경우, 하니팟 시스템은 침입자를 오래 머물게 하여 추적이 가능하므로 감시, 기록 시스템을 가동해서 해커 행위에 대한 증거를 남길 수 있고, 침입한 해커를 추적하고 최신 해킹 기법에 대한 자료 수집이 가능하다. 따라서, 능동적인 방어 및 침입자의 공격 차단의 이점이 많이 활용되고 있다.

하니팟은 정상 운영중인 네트워크(110)와 이를 보호하기 위해 설치되는 가상 네트워크(120)로 구성된다. 서브넷의 진입점이 되는 라우터(100)는 유입 트래픽을 두 네트워크에 모두 전송하다가 하니넷 센서(130)에서 이상 징후를 발견하는 경우, 트래픽을 하니팟으로 구성된 네트워크(120)로만 전송하고, 하니팟에서는 의심되는 사용자(트래픽)의 모든 움직임을 기록한다.

일반적으로 하니팟은 일반 운용 서버를 지키기 위해 설치됐지만 본 발명에서 사용되는 P2P 하니팟 장치의 네트워크는 일반 운용 P2P 서버를 지키기 위한 것은 아니며, 단지 P2P 하니팟(230, 240)에 불법, 유해 파일 사용자들을 유인하는 기능만을 수행한다.

서버 기능이 전혀 없는 PP2P 방식인 경우에는 적용이 불가능 하지만 현재 국내에서 많이 사용되는 P2P 서비스가 대부분 HP2P 방식이기 때문에 PP2P 방식으로 주요 방식이 바꾸기 전까지는 유효한 감시 수단이 될 수 있다. 따라서 본 발명에서는 P2P 서비스가 HP2P 방식인 경우에 유해, 불법 파일을 추적하는 것으로 가정한 다.

본 발명에서는 불법, 유해 파일 유포자 및 획득자들에게 진짜 P2P 서버로 보이기 위해서 P2P 서버팜을 설치한다(230, 240). 본 발명의 P2P 하니팟에서는 진짜 P2P 서버 기능을 운용한다.

서버팜에는 서버 프로그램이 공개된 여러 종류의 P2P 서버 서비스가 제공되도록 한다. 그리고 단일 서비스에 대해서 여러 대의 서버가 운용될 수도 있다. 서버팜을 확보해도 많은 사용자 리스트가 확보되지 않으면 효과적인 데이터 수집이 이루어 지지 않을 수 있다.

P2P 하니팟에서 불법/유해 정보 이용자들이 P2P 하니팟의 서버팜 서비스를 이용하지 않으면 증거를 수집할 수 없게 되므로, 이러한 부분은 사회 공학적인 방법으로 해결할 수 있을 것이다. 일 예로서, 불법/유해 파일의 유포로 정부 기관의 제재를 받게 된 기존의 유명 서버들의 IP 리스트를 확보해서 바로 P2P 하니팟의 서버팜 IP로 이용할 수 있다.

각각의 P2P 하니팟(230, 240)은 불법, 유해 파일 리스트를 데이터 베이스(231, 241)에 기록 관리하고, 각 데이터 베이스에 기록 관리되는 불법, 유해 파일 리스트는 중앙 데이터 베이스부(250)에서 총괄적으로 관리된다.

도 3은 본 발명의 바람직한 일 실시예로서, 유해 파일 추적 장치의 내부 구성도이다.

본 발명의 유해 파일 추적 장치는 다수 개의 P2P 서비스를 동시에 하나의 P2P 하니팟 서버팜에서 동시에 운영한다. 각각의 P2P 서비스에서 유포되고 있는 파 일 리스트를 확보하기 위해 각 P2P 서버 프로그램을 개조하거나 프로토콜을 분석해서 송수신 패킷을 가로챈 뒤, 파일 리스트 정보를 추출한다.

각 파일들은 기계학습을 통해서 자동으로 불법/유해 파일 여부가 검사되고, 불법/유해 파일로 판정된 경우 해당 파일을 유포한 사용자의 IP를 추적하고 증거 자료를 저장한다. 특정 파일의 유포가 문제되는 경우에 헤더 정보의 해쉬 값을 키로 해서 현재 P2P 네트워크에서 해당 파일의 유포 상황을 감시할 수 있다.

그 후 여러 P2P 서비스에서 추출한 파일 리스트를 하나의 DB로 저장해서 통합 관리한다. 이를 통해서 전체 P2P 네트워크에서 유포되고 있는 파일들의 추이를 알 수 있다. 이상과 같은 기능에 대한 경고 메시지와 추이 그래프를 관리 콘솔을 통해서 출력할 수 있다.

본 발명의 유해 파일 추적 장치(300)는 후킹부(310), 유해 파일 분류부(320), 데이터 베이스부(330) 및 지역 검출부(340)를 포함한다.

후킹부(310)는 P2P 네트워크를 통하여 송수신 되는 패킷을 후킹하여 상기 P2P 네트워크를 이용하는 사용자들이 검색을 요청한 파일 또는 상기 사용자들이 접속하고 있는 컴퓨터가 보유하고 있는 파일 리스트를 추출한다.

P2P 서버 기능으로부터 완벽하게 서버로 오는 클라이언트의 요청을 바로 추출해서 데이터베이스로 저장할 수 있는 경우에는 패킷 후킹 기능이 요구되지 않으나, 서버 프로그램의 변경이 불가능한 경우, 후킹부(310)를 통하여 서버로 오는 클라이언트의 메세지들을 미리 분석한다.

네트워크 후킹을 통하여, P2P 응용 프로그램 간에 소정의 프로토콜 규약을 조사한다. 즉, 클라이언트의 메시지를 조사하여 메시지 타입에 따라 초기 연결 설정 패킷 규약, 검색 요청 패킷 규약, 파일 전송 요청 패킷 규약, 패킷 전송 규약 등을 알아낸 후, 그 결과에 따라 P2P 응용 프로그램 간에 사용하는 통신 포트를 감시한다.

후킹부(310)는 분석을 통해 클라이언트가 요청한 검색 단어 또는 클라이언트가 접속하고 있는 컴퓨터가 보유하고 있는 파일 리스트등을 추출한다.

유해 파일 분류부(320)에서는 기계학습 알고리즘 또는 특정 파일의 특성에 대한 정보를 포함한 해쉬코드를 기초로 후킹부(310)에서 추출한 파일 리스트 내의 불법 파일을 분류한다.

기계 학습이란 통계적 학습 방법과 비통계적 학습 방법이 있는데, 본 발명에서는 통계적 학습 방법을 사용한다. 통계적 학습 방법은 서로 다른 두 그룹의 학습 데이터가 주어지면 컴퓨터 학습 과정을 통해 두 그룹을 나누는 기준을 자동으로 찾고, 이 기준에 따라 이후에 주어지는 시험 데이터에 대해서 자동으로 판단하는 방법이다.

본 발명에서 사용하는 바람직한 일 예로서 기계 학습 방법으로 SVM 방식을 이용한다. P2P에서 유통되는 유해 파일들은 파일명이 서술 형태의 문장으로 이루어지는 특성에 따라 검색어가 많이 포함되는 경우 보다 쉽게 검색되는 특성이 있는바 P2P 트래픽에서 사용자들이 보유하고 있는 파일 리스트를 수집한 이후에 이 파일들이 유해한지 아닌지를 자동으로 판정하기 위해서이다.

기계 학습 방법을 이용하여 불법 파일을 분류하는 과정을 살펴보면 다음과 같다. 우선 유해 파일에서 많이 포함하고 있는 유해 단어 리스트를 구축한다. 다음으로, 검사 대상이 되는 파일명에 대해서 형태소 분석을 수행해서 문장을 단어 단위로 분해한다.

시험 문장이 유해어를 포함한 정도를 계산한 뒤 이 계산 결과를 SVM 학습 알고리즘에 대입한다. SVM 학습 알고리즘은 미리 학습 데이터를 통해서 유해어를 어느 정도 포함하고 있으면 유해 파일인지를 판정할 수 있는 기준이 있다. SVM 학습 알고리즘을 통해서 시험 문장이 유해 파일의 파일명인지 판정한다. 끝으로, 추출한 파일 리스트 내에서 불법 파일을 분류한다.

다만, 이는 본 발명의 바람직한 일 실시예에 해당하는 것으로서, 본 발명의 기술적 사상을 용이하게 치환, 변경가능한 모든 개념을 포함하는 것임을 유의하여야 한다.

해쉬코드를 기초로 파일 리스트에서 불법 파일을 분류하는 것은 다음과 같다. 기계 학습 알고리즘을 이용하여 파일을 분류하는 것은 카테고리 분류를 자동으로 선처리 함으로써 운영 과정을 어느 정도 자동화시킬 수 있는 이점은 있으나 100%의 정확성을 가지지 못한다.

예를 들어, 김선일 사건 또는 연예계 X 파일과 같이 특정 파일의 유포를 추적해야 하는 경우, 기계 학습 알고리즘을 통한 파일 분류가 아니라 해쉬코드를 이용한 파일 단위의 비교 기능이 요구된다. 즉, 파일 이름과 파일 크기, 파일 헤더를 이용한 해쉬 코드 정보를 이용하여 고속 비교 기능을 수행한다.

해쉬 코드 생성 과정을 자세히 살펴보면 다음과 같다. P2P를 통해서 송수신 받는 대부분의 불법 유해 파일은 동영상 파일, 음반 파일, 압축 파일 등이다. 이 파일들은 모두 각각 파일 포맷에 맞는 파일 헤더가 있고 파일 헤더 부분 이후에 데이터 부분이 나오게 된다. 해쉬 코드 생성부는 패킷 한 개에 들어갈 정보의 사이즈에 해당하는 파일 헤더부와 데이터 부분에 대한 정보를 추출하고 이 데이터를 해쉬 코드로 변환해서 저장한다.

예를 들어 패킷 한개에 512 바이트의 정보가 들어가고 AVI 동영상의 헤더는 64 바이트 라면 해쉬 코드 생성부는 유해 동영상에 대해서 AVI 동영상 헤더 64 바이트와 데이터 부분 448 바이트에 대한 데이터를 해쉬 코드로 변환한다. 그리고 이 값을 DB에 저장한다.

이 후, 전송중인 특정 파일이 유해 파일인지 검사하려고 한다면, 전송 중인 파일의 첫번째 패킷을 추출해서 512 바이트 크기의 데이터를 해쉬코드로 변환하고, 이 값을 미리 만들어둔 유해 파일들의 해쉬값 리스트와 비교한다.

파일 요청부(321)는 기계학습 알고리즘을 기초로 파일을 불법 파일로 분류하는 것이 불명확하거나 또는 불법 파일에 대한 증거자료가 필요한 경우 파일을 보유한 해당 컴퓨터로 파일 전송을 요청한다. 실제 파일을 수신해서 확인함으로써보다 정확한 파일 검사가 가능하고, 증거를 확보할 수 있다.

파일 검사를 수행할 때에는, 불법 음반의 경우 음반 검색 기술을 이용하여 라이센스가 등록된 음반인지 여부의 확인이 가능하다. 동영상 파일의 경우 기계 학습을 통한 동영상 분류 기술을 적용하여 유해 파일의 정확성을 높일 수 있다.

데이터 베이스부(330)는 유해 파일 분류부(320)에서 분류된 불법 파일을 종 류별로 관리 및 저장하고, 불법 파일 종류별로 불법 파일을 송신 또는 수신한 인터넷 프로토콜 주소 및 유포 또는 획득 시간을 함께 저장한다.

또한, 데이터 베이스부(330)는 파일 리스트 또는 분류된 불법파일을 검색 요청 회수를 기준으로 순서대로 정렬하고 상기 정렬 순서로부터 송수신 변화량을 계산하는 데이터 분석부(331)를 더 포함한다. 데이터 분석부(331)는 또한 특정 파일의 유포가 임계치를 초과하였을 때 경고 메시지를 출력하거나 P2P 네트워크에서 유포되고 있는 불법, 유해 파일의 비율이나 변화율 등을 그래프로 출력할 수 있다.

데이터 베이스부는 P2P 네트워크에서 유포되고 있는 파일들의 변화량 추이를 계산해서 제공하며, 단시일 내에 검색 요청과 송수신 회수가 폭발적으로 증가한 파일을 추출한다. 이러한 파일들은 주로, 최근 개봉한 영화의 불법 배포판 또는 유명 연예인의 몰카 사진 등과 같은 불법, 유해 파일일 가능성이 높다. 따라서, 데이터 분석부(331)에서는 정렬 순서를 기준으로 파일의 변화량 추이가 매우 크거나 또는 송수신 회수가 폭발적으로 증가한 파일을 자동으로 불법, 유해 파일로 분류할 수 있다.

지역 검출부(340)는 데이터 베이스부(330)에서 불법 파일을 송신 또는 수신할 때 함께 저장한 인터넷 프로토콜 주소를 기초로 상기 불법 파일이 송수신된 컴퓨터가 위치한 지역을 지도상에 디스플레이한다.

본 발명의 유해 파일 추적 장치는 다수 개의 P2P 서비스를 동시에 하나의 P2P 하니팟 서버팜에서 동시에 운영한다. 각각의 P2P 서비스에서 유포되고 있는 파일 리스트를 확보하기 위해 각 P2P 서버 프로그램을 개조하거나 프로토콜을 분석해서 송수신 패킷을 가로챈 뒤, 파일 리스트 정보를 추출하고, 여러 P2P 서비스에서 추출한 파일 리스트를 하나의 DB로 저장해서 통합 관리한다. 이를 통해서 전체 P2P 네트워크에서 유포되고 있는 파일들의 추이를 알 수 있다

보다 상세히, 중앙 P2P 하니팟 시스템의 자동 유해/불법 자료 분류부는(470) 후킹한 패킷으로부터 파일 목록을 받아(410) 기계 학습 알고리듬을 이용하여 불법 유해 파일을 선별하여 저장한다.

기능 P2P 하니팟 시스템의 파일 리스트 DB 관리부(480)는 후킹한 패킷으로부터 파일 목록을 받아(410) 수신한 파일 목록을 DB에 저장, 관리하고, 주기적으로 불법, 유해성 검사를 자동 유해/불법 자료 분류부(470)에 요청한다.

기능 P2P 하니팟 시스템의 기능 DB 통신부(490)는 중앙 DB와 기능 DB 간의 통신을 담당한다. 중앙 DB에서 불법, 유해 파일 리스트를 받아 해쉬코드를 이용한 지정 파일 유포 검사부(420)로 전송한다.

기능 P2P 하니팟은 P2P 서버 기능(430)을 수행하면서 불법, 유해 파일 사용자와 불법,유해 파일 리스트를 작성하기 위한 함정 기능을 담당하며, 네트워크 단에서 들어오고 나가는 모든 트래픽을 가로채서 저장한다(후킹)(410). P2P 서버 프로그램을 바로 제어할 수 있다면 네트워크 단에서 패킷을 가로채서 훔쳐볼 필요가 없지만 대부분은 P2P 서버 프로그램은 실행 프로그램 형태로 다운받아서 운용은 할 수 있지만 그 구현 소스를 변경할 수 없기 때문이다.

해쉬코드를 이용한 지정 파일 유포 검사부(420)에서는 후킹한 파일의 파일명 또는 파일의 해쉬코드를 추출한다. 추출한 파일명 또는 해쉬 코드는 기능 DB 통신부(490)에 미리 저장되어 있는 불법, 유해 파일 리스트와 비교해서 불법, 유해 파일로 판정이 되면 경고 메시지를 P2P 하니팟 기능 제어부(440)로 발생한다.

기능 P2P 하니팟 시스템의 P2P 서버 기능(430)을 통해서 특정 사용자가 불법 파일을 지니고 있다는 기록이 남는 경우에도, 사용자가 증거 자료의 효력을 부인하는 경우, P2P 클라이언트 기능(450)을 통해 사용자가 지니고 있는 파일을 실제로 다운받아 불법 자료를 저장해 둘 수 있다. P2P 하니팟 기능 제어부(440)에서는 P2P 하니팟의 세부기능을 관리, 제어한다.

중앙 P2P 하니팟 시스템은 중앙 DB 통신부(523)에서 기능 P2P 하니팟 시스템의 기능 DB와 통신하면서 불법, 유해 파일 목록을 취합하고 중앙 DB(521)는 취합한 파일 목록을 관리하며, P2P 하니팟 중앙 DB 제어부(522)는 중앙 DB(521)의 세부 기능을 제어한다.

사용자 GUI(511)에서는 GUI를 통해서 사용자가 배포할 불법 유해 파일 리스트를 수정, 작성하고, 특정 파일 해쉬코드 생성 및 배포부(513)에서는 사용자 GUI(511)를 통해 작성된 파일리스트에 대하여 해당 파일의 해쉬 코드를 생성하며, P2P 하니팟 중앙 기능 제어부(512)는 중앙 P2P 하니팟 서버(510)의 세부 기능을 제어 한다.

도 6은 P2P 네트워크에서의 유해 파일 추적 방법의 흐름도이다.

P2P 하니팟에서 P2P 서버로서의 기능 수행을 시작한다. 클라이언트가 P2P 서버로 불법, 유해 파일의 송수신을 요청하는 경우, 클라이언트는 자신이 접속하고 있는 컴퓨터 내의 파일 리스트를 P2P 서버로 전송한다.

P2P 서버는 P2P 서버와 클라이언트 간에 송수신 되는 파일을 후킹하여 후킹한 패킷을 분석하여 클라이언트가 요청한 검색 파일 리스트 또는 클라이언트가 접속하고 있는 컴퓨터가 보유한 파일 리스트를 추출한다(S610, S620).

P2P 서버는 파일 리스트에서 불법, 유해 파일을 기계학습 알고리즘 또는 특정 파일의 특성에 대한 정보를 포함한 해쉬 코드를 기초로 분류한다. 그 후 불법 파일의 종류 또는 카테고리별로 분류하여 이를 데이터 베이스에 불법 파일을 송신 또는 수신한 인터넷 프로토콜 주소 및 유포 또는 획득 시간을 함께 저장한다(S640).

하니팟 서버의 기능을 하는 장치가 다수인 경우, 중앙 데이터베이스에 각각의 하니팟 서버의 데이터베이스의 자료를 주기적으로 업데이트 한다(S650).

유해 파일 추적 장치의 유해 파일 분류부(320)에서는 해쉬 코드를 기초로 후킹부(310)에서 추출한 불법, 유해 파일 리스트에 해당하는 송수신 파일과 해쉬 리스트에 있는 파일의 파일명이 동일한지 검사한다(S710, S720).

동일한 파일명의 파일이 있는 경우 클라이언트에게 해당 파일의 전송을 요청한다(S730). 그 후 특정 파일의 해쉬 코드를 생성한다. 생성한 특정 파일의 해쉬 코드를 해쉬 코드 검사부에 저장하여 해쉬 리스트를 제작한다.

그 후, 후킹부(310)에서 파일을 후킹할 때마다 파일의 헤더 정보를 추출하여 해쉬 코드를 생성하고 생성된 해쉬 코드가 상기 해쉬 리스트에 저장되어 있는 해쉬코드와 일치하는지를 검사한다. 해쉬값이 일치하는 경우 데이터베이스로 송수신 IP, 파일 명칭, 송수신 시각 등의 증거자료를 기록한다(S740, S750).

기능 P2P 하니팟(800a)에서는 후킹 모듈(810)에서는 파일 리스트를 추출할 때마다 해쉬 코드 검사부에 검사를 의뢰한다. 송수신 파일 중에 해쉬 리스트와 일치하는 파일이 있는지 검사하고(820), 송수신 파일 중 유해 파일이 있다고 판정되면, 기능 DB에 유해 파일을 송수신하고 있는 PC의 IP와 해당 파일을 저장한다(830). 기능 DB는 주기적으로 저장한 IP와 해당 파일을 증거 데이터로 중앙 DB로 송신한다.(840)

중앙 P2P 하니팟(800b)에서는 사용자 GUI에서 특정 파일의 해쉬 파일 생성 및 배포 요청을 하면, 특정 파일의 해쉬 코드를 생성한다(850, 860). 중앙 DB 통신부에서 생성된 특정 파일의 해쉬 코드를 배포하고, 기능 P2P 하니팟 DB에서 이를 수신하고 해쉬 코드 검사부에 등록한다(870~890).

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피 디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다.

그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

본 발명을 통하여 음악 라이센스를 소유하고 있는 음반회사를 대행하는 일부 법률 회사에서는 수십에서 수백명의 사용자들이 P2P 네트워크를 통하여 불법, 유해 파일을 유포하고 있는 상황 및 증거를 추적할 수 있다.

음악 라이센스 뿐만 아니라 P2P 네트워크를 통해 송수신 되는 파일의 추이에 대한 추적이 가능하므로 P2P 네트워크를 통한 사용자들의 불법, 유해 파일의 유포 감시가 용이하다.

또한, 사용자들이 남기고 간 증거를 추적함으로써 파일이 유포되고 있는 지역을 추적할 수 있는 효과도 발생한다. 따라서, 본 발명이 이용될 경우 P2P 네트워크 망에서의 불법, 유해 파일 유포가 근절될 것을 기대할 수 있다.

Claims

P2P 네트워크를 통하여 송수신 되는 패킷을 후킹하여 상기 P2P 네트워크를 이용하는 사용자들이 검색을 요청한 파일 또는 상기 사용자들이 접속하고 있는 컴퓨터가 보유하고 있는 파일 리스트를 추출하는 후킹부;

미리 학습된 소정의 데이터를 기초로 자동으로 분류 기준을 찾는 통계적 학습 방법을 이용하는 기계학습 알고리즘 또는 특정 파일의 특성에 대한 정보를 포함한 해쉬코드를 기초로 상기 파일 리스트 내의 불법 파일을 분류하는 유해 파일 분류부; 및

상기 분류된 불법 파일을 종류별로 관리 및 저장하고, 상기 불법 파일 종류별로 상기 불법 파일을 송신 또는 수신한 인터넷 프로토콜 주소 및 유포 또는 획득 시간을 함께 저장하는 데이터베이스부;를 포함하는 것을 특징으로 하는 P2P 네트워크에서의 유해 파일 추적 장치.
제 1 항에 있어서, 상기 데이터 베이스부는

상기 파일 리스트 또는 상기 분류된 불법파일을 검색 요청 회수를 기준으로 순서대로 정렬하고 상기 정렬 순서가 변경된 경우 저장된 상기 불법 파일을 송신 또는 수신한 인터넷 프로토콜 주소 및 유포 또는 획득 시간을 이용하여 상기 정렬 순서가 변경된 파일의 송수신 변화량을 계산하는 데이터 분석부;를 포함하는 것을 특징으로 하는 P2P 네트워크에서의 유해 파일 추적 장치.
제 1 항에 있어서,

상기 저장된 인터넷 프로토콜 주소를 기초로 상기 불법 파일이 송수신된 컴퓨터가 위치한 지역을 지도상에 디스플레이하는 지역 검출부;를 더 포함하는 것을 특징으로 하는 P2P 네트워크에서의 유해 파일 추적 장치.
제 2 항에 있어서, 상기 데이터 분석부는

상기 계산된 파일의 송수신 변화량의 추이 그래프를 도시하고 상기 송수신 변화량이 소정의 임계치를 초과할 경우 경고 메세지를 생성하는 알림부;를 더 포함하는 것을 특징으로 하는 P2P 네트워크에서의 유해 파일 추적 장치.
제 1 항에 있어서, 상기 유해 파일 분류부는

각각의 파일의 명칭, 파일 크기, 파일 헤더에 대한 정보를 포함하는 상기 파일의 특성에 대한 정보를 이용하여 상기 해쉬 코드가 포함한 특정 파일의 특성에 대한 정보와 상기 파일 리스트 내의 파일의 특성에 대한 정보를 비교하여 상기 파일 리스트 내의 불법 파일을 분류하는 것을 특징으로 하는 P2P 네트워크에서의 유해 파일 추적 장치.
제 1 항에 있어서, 상기 유해 파일 분류부는

상기 기계학습 알고리즘을 기초로 파일을 불법 파일로 분류하는 것이 불명확하거나 또는 상기 불법 파일에 대한 증거자료가 필요한 경우 상기 파일을 보유한 해당 컴퓨터로 파일 전송을 요청하는 파일 요청부;를 더 포함하는 것을 특징으로 하는 P2P 네트워크에서의 유해 파일 추적 장치.
(a)P2P 네트워크를 통하여 송수신 되는 패킷을 후킹하는 단계;

(b)상기 P2P 네트워크를 이용하는 사용자들이 검색을 요청한 파일 또는 상기 사용자들이 접속하고 있는 컴퓨터가 보유하고 있는 파일 리스트를 추출하는 단계;

(c)미리 학습된 소정의 데이터를 기초로 자동으로 분류 기준을 찾는 통계적 학습 방법을 이용하는 기계학습 알고리즘 또는 특정 파일의 특성에 대한 정보를 포함한 해쉬 코드를 기초로 상기 파일 리스트 내의 불법 파일을 분류하는 유해 파일 분류 단계; 및

(d)상기 분류된 불법 파일을 종류별로 관리 및 저장하고, 상기 불법 파일 종류별로 상기 불법 파일을 송신 또는 수신한 인터넷 프로토콜 주소 및 유포 또는 획득 시간을 함께 저장하는 단계;를 포함하는 것을 특징으로 하는 P2P 네트워크에서의 유해 파일 추적 방법.
제 7 항에 있어서, 상기 (d) 단계는

(d-1)상기 파일 리스트 또는 상기 분류된 불법파일을 검색 요청 회수를 기준으로 순서대로 정렬하고 상기 정렬 순서가 변경된 경우 저장된 상기 불법 파일을 송신 또는 수신한 인터넷 프로토콜 주소 및 유포 또는 획득 시간을 이용하여 상기 정렬 순서가 변경된 파일의 송수신 변화량을 계산하는 단계;를 포함하는 것을 특징으로 하는 P2P 네트워크에서의 유해 파일 추적 방법.
제 7 항에 있어서,

(e)상기 저장된 인터넷 프로토콜 주소를 기초로 상기 불법 파일이 송수신된 컴퓨터가 위치한 지역을 지도상에 디스플레이하는 단계;를 더 포함하는 것을 특징으로 하는 P2P 네트워크에서의 유해 파일 추적 방법.
제 8 항에 있어서, 상기 (d) 단계는

(d-2)상기 계산된 파일의 송수신 변화량의 추이 그래프를 도시하고 상기 송수신 변화량이 소정의 임계치를 초과할 경우 경고 메세지를 생성하는 단계;를 더 포함하는 것을 특징으로 하는 P2P 네트워크에서의 유해 파일 추적 방법.
제 7 항에 있어서, 상기 (c) 단계는

각각의 파일의 일부 및 전체 명칭, 파일 크기, 파일 헤더에 대한 정보를 포함하는 상기 파일의 특성에 대한 정보를 이용하여 상기 해쉬 코드가 포함한 특정 파일의 특성에 대한 정보와 상기 파일 리스트 내의 파일의 특성에 대한 정보를 비교하여 상기 파일 리스트 내의 불법 파일을 분류하는 것을 특징으로 하는 P2P 네트워크에서의 유해 파일 추적 방법.
제 7 항에 있어서, 상기 (c) 단계는

상기 기계학습 알고리즘을 기초로 파일을 불법 파일로 분류하는 것이 불명확하거나 또는 상기 불법 파일에 대한 증거자료가 필요한 경우 상기 파일을 보유한 해당 컴퓨터로 파일 전송을 요청하는 것을 특징으로 하는 P2P 네트워크에서의 유해 파일 추적 방법.