KR20120044002A

KR20120044002A - 인터넷을 통해 수집한 데이터의 분석과 증거화 방법 및 이를 이용한 데이터 분석과 증거화 시스템

Info

Publication number: KR20120044002A
Application number: KR1020100105346A
Authority: KR
Inventors: 길연희; 이주영; 조수형; 김영수; 김건우; 이상수; 최우용; 은성경; 홍도원; 조현숙
Original assignee: 한국전자통신연구원
Priority date: 2010-10-27
Filing date: 2010-10-27
Publication date: 2012-05-07
Also published as: US8639683B2; KR101407060B1; US20120109969A1

Abstract

디지털 증거 자료 수집을 위한 데이터 분석 및 증거화 방법과 시스템이 개시된다. 데이터의 수집 대상이 되는 대상 장치로부터 사용 히스토리 정보를 수집하여 분석하고, 사용 히스토리 정보에 기초하여 인터넷상의 데이터를 다운로드하여 수집하고, 수집된 데이터에 대한 시점확인 토큰 발급을 요청하여 발급된 시점확인 토큰을 수령하는 온라인 데이터 포렌식 서버, 시점확인 토큰 발급 요청에 대응하여 수집된 데이터에 대한 시점확인 토큰을 발급하여 온라인 데이터 포렌식 서버로 제공하는 시점확인 토큰 발급 서버 및 수집된 데이터를 저장하는 저장 장치를 포함하여 데이터 분석 및 증거화 시스템를 구성한다. 본 발명에 따른 방법 및 시스템을 이용할 경우에는 수집되는 온라인 데이터에 대해 시점확인 토큰을 발급 받음으로써, 수집된 온라인 데이터가 과거 특정 시점으로부터 수집 시점까지 온라인 상의 해당 주소에 존재했으며, 수집 시점 이후로부터 수집된 데이터가 변경되지 않았음을 용이하게 증명할 수 있다.

Description

인터넷을 통해 수집한 데이터의 분석과 증거화 방법 및 이를 이용한 데이터 분석과 증거화 시스템{Method for analysis and validation of online data for digital forensics and system using the same}

본 발명은 데이터 분석 및 증거화 방법 및 이를 이용한 시스템에 관한 것으로, 더욱 상세하게는 인터넷을 통하여 수집한 데이터를 디지털 증거 자료로서 활용하기 위한 데이터 분석 및 증거화 방법 및 이를 이용한 시스템에 관한 것이다.

웹 히스토리 및 레지스트리 상의 방문 홈페이지 정보를 통해 수집한 인터넷 접속기록은 과거 수행한 작업 및 그 사람의 행적과 밀접한 관련이 있을 수 있다.

또한, 특정 범죄에 대한 용의자의 경우 사건 발생 이전 과거 얼마간의 주고받은 메일의 내용에서 범죄의 단서를 찾아낼 수 있다. 형사상 범죄뿐만 아니라 민사상 범죄에 있어서도 메일 내용 분석은 유용하며, 특히 기업 내 기밀 누출과 연관된 범죄의 경우, 해당 기업의 메일 서버를 이용할 시 내부 감시 프로그램이나 보안 프로그램의 필터링 기능에 의해 실시간으로 모니터링 되거나 사건 발생 후 언제든지 쉽게 범죄의 증거가 노출될 수 있다는 점으로 인해, 내부 메일을 이용하지 않고 추적이 불가능한 외부 포털 사이트의 메일을 이용하는 경우가 많으므로 그 사람이 이용하는 웹 메일 정보를 확보해 송수신 메일함 및 첨부파일 등의 컨텐츠를 수집하고 분석하는 것이 범죄 해결을 위해 필수적이라 하겠다.

뿐만 아니라, 개인 블로그(blog)의 경우, 개개인의 신상이나 일상 등의 상세한 내용을 포함하고 있는 경우가 많으므로 조사 대상자가 운용하고 있는 블로그가 존재할 경우 이를 조사할 필요가 있다. 간혹, 폐쇄 카페(즉, 포털 사이트 등이 운영하는 카페)를 운영하고 있거나, 활동하고 있는 카페가 있을 경우 내부에 사건과 연관된 정보가 존재할 수 있으므로 게시물을 분석, 조사해야 한다.

과거 수사에서는 이러한 온라인 데이터를 분석하기 위해 획득한 웹 히스토리를 이용해 일일이 해당 웹 페이지를 방문하여 내용을 파악하는 방법이 주를 이루었으나, 방문 기록이 무수히 많거나 빠른 시간에 효율적인 검색을 하고자 할 경우, 온라인 데이터를 사전에 획득해 해당 데이터에 대한 색인을 미리 생성한 후 검색 및 분석을 수행하는 방법이 유용할 것이다.

예컨대, 메일 분석 시스템의 경우, 미국의 E-Discovery제품(ClearWell사의 Clearwell, Guidance Software사의 Encase eDiscovery 등)에서 아웃룩, 아웃룩익스프레스의 편지함 파일을 로드(load)하여 분석, 색인 생성 후 검색하는 기능을 제공하고 있다. 미국의 경우 디지털 증거개시 제도가 존재하여 기업간 분쟁을 비롯한 민사 소송이 발생했을 시 법정 공방 전에 상호 사건과 관련된 증거를 요구하고, 상대방 혹은 법정으로부터 요구된 자료를 제시할 것을 의무화하고 있다. 신규로 생성되는 대부분의 자료들이 디지털 방식으로 저장되고, 퍼스널 컴퓨터의 하드디스크 용량 조차 테라 바이트(TeraByte)급을 넘기는게 일상화된 오늘날 방대한 용량의 분석 대상 데이터에서 주어진 시간 내에 사건과 관련된, 혹은 데이터를 찾기란 쉽지 않다. 이를 해결하기 위해 E-Discovery 대응 제품들이 대거 출시되었으며, 현재 미국에서뿐만 아니라, 유럽, 아시아 등에서도 이들 제품에 대한 관심이 뜨거운 것이 사실이다.

하지만 이들 제품들은 대부분 하드디스크에 저장된 데이터나 사전에 수집된 데이터를 이용해 유효한 데이터를 추려내고 효과적으로 분석하는 기법을 제공하는데 초점이 맞추어져 있다. 즉, 이들 제품으로는 온라인 상에 존재하는 데이터를 분석할 수 없으며, 특히 웹 메일을 실시간으로 다운로드하여 분석하는 것은 불가능하다.

온라인 데이터란 인터넷을 통해 누구나 접근할 수 있으므로 만약 사건과 연관된 증거가 있다면 쉽게 발견될 수 있으나, 또한 작성자나 서버 관리자 등 권한을 가진 자에 의해 언제든지 삭제되거나 변경될 수 있으므로 주의해야 한다.

도 1은 온라인 데이터 수집 시에 발생될 수 있는 문제점을 설명하기 위한 개념도이다.

예를 들어, 도 1을 참조하면, 과거 특정 시점(t1)에 생성된 웹 페이지에 대해 조사 대상자가 생성 시점 이후의 특정시점에 열람하였다고 가정한다.

사건 발생 후 조사 대상자가 용의자로 판단된다면 조사 대상자 신변 조사(사용한 컴퓨터 기록 조사)를 통해 해당 웹 페이지를 열람(t2)한 것을 확인할 수 있을 것이고 열람 기록을 확인한 수사관이 해당 웹 페이지를 쉽게 수집(t3)할 수 있을 것이다.

여기에서 수집이란, html 형태로 저장되어 있는 웹 페이지를 그대로 복사하여 로컬 하드디스크로 옮겨오는 것 등을 말하나, 경우에 따라 메인 텍스트 등의 중요 정보만 하드디스크로 저장하고 배너광고, 중요치 않은 이미지 등은 링크로 대체할 수 있다. 그리고 해당 웹 페이지를 분석하여 이를 토대로 조사 대상자가 사건과 연관되었다는 증거를 도출할 수 있을 것이다. 하지만, 수집 시점(t3) 이후 사건을 은폐하기 위해 고의적으로, 혹은 예기치 못한 원인으로 인해 해당 게시물이 삭제되거나 변경될 수 있으며(t4), 이러한 경우 수집 시점에서 원본 웹 페이지의 내용과 동일한 복사본을 확보하였음에도 불구하고 확보한 복사본의 내용이 원본과 동일한 것인지, 심지어 복사본과 동일한 내용의 원본이 과거 존재하기는 했었는지에 대한 증명할 방법이 요원한 것이다.

그러므로 수집 시점에서의 존재 증명, 수집 시점 이후의 내용 변동 유무를 확인하는 것은 관련 분쟁 해결을 위해 필수적이라 하겠다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 온라인 데이터의 수집과 증거화를 위한 방법으로서, 조사 대상자의 사용 히스토리 정보에 기초하여 인터넷 데이터를 수집하고, 인터넷 데이터의 존재 사실을 증명할 수 있도록 하는 온라인 데이터 수집과 분석 및 증거화 방법을 제공하는데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 온라인 데이터의 수집과 증거화를 위한 장치로서, 조사 대상자의 사용 히스토리 정보에 기초하여 인터넷 데이터를 수집하고, 인터넷 데이터의 존재 사실을 증명할 수 있도록 하는 온라인 데이터 수집과 분석 및 증거화 시스템을 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 형태는, 데이터의 수집 대상이 되는 대상 장치로부터 사용 히스토리 정보를 수집하여 분석하고, 상기 사용 히스토리 정보에 기초하여 인터넷상의 데이터를 다운로드하여 수집하고, 수집된 데이터에 대한 시점확인 토큰 발급을 요청하여 발급된 시점확인 토큰을 수령하는 온라인 데이터 포렌식 서버, 상기 시점확인 토큰 발급 요청에 대응하여 상기 수집된 데이터에 대한 시점확인 토큰을 발급하여 상기 온라인 데이터 포렌식 서버로 제공하는 시점확인 토큰 발급 서버 및 상기 수집된 데이터를 저장하는 저장 장치를 포함하는 데이터 분석 및 증거화 시스템을 제공한다.

여기에서, 상기 사용 히스토리 정보는 상기 대상 장치의 인터넷 사용 히스토리 정보 및/또는 시스템 레지스트리(system registry) 정보를 이용하여 수집되도록 구성될 수 있다.

여기에서, 상기 온라인 데이터 포렌식 서버는 조사 대상 장치로부터 인터넷 사용기록을 수집하는 인터넷 사용기록 수집부, 상기 인터넷 사용기록 수집부에서 수집한 인터넷 사용기록을 파싱(parsing)하는 파서부, 상기 파서부에서 파싱한 인터넷 사용기록에 기초하여 인터넷으로부터 데이터를 수집하는 온라인 데이터 수집부, 수집된 온라인 데이터에 대한 시점확인 토큰을 발급을 외부의 시점확인 토큰 발급 서버에 요청하는 시점확인 토큰 요청부, 상기 온라인 데이터 수집부에서 수집된 온라인 데이터에서 유효한 텍스트 데이터를 추출하기 위한 텍스트 문서 필터, 상기 텍스트 문서 필터에 추출된 텍스트 데이터에서 의미 있는 색인어를 추출하기 위한 색인어 추출부, 상기 색인어 추출부에서 추출한 색인어와 상기 온라인 데이터 수집부에서 수집한 온라인 데이터의 연관관계를 이용해 색인 데이터베이스를 생성하는 색인 데이터베이스 생성부, 검색어를 입력받아 상기 색인 데이터베이스에서 일치하는 온라인 데이터를 찾아서 결과를 출력하는 색인기반 검색부 및 발급된 시점확인 토큰의 유효성을 검증하기 위한 시점확인 토큰 검증부를 포함하여 구성될 수 있다.

여기에서, 상기 시점확인 토큰은 상기 수집된 데이터에 대해 해쉬 함수에 의해서 발생된 축약값과, 상기 수집된 데이터의 존재 시점과 관련한 정보를 포함하여 구성될 수 있다.

상기 목적을 달성하기 위한 본 발명의 다른 형태는, 사용자가 지정한 조사 대상 장치의 인터넷 사용기록을 수집하는 인터넷 사용기록 수집부, 상기 인터넷 사용기록 수집부에서 수집한 인터넷 사용기록을 파싱(parsing)하는 파서부, 상기 파서부에서 파싱한 인터넷 사용기록에 기초하여 인터넷으로부터 데이터를 수집하는 온라인 데이터 수집부, 수집된 온라인 데이터에 대한 시점확인 토큰의 발급을 외부의 시점확인 토큰 발급 서버에 요청하는 시점확인 토큰 요청부, 상기 온라인 데이터 수집부에서 수집된 온라인 데이터에서 유효한 텍스트 데이터를 추출하기 위한 텍스트 문서 필터, 상기 텍스트 문서 필터에 추출된 텍스트 데이터에서 의미있는 색인어를 추출하기 위한 색인어 추출부, 상기 색인어 추출부에서 추출한 색인어와 상기 온라인 데이터 수집부에서 수집한 온라인 데이터의 연관관계를 이용해 색인 데이터베이스를 생성하는 색인 데이터베이스 생성부, 사용자로부터 검색어를 입력받아 상기 색인 데이터베이스에서 일치하는 온라인 데이터를 찾아서 결과를 출력하는 색인기반 검색부 및 발급된 시점확인 토큰의 유효성을 검증하기 위한 시점확인 토큰 검증부를 포함하여 구성되는 온라인 데이터 포렌식 서버를 제공한다.

상기 다른 목적을 달성하기 위한 본 발명은, 조사 대상 장치로부터 인터넷 사용기록을 수집하는 인터넷 사용기록 획득 단계, 상기 인터넷 사용기록 획득 단계에서 수집한 인터넷 사용기록에 기초하여 인터넷으로부터 데이터를 수집하는 온라인 데이터 수집 단계, 수집된 온라인 데이터에 대한 시점확인 토큰을 외부의 시점확인 토큰 발급 서버로부터 발급받는 시점확인 토큰 발급 단계, 상기 온라인 데이터 수집 단계에서 수집된 온라인 데이터에서 유효한 텍스트 데이터를 추출하기 위한 텍스트 문서 필터링 단계, 상기 텍스트 문서 필터에 추출된 텍스트 데이터에서 의미있는 색인어를 추출하기 위한 색인어 추출 단계 및 상기 색인어 추출 단계에서 추출한 색인어와 상기 온라인 데이터 수집 단계에서 수집한 온라인 데이터의 연관관계를 이용해 색인 데이터베이스를 생성하는 색인 데이터베이스 생성 단계를 포함한 것을 특징으로 하는 데이터 분석 및 증거화 방법을 제공한다.

상기와 같은 본 발명에 따른 데이터 분석 및 증거화 방법 및 장치를 이용할 경우에는 조사 대상 장치의 사용자가 방문한 웹 페이지 및 사용자의 웹 메일 컨텐츠 등에 대해 색인 데이터베이스를 생성하고 해당 온라인 데이터에 대해 실시간 검색이 가능하다. 또한 수집되는 온라인 데이터에 대해 시점확인 토큰을 발급 받음으로써, 수집된 온라인 데이터가 과거 특정 시점으로부터 수집 시점까지 온라인 상의 해당 주소에 존재했으며, 수집 시점 이후로부터 수집된 데이터가 변경되지 않았음을 용이하게 증명할 수 있다.

도 1은 온라인 데이터 수집 시에 발생될 수 있는 문제점을 설명하기 위한 개념도이다.
도 2는 본 발명에 따른 데이터 분석 및 증거화 시스템의 구성을 설명하기 위한 블록도이다.
도 3은 본 발명에 따른 데이터 분석 및 증거화 시스템에 포함되는 온라인 데이터 포렌식 서버의 일 구성예를 설명하기 위한 블록도이다.
도 4는 본 발명에 따른 데이터 분석 및 증거화 방법의 구성을 설명하기 위한 순서도이다.
도 5는 본 발명에 따른 데이터 분석 및 증거화 방법에 있어서 수집한 데이터에 대한 시점 확인 토큰을 발급하는 과정의 흐름을 설명하기 위한 시퀀스 차트이다.
도 6은 본 발명에 따른 데이터 분석 및 증거화 방법에 있어서 수집한 데이터에 대한 시점 확인 토큰을 발급하는 과정의 일 예를 설명하기 위한 개념도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 2는 본 발명에 따른 데이터 분석 및 증거화 시스템의 구성을 설명하기 위한 블록도이다.

도 2를 참조하면, 본 발명에 따른 데이터 분석 및 증거화 시스템(200)은, 온라인 데이터 포렌식 서버(online-data forensic server; 210), 시점확인 토큰 발급 서버(220), 저장 장치(230)를 포함하여 구성될 수 있다.

온라인 데이터 포렌식 서버(210)는 데이터의 수집 대상이 되는 대상 장치(100)로부터 사용 히스토리 정보를 수집하여 분석하고, 상기 사용 히스토리 정보에 기초하여 인터넷(300) 상의 데이터를 다운로드하여 수집하고, 수집된 데이터에 대한 시점확인 토큰 발급을 요청하여 발급된 시점확인 토큰을 수령하는 작업을 수행하기 위한 구성요소이다.

이때, 상기 대상 장치(100)는 인터넷을 통하여 수집할 데이터 범위를 결정하는 매개체가 되는 대상 장치로서, 예컨대 수사 대상이 되는 용의자(suspect)가 사용하는 PC, 노트북, PDA, 스마트 폰 등의 인터넷에 접속할 수 있고, 인터넷 사용 기록이 남겨지는 모든 종류의 장치일 수 있다.

따라서, 상기 사용 히스토리 정보란 대상 장치에 남겨져 있는 인터넷 사용 히스토리 정보(예컨대, web history), 운영체계(OS: Operating System)에서 관리하는 시스템 레지스트리(system registry) 정보, 쿠키(cookie) 파일 등의 다양한 정보를 포함할 수 있다.

또한, 수집된 사용 히스토리 정보에 기초하여 인터넷 상의 데이터를 수집하는 과정은 상술된 인터넷 사용 히스토리 정보 등에 기초하여 대상 장치가 브라우징한 인터넷 웹페이지 상의 데이터를 다운로드하는 과정을 의미할 수 있다. 다만, 본 발명에 따른 시스템의 온라인 데이터 포렌식 서버는 인터넷 상의 데이터를 다운로드하는 것과 병행하여 해당 다운로드 시점에서 해당 웹페이지 상에 다운로드된 데이터가 존재하였다는 사실을 증명할 수 있는 시점확인 토큰 발급을 별도의 시점확인 토큰 발급 서버(220)에 요청하게 된다.

시점확인 토큰 발급 서버(220)는 상술된 온라인 데이터 포렌식 서버(210)의 특정 다운로드 데이터에 대한 시점확인 토큰 발급 요청을 수령하고, 이에 대응된 시점확인 토큰을 발급하여 온라인 데이터 포렌식 서버(210)로 전달하기 위한 구성요소이다.

여기에서, '시점확인 토큰(token)'이란 상기 시점확인 토큰의 발급을 요청한 수집된 데이터에 대해 해쉬(hash) 함수에 의해서 발생된 축약(digest)값과, 상기 수집된 데이터의 존재 시점과 관련한 정보를 포함하여 구성될 수 있다.

시점확인 토큰 발급 서버가 수행하는 '시점확인 토큰 발급'이란 전자 공증의 일종으로서, 임의의 전자 문서에 대하여 그 전자 문서가 어떤 특정 시점에 존재하였음을 신뢰할 수 있는 제 3의 기관(trusted third party)을 통하여 증명하여 주는 방법을 의미한다. 즉, '시점확인 토큰 발급'은 특정 문서에 대해 시점확인 정보를 발급하되, 발급기관의 전자서명을 포함하여 대상 문서가 특정 시점에 존재하였음을 신뢰할 수 있는 기관이 증명해주는 서비스를 말한다. 따라서, 통상적으로 본 발명의 본 발명에 따른 데이터 분석 및 증거화 시스템(200)을 구성하는 시점확인 토큰 발급 서버(220)와 온라인 데이터 포렌식 서버(210) 및 저장 장치(230)의 운영주체는 다를 수 있다. 즉, 전자공증을 위해서 공신력이 있는 주체가 시점확인 토큰 발급 서버(220)를 운영할 수 있음을 의미한다.

저장장치(230)는 온라인 데이터 저장부(231) 및 시점확인 토큰 저장부(232)로 구성될 수 있다. 온라인 데이터 저장부(231)와 시점확인 토큰 저장부(232)는 다양한 형태의 데이터베이스(database)로서 구현될 수 있으며, 데이터의 구성 형태에 따라서는 하나의 저장부내에 수집된 온라인 데이터와 수령된 시점확인 토큰이 함께 저장될 수도 있을 것이다. 한편, 저장장치(230)는 시점확인 토큰 저장부(232)를 제외한 온라인 데이터 저장부(231)만을 구비하고, 시점확인 토큰의 저장은 시점확인 토큰 발급 서버(220)나 시점확인 토큰 발급 서버(220)가 관리하는 별도의 저장공간에 저장하도록 구성될 수 있다. 즉, 발급된 시점확인 토큰의 위/변조 가능성을 차단하기 위해서 발급된 시점확인 토큰 자체의 저장을 공신력있는 주체가 운영하는 시점확인 토큰 발급 서버에서 수행하도록 구성될 수도 있음을 의미한다.

다만, 수집된 온라인 데이터와 해당 온라인 데이터가 수집 시점에 해당 온라인 데이터를 수집해온 웹페이지 상에 존재하였음을 증명하는 시점확인 토큰은 상호 연관되어 저장되어야 할 것이다.

한편, 상기 온라인 데이터 포렌식 서버(210)는 세부적인 구성으로서 데이터 수집 대상이 되는 대상 장치(210)로부터 사용 히스토리를 수집한다거나, 인터넷(300)으로부터 데이터를 수집한다거나, 수집된 데이터를 분석하여 데이터베이스화하는 작업을 수행하는 세부적 구성요소들을 포함하여 구성될 수 있다. 이러한 세부적 구성요소들은 실제 구현예에 따라서 다양한 형태로 구현될 수 있다.

도 3은 본 발명에 따른 데이터 분석 및 증거화 시스템에 포함되는 온라인 데이터 포렌식 서버의 일 구성예를 설명하기 위한 블록도이다.

도 3을 참조하면, 온라인 데이터 포렌식 서버는 인터넷 사용기록 수집부(211), 인터넷 사용기록 분석을 위한 파서부(212), 인터넷 사용기록에 의한 온라인 데이터 수집부(213), 수집된 온라인 데이터에서 유효한 데이터를 추출하기 위한 텍스트 문서 필터(214), 파일에서 의미있는 색인어를 추출하기 위한 색인어 추출부(215), 추출된 색인어의 파일의 연관관계를 이용해 색인 데이터베이스를 생성하는 색인 데이터베이스 생성부(216) 및 검색어를 이용해 색인 데이터베이스에서 일치하는 문서를 찾아서 그 위치를 알려주는 색인기반 검색부(217)를 포함하여 구성될 수 있다.

수집된 온라인 데이터에 대한 시점확인 토큰을 발급을 위한 시점확인 토큰 요청을 시점확인 토큰 서버(220)로 발송하는 시점확인 토큰 요청부(218) 및 발급된 시점확인 토큰의 유효성을 검증하기 위한 시점확인 토큰 검증부(219)가 추가로 포함되어 구성될 수 있다.

인터넷 사용기록 수집부(211)는 데이터의 수집 대상이 되는 대상 장치로부터 사용 히스토리 정보를 수집하여 분석하는 구성요소이다. 이때, 상기 대상 장치와 상기 사용 히스토리 정보에 대해서는 도 2를 통한 온라인 데이터 포렌식 서버(210)의 설명을 통하여 이미 상술되었기에 생략한다.

파서부(212)는 상술된 사용 히스토리 정보를 분석하기 위한 파서(parser)를 포함하는 구성요소이다. 인터넷 사용 기록과 시스템 레지스트리 등의 사용 히스토리 정보는 해당 대상 장치가 사용하는 인터넷 브라우저 및 운영 체제의 종류에 따라서 독자적인 형식(format)과 문법(syntax)에 따라서 구축되어 있을 수 있다. 따라서, 파서부(212)는 수집된 사용 히스토리 정보와 해당 사용 히스토리 정보가 수집되어진 대상 장치(100)의 특성에 의거하여 수집된 사용 히스토리 정보를 파싱(parsing)하여 유의미한 인터넷 사용 기록들을 추출하는 역할을 수행하는 구성요소이다.

한편, 온라인 데이터 수집부(213), 텍스트 문서 필터(214), 색인어 추출부(215), 색인 데이터베이스 생성부(216) 및 색인기반 검색부(217) 구성요소들의 상세한 설명에 앞서서 본 발명이 추구하는 장치 및 방법과 종래 인터넷 정보 검색과의 유사점 및 차이점을 약술한다.

본 발명은 디지털 증거화 장치 및 방법은 디지털 증거분석을 위한 온라인 데이터 검색 분야이면서, 인터넷 상의 데이터를 다운로드하여 미리 색인을 생성한 후 검색한다는 점에서 인터넷 정보검색 분야에 속한다 할 수 있다. 즉, 인터넷 정보검색이란 인터넷 상에 산재되어 있는 데이터들을 웹 로봇(web-robot) 등의 기술을 이용해 수집하고, 이를 색인화하여 키워드(keyword) 검색을 수행하는 것을 말한다. 웹 로봇이란 웹 상에 존재하는 데이터들을 수집하기 위해서 웹의 하이퍼텍스트 구조를 자동적으로 추적하여 참조되는 모든 문서들을 재귀적으로 검색하는 프로그램을 말한다.

또한, 인터넷 정보검색에서는 웹 로봇을 통해 수집된 문서들을 빠르고 정확하게 검색하기 위해서는 문서의 중요 키워드를 추출하고 이러한 키워드들의 상관관계나 문서들의 상관관계를 정의하여 스토리지에 저장하한 후 검색을 수행한다. 예컨대, 인터넷 정보검색은 주로 포털(portal) 사이트에서 제공하는 기능으로써 국내의 네이버나 다음 등과 야후(yahoo), 구글(google) 등에서 자체 검색 엔진을 이용해 인터넷 정보검색 서비스를 제공하고 있다. 하지만 이들 검색 엔진은 인터넷 상에 존재하는 방대한 양의 데이터를 대상으로 하며 반복적인 수집 작업을 수행하여 그 데이터를 대상으로 색인 및 색인의 업데이트를 수행하고 있으므로 포렌식적인 목적을 위한 온라인 데이터 검색으로는 적합하지 못하다고 볼 수 있다.

먼저, 온라인 데이터 수집부(213)의 구성은 상술된 웹 로봇 등의 기술을 이용하여 구성될 수 있다. 그러나 본 발명의 시스템을 구성하는 온라인 데이터 포렌식 서버의 온라인 데이터 수집부(213)는 광범위하게 산재해있는 불특정한 인터넷 데이터를 수집하는 것이 아니라 대상 장치(100)의 사용 히스토리 정보에 기록되어 있는 인터넷 사용 기록에 기초하여 데이터가 수집되는 범위가 한정적으로 제한된다는 점에 차이점이 있다.

텍스트 문서 필터(214)는 수집된 대량의 온라인 데이터 중에서 색인화가 가능하도록 이미지, 사운드, 동영상 데이터를 제외한 텍스트 데이터가 포함된 문서에서 텍스트 데이터를 추출하기 위한 필터 구성요소이다.

색인어 추출부(215)는 텍스트 문서 필터(214)에서 추출된 텍스트 데이터를 대상으로 색인 데이터베이스를 생성하여 사용자의 색인어 검색에 대응한 키워드 검색이 가능하도록 키워드를 추출하는 구성요소를 의미한다.

이때, 색인어 추출부(215)가 이용하는 키워드 추출 방법으로는 형태소분석기, 스태머, 또는 n-gram 방식 등이 있다. 형태소 분석이란 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석해는 내는 것으로 문서의 핵심 키워드를 추출하는 기본적인 방법이다. 검색엔진에서는 보통 형태소분석기의 모든 기능을 사용하지 않고 색인어 추출만 하기 위해 명사 등의 특정 형태소만 취하는 경우가 대부분이었으나 자연어 검색이 대두되면서 각 형태소의 구조적인 관계 및 의미 관계까지 고려한 색인어를 추출하기도 한다. 스테머란 보통 어근 추출용으로 많이 사용되었으며 영어권 언어에 대해서 많이 적용된다. 언어적 특성상 한국어와 같은 교착어는 어미변화와 활용형들이 아주 심한 편이어서 단순한 스테밍 알고리즘만으로 처리하기에는 문제점이 있기 때문에 한국어는 형태소분석기를 주로 사용한다. 영어같은 경우 몇 가지의 간단한 룰만 적용하여 스테머를 구성할 수 있기 때문에 속도가 빠르고 효율적인 시스템을 구성할 수 있다. n-gram 방식은 문자열을 단순히 n개의 음절단위로 분석하여 각 음절을 키워드로 추출하는 방식으로써, n-gram 방식으로 분석한 색인검색은 형태소 분석이나 스테머에 비해 재현율이 높다는 장점이 있다. 그러나 문자열의 연관성 등을 고려하지 않은 방법으로써 과 분석의 위험이 있어, 어절 추출, 불용어 삭제 등의 전처리 과정을 거치기도 한다.

다음으로, 색인 데이터베이스 생성부(216)는 색인어 추출부(215)가 추출한 색인어에 기반한 색인 정보들을 저장하기 위해 일반적인 상용 데이터베이스(관계형 또는 객체지향형 등의 형태는 불문)를 사용하여 색인 데이터베이스를 구성할 수도 있으며 속도를 위해 파일 시스템을 제어하여 별도의 화일시스템(file-base)으로 구성할 수도 있다. 파일 시스템 또는 데이터베이스 등과 같이 대량의 자료가 관리되는 곳에서 보다 빠르게 자료를 검색하기 위하여 각각의 자료에 대한 색인이 구성되어 있는 파일을 역파일이라고 한다. 이러한 파일에는 각각의 데이터 레코드에 대한 키 값과 이러한 키 값에 의하여 지칭되는 레코드의 위치가 하나의 쌍을 이루고 있다. 이와 같이 색인 데이터베이스 저장부(216)에서 생성된 색인 데이터베이스는 저장 장치(230)내의 온라인 데이터 저장부(231)에 저장되도록 구성될 수 있다.

다음으로, 색인 기반 검색부(217)는 색인 데이터베이스 생성부(216)에서 생성한 색인 데이터베이스를 이용하여 사용자의 키워드 검색 요청에 대응하여 검색을 수행하고, 검색 결과를 사용자에게 제공하는 구성요소이다. 이때, 색인 기반 검색부(217)는 키워드를 빠르게 찾기 위해 B+tree나 B-tree, trie, 페트리샤트리 등을 사용하도록 구성될 수 있다.

다음으로, 시점확인 토큰 요청부(218)은 온라인 데이터 수집부(213)와 연동하여 외부의 시점확인 토큰 발급 서버(220)에게 수집된 온라인 데이터의 존재 시점과 존재 사실을 증명할 수 있는 시점확인 토큰의 발급을 요청하고 시점확인 토큰 발급 서버(220)에서 발급한 시점확인 토큰을 수령하여 발급된 시점확인 토큰의 증명 대상이 되는 온라인 데이터와 연관시켜 시점확인 토큰 저장부(232)에 저장하는 역할을 수행하는 구성요소이다. 한편 시점확인 토큰 요청부(218)의 동작은 이후에 도 4 및 도 5를 통하여 상술된다.

마지막으로, 시점확인 토큰 검증부(219)는 추후 발급된 시점확인 토큰의 유효성을 검증하여, 색인 기반 검색부(217)에서 키워드를 이용하여 온라인 데이터 저장부(231)에 저장된 색인 데이터베이스와 온라인 데이터로부터 검색된 온라인 데이터를 검증하기 위한 구성요소이다.

색인 기반 검색부(217)에서 키워드를 이용하여 수집된 온라인 데이터에서 필요한 데이터를 검색하게 되면, 시점확인 토큰 검증부(219)는 해당 수집된 온라인 데이터의 시점확인 토큰에 포함된 축약값과 현재 인터넷상에 존재하는 대응되는 온라인 데이터의 축약값을 비교하여 동일하면 해당 파일의 변동이 없었다는 확인 결과를 출력하도록 구성될 수 있다.

이때, 시점확인 토큰 검증부(219)에서는 시점확인 토큰 발급 대상 파일이 시점확인 토큰에 저장된 시점을 확인함으로써 해당 파일이 시점확인 토큰이 명시한 시점에 온라인 상에 존재했음을 확인할 수 있다.

한편, 시점확인 토큰 검증부(219)의 역할은 앞서 설명된 바와 같이 저장장치(230)내에 발급된 시점확인 토큰이 저장되지 않고, 시점확인 토큰이 시점확인 토큰 발급 서버에 저장되어 있는 경우에는 다르게 구성될 수도 있다.

즉, 시점확인 토큰이 시점확인 토큰 발급 서버가 관리하는 저장장치에 저장되어 있다면, 시점확인 토큰 검증부(219)는 시점확인 대상 파일에 대한 시점확인 토큰 유효성 검증 요청을 시점확인 토큰 발급 서버에 전달하고, 시점확인 토큰 발급 서버에서 해당 토큰을 찾아 토큰 내에 있는 축약값을 전달받아서, 전달받은 축약값을 시점확인 대상 파일에서 실시간으로 계산한 축약값과 비교하여 해당 파일이 변동이 없었다는 것과 증명 시점에서 인터넷 상에 해당 데이터가 존재하였다는 사실을 증명할 수 있다.

도 4는 본 발명에 따른 데이터 분석 및 증거화 방법의 구성을 설명하기 위한 순서도이다.

도 4를 참조하면, 본 발명에 따른 데이터 분석 및 증거화 방법은 인터넷 사용 기록 획득 단계(S410), 온라인 데이터 수집 단계(S420), 시점확인 토큰 발급 단계(S430)를 포함하여 구성될 수 있다. 이때, 온라인 데이터 수집 단계(S410)와 시점확인 토큰 발급 단계(S420)는 사용 기록 획득 단계(S410)에서 수집된 대상 장치의 인터넷 사용 기록에 기초하여 수집하여야 하는 온라인 데이터를 모두 수집할 때까지 또는 사용자의 중지 명령이 도달할 때까지 반복적으로 수행될 수 있다(S440에서 판단).

사용 기록 획득 단계(S410)는 대상 장치(100)로부터 인터넷 히스토리 및 레지스트리 정보를 획득하고, 획득한 정보를 분석하는 단계로서, 도 3을 통해서 이미 상술된 온라인 데이터 포렌식 서버(210)의 인터넷 사용 기록 수집부(211)와 파서부(212)에서 이루어지는 과정을 의미한다.

즉, 사용 기록 획득 단계(S410)에서는 데이터의 수집 대상이 되는 대상 장치로부터 사용 히스토리 정보를 수집하고, 수집된 사용 히스토리 정보를 독자적인 형식(format)과 문법(syntax)에 따라서 파싱(parsing)하여 유의미한 인터넷 사용 기록들을 추출하는 과정을 수행하게 된다.

다음으로 온라인 데이터 수집 단계(S420)는 수집된 사용 히스토리 정보에 기초하여 인터넷 상의 해당 웹 페이지를 다운로드하여 수집하는 단계이다. 온라인 데이터 수집 단계(S420)는 앞서 언급된 온라인 데이터 포렌식 서버(210)의 온라인 데이터 수집부(211)에서 수행될 수 있는 단계이다. 온라인 데이터 수집 단계(S420)는 웹 로봇 등의 기술을 이용하여 수행될 수 있다. 이때, 본 발명의 온라인 데이터 수집 단계(S420)는 광범위하게 산재해있는 불특정한 인터넷 데이터를 수집하는 것이 아니라 대상 장치의 사용 히스토리 정보에 기록되어 있는 인터넷 사용 기록에 기초하여 데이터가 수집되는 범위가 한정적으로 제한된다는 점에 차이점이 있음은 이미 상술된 바와 같다.

시점확인 토큰 발급 단계(S430)는 다운로드한 웹 페이지에 대해 시점확인 토큰을 발급받는 단계이다. 즉, 시점확인 토큰 발급 단계(S430)에서는 다운로드한 웹 페이지에 대해서 시점확인 토큰의 발급을 시점확인 토큰 발급 서버(220)에 요청하고, 발급된 시점확인 토큰을 시점확인 토큰 발급 서버(220)로부터 수령하여 검증한 다음, 이를 저장 장치(230)내의 시점확인 토큰 저장부(232)에 저장하는 단계이다.

인터넷 상의 웹페이지 등 데이터를 수집하는 과정에서 시점확인 토큰 발급 서버(220)를 통해 시점확인 토큰을 발급받아 수집시점을 증명하고 수집시점부터 해당 데이터가 위변조되지 않았다는 것을 증명한다.

인터넷 상의 웹페이지 정보를 획득함에 있어 일반적인 웹 페이지와 사용자 인증이 필요한 웹 메일 등의 웹 페이지는 구분될 수 있다. 일반적인 웹 페이지의 경우 해당 주소 상의 웹 페이지만을 대상으로 하지만 사용자 인증이 필요한 웹 메일 등의 경우에는 웹 메일에 저장된 보낸 메일함, 받은 메일함 내의 컨텐츠 및 경우에 따라 첨부된 파일을 대상으로 한다.

한편, 본 발명의 시점확인 토큰 발급 단계(S430)의 상세한 구성은 도 5 및 도 6을 통하여 상술하도록 한다.

도 5는 본 발명에 따른 데이터 분석 및 증거화 방법에 있어서 수집한 데이터에 대한 시점 확인 토큰을 발급하는 과정의 흐름을 설명하기 위한 시퀀스 차트이다.

한편, 이하 도 5를 참조한 설명에서는 시간확인 토큰 발급 서버의 구성을 기능적으로 더욱 세분화하여 시간스탬프 서버(timestamp server)와 시간스탬프 인가 서버(timestamp authority server)로 분리하여 설명한다. 이때, 시간스탬프 서버와 시간스탬프 인가 서버는 하나의 물리적 장치 내에 함께 구현될 수도 있으며, 별도의 장치로서 존재할 수도 있다. 또한, 두 개의 하위 구성요소 서버가 통칭되어 시간확인 토큰 발급 서버로 명칭될 수도 있다.

도 5를 참조하면, 본 발명에 따른 데이터 분석 및 증거화 방법에서, 인터넷 상에서 수집한 웹페이지 등의 데이터에 대해 시점확인 토큰을 발급하는 방법은 아래와 같이 구성될 수 있다.

먼저, 온라인 데이터 수집부는 사용자의 요청에 따라서 인터넷 상에 존재하는 웹페이지, 혹은 인증이 필요한 웹 메일 및 까페 게시물 등의 수집을 개시한다(S501). 만약, 사전에 설정된 타임 아웃 시간(T)이 초과될 때까지 수집이 종료되지 않으면 데이터 수집이 실패했음을 사용자에게 통보(S502-2)하고, 사전에 설정된 타임 아웃 시간(T)이내에 데이터 수집이 성공하였을 경우에는 그 결과를 온라인 데이터 저장부(231)에 저장하고 그 사실을 시점확인 토큰 요청부(218)로 통보한다(S502-1).

다음으로, 시점확인 토큰 발급 요청부(218)는 수집된 파일에 대해 축약값(Message Digest)을 계산하는 과정(S503)을 거치게 된다. 시점확인 토큰 요청 시 프라이버시 보호 등의 목적으로 대상 파일을 직접 전송하지 않고 대상 파일에 대한 축약값을 계산하여 사용하는데, 해쉬(hash)값 등이 이에 해당한다.

다음으로, 시점확인 토큰 요청부(218)는 계산된 축약값을 포함하여 시점확인 대상 파일에 대한 시점확인 토큰 요청 메시지를 타임스탬프 서버에 전달하게 되고(S504), 타임스탬프 서버는 요청을 수신하여 타임스탬프 인가 서버로 전송하게 된다(S505). 타임스탬프 인가 서버는 수신된 시점확인 토큰 요청이 올바른 요청인가 확인하고(S506), 그 확인결과에 따라 결과에 맞는 시점확인 응답 메시지를 생성하여 타임스탬프 서버에게 전송한다(S507). 타임스탬프 서버는 타임스탬프 인가 서버로부터 수신한 시점확인 응답 메시지를 시점확인 토큰 요청부(218)에게 전송한다(S508).

마지막으로 시점확인 토큰 요청부(218)는 타임 스탬프 서버로부터 수신한 시점확인 응답 메시지를 검증한다(S509). 이때, 시점확인 응답 메시지에는 시점확인 토큰 자체가 포함되어서 시점확인 토큰 요청부(218)에 도달될 수도 있고, 시점확인 토큰은 시점확인 토큰 발급 서버(220)에 저장되고, 시점확인 토큰의 발급을 통보하는 결과만 포함되어 시점확인 토큰 요청부(218)에 도달될 수도 있다. 만약, 시점확인 응답 메시지에 시점확인 토큰 자체가 저장되어 있다면 시점확인 토큰 요청부(218)는 수령한 시점확인 토큰을 시점확인 토큰 저장부(232)에 저장하도록 구성된다.

한편, 시점확인 토큰 요청 시 프라이버시 보호 등의 목적으로 대상 파일을 직접 전송하지 않고 대상 파일에 대한 축약값을 계산하여 사용하는데, 해쉬값 등이 이에 해당한다. 시점확인 토큰은 단일 파일에 대해 요청하기도 하나 다수개의 파일에 대해 공통으로 요청할 수도 있다.

도 6은 본 발명에 따른 데이터 분석 및 증거화 방법에 있어서 수집한 데이터에 대한 시점 확인 토큰을 발급하는 과정의 일 예를 설명하기 위한 개념도이다.

도 6을 참조하면, 다수 개의 파일(601-1 내지 601-N)을 tar 파일처럼 묶어 하나의 파일(602)로 만든 후 병합된 하나의 파일(602)에 대한 축약값을 계산하여 시점확인 토큰 발급을 요청한다.

다시 도 4를 참조하면, 텍스트 데이터 필터링 단계(S450)에서는 수집된 온라인 데이터에 대해서 내부의 텍스트 데이터를 추출하는 과정을 거치게 되고, 색인어 추출 단계(S460)에서는 추출된 텍스트 데이터를 기반으로 색인어를 추출하고, 색인 데이터베이스 생성 단계(S470)에서는 추출된 색인어를 이용하여 색인 데이터베이스를 생성하는 과정으로 구성된다.

상술된 S450 내지 S470의 과정은 도 3을 통하여 설명된 텍스트 문서 필터(214), 색인어 추출부(215) 및 색인 데이터베이스 생성부(216)에서 이루어지는 작업과 대응되므로 추가적인 설명은 생략한다.

획득한 온라인 데이터를 로컬 저장장치에 저장하거나 버퍼 상에서 텍스트를 추출하여 바로 색인 데이터베이스를 구축할 수 있으나, 본 발명에서는 온라인 데이터를 로컬 저장장치(230)에 저장하도록 한다. 온라인 상의 자료를 로컬 저장장치에 저장하는 경우에는 대량의 데이터를 따로 저장해야 하는 부담이 있지만, 추후 검색 결과를 화면에 로딩할 때 네트워크에 연결되지 않은 경우라도 사용자에게 검색 결과를 용이하게 재현할 수 있다는 장점이 있다. 또한, 인터넷 상의 데이터가 삭제되거나 변경되더라도 수집시점에 사본을 확보해둔 상태이므로 삭제와 변경에 무관하게 증거 분석이 가능하다.

텍스트 데이터를 추출하고 추출된 텍스트에서 색인어를 추출하는 방법은 응용에 따라 여러가지 방법이 적용될 수 있다. 형태소 분석을 이용하거나 사전기반 방법이 사용될 수도 있고, 재현율이 중요시 되는 경우나 대상 데이터의 용량이 많지 않을 경우 음절기반 분석 방법이 사용될 수도 있다. 본 발명에서는 색인어 추출 방법에 대해서는 제약을 두지 않는다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

210: 온라인 데이터 포렌식 서버
220: 시점확인 토큰 발급 서버 230: 저장 장치
211: 인터넷 사용기록 수집부 212: 파서부
213: 온라인 데이터 수집부 214: 텍스트 문서 필터
215: 색인어 추출부 216: 색인 데이터베이스 생성부
217: 색인 기반 검색부 218: 시점확인 토큰 요청부
219: 시점확인 토큰 검증부

Claims

데이터의 수집 대상이 되는 대상 장치로부터 사용 히스토리 정보를 수집하여 분석하고, 상기 사용 히스토리 정보에 기초하여 인터넷상의 데이터를 다운로드하여 수집하고, 수집된 데이터에 대한 시점확인 토큰 발급을 요청하여 발급된 시점확인 토큰을 수령하는 온라인 데이터 포렌식 서버;
상기 시점확인 토큰 발급 요청에 대응하여 상기 수집된 데이터에 대한 시점확인 토큰을 발급하여 상기 온라인 데이터 포렌식 서버로 제공하는 시점확인 토큰 발급 서버;
상기 수집된 데이터를 저장하는 저장 장치를 포함하는 데이터 분석 및 증거화 시스템.
제 1 항에 있어서,
상기 사용 히스토리 정보는 상기 대상 장치의 인터넷 사용 히스토리 정보 및/또는 시스템 레지스트리(system registry) 정보를 포함한 것을 특징으로 하는 데이터 분석 및 증거화 시스템.
제 1 항에 있어서,
상기 온라인 데이터 포렌식 서버는
조사 대상 장치로부터 인터넷 사용기록을 수집하는 인터넷 사용기록 수집부;
상기 인터넷 사용기록 수집부에서 수집한 인터넷 사용기록을 파싱(parsing)하는 파서부;
상기 파서부에서 파싱한 인터넷 사용기록에 기초하여 인터넷으로부터 데이터를 수집하는 온라인 데이터 수집부;
수집된 온라인 데이터에 대한 시점확인 토큰을 발급을 외부의 시점확인 토큰 발급 서버에 요청하는 시점확인 토큰 요청부;
상기 온라인 데이터 수집부에서 수집된 온라인 데이터에서 유효한 텍스트 데이터를 추출하기 위한 텍스트 문서 필터;
상기 텍스트 문서 필터에 추출된 텍스트 데이터에서 의미있는 색인어를 추출하기 위한 색인어 추출부;
상기 색인어 추출부에서 추출한 색인어와 상기 온라인 데이터 수집부에서 수집한 온라인 데이터의 연관관계를 이용해 색인 데이터베이스를 생성하는 색인 데이터베이스 생성부;
검색어를 입력받아 상기 색인 데이터베이스에서 일치하는 온라인 데이터를 찾아서 결과를 출력하는 색인기반 검색부; 및
발급된 시점확인 토큰의 유효성을 검증하기 위한 시점확인 토큰 검증부를 포함하여 구성되는 것을 특징으로 하는 데이터 분석 및 증거화 시스템.
제 1 항에 있어서,
상기 시점확인 토큰은 상기 수집된 데이터에 대해 해쉬 함수에 의해서 발생된 축약값과, 상기 수집된 데이터의 존재 시점과 관련한 정보를 포함하여 구성되는 것을 특징으로 하는 데이터 분석 및 증거화 시스템.
제 1 항에 있어서,
상기 저장 장치는 수집된 온라인 데이터를 저장하는 온라인 데이터 저장부와 상기 시점확인 토큰을 저장하는 시점확인 토큰 저장부를 포함하여 구성되는 것을 특징으로 하는 데이터 분석 및 증거화 시스템.
사용자가 지정한 조사 대상 장치의 인터넷 사용기록을 수집하는 인터넷 사용기록 수집부;
상기 인터넷 사용기록 수집부에서 수집한 인터넷 사용기록을 파싱(parsing)하는 파서부;
상기 파서부에서 파싱한 인터넷 사용기록에 기초하여 인터넷으로부터 데이터를 수집하는 온라인 데이터 수집부;
수집된 온라인 데이터에 대한 시점확인 토큰의 발급을 외부의 시점확인 토큰 발급 서버에 요청하는 시점확인 토큰 요청부;
상기 온라인 데이터 수집부에서 수집된 온라인 데이터에서 유효한 텍스트 데이터를 추출하기 위한 텍스트 문서 필터;
상기 텍스트 문서 필터에 추출된 텍스트 데이터에서 의미있는 색인어를 추출하기 위한 색인어 추출부;
상기 색인어 추출부에서 추출한 색인어와 상기 온라인 데이터 수집부에서 수집한 온라인 데이터의 연관관계를 이용해 색인 데이터베이스를 생성하는 색인 데이터베이스 생성부;
사용자로부터 검색어를 입력받아 상기 색인 데이터베이스에서 일치하는 온라인 데이터를 찾아서 결과를 출력하는 색인기반 검색부; 및
발급된 시점확인 토큰의 유효성을 검증하기 위한 시점확인 토큰 검증부를 포함하여 구성되는 것을 특징으로 하는 온라인 데이터 포렌식 서버.
조사 대상 장치로부터 인터넷 사용기록을 수집하는 인터넷 사용기록 획득 단계;
상기 인터넷 사용기록 획득 단계에서 수집한 인터넷 사용기록에 기초하여 인터넷으로부터 데이터를 수집하는 온라인 데이터 수집 단계;
수집된 온라인 데이터에 대한 시점확인 토큰을 외부의 시점확인 토큰 발급 서버로부터 발급받는 시점확인 토큰 발급 단계;
상기 온라인 데이터 수집 단계에서 수집된 온라인 데이터에서 유효한 텍스트 데이터를 추출하기 위한 텍스트 문서 필터링 단계;
상기 텍스트 문서 필터에 추출된 텍스트 데이터에서 의미있는 색인어를 추출하기 위한 색인어 추출 단계; 및
상기 색인어 추출 단계에서 추출한 색인어와 상기 온라인 데이터 수집 단계에서 수집한 온라인 데이터의 연관관계를 이용해 색인 데이터베이스를 생성하는 색인 데이터베이스 생성 단계를 포함한 것을 특징으로 하는 데이터 분석 및 증거화 방법.
제 7 항에 있어서,
상기 인터넷 사용기록 획득 단계는 상기 조사 대상 장치의 인터넷 사용 히스토리 정보 및/또는 시스템 레지스트리(system registry) 정보를 이용하여 인터넷 사용기록을 수집하는 것을 특징으로 하는 데이터 분석 및 증거화 방법.
제 7 항에 있어서,
상기 시점확인 토큰은 상기 수집된 온라인 데이터에 대해 해쉬 함수에 의해서 발생된 축약값과, 상기 수집된 데이터의 존재 시점과 관련한 정보를 포함하여 구성되는 것을 특징으로 하는 데이터 분석 및 증거화 방법.