KR20100066263A - 디지털 포렌식 시스템에서 증거 이미지의 색인 관리 장치 및 방법 - Google Patents

디지털 포렌식 시스템에서 증거 이미지의 색인 관리 장치 및 방법 Download PDF

Info

Publication number
KR20100066263A
KR20100066263A KR1020090021690A KR20090021690A KR20100066263A KR 20100066263 A KR20100066263 A KR 20100066263A KR 1020090021690 A KR1020090021690 A KR 1020090021690A KR 20090021690 A KR20090021690 A KR 20090021690A KR 20100066263 A KR20100066263 A KR 20100066263A
Authority
KR
South Korea
Prior art keywords
index
file
document number
unit
word
Prior art date
Application number
KR1020090021690A
Other languages
English (en)
Other versions
KR101082024B1 (ko
Inventor
조수형
홍도원
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20100066263A publication Critical patent/KR20100066263A/ko
Application granted granted Critical
Publication of KR101082024B1 publication Critical patent/KR101082024B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/78Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure storage of data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

디지털 포렌식 시스템에서 증거 이미지의 색인 관리 기술에 관한 것이다. 색인 관리 장치는 증거 이미지를 파일 시스템 구조의 디지털 자료로 복원하는 복원부, 복원된 디지털 자료에 속하는 파일들 각각에 고유의 문서번호를 할당하여 문서번호사전으로 관리하는 문서번호사전 관리부, 및 복원된 디지털 자료의 파일로부터 색인어를 추출하고 추출된 색인어별로 색인어가 속하는 파일에 할당된 문서번호를 지정하는 색인 수행부를 포함하는 색인부; 색인부에 의한 색인어별 문서번호가 지정된 색인 정보가 저장되는 색인 저장부; 및 색인 데이터베이스를 참조하여 검색하고자 하는 색인어에 지정된 문서번호를 확인하고, 확인된 문서번호를 가지고 상기 문서번호사전을 참조하여 해당 파일을 검색하는 색인어 검색부;를 포함한다.

Description

디지털 포렌식 시스템에서 증거 이미지의 색인 관리 장치 및 방법{Device for index managing of evidence image in digital forensic system and method therefor}
디지털 포렌식 시스템(digital forensic system)에 관한 것으로, 특히 디지털 증거의 빠른 검색을 위한 색인 기술에 관한 것이다.
본 연구는 지식경제부 및 정보통신연구진흥원의 IT신성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다.[과제관리번호: 2007-S-019-02, 과제명: 정보투명성 보장형 디지털 포렌식 시스템 개발(Development of Digital Forensic System for Information Transparency)]
디지털 포렌식 시스템은 컴퓨터나 디지털 장비에 저장된 디지털 데이터로부터 증거 자료를 수집, 보관, 분석, 보고하기 위한 시스템이다. 통상 저장매체의 복제 및 이미지 인식, 디지털 증거 자료의 보존, 디지털 증거 자료의 검색 및 분석, 디지털 증거 자료의 복구 과정들로 구성된다. 원본 디지털 증거 자료가 손상되거나 변조되는 경우 법적 자료로 활용될 수 없기 때문에, 통상 원본을 손상시키지 않고 원본과 동일하게 복사하여 사용한다. 이 복사물을 통상 증거 이미지라 하 며, 한번 생성된 증거 이미지는 변경될 수 없는 특징이 있다.
한편, 디지털 증거를 수집, 보관, 분석 및 보고하는 포렌식 과정 중에서 증거 자료를 이미지화하여 수집하는 과정과 증거 이미지로부터 증거를 검색하는 분석 과정에 많은 시간이 소요된다. 이중 분석 과정에 소요되는 시간을 줄이기 위해 증거 이미지를 색인한다. 그런데 종래 색인 방식은 색인 단어에 대한 파일 정보를 디렉토리를 포함한 파일명으로 관리하기 때문에, 색인 단계마다 파일명을 처리하는 오버헤드가 발생한다. 예를 들어, “컴퓨터”라는 단어를 색인하는 경우, 이 단어가 ‘A.doc’, ‘C.hwp’, ‘E.ppt’파일에서 발견되었다고 하자. 그러면 “컴퓨터”라는 단어에 대해서 ‘C:/abc/def/A.doc’, ‘C:/abc/deg/op/C.hwp’, ‘E:/kkk/ssl/esd/abd/ssc/E.hwp’와 같이 색인이 될 것이다. 이 같은 색인 방식은 파일명을 처리하는데 오버헤드를 발생시킬 수밖에 없다.
또한, 종래 크기가 큰 파일을 색인하기 위해서는 파일을 작은 크기로 나누어 임시 파일명을 각각 부여하고, 나누어진 파일들을 기준으로 색인을 생성한다. 이후 색인 데이터베이스를 검색하면 나누어진 파일들에 대한 검색 결과가 나오는데, 이를 모두 하나의 파일에서 찾은 결과로 후처리를 반드시 해야 한다. 그래야만 색인 단어에 대한 파일 검색을 제대로 할 수 있기 때문이다.
그리고 나누어진 파일들에 임시 파일명을 부여할 경우, 이미 있는 파일명과 중복되는 문제가 발생할 수 있다. 예를 들어 설명하면, ‘C:/abc/def/’디렉토리에 있는 ‘A.doc’파일이 대용량 파일이어서 이를 세 개의 파일로 나누고 나누어진 파일들 각각에 대해 ‘A-1.doc’, ‘A-2.doc’,‘A-3.doc’와 같이 임시 파일명을 부여하는 경우, 이 임시 파일명이 기존에 이미 있는 파일명과 중복되는 문제가 발생할 수 있다는 것이다.
종래 색인 과정에서 파일명을 처리하는데 발생하는 오버헤드 문제를 해결할 수 있는 색인 관리 장치 및 방법을 제공함을 목적으로 한다.
또한 후처리를 필요로 하지 않는 색인 관리 장치 및 방법을 제공함을 목적으로 한다.
또한 대용량 파일에 대한 색인을 위해 파일을 작은 크기로 나누어 임시 파일명을 부여함에 의해 발생하는 파일명 중복 문제를 해결할 수 있는 색인 관리 장치 및 방법을 제공함을 목적으로 한다.
전술한 기술적 과제를 달성하기 위한 디지털 포렌식 수사를 위해 원본과 동일하게 복사된 증거 이미지에 대한 색인 관리 장치는 증거 이미지를 파일 시스템 구조의 디지털 자료로 복원하는 복원부, 상기 복원된 디지털 자료에 속하는 파일들 각각에 고유의 문서번호를 할당하여 문서번호사전으로 관리하는 문서번호사전 관리부, 및 상기 복원된 디지털 자료의 파일로부터 색인어를 추출하고 추출된 색인어별로 색인어가 속하는 파일에 할당된 문서번호를 지정하는 색인 수행부를 포함하는 색인부; 색인부에 의한 색인어별 문서번호가 지정된 색인 정보가 저장되는 색인 저장부; 및 색인 데이터베이스를 참조하여 검색하고자 하는 색인어에 지정된 문서번호를 확인하고, 확인된 문서번호를 가지고 문서번호사전을 참조하여 해당 파일을 검색하는 색인어 검색부;를 포함한다.
문서번호사전 관리부는 디지털 자료에 속하는 디렉토리를 포함한 파일명들 각각에 문서번호를 할당하여 문서번호사전으로 관리함에 일 특징이 있다.
색인부는 디지털 자료에 속하는 파일별로 색인어를 추출하는 색인어 추출부, 및 상기 추출된 색인어와 추출된 색인어가 검색된 파일에 할당된 문서번호를 모두 통합하여 색인어별 문서번호가 지정되는 색인 정보를 생성하는 색인 정보 생성부를 포함한다.
색인어 추출부는 색인하고자 하는 파일의 용량이 한번에 색인할 수 있는 용량보다 큰 대용량 파일인 경우 대용량 파일을 다수로 분할한 후 분할 파일별로 색인어를 추출하며, 색인 정보 생성부는 분할 파일들로부터 추출된 색인어들을 모두 취합하여 대용량 파일에 할당된 문서번호와 대응되게 색인 정보를 생성한다.
한편, 전술한 기술적 과제를 달성하기 위한 색인 관리 방법은 디지털 포렌식의 증거 자료를 수집하는 과정에서 원본과 동일하게 복사된 증거 이미지를 파일 시스템 구조의 디지털 자료로 복원하는 단계; 복원된 파일 시스템 구조의 디지털 자료에 포함된 파일들에 대해 각각 고유한 문서번호를 할당하여 문서번호사전으로 관리하는 단계; 복원된 파일 시스템 구조의 디지털 자료에 포함된 파일들로부터 파일 단위로 색인어를 추출하는 단계; 추출된 색인어와 해당 파일의 문서번호가 대응되는 색인 정보를 생성하여 색인 데이터베이스로 관리하는 단계; 색인 데이터베이스를 참조하여 검색하고자 하는 색인어에 지정된 문서번호를 확인하는 단계; 및 확인된 문서번호를 가지고 문서번호사전을 참조하여 해당 파일에 들어있는 색인어를 검색하는 단계;를 포함한다.
증거 이미지의 디렉토리를 포함한 파일 이름에 문서번호를 순차적으로 할당하고 문서번호사전으로 관리하여 색인 과정에서 파일을 번호로 처리하면, 색인 단게마다 파일 이름을 처리하는 오버헤드를 줄일 수 있다. 또한 대용량 파일을 나누어 색인 및 갱신하는 경우 각 분할 파일마다 임시 파일명을 부여하지 않으므로 기존의 파일명과 중복되는 문제가 발생하지 않고, 더욱이 임시 파일명들에 대한 검색의 후처리를 하지 않아도 된다.
전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 색인 관리 장치의 블록도이다.
우선 색인 관리 장치에서 색인할 대상인 증거 이미지(100)란 하드디스크 등 저장매체에 저장된 전체 원본 디지털 자료가 동일하게 복사된 포렌식 방식의 특성을 갖는 자료를 말한다. 그리고 색인 관리 장치(200)는 증거 이미지(100)에 대한 색인 및 색인 검색을 수행하기 위한 장치이다. 색인 관리 장치(200)는 그래픽 사용자 인터페이스(Graphic User Interface, GUI)(210), 색인 관리부(220), 색인부(230), 색인 데이터베이스(240), 및 검색부(250)를 포함한다. GUI(210)는 사용자를 위한 그래픽 입출력 인터페이스이다. 사용자는 GUI(210)를 통해 색인의 생 성, 갱신, 삭제 등을 명할 수 있다. 색인 제어부(220)는 색인의 생성, 갱신, 삭제, 취소 등을 제어하고, 또한 색인의 검색을 제어한다. 일 실시예에 있어서, 색인 제어부(220)는 GUI(210)를 통한 사용자의 명령에 따라 색인 동작 혹은 색인어 검색 동작을 제어한다. 색인 관리부(220), 색인부(230), 및 검색부(250) 구성들은 모두 프로그램 코드로 구현 가능하다.
색인부(230)는 증거 이미지(100)로부터 색인을 생성, 갱신, 삭제, 백업하는 역할을 수행한다. 본 발명의 특징적인 양상에 따른 색인부(230)는 증거 이미지(100)로부터 색인어를 추출하고 추출된 색인어별로 색인어가 속하는 파일에 할당된 문서번호를 지정하여 색인한다. 색인부(230)에 의한 색인 정보를 역파일이라 하며, 이는 색인어에 해당하는 문서가 무엇인지를 나타내는 파일이나 데이터 구조를 말한다. 이 역파일은 색인 데이터베이스(240)에 저장된다. 그리고 검색부(250)는 색인 데이터베이스(240)에 저장된 역파일에 기초하여 검색하고자 하는 색인어에 지정된 적어도 하나의 문서번호를 확인하고, 문서번호를 갖는 파일을 찾아 그 파일 내에서 색인어를 검색한다.
도 2는 도 1의 부분 상세 구성도이다.
색인부(230)는 복원부(231), 문서번호사전 관리부(232), 및 색인 수행부(233)를 포함한다. 복원부(231)는 증거 이미지(100)를 파일 시스템 구조를 갖는 디지털 자료(100-1)로 복원한다. 파일 시스템 구조로 변환이 되어야만 색인이 가능하기 때문이다.
문서번호사전 관리부(232)는 복원부(231)에 의해 복원된 파일 시스템 구조를 갖는 디지털 자료(100-1)의 파일들 각각에 고유의 문서번호를 순차적으로 할당한다. 일 실시예에 있어서, 문서번호사전 관리부(232)는 디렉토리를 포함한 파일명에 문서번호를 순차적으로 할당한다. 이는 도 3에 예시되어 있다. 이 같이 하면, 파일의 문서번호만을 알면 디렉토리 정보를 통해 파일의 저장 위치를 파악할 수 있고, 또한 파일명을 통해 해당 파일을 알 수 있다. 이렇게 파일들에 할당된 문서번호들에 대한 정보는 문서번호사전으로 문서번호사전 데이터베이스(260)에 저장되어 관리된다.
색인 수행부(233)는 복원부(231)에 의해 복원된 파일 시스템 구조를 갖는 디지털 자료(100-1)에 속하는 파일들로부터 색인어를 추출한다. 그리고 추출된 색인어별로 그 색인어가 속하는 파일에 할당된 문서번호를 지정하는 색인 방식을 통해 역파일을 생성하여 색인 데이터베이스(240)에 저장 관리한다.
검색부(250)는 검색하고자 하는 색인어에 대해 색인 데이터베이스(240)를 참조하여 문서번호를 확인한다. 그리고 확인된 문서번호를 가지고 문서번호사전 데이터베이스(260)에 저장된 문서번호사전을 통해 디렉토리를 포함한 파일명을 확인한다. 검색부(250)는 확인된 디렉토리를 포함한 파일명을 가지고 복원부(231)에 의해 복원된 파일 시스템 구조를 갖는 디지털 자료로부터 해당 파일을 찾은 후 그 파일에서 색인어를 검색한다.
도 4은 도 3의 색인 수행부(233)의 구체적인 구성 예시도이다.
색인 수행부(233)는 색인어 추출부(233-1), 색인어 정렬부(233-2), 및 색인 정보 생성부(233-3)를 포함한다. 색인어 추출부(233-1)는 파일 시스템 구조의 디 지털 자료(100-1)에 속하는 파일들로부터 색인어를 추출한다. 색인어는 예를 들어 문서 내 문장을 구성하는 명사만이 될 수 있다. 색인어 추출부(233-1)는 파일별로 모든 색인어를 추출하고, 색인어 추출부(233-1)에 포함되는 빈도수 산출부(233-1a)는 파일별로 각각의 색인어에 대한 빈도수를 산출한다. 여기서 빈도수 산출부(233-1a)는 추가적인 구성이다. 색인어 정렬부(233-2)는 색인어 추출부(233-1)에 의해 추출된 색인어와 각 색인어에 대한 빈도수를 각 파일별로 색인어를 기준으로 정렬한다. 예를 들어, 색인어를 가나다 순이나 알파벳 순으로 정렬하는 것이다. 이에 대한 예시는 도 5에 도시되어 있다. 색인어 정렬부(233-2)는 추가적인 구성으로서, 생략될 수 있다. 그리고 도 5에는 예시되어 있지 않으나, 빈도수 산출부(233-1a)에 의해 산출된 빈도수가 기록되기 위한 필드가 각 레코드에 더 추가될 수 있다. 도 5와 같은 테이블 정보는 한 번 이용되고 삭제되는 것이 아니라 별도로 저장 관리될 수 있다. 혹 색인어 정렬부(233-2)가 색인 수행부(233)에 구성되어 있지 않다면, 도 5에서 색인어 기준으로 정렬되지 않은 테이블 정보가 별도로 저장 관리될 것이다.
색인 정보 생성부(233-3)는 색인어 정렬부(233-2)에 의해 파일별로 정렬된 색인어와 빈도수 그리고 문서번호를 통합하여 역파일을 생성한다. 색인어 정렬부(233-2)가 구성되지 않은 경우, 색인 정보 생성부(233-3)는 색인어 추출부(233-1)에 의해 파일별로 추출된 색인어와 그 파일의 문서번호를 통합하여 역파일을 생성한다. 역파일 테이블에 대한 예시가 도 6에 도시되어 있다. 바람직하게 색인 정보 생성부(233-3)는 도 6에 예시되어 있는 바와 같이 색인어를 기준으로 가나다 순에 따라 레코드들을 순차적으로 정렬한다. 이 같이 할 경우, 색인어 정렬부(233-2)에 의해 파일 단위로 색인어 정렬이 먼저 이루어지면, 색인 정보 생성부(233-3)에 의한 역파일 생성 속도는 빠르게 진행될 수 있다.
일 실시예에 있어서, 색인 정보 생성부(233-3)는 최초에 첫 번째 파일에 대한 역파일을 생성하고, 이후 파일에 대해서 색인 데이터베이스(240)에 저장된 역파일을 갱신하는 방식을 취할 수 있다. 다른 실시예에 있어서, 색인 정보 생성부(233-3)는 여러 파일 그룹 단위로 역파일을 생성하고, 이후 파일 그룹에 대해서 색인 데이터베이스(240)에 저장된 역파일을 갱신하는 방식을 취할 수도 있다. 또 다른 실시예에 있어서, 색인 정보 생성부(233-3)는 색인하고자 하는 모든 파일들에 대해 한번에 역파일을 생성할 수도 있다.
한편, 파일의 용량이 큰 관계로 한번에 색인을 할 수 없는 경우가 있다. 예를 들어, 한번에 색인할 수 있는 파일의 최대용량이 20MB인 것으로 가정하면, 50MB 크기를 갖는 파일에 대해서는 그 파일을 분할하여 색인하여야 한다. 따라서 색인부(230)는 20MB 단위로 3등분한 뒤, 첫 번째 분할 파일을 색인하고, 두 번째 분할 파일을 추가로 색인하여 갱신한 뒤, 나머지 분할 파일을 추가로 색인하여 갱신하는 방식을 취한다. 증거 이미지에 있는 파일들은 내용 변경이 발생하지 않기 때문에, 같은 이름의 파일에 대하여 색인을 갱신하는 것은 크기가 커서 나누어 색인하는 경우일 뿐이다. 이렇게 같은 이름의 대용량 파일을 다수로 분할한 후 분할 파일 단위로 색인할 경우, 분할 파일별로 색인된 결과를 모두 합쳐 하나의 문서번호로 처리한다.
참고로, 도 4에서는 색인어 추출부(233-1)에서 색인 대상 파일의 용량이 대용량인지 아닌지 판단한 후 대용량인 경우는 파일을 나누어 색인어 추출 과정을 진행할 수 있다. 그리고 색인 정보 생성부(233-3)는 하나의 대용량 파일에서 분할된 파일들에 대해서는 동일한 문서번호로 처리한다. 그리고 동일한 문서번호로 처리된다 하더라도 하나의 분할 파일에 대한 색인 데이터가 동일한 문서번호를 갖는 다른 분할 파일의 색인 데이터에 덮어쓰기 되는 것이 아니라 추가되도록 한다. 즉, 색인 정보 생성부(233-3)는 하나의 대용량 파일에 대한 다수의 분할 파일들에 대해 동일한 문서번호로 인식하며, 첫 번째 분할 파일에 대한 색인 데이터에 두 번째 분할 파일에 대한 색인 데이터와 세 번째 분할 파일에 대한 색인 데이터를 추가하는 방식을 통해 역파일을 갱신한다.
본 발명의 추가적인 양상에 따라 색인 정보 생성부(233-3)는 역파일의 일부 색인 정보를 삭제할 수 있다. 예를 들어, 사용자가 일부 디렉토리나 특정 파일 등에 대한 색인 정보를 삭제할 것을 요청하면, 색인 정보 생성부(233-3)는 역파일에서 삭제 대상이 되는 문서번호와 관련된 색인 정보를 모두 삭제하고 역파일을 갱신한다. 일 실시예에 있어서, 색인 정보 생성부(233-3)는 도 5와 같은 테이블 정보를 참조하여 삭제 대상이 되는 파일의 테이블 정보는 제외시키고 나머지 파일들에 대한 테이블 정보를 통합하여 역파일을 새로 생성하여 색인 데이터베이스(240)에 덮어쓰는 방식으로 일부 색인 정보를 삭제할 수 있다.
도 7은 본 발명의 일 실시예에 따른 색인 생성/갱신 방법의 흐름도이다.
증거 이미지에 대한 색인 정보 생성이나 갱신시, 색인부(230)는 증거 이미지 를 파일 시스템 구조의 디지털 자료로 복원한다(단계 S700). 그리고 파일 시스템 구조의 디지털 자료에 속하는 파일들에 대해 각각 고유한 문서번호를 할당하고, 이를 문서번호사전으로 관리한다(단계 S710). 이후 색인부(230)는 파일별로 색인어를 추출하고, 전체 색인어를 통합하여 문서번호 필드와 색인어 필드 그리고 추가로 빈도수 필드를 포함하는 레코드들로 구성되는 역파일을 생성한다(단계 S720).
단계 S720에 대해 구체적인 예시를 들면, 우선 색인부(230)는 파일 단위로 색인을 수행하는데, 이에 앞서 파일이 대용량 파일인지를 확인한다. 대용량 파일이 아닌 경우, 색인부(230)는 파일에서 색인어를 추출한다. 그리고 부가적으로 추출된 색인어의 빈도수를 산출할 수 있다. 색인부(230)는 파일별로 색인어를 순차적으로 정렬한다. 빈도수가 산출된 경우, 색인어를 기준으로 한 정렬에 따라 빈도수도 해당 색인어에 대응되게 함께 정렬된다.
색인부(230)는 파일별로 정렬된 색인어와 그 파일에 할당된 문서번호가 지정된 역파일을 생성한다. 역파일을 생성하는 방식에 있어서, 색인부(230)는 색인 대상이 되는 모든 파일들에 대해 한 번에 역파일을 생성할 수 있고, 일정 수의 파일 그룹 단위로 역파일을 생성한 후 갱신할 수도 있으며, 최초 색인 대상이 되는 하나의 파일에 대해 역파일을 생성한 후 계속하여 갱신할 수도 있다.
한편, 색인하고자 하는 파일이 대용량 파일인 경우, 색인부(230)는 대용량 파일을 한번에 색인 가능하도록 다수로 분할하고 각 분할 파일 단위로 색인을 수행한다. 그리고 이들 분할 파일은 동일한 문서번호로 인식되며, 각 분할 파일 단위로 수행된 색인 정보는 모두 하나의 문서번호와 관련되게 취합된다.
도 8은 본 발명의 일 실시예에 따른 색인어 검색 방법의 흐름도이다.
색인어 검색 명령이 있으면, 색인부(230)는 검색하고자 하는 색인어에 대한 문서번호를 확인한다(단계 S800). 이는 색인 데이터베이스(240)에 저장된 역파일을 통해 확인될 수 있다. 그 다음 색인부(230)는 확인된 문서번호에 대한 파일을 확인을 확인한다(단계 S810). 이는 문서번호사전 데이터베이스(260)에 저장된 문서번호사전을 통해 확인될 수 있다. 색인부(230)는 확인된 파일을 검색하고 검색된 파일 내에서 색인어를 검색한다(단계 S820). 그리고 색인어 검색 결과가 GUI(230)를 통해 디스플레이되도록 출력한다(단계 S830).
한편, 흐름도로 도시되지는 않았으나, 일부 색인 정보에 대한 삭제 명령이 있으면, 색인부(230)는 역파일에서 삭제하고자 하는 문서번호와 관련된 색인 정보가 모두 삭제되도록 역파일을 재구성한다. 일부 색인 정보를 삭제하는 방식은 언급한 바와 같다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 색인 관리 장치의 블록도.
도 2는 도 1의 부분 상세 구성 예시도.
도 3은 문서번호사전 예시도.
도 4은 도 2의 색인 수행부의 구체적인 구성 예시도.
도 5는 색인어 정렬 예시도.
도 6은 역파일 예시도.
도 7은 본 발명의 일 실시예에 따른 색인 생성/갱신 방법의 흐름도.
도 8은 본 발명의 일 실시예에 따른 색인어 검색 방법의 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
210 : GUI 220 : 색인 제어부
230 : 색인부 231 : 복원부
232: 문서번호사전 관리부 233 : 색인 수행부
233-1 : 색인어 추출부 233-2 : 색인어 정렬부
233-3 : 색인 정보 생성부 240 : 색인 데이터베이스
250 : 검색부 260 : 문서번호사전 데이터베이스

Claims (10)

  1. 디지털 포렌식 수사를 위해 원본과 동일하게 복사된 증거 이미지에 대한 색인 관리 장치에 있어서,
    상기 증거 이미지를 파일 시스템 구조의 디지털 자료로 복원하는 복원부, 상기 복원된 디지털 자료에 속하는 파일들 각각에 고유의 문서번호를 할당하여 문서번호사전으로 관리하는 문서번호사전 관리부, 및 상기 복원된 디지털 자료의 파일로부터 색인어를 추출하고 추출된 색인어별로 색인어가 속하는 파일에 할당된 문서번호를 지정하는 색인 수행부를 포함하는 색인부;
    상기 색인부에 의한 색인어별 문서번호가 지정된 색인 정보가 저장되는 색인 저장부; 및
    상기 색인 데이터베이스를 참조하여 검색하고자 하는 색인어에 지정된 문서번호를 확인하고, 확인된 문서번호를 가지고 상기 문서번호사전을 참조하여 해당 파일을 검색하는 색인어 검색부;
    를 포함하는 것을 특징으로 하는 색인 관리 장치.
  2. 제1항에 있어서,
    상기 문서번호사전 관리부는 상기 디지털 자료에 속하는 디렉토리를 포함한 파일명들 각각에 문서번호를 할당하여 문서번호사전으로 관리함을 특징으로 하는 색인 관리 장치.
  3. 제1항에 있어서,
    상기 색인부는 상기 디지털 자료에 속하는 파일별로 색인어를 추출하는 색인어 추출부, 및 상기 추출된 색인어와 상기 추출된 색인어가 검색된 파일에 할당된 문서번호를 모두 통합하여 색인어별 문서번호가 지정되는 색인 정보를 생성하는 색인 정보 생성부를 더 포함하는 것을 특징으로 하는 색인 관리 장치.
  4. 제3항에 있어서,
    상기 추출부는 파일별로 상기 추출된 색인어의 빈도수를 산출하는 빈도수 산출부를 포함하며,
    상기 색인 정보 생성부는 색인어별 그리고 문서번호별 색인어의 빈도수를 추가 반영하여 역파일을 생성함을 특징으로 하는 색인 관리 장치.
  5. 제3항에 있어서,
    상기 색인부는 파일별로 상기 추출된 색인어를 정렬 기준에 따라 정렬하는 색인어 정렬부를 더 포함하며,
    상기 색인 정보 생성부는 상기 색인어 정렬부에 의해 정렬이 이루어진 후 색인 정보를 생성함을 특징으로 하는 색인 관리 장치.
  6. 제3항에 있어서,
    상기 색인어 추출부는 색인하고자 하는 파일의 용량이 한번에 색인할 수 있는 용량보다 큰 대용량 파일인 경우 상기 대용량 파일을 다수로 분할한 후 분할 파일별로 색인어를 추출하며,
    상기 색인 정보 생성부는 상기 분할 파일들로부터 추출된 색인어들을 모두 취합하여 상기 대용량 파일에 할당된 문서번호와 대응되게 색인 정보를 생성함을 특징으로 하는 색인 관리 방법.
  7. 제3항에 있어서,
    상기 색인 정보 생성부는 적어도 하나의 문서번호와 관련된 색인 정보 삭제 명령이 있으면, 삭제 지정된 문서번호에 관련된 색인 정보가 삭제되도록 상기 색인 데이터베이스에 저장된 색인 정보를 새로 구성하는 단계;
    를 더 포함하는 것을 특징으로 하는 색인 관리 방법.
  8. 디지털 포렌식의 증거 자료를 수집하는 과정에서 원본과 동일하게 복사된 증거 이미지를 파일 시스템 구조의 디지털 자료로 복원하는 단계;
    상기 복원된 파일 시스템 구조의 디지털 자료에 포함된 파일들에 대해 각각 고유한 문서번호를 할당하여 문서번호사전으로 관리하는 단계;
    상기 복원된 파일 시스템 구조의 디지털 자료에 포함된 파일들로부터 파일 단위로 색인어를 추출하는 단계;
    추출된 색인어와 해당 파일의 문서번호가 대응되는 색인 정보를 생성하여 색 인 데이터베이스로 관리하는 단계;
    상기 색인 데이터베이스를 참조하여 검색하고자 하는 색인어에 지정된 문서번호를 확인하는 단계; 및
    상기 확인된 문서번호를 가지고 상기 문서번호사전을 참조하여 해당 파일에 들어있는 색인어를 검색하는 단계;
    를 포함하는 것을 특징으로 하는 색인 관리 방법.
  9. 제8항에 있어서,
    상기 색인어를 추출하는 단계는 색인어를 추출하고자 하는 파일의 용량이 한번에 색인할 수 있는 용량보다 큰 대용량 파일인지 확인하는 단계, 대용량 파일이면 그 대용량 파일을 다수로 분할하는 단계, 및 상기 다수로 분할된 파일별로 색인어를 추출하는 단계를 더 포함하며,
    상기 색인 데이터베이스로 관리하는 단계는 상기 색인 정보 생성부는 상기 분할 파일들로부터 추출된 색인어들을 모두 취합하여 상기 대용량 파일에 할당된 문서번호와 대응되게 색인 정보를 생성함을 특징으로 하는 색인 관리 방법.
  10. 제8항에 있어서,
    적어도 하나의 문서번호에 관련된 색인 정보 삭제 명령이 있으면, 삭제 지정된 문서번호에 관련된 일부 색인 정보가 삭제되도록 상기 색인 데이터베이스에 저장된 색인 정보를 새로 구성하는 단계;
    를 더 포함하는 것을 특징으로 하는 색인 관리 방법.
KR1020090021690A 2008-12-08 2009-03-13 디지털 포렌식 시스템에서 증거 이미지의 색인 관리 장치 및 방법 KR101082024B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020080124169 2008-12-08
KR20080124169 2008-12-08

Publications (2)

Publication Number Publication Date
KR20100066263A true KR20100066263A (ko) 2010-06-17
KR101082024B1 KR101082024B1 (ko) 2011-11-10

Family

ID=42365377

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090021690A KR101082024B1 (ko) 2008-12-08 2009-03-13 디지털 포렌식 시스템에서 증거 이미지의 색인 관리 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101082024B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9396273B2 (en) 2012-10-09 2016-07-19 Ubic, Inc. Forensic system, forensic method, and forensic program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3653333B2 (ja) * 1996-05-13 2005-05-25 株式会社日立製作所 データベース管理方法およびシステム
JP2001022775A (ja) * 1999-07-08 2001-01-26 Matsushita Electric Ind Co Ltd 情報検索装置、情報検索装置の情報圧縮方法および記録媒体
JP2006178521A (ja) * 2004-12-20 2006-07-06 Ubic:Kk デジタル・フォレンジックの方法及びフォレンジックitセキュリティシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9396273B2 (en) 2012-10-09 2016-07-19 Ubic, Inc. Forensic system, forensic method, and forensic program

Also Published As

Publication number Publication date
KR101082024B1 (ko) 2011-11-10

Similar Documents

Publication Publication Date Title
CN110276002B (zh) 搜索应用数据处理方法、装置、计算机设备和存储介质
JP5233233B2 (ja) 情報検索システム、情報検索用インデックスの登録装置、情報検索方法及びプログラム
KR101403305B1 (ko) 백업부트레코드 정보를 이용한 파티션 복구 장치 및 방법
JP5218060B2 (ja) 情報検索システムと情報検索方法ならびにプログラム
US8527556B2 (en) Systems and methods to update a content store associated with a search index
US20120191675A1 (en) Device and method for eliminating file duplication in a distributed storage system
KR20130049111A (ko) 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
CN110287192B (zh) 搜索应用数据处理方法、装置、计算机设备和存储介质
US11210266B2 (en) Methods and systems for natural language processing of metadata
CN103460197A (zh) 计算机系统、文件管理方法以及元数据服务器
JP2013073403A (ja) 情報処理装置、情報処理方法、および情報処理プログラム
US11113238B2 (en) Methods and systems for metadata tag inheritance between multiple storage systems
CN109522290A (zh) 一种HBase数据块恢复及数据记录提取方法
US20200242079A1 (en) Methods and systems for metadata tag inheritance for data tiering
US20200241769A1 (en) Methods and systems for encryption based on cognitive data classification
US20200242159A1 (en) Methods and systems for event based tagging of metadata
CN106055546A (zh) 基于Lucene的光盘库全文检索系统
KR101082024B1 (ko) 디지털 포렌식 시스템에서 증거 이미지의 색인 관리 장치 및 방법
KR101688629B1 (ko) 메타데이터 및 데이터 클러스터를 이용하는 파일 시스템 복구 방법 및 장치
Atwal et al. Shining a light on Spotlight: Leveraging Apple's desktop search utility to recover deleted file metadata on macOS
CN111045994A (zh) 一种基于kv数据库的文件分类检索方法及系统
KR101846347B1 (ko) 대용량 문서의 관리 방법 및 그 장치
JP2925042B2 (ja) 情報リンク生成方法
KR101583283B1 (ko) Db2 데이터베이스에서 데이터를 복원하는 방법 및 장치
KR20110066344A (ko) 디지털 포렌식 시스템에서 대용량 증거 이미지의 다중 색인 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee