KR101512760B1 - 대용량 장기 아카이브의 생산 및 관리 방법 - Google Patents

대용량 장기 아카이브의 생산 및 관리 방법 Download PDF

Info

Publication number
KR101512760B1
KR101512760B1 KR1020127026506A KR20127026506A KR101512760B1 KR 101512760 B1 KR101512760 B1 KR 101512760B1 KR 1020127026506 A KR1020127026506 A KR 1020127026506A KR 20127026506 A KR20127026506 A KR 20127026506A KR 101512760 B1 KR101512760 B1 KR 101512760B1
Authority
KR
South Korea
Prior art keywords
archive
data
archive data
container file
relocated
Prior art date
Application number
KR1020127026506A
Other languages
English (en)
Other versions
KR20120140668A (ko
Inventor
제리 존 아티쉬다드
크리스티안 헤트
Original Assignee
아르텍 컴퓨터 게엠베하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아르텍 컴퓨터 게엠베하 filed Critical 아르텍 컴퓨터 게엠베하
Publication of KR20120140668A publication Critical patent/KR20120140668A/ko
Application granted granted Critical
Publication of KR101512760B1 publication Critical patent/KR101512760B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2143Clearing memory, e.g. to prevent the data from being stolen

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 아카이브 데이터 저장 매체와 관리 파일로 구성된 대용량 아카이브의 생산 및 관리 방법에 관한 것이다. 본 발명에 따른 방법은 유효한 전자 서명을 그들에게 제공함으로써 데이터의 법적 효력을 유지하기 위한 컨테이너 파일 내 아카이브 데이터 재배치와 관련된다.
본 발명에 따른 방법의 세부 사항은 다음과 같다: 가장 먼저 선결 특성에 근거한 상기 아카이브 데이터가 선택된다. 그 후 이러한 선택된 아카이브 데이터는 아카이브 데이터 저장 매체로부터 개별 아카이브 데이터 파일로 재배치되며, 그 다음 상기 아카이브 데이터 저장 매체로부터 삭제된다. 게다가, 선택된 상기 아카이브 데이터의 색인들은 관리 데이터베이스로부터 개별 데이터베이스로 재배치되며, 그 다음 상기 관리 데이터베이스로부터 삭제된다. 이후, 상기 개별 아카이브 데이터 파일은 컨테이너 파일 내에서 상기 개별 데이터베이스 파일과 결합한다. 다음 단계에서, 상기 컨테이너 파일 내 항목은 상기 항목의 비트 패턴과 비교함으로써 중복 제거되고, 상기 데이터베이스의 해당 항목에 대한 링크와 동일 패턴을 대체한다.

Description

대용량 장기 아카이브의 생산 및 관리 방법{METHOD OF PRODUCING AND MANAGING A LARGE-VOLUME LONG-TERM ARCHIVE}
본 발명은 아카이브 데이터 저장 매체와 관리 파일로 구성된 대용량 아카이브의 생산 및 관리 방법에 관한 것이다. 본 발명에 따른 방법은 유효한 전자 서명을 그들에게 제공함으로써 데이터의 법적 효력을 유지하기 위한 컨테이너 파일 내 아카이브 데이터 재배치와 관련된다.
"종이 없는 사무실(paperless office)" 이 발달하면서 문서를 더 이상 사용할 수 없거나 인쇄 형식이 아닌 전자 데이터 형식만 사용할 수 있는 상황을 빈번히 발생시켜왔고 문서의 30년 이상 법적 보관 기간이 기업과 사적인 영역까지 적용됨에 따라, 데이터 축적의 합법적으로 안전한 아카이빙(archiving)을 제공할 수 있도록 필요성은 꾸준히 증가해왔다. 소프트웨어 기술이 문서와 서류철 등의 전통적 수단보다 기본적으로 정보 관리에 더 적합하다는 사실에도 불구하고, 장기 저장의 문제는 전자 정보의 기하급수적 성장에 따라 커지고 있다. 전자 형식의 문서는 쉽게 수정될 수 있기 때문에, 아카이브된 데이터가 원상태로 보존될 수 있는 조치가 취해져야만 한다. 전자 서명은 전자 문서들이 손으로 서명된 문서들과 동일한 법적 특성을 갖도록 한다.
입법자들은 그러한 문서가 법원 가용 증거(court-admissible evidence)를 구성해야 한다는 사실에 엄격한 요구 사항을 첨부하였다. 독일의 입법자들은 전자서명법(SigG)과 전자서명조례(SigV)를 통해 전자 서명의 사용을 제어하는 유럽 연합(European Union)의 지침 1999/93/EC("전자서명지침(Electronic Signature Directive)")을 시행하였다. 유효한 전자 서명과 함께 제공된 전자 문서는 서면으로 작성된 것과 동일한 자격을 갖는다. 상기 유효한 전자 서명은 최대로 가능한 경우 자필 서명(handwritten signature)과 같은 법적 효력을 가진다. 결과적으로, 예를 들어 전자 메일 또는 전자 송장과 같은 방식으로 서명된 문서는 서면 상의 사본과 동일한 방식으로 법정에서 증거로 사용될 수 있다. 파일이 아카이브될 때, 상기 서명 파일은 원본 파일과 별도로 또는 이에 첨부되어 저장될 수 있다.
전자 장기 아카이빙은 10년 이상의 기간에 해당하는 전자 정보 보존과 관련된다. 이를 위해, 아카이브 시스템은 데이터베이스, 아카이브 소프트웨어 및 저장 시스템으로 구성되어 발전되어 왔다. 이러한 시스템들은 관리 및 색인 기준을 포함하는 참조 데이터베이스가 상기 데이터가 재배치되는 외부 저장 매체에 연결되는 접근법에 근거한다. 이는 많은 양의 정보가 개별 아카이브 저장 매체에 재배치되도록 한다.
그러나 특히 매우 많은 양의 (작은) 아카이브 데이터가 관련될 때, 일반적인 전자 아카이브는 각각의 아카이브 데이터 검색 또는 특정 기준에 따른 데이터 필터링을 위해 매우 번거로운 형식으로 제공되는 검색 과정을 수반한다. 게다가 이러한 아카이브 데이터는 결국 많은 양의 저장 공간을 차지할 수 있으며, 그 결과 상기 문서들이 법원 가용 증거로 계속 기능할 수 있도록 유효한 전자 서명을 유지하는 동안, 저장 공간을 감소시키는 것이 바람직하다. 또한 이것은 상기 데이터의 복원 시 비트 수준의 정밀도로 재편성 될 수 있는 경우 유리하다. 본 발명의 기술적 대상은 결국 저장 소요 공간의 축소와 데이터의 비변형성(non-modifiability)을 고려하는 대용량 아카이브의 생산 및 관리 방법을 제공하여, 이들이 비트 수준의 정밀도로 복원될 수 있도록 하는 것이다. 향후 목표는 선결 매개변수에 근거한 많은 양의 데이터를 검색하는 능력을 가능한 가장 빠른 시간 내에 제공하는 것이다.
상기 대상은 아카이브 데이터 저장 매체와 관리 데이터베이스로 구성된 대용량 장기 아카이브의 관리를 위한 본 발명에 따른 방법에 의해 달성된다. 여기의 상기 아카이브 데이터는 이러한 데이터의 비변형성이 보장되는 컨테이너 파일에 수집된다. 따라서 더 이상 개별 파일의 삭제 또는 수정이 불가능하며, 상기 개별 파일의 유효한 전자 서명이 보존된다. 중복 제거(deduplication) 메커니즘은 상기 데이터가 비트 수준의 정밀도로 복원될 수 있도록 여러 기존 파일을 링크(link)를 통해 인식되고 묶이게 한다. 색인들은 상기 컨테이너 데이터 내에서 빠른 검색 기능을 제공한다. 그 결과, 다수의 개별 파일로부터 모인 대용량 아카이브를 효율적으로 관리하는 것 또한 가능하다.
본 발명의 기술적 대상은 결국 저장 소요 공간의 축소와 데이터의 비변형성(non-modifiability)을 고려하는 대용량 아카이브의 생산 및 관리 방법을 제공하여, 이들이 비트 수준의 정밀도로 복원될 수 있도록 하는 것이다. 향후 목표는 선결 매개변수에 근거한 많은 양의 데이터를 검색하는 능력을 가능한 가장 빠른 시간 내에 제공하는 것이다.
본 발명에 따른 방법의 세부 사항은 다음과 같다: 가장 먼저 선결 특성에 근거한 상기 아카이브 데이터가 선택된다. 그 후 이러한 선택된 아카이브 데이터는 아카이브 데이터 저장 매체로부터 개별 아카이브 데이터 파일로 재배치되며, 그 다음 상기 아카이브 데이터 저장 매체로부터 삭제된다. 게다가, 선택된 상기 아카이브 데이터의 색인들은 관리 데이터베이스로부터 개별 데이터베이스로 재배치되며, 그 다음 상기 관리 데이터베이스로부터 삭제된다. 이후, 상기 개별 아카이브 데이터 파일은 컨테이너 파일 내에서 상기 개별 데이터베이스 파일과 결합한다. 다음 단계에서, 상기 컨테이너 파일 내 항목은 상기 항목의 비트 패턴과 비교함으로써 중복 제거되고, 상기 데이터베이스의 해당 항목에 대한 링크와 동일 패턴을 대체한다.
새로운 선택들은 최초 선택의 일부이며 새로운 아카이브 데이터도 포함한다는 부가적 특성에 근거한 하나 이상의 추가적 컨테이너 파일 선택 후 재배치된 데이터가 아카이브 데이터 저장 매체로부터 즉시 삭제되지 않고 그 대신 가장 먼저 재배치되며, 모든 재배치된 아카이브 데이터는 모든 재배치 작업이 완료되어야만 삭제되므로 설명된 방법의 변화는 이로울 수 있다. 이는 다수의 컨테이너 파일이 예를 들어 출생년도나 부서에 관한 모든 데이터와 같은 중복된 데이터 세트로 구성된 특정 주제 영역과 특정 직원의 모든 데이터에서 생성되도록 한다.
상기 대상은 아카이브 데이터 저장 매체와 관리 데이터베이스로 구성된 대용량 장기 아카이브의 관리를 위한 본 발명에 따른 방법에 의해 달성된다. 여기의 상기 아카이브 데이터는 이러한 데이터의 비변형성이 보장되는 컨테이너 파일에 수집된다. 따라서 더 이상 개별 파일의 삭제 또는 수정이 불가능하며, 상기 개별 파일의 유효한 전자 서명이 보존된다. 중복 제거(deduplication) 메커니즘은 상기 데이터가 비트 수준의 정밀도로 복원될 수 있도록 여러 기존 파일을 링크(link)를 통해 인식되고 묶이게 한다. 색인들은 상기 컨테이너 데이터 내에서 빠른 검색 기능을 제공한다. 그 결과, 다수의 개별 파일로부터 모인 대용량 아카이브를 효율적으로 관리하는 것 또한 가능하다.
본 발명에 따른 방법의 세부 사항은 다음과 같다: 가장 먼저 선결 특성에 근거한 상기 아카이브 데이터가 선택된다. 그 후 이러한 선택된 아카이브 데이터는 아카이브 데이터 저장 매체로부터 개별 아카이브 데이터 파일로 재배치되며, 그 다음 상기 아카이브 데이터 저장 매체로부터 삭제된다. 게다가, 선택된 상기 아카이브 데이터의 색인들은 관리 데이터베이스로부터 개별 데이터베이스로 재배치되며, 그 다음 상기 관리 데이터베이스로부터 삭제된다. 이후, 상기 개별 아카이브 데이터 파일은 컨테이너 파일 내에서 상기 개별 데이터베이스 파일과 결합한다. 다음 단계에서, 상기 컨테이너 파일 내 항목은 상기 항목의 비트 패턴과 비교함으로써 중복 제거되고, 상기 데이터베이스의 해당 항목에 대한 링크와 동일 패턴을 대체한다.
새로운 선택들은 최초 선택의 일부이며 새로운 아카이브 데이터도 포함한다는 부가적 특성에 근거한 하나 이상의 추가적 컨테이너 파일 선택 후 재배치된 데이터가 아카이브 데이터 저장 매체로부터 즉시 삭제되지 않고 그 대신 가장 먼저 재배치되며, 모든 재배치된 아카이브 데이터는 모든 재배치 작업이 완료되어야만 삭제되므로 설명된 방법의 변화는 이로울 수 있다. 이는 다수의 컨테이너 파일이 예를 들어 출생년도나 부서에 관한 모든 데이터와 같은 중복된 데이터 세트로 구성된 특정 주제 영역과 특정 직원의 모든 데이터에서 생성되도록 한다.
재배치된 아카이브 데이터가 아카이브 데이터 저장매체로부터 삭제된 후 일부 재배치된 아카이브 데이터를 더 많은 컨테이터로 포함시킬 필요가 여전히 있다면, 상기 데이터를 컨테이너에서 활성화 아카이브 데이터 저장 매체로 다시 가져올 필요가 있다. 따라서 아카이브 솔루션의 관리 기능은 컨테이너에서 개별 데이터세트를 다시 가져오기 위한 기능도 포함하는 것이 바람직하다.
또한, 예를 들어 직원이 떠날 때 이 직원에 대한 특정 데이터가 지정된 기간 후 삭제되어야 하는 요구가 있을 수 있다. 그러나, 이는 재배치된 컨테이너 파일에 쉽게 구현될 수 없다. 이를 구현하기 위해서는 관련 데이터를 포함하는 전체 컨테이너를 상기 아카이브 데이터 저장 매체로 다시 가져올 수 있어야 한다. 이후 문제의 데이터는 삭제될 수 있고, 가져온 데이터의 나머지는 컨테이너로 다시 재배치된다. 이는 상기 아카이브 솔루션의 개별 관리 기능에 의해 바람직한 영향을 받는다. 그러나 일반적 아카이브 데이터 저장 매체로 다시 가져오지 않아도 개별 소프트웨어에 의해 수행되는 이러한 특정 삭제 업무를 가진다고 생각할 수 있다. 이는 과부하로부터 상기 데이터 아카이브를 유지할 수 있으며, 삭제 작업이 임시 아카이브보다 더욱 빠르게 수행될 수 있다. 또한, 이는 컨테이너 파일에 새로운 재배치 전 남은 데이터 선택의 필요성을 없앤다. 이후 당연히 요구되는 사항은 상기 컨테이너 데이터의 해독 및 재암호화가 가능하도록 아카이브 데이터 저장 매체의 관리 소프트웨어로서의 동일한 키를 보조 소프트웨어가 갖는 것이다. 보안 기술의 관점에서, 처음 참조된 삭제 방식을 사용하는 것이 좋다.
상기 아카이브 데이터가 MIME(Multipurpose Internet Mail Extensions)-인코딩 첨부파일를 포함하는 전자메일과 관련된 경우, 반복적으로 존재하는 첨부파일은 MIME 인코딩이 비트 수준의 정밀도로 복원될 수 있는 방법으로 중복 제거된다. 예를 들어 전자메일이 처리될 때, base64-인코딩 내용이 임의의 방식으로 묶일 수 있기 때문에 상기 인코딩된 파일은 그럼에도 변경되지 않는다는 점에서, 공백 문자, 줄 바꿈 또는 전체 빈 줄이 삽입되거나 삭제되기 때문에 비트 패턴의 base64 인코딩은 수정될 수 있다. 중복제거 및 저장이 완료됐지만, 4/3 비율의 더 적은 저장 공간을 필요로 하는 더 쉬운 압축 바이너리 형식에서 기존 전자메일이 비트 수준의 정밀도로 복원될 수 있도록, 상기 인코딩은 표준 양식으로부터의 편차에 대해 상세히 조사되고, 라인 길이가 저장되며 중복 제거된 개별 첨부파일의 복원 정보가 저장된다.
이러한 비트 수준의 정밀도로 첨부파일의 복원에 영향을 미치는 능력을 포함하는 아카이빙의 중복 제거 방식은 컨테이너 파일을 사용하지 않는 아카이빙을 위한 본 발명에 따라 사용될 수도 있고, 전자서명법 또는 전자서명조례의 요구에 따라 아카이브의 적합성에 대한 매우 기본적인 방법으로 기여한다. 결국, 여기 본 발명의 목적은 전자메일과 아카이브 서버의 부하 완화 및 법적 요건을 갖춘 아카이브 적합성의 향상으로 구성되기 때문에, 상기 방법은 항상 컨테이너 파일이 있는 방식으로도 지원된다.
첨부파일의 사전 디코딩의 경우, 원본 첨부파일은 중복 제거 후 상기 아카이브에서 읽을 때 실제로 각 전자메일에 재할당되며, 또한 해당 인코딩 B에 재첨부되지만, 그럼에도 불구하고 복원된 전자메일은 인코딩의 표준 양식의 편차로부터 고려될 수 없기 때문에 본래의 아카이브된 전자메일과 비트 수준의 정밀도로 자동으로 매치하지 않는다. 그러나 본 발명에 따른 방법은 계정에 이러한 편차를 두고, 비트 수준의 정밀도로 원본 전자메일의 복원을 제공한다. 게다가, 본 발명에 따른 방법은 첨부파일의 모든 헤더뿐만 아니라 모든 추가적 중간 라인 및 비트 수준의 정밀도로 구분 라인을 유지하며, 또한 예를 들어 Quoted Printable과 base64 사이와 같이 첨부파일의 인코딩을 수정하지 않는다. 오직 base64-인코딩 첨부파일은 라인 길이뿐만 아니라 첨부파일에 대한 링크와 함께 일반적인 양식의 각 편차의 저장을 통해 비트 수준의 정밀도로 원본 문서가 복원될 수 있도록 상기 컨테이너에 저장된다. 그 결과, 다른 방법들과는 달리 상기 방법은 또한 저장된 전자메일의 법정 유용성을 그것의 검증 독창성 및 이에 의한 비트 수준 정밀도의 복원과 연결시키는 전자서명법 또는 전자서명조례의 요구 사항을 준수한다. 아울러, 상기 컨테이너에 재배치된 전자메일의 복원 방법은 아카이브 시스템 외부에서 전자메일을 독립적으로 처리하기 때문에, 설명된 상기 방법은 기술적으로 유리하다.
컨테이너 파일에 상기 아카이브 파일을 결합하는 것의 장점은 상기 컨테이너는 중복 제거에 적절한 플랫폼을 제공하고, 실제 데이터(live data)보다 상당히 저렴한 중복 제거 비용을 수반한다는 사실에 있다. 더욱이, 이러한 파일은 아카이브 및 데이터베이스의 부하를 완화시키고, 이로써 시스템에 향상된 성능을 제공한다. 결국, 상기 데이터는 나중에 컨테이너로부터 수정 또는 삭제될 수 없다. 이는 상기 데이터의 무결성이 보존될 수 있도록 한다. 따라서 필요에 따라 모든 상기 데이터는 개별 컨테이너로 재배치될 수 있다. 각 문서에 대한 임의의 고급 및/또는 유효 타임 스탬프와 마찬가지로, 이미 기존의 유효 고급 서명은 각각의 문서와 함께 묶일 수도 있다. 이는 모든 저장된 파일의 비변형성을 입증하고 있다. 상기 개별 컨테이너는 기존의 아카이브와 분리되어 개별적으로 저장된다. 필요하지 않는 한 다른 장소에 보관할 수 있는 외부 데이터 매체와 같은 다양한 저장매체 상에서, 저장은 영향 받을 수 있다. 예를 들면, 저장 공간을 절약하기 위해 같은 연도와 같이 특정 기간으로부터 온 파일이 결국 완전히 재배치될 수 있다. 여기 각 컨테이너는, 특정 데이터가 표적 방식으로 접근할 수 있다는 점에서, 특정 필드를 기반으로 검색 및 분류를 가속화하는 별도의 색인을 갖는다.
또 다른 큰 장점은 필요한 저장 용량을 줄이면서 얻어진다. 저장 공간을 줄이는 능력은 상기 색인이 이후엔 변경될 수 없기 때문에 존재한다. 이것은 개별 문서가 비트 단위로 분석되는 지능형 중복 제거 메커니즘을 통해 영향을 받는다. 동일한 비트 패턴이 인식될 때마다 이것은 데이터베이스에 저장되고, 문서의 항목으로 대체된다. 예를 들어, 전자메일이 컨테이너 파일에 재배치될 때, 이것은 관리대상인 대용량 소형 파일을 포함할 수 있다. 전자메일이 처리될 때마다, 비트 패턴의 블록 구성은 빈 줄이 삽입되면서 변할 수 있다. 이는 중복 제거 메커니즘에 의해 감지되고, 상기 파일은 명료하게 할당될 수 있다.
따라서 본 발명에 따른 방법은 대용량 아카이브의 생산 및 효율적 관리를 가능하게 한다. 특정 데이터는 3 또는 6년 후 삭제 가능함에 따라 이 방법은 미국의 요구 사항과 마찬가지로 전자서명법 및 전자서명조례의 요구 사항까지 충족한다.
다음 절차는 상기 컨테이너 내용의 중복 제거에 영향을 미치는 데 유리하게 사용된다. 특히 전자메일에서 첨부파일이 첫 번째 단계에서 전자메일 또는 참조(base64 일반 양식 사용)로부터 제거된다. 상기 첨부파일은 동시에 공간 절약 바이너리 형식으로 저장된다. 원칙적으로, 다른 모든 첨부파일 B에 대해 모든 첨부파일을 비교하는 것은 추후에 가능할 것이나, 이는 연산 시간의 기하급수적 증가를 수반한다. 관련 대용량 첨부파일과 같이 남은 것들은 이후 분리되면서 잔존하는 전자메일 및 중심부는 재배치된다.
위의 조치만으로도 다음과 같은 이점을 갖는다:
동일한 전자메일/문서는 이미 전자메일 수준 및 문서 수준에서 중복 제거 되었다.
중복된 첨부파일은 한 번만 저장된다.
Base64는 4/3의 오버헤드를 갖는다(3바이트는 대략 76문자마다의 줄 바꿈에 더해져 2바이트는 그 줄 바꿈을 위한 것으로 4문자로 저장된다). 이는 바이너리 형식으로 첨부파일을 저장하여 제거된다.
Base64가 ZIP/LZMA 등으로 이 4/3의 크기까지 쉽게 압축될 수 있지만, 각 반복 부분은 4가지의 다른 오프셋에 나타날 수 있으므로 기본 바이너리 파일은 바이너리 파일로서 base64 양식보다 더 잘 압축될 수 있다.
추가 선택적 단계는 하나 걸러서 즉, 델타만을 저장하는 델타-인코딩 첨부파일을 포함할 수 있다. 델타 구현의 유형과 표준화된 파일 형식(VCDIFF)의 예는 기존 파일의 델타로 파일 저장을 명시한 RFC 3284에서 발견된다 (예를 들면 http://www.faqs.org/rfcs/rfc3284.html과 같은 인터넷상에서 보임). 이 종류의 작업은 엄청난 시간 소모를 필요로 하기 때문에, 첨부파일 열 개의 슬라이딩 창을 서로 비교하는 것처럼 상기 첨부파일은 적절한 기준으로 바람직하게 분류된다. 다음 논의는 상기 방법의 바람직한 개별 단계에 대해 더 자세히 설명한다.
상기 항목이 컨테이너 파일 내 항목의 중복 제거를 위해 파일명으로 처음 분류되는 경우 특히 이로울 수 있으며, 연속된 항목은 이후 차이에 대해 조사된다. 이는 유사한 내용을 갖는 파일의 결합 및 특정 서브레인지의 중복 제거 통제를 가능하게 한다. 이후 당연히 일부 중복 건들이 수집되지 않을 수도 있다. 그러나, 이는 중복 제거의 측면에서 상당한 성능 이점에 의해 보완된다. 이러한 유형의 방법은 특히 해당 내용 관련 파일명을 생성하는 문서 관리 시스템에 권장된다.
특히 바람직한 실시예에서, 상기 항목의 중복 제거는 먼저 파일 유형(파일 확장) 그 다음 파일명에 의한 항목 분류에 의해 영향을 받고, 원본 폴더와 관련된 정보에 의해서도 가능하다. 항목 간 최소 차이가 압축 형식으로 동시에 저장될 수 있도록 상기 연속된 항목은 이후 차이에 대해 조사된다. 추가 정보의 관점에서, 예를 들어 정보 B의 서브레인지의 해시값(hash value)의 경우, 전자메일의 제목란 또는 수신자B가 분류 기준으로 산정 및 사용될 수 있다. 즉 원본 문서에서 정보를 삭제하는 델타가 더 작고 더 큰 부분이 델타 압축의 기존 앵커로 남기 때문에 이후 상기 항목은 크기에 따른 내림차순으로 최종 단계에서 분류되고, 이는 그 크기 때문에 다수의 중복을 포함하며 결국 전체적으로 더 효과적인 압축이 가능하다.
상기 컨테이너 파일의 중복 제거 항목에 대한 또 다른 유리한 변형은 먼저 유사성 검색을 통해 항목을 분류한 다음 연속된 항목의 차이를 조사하는 것이다. 나머지 방법과 성취된 장점은 위에서 언급된 분류 방법들과 대응하며, 유사성 검색에 근거한 분류에서 사본의 더 포괄적인 부분을 수집할 가능성이 더 높으나, 이를 이행하는 분류 비용 또한 매우 높다. 유사성 분석의 한 가지 가능한 접근법은 Dan Teodosiu, Nikolaj Bjorner, Yuri Gurevich, Mark Manasse 및 Joe Porkka의 출판물 "Optimizing File Replication over Limited-Bandwidth Networks using Remote Differential Compression"(인터넷 http://research.microsoft.com/en-us/um/people/gurevich/Opera/183.pdf에서 사용 가능)에 설명되는 방법에 의해 제공되며, 상기 방법은 매우 작은 조각으로의 비교 대상 파일 분할, 이러한 조각들의 해시값 생성 및 얻어진 상기 해시값의 비교에 근거한다. 검색 결과가 이곳에서 발견되면, 상기 파일의 내용도 유사할 것이다.
본 발명에 따른 방법의 바람직한 실시예에서, 생성된 컨테이너 파일은 수정에 대한 서명 제공에 의해 보호된다. 유효한 전자 서명의 사용은 무단 접근에 대한 컨테이너의 더 나은 보호를 제공한다. 유효한 스탬프만이 상기 전체 컨테이너에 적용될 필요가 있기 때문에 소요되는 타임 스탬프의 수는 줄어든다. 전자서명법 및 전자서명조례는 유효한 전자서명을 발급하는 데이터 처리 센터에 최저 보안-기술 기준을 부과하고 적합한 제공자들은 신중한 조사 후에만 승인되기 때문에, 유효한 전자서명 제공자는 오직 유료 서비스로서 이를 이행한다. 따라서 얻게 되는 모든 유효한 전자 서명은 비용 요소를 해당한다. 예를 들어, 만약 회사의 모든 전자메일이 아카이브 되어야 할 경우, 이는 경제적 관련 비용에 해당한다.
본 발명에 따른 또 다른 바람직한 실시예에서, 상기 컨테이너 파일은 메인 데이터베이스 아래 서브유닛으로서 관리 및 검색 기능에 대해 활성화 및 비활성화될 수 있고/있거나, 개별 아카이브로서 운영되고 사용될 수 있다. 이후 각각의 컨테이너는 개별적으로 설정되거나 해제될 수 있다. 관리자는 이를 통해 추후에 어떠한 데이터가 언제, 어떻게 사용 가능한지 결정할 수 있다. 따라서 필요한 경우, 상기 컨테이너 파일은 외부 저장 매체에 저장되거나 네트워크에 있는 특정 사람들에게 사용될 수 있다. 또한 어떤 컨테이너에 어떤 사람(들)이 접근할 수 있는지 정확하게 정의할 수 있는 권한 시스템을 설치하는 것도 가능하다.
본 발명에 따른 또 다른 바람직한 실시예에서, 색인은 재배치된 아카이브 데이터 내에 전체 텍스트 검색을 위해 추가적으로 생성되고, 컨테이너 파일 안에 저장된다. 검색에서 불필요하기 쉬운 채움 워드(fill words: 정관사 및 부정관사, 전치사, 접속사)를 제외하고, 항목은 각 단어에 대한 데이터세트 내 정밀한 위치를 포함하는 색인 안에서 만들어진다. 이후 효과적인 검색 기능은 상기 컨테이너 내 대량의 데이터 세트를 빠르게 검색하도록 한다. 장(field) 구조 지식을 추정하는 SQL(구조적 질의 언어) 질의를 사용하지 않는 것 외에, 장 독립적 검색 또한 가능하다. 따라서 모든 복잡한 검색 질의는 상기 데이터베이스에서 생성될 수 있으며, 일례로 특정 키워드를 포함하는 모든 파일은 필터링 될 수 있다.
한편, 입수한 전체 텍스트 색인으로부터 내용을 재구성할 수 있다는 문제가 있다. 이러한 이유로 인덱스와 가능한 전체 컨테이너까지 암호화하는 것이 바람직하다. 따라서 본 발명에 따른 또 다른 바람직한 실시예에서, 컨테이너 파일 및/또는 컨테이너 파일들 내 전체 텍스트 검색에 대한 상기 색인은 암호화 알고리즘에 의해 암호화될 수 있다. 알려진 암호화 알고리즘은 RSA 알고리즘, 타원형 곡선을 기반으로 한 방법과 같은 비대칭 암호화 알고리즘, 또는 DES(Data Encryption Standard)나 AES(Advanced Encryption Standard)를 사용한 암호화 방법과 같은 대칭 암호화 방법을 포함한다. 권한이 있는 사람만 데이터를 볼 수 있도록, 이러한 데이터의 암호화는 추가적인 접근 보호가 보장되도록 한다.
상기 대용량 장기 아카이브의 관리 방법은 모든 유형의 파일에 적용될 수 있다. 가능한 아카이브는 다음을 포함한다: 수신 또는 발신 시 아카이브 내에 자동으로 기록될 수 있는 전자메일을 위한 아카이브, 백업솔루션으로 작용하면서 동시에 파일의 다양한 처리 상태를 문서화시킬 수 있는 파일 아카이브(예를 들면, 음성 , 이미지 녹화, 비디오 녹화), 생성된 텍스트 및/또는 이미지 문서로 이뤄진 전자 파일링 시스템을 구성하고 일례로 상기 문서 파일 외에 프린터로 보내진 데이터로부터 문서를 생성할 수도 있는 문서 아카이브. 그 밖에, 팩스 아카이브 또는 스캔된 종이 사본의 문서 아카이브가 가능하다.

Claims (18)

  1. 다음 단계를 포함하는, 아카이브 데이터 저장 매체(archive data storage medium) 및 관리 데이터베이스(management database)로 구성된 대용량 아카이브(archive)의 생산 및 관리 방법:
    선결 특성에 근거한 아카이브 데이터를 선택하는 단계;
    상기 아카이브 데이터 저장 매체로부터 개별 아카이브 데이터 파일로 선택된 아카이브 데이터를 재배치하는 단계;
    상기 아카이브 데이터 저장 매체로부터 재배치된 아카이브 데이터를 삭제하는 단계;
    상기 관리 데이터베이스부터 개별 데이터베이스 파일까지 선택된 아카이브 데이터의 색인을 재배치하는 단계;
    상기 관리 데이터베이스로부터 재배치된 색인을 삭제하는 단계;
    상기 개별 아카이브 데이터 파일과 컨테이너 파일 내 개별 데이터베이스 파일을 결합하는 단계;
    데이터의 디코딩(decoding) 및 데이터의 비교 수행을 통해 MIME(Multipurpose Internet Mail Extensions) 데이터 스트림 내 MIME-인코딩 데이터를 보유하는 항목을 중복 제거(deduplicating)하고, 상기 컨테이너 파일의 해당 항목에 대한 링크(link)와 동일 패턴을 대체하며, MIME 데이터 스트림의 비트-단위 복원을 허용하도록 상기 컨테이너 파일에 정보를 저장하는 단계; 및
    항목(entries)의 비교를 수행함으로써 상기 컨테이너 파일 내 다른 항목을 중복 제거하고, 상기 컨테이너 파일의 해당 항목에 대한 링크와 동일 패턴을 대체하는 단계.
  2. 제 1항에 있어서,
    상기 재배치된 아카이브 데이터는 아카이브 데이터 저장 매체로부터 즉시 삭제되지 않으나, 하나 이상의 추가적 컨테이너 파일, 최초 선택 집합을 포함하는 새로운 선택 및 새로운 아카이브 데이터에 대한 부가적 특성에 근거한 선택 후 가장 먼저 재배치되고, 재배치된 모든 아카이브 데이터가 모든 재배치 작업 완료 시에만 상기 아카이브 데이터 저장 매체로부터 삭제되는 것을 특징으로 하는 대용량 아카이브의 생산 및 관리 방법.
  3. 제 2항에 있어서,
    항목은 가장 먼저 파일명으로 분류되고, 연속된 항목은 이후 상기 컨테이너 파일 내 항목의 중복 제거를 위해 차이에 대해 조사되는 것을 특징으로 하는 대용량 아카이브의 생산 및 관리 방법.
  4. 제 3항에 있어서,
    항목은 가장 먼저 유사성 검색(similarity search)으로 분류되고, 연속된 항목은 이후 상기 컨테이너 파일 내 항목의 중복 제거를 위해 차이에 대해 조사되는 것을 특징으로 하는 대용량 아카이브의 생산 및 관리 방법.
  5. 제 4항에 있어서,
    전자 서명(electronic signature)을 재배치되고 선택된 아카이브 데이터에 제공함으로써 하나 이상의 상기 재배치되고 선택된 아카이브 데이터는 수정(modification)으로부터 보호되는 것을 특징으로 하는 대용량 아카이브의 생산 및 관리 방법.
  6. 제 5항에 있어서,
    유효한 전자 서명을 재배치되고 선택된 아카이브 데이터에 제공함으로써 하나 초과의 상기 재배치되고 선택된 아카이브 데이터는 수정(modification)으로부터 보호되는 것을 특징으로 하는 대용량 아카이브의 생산 및 관리 방법.
  7. 제 6항에 있어서,
    전자 서명을 생성된 컨테이너 파일에 제공함으로써 상기 생성된 컨테이너 파일은 수정(modification)으로부터 보호되는 것을 특징으로 하는 대용량 아카이브의 생산 및 관리 방법.
  8. 제 7항에 있어서,
    유효한 전자 서명을 상기 생성된 컨테이너 파일에 제공함으로써 상기 생성된 컨테이너 파일은 수정(modification)으로부터 보호되는 것을 특징으로 하는 대용량 아카이브의 생산 및 관리 방법.
  9. 제 8항에 있어서,
    상기 컨테이너 파일은 메인 데이터베이스 아래 서브유닛으로서 관리와 검색 기능에 대해 활성화 및 비활성화될 수 있고/있거나 개별 아카이브로서 운영되고 사용될 수 있는 것을 특징으로 하는 대용량 아카이브의 생산 및 관리 방법.
  10. 제 9항에 있어서,
    추가적으로, 재배치된 상기 아카이브 데이터 내에서 전체 텍스트 검색을 위한 색인은 상기 컨테이너 파일 안에 생성되고 저장될 수 있는 것을 특징으로 하는 대용량 아카이브의 생산 및 관리 방법.
  11. 제 10항에 있어서,
    상기 컨테이너 파일 및/또는 컨테이너 파일들 안의 전체 텍스트 검색을 위한 상기 색인은 암호 알고리즘(cryptographic algorithm) 수단에 의해 암호화될 수 있는 것을 특징으로 하는 대용량 아카이브의 생산 및 관리 방법.
  12. 제 11항에 있어서,
    상기 아카이브 데이터는 전자메일, 음성 기록, 이미지 기록, 비디오 기록, 스캔된 문서, 프린트 파일 및/또는 파일을 포함하는 것을 특징으로 하는 대용량 아카이브의 생산 및 관리 방법.
  13. 제 12항에 있어서,
    추가적으로, 관리 테이블(administrative table)은 상기 컨테이너 파일에 저장되고, 상기 테이블은 상기 아카이브 데이터가 전자메일과 관련된 경우 상기 전자메일 주소에 대한 사용자 ID의 할당을 포함하는 것을 특징으로 하는 대용량 아카이브의 생산 및 관리 방법.
  14. 제 13항에 있어서,
    첨부파일은 가장 먼저 파일명으로 분류되고, 연속된 항목은 이후 MIME-인코딩 첨부파일의 중복 제거에 영향을 미치도록 차이에 대해 조사되는 것을 특징으로 하는 대용량 아카이브의 생산 및 관리 방법.
  15. 제 14항에 있어서,
    첨부파일은 가장 먼저 유사성 검색으로 분류되고, 연속된 항목은 이후 MIME-인코딩 첨부파일의 중복 제거에 영향을 미치도록 차이에 대해 조사되는 것을 특징으로 하는 대용량 아카이브의 생산 및 관리 방법.
  16. 아카이브 데이터 저장 매체 및 관리 데이터베이스로 구성된 장기 아카이브로서,
    제 1항 내지 제 15항의 방법 중 어느 하나의 방법에 따라 생성되는 장기(long-term) 아카이브.
  17. 삭제
  18. 삭제
KR1020127026506A 2010-03-12 2011-03-10 대용량 장기 아카이브의 생산 및 관리 방법 KR101512760B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102010011344.1A DE102010011344B4 (de) 2010-03-12 2010-03-12 Verfahren zur Herstellung und Verwaltung eines großvolumigen Langzeitarchivs
DE102010011344.1 2010-03-12
PCT/EP2011/053637 WO2011110639A2 (de) 2010-03-12 2011-03-10 VERFAHREN ZUR HERSTELLUNG UND VERWALTUNG EINES GROßVOLUMIGEN LANGZEITARCHIVS

Publications (2)

Publication Number Publication Date
KR20120140668A KR20120140668A (ko) 2012-12-31
KR101512760B1 true KR101512760B1 (ko) 2015-04-16

Family

ID=43924093

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127026506A KR101512760B1 (ko) 2010-03-12 2011-03-10 대용량 장기 아카이브의 생산 및 관리 방법

Country Status (5)

Country Link
US (1) US8768897B2 (ko)
EP (1) EP2545464B1 (ko)
KR (1) KR101512760B1 (ko)
DE (1) DE102010011344B4 (ko)
WO (1) WO2011110639A2 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104714819B (zh) * 2013-12-16 2019-11-15 中兴通讯股份有限公司 文件系统升级包制作方法、升级方法及装置、终端
JP6197816B2 (ja) * 2015-03-24 2017-09-20 日本電気株式会社 ストレージシステム、ストレージの管理方法、及び、コンピュータ・プログラム
KR101656750B1 (ko) * 2016-02-26 2016-09-23 주식회사 아미크 인덱스정보를 생성하는 데이터베이스의 아카이빙 방법 및 장치, 인덱스정보를 포함하는 아카이빙된 데이터베이스의 검색 방법 및 장치
US10324624B2 (en) 2017-06-26 2019-06-18 Entit Software Llc Decommissioning of source storages
JP7387116B2 (ja) * 2020-01-06 2023-11-28 アーミク カンパニー,リミテッド データの送信および照会時の費用を最小化するためのデータアーカイビング方法およびシステム
KR102559290B1 (ko) * 2020-01-06 2023-07-26 주식회사 아미크 하이브리드 클라우드 기반의 실시간 데이터 아카이빙 방법 및 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070050333A1 (en) * 2005-08-31 2007-03-01 Sap Ag Archive indexing engine
US20080301134A1 (en) * 2007-05-31 2008-12-04 Miller Steven C System and method for accelerating anchor point detection

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003300906A1 (en) * 2003-01-02 2004-07-29 Cricket Technologies Llc Electronic archive filter and profiling apparatus, system, method, and electronically stored computer program product
US7251680B2 (en) * 2003-10-31 2007-07-31 Veritas Operating Corporation Single instance backup of email message attachments
US7519835B2 (en) * 2004-05-20 2009-04-14 Safenet, Inc. Encrypted table indexes and searching encrypted tables
US20080282355A1 (en) * 2007-05-12 2008-11-13 Nemazi John E Document container data structure and methods thereof
US8694466B2 (en) * 2008-10-07 2014-04-08 Dell Products L.P. Object deduplication and application aware snapshots

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070050333A1 (en) * 2005-08-31 2007-03-01 Sap Ag Archive indexing engine
US20080301134A1 (en) * 2007-05-31 2008-12-04 Miller Steven C System and method for accelerating anchor point detection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DOUGLIS, F et al. "Application-specific delta encoding via resemblance detection", Proceedings of the Usenix annual technical conference, 9 June 2003.

Also Published As

Publication number Publication date
WO2011110639A2 (de) 2011-09-15
US8768897B2 (en) 2014-07-01
US20120330905A1 (en) 2012-12-27
EP2545464A2 (de) 2013-01-16
WO2011110639A3 (de) 2012-04-19
DE102010011344B4 (de) 2015-08-27
DE102010011344A1 (de) 2011-09-15
EP2545464B1 (de) 2019-07-31
KR20120140668A (ko) 2012-12-31

Similar Documents

Publication Publication Date Title
US11016859B2 (en) De-duplication systems and methods for application-specific data
US10158483B1 (en) Systems and methods for efficiently and securely storing data in a distributed data storage system
US9984006B2 (en) Data storage systems and methods
US8127149B1 (en) Method and apparatus for content based encryption
US8375008B1 (en) Method and system for enterprise-wide retention of digital or electronic data
KR101512760B1 (ko) 대용량 장기 아카이브의 생산 및 관리 방법
US8140786B2 (en) Systems and methods for creating copies of data, such as archive copies
US8683228B2 (en) System and method for WORM data storage
Anderson et al. Fast and secure laptop backups with encrypted de-duplication
US9236079B2 (en) System and method for storing redundant information
US9098495B2 (en) Application-aware and remote single instance data management
US8219524B2 (en) Application-aware and remote single instance data management
US20080033905A1 (en) System and Method for the Capture and Archival of Electronic Communications
EP2102751B1 (en) System and method for storing redundant information
US20140052689A1 (en) Applying an action on a data item according to a classification and a data management policy
JP2009181590A (ja) 選択的データバックアップ
JP2008097484A (ja) ログ管理システムおよびフォレンジック調査方法
WO2015166052A1 (en) Data acquistion
JP2007316707A (ja) データベースの削除データ管理システム及び方法
Prabavathy et al. Optimized private cloud storage for heterogeneous files in an university scenario

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180502

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190409

Year of fee payment: 5