KR100979750B1

KR100979750B1 - 분산 저장 시스템에서 파일을 관리하는 장치 및 방법

Info

Publication number: KR100979750B1
Application number: KR1020090106949A
Authority: KR
Inventors: 김경수; 천재범; 김주현; 신봉식; 진봉주; 김형철; 김영규; 최선; 이구용
Original assignee: (주)피스페이스; 김경수; 천재범; 김주현; 신봉식; 진봉주; 김형철; 김영규; 최선; 이구용
Priority date: 2009-11-06
Filing date: 2009-11-06
Publication date: 2010-09-03
Also published as: US20120197845A1; WO2011056002A2; CN102713878A; WO2011056002A3; WO2011056002A9

Abstract

본 발명은 분산 저장 시스템에서 파일을 관리하는 장치 및 방법에 관한 것이다.

본 발명에 따른 분산 저장 시스템에서의 파일 관리 장치 및 방법은, 현재 시각과 파일의 생성 시각, 수정 시각, 최근 조회 시각 중 적어도 하나에 기초하여 파일의 유지 시간을 계산하고, 상기 파일의 유지 시간이 기 설정된 기준 시간보다 큰 경우 해당 파일을 아카이브 파일(archived file)로 선정하며, 상기 아카이브 파일로 선정된 파일의 원본 및 복사본의 일부 또는 전부를 액티브 서버에서 아카이브 서버로 또는 액티브 디스크에서 아카이브 디스크로 백업(backup)하는 것을 특징으로 한다. 그리고, 상기 아카이브 파일로 선정된 파일에 대한 집계 기간 동안 조회수가 소정 임계값 이상이거나 파일의 수정/변경이 있는 경우 해당 파일의 원본 및 복사본의 일부 또는 전부를 아카이브 서버에서 액티브 서버로 또는 아카이브 디스크에서 액티브 디스크로 다시 복구(restore)하는 것을 특징으로 한다.

Description

분산 저장 시스템에서 파일을 관리하는 장치 및 방법 {Apparatus and method for managing file in distributed storage system}

본 발명은 분산 저장 시스템(DSS; Distributed Storage System)에서 파일을 관리하는 장치 및 방법에 관한 것으로, 보다 상세하게는 분산 저장 시스템에서 파일의 노후 정도, 접속 회수, 수정 여부 등을 종합적으로 고려하여 액티브 파일(active file)과 아카이브 파일(archived file)의 전환을 자동적으로 수행하는 파일 관리 장치 및 방법에 관한 것이다.
참고로, 본 발명은 지식경제부 및 정보통신산업진흥원의 지원을 받아 수행된 연구결과이다(A1200-0901-0046; 고성능-고확장성-고가용성 병렬 저장시스템 개발).

분산 저장 시스템(Distributed Storage System) 또는 병렬 저장 시스템(Parallel Storage System)은 여러 대의 저장 장치를 1대의 저장 장치로 가상화시킨 저장 시스템이다. 이러한 분산 저장 시스템에서는 1개의 파일을 저장할 때 1대의 저장 장치에 저장하지 않고 가상화되어 있는 여러 대의 저장 장치에 나누어 저장하고 사용한다.

기존의 RAID(Redundant Array of Inexpensive Devices) 저장 장치가 여러 개의 하드 디스크를 하나의 저장 장치로 통합하면서 더 크고, 더 빠르고, 더 안정적인 저장 장치로 구성하듯이, 분산 저장 시스템도 여러 대의 저장 장치를 1대의 저 장 장치로 구성하여 더 크고, 더 빠르고, 더 안정적인 저장 시스템 기능을 제공 할 수 있다.

이러한 분산 저장 시스템 기술은 클라우드 컴퓨팅(Cloud Computing) 등에서 핵심적인 기술로 이용되며, 분산 저장 시스템을 구성하는 저장 장치의 수량이 증가하면 증가할수록 용량과 성능도 비례하여 증가하고 전체 소유 비용(Total Cost of Owner-ship)의 비용 대비 효과를 극대화시켜 주기 때문에, 기존의 저장 시스템이 제공하지 못하는 높은 수준의 성능과 확장성을 제공할 수 있다.

이와 관련하여, 도 1은 종래기술에 따른 분산 저장 시스템의 구성을 예시한 것이다.

도 1을 참고하면, 일반적으로 분산 저장 시스템은 각각의 파일을 여러 개로 나누어 분산 저장하는 복수개의 저장 서버(이는 가상적인 하나의 저장 서버에 해당됨)(110)와 이들 파일에 대한 메타데이터를 생성하여 관리하는 메타데이터 서버(120) 등으로 구성되며, 적어도 하나의 클라이언트(130)가 네트워크 등을 통해 소정 파일의 입/출력을 요청하면 메타데이터 서버(120)가 해당 파일이 분산 저장될/저장되어 있는 저장 서버들(110)의 정보를 제공하고 이에 클라이언트(130)가 이들 저장 서버(110)에 접속하여 해당 파일의 입/출력을 수행함으로써 서비스가 이루어진다. (참고로, 본 발명에서 '파일'이라는 용어는 클라이언트에 의해 조회 또는 요청되는 내용을 의미하는 것으로, 이는 파일, 데이터, 컨텐츠, 청크(chunk) 등을 포함하는 의미이다.)

한편, 이러한 분산 저장 시스템에서는 파일들을 효율적으로 보관하기 위하여 복수개의 저장 서버(110)를 액티브 서버(active server)(111)와 아카이브 서버(archive server)(112)로 구분하고, 상대적으로 노후화된 파일(데이터, 컨텐츠)을 다소 성능이 떨어지는 아카이브 서버(112)에 보관함으로써 한정된 저장 매체를 효율적으로 이용한다.

그러나, 종래기술에 따른 파일 관리 방법은 파일(데이터, 컨텐츠)을 단순히 노후 정도(age)에만 의존하여 액티브 파일(active file)과 아카이브 파일(archived file)로 구분하고, 노후화된 아카이브 파일을 상대적으로 성능이 떨어지는 아카이브 서버(112)에 백업(backup)하는 방식을 사용하였기 때문에, 비록 생성된 지는 오래되었지만 클라이언트에 의해 꾸준하게 자주 요청되는 파일까지 아카이브 서버에 저장되어 시스템 성능이 떨어지는 문제점이 있었다.

즉, 종래기술에서는 파일의 현재 접속 회수나 수정 여부 등을 전혀 고려하지 않은 채 단지 노후 정도에 따라서만 아카이브 파일을 선정하였기 때문에 클라이언트에 의해 꾸준하게 자주 요청되는 파일까지 아카이브 서버에 저장되는 문제점이 있었으며, 또한 일단 아카이브 파일로 선정되어 아카이브 서버로 이동된 이후에는 추후 클라이언트에 의해 자주 조회되더라도 액티브 파일로 자동 복구되지 않아 전체 시스템의 성능과 효율이 저하되는 문제점이 있었다.

본 발명은 전술한 바와 같은 문제점을 해결하기 위해 창안된 것으로, 본 발명의 목적은 분산 저장 시스템에서 효율적인 파일(데이터, 컨텐츠) 관리와 경제적인 디스크 관리를 수행할 수 있는 파일 관리 장치 및 방법을 제공하는 것이다.

본 발명의 다른 목적은, 분산 저장 시스템에서 파일의 노후 정도 외에도 접속 회수와 수정 여부 등을 종합적으로 고려하여 액티브 파일과 아카이브 파일의 전환을 자동적으로 수행하는 파일 관리 장치 및 방법을 제공하는 것이다.

본 발명의 또 다른 목적은, 분산 저장 시스템에서 주기적으로 파일을 백업(backup)해 두었다가 임의의 파일의 조회수가 증가하여 일정 수준을 초과하거나 파일의 내용이 수정/변경되면 자동으로 복구(restore)하여 파일을 효율적으로 관리하는 파일 관리 장치 및 방법을 제공하는 것이다.

본 발명의 또 다른 목적은, 분산 저장 시스템에서 D2D(Disk to Disk) 레벨의 ILM(Information Lifecycle Management)를 효율적으로 구현할 수 있는 파일 관리 장치 및 방법에 관한 것이다.

본 발명의 또 다른 목적은, 전술한 바와 같은 파일 관리 장치 및 방법을 효율적으로 이용하는 분산 저장 시스템을 제공하는 것이다.

상기 목적을 위하여, 본 발명의 일 형태에 따른 분산 저장 시스템에서의 파일 관리 장치는, 현재 시각에서 파일의 생성 시각 또는 수정 시각을 감산한 제1 유지 시간 및 현재 시각에서 파일의 최근 조회 시각을 감산한 제2 유지 시간을 계산하는 유지 시간 산출부; 상기 파일의 제1 유지 시간이 기 설정된 기준 시간보다 큰 경우 해당 파일을 아카이브 파일(archived file)로 선정하는 파일 선정부; 및 상기 아카이브 파일로 선정된 파일의 원본 및 복사본의 일부 또는 전부를 액티브 서버(active server)에서 아카이브 서버(archive server)로 또는 액티브 디스크(active disk)에서 아카이브 디스크(archive disk)로 리로케이션(relocation)하는 파일 관리부를 포함하고, 상기 파일 관리부는 상기 제1 유지 시간이 상기 기준 시간보다 크고 상기 제2 유지 시간이 상기 기준 시간보다 작은 경우 해당 아카이브 파일의 원본 및 복사본의 일부를 액티브 서버에서 아카이브 서버로 또는 액티브 디스크에서 아카이브 디스크로 리로케이션하는 것을 특징으로 한다.

그리고, 본 발명의 일 형태에 따른 분산 저장 시스템은, 파일을 분산 저장하기 위한 액티브 서버(active server)와 아카이브 서버(archive server)를 포함하는 복수개의 저장 서버; 및 상기 파일에 대한 메타데이터를 관리하는 메타데이터 서버를 포함하고, 상기 메타데이터 서버는 현재 시각에서 파일의 생성 시각 또는 수정 시각을 감산한 제1 유지 시간 및 현재 시각에서 파일의 최근 조회 시각을 감산한 제2 유지 시간을 계산하고, 상기 제1 유지 시간이 기 설정된 기준 시간보다 크고 상기 제2 유지 시간이 상기 기준 시간보다 작은 경우 해당 파일의 원본 및 복사본의 일부를 액티브 서버에서 아카이브 서버로 리로케이션(relocation)하는 것을 특징으로 한다.

또한, 본 발명의 다른 형태에 따른 분산 저장 시스템은, 파일을 분산 저장하기 위한 액티브 디스크(active disk)와 아카이브 디스크(archive disk)를 포함하는 적어도 하나의 저장 서버; 및 상기 파일에 대한 메타데이터를 관리하는 메타데이터 서버를 포함하고, 상기 메타데이터 서버는 현재 시각에서 파일의 생성 시각 또는 수정 시각을 감산한 제1 유지 시간 및 현재 시각에서 파일의 최근 조회 시각을 감산한 제2 유지 시간을 계산하고, 상기 제1 유지 시간이 상기 기준 시간보다 크고 상기 제2 유지 시간이 상기 기준 시간보다 작은 경우 해당 파일의 원본 및 복사본의 일부를 액티브 디스크에서 아카이브 디스크로 리로케이션(relocation)하는 것을 특징으로 한다.

한편, 본 발명의 일 형태에 따른 분산 저장 시스템에서의 파일 관리 방법은, 현재 시각에서 파일의 생성 시각 또는 수정 시각을 감산한 제1 유지 시간 및 현재 시각에서 파일의 최근 조회 시각을 감산한 제2 유지 시간을 계산하는 단계; 상기 파일의 제1 유지 시간이 기 설정된 기준 시간보다 큰 경우 해당 파일을 아카이브 파일(archived file)로 선정하는 단계; 및 상기 아카이브 파일로 선정된 파일의 원본 및 복사본의 일부 또는 전부를 액티브 서버에서 아카이브 서버로 또는 액티브 디스크에서 아카이브 디스크로 리로케이션(relocation)하는 단계를 포함하고, 상기 리로케이션하는 단계는 상기 제1 유지 시간이 상기 기준 시간보다 크고 상기 제2 유지 시간이 상기 기준 시간보다 작은 경우 해당 아카이브 파일의 원본 및 복사본의 일부를 액티브 서버에서 아카이브 서버로 또는 액티브 디스크에서 아카이브 디스크로 리로케이션하는 것을 특징으로 한다.

본 발명에 따르면, 분산 저장 시스템에서 파일의 노후 정도(age) 외에도 접속 회수와 수정 여부 등을 종합적으로 고려하여 액티브 파일과 아카이브 파일의 전환을 자동적으로 수행함으로써, 효율적인 파일 관리와 경제적인 디스크 관리를 할 수 있으며 이에 따라 시스템 성능과 효율을 향상시킬 수 있는 효과를 가진다.

그리고, 본 발명에 따르면, 분산 저장 시스템에서 아카이브 파일로 백업된 임의의 파일의 조회수가 증가하여 일정 수준을 초과하거나 파일의 수정/변경이 있으면 자동으로 복구(restore)함으로써, 효율적인 백업/복구 시스템을 구축할 수 있는 효과를 가진다.

또한, 본 발명에 따르면, 분산 저장 시스템에서 D2D(Disk to Disk) 레벨의 ILM(Information Lifecycle Management)를 효율적으로 구현함으로써, 오래되고 활용도가 떨어지는 파일을 저비용의 디스크로 이동시켜 전체 시스템의 비용을 절감하는 효과를 가진다.

이하에서는 첨부 도면 및 바람직한 실시예를 참조하여 본 발명을 상세히 설명한다. 참고로, 하기 설명에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.

본 발명에 대한 구체적인 설명에 앞서, ILM(Information Lifecycle Management)에 관하여 간단히 설명한다.

일반적으로 정보(파일, 데이터, 컨텐츠 등)는 생성, 사용, 장기 보관, 삭제 등의 라이프사이클(lifecycle)을 지니고 있다. ILM은 이러한 정보의 라이프사이클을 고려하여(즉, 어떠한 정보가 어떠한 사이클에 있는가를 고려하여) 그 상황에 맞게 관리하는 것이다. 즉, ILM은 정보의 가치 변화에 따라 각각 최적의 스토리지(storage)를 사용함으로써 점차 늘어가고 있는 데이터를 효과적으로 관리하는 것이다.

예를 들어, 막 생성된 직후의 파일은 대부분 활발히 사용되며, 수정이나 조회 등의 작업이 빈번하게 발생된다. 그러므로, 이러한 파일들은 손쉽게 접근할 수 있도록 대역폭을 넓히고, 복사본의 개수를 증가시키고, 성능이 좋은 저장 매체에 저장하는 것이 바람직하다. 이에 비해, 노후화된 정보들은 조회 수도 작아지고 수정 작업도 거의 없게 된다. 따라서, 이러한 파일들은 대역폭이 클 필요가 없으며 상대적으로 성능이 떨어지는 대용량의 저장 매체에 저장하는 것이 바람직하다.

이와 같이, 임의의 정보(파일, 데이터, 컨텐츠 등)가 활용도가 떨어지면 액티브 디스크(active disk)에서 아카이브 디스크(archive disk)로 이동시켜 저장 시스템의 비용 절감을 도모하는데, 이러한 방식을 D2D(Disk to Disk) 백업(backup)이라고 한다. 그리고, 본 발명은 이러한 D2D(Disk to Disk) 레벨에서 보다 효율적인 ILM를 구현 방안을 제시하며, 특히 단순히 파일의 노후 정도(age)만 고려하는 종래의 백업 방식의 한계를 극복하고 접속 회수, 수정 여부 등을 종합적으로 고려하는 효율적인 파일 관리 방안을 제시한다.

도 2는 본 발명의 일 실시예에 따른 분산 저장 시스템의 구성을 예시한 것이다.

도 2를 참고하면, 본 발명의 일 실시예에 따른 분산 저장 시스템은 액티브 서버(active server)(211)와 아카이브 서버(archive server)(212)를 포함하는 복수개의 저장 서버(210), 상기 복수개의 저장 서버(210)에 저장되는 파일에 대한 메타데이터를 생성하여 관리하는 메타데이터 서버(220), 그리고 상기 파일에 대해 액티브 파일(active file)과 아카이브 파일(archived file)을 선정하여 관리하는 파일 관리 장치(240) 등으로 구성된다. 여기서, 액티브 서버(211)는 복수개의 저장 서버(210) 중 상대적으로 고속의 저장 서버로 구현하고, 아카이브 서버(212)는 복수개의 저장 서버(210) 중 상대적으로 저속이며 대용량의 서버로 구현하는 것이 바람직하다. 그리고, 상기 파일 관리 장치(240)는 아카이브 파일로 선정된 파일의 원본 및 복사본의 일부 또는 전부를 액티브 서버에서 아카이브 서버로 백업(backup)(또는 리로케이션(relocation))함으로써, 효율적인 파일 관리와 경제적인 디스크 관리를 수행하여 전체 시스템 성능을 향상시킨다.

그리고, 도 3은 본 발명의 다른 실시예에 따른 분산 저장 시스템의 구성을 예시한 것이다.

도 3을 참고하면, 본 발명의 다른 실시예에 따른 분산 저장 시스템은 액티브 서버(311)와 아카이브 서버(312)를 포함하는 복수개의 저장 서버(310)와, 상기 복수개의 저장 서버(310)에 저장되는 파일에 대한 메타데이터를 생성하여 관리하는 메타데이터 서버(320) 등으로 구성되며, 특히 상기 메타데이터 서버(320)는 본 발명에 따른 파일 관리 장치의 기능을 포함함으로써, 아카이브 파일로 선정된 파일의 원본 및 복사본의 일부 또는 전부를 액티브 서버에서 아카이브 서버로 백업(backup)(또는 리로케이션(relocation))하여, 효율적인 파일 관리와 경제적인 디스크 관리를 수행한다.

부언하면, 본 발명에 따른 파일 관리 장치는 분산 저장 시스템에서 별도의 장치 또는 서버로 구성되거나(도 2 참조), 메타데이터 서버 자체 또는 일부로 구성되어(도 3 참조), 아카이브 파일로 선정된 파일의 원본 및 복사본의 일부 또는 전부를 고속의 액티브 서버에서 저속의 아카이브 서버로 백업하여 보관함으로써, 한정된 저장 매체를 효율적으로 활용하여 시스템 성능을 향상시킨다.

한편, 비록 도시하지는 않았지만, 본 발명의 또 다른 형태에 따른 분산 저장 시스템에서는 파일을 분산 저장하기 위한 저장 서버가 액티브 서버와 아카이브 서버로 구분되지 않고 각각의 저장 서버가 액티브 디스크 및/또는 아카이브 디스크를 포함하도록 구현될 수도 있다. 도 4는 이를 나타낸 것으로, 하나의 저장 서버(410)가 복수개의 액티브 디스크(411)와 아카이브 디스크(412)를 포함하는 구조를 도시한다. 이 경우, 본 발명에 따른 파일 관리 장치는 아카이브 파일로 선정된 파일의 원본 및 복사본의 일부 또는 전부를 액티브 디스크에서 아카이브 디스크로 백업하여 보관하는데, 이는 하나의 저장 서버 내의 액티브 디스크에서 아카이브 디스크로 백업되거나 또는 제1 저장 서버의 액티브 디스크에서 제2 저장 서버의 아카이브 디스크로 백업되도록 구현될 수 있다.

이와 관련하여, 도 5는 본 발명의 일 실시예에 따른 파일 관리 장치의 상세 구성을 예시한 것으로, 도시된 바와 같이, 본 발명의 일 실시예에 따른 파일 관리 장치(240)는 유지 시간 산출부(241), 파일 선정부(242), 파일 관리부(243) 등을 포함하며, 이는 특히 도 2에 예시된 분산 저장 시스템에서 유용하게 적용될 수 있다.

그리고, 도 6은 본 발명의 다른 실시예에 따른 파일 관리 장치(320)의 상세 구성을 예시한 것으로, 도시된 바와 같이, 본 발명의 다른 실시예에 따른 파일 관리 장치(320)는 유지 시간 산출부(321), 파일 선정부(322), 파일 관리부(323), 메타데이터 관리부(324), 저장 장치 관리부(325) 등을 포함하며, 이는 특히 도 3에 예시된 분산 저장 시스템에서 유용하게 적용될 수 있다.

한편, 도 7은 본 발명의 일 실시예에 따른 분산 저장 시스템에서의 파일 관리 방법의 흐름도를 나타낸 것으로, 구체적으로는 현재 시각과 파일의 생성 시각, 수정 시각, 최근 조회 시각 등에 기초하여 파일의 제1 및 제2 유지 시간을 계산하 고, 제1 및 제2 유지 시간에 따라 아카이브 파일을 선정하여 해당 파일의 원본 및 복사본의 일부 또는 전부를 액티브 서버에서 아카이브 서버로 또는 액티브 디스크에서 아카이브 디스크로 백업하는 것을 나타낸 것이다.

그리고, 도 8은 본 발명의 다른 실시예에 따른 분산 저장 시스템에서의 파일 관리 방법의 흐름도를 나타낸 것으로, 구체적으로는 아카이브 파일로 선정된 파일에 대해 집계 기간 동안 조회수가 소정의 임계값 이상인 경우 해당 파일을 아카이브 서버에서 액티브 서버로 또는 아카이브 디스크에서 액티브 디스크로 다시 복구하는 것을 나타낸 것이다.

이하에서는 도 2 내지 도 9를 참조하여 본 발명에 따른 분산 저장 시스템에서의 파일 관리 장치 및 방법에 대해 상세 설명한다. 참고로, 하기 설명에서는 본 발명의 실시 형태가 다소 상이하더라도 실질적으로 동일하거나 유사한 구성 또는 기능에 대하여는 이를 구별하지 않고 함께 설명한다.

먼저, 도 5 및 도 6을 참조하면, 본 발명에 따른 파일 관리 장치에 있어 유지 시간 산출부(241, 321)는 현재 시각과 파일의 생성 시각, 수정 시각, 최근 조회 시각 등에 기초하여 파일의 유지 시간을 계산한다(도 7의 단계 S710 참조).

예컨대, 유지 시간 산출부(241, 321)는 정보가 생성 또는 수정된 시점을 고려하기 위해 현재 시각에서 파일의 생성 시각 또는 수정 시각을 감산하여 제1 유지 시간을 계산하도록 구현될 수 있으며, 정보가 마지막으로 조회된 시점을 고려하기 위해 현재 시각에서 파일의 최근 조회 시각을 감산하여 제2 유지 시간을 계산하도 록 구현될 수도 있다.

참고로, 본 발명에서는 파일의 유지 시간을 계산하기 위해 현재 시각에서 감산되는 파일의 생성 시각, 수정 시각, 최근 조회 시각 등을 데이터 시각이라 하며, 이는 사용자 또는 관리자가 설정할 수 있도록 구현될 수 있다. 이 경우, 파일의 유지 시간은 하기 수학식 1과 같이 정의될 수 있다.

[수학식 1]

파일의 유지 시간 = 현재 시각 - 데이터 시각

그리고, 본 발명에 따른 파일 관리 장치에 있어 파일 선정부(242, 322)는 전술한 바와 같이 계산된 파일의 유지 시간을 기 설정된 기준 시간과 비교하여 액티브 파일과 아카이브 파일을 선정한다.

구체적으로, 파일 선정부(242, 322)는 현재 시각에서 파일의 생성 시각 또는 최근 수정 시각을 감산하여 얻은 제1 유지 시간을 기준 시간과 비교하고(도 7의 단계 S720 참조), 만약 제1 유지 시간이 기준 시간보다 큰 경우 해당 파일을 아카이브 파일(archived file)로 선정한다(도 7의 단계 S730 참조).

또한, 파일 선정부(242, 322)는 현재 시각에서 파일의 최근 조회 시각을 감산하여 얻은 제2 유지 시간을 기준 시간과 비교할 수 있으며(도 7의 단계 S740 참조), 그 결과를 파일 관리부(243, 323)로 전송한다.

그러면, 본 발명에 따른 파일 관리 장치에 있어 파일 관리부(243, 323)는 파일 선정부(242, 322)에서의 선정 결과에 따라서 아카이브 파일로 선정된 파일의 원 본 및 복사본의 일부 또는 전부를 액티브 서버(active server)에서 아카이브 서버(archive server)로 또는 액티브 디스크(active disk)에서 아카이브 디스크(archive disk)로 백업(backup)한다.

이 경우, 파일 관리부(243, 323)는 제1 유지 시간이 기준 시간보다 크고 제2 유지 시간이 기준 시간보다 작은 경우 아카이브 파일로 선정된 파일의 원본 및 복사본의 일부를 액티브 서버에서 아카이브 서버로 또는 액티브 디스크에서 아카이브 디스크로 백업하고(1단계 백업)(도 7의 단계 S750 참조), 제1 유지 시간 및 제2 유지 시간이 기준 시간보다 큰 경우 아카이브 파일로 선정된 파일의 원본 및 복사본 전부를 액티브 서버에서 아카이브 서버로 또는 액티브 디스크에서 아카이브 디스크로 백업한다(2단계 백업)(도 7의 단계 S750 참조). 즉, 본 발명의 바람직한 실시예에 따르면, 파일의 생성 또는 수정 시간뿐만 아니라 파일의 최근 조회 시간도 함께 고려하여, 아카이브 파일로 선정된 파일(원본 및 복사본)의 일부를 먼저 백업하고 추후 전부를 백업하는 2단계 백업을 수행한다.

한편, 이와 같은 여러 단계의 백업은 사용자(관리자)의 설정에 의해서 또는 자동으로 수행될 수 있으며, 이 경우 파일의 일부를 백업하는 1단계 백업은 예컨대 하기 수학식 2와 같이 그 백업되는 수(N)가 설정될 수 있다.

[수학식 2]

N = N_total*(offset_time_1/t_max)

여기서, N_total 은 해당 파일의 원본 및 복사본 총 개수, offset_time_1 은 제1 유지 시간에서 기준 시간을 감산한 값, t_max 는 제2 유지 시간에서 기준 시간을 감산한 값이 0일 때의 offset_time_1 의 값이다.

그리고, 이와 같이 구현하는 경우에는, 유지 시간 산출부(241, 321)에서 미리 하기 수학식 3과 같이 오프셋 시간(offset_time)을 계산하고, 파일 선정부(242, 322)에서는 오프셋 시간이 양(+)인지 음(-)인지 판단하여 액티브 파일과 아카이브 파일을 선정하도록 구현될 수도 있다.

[수학식 3]

오프셋 시간 = (현재 시각 - 데이터 시각) - 기준 시간

전술한 바와 같이, 본 발명에서 2단계에 걸쳐 백업하는 이유는, 첫 번째 경우(도 7의 단계 S750 참조)는 완전한 백업에 도달하기 전의 상태라고 판단되는 경우이며, 이 시기에는 해당 파일이 다시 사용될 확률이 어느 정도 존재하기 때문에 파일(원본 및 복사본) 중 일부는 성능이 좋은 액티브 서버에 남겨 두어 클라이언트로부터의 조회에 대비한다.

또한, 본 발명의 바람직한 실시예에 따르면, 파일 관리부(243, 323)는 아카이브 파일로 선정된 파일의 원본 및 복사본의 일부 또는 전부를 백업하는 경우 이를 파일 단위 또는 청크(chunk) 단위로 백업하도록 구현될 수 있다.

한편, 이와 같이 아카이브 파일이 선정되어 해당 파일의 원본 및 복사본의 일부 또는 전부가 아카이브 서버 또는 아카이브 디스크로 백업(backup)(또는 리로케이션(relocation))되더라도, 이를 계속적으로 관리하여 다시 조회수가 많아지게 되면 백업된 파일(원본 및 복사본)의 일부 또는 전부를 액티브 서버 또는 액티브 디스크로 복구(restore)시킨다.

구체적으로, 파일 선정부(242, 322)는 아카이브 파일로 선정된 파일에 대해 소정의 집계 기간 동안의 조회수를 지속적으로 관찰하고(도 8의 단계 S810 참조), 집계 기간 동안의 조회수를 소정의 임계값과 비교하여(도 8의 단계 S820 참조), 만약 집계된 조회수가 임계값 이상인 경우 해당 파일을 액티브 파일로 선정하고 아카이브 서버에서 액티브 서버로 또는 아카이브 디스크에서 액티브 디스크로 다시 복구한다(도 8의 단계 S830 참조). 또한, 파일 선정부(242, 322)는 아카이브 파일로 선정된 파일에 대해 수정이 발생한 경우, 해당 파일을 액티브 파일로 선정하고 아카이브 서버에서 액티브 서버로 또는 아카이브 디스크에서 액티브 디스크로 복구할 수 있다.

참고로, 도 9는 본 발명에 적용될 수 있는 세션 액세스 플래그(session access flag)를 이용한 조회수 집계 방식을 예시하는 도면이다. 도 9에 예시된 조회수 집계 방식은 2의 지수승의 세션에 해당하는 길이로 집계 기간을 설정하고, 집계 기간에 해당하는 전체 세션에 대한 조회수와 최근의 새로운 세션에 대한 조회수 및 세션 액세스 플래그(session access flag)를 이용하여 메모리 사용량과 연산량을 효과적으로 줄이는 방식이다.

즉, 도 9의 (b)의 경우, 현재(n 번째)의 집계 기간 동안의 조회수 계산은 이 전(n-1 번째)의 집계 기간 동안의 조회수[38]에서 가장 오래된 세션에 해당하는 조회수를 감산하고 새로운 세션 동안의 조회수[5]를 가산하는데, 이 경우 가장 오래된 세션에 해당하는 조회수는 메모리에 남아 있지 않아 이전의 집계 기간 동안 집계된 전체 조회수[38]를 이전의 집계 기간에 해당하는 세션들 중 세션 액세스 플래그가 1인 세션의 수[7]로 나눈 후 상기 가장 오래된 세션의 세션 액세스 플래그 값[1]을 곱하여 구한다. 이에 따라 가장 오래된 세션에 해당하는 조회수는 약 5.43[=(38/7)*1]이 되는데, 이는 세션 액세스 플래그가 1인 세션(즉, 한 번이라도 조회가 있었던 세션)에 대한 조회수를 평균한 것이다. 이와 관련된 보다 상세한 설명은 2009년 11월 3일자로 출원된 특허 제10-2009-0105661호 "분산 저장 시스템에서 파일을 관리하는 장치 및 방법"을 참조할 수 있으며, 상기 특허 출원은 본 명세서에 포함되어 결합된다.

마지막으로, 도 6의 메타데이터 관리부(324)와 저장 장치 관리부(325)는 본 발명에 따른 파일 관리 장치가 메타데이터 서버로 구현된 경우 추가로 더 포함할 수 있는 구성요소를 나타낸 것이다.

이를 간단히 설명하면, 메타데이터 관리부(324)는 복수개의 저장 서버(액티브 서버, 아카이브 서버)에 분산 저장되는 파일에 대한 메타데이터를 생성하여 관리하며, 저장 장치 관리부(325)는 복수개의 저장 서버에 대한 성능 및 용량 정보를 관리한다. 이에 따라, 파일 관리부(323)은 메타데이터 관리부(324) 및/또는 저장 장치 관리부(325)와 연동하여 파일을 보다 효율적으로 관리할 수 있다.

한편, 본 발명에 따른 분산 저장 시스템에서 파일을 관리하는 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독가능 기록매체를 통하여 실시될 수 있다. 상기 컴퓨터 판독가능 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기록매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

지금까지 본 발명을 바람직한 실시예를 참조하여 상세히 설명하였지만, 본 발명이 속하는 기술분야의 당업자는 본 발명의 기술적 사상이나 필수적 특징들을 변경하지 않고서 다른 구체적인 다양한 형태로 실시할 수 있는 것이므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다.

그리고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 특정되는 것이며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태는 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

도 1은 종래기술에 따른 분산 저장 시스템의 구성도이다.

도 2는 본 발명의 일 실시예에 따른 분산 저장 시스템의 구성도이다.

도 3은 본 발명의 다른 실시예에 따른 분산 저장 시스템의 구성도이다.

도 4는 본 발명의 일 실시예에 따른 저장 서버의 구성도이다.

도 5는 본 발명의 일 실시예에 따른 파일 관리 장치의 상세 구성도이다.

도 6은 본 발명의 다른 실시예에 따른 파일 관리 장치의 상세 구성도이다.

도 7은 본 발명의 일 실시예에 따른 파일 관리 방법의 흐름도이다.

도 8은 본 발명의 다른 실시예에 따른 파일 관리 방법의 흐름도이다.

도 9는 본 발명에 따른 세션 액세스 플래그를 이용한 조회수 집계 방식을 예시하는 도면이다.

Claims

분산 저장 시스템에서 파일을 관리하는 장치로서,

현재 시각에서 파일의 생성 시각 또는 수정 시각을 감산한 제1 유지 시간 및 현재 시각에서 파일의 최근 조회 시각을 감산한 제2 유지 시간을 계산하는 유지 시간 산출부;

상기 파일의 제1 유지 시간이 기 설정된 기준 시간보다 큰 경우 해당 파일을 아카이브 파일(archived file)로 선정하는 파일 선정부; 및

상기 아카이브 파일로 선정된 파일의 원본 및 복사본의 일부 또는 전부를 액티브 서버(active server)에서 아카이브 서버(archive server)로 또는 액티브 디스크(active disk)에서 아카이브 디스크(archive disk)로 리로케이션(relocation)하는 파일 관리부를 포함하고,

상기 파일 관리부는 상기 제1 유지 시간이 상기 기준 시간보다 크고 상기 제2 유지 시간이 상기 기준 시간보다 작은 경우 해당 아카이브 파일의 원본 및 복사본의 일부를 액티브 서버에서 아카이브 서버로 또는 액티브 디스크에서 아카이브 디스크로 리로케이션하는 것을 특징으로 하는 파일 관리 장치.
삭제
삭제
제1항에 있어서,

상기 파일 관리부는 상기 제1 유지 시간 및 제2 유지 시간이 상기 기준 시간보다 큰 경우 해당 아카이브 파일의 원본 및 복사본 전부를 액티브 서버에서 아카이브 서버로 또는 액티브 디스크에서 아카이브 디스크로 리로케이션하는 것을 특징으로 하는 파일 관리 장치.
제1항 또는 제4항에 있어서,

상기 파일 선정부는 상기 아카이브 파일로 선정된 파일에 대한 집계 기간 동안 조회수가 소정 임계값 이상인 경우 해당 파일을 액티브 파일(active file)로 선정하고,

상기 파일 관리부는 상기 액티브 파일로 선정된 파일의 원본 및 복사본의 일부 또는 전부를 아카이브 서버에서 액티브 서버로 또는 아카이브 디스크에서 액티브 디스크로 복구(restore)하는 것을 특징으로 하는 파일 관리 장치.
제1항 또는 제4항에 있어서,

상기 파일 선정부는 상기 아카이브 파일로 선정된 파일에 수정이 발생하는 경우 해당 파일을 액티브 파일(active file)로 선정하고,

상기 파일 관리부는 상기 액티브 파일로 선정된 파일의 원본 및 복사본의 일부 또는 전부를 아카이브 서버에서 액티브 서버로 또는 아카이브 디스크에서 액티브 디스크로 복구(restore)하는 것을 특징으로 하는 파일 관리 장치.
제1항 또는 제4항에 있어서,

상기 파일 관리부는 파일 단위 또는 청크(chunk) 단위로 상기 아카이브 파일로 선정된 파일의 원본 및 복사본의 일부 또는 전부를 리로케이션하는 것을 특징으로 하는 파일 관리 장치.
제1항 또는 제4항에 있어서,

상기 액티브 서버는 상기 아카이브 서버보다 상대적으로 성능이 좋은 것을 특징으로 하는 파일 관리 장치.
제1항 또는 제4항에 있어서,

클라이언트로부터 요청되는 파일에 대한 메타데이터를 관리하는 메타데이터 관리부를 더 포함하는 것을 특징으로 하는 파일 관리 장치.
제1항 또는 제4항에 있어서,

복수개의 저장 장치에 대한 성능 및 용량 정보를 관리하는 저장 서버 관리부를 더 포함하는 것을 특징으로 하는 파일 관리 장치.
파일을 분산 저장하기 위한 액티브 서버(active server)와 아카이브 서버(archive server)를 포함하는 복수개의 저장 서버; 및

상기 파일에 대한 메타데이터를 관리하는 메타데이터 서버를 포함하는 분산 저장 시스템에 있어서,

상기 메타데이터 서버는 현재 시각에서 파일의 생성 시각 또는 수정 시각을 감산한 제1 유지 시간 및 현재 시각에서 파일의 최근 조회 시각을 감산한 제2 유지 시간을 계산하고, 상기 제1 유지 시간이 기 설정된 기준 시간보다 크고 상기 제2 유지 시간이 상기 기준 시간보다 작은 경우 해당 파일의 원본 및 복사본의 일부를 액티브 서버에서 아카이브 서버로 리로케이션(relocation)하는 것을 특징으로 하는 분산 저장 시스템.
제11항에 있어서,

상기 메타데이터 서버는 상기 리로케이션된 파일에 대한 집계 기간 동안 조회수가 소정 임계값 이상인 경우 해당 파일의 원본 및 복사본의 일부를 아카이브 서버에서 액티브 서버로 복구(restore)하는 것을 특징으로 하는 분산 저장 시스템.
삭제
삭제
제11항에 있어서,

상기 메타데이터 서버는 상기 제1 유지 시간 및 상기 제2 유지 시간이 상기 기준 시간보다 큰 경우 해당 파일의 원본 및 복사본 전부를 액티브 서버에서 아카이브 서버로 리로케이션하는 것을 특징으로 하는 분산 저장 시스템.
파일을 분산 저장하기 위한 액티브 디스크(active disk)와 아카이브 디스크(archive disk)를 포함하는 적어도 하나의 저장 서버; 및

상기 파일에 대한 메타데이터를 관리하는 메타데이터 서버를 포함하는 분산 저장 시스템에 있어서,

상기 메타데이터 서버는 현재 시각에서 파일의 생성 시각 또는 수정 시각을 감산한 제1 유지 시간 및 현재 시각에서 파일의 최근 조회 시각을 감산한 제2 유지 시간을 계산하고, 상기 제1 유지 시간이 기준 시간보다 크고 상기 제2 유지 시간이 상기 기준 시간보다 작은 경우 해당 파일의 원본 및 복사본의 일부를 액티브 디스크에서 아카이브 디스크로 리로케이션(relocation)하는 것을 특징으로 하는 분산 저장 시스템.
제16항에 있어서,

상기 메타데이터 서버는 상기 리로케이션된 파일에 대한 집계 기간 동안 조회수가 소정 임계값 이상인 경우 해당 파일의 원본 및 복사본의 일부를 아카이브 디스크에서 액티브 디스크로 복구(restore)하는 것을 특징으로 하는 분산 저장 시스템.
삭제
삭제
제16항에 있어서,

상기 메타데이터 서버는 상기 제1 유지 시간 및 상기 제2 유지 시간이 상기 기준 시간보다 큰 경우 해당 파일의 원본 및 복사본 전부를 액티브 디스크에서 아카이브 디스크로 리로케이션하는 것을 특징으로 하는 분산 저장 시스템.
분산 저장 시스템에서 파일을 관리하는 방법으로서,

현재 시각에서 파일의 생성 시각 또는 수정 시각을 감산한 제1 유지 시간 및 현재 시각에서 파일의 최근 조회 시각을 감산한 제2 유지 시간을 계산하는 단계;

상기 파일의 제1 유지 시간이 기 설정된 기준 시간보다 큰 경우 해당 파일을 아카이브 파일(archived file)로 선정하는 단계; 및

상기 아카이브 파일로 선정된 파일의 원본 및 복사본의 일부 또는 전부를 액티브 서버에서 아카이브 서버로 또는 액티브 디스크에서 아카이브 디스크로 리로케이션(relocation)하는 단계를 포함하고,

상기 리로케이션하는 단계는 상기 제1 유지 시간이 상기 기준 시간보다 크고 상기 제2 유지 시간이 상기 기준 시간보다 작은 경우 해당 아카이브 파일의 원본 및 복사본의 일부를 액티브 서버에서 아카이브 서버로 또는 액티브 디스크에서 아카이브 디스크로 리로케이션하는 것을 특징으로 하는 파일 관리 방법.
삭제
삭제
제21항에 있어서,

상기 리로케이션하는 단계는 상기 제1 유지 시간 및 상기 제2 유지 시간이 상기 기준 시간보다 큰 경우 해당 아카이브 파일의 원본 및 복사본 전부를 액티브 서버에서 아카이브 서버로 또는 액티브 디스크에서 아카이브 디스크로 리로케이션하는 것을 특징으로 하는 파일 관리 방법.
제21항 또는 제24항에 있어서,

상기 리로케이션하는 단계는 상기 아카이브 파일로 선정된 파일의 원본 및 복사본의 일부 또는 전부를 파일 단위 또는 청크(chunk) 단위로 리로케이션하는 것을 특징으로 하는 파일 관리 방법.
제21항 또는 제24항에 있어서,

상기 아카이브 파일로 선정된 파일에 대한 집계 기간 동안 조회수가 소정 임계값 이상인 경우 해당 파일을 액티브 파일(active file)로 선정하는 단계; 및

상기 액티브 파일로 선정된 파일의 원본 및 복사본의 일부 또는 전부를 아카이브 서버에서 액티브 서버로 또는 아카이브 디스크에서 액티브 디스크로 복구(restore)하는 단계를 더 포함하는 것을 특징으로 하는 파일 관리 방법.
제21항 또는 제24항에 따른 파일 관리 방법을 수행하는 프로그램이 기록된 컴퓨터 판독가능 기록매체.