KR101625913B1 - Apparatus and method for managing metadata in asymmetric cluster file system - Google Patents
Apparatus and method for managing metadata in asymmetric cluster file system Download PDFInfo
- Publication number
- KR101625913B1 KR101625913B1 KR1020090128399A KR20090128399A KR101625913B1 KR 101625913 B1 KR101625913 B1 KR 101625913B1 KR 1020090128399 A KR1020090128399 A KR 1020090128399A KR 20090128399 A KR20090128399 A KR 20090128399A KR 101625913 B1 KR101625913 B1 KR 101625913B1
- Authority
- KR
- South Korea
- Prior art keywords
- metadata
- high frequency
- data
- search
- temporary storage
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9014—Indexing; Data structures therefor; Storage structures hash tables
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
비대칭 클러스터 파일시스템에 있어서 데이터의 접근을 위한 메타데이터를 효과적으로 검색하는 장치 및 방법을 제공한다. 본 발명의 실시 예에 따른 비대칭 클러스터 파일시스템의 메타데이터 관리 장치는, 데이터로의 접근을 위한 데이터의 메타데이터 중 소정 개수를 메타데이터의 검색 빈도에 근거하여 고빈도 메타데이터로 선택하는 메타데이터 선택부와, 고빈도 메타데이터를 임시 저장하는 메타데이터 임시 저장부와, 메타데이터 검색 시, 고빈도 메타데이터를 먼저 검색한 뒤 전체 메타데이터를 대상으로 검색하는 메타데이터 검색부를 포함하는 것을 특징으로 한다.An apparatus and method for efficiently searching metadata for accessing data in an asymmetric cluster file system are provided. The apparatus for managing meta data of an asymmetric cluster file system according to an embodiment of the present invention includes a meta data selection unit for selecting a predetermined number of meta data of data for access to data as high frequency meta data based on a search frequency of the meta data, A metadata temporary storage unit for temporarily storing the high frequency metadata and a metadata searching unit for searching the entire metadata after the high frequency metadata is first searched for the metadata search, .
Description
본 발명은 비대칭 클러스터 파일시스템에 있어서 데이터로의 접근을 위한 데이터의 메타데이터 관리에 관한 기술이다. 더욱 자세하게는, 메타데이터들의 저장을 위한 메타데이터 저장 장치 이외에 소정 개수의 메타데이터들을 임시로 저장하여, 메타데이터 검색의 속도를 높이는 기술에 관한 것이다.The present invention relates to metadata management of data for accessing data in an asymmetric cluster file system. More particularly, the present invention relates to a technique for temporarily storing a predetermined number of meta data in addition to a meta data storage device for storing meta data to increase the speed of metadata search.
본 발명은, 지식경제부의 IT성장동력기술개발 사업의 일환으로 수행한 연구로부터 도출된 것이다. [관리번호: 2007-S-016-03, 과제명: 저비용 대규모 글로벌 인터넷 서비스 솔루션 개발]The present invention is derived from research conducted as part of the IT growth engine technology development project of the Ministry of Knowledge Economy. [Control No.: 2007-S-016-03, Title: Development of low-cost large-scale global Internet service solution]
종래의 파일저장 시스템에 있어서는 기업에서 생산되어 공급되는 데이터가 주를 이루었다. 그러나, 최근 인터넷 기술의 발달에 힘입어 사용자에 의한 데이터 생성이 급속도로 확장되고 있다. 블로그, 사진, 동영상 등 사용자의 제작에 의한 파일 생성이 늘어나면서, 관리해야 하는 멀티미디어 데이터의 양이 급속도로 증가하고 있다.In the conventional file storage system, data produced and supplied by a company has become main. However, with the recent development of Internet technology, data generation by users is rapidly expanding. The amount of multimedia data that needs to be managed is rapidly increasing as the number of file generation by the user such as blog, photo, and video increases.
기존의 파일저장 시스템은 상기 환경에서의 파일 관리에서 저장 용량의 확장 성 및 관리의 용이성 측면에서 많은 문제점을 가지고 있어 새로운 파일관리 시스템이 필요해지고 있다.Existing file storage systems have many problems in terms of storage capacity scalability and ease of management in file management in the environment, and a new file management system is required.
상기 필요성에 대응하여 최의 파일관리 시스템은 많은 발전을 이루고 있다. 이 중, 데이터를 효과적으로 관리하기 위하여, 데이터의 입출력 경로, 즉 데이터를 저장하는 경로와 데이터로의 접근을 위한 데이터의 메타데이터를 저장하는 경로를 분리시켜 분산 저장 시스템의 확장성과 성능을 높이기 위한 노력을 하고 있다. 이러한 시스템은, 사용자 단말기에서 저장 장치들을 직접 접근할 수 있게 하며, 효율적으로 파일 접근에 의한 시스템 부하를 줄이는 효과가 있다. 이러한 파일 관리 시스템을 비대칭 클러스터 파일시스템이라고 한다.In response to this need, most file management systems have achieved many advances. In order to effectively manage data, it is necessary to separate the input / output path of data, that is, the path for storing data and the path for storing metadata of data for accessing data, to improve the scalability and performance of the distributed storage system . Such a system makes it possible to directly access the storage devices in the user terminal and effectively reduce the system load due to file access. Such a file management system is referred to as an asymmetric cluster file system.
그러나 데이터의 양이 급증하면서, 메타데이터 역시 그 수가 급속하게 증가하고 있으며, 비대칭 클러스터 파일시스템에 있어서 메타데이터를 관리하는 새로운 시스템이 요구되고 있다. 종래에는 메타데이터를 단순히 저장하여 랜덤하게 메타데이터를 검색하는 등의 기술을 사용하고 있었다. 그러나 이러한 경우 메타데이터의 양이 많아지면 메타데이터 검색에 대한 응답 시간이 늘어나, 비대칭 클러스터 파일시스템의 목적을 달성하기 힘든 문제점이 있었다. 따라서, 메타데이터를 효과적으로 관리할 수 있는 시스템의 필요성이 제기되어 왔다.However, as the amount of data increases, the number of metadata is also rapidly increasing, and a new system for managing metadata in an asymmetric cluster file system is required. Conventionally, a technique of simply storing metadata and randomly searching for metadata has been used. However, in such a case, as the amount of metadata increases, the response time for metadata retrieval increases, and it is difficult to achieve the objective of the asymmetric cluster file system. Therefore, a need has arisen for a system capable of effectively managing metadata.
상기 언급한 필요성에 대응하여, 본 발명은 비대칭 클러스터 파일 시스템에 있어서 데이터로의 접근을 위한 데이터의 메타데이터를 효과적으로 관리하는 기술을 제공하는 데 그 목적이 있다. 특히, 메타데이터의 양이 급속하게 늘어날 시에도, 메타데이터 검색시에 메타데이터의 양에 관계없이 빠른 속도로 메타데이터를 검색하는 기술을 제공하여, 비대칭 클러스터 파일시스템에 있어서 메타데이터 검색을 고속으로 할 수 있도록 하는 기술을 제공하는 데 그 목적이 있다.In response to the above-mentioned need, the present invention aims to provide a technique for effectively managing metadata of data for accessing data in an asymmetric cluster file system. In particular, even when the amount of metadata increases rapidly, it is possible to provide a technology for searching metadata at a high speed regardless of the amount of metadata at the time of searching for metadata, And to provide a technique that allows the user to do the same.
상기 목적을 달성하기 위하여, 본 발명의 실시 예에 따른 비대칭 클러스터 파일시스템의 메타데이터 관리 장치는, 데이터로의 접근을 위한 데이터의 메타데이터 중 소정 개수를 메타데이터의 검색 빈도에 근거하여 고빈도 메타데이터로 선택하는 메타데이터 선택부와, 고빈도 메타데이터를 임시 저장하는 메타데이터 임시 저장부와, 메타데이터 검색 시, 고빈도 메타데이터를 먼저 검색한 뒤 전체 메타데이터를 대상으로 검색하는 메타데이터 검색부를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided an apparatus for managing metadata of an asymmetric cluster file system, the apparatus comprising: A metadata temporary storage unit for temporarily storing the high frequency metadata, and a metadata search unit for searching the entire metadata after searching the high frequency metadata first in the metadata search, And the like.
또한, 본 발명의 실시 예에 따른 비대칭 클러스터 파일 시스템의 메타데이터 관리 방법은, 메타데이터 선택부가 데이터로의 접근을 위한 데이터의 메타데이터 중 소정 개수를 메타데이터의 검색 빈도에 근거하여 고빈도 메타데이터로 선택하는 단계; 메타데이터 임시 저장부가 고빈도 메타데이터를 임시 저장하는 단계; 메타데이터 검색 시 메타데이터 검색부가 임시 저장부에 저장된 고빈도 메타데이터를 검 색하는 단계; 및 임시 저장부에 고빈도 메타데이터가 없을 시 전체 메타데이터를 대상으로 검색하는 단계를 포함하는 것을 특징으로 한다. According to another aspect of the present invention, there is provided a metadata management method for an asymmetric cluster file system, comprising: a metadata selector for selecting a predetermined number of meta data of data for access to data from high frequency meta data ; Temporarily storing the meta data temporary storage unit high frequency metadata; Retrieving the high frequency metadata stored in the temporary storage unit of the metadata retrieval unit when retrieving the metadata; And retrieving the entire metadata when the high frequency metadata does not exist in the temporary storage unit.
또한, 메타데이터 검색부는 전체 메타데이터 대상 검색 시 검색된 메타데이터를 고빈도 메타데이터로 선택하여, 메타데이터 임시 저장부에 저장된 고빈도 메타 데이터를 갱신하는 기능을 더 포함하는 것을 특징으로 한다.The metadata retrieving unit may further include a function of selecting the retrieved metadata as high frequency metadata when retrieving the entire metadata object and updating the high frequency metadata stored in the metadata temporary storage unit.
메타 데이터 검색시에는, 먼저 메타데이터의 CRC를 기준으로 검색한 뒤 메타데이터 경로를 검색한다. 또한, 메타데이터 임시 저장부는 메타데이터의 CRC에 근거한 복수개의 해시 테이블들을 가지며, 상기 해시 테이블마다 고빈도 메타데이터 들이 최근 검색된 순서대로 연결되어 있는 것을 특징으로 한다.When retrieving the metadata, the metadata is first searched based on the CRC of the metadata, and then the metadata path is searched. The metadata temporary storage unit may have a plurality of hash tables based on the CRC of the metadata, and the high frequency metadata may be linked in the order in which the high frequency metadata are searched for in the hash table.
본 발명의 실시 예에 따른 비대칭 클러스터 파일시스템의 메타데이터 관리 장치 및 방법에 의하면, 메타데이터 검색에 있어서 고속의 검색이 가능한 효과가 있다. 다량의 메타데이터에서 일일이 메타데이터를 찾을 필요 없이, 최근 검색한 순서대로 선택한 소정 개수의 고빈도 메타데이터들로부터 먼저 메타데이터를 검색하여, 검색 빈도수가 높은 메타데이터는 매우 용이하게 검색이 가능하기 때문이다. 또한, 고빈도 메타데이터를 계속 갱신하기 때문에, 메타데이터 검색을 효율적으로 할 수 있는 효과도 있다.According to an apparatus and method for managing metadata of an asymmetric cluster file system according to an embodiment of the present invention, there is an effect that high-speed searching can be performed in metadata search. The metadata is first searched for from a predetermined number of high frequency metadata selected in the order of recent searches without searching the metadata one by one from a large amount of metadata and the metadata having a high search frequency can be searched very easily to be. In addition, since the high frequency metadata is continuously updated, the metadata search can be efficiently performed.
이하, 도 1을 참조하여 본 발명의 실시 예에 따른 비대칭 클러스터 파일시스템의 메타데이터 관리 장치에 대해서 설명하기로 한다.Hereinafter, an asymmetric cluster file system metadata management apparatus according to an embodiment of the present invention will be described with reference to FIG.
도 1은 본 발명의 실시 예에 따른 비대칭 클러스터 파일시스템의 메타데이터 관리 장치의 블록도이다.1 is a block diagram of an apparatus for managing metadata of an asymmetric cluster file system according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 실시 예에 따른 비대칭 클러스터 파일시스템의 메타데이터 관리장치는, 메타데이터 선택부(101), 메타데이터 임시 저장부(103) 및 메타데이터 검색부(100)를 포함하는 것을 특징으로 한다.Referring to FIG. 1, an asymmetric cluster file system metadata management apparatus according to an embodiment of the present invention includes a
본 발명의 실시 예에서는 비대칭 클러스터 파일시스템의 메타데이터 관리장치에 데이터 서버(105) 및 메타데이터 저장부(102)가 연결되어 있을 수 있다. 데이터 서버(105)는 메타데이터에 포함된 데이터 경로에 따라서 데이터를 저장 및 관리하는 장치를 의미한다. 메타데이터 저장부(102)는 전체 데이터에 대한 메타데이터를 저장하여 관리하는 장치이다.In the embodiment of the present invention, the
또한 본 발명의 실시 예에 따른 비대칭 클러스터 파일시스템의 메타데이터 관리장치는, 사용자 단말기(104)에 저장되어 있을 수 있다. 그러나, 별도의 장치(또는 서버)로 존재할 수도 있을 것이다.The metadata management apparatus of the asymmetric cluster file system according to the embodiment of the present invention may be stored in the
메타데이터는, 비대칭 클러스터 파일시스템에 있어서 데이터로의 접근을 위해 생성된 데이터에 관한 정보를 포함하는 데이터이다. 데이터의 메타데이터는, 데이터의 크기, 생성시간, 소유자, 및 데이터 서버에서 실제 데이터가 저장된 블록의 위치 정보, 즉 데이터 경로를 포함한다. 비대칭 클러스터 파일시스템에서는 데이터가 복수의 데이터 서버에 복제되어 저장된다. 따라서 사용자는 물리적으로 가장 가까운 데이터 서버에서 원하는 데이터에 접근할 수 있어 입출력 성능을 극대화할 수 있다. 따라서, 메타데이터에 포함된 데이터 경로에 관한 정보는 복수개 존재할 수 있을 것이다.The metadata is data including information about data generated for accessing data in an asymmetric cluster file system. The metadata of the data includes the size of the data, the generation time, the owner, and the location information of the block in which the actual data is stored in the data server, that is, the data path. In an asymmetric cluster file system, data is replicated and stored on a plurality of data servers. Therefore, the user can access desired data from the nearest data server physically, thereby maximizing the input / output performance. Therefore, a plurality of information on the data path included in the meta data may exist.
메타데이터 선택부(101)는 데이터에 대응하는 메타데이터들 중 소정 개수를 메타데이터의 검색 빈도에 근거하여 고빈도 메타데이터로 선택한다. 본 발명의 실시 예에서 메타데이터의 검색 빈도는 가장 최근에 검색한 메타데이터를 의미한다. 검색 빈도가 높으면 다른 메타데이터에 비해 최근에 검색할 확률 역시 높아지기 때문이다.The
소정 개수는 고빈도 메타데이터의 수를 결정하는 변수이다. 소정 개수는 사용자 단말기에서 정의한 메타데이터 임시 저장부(103)의 메모리 크기에 따라서 가변적이다. 사용자 단말기는, 비대칭 클러스터 파일시스템의 환경 또는 데이터 접근 패턴에 따라서 메모리 크기를 설정할 수 있다.The predetermined number is a variable that determines the number of high frequency metadata. The predetermined number is variable according to the memory size of the meta data
메타데이터 선택부(101)는 고빈도 메타데이터를 메타데이터의 검색 빈도에 근거하여 선택한다. 메타데이터 검색부(100)에 의해 메타데이터가 검색되면, 메타데이터 선택부(101)는 만약 검색된 메타데이터가 메타데이터 임시 저장부(103)에 저장되어 있는 경우, 이미 고빈도 메타데이터로 선택된 경우이기 때문에, 검색된 메타데이터를 고빈도 메타데이터로 선택하지 않는다. 그러나 검색된 메타데이터가 전체 메타데이터로부터 선택된 경우, 즉 메타데이터 임시 저장부(103)에 저장되어 있지 않은 경우에는, 새로운 고빈도 메타데이터로 선택하게 된다.The
메타데이터 임시 저장부(103)는, 고빈도 메타데이터를 임시 저장하는 기능을 수행한다. 메타데이터 선택부(101)로부터 고빈도 메타데이터에 관한 정보를 수신한다. 메타데이터 저장부(102)로부터 고빈도 메타데이터에 관한 정보에 따라서 고빈 도 메타데이터를 검색하고, 검색된 고빈도 메타데이터를 임시 저장하게 된다.The metadata
고빈도 메타데이터를 임시 저장한다는 것은, 메타데이터 임시 저장부(103)에 고빈도 메타데이터가 고정적으로 존재하는 것이 아니기 때문이다. 메타데이터 검색부(100) 및 메타데이터 선택부(101)의 고빈도 메타데이터 선택 여부에 따라서, 가장 예전에 검색된 고빈도 메타데이터, 즉, 검색 빈도수가 가장 낮은 것으로 판단되는 고빈도 메타데이터는 새로운 고빈도 메타데이터 선택 시에 삭제된다.The reason why the high frequency metadata is temporarily stored is that the high frequency metadata does not exist in the metadata
메타데이터 임시 저장부(103)는 고빈도 메타데이터 관리시에 CRC 값을 추출하여 CRC 값에 근거하여 저장한다. CRC는, 파일의 경로명으로부터 추출한 값을 의미한다. CRC는 데이터의 이동에 있어서의 오류를 방지하기 위해 데이터에 삽입되는 일종의 대기 순서표를 의미하는 것이다.The meta data
상기 언급한 바와 같이 고빈도 메타데이터는 데이터 전송에 필수적으로 생성되는 CRC 값에 근거하여 생성된 복수의 해시 테이블들에 각각 연결되어 저장될 수 있다. 해시테이블은 대규모의 메타데이터를 빠르게 접근하기 위해 구성되며, 하나의 해시테이블에 여러 개의 메타데이터가 연결되어 있다. 해시테이블의 크기는 메타데이터 임시저장부(103)의 메모리 크기에 따라서 가변적이다.As described above, the high frequency metadata may be stored in association with a plurality of hash tables generated based on CRC values that are necessarily generated for data transmission. A hash table is constructed for quick access to large-scale metadata, and a plurality of metadata is connected to one hash table. The size of the hash table is variable according to the memory size of the meta data
메타데이터에는 따라서, 상기 언급한 파일의 생성시간, 크기, 소유자 이외에도 메타데이터에 대응하는 실제 데이터의 경로, 실제 데이터의 경로명으로부터 추출한 CRC 값, 실제 데이터가 저장된 데이터 서버의 위치정보를 더 포함할 수 있다.The metadata may further include a generation time and size of the above-mentioned file, a path of actual data corresponding to the metadata in addition to the owner, a CRC value extracted from the path name of the actual data, and location information of the data server where the actual data is stored have.
상기 언급한 바와 같이 메타데이터 임시 저장부(103)는 고빈도 메타데이터들을 CRC 값에 근거하여 일정한 개수씩 각 해시 테이블에 연결한다. 그리고 복수개의 해시 테이블을 관리한다. 이에 따라서, 소정 개수의 고빈도 메타데이터들을 다시 해시 테이블 별로 관리하기 때문에, 메타데이터에 접근할 수 있는 속도를 향상할 수 있다.As described above, the meta data
메타데이터 검색부(100)는, 메타데이터 검색을 수행하는 기능을 한다. 본 발명의 실시 예에서는, 메타데이터를 검색 시, 메타데이터 임시 저장부(103)에 저장된 고빈도 메타데이터를 먼저 검색한다. 검색하려는 메타데이터가 고빈도 메타데이터에 속해있는 경우에는, 메타데이터 임시저장부(103)로부터 검색하여 빠른 시간에 사용자에게 제공한다. 검색하려는 메타데이터가 고빈도 메타데이터에 속해있지 않은 경우에는, 메타데이터 저장부(102)에 저장된 전체 메타데이터를 대상으로 검색을 수행한 뒤, 검색 결과를 사용자에게 제공하는 기능을 포함한다. The
메타데이터 검색부(100)는 검색된 메타데이터에 관한 정보를 메타데이터 선택부(101)에 송신하는 기능을 더 포함할 수 있다. 상기 언급한 바와 같이 메타데이터 임시 저장부(103)에 저장되는 고빈도 메타데이터는 검색 빈도에 따라서 갱신된다. 따라서, 검색 결과에 따라서 메타데이터 선택부(101)는 새로운 고빈도 메타데이터를 선택할 수 있다. 검색하려는 메타데이터가 메타데이터 임시 저장부(103)에 고빈도 메타데이터로 저장되어 있지 않은 경우에는, 전체 메타데이터를 대상으로 검색을 수행한다. The
본 발명의 실시 예에서 검색 빈도는 최근 검색 여부를 의미한다. 따라서, 검색된 메타데이터를 고빈도 메타데이터로 선택되어야 한다. 이에 의해 메타데이터 검색부(100)는 검색된 메타데이터에 관한 정보를 메타데이터 선택부(101)에 송신하 는 것이다. 메타데이터 선택부(101)는 메타데이터 임시 저장부(103)에 수신한 메타데이터에 관한 정보에 대응하는 메타데이터가 존재하는지에 대한 판단 결과에 근거하여 검색된 메타데이터를 고빈도 메타데이터로 선택할 지 여부를 결정한다.In the embodiment of the present invention, the search frequency indicates whether the search has been recently performed. Therefore, the retrieved metadata should be selected as the high frequency metadata. Accordingly, the
도 2는 메타데이터 임시 저장부의 구체적인 구성 예에 대한 블록도이다.2 is a block diagram of a specific configuration example of the metadata temporary storage unit.
도 2를 참조하면, 메타데이터 임시 저장부(201)는 해시 테이블 추적부(202), 메타데이터 제어부(203) 및 메타데이터 관리부(204)를 포함할 수 있다.Referring to FIG. 2, the metadata
해시 테이블 추적부(202)는, 메타데이터 검색부(200) 및 메타데이터 선택부(206)에 연결되어 있을 수 있다. 메타데이터 검색부(200)로부터는 메타데이터 검색 요청을 수신하여 검색 대상 메타데이터의 CRC 값에 따라서 메타데이터가 저장되어 있을 수 있는 해시 테이블을 추척하는 기능을 수행한다. 또한 메타데이터 선택부(206)로부터는 새롭게 선택된 고빈도 메타데이터를 등록하기 위해, 고빈도 메타데이터에 관한 정보(예를 들어 실제 데이터 경로)에 근거하여 생성된 CRC 값을 수신하여 새로운 고빈도 메타데이터를 등록할 해시 테이블을 추적하게 된다.The hash
메타데이터 제어부(203)는, 해시 테이블 추적부(202)의 추적 결과에 따라서 메타데이터 관리부(204)에 저장된 고빈도 메타데이터를 검색하여 메타데이터를 메타데이터 검색부(200)에 제공하도록 명령하는 기능을 수행한다. 또한, 새로운 고빈도 메타데이터 입력시, 고빈도 메타데이터에 관한 정보에 근거하여 검색 빈도수가 가장 낮은 것으로 판단되는 고빈도 메타데이터를 삭제하고, 새로운 고빈도 메타데이터를 해시 테이블에 새롭게 연결하는 기능을 수행한다. 또한 메타데이터 저장부(205)로부터 고빈도 메타데이터로 선택된 메타데이터를 수신하여 메타데이터 관 리부(204)에 송신하는 기능을 수행할 수 있다. The
새로운 고빈도 메타데이터를 해시 테이블에 연결할 때는, 삭제된 고빈도 메타데이터 자리에 새로운 고빈도 메타데이터를 연결하지 않는다. 새로운 고빈도 메타데이터는, 본 발명의 검색 빈도에 대한 정의에 근거하면 가장 검색 빈도가 높은 메타데이터이기 때문이다. 따라서, 새로운 고빈도 메타데이터가 입력되면, 새로운 고빈도 메타데이터에 대응하는 CRC 값에 대한 해시 테이블에서 검색 빈도수가 가장 낮은 것으로 판단되는 고빈도 메타데이터를 삭제한다. 이후, 상기 해시 테이블에 기 저장된 고빈도 메타데이터 중 가장 검색 빈도수가 높은 고빈도 메타데이터와 해시테이블의 헤더(해시 테이블의 인덱스) 사이에 새로운 고빈도 메타데이터를 삽입하게 된다.When linking new high frequency metadata to a hash table, no new high frequency metadata is associated with the deleted high frequency metadata location. The new high frequency metadata is the most frequently retrieved metadata based on the definition of the search frequency of the present invention. Accordingly, when the new high frequency metadata is input, the high frequency metadata that is determined to have the lowest frequency of the search in the hash table for the CRC value corresponding to the new high frequency metadata is deleted. Thereafter, new high frequency metadata is inserted between the high frequency metadata having the highest search frequency among the high frequency metadata previously stored in the hash table and the header (hash table index) of the hash table.
메타데이터 관리부(204)는 메타데이터 제어부(203)에 의해 수신된 메타데이터를 상기 언급한 바와 같이 CRC 값에 근거한 해시 테이블 별로 저장하여 관리하는 기능을 수행한다. 그리고 검색 대상 메타데이터가 고빈도 메타데이터에 존재할 때, 고빈도 메타데이터를 메타데이터 검색부(200)에 송신하는 기능 역시 수행한다.The
도 3은 메타데이터 관리부(204)에 의해 관리되는 메타데이터의 구조를 도시한 것이다.FIG. 3 shows a structure of metadata managed by the
도 3을 참조하면, 본 발명의 실시 예에서 메타데이터 임시 저장부(103)에 포함된 메타데이터 관리부(204)에 의하여 관리되는 고빈도 메타데이터의 구조는 복수의 해시테이블(305a, 305b, 305c)들과 각 해시 테이블들에 직렬 연결된 고빈도 메타데이터(306a, 306b, 306c)들을 포함한다. 본 발명의 실시 예에서는 각 해시 테이 블들에 고빈도 메타데이터들이 직렬 연결되어 있다. 이는 고빈도 메타데이터 중에서도 검색 빈도에 근거하여 순위를 설정하고, 순위에 따라서 고빈도 메타데이터를 관리하기 위함이다. 상기 언급한 바와 같이 검색 빈도에 근거하여 고빈도 메타데이터가 갱신되기 때문에, 고빈도 메타데이터의 관리에 있어서도 검색 빈도별로 관리할 필요가 있다.3, in the embodiment of the present invention, the structure of the high frequency metadata managed by the
각 해시 테이블(305a, 305b, 305c)은 CRC가 유사한 메타데이터를 n개씩 연결한 메타데이터 그룹의 헤더 역할을 하게 된다. 각 메타데이터(306a, 306b, 306c)들은 해시 테이블(305a, 305b, 305c)에 검색 빈도순으로 직렬 연결되어 있다.Each of the hash tables 305a, 305b, and 305c serves as a header of a meta data group in which n pieces of similar metadata having the same CRC are concatenated. Each of the
새로운 고빈도 메타데이터가 입력되면, 새로운 고빈도 메타데이터의 CRC값에 대응하는 해시테이블(예를 들어 제1 해시 테이블 305a)에 포함된 가장 뒤의 고빈도 메타데이터(306n)가 삭제된다. 검색 빈도가 가장 낮기 때문이다. 이후, 삭제된 고빈도 메타데이터(306n)자리로 그 외의 메타데이터들이 순서대로 이동하게 된다. 즉 제1 메타데이터 MHA1(306a)가 새로운 제2 메타데이터 MHA2(306b)가 되는 방식이 된다. 그리고 새로운 제1 메타데이터는 입력된 새로운 고빈도 메타데이터가 된다.When the new high frequency metadata is input, the last
본 발명의 실시 예에서 새로운 고빈도 메타데이터가 입력되지 않아도, 즉 검색 대상 메타데이터가 고빈도 메타데이터에 해당하여 새로운 메타데이터를 입력하지 않는 경우에도 빈도수를 조절할 필요가 있다. 검색 빈도의 정의에 따라서 최근에 검색한 고빈도 메타데이터가 각 해시 테이블의 맨 앞으로 이동해야 하기 때문이다. In the embodiment of the present invention, even when new high frequency metadata is not inputted, that is, when the search target metadata corresponds to the high frequency metadata and new metadata is not input, it is also necessary to adjust the frequency. This is because the recently searched high frequency metadata must move to the front of each hash table according to the definition of the search frequency.
따라서, 메타데이터 제어부(203)는 검색 대상 메타데이터가 고빈도 메타데이 터에 속하는 경우, 메타데이터 관리부(204)에 검색된 고빈도 메타데이터를 송출하고, 검색된 고빈도 메타데이터를 해당하는 해시 테이블의 가장 앞으로 연결하게 하는 기능을 더 포함할 수 있다. 이때, 검색된 고빈도 메타데이터의 자리로 그 앞의 복수의 메타데이터들, 즉 검색된 고빈도 메타데이터보다 이전의 검색 빈도가 높은 것으로 판단된 고빈도 메타데이터들은 각각 뒤로 이동하게 될 것이다.Accordingly, when the search target metadata belongs to the high frequency metadata, the
도 4는 본 발명의 실시 예에 따른 비대칭 클러스터 파일 시스템의 메타데이터 관리 방법에 대한 플로우차트이다. 이하의 설명에서 도 1 내지 도 3에 대한 설명과 중복되는 부분의 설명은 생략하기로 한다.4 is a flowchart illustrating a metadata management method of an asymmetric cluster file system according to an embodiment of the present invention. In the following description, the description of the parts which are the same as those in the description of Figs. 1 to 3 will be omitted.
도 4를 참조하면, 먼저 사용자에 의한 메타데이터 검색 요청이 수신된다(S401). 메타데이터 검색부는 먼저 메타데이터 임시 저장부에 검색 대상 메타데이터가 존재하는지 검색하게 된다(S402). 검색 방법은 다음과 같다.Referring to FIG. 4, a metadata retrieval request by a user is received (S401). The metadata search unit first searches the meta data temporary storage unit to determine whether the search target metadata exists (S402). The search method is as follows.
먼저, 검색 대상 메타데이터가 포함하는 실제 데이터 경로에 근거하여 CRC 값을 연산한다. 계산된 CRC 값을 이용하여 검색 대상 메타데이터의 CRC 값에 대응하는 고빈도 메타데이터들을 포함할 수 있는 해시테이블을 추적하게 된다.First, the CRC value is calculated based on the actual data path included in the search target metadata. And the hash table that can include the high frequency metadata corresponding to the CRC value of the search target metadata is tracked using the calculated CRC value.
추적된 해시테이블에서, 고빈도 메타데이터를 검색하는 방법은 2단계로 수행된다. 제1 단계는, CRC 값을 이용하여 메타데이터를 검색한다. CRC 값을 제1 단계의 검색에 활용하는 이유는, 메타데이터의 경로 스트링(즉 실제 데이터의 경로)으로 직접 검색할 때보다 최대 수십배의 성능 개선 효과를 기대할 수 있기 때문이다. 제2 단계로는 메타데이터의 경로 스트링을 비교한다. 제2 단계를 이용하는 이유는 서로 다른 메타데이터 경로 스트링을 포함하더라도 CRC 값이 일치하는 경우가 있기 때문이다.In the traced hash table, the method of retrieving the high frequency metadata is performed in two steps. In the first step, the metadata is retrieved using the CRC value. The reason for using the CRC value in the first stage search is that the performance improvement effect can be expected up to several tens of times as compared with the direct path search of the meta data path string (i.e., the actual data path). In the second step, the path strings of the metadata are compared. The reason for using the second step is that the CRC values may coincide with each other even if they include different metadata path strings.
검색 대상 메타데이터가 고빈도 메타데이터에 속하는 경우에는, 메타데이터 메타데이터 임시 저장부에서 고빈도 메타데이터를 추출하여(S403) 사용자에게 송신하는 단계(S406)를 수행한다. 도 4에 도시되지는 않았지만, 상기 언급한 바와 같이 메타데이터 검색 후 메타데이터 제어부가 검색된 고빈도 메타데이터를 고빈도 메타데이터를 포함하는 해시 테이블 내에서 가장 검색 빈도가 높은 고빈도 메타데이터로 설정하는 단계가 더 포함될 수 있을 것이다.If the search target metadata belongs to the high frequency metadata, the metadata metadata temporary storage unit extracts the high frequency metadata (S403) and transmits the extracted metadata to the user (S406). Although not shown in FIG. 4, as described above, after the metadata retrieval, the metadata control unit sets the detected high frequency metadata to the highest frequency metadata having the highest search frequency in the hash table including the high frequency metadata Steps may be further included.
검색 대상 메타데이터가 메타데이터 임시 저장부에 존재하지 않는 경우에는, 메타데이터 저장부에서 전체 메타데이터를 대상으로 검색을 수행하여 메타데이터를 추출한다(S404). 그리고 메타데이터 선택부(101)는 검색된 메타데이터를 고빈도 메타데이터로 선택하고 메타데이터 임시 저장부(S405)에 등록하게 된다.If the search target meta data does not exist in the meta data temporary storage unit, the meta data storage unit searches the entire meta data to extract meta data (S404). The
도 5는, 선택된 고빈도 메타데이터를 메타데이터 임시 저장부에 저장하는 플로우 차트이다. 이하의 설명에서 도 1 내지 도 4에 대한 설명과 중복되는 부분의 설명은 생략하기로 한다.5 is a flowchart for storing the selected high frequency metadata in the metadata temporary storage unit. In the following description, the description of the parts overlapping with those of the description of Figs. 1 to 4 will be omitted.
해시테이블 추적부는 메타데이터 선택부에 의해 고빈도 메타데이터로 선택된 메타데이터의 경로 스트링에 근거하여 CRC 값을 연산한다(S501). 연산된 CRC 값에 근거하여 고빈도 메타데이터가 연결될 해시 테이블을 선택한다(S502).The hash table tracking unit calculates the CRC value based on the path string of the metadata selected as the high frequency metadata by the metadata selecting unit (S501). The hash table to which the high frequency metadata is to be connected is selected based on the calculated CRC value (S502).
메타데이터 제어부는 선택된 해시 테이블에 동일한 고빈도 메타데이터가 연결되어 있는지 검색한다. 동일한 고빈도 메타데이터가 존재하는지 검색하는 방법은 상기 언급한 메타데이터 관리부에서의 고빈도 메타데이터 검색 방법과 동일하다. 즉 CRC 값을 이용하여 먼저 검색한 뒤, 메타데이터 경로 스트링을 비교하는 방법이 사용된다.The metadata control unit searches whether the same high frequency metadata is connected to the selected hash table. The method for searching for the presence of the same high frequency metadata is the same as the method for searching the high frequency metadata in the above-mentioned metadata management unit. That is, a method of first searching using a CRC value and then comparing metadata path strings is used.
해시 테이블에 동일한 고빈도 메타데이터가 존재하는 경우, 즉, 상기 언급한 바와 같이 검색 대상 메타데이터가 메타데이터 임시 저장부에 존재하여 새로운 고빈도 메타데이터로 선택할 필요가 없는 경우에는, 메타데이터를 상기 언급한 바와 같이 갱신하여 검색 빈도수에 근거한 고빈도 메타데이터 순서가 되도록한다(S504). 상기 언급한 메타데이터 선택부의 설명에서는, 검색 대상 메타데이터가 고빈도 메타데이터인 경우 새로운 고빈도 메타데이터로 선택하지 않았다. 그러나 동일한 기능을 수행할 수 있는 다른 방법, 즉 일단 고빈도 메타데이터로 선택한 수 도 5와 같이 동일한 메타데이터가 존재하는지를 검색하는 방법 역시 동일한 방법으로 가정할 수 있을 것이다.If the same high frequency metadata exists in the hash table, that is, as described above, if the search target metadata is present in the metadata temporary storage unit and it is not necessary to select the new high frequency metadata as the new high frequency metadata, And updates the high frequency metadata order based on the search frequency as described above (S504). In the above description of the metadata selecting unit, when the search target metadata is high frequency metadata, it is not selected as new high frequency metadata. However, another method for performing the same function, that is, the number of high frequency metadata selected as shown in FIG. 5, may be similarly assumed.
해시테이블에 동일한 고빈도 메타데이터가 존재하지 않는 경우, 메타데이터 제어부는 먼저 고빈도 메타데이터가 연결될 해시 테이블이 포화상태인지 판단하는 단계(S505)를 수행한다. 상기 언급한 메타데이터 제어부의 기능에서는 무조건 가장 검색 빈도가 낮은 고빈도 메타데이터를 삭제하는 것으로 설명되었으나, 해시테이블이 포화되지 않아 새로운 고빈도 메타데이터가 입력 가능한 상태라면 고빈도 메타데이터를 삭제할 필요가 없기 때문이다.If the same high frequency metadata does not exist in the hash table, the metadata controller first determines whether the hash table to which the high frequency metadata is to be connected is saturated (step S505). In the above-mentioned function of the metadata control unit, it has been described that the high frequency metadata having the lowest search frequency is unconditionally deleted. However, if the high frequency metadata is input because the hash table is not saturated, it is necessary to delete the high frequency metadata It is because there is not.
만약 해시테이블이 포화 상태라면, 상기 언급한 바와 같이 마지막 고빈도 메타데이터, 즉 검색 빈도수가 가장 낮은 고빈도 메타데이터를 삭제한다(S506). 그리고 마지막으로 해시 테이블의 첫번째 위치에 고빈도 메타데이터를 연결하는 단 계(S507)를 수행한다.If the hash table is saturated, the last high frequency metadata, that is, the high frequency metadata having the lowest search frequency is deleted as described above (S506). Finally, the step of connecting the high frequency metadata to the first position of the hash table (S507) is performed.
도 6은 메타데이터 임시 저장부에서 고빈도 메타데이터를 검색하는 플로우차트이다. 이하의 설명에서 도 1 내지 도 5에 대한 설명과 중복되는 부분의 설명은 생략하기로 한다.6 is a flowchart for searching high frequency metadata in the metadata temporary storage. In the following description, the description of the parts that are the same as those in the description of Figs. 1 to 5 will be omitted.
먼저 해시테이블 추적부는 검색하려는 메타데이터 경로 스트링으로부터 CRC 값을 연산한다(S601). 그리고 CRC 값에 근거하여 해시 테이블을 선택하는 단계(S602)를 수행한다. 메타데이터 제어부는 선택된 해시테이블의 정보를 수신하여 선택된 해시테이블에 검색하려는 메타데이터가 존재하는지 상기 언급한 제1 및 제2 단계를 통해 검색하게 된다(S603).First, the hash table tracking unit calculates a CRC value from the metadata path string to be searched (S601). Then, the hash table selection step S602 is performed based on the CRC value. The metadata controller receives the information of the selected hash table and searches through the first and second steps to determine whether there is metadata to search in the selected hash table (S603).
검색하려는 메타데이터가 존재하는 것으로 판단되면, 메타데이터 제어부는 먼저 고빈도 메타데이터를 갱신하는 단계, 즉 해시 테이블의 첫번째에 검색된 고빈도 메타데이터를 연결하고 나머지 고빈도 메타데이터를 한 순서씩 뒤로 이동시키는 단계(S604)를 수행한다. 그리고 메타데이터 관리부에 검색된 고빈도 메타데이터를 메타데이터 검색부로 송신하도록 명령하는 단계(S606)를 수행한다.If it is determined that the metadata to be searched exists, the metadata controller first updates the high frequency metadata, that is, connects the high frequency metadata retrieved at the beginning of the hash table and moves the remaining high frequency metadata back (S604). And instructing the metadata management unit to transmit the searched high frequency metadata to the metadata search unit (S606).
만약 검색하려는 메타데이터가 고빈도 메타데이터가 속하지 않은 것으로, 즉 메타데이터 임시 저장부에 저장되지 않은 것으로 판단되면, 메타데이터 제어부는 에러 메시지를 송출하는 단계(S605)를 수행한다. 메타데이터 검색부는 메타데이터 제어부로부터 에러 메시지를 수신하면, 메타데이터 저장부에 저장된 전체 매타데이터를 대상으로 검색을 수행하게 된다.If it is determined that the metadata to be searched does not belong to the high frequency metadata, that is, the metadata is not stored in the metadata temporary storage unit, the metadata control unit performs step S605 of sending an error message. Upon receiving the error message from the metadata control unit, the metadata search unit searches for all the metadata stored in the metadata storage unit.
상기 언급한 본 발명의 실시 예에 따른 비대칭 클러스터 파일시스템의 메타 데이터 관리 장치 및 방법에 대한 설명은 오로지 설명적인 용도로만 사용되어야 할 것이며, 특허청구범위를 제한하는 것이 아니다. 또한, 본 발명의 실시 예 이외에도, 본 발명과 동일한 기능을 수행하는 균등한 발명 역시 본 발명의 권리 범위에 속할 것임은 당연할 것이다.The description of the apparatus and method for managing meta data in an asymmetric cluster file system according to an embodiment of the present invention should be used for illustrative purposes only and is not intended to limit the scope of the claims. It is to be understood that equivalents of the invention having the same functions as those of the invention are also within the scope of the present invention.
도 1은 본 발명의 실시 예에 따른 비대칭 클러스터 파일시스템의 메타데이터 관리 장치의 블록도이다.1 is a block diagram of an apparatus for managing metadata of an asymmetric cluster file system according to an embodiment of the present invention.
도 2는 메타데이터 임시 저장부의 구체적인 구성 예에 대한 블록도이다.2 is a block diagram of a specific configuration example of the metadata temporary storage unit.
도 3은 메타데이터 관리부(204)에 의해 관리되는 메타데이터의 구조를 도시한 것이다.FIG. 3 shows a structure of metadata managed by the
도 4는 본 발명의 실시 예에 따른 비대칭 클러스터 파일 시스템의 메타데이터 관리 방법에 대한 플로우차트이다.4 is a flowchart illustrating a metadata management method of an asymmetric cluster file system according to an embodiment of the present invention.
도 5는, 선택된 고빈도 메타데이터를 메타데이터 임시 저장부에 저장하는 플로우 차트이다.5 is a flowchart for storing the selected high frequency metadata in the metadata temporary storage unit.
도 6은 메타데이터 임시 저장부에서 고빈도 메타데이터를 검색하는 플로우차트이다.6 is a flowchart for searching high frequency metadata in the metadata temporary storage.
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090128399A KR101625913B1 (en) | 2009-12-21 | 2009-12-21 | Apparatus and method for managing metadata in asymmetric cluster file system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090128399A KR101625913B1 (en) | 2009-12-21 | 2009-12-21 | Apparatus and method for managing metadata in asymmetric cluster file system |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110071753A KR20110071753A (en) | 2011-06-29 |
KR101625913B1 true KR101625913B1 (en) | 2016-05-31 |
Family
ID=44402782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090128399A KR101625913B1 (en) | 2009-12-21 | 2009-12-21 | Apparatus and method for managing metadata in asymmetric cluster file system |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101625913B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678537B (en) * | 2013-12-02 | 2017-06-20 | 华为技术有限公司 | Metadata amending method, device and node device based on cluster |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003030087A (en) | 2001-07-17 | 2003-01-31 | Fujitsu Ltd | Content distribution network system |
JP2006244121A (en) * | 2005-03-03 | 2006-09-14 | Hitachi Ltd | Cache system and cache server |
-
2009
- 2009-12-21 KR KR1020090128399A patent/KR101625913B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003030087A (en) | 2001-07-17 | 2003-01-31 | Fujitsu Ltd | Content distribution network system |
JP2006244121A (en) * | 2005-03-03 | 2006-09-14 | Hitachi Ltd | Cache system and cache server |
Also Published As
Publication number | Publication date |
---|---|
KR20110071753A (en) | 2011-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9672235B2 (en) | Method and system for dynamically partitioning very large database indices on write-once tables | |
CN110704453B (en) | Data query method and device, storage medium and electronic equipment | |
US20100161780A1 (en) | Hot data management method based on hit counter | |
KR100678921B1 (en) | Method and apparatus for synchronizing multimedia contents with device which supports plural server environment | |
CN102523285B (en) | Storage caching method of object-based distributed file system | |
CN105740472A (en) | Distributed real-time full-text search method and system | |
KR101631004B1 (en) | Location independent files | |
EP2325761A1 (en) | Systems and methods for thumbnail management using a thumbnail cache | |
CN103605778B (en) | Method, device and system for locating video file | |
CN102169507A (en) | Distributed real-time search engine | |
US20080243776A1 (en) | System and method to facilitate real-time end-user awareness in query results through layer approach utilizing end-user interaction, loopback feedback, and automatic result feeder | |
US10678817B2 (en) | Systems and methods of scalable distributed databases | |
CN103678491A (en) | Method based on Hadoop small file optimization and reverse index establishment | |
CN103023982A (en) | Low-latency metadata access method of cloud storage client | |
US20080133494A1 (en) | Method and apparatus for searching forwarding table | |
CN103353901B (en) | The orderly management method of table data based on Hadoop distributed file system and system | |
CN103544261A (en) | Method and device for managing global indexes of mass structured log data | |
US20220035786A1 (en) | Distributed database management system with dynamically split b-tree indexes | |
CN102819586A (en) | Uniform Resource Locator (URL) classifying method and equipment based on cache | |
CN102736986A (en) | Content-addressable memory and data retrieving method thereof | |
CN101122978A (en) | Contract risk transferring system and method | |
KR101625913B1 (en) | Apparatus and method for managing metadata in asymmetric cluster file system | |
CN105354283A (en) | Resource searching method and apparatus | |
JP5163171B2 (en) | Cache system and server | |
CN114647659A (en) | Data processing method and device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190425 Year of fee payment: 4 |