KR101995056B1 - 분산 파일 시스템 및 이의 운영방법 - Google Patents
분산 파일 시스템 및 이의 운영방법 Download PDFInfo
- Publication number
- KR101995056B1 KR101995056B1 KR1020150189369A KR20150189369A KR101995056B1 KR 101995056 B1 KR101995056 B1 KR 101995056B1 KR 1020150189369 A KR1020150189369 A KR 1020150189369A KR 20150189369 A KR20150189369 A KR 20150189369A KR 101995056 B1 KR101995056 B1 KR 101995056B1
- Authority
- KR
- South Korea
- Prior art keywords
- server
- metadata
- servers
- data
- client
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
- G06F16/1824—Distributed file systems implemented using Network-attached Storage [NAS] architecture
- G06F16/1827—Management specifically adapted to NAS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/278—Data partitioning, e.g. horizontal or vertical partitioning
-
- H04L29/08—
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2025—Failover techniques using centralised failover control functionality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2038—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Library & Information Science (AREA)
Abstract
본 발명에 따른 토러스 망 기반의 분산 파일 시스템은 파일의 메타데이터를 저장하는 복수의 메타데이터 서버, 데이터를 분할하여 분산 저장하는 복수의 데이터 서버 및 상기 메타데이터 서버 및 데이터 서버를 관리하는 하나 이상의 관리 서버를 포함하되, 상기 복수의 메타데이터 서버, 복수의 데이터 서버 및 하나 이상의 관리 서버는 각각 복수의 노드로 구성된 제 1 내지 제 n 평면 상에 배치되고, 상기 제 1 평면은 복수의 클라이언트와 스위치를 통해 연결된다.
Description
본 발명은 분산 파일 시스템 및 이의 운영 방법에 관한 것이다.
최근 스마트폰, 태블릿, 웨어러블 기기 등이 널리 보급됨에 따라, 고품질, 비정형 데이터가 지속적으로 증가하여 클라우드 스토리지 용량 증가 문제에 직면하게 되었다. 그리고 사물들이 서로 연결되어 가상화되는 사물 인터넷 통신에서 생산되는 많은 데이터량 또한 클라우드 스토리지에 저장되어야 함으로써 비용 효율적인 대용량 클라우드 스토리지 기술 개발의 필요성이 강하게 대두되고 있다.
한편, 2020년경 데이터 생산 규모가 약 44,000EB로 예측되는 시점에서 엑사바이트급 클라우드 스토리지의 개발은 반드시 해결해야 할 이슈 중의 하나다. 이미 페타바이트급 규모의 클라우드 스토리지는 구축 사례도 드물지 않게 있는 반면에, 엑사바이트급 규모의 클라우드 스토리지 구축 기술은 종래의 기술로는 풀기 어려운 난제일 수 있다.
엑사바이트급 규모를 제공하기 위해서는 필요로 하는 스토리지 서버의 수도 상당히 많을 뿐만 아니라, 기존에 네트워크 구축을 위해 많이 사용하던 스위치를 이용한 팻-트리(fat-tree) 네트워크 방식은 비용 및 고가용성을 지원하기 위한 구성 복잡성 측면에서 한계가 있다.
이러한 한계를 극복하기 위한 네트워크 방식으로 서버와 서버를 스위치 없이 직접 연결하는 토러스(Torus) 네트워크가 있으며, 일본의 K-Computer나 Titan/Cray와 슈퍼 컴퓨터의 계산 노드 연결망이 사용되고 있으나, 스토리지 노드들에 대한 구체적인 구축 예는 아직 존재하지 않는 실정이다.
이와 관련하여, 한국공개특허공보 제10-2011-0142500호(발명의 명칭: 온칩 네트워크에서 토러스 토폴로지를 이용한 라우팅 시스템 및 라우팅 방법)는 토큰을 이용한 교착상태 복구(Deadlock Recovery with Tokens, DRT)를 이용하여 2D 토러스 토폴로지가 제공하는 풍부한 와이어(wire)를 활용하면서도 추가적인 버퍼(가상 채널)의 크기를 최소화할 수 있는 내용을 개시하고 있다.
본 발명의 실시예는 스토리지 서버들은 스위치 없이 서로 직접 연결하여 토러스 토폴로지를 구성하고, 클라이언트들은 스위치에 연결함으로써 엑사바이트급 분산 파일 시스템을 제공할 수 있는 분산 파일 시스템 및 그 운영 방법을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 토러스 망 기반의 분산 파일 시스템은 파일의 메타데이터를 저장하는 복수의 메타데이터 서버, 데이터를 분할하여 분산 저장하는 복수의 데이터 서버 및 상기 메타데이터 서버 및 데이터 서버를 관리하는 하나 이상의 관리 서버를 포함한다. 이때, 상기 복수의 메타데이터 서버, 복수의 데이터 서버 및 하나 이상의 관리 서버는 각각 복수의 노드로 구성된 제 1 내지 제 n 평면 상에 배치되고, 상기 제 1 평면은 복수의 클라이언트와 스위치를 통해 연결된다.
또한, 본 발명의 제 2 측면에 따른 복수의 노드로 구성된 제 1 내지 제 n 평면 상에 배치된 복수의 메타데이터 서버, 복수의 데이터 서버 및 하나 이상의 관리 서버를 포함하는 분산 파일 시스템의 운영 방법은 상기 관리 서버를 초기화 및 기동시키는 단계; 상기 관리 서버가 상기 제 1 내지 제 n 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버의 라우팅 기능을 활성화시키는 단계; 상기 관리 서버가 상기 복수의 메타데이터 서버를 초기화 및 기동시키는 단계; 상기 관리 서버가 상기 복수의 메타데이터 서버의 정보를 수신하여 상기 복수의 메타데이터 서버를 등록시키는 단계; 상기 관리 서버가 상기 복수의 메타데이터 서버의 가용성 관계를 설정하는 단계; 상기 관리 서버가 상기 복수의 데이터 서버를 초기화 및 기동시키는 단계 및 상기 관리 서버가 상기 데이터 서버의 정보를 수신하여 상기 데이터 서버를 등록시키는 단계를 포함한다. 이때, 상기 제 1 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버는 상기 제 2 내지 제 n 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버와 각각 상기 스위치의 연결없이 상호 직접 연결된다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 스위치를 사용한 계층적인 fat-tree 방식의 종래 기술에서 엑사바이트급의 용량을 지원할 수 없던 문제를 해결할 수 있다.
또한, 스토리지 서버들은 스위치 없이 서로 직접 연결하여 토러스 토폴로지를 구성하고, 클라이언트들은 스위치에 연결함으로써 시스템의 복잡도를 최소화시킬 수 있다.
또한, 기존에 사용되던 분산 파일 시스템의 많은 수정 없이 엑사바이트급 스토리지 제공이 가능하다.
도 1은 본 발명의 일 실시예에 따른 분산 파일 시스템의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 분산 파일 시스템의 배치 구조의 일 예시이다.
도 3은 본 발명의 일 실시예에 따른 분산 파일 시스템에서 라우팅 기능을 제공하지 않는 경우에 대한 배치 구조의 일 예시이다.
도 4는 본 발명의 일 실시예에 따른 분산 파일 시스템에서 라우팅 기능을 제공하는 경우에 대한 배치 구조의 일 예시이다.
도 5는 본 발명의 일 실시예에 따른 분산 파일 시스템의 운영 방법 중 기동 방법의 순서도이다.
도 6은 본 발명의 일 실시예에 따른 분산 파일 시스템의 운영 방법 중 마운트 단계의 순서도이다.
도 7은 본 발명의 일 실시예에 따른 분산 파일 시스템의 운영 방법 중파일 오픈 단계의 순서도이다.
도 8은 본 발명의 일 실시예에 따른 분산 파일 시스템의 운영 방법 중 파일 읽기 단계의 순서도이다.
도 9는 본 발명의 일 실시예에 따른 분산 파일 시스템의 운영 방법 중 파일 쓰기 단계의 순서도이다.
도 10은 본 발명의 일 실시예에 따른 분산 파일 시스템의 운영 방법 중 메타데이터 서버의 장애 발생 및 처리 단계의 순서도이다.
도 2는 본 발명의 일 실시예에 따른 분산 파일 시스템의 배치 구조의 일 예시이다.
도 3은 본 발명의 일 실시예에 따른 분산 파일 시스템에서 라우팅 기능을 제공하지 않는 경우에 대한 배치 구조의 일 예시이다.
도 4는 본 발명의 일 실시예에 따른 분산 파일 시스템에서 라우팅 기능을 제공하는 경우에 대한 배치 구조의 일 예시이다.
도 5는 본 발명의 일 실시예에 따른 분산 파일 시스템의 운영 방법 중 기동 방법의 순서도이다.
도 6은 본 발명의 일 실시예에 따른 분산 파일 시스템의 운영 방법 중 마운트 단계의 순서도이다.
도 7은 본 발명의 일 실시예에 따른 분산 파일 시스템의 운영 방법 중파일 오픈 단계의 순서도이다.
도 8은 본 발명의 일 실시예에 따른 분산 파일 시스템의 운영 방법 중 파일 읽기 단계의 순서도이다.
도 9는 본 발명의 일 실시예에 따른 분산 파일 시스템의 운영 방법 중 파일 쓰기 단계의 순서도이다.
도 10은 본 발명의 일 실시예에 따른 분산 파일 시스템의 운영 방법 중 메타데이터 서버의 장애 발생 및 처리 단계의 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하에서는 도 1 내지 도 4를 참조하여 본 발명의 일 실시예에 따른 분산 파일 시스템(100)에 대하여 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 분산 파일 시스템(100)의 블록도이다. 도 2는 본 발명의 일 실시예에 따른 분산 파일 시스템(100)의 배치 구조의 일 예시이다.
본 발명의 일 실시예에 따른 토러스 망 기반의 분산 파일 시스템(100)은 복수의 메타데이터 서버(110), 복수의 데이터 서버(120) 및 하나 이상의 관리 서버(130)를 포함한다.
복수의 메타데이터 서버(110)는 파일의 메타데이터를 저장한다. 이때, 복수의 메타데이터 서버(110)는 모두 액티브 상태로 동작하면서, 고가용성 제공을 위해 복수 개의 메타데이터 서버(110), 예를 들어 두 개 또는 세 개의 메타데이터 서버(110)가 그룹화되어 그들 간에는 액티브-스탠바이(active-standby) 모드로 운영된다.
이러한, 메타데이터 서버(110)는 하나의 메타데이터 서버(110)가 미리 설정된 개수로 그룹화된 메타데이터 서버(110)의 그룹을 관리할 수 있다. 이 경우 하나의 메타데이터 서버(110)는 복수 개의 그룹 중 어느 한 그룹에 대해서는 액티브 모드로 동작할 수 있으며, 다른 한 그룹에 대해서는 스탠바이 모드로 동작할 수도 있다.
복수의 데이터 서버(120)는 데이터를 분할하여 분산 저장한다. 즉, 데이터 서버(120)는 실제 파일 또는 데이터를 작은 단위로 쪼개어 분산 저장한다.
관리 서버(130)는 복수의 메타데이터 서버(110) 및 복수의 데이터 서버(120)를 관리한다. 관리 서버(130)는 메타데이터 서버(110), 데이터 서버(120)뿐만 아니라 복수의 클라이언트(140)도 함께 모니터링하고, 메타데이터 서버(110)의 장애 발생시 회복 절차를 수행한다. 이러한 관리 서버(130)는 토러스 네트워크 내부에 존재하거나, 토러스 네트워크 밖에 존재하면서 스위치(150)에 직접 연결되는 형태로 독립적으로 배치될 수 있다.
한편, 관리 서버(130)는 하나 이상이 구비될 수 있으나, 본 발명의 일 실시예에서는 두 개의 관리 서버(130)를 구비하는 것이 바람직하다. 또한, 관리 서버(130) 역시 고가용성을 제공하기 위하여 액티브-스탠바이(active-standby) 모드로 운영된다.
하나 이상의 클라이언트(140)는 분산 파일 시스템(100)에 접근하여 파일 오퍼레이션을 수행한다.
한편, 복수의 메타데이터 서버(110), 복수의 데이터 서버(120), 관리 서버(130) 및 클라이언트(140)는 각각 통신 모듈(미도시), 메모리(미도시) 및 프로세서(미도시)로 구성될 수 있다.
이때, 통신 모듈은 유선 통신 모듈 및 무선 통신 모듈을 모두 포함할 수 있다. 유선 통신 모듈은 전력선 통신 장치, 전화선 통신 장치, 케이블 홈(MoCA), 이더넷(Ethernet), IEEE1294, 통합 유선 홈 네트워크 및 RS-485 제어 장치로 구현될 수 있다. 또한, 무선 통신 모듈은 WLAN(wireless LAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60GHz WPAN, Binary-CDMA, 무선 USB 기술 및 무선 HDMI 기술 등으로 구현될 수 있다.
메모리에는 각 서버들을 제어하기 위한 프로그램이 저장된다. 여기에서, 메모리는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다.
예를 들어, 메모리는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.
또한, 메모리에 저장된 프로그램은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다.
그리고 복수의 메타데이터 서버(110), 복수의 데이터 서버(120), 관리 서버(130) 및 클라이언트(140)는 네트워크(network, 150))를 통해 연결될 수 있다. 네트워크(150)는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크(network, 150)의 일 예에는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크, WiFi 등이 포함되나 이에 한정되지는 않는다.
본 발명의 일 실시예에 따른 분산 파일 시스템(100)은, 도 2에 도시된 바와 같이 복수의 메타데이터 서버(110), 복수의 데이터 서버(120) 및 하나 이상의 관리 서버(130)는 각각 복수의 노드로 구성된 제 1 내지 제 n 평면(200) 상에 배치된다.
이때, 제 1 평면(P1)에 포함된 각 노드들은 복수의 클라이언트(240)와 스위치(250)를 통해 fat-tree 형태로 연결된다. 제 1 평면(P1)에 포함된 복수의 메타데이터 서버(110) 및 복수의 데이터 서버(120)들은 외부와의 인터페이스를 위하여, 스위치(250)를 통해 클라이언트(240)와 연결된다.
그리고 제 1 평면(P1)에 포함된 복수의 메타데이터 서버(110) 및 복수의 데이터 서버(120)는 제 2 내지 제 n 평면(P2)에 포함된 복수의 메타데이터 서버(110) 및 복수의 데이터 서버(120)와 각각 스위치(250)의 연결없이 토러스 망을 기반으로 상호 직접 연결될 수 있다.
즉, 제 1 평면(P1)에 포함된 노드들은 제 2 내지 제 n 평면(P2)에 포함된 노드들과 스위치(250) 없이 서로 직접적인 네트워크 케이블 연결을 통하여 토러스 네트워크 형태로 구성되어 상호 연결될 수 있다.
이에 따라, 본 발명의 일 실시예에 따른 제 1 내지 제 n 평면(200)에 포함된 노드를 구성하는 메타데이터 서버(110) 및 데이터 서버(120)들은 RIP(Routing Information Protocol), OSPF(Open shortest Path First)와 같은 라우팅 기능을 수행할 수 있다.
다시 도 1을 참조하면, 엑사바이트 규모의 스토리지를 제공하기 위해서는 수많은 서버들을 필요로 한다. 그러나 관리자가 모든 노드들을 각각 수동으로 개별 관리가 불가능하므로, 단일 지점에서 자동으로 관리가 가능해야 한다.
이에 따라, 본 발명의 일 실시예에 따른 분산 파일 시스템(100)은 관리 서버(130)가 관련 노드들을 모두 관리하는 역할을 수행한다.
이를 위해 먼저 관리 서버(130)가 초기화 및 기동되고, 관리 서버(130)의 초기화 및 기동이 완료됨에 따라, 관리 서버(130)는 미리 설정된 정보에 따라 토러스 망 내의 제 1 내지 제 n 평면에 포함된 복수의 메타데이터 서버(110) 및 복수의 데이터 서버(120)의 라우팅 기능을 활성화 시킨다. 이때, 관리 서버(130)는 복수의 메타데이터 서버(110) 및 복수의 데이터 서버(120)의 라우팅 기능이 정상적으로 동작하는지 여부를 점검할 수 있다.
복수의 메타데이터 서버(110) 및 복수의 데이터 서버(120)의 라우팅 기능이 활성화됨에 따라, 관리 서버(130)는 등록된 정보에 따라 복수의 메타데이터 서버(110)를 초기화 및 기동시킨다. 기동된 메타데이터 서버(110)는 자신의 정보를 관리 서버(130)에 전송하고, 관리 서버(130)는 메타데이터 서버(110)의 정보를 수신하여 메타데이터 서버(110)를 등록시킨다.
메타데이터 서버(110)의 등록이 완료되면, 관리 서버(130)는 메타데이터 서버(110)들의 액티브, 스탠바이 설정을 통하여 가용성 관계를 설정할 수 있다.
메타데이터 서버(110)들에 대한 설정이 완료되면, 관리 서버(130)는 복수의 데이터 서버(120)를 초기화 및 기동시킨다. 기동된 데이터 서버(120)는 관리 서버(130)로 자신의 정보를 전송하고, 데이터 서버(120)의 정보를 수신한 관리 서버(130)는 데이터 서버(120)를 등록시킨다.
이와 같이 관리 서버(130), 메타데이터 서버(110) 및 데이터 서버(120)의 초기화, 기동 및 등록 과정이 완료되면 본 발명의 일 실시예에 따른 분산 파일 시스템(100)의 기동이 완료되고, 클라이언트(140)는 분산 파일 시스템(100)에 접속하여 파일의 송수신 등이 가능해진다.
참고로, 본 발명의 실시예에 따른 도 1에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다.
그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.
구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.
이하에서는 도 3 및 도4를 참조하여 본 발명의 일 실시예에 따른 분산 파일 시스템(100)에서 클라이언트(140)에 라우팅 기능을 제공하지 않는 경우와 라우팅 기능을 제공하는 경우에 대한 분산 파일 시스템(100)의 배치 구조를 설명하도록 한다.
한편, 도 2에서 설명한 초기화, 기동 및 등록 과정은 아래에서 설명할 라우팅 기능 제공 여부에 따른 각 실시예에 모두 적용될 수 있다.
도 3은 본 발명의 일 실시예에 따른 분산 파일 시스템(100)에서 클라이언트(340)에 라우팅 기능을 제공하지 않는 경우에 대한 배치 구조의 일 예시이다.
본 발명의 일 실시예에 따른 분산 파일 시스템(100)은 도 3에 도시된 바와 같이, 복수의 클라이언트(340)는 스위치(350)를 통해 제 1 평면(P1)에 포함된 복수의 메타데이터 서버(310) 및 복수의 데이터 서버(320)와만 연결되어 데이터를 송수신한다.
제 2 내지 제 n 평면(P2)에 포함된 복수의 메타데이터 서버(310) 및 복수의 데이터 서버(320)는 제 1 평면(P1)에 포함된 복수의 메타데이터 서버(310) 및 복수의 데이터 서버(320)를 통해 복수의 클라이언트(340)와 연결되어 데이터를 송수신한다.
즉, 클라이언트는(340) 제 1 평면(P1)에 배치된 어느 한 노드에만 데이터를 전송하면, 토러스 구조로 연결된 제 1 내지 제 n 평면에 포함된 노드들끼리 서로 통신하여 클라이언트(340)에서 요구하는 데이터의 처리가 가능하다.
이에 따라, 제 1 평면(P1)에 배치된 노드들은 클라이언트(340)들과 토러스 망에 있는 제 2 내지 제 n 평면(P2)에 배치된 노드들 사이에서, 클라이언트(340)의 네임스페이스 연산 또는 파일 입출력과 같은 요청을 토러스 망 내의 노드들에게 전달하거나, 그 결과를 클라이언트(340)에 전달하는 중계 기능을 제공한다.
이때, 관리 서버(330)는 제 1 평면(P1) 노드에 배치되고, 메타데이터 서버(310) 및 데이터 서버(320)는 관리자의 정책에 따라 제 1 평면 내지 제 n 평면(P1, P2) 중 임의의 노드에 배치될 수 있다.
한편, 본 발명의 일 실시예에 따른 분산 파일 시스템(100)은 클라이언트(140)의 라우팅 기능이 활성화되지 않은 경우에 따른 마운트 절차, 파일 오픈 절차, 파일 읽기 절차, 파일 쓰기 절차 및 메타데이터 서버(110)의 장애 발생 및 처리 절차를 수행할 수 있는바, 이에 대한 내용은 도 6 내지 도 10에서 보다 구체적으로 설명하도록 한다.
도 4는 본 발명의 일 실시예에 따른 분산 파일 시스템(100)에서 클라이언트(440)에 라우팅 기능을 제공하는 경우에 대한 배치 구조의 일 예시이다.
본 발명의 일 실시예에 따른 분산 파일 시스템(100)은 클라이언트(440)에 라우팅 기능이 활성화된 경우 도 4에 도시된 바와 같이, 복수의 클라이언트(440)는 스위치(450)를 통해 제 1 내지 제 n 평면에 포함된 복수의 메타데이터 서버(410) 및 복수의 데이터 서버(420)와 데이터를 송수신할 수 있다. 즉, 클라이언트(440)의 라우팅 기능이 활성화되어 있는바, 클라이언트(440)는 제 1 평면의 뒤쪽에 위치한 제 2 내지 제 n 평면에 배치된 노드들과도 통신이 기본적으로 가능하다.
이에 따라, 도 3의 경우와 같이 중계 노드의 기능이 필요하지 않으므로, 관리자의 정책에 따라 관리 서버(430), 메타데이터 서버(410) 및 데이터 서버(420)는 제 1 내지 제 n 평면 중 임의의 노드에 배치될 수 있다.
이하에서는 도 5 내지 도 10을 참조하여 본 발명의 일 실시예에 따른 분산 파일 시스템(100)의 운영 방법에 대하여 설명하도록 한다.
도 5는 본 발명의 일 실시예에 따른 분산 파일 시스템(100)의 운영 방법 중 기동 방법의 순서도이다.
본 발명의 일 실시예에 따른 분산 파일 시스템(100)의 운영 방법은 먼저, 관리 서버(130)를 초기화 및 기동시킨다(S510).
다음으로, 관리 서버(130)가 제 1 내지 제 n 평면에 포함된 복수의 메타데이터 서버(110) 및 복수의 데이터 서버(120)의 라우팅 기능을 활성화시킨다(S520).
다음으로 관리 서버(130)는 복수의 메타데이터 서버(110)를 초기화 및 기동시키고(S530), 복수의 메타데이터 서버(110)로부터 메타데이터 서버(110)의 정보를 수신하여 복수의 메타데이터 서버(110)를 등록시킨다(S540). 메타데이터 서버(110)의 등록이 완료되면, 관리 서버(130)는 복수의 메타데이터 서버(110)의 가용성 관계를 확인한다(S550).
이와 같은 과정이 완료된 후, 관리 서버(130)는 복수의 데이터 서버(120)를 초기화 및 기동시킨다(S560). 그리고 관리 서버(130)는 데이터 서버(120)로부터 데이터 서버(120)의 정보를 수신하여 데이터 서버(120)를 등록시킨다(S570).
이와 같이 관리 서버(130), 메타데이터 서버(110) 및 데이터 서버(120)의 초기화, 기동 및 등록 과정이 완료되면 본 발명의 일 실시예에 따른 분산 파일 시스템(100)의 기동이 완료되고, 클라이언트(140)는 분산 파일 시스템(100)에 접속하여 파일의 송수신 등이 가능해진다.
한편, 관리 서버(130), 메타데이터 서버(110) 및 데이터 서버(120)의 초기화, 기동 및 등록 과정은 도 1 및 도 2에서 구체적으로 설명하였는바 이하 생략하도록 한다.
이하에서는 클라이언트(140)들의 라우팅 기능이 활성화되지 않은 경우에서의 분산 파일 시스템(100)의 각 동작 단계에 대하여 도 6 내지 도 10을 참조하여 설명하도록 한다.
도 6은 본 발명의 일 실시예에 따른 분산 파일 시스템(100)의 운영 방법 중 마운트 단계의 순서도이다.
클라이언트(140)는 먼저 관리 서버(130)에 자신이 접속하고자 하는 볼륨 정보를 보내어 마운트를 요청한다. 관리 서버(130)는 클라이언트(140)로부터 접속하고자 하는 볼륨 정보가 포함된 마운트 요청을 수신하면(S610), 볼륨 정보에 포함된 루트 디렉토리 정보에 대응하는 메타데이터 서버(110)를 검색한다(S620). 토러스 망에서는 해당 노드에 접근할 수 있는 주소가 2차원에서는 4개, 3차원에서는 6개씩 존재하므로, 관리 서버(130)는 이 중에서 최적의 경로를 가진 메타데이터 서버(110)의 주소를 검색한다.
메타데이터 서버(110)의 주소가 검색되면, 관리 서버(130)는 검색된 메타데이터 서버(110)의 주소를 클라이언트(140)로 전송한다(S630). 이 과정에서 클라이언트(140)에 라우팅 기능이 활성화되어 있지 않으므로, 관리 서버(130)는 클라이언트(140)로 제 1 평면에 포함된 모든 복수의 메타데이터 서버(110) 및 복수의 데이터 서버(120)의 주소 리스트를 함께 전송한다. 이에 따라, 클라이언트(140)는 검색된 메타데이터 서버(110)의 주소 및 주소 리스트를 로컬 스토리지에 언마운트 때까지 저장한다.
이와 같은 과정이 완료됨에 따라, 사용자들은 로컬 파일 시스템에서 이용 가능한 다양한 파일 오퍼레이션들을 분산 파일 시스템(100)에서 수행할 수 있게 된다.
도 7은 본 발명의 일 실시예에 따른 분산 파일 시스템(100)의 운영 방법 중 파일 오픈 단계의 순서도이다.
먼저, 클라이언트(140)는 관리 서버(130)로부터 수신한 주소 리스트에 포함된 복수의 메타데이터 서버(110) 및 복수의 데이터 서버(120) 중, 관리 서버(130)에 의해 검색된 볼륨 정보에 포함된 루트 디렉토리 정보에 대응하는 메타데이터 서버(110)의 주소와 최단 거리에 위치한 어느 하나의 서버를 중계 서버로 선택한다(S710).
다음으로 클라이언트(140)는 선택된 중계 서버로 검색된 메타데이터 서버(110)의 파일 정보를 요청하고, 이를 중계 서버가 수신하면(S720), 중계 서버는 클라이언트(140)로부터 받은 요청을 분석하여 파일 정보 요청에 대응하여 검색된 메타데이터 서버(110)로 파일 정보를 요청한다(S730).
메타데이터 서버(110)가 중계 서버로부터 받은 요청에 대하여 파일 정보를 검색하여 중계 서버가 검색된 메타데이터 서버(110)로부터 파일 정보를 수신하면(S740), 중계 서버는 수신한 파일 정보를 클라이언트(140)로 전송한다(S750).
이와 같은 과정을 통해 파일 정보를 수신한 클라이언트(140)는 사용자에게 파일 개방이 성공적으로 수행되었음을 알릴 수 있다.
도 8은 본 발명의 일 실시예에 따른 분산 파일 시스템(100)의 운영 방법 중 파일 읽기 단계의 순서도이다.
본 발명의 일 실시예에 따른 분산 파일 시스템(100)에서의 파일 읽기 단계는 먼저, 검색된 메타데이터 서버(110)가 중계 서버를 통하여 클라이언트(140)로부터 읽고자 하는 파일 레이아웃 요청을 받으면(S810), 메타데이터 서버(110)는 파일 레이아웃에 대응하는 데이터 서버(120)들의 IP 주소를 결정한다(S820). 그리고 파일 레이아웃 및 데이터 서버(120)들의 IP 주소를 중계 서버를 통해 클라이언트(140)로 전송한다(S830).
클라이언트(140)는 읽고자 하는 파일의 오프셋(offset) 등의 정보를 이용하여 읽기 요청을 보낼 데이터 서버(120)를 결정한다.
클라이언트(140)에 의해 읽고자 하는 파일이 저장된 데이터 서버(120)가 결정됨에 따라, 중계 서버는 클라이언트(140)로부터 결정된 데이터 서버(120)로 파일을 요청하고(S840), 데이터 서버(120)는 중계 서버를 통하여 클라이언트(140)에 의해 요청된 파일을 전송한다(S850).
이에 따라 클라이언트(140)는 읽기 데이터를 사용자에게 반환할 수 있다.
도 9는 본 발명의 일 실시예에 따른 분산 파일 시스템(100)의 운영 방법 중 파일 쓰기 단계의 순서도이다.
검색된 메타데이터 서버(110)는 중계 서버를 통하여 클라이언트(140)로부터 파일을 쓰고자 하는 데이터 서버(120)의 정보를 요청받으면(S910), 메타데이터 서버(110)는 클라이언트(140)로 데이터 서버(120)의 정보 및 파일 레이아웃을 반환한다(S920). 이때, 메타데이터 서버(110)는 필요한 경우 청크를 생성하여 데이터 서버(120) 정보 및 레이아웃을 반환할 수 있다.
그리고 데이터 서버(120)가 중계 서버를 통하여 클라이언트(140)로부터 파일 쓰기 요청을 수신함에 따라(S930), 데이터 서버(120)는 파일 쓰기 동작을 수행한다(S940). 그리고 그 결과를 중계 서버를 통하여 클라이언트(140)로 반환할 수 있다.
이에 따라, 클라이언트(140)는 사용자에게 파일 쓰기 단계가 성공적으로 수행되었음을 알릴 수 있다.
도 10은 본 발명의 일 실시예에 따른 분산 파일 시스템(100)의 운영 방법 중 메타데이터 서버(110)의 장애 발생 및 처리 단계의 순서도이다.
본 발명의 일 실시예에 따른 분산 파일 시스템(100)은 메타데이터 서버(110)에 장애가 발생한 경우 이를 처리할 수 있다. 이때, 메타데이터 서버(110)와 관리 서버(130)는 고가용성 제공을 위하여 상위-하위 모드, 즉 마스터-슬레이브 모드로 동작한다.
관리 서버(130)가 기동중인 마스터 메타데이터 서버의 고장을 감지하면(S1010), 관리 서버(130)는 고장난 메타데이터 서버에 대응하는 하위 메타데이터 서버를 조회한다(S1020). 즉, 마스터 메타데이터 서버에 대응하는 슬레이브 메타데이터 서버가 어느 노드인지 조회한다.
하위 메타데이터 서버의 조회가 완료되면, 관리 서버(130)는 고장난 메타데이터 서버에 대응하는 하위 메타데이터 서버를 상위 메타데이터 서버로 승격시킨다(S1030). 그리고 승격된 메타데이터 서버에 하위 메타데이터 서버를 할당하고(S1040), 승격된 새로운 메타데이터 서버로 할당된 새로운 하위 메타데이터 서버의 정보를 전달하여 고장 회복 절차를 요청한다(S1050).
고장 회복 절차의 요청에 따라 승격된 메타데이터 서버는 자신의 메타데이터 서버에 대응하는 서비스를 실행하고(S1060), 할당된 하위 메타데이터 서버로 자신의 메타데이터를 복제한다(S1070).
이와 같은 과정에 따라 메타데이터 서버(110)의 고장 회복 절차가 완료될 수 있다.
한편, 장애가 발생한 이후 클라이언트(140)는 새로운 메타데이터 서버와 연결을 해야 하는데, 그 과정은 다음과 같다.
먼저, 클라이언트(140)는 고장난 메타데이터 서버와의 소켓 연결 실패를 감지한다. 이에 따라, 클라이언트(140)는 관리 서버(130)로 새로운 메타데이터 서버의 정보를 요청한다(S1080).
클라이언트(140)로부터 요청을 수신한 관리 서버(130)는 승격된 메타데이터 서버의 정보를 클라이언트(140)로 전송할 수 있다(S1090). 이에 따라, 클라이언트(140)는 새로운 메타데이터 서버로 연결을 다시 시도할 수 있다.
한편, 상술한 설명에서, 단계 S510 내지 S1090는 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 내지 도 4에서의 분산 파일 시스템(100)에 관하여 이미 기술된 내용은 도 5 내지 도 10의 운영 방법에도 적용된다.
전술한 본 발명의 일 실시예 중 어느 하나에 의하면, 스위치를 사용한 계층적인 fat-tree 방식의 종래 기술에서 엑사바이트급의 용량을 지원할 수 없던 문제를 해결할 수 있다.
또한, 기존에 사용되던 분산 파일 시스템(100)의 많은 수정 없이 엑사바이트급 스토리지 제공이 가능하다.
본 발명의 일 실시예에 따른 분산 파일 시스템(100)에서의 운영 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 분산 파일 시스템
110, 310, 410: 메타데이터 서버
120, 320, 420: 데이터 서버
130, 330, 430: 관리 서버
140, 240, 340, 440: 클라이언트
150, 250, 350, 450: 네트워크, 스위치
200: 제 1 내지 제 n 평면
110, 310, 410: 메타데이터 서버
120, 320, 420: 데이터 서버
130, 330, 430: 관리 서버
140, 240, 340, 440: 클라이언트
150, 250, 350, 450: 네트워크, 스위치
200: 제 1 내지 제 n 평면
Claims (20)
- 토러스 망 기반의 분산 파일 시스템에 있어서,
파일의 메타데이터를 저장하는 복수의 메타데이터 서버,
데이터를 분할하여 분산 저장하는 복수의 데이터 서버 및
상기 메타데이터 서버 및 데이터 서버를 관리하는 하나 이상의 관리 서버를 포함하되,
상기 복수의 메타데이터 서버, 복수의 데이터 서버 및 하나 이상의 관리 서버는 각각 복수의 노드로 구성된 제 1 내지 제 n 평면 상에 배치되고,
상기 제 1 평면은 복수의 클라이언트와 스위치를 통해 연결되는 것인 분산 파일 시스템. - 제 1 항에 있어서,
상기 제 1 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버는 상기 제 2 내지 제 n 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버와 각각 상기 스위치의 연결없이 상호 직접 연결되는 것인 분산 파일 시스템. - 제 2 항에 있어서,
상기 관리 서버의 초기화 및 기동이 완료됨에 따라 상기 관리 서버는,
상기 제 1 내지 제 n 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버의 라우팅 기능을 활성화시키고,
상기 복수의 메타데이터 서버 및 복수의 데이터 서버의 라우팅 기능이 활성화됨에 따라,
상기 복수의 메타데이터 서버를 초기화 및 기동시키고, 상기 메타데이터 서버의 정보를 수신하여 상기 메타데이터 서버를 등록시킨 뒤, 상기 메타데이터 서버의 가용성 관계를 설정하며,
상기 복수의 데이터 서버를 초기화 및 기동시키고, 상기 데이터 서버의 정보를 수신하여 상기 데이터 서버를 등록시키는 것인 분산 파일 시스템. - 제 3 항에 있어서,
상기 복수의 클라이언트는 상기 스위치를 통해 상기 제 1 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버와만 데이터를 송수신하고,
상기 제 2 내지 제 n 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버는 상기 제 1 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버를 통해 상기 복수의 클라이언트와 데이터를 송수신하는 것인 분산 파일 시스템. - 제 4 항에 있어서,
상기 관리 서버는 상기 제 1 평면의 노드에 배치되고,
상기 메타데이터 서버 및 데이터 서버는 상기 제 1 내지 n 평면 중 임의의 노드에 배치되는 것인 분산 파일 시스템. - 제 4 항에 있어서,
상기 관리 서버는 상기 클라이언트로부터 접속하고자 하는 볼륨 정보가 포함된 마운트 요청을 수신하면, 상기 볼륨 정보에 포함된 루트 디렉토리 정보에 대응하는 메타데이터 서버를 검색하고, 상기 검색된 메타데이터 서버의 주소를 상기 클라이언트로 전송하는 것인 분산 파일 시스템. - 제 6 항에 있어서,
상기 관리 서버는 상기 클라이언트로 상기 제 1 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버의 주소 리스트를 함께 전송하고,
상기 클라이언트는 상기 검색된 메타데이터 서버의 주소 및 상기 주소 리스트를 로컬 스토리지에 언마운트 때까지 저장하는 것인 분산 파일 시스템. - 제 7 항에 있어서,
상기 클라이언트는 상기 주소 리스트에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버 중 상기 검색된 메타데이터 서버의 주소와 최단 거리에 위치한 어느 하나의 서버를 중계 서버로 선택하고, 상기 선택한 중계 서버로 상기 검색된 메타데이터 서버의 파일 정보를 요청하여, 상기 중계 서버로부터 상기 요청한 파일 정보를 수신하되,
상기 중계 서버는 상기 파일 정보의 요청에 대응하여 상기 검색된 메타데이터 서버로 파일 정보를 요청하고, 상기 검색된 메타데이터 서버는 상기 파일 정보를 상기 중계 서버로 전송함에 따라, 상기 파일 정보는 상기 클라이언트로 전송되는 것인 분산 파일 시스템. - 제 8 항에 있어서,
상기 검색된 메타데이터 서버는 상기 중계 서버를 통하여 상기 클라이언트로부터 파일 레이아웃을 요청받으면, 상기 파일 레이아웃에 대응하는 데이터 서버들의 IP 주소를 결정하고, 상기 파일 레이아웃 및 상기 데이터 서버들의 IP 주소를 상기 중계 서버를 통해 상기 클라이언트로 전송하며,
상기 클라이언트에 의해 읽고자 하는 파일이 저장된 데이터 서버가 결정됨에 따라, 상기 중계 서버는 상기 클라이언트로부터 상기 결정된 데이터 서버로 상기 파일을 요청하고,
상기 데이터 서버는 상기 중계 서버를 통하여 상기 클라이언트에 의해 요청된 파일을 전송하는 것인 분산 파일 시스템. - 제 8 항에 있어서,
상기 검색된 메타데이터 서버는 상기 중계 서버를 통해 상기 클라이언트로부터 파일을 쓰고자 하는 데이터 서버의 정보를 요청받음에 따라, 상기 클라이언트로 상기 데이터 서버의 정보 및 파일 레이아웃을 전송하고,
상기 데이터 서버는 상기 중계 서버를 통해 상기 클라이언트로부터 파일 쓰기 요청을 수신함에 따라, 파일 쓰기 동작을 수행하는 것인 분산 파일 시스템. - 제 5 항에 있어서,
상기 관리 서버는 기동중인 메타데이터 서버의 고장을 감지하면, 상기 고장난 메타데이터 서버에 대응하는 하위 메타데이터 서버를 상위 메타데이터 서버로 승격시키고, 상기 승격된 메타데이터 서버에 하위 메타데이터 서버를 할당한 뒤, 상기 승격된 메타데이터 서버로 상기 할당된 하위 메타데이터 서버의 정보를 전달하여 고장 회복 절차를 요청하며,
상기 고장 회복 절차의 요청에 따라 상기 승격된 메타데이터 서버는 자신의 메타데이터 서버에 대응하는 서비스를 실행하고, 상기 할당된 하위 메타데이터 서버로 메타데이터를 복제하는 것인 분산 파일 시스템. - 제 11 항에 있어서,
상기 클라이언트는 상기 고장난 메타데이터 서버와의 소켓 연결 실패를 감지함에 따라, 상기 관리 서버로 새로운 메타데이터 서버의 정보를 요청하면,
상기 관리 서버는 상기 승격된 메타데이터 서버의 정보를 상기 클라이언트로 전송하는 것인 분산 파일 시스템. - 제 2 항에 있어서,
상기 복수의 클라이언트는 상기 스위치를 통해 상기 제 1 내지 제 n 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버와 데이터를 송수신하되,
상기 관리 서버, 메타데이터 서버 및 데이터 서버는 상기 제 1 내지 n 평면 중 임의의 노드에 배치되는 것인 분산 파일 시스템. - 복수의 노드로 구성된 제 1 내지 제 n 평면 상에 배치된 복수의 메타데이터 서버, 복수의 데이터 서버 및 하나 이상의 관리 서버를 포함하는 분산 파일 시스템의 운영 방법에 있어서,
상기 관리 서버를 초기화 및 기동시키는 단계;
상기 관리 서버가 상기 제 1 내지 제 n 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버의 라우팅 기능을 활성화시키는 단계;
상기 관리 서버가 상기 복수의 메타데이터 서버를 초기화 및 기동시키는 단계;
상기 관리 서버가 상기 복수의 메타데이터 서버의 정보를 수신하여 상기 복수의 메타데이터 서버를 등록시키는 단계;
상기 관리 서버가 상기 복수의 메타데이터 서버의 가용성 관계를 설정하는 단계;
상기 관리 서버가 상기 복수의 데이터 서버를 초기화 및 기동시키는 단계 및
상기 관리 서버가 상기 데이터 서버의 정보를 수신하여 상기 데이터 서버를 등록시키는 단계를 포함하되,
상기 제 1 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버는 상기 제 2 내지 제 n 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버와 각각 스위치의 연결없이 상호 직접 연결되는 것인 분산 파일 시스템 운영 방법. - 제 14 항에 있어서,
상기 관리 서버가 클라이언트로부터 접속하고자 하는 볼륨 정보가 포함된 마운트 요청을 수신하는 단계;
상기 관리 서버가 상기 볼륨 정보에 포함된 루트 디렉토리 정보에 대응하는 메타데이터 서버를 검색하는 단계 및
상기 관리 서버가 상기 검색된 메타데이터 서버의 주소를 상기 클라이언트로 전송하는 단계를 더 포함하되,
상기 관리 서버는 상기 클라이언트로 상기 제 1 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버의 주소 리스트를 함께 전송하고,
상기 클라이언트는 메타데이터 서버의 주소 및 상기 주소 리스트를 로컬 스토리지에 언마운트 때까지 저장하는 것인 분산 파일 시스템 운영 방법. - 제 15 항에 있어서,
상기 복수의 클라이언트는 상기 스위치를 통해 상기 제 1 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버와만 데이터를 송수신하고,
상기 제 2 내지 제 n 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버는 상기 제 1 평면에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버를 통해 상기 복수의 클라이언트와 데이터를 송수신하되,
상기 관리 서버는 상기 제 1 평면의 노드에 배치되고,
상기 메타데이터 서버 및 데이터 서버는 상기 제 1 내지 n 평면 중 임의의 노드에 배치되는 것인 분산 파일 시스템 운영 방법. - 제 16 항에 있어서,
상기 클라이언트에 의해 선택된 중계 서버가, 상기 검색된 메타데이터 서버의 파일 정보를 상기 클라이언트로부터 요청받는 단계;
상기 중계 서버가 상기 파일 정보의 요청에 대응하여 상기 검색된 메타데이터 서버로 파일 정보를 요청하는 단계;
상기 중계 서버가 상기 검색된 메타데이터 서버로부터 상기 파일 정보를 수신하는 단계 및
상기 중계 서버가 상기 파일 정보를 상기 클라이언트로 전송하는 단계를 더 포함하되,
상기 중계 서버는 상기 클라이언트가 수신한 주소 리스트에 포함된 복수의 메타데이터 서버 및 복수의 데이터 서버 중 상기 검색된 메타데이터 주소와 최단 거리에 위치하는 것인 분산 파일 시스템 운영 방법. - 제 17 항에 있어서,
상기 검색된 메타데이터 서버가 상기 중계 서버를 통하여 상기 클라이언트로부터 파일 레이아웃을 요청받는 단계;
상기 검색된 메타데이터 서버가 상기 파일 레이아웃에 대응하는 데이터 서버들의 IP 주소를 결정하는 단계;
상기 검색된 메타데이터 서버가 상기 파일 레이아웃 및 상기 데이터 서버들의 IP 주소를 상기 중계 서버를 통해 상기 클라이언트로 전송하는 단계;
상기 클라이언트에 의해 읽고자 하는 파일이 저장된 데이터 서버가 결정됨에 따라, 상기 중계 서버가 상기 클라이언트로부터 상기 결정된 데이터 서버로 상기 파일을 요청하는 단계 및
상기 데이터 서버가 상기 중계 서버를 통하여 상기 클라이언트에 의해 요청된 파일을 전송하는 단계를 더 포함하는 것인 분산 파일 시스템 운영 방법. - 제 17 항에 있어서,
상기 검색된 메타데이터 서버가 상기 중계 서버를 통해 상기 클라이언트로부터 파일을 쓰고자 하는 데이터 서버의 정보를 요청받는 단계;
상기 검색된 메타데이터 서버가 상기 중계 서버를 통해 상기 클라이언트로 상기 데이터 서버의 정보 및 파일 레이아웃을 전송하는 단계;
상기 데이터 서버가 상기 중계 서버를 통해 상기 클라이언트로부터 파일 쓰기 요청을 수신하는 단계 및
상기 데이터 서버가 파일 쓰기 동작을 수행하는 단계를 더 포함하는 것인 분산 파일 시스템 운영 방법. - 제 16 항에 있어서,
상기 관리 서버가 기동중인 메타데이터 서버의 고장을 감지하는 단계;
상기 관리 서버가 상기 고장난 메타데이터 서버에 대응하는 하위 메타데이터 서버를 상위 메타데이터 서버로 승격시키는 단계;
상기 관리 서버가 상기 승격된 메타데이터 서버에 하위 메타데이터 서버를 할당하는 단계;
상기 관리 서버가 상기 승격된 메타데이터 서버로 상기 할당된 하위 메타데이터 서버의 정보를 전달하여 고장 회복 절차를 요청하는 단계;
상기 고장 회복 절차의 요청에 따라 상기 승격된 메타데이터 서버가 자신의 메타데이터 서버에 대응하는 서비스를 실행하는 단계 및
상기 승격된 메타데이터 서버가 상기 할당된 하위 메타데이터 서버로 메타데이터를 복제하는 단계를 더 포함하는 것인 분산 파일 시스템 운영 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150189369A KR101995056B1 (ko) | 2015-12-30 | 2015-12-30 | 분산 파일 시스템 및 이의 운영방법 |
US15/158,781 US9892129B2 (en) | 2015-12-30 | 2016-05-19 | Distributed file system and operating method of the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150189369A KR101995056B1 (ko) | 2015-12-30 | 2015-12-30 | 분산 파일 시스템 및 이의 운영방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170079137A KR20170079137A (ko) | 2017-07-10 |
KR101995056B1 true KR101995056B1 (ko) | 2019-07-02 |
Family
ID=59235658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150189369A KR101995056B1 (ko) | 2015-12-30 | 2015-12-30 | 분산 파일 시스템 및 이의 운영방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9892129B2 (ko) |
KR (1) | KR101995056B1 (ko) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10902144B2 (en) | 2017-08-25 | 2021-01-26 | Electronics And Telecommunications Research Institute | Method and apparatus for securing data |
KR102178740B1 (ko) * | 2017-11-22 | 2020-11-13 | 한국전자통신연구원 | 토러스 네트워크 기반의 분산 파일 시스템을 위한 서버 및 이를 이용한 방법 |
US11256696B2 (en) * | 2018-10-15 | 2022-02-22 | Ocient Holdings LLC | Data set compression within a database system |
KR102133840B1 (ko) * | 2018-11-16 | 2020-07-14 | 네이버 주식회사 | 라이브 서비스를 위한 분산 파일 시스템 및 데이터 처리 방법 |
KR102252199B1 (ko) * | 2018-12-17 | 2021-05-14 | 한국전자통신연구원 | 토러스 네트워크 기반 분산 파일 시스템 볼륨 성능 최적화 장치 및 방법 |
CN110955643A (zh) * | 2019-11-22 | 2020-04-03 | 浪潮电子信息产业股份有限公司 | 一种数据readdir方法、系统、设备及计算机介质 |
CN112347506A (zh) * | 2020-10-29 | 2021-02-09 | 珠海高凌信息科技股份有限公司 | 具有拟态防御特性的网络存储系统及方法 |
CN113821479A (zh) * | 2021-08-27 | 2021-12-21 | 济南浪潮数据技术有限公司 | 一种基于元数据加载的数据请求处理方法和装置 |
CN113824812B (zh) * | 2021-08-27 | 2023-02-28 | 济南浪潮数据技术有限公司 | 一种hdfs服务获取服务节点ip的方法、装置及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101341412B1 (ko) | 2009-12-18 | 2013-12-13 | 한국전자통신연구원 | 비대칭 분산 파일 시스템에서의 메타데이터 관리 장치 및 방법 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6928459B1 (en) * | 2000-07-18 | 2005-08-09 | International Business Machines Corporation | Plurality of file systems using weighted allocation to allocate space on one or more storage devices |
US6718428B2 (en) | 2000-12-18 | 2004-04-06 | Sun Microsystems, Inc. | Storage array interconnection fabric using a torus topology |
US8336040B2 (en) * | 2004-04-15 | 2012-12-18 | Raytheon Company | System and method for topology-aware job scheduling and backfilling in an HPC environment |
US8244882B2 (en) * | 2004-11-17 | 2012-08-14 | Raytheon Company | On-demand instantiation in a high-performance computing (HPC) system |
US7765385B2 (en) | 2007-04-18 | 2010-07-27 | International Business Machines Corporation | Fault recovery on a parallel computer system with a torus network |
KR101453425B1 (ko) | 2008-12-18 | 2014-10-23 | 한국전자통신연구원 | 메타데이터 서버 및 메타데이터 관리 방법 |
US8499222B2 (en) * | 2010-12-14 | 2013-07-30 | Microsoft Corporation | Supporting distributed key-based processes |
IL210169A0 (en) * | 2010-12-22 | 2011-03-31 | Yehuda Binder | System and method for routing-based internet security |
KR20120110871A (ko) * | 2011-03-30 | 2012-10-10 | 주식회사 케이티 | 분산 파일 시스템의 저장서버 결정 및 검색방법 |
US9053067B2 (en) * | 2011-09-30 | 2015-06-09 | International Business Machines Corporation | Distributed data scalable adaptive map-reduce framework |
KR101318426B1 (ko) * | 2011-12-26 | 2013-10-16 | 한국과학기술원 | 온칩 네트워크에서 토러스 토폴로지를 이용한 라우팅 시스템 및 라우팅 방법 |
US9424229B2 (en) | 2013-02-13 | 2016-08-23 | Advanced Micro Devices, Inc. | Parallel torus network interconnect |
KR20150061258A (ko) | 2013-11-27 | 2015-06-04 | 한국전자통신연구원 | 분산 raid 시스템에서 패리티 청크 운용 방법과 이를 지원하는 데이터 서버 장치 |
-
2015
- 2015-12-30 KR KR1020150189369A patent/KR101995056B1/ko active IP Right Grant
-
2016
- 2016-05-19 US US15/158,781 patent/US9892129B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101341412B1 (ko) | 2009-12-18 | 2013-12-13 | 한국전자통신연구원 | 비대칭 분산 파일 시스템에서의 메타데이터 관리 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
US9892129B2 (en) | 2018-02-13 |
KR20170079137A (ko) | 2017-07-10 |
US20170192964A1 (en) | 2017-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101995056B1 (ko) | 분산 파일 시스템 및 이의 운영방법 | |
US20200192588A1 (en) | Data migration agnostic of pathing software or underlying protocol | |
US8682968B2 (en) | Method, system, and node for node interconnection on content delivery network | |
US20180203866A1 (en) | Distributed object storage | |
US9986033B2 (en) | Facilitating access to remote cloud services | |
US8214529B2 (en) | Automatic network cluster path management | |
US10466935B2 (en) | Methods for sharing NVM SSD across a cluster group and devices thereof | |
RU2637428C2 (ru) | Масштабируемый прямой обмен данными между узлами через шину межсоединения периферийных компонентов типа экспресс (pcie) | |
US20140189128A1 (en) | Cluster system with calculation and storage converged | |
US20210034270A1 (en) | Volume migration in a federated storage array with non-volatile memory express over fabric (nvmeof) host attachment | |
US20170026469A1 (en) | Network-based elastic storage | |
US10599354B1 (en) | Block storage with volume locality placement based on performance requirements | |
CN112199419A (zh) | 一种分布式时序数据库、存储方法、设备及存储介质 | |
JP5503678B2 (ja) | ホスト提供システム及びホスト提供方法 | |
US10986065B1 (en) | Cell-based distributed service architecture with dynamic cell assignment | |
KR101714412B1 (ko) | 클라우드 환경에서 데이터베이스 시스템을 구성하는 방법 및 장치 | |
KR101778907B1 (ko) | 분산 저장 시스템에서의 캐시 및 비-캐시 사용 | |
CN113411363A (zh) | 一种镜像文件的上传方法、相关设备及计算机存储介质 | |
US10924454B2 (en) | Computing device and method for generating a fabric-wide IPV6 address | |
US10171292B1 (en) | Deploying a cloud infrastructure in a remote site | |
KR102024934B1 (ko) | 분산 파일 시스템 및 이의 파일 연산 처리 방법 | |
US20230091184A1 (en) | Techniques for creating connections in a network fabric | |
CN111078135B (zh) | 数据处理环境中的虚拟节点的增强数据存储 | |
US7698424B1 (en) | Techniques for presenting multiple data storage arrays to iSCSI clients as a single aggregated network array | |
TWI695329B (zh) | 一種建置於容器平台的資料碎片管理系統及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |