KR100496872B1 - 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유레이드 시스템 및 그 오류 복구 방법 - Google Patents

다중 레이드제어기 오류 복구 기능을 구비한 분산 공유레이드 시스템 및 그 오류 복구 방법 Download PDF

Info

Publication number
KR100496872B1
KR100496872B1 KR10-2002-0082897A KR20020082897A KR100496872B1 KR 100496872 B1 KR100496872 B1 KR 100496872B1 KR 20020082897 A KR20020082897 A KR 20020082897A KR 100496872 B1 KR100496872 B1 KR 100496872B1
Authority
KR
South Korea
Prior art keywords
raid controller
mirroring
raid
cache
write
Prior art date
Application number
KR10-2002-0082897A
Other languages
English (en)
Other versions
KR20040056295A (ko
Inventor
석성우
이상민
최준영
박종원
김명준
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2002-0082897A priority Critical patent/KR100496872B1/ko
Publication of KR20040056295A publication Critical patent/KR20040056295A/ko
Application granted granted Critical
Publication of KR100496872B1 publication Critical patent/KR100496872B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1471Saving, restoring, recovering or retrying involving logging of persistent data for recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2089Redundant storage control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

본 발명은 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유 레이드 시스템 및 그 오류 복구 방법에 관한 것이다.
본 발명은 레이드제어기간의 관계를 환형 연결리스트(circular linked list)로 연결하여 연결리스트에서 앞쪽에 해당하는 레이드제어기의 주요 데이터를 뒤쪽에 해당하는 레이드제어기에 미러링해두고, 레이드제어기 오류 발생시 미러링으로 보존된 레이드제어기의 주요데이터를 사용하여 해당 레이드제어기의 기능을 타 레이드제어기가 수행 가능하도록 되어 있으며,
이에 따라서, 분산 공유 레이드 시스템의 기능이 정지됨이 없이 계속 작동 가능하도록 하고, 환형 연결리스트에서 인접한 두 개의 레이드제어기에서 동시에 오류가 발생하지 않는 한 오류 복구가 가능하므로 분산 공유 레이드시스템의 오류 내구성을 향상시키는 장점이 있다.

Description

다중 레이드제어기 오류 복구 기능을 구비한 분산 공유 레이드 시스템 및 그 오류 복구 방법 { Distributed and shared RAID system with fault recovery function for RAID controllers and fault recovery method thereof }
본 발명은 레이드(RAID; Redundant Array of Indepndent Disks) 시스템에 관한 것이며, 보다 상세히는 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유 레이드 시스템 및 그 오류 복구 방법에 관한 것이다.
인터넷 이용자수의 증가와 네트워크의 고속화로 인해 서버에 요구되는 데이터량은 기하급수적으로 증가하고 있으며, 이에 따라 서버에 접속되어 사용되는 저장장치(예컨대, 하드디스크)의 데이터 전송속도 역시 크게 증가하고 있다.
공지된 바와 같이, 하드디스크와 같은 저장장치의 전송속도를 높이기 위하여 일반적으로 가장 많이 사용되고 있는 방법 중에 대표적인 것은 레이드를 구성하여 입출력 대역폭을 늘리는 것이며, 상기 레이드의 처리 대역폭을 증가시키기 위해 복수개의 레이드제어기들이 입출력 부하를 분산해서 처리하는 분산 공유 레이드 시스템이 제안되고 있다.
종래의 레이드제어기는 입출력속도를 높이기 위해 대용량의 메모리버퍼를 사용하여 읽기/쓰기 데이터를 메모리에 캐쉬하도록 설계되고 있다.
그러나, 이러한 종래의 레이드제어기는 내부 오류로 인해 메모리에 캐슁된 데이터의 손실이 발생하였을 때, 읽기데이터의 경우에는 속도저하 이외의 큰 문제가 없지만 쓰기데이터의 손실은 복구 불가능하기 때문에 캐쉬 정책을 라이트-쓰루(Write-through)로 하여, 쓰기데이터를 강제적으로 디스크에 기록하거나, 미러링을 통하여 데이터의 손실을 막게 된다. 여기서, 미러링은 레이드제어기에 쓰기 캐쉬되는 데이터를 포함하여 레이드시스템의 작동에 필수적인 데이터에 대해 다른 레이드제어기 혹은 NVRAM에 복사본을 만들어 두고, 레이드제어기에 오류가 발생할 경우, 복사본을 사용하여 복구 작업을 수행함으로써 오류 내구성을 높이는 방법이다.
하지만, 이러한 라이트-쓰루(Write-through) 정책에서는 쓰기성능의 저하가 크기 때문에, 이러한 문제를 해소하기 위하여 성능이 중요한 데이터저장시스템에서는 라이트-백(Write-back)정책을 사용하고, 미러링 캐쉬를 두어서 오류 발생에 대비하고 있다.
예컨대, 데이터저장시스템을 위한 여분의 비대칭 병렬 디스크 캐쉬(Redundant, Asymmetrically Parallel Disk Cache for a Data Storage System)에 관한 기술이 개시된 미국특허 제6,243,795호(출원일; 1998년 8월 4일)에서는, NVRAM으로 구성된 백업 쓰기 캐쉬(Backup write cache)를 사용하여 쓰기 캐쉬 데이터를 미러링하고, 오류 발생시 NVRAM의 데이터를 사용하여 쓰기 캐쉬 데이터의 손실을 방지하는 방법을 제안하고 있다.
그러나, 상기 미국특허 제6,243,795호는 쓰기 캐쉬에 대한 미러링을 제공함으로써 오류 내구성을 증가시켰지만, 미러링 캐쉬가 제어기의 내부에 존재하기 때문에 제어기의 기능을 복구하기 위해서는 해당 제어기의 리셋에 해당하는 시간이 필요하게 되고, 레이드제어기의 오류 발생시 저장시스템 기능의 수행이 상당시간 동안 불가능해지는 단점이 있다.
대용량 디스크 저장 장치 및 이를 위한 폴트 톨로런스 제공 방법이 개시되어 있는 대한민국특허 제2002-0036576호(출원일; 2000년 11월 10일)에서는, 두 개의 레이드제어기를 사용하여 주제어기의 캐쉬에 대한 미러링 캐쉬를 부제어기가 유지함으로써, 제어기 오류 발생 시 오류가 발생한 제어기를 검출하고 오류가 발생하지 않은 제어기를 계속 사용가능 하도록 함으로써 쓰기 캐쉬 데이터의 손실을 제거하고 오류 내구성을 증가시키는 방법을 제안하고 있다.
그러나, 상기 대한민국특허 제2002-0036576호는 쓰기 캐쉬에 대한 미러링을 제공하고 여분의 레이드제어기를 사용하여 오류 내구성을 증가시켰지만, 두 개의 레이드제어기 중에서 하나의 레이드제어기만이 동작하기 때문에 가용한 레이드제어기의 처리능력을 효율적으로 사용하지 못하고, 미러링을 위해서는 레이드제어기의 구성이 반드시 짝수 개여야 하는 단점이 있다.
따라서, 본 발명은 상술한 종래의 문제점을 극복하기 위한 것으로서, 본 발명의 목적은 다중 레이드제어기를 사용하여 구성된 분산 공유 레이드 시스템에서의 레이드제어기간에 환형 연결리스트(circular linked list)로 논리적 연결을 구성하여 연결리스트에서 앞쪽에 해당하는 레이드제어기의 쓰기 캐쉬 데이터를 뒤쪽에 해당하는 레이드제어기로 미러링(mirroring)해둠으로써 레이드제어기 오류 발생시 오류가 발생한 레이드제어기의 미러링데이터를 가진 레이드제어기가 오류가 발생한 레이드제어기의 기능을 계속 수행하도록 된 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유 레이드 시스템 및 그 오류 복구 방법을 제공하는데 있다.
상기 본 발명의 목적을 달성하기 위한 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유 레이드 시스템은, 제1광채널스위치를 통하여 복수의 호스트와 연결되고, 복수의 JBOD가 연결된 제2광채널스위치를 통하여 상기 복수의 JBOD에 대한 호스트의 입출력 요청을 수행하여 복수의 JBOD를 관리하며, 네트워크 스위치를 통하여 서로 통신하는 복수의 레이드제어기로 구성된 분산 공유 레이스 시스템에 있어서, 상기 복수의 레이드제어기들이 각각 자신의 쓰기 캐쉬와 동일한 크기의 오류 복구용 미러링 캐쉬를 가지고 있으며, 첫 번째 레이드제어기에서부터 마지막 레이드제어기까지 순차적으로 이전 레이드제어기의 쓰기 캐쉬에 저장한 데이터를 바로 다음 레이드제어기의 미러링 캐쉬에 미러링하고, 상기 마지막 레이드제어기의 쓰기 캐쉬에 저장한 데이터를 상기 첫 번째 레이드제어기의 미러링 캐쉬에 미러링하는 환형 연결리스트 구조로 된 것을 특징으로 한다.
상기 본 발명의 목적을 달성하기 위한 분산 공유 레이드 시스템의 다중 레이드제어기 오류 복구 방법은, 특정 호스트가 환형 연결리스트 구조로 된 복수의 레이드 제어기들 중에서 특정 레이드제어기로 쓰기 요청을 전송하면 해당 레이드제어기가 쓰기 요청과 함께 호스트가 전송한 쓰기 데이터를 자신의 쓰기 캐쉬에 저장한 후, 미러링 캐쉬를 가진 바로 다음 순서의 미러링 레이드제어기에 미러링 데이터 저장 요청과 함께 쓰기 데이터를 전송하여 상기 미러링 레이드제어기의 미러링 캐쉬에 쓰기 데이터를 저장하는 단계; 및 상기 미러링 레이드제어기에 특정 레이드제어기의 쓰기 데이터가 저장된 상태에서, 상기 특정 레이드제어기가 또다시 특정 호스트의 쓰기 요청에 따라서 자신의 쓰기 캐쉬에 쓰기 데이터를 저장한 다음 상기 미러링 레이드제어기로 미러링 데이터 저장 요청을 했을 때, 미리 특정한 제한 시간이 경과할 때까지 상기 미러링 레이드제어기로부터 응답이 없거나 오류가 리턴되면 상기 특정 레이드제어기는 상기 미러링 레이드제어기에 오류가 발생한 것으로 판단하고 상기 미러링 레이드제어기의 바로 다음 순서의 레이드제어기로 오류 발생을 통보하여 환형 연결리스트의 구조를 재구성하여 상기 미러링 레이드제어기의 바로 다음 순서의 레이드제어기를 새로운 미러링 레이드제어기로 할당하여 오류 복구를 수행한 후 이 새로 할당된 미러링 레이드제어기로 미러링 데이터 저장 요청과 함께 쓰기 데이터를 전송하고 이 새로 할당된 미러링 레이드제어기의 미러링 캐쉬에 쓰기 데이터를 저장하는 단계로 이루어진다.
이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.
도 1을 참조하면, 본 발명에 따른 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유 레이드 시스템에 있어서, 모든 레이드제어기(101∼104)는 이더넷, 광채널, SCI(Scalable Coherence Interface)등의 네트워크로 연결되어 상호 통신 가능하도록 구성된다.
각각의 레이드제어기(101∼104)는 논리적인 환형 연결 리스트 구조로 구성되어 리스트에서 앞쪽에 해당하는 레이드제어기(101∼104)의 쓰기 캐쉬 데이터를 뒤쪽에 해당하는 레이드제어기(101∼104)의 미러링 캐쉬에 미러링해둠으로써 오류시 쓰기캐쉬 데이터의 손실을 방지하고, 레이드제어기(101∼104) 오류 발생시 해당 레이드제어기(101∼104)의 역할을 해당 레이드제어기(101∼104)에 대한 미러링 캐쉬를 가진 레이드제어기(101∼104)가 승계함으로써 정지 없이 동작이 가능하도록 한다.
복수의 호스트(201,202,203)는 제1광채널(FC) 스위치(500)나 허브를 통하여 복수의 레이드제어기(101∼104)와 연결되어 데이터를 입출력하게 된다.
복수의 레이드제어기(101,102,103,104)는 제2광채널(FC) 스위치(600)나 허브를 통하여 연결된 JBOD(Just a Bunch Of Disks; 301,302,303,304)를 레이드로 구성하여 관리한다.
복수의 레이드제어기(101∼104)는 네트워크 스위치(400)를 통하여 서로 통신한다.
상기와 같이 구성된 본 발명에 따른 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유 레이드 시스템은 다음과 같이 작동한다.
도 2를 참조하면, 상기 분산 공유 레이드 시스템의 복수의 레이드제어기(101∼104)는 서로간에 논리적인 환형 연결 리스트 구조를 구성한다.
각각의 레이드제어기(101∼104)는 자신의 쓰기 캐쉬와 동일한 크기의 미러링 쓰기 캐쉬 영역을 가진다.
상기 복수의 레이드제어기 101, 102, 103, 104는 101-102-103-104의 순서로 연결리스트를 구성하며, 104는 다시 101에 연결되어 환형 연결리스트를 구성한다.
이러한 환형 연결리스트 구성에서 101의 쓰기 캐쉬에 대한 미러링 캐쉬는 102에 존재하며, 102의 쓰기 캐쉬에 대한 미러링 캐쉬는 103에, 103의 쓰기 캐쉬에 대한 미러링 캐쉬는 104에, 104의 쓰기 캐쉬에 대한 미러링 캐쉬는 101에 존재하게 된다.
도 3은 쓰기요청을 받은 레이드제어기와 미러링 캐쉬를 가진 미러링 레이드제어기가 정상적인 상태일 때의 쓰기요청 처리과정을 도시한 것이다.
도 3을 참조하면, 특정 호스트(201)가 레이드제어기(102)로 쓰기 요청을 전송하면 레이드제어기(102)는 전송된 쓰기 데이터를 자신의 쓰기 캐쉬에 저장하고, 미러링 캐쉬를 가진 미러링 레이드제어기(103)에 미러링 데이터 저장 요청을 전송한다.
이어서, 미러링 캐쉬를 가진 미러링 레이드제어기(103)는 데이터를 수신해서 미러링 캐쉬에 저장하고 저장 완료를 해당 레이드제어기(102)로 통보하고, 해당 레이드제어기(102)는 쓰기 완료되었음을 호스트(201)로 통보한다.
도 4는 미러링 캐쉬를 가진 레이드제어기(103)에 오류가 발생하여 미러링 기능을 수행할 수 없는 경우의 쓰기 요청 처리과정을 도시한 것이다.
도 3과 동일하게 호스트(201)의 쓰기 요청을 처리하는 중에 미러링 캐쉬를 가진 미러링 레이드제어기(103)의 응답이 없거나 오류가 리턴된 경우에는 해당 상기 특정 레이드제어기(102)는 해당 미러링 레이드제어기(103)에 오류가 발생한 것으로 판단하고 다른 레이드제어기(104), 즉 상기 미러링 레이드제어기(103)의 바로 다음 순서의 레이드제어기(104)로 오류 발생을 통보하여 환형 연결리스트의 재구성 및 오류 복구를 수행하게 된다. 이때, 상기 미러링 레이드제어기(103)의 바로 다음 순서의 레이드제어기(104)도 역시 환형 연결리스트의 재구성 및 오류 복구를 수행하게 된다
상기 특정 레이드제어기(102)와 새로운 미러링 레이드제어기(104)가 모두 환형 연결리스트를 재구성하고 나면, 상기 특정 레이드제어기(102)는 새로 할당된 미러링 레이드제어기(104)로 미러링 캐쉬에 대한 저장을 요청하고, 이에 따라서 새롭게 할당된 미러링 캐쉬를 가진 미러링 레이드제어기(104)는 데이터를 수신해서 미러링 캐쉬에 저장하고 저장 완료를 해당 레이드제어기(102)로 통보하며, 해당 레이드제어기(102)는 쓰기 완료되었음을 호스트(201)로 통보한다.
이때, 만약 상기 호스트(201)에서 특정 레이드제어기(102,103,104)로 보낸 요청에 오류가 발생하면, 상기 호스트(201)는 해당 레이드제어기(102,103,104)를 마스킹함으로써 해당 레이드제어기(103)로 더 이상의 입출력 요청을 전달하지 않는다.
도 5는 도 3에 도시된 바와 같이 미러링 레이드제어기(103)에 오류가 발생했을 때 복수의 레이드제어기(101∼104)간의 환형 연결리스트를 재구성한 상태를 도시한 구성도이다.
본 발명에 따르면 오류가 발생한 레이드제어기 103은 환형 연결리스트에서 제거되고, 103의 앞과 뒤에 해당하는 레이드제어기 102와 104가 서로 연결되어 새로운 환형 연결리스트를 구성하게 된다. 새로운 환형 연결리스트에서 레이드제어기 102의 쓰기 캐쉬는 레이드제어기 104에 미러링되어 저장되게 된다.
상기와 같이 레이드제어기 103에 오류가 발생했을 때 레이드제어기 102와 104가 서로 연결되어 새로운 환형 연결리스트를 구성하기 위해서 상기 레이드제어기 102와 104는 다음과 같이 작동하여 각각 이전에 저장되었던 쓰기 캐쉬 데이터와 미러링 캐쉬 데이터를 JBOD로 전송하고 캐쉬의 상태를 초기화시킨다.
먼저, 상기 레이드제어기 102와 104는 각각 자신의 쓰기 캐쉬와 미러링 캐쉬에 저장된 데이터 중에서 상기 오류가 발생한 레이드제어기 103의 미러링 캐쉬와 쓰기 캐쉬에 각각 저장되어 있는 데이터, 즉 더티(Dirty) 데이터를 찾아 복수의 JBOD(301,302,303,304)의 해당 디스크에 저장한다.
이어서, 상기 레이드제어기 102와 104는 각각 자신의 쓰기 캐쉬와 미러링 캐쉬의 엔트리를 모두 삭제한 다음 서로의 미러링 관계를 설정하며, 이에 따라서 이후에 상기 레이드제어기 102에 들어오는 모든 쓰기 요청 처리에 대응하는 쓰기 데이터는 레이드제어기 104에 미러링된다.
특히, 상기 레이드제어기 102와 104가 각각 캐쉬를 초기화하고 서로의 미러링 관계를 새롭게 설정하는 동안, 상기 레이드제어기 102와 104는 모든 쓰기 요청을 내부 큐(queue)에 대기시킨 후, 상기 캐쉬 초기화 및 미러링 관계 설정 과정이 완료된 후에 내부 큐에 저장된 요청들을 하나씩 처리함으로써 정상적인 동작 상태로 전환된다.
상술한 바와 같이 본 발명에 따른 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유 레이드 시스템 및 그 오류 복구 방법은 환형 연결리스트로 레이드제어기간의 미러링 관계를 구성함으로써 레이드제어기의 오류가 발생할 경우 해당 레이드제어기에 저장된 쓰기 캐쉬 데이터의 손실을 방지하면서 레이드제어기의 성능을 효율적으로 사용 가능하다는 장점이 있다.
또한, 본 발명에 따른 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유 레이드 시스템 및 그 오류 복구 방법은 동시에 연속된 2개 이상의 레이드제어기에 오류가 발생하지 않는다면 다수의 레이드제어기에 오류가 발생하여도 복구가 가능하게 되며, 복구과정에 걸리는 시간을 최소로 하여 호스트의 입출력 요청을 정지 없이 계속 처리할 수 있는 장점이 있다.
이상에서 설명한 것은 본 발명에 따른 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유 레이드 시스템 및 그 오류 복구 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.
도 1은 본 발명에 따른 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유 레이드 시스템을 도시한 구성도,
도 2는 본 발명에 따른 레이드제어기간의 논리적 환형 연결리스트 구조 및 쓰기 캐쉬 미러링 관계를 도시한 구성도,
도 3은 본 발명에 따른 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유 레이드 시스템이 정상적으로 호스트의 쓰기 요청을 처리하는 과정을 도시한 흐름도,
도 4는 미러링 레이드제어기에 오류가 발생했을 때 호스트의 쓰기 요청을 처리하는 과정과 오류 검출 및 복구 과정을 도시한 흐름도,
도 5는 미러링 레이드제어기에 오류가 발생했을 때 레이드제어기간의 환형 연결리스트를 재구성한 상태를 도시한 구성도이다.
<도면의 주요 부분에 대한 부호의 설명>
101,102,103,104: 레이드제어기
201,202,203: 호스트
301,302,303: JBOD
400: 네트워크 스위치
500: 제1광채널 스위치
600: 제2광채널 스위치

Claims (3)

  1. 제1광채널스위치를 통하여 복수의 호스트와 연결되고, 복수의 JBOD가 연결된 제2광채널스위치를 통하여 상기 복수의 JBOD에 대한 호스트의 입출력 요청을 수행하여 복수의 JBOD를 관리하며, 네트워크 스위치를 통하여 서로 통신하는 복수의 레이드제어기로 구성된 분산 공유 레이스 시스템에 있어서,
    상기 복수의 레이드제어기들이 각각 자신의 쓰기 캐쉬와 동일한 크기의 오류 복구용 미러링 캐쉬를 가지고 있으며,
    첫 번째 레이드제어기에서부터 마지막 레이드제어기까지 순차적으로 이전 레이드제어기의 쓰기 캐쉬에 저장한 데이터를 바로 다음 레이드제어기의 미러링 캐쉬에 미러링하고, 상기 마지막 레이드제어기의 쓰기 캐쉬에 저장한 데이터를 상기 첫 번째 레이드제어기의 미러링 캐쉬에 미러링하는 환형 연결리스트 구조로 된 것을 특징으로 하는 레이드제어기 오류 복구 기능을 구비한 분산 공유 레이드 시스템.
  2. 특정 호스트가 환형 연결리스트 구조로 된 복수의 레이드 제어기들 중에서 특정 레이드제어기로 쓰기 요청을 전송하면 해당 레이드제어기가 쓰기 요청과 함께 호스트가 전송한 쓰기 데이터를 자신의 쓰기 캐쉬에 저장한 후, 미러링 캐쉬를 가진 바로 다음 순서의 미러링 레이드제어기에 미러링 데이터 저장 요청과 함께 쓰기 데이터를 전송하여 상기 미러링 레이드제어기의 미러링 캐쉬에 쓰기 데이터를 저장하는 단계; 및
    상기 미러링 레이드제어기에 특정 레이드제어기의 쓰기 데이터가 저장된 상태에서, 상기 특정 레이드제어기가 또다시 특정 호스트의 쓰기 요청에 따라서 자신의 쓰기 캐쉬에 쓰기 데이터를 저장한 다음 상기 미러링 레이드제어기로 미러링 데이터 저장 요청을 했을 때, 미리 특정한 제한 시간이 경과할 때까지 상기 미러링 레이드제어기로부터 응답이 없거나 오류가 리턴되면 상기 특정 레이드제어기는 상기 미러링 레이드제어기에 오류가 발생한 것으로 판단하고 상기 미러링 레이드제어기의 바로 다음 순서의 레이드제어기로 오류 발생을 통보하여 환형 연결리스트의 구조를 재구성하여 상기 미러링 레이드제어기의 바로 다음 순서의 레이드제어기를 새로운 미러링 레이드제어기로 할당하여 오류 복구를 수행한 후 이 새로 할당된 미러링 레이드제어기로 미러링 데이터 저장 요청과 함께 쓰기 데이터를 전송하고 이 새로 할당된 미러링 레이드제어기의 미러링 캐쉬에 쓰기 데이터를 저장하는 단계
    로 이루어진 것을 특징으로 하는 분산 공유 레이드 시스템의 다중 레이드제어기 오류 복구 방법.
  3. 제 2 항에 있어서, 상기 특정 레이드제어기가 미러링 레이드제어기에 대한 오류를 검출한 후에, 상기 특정 제이드제어기는 오류 검출된 미러링 레이드제어기의 미러링 캐쉬에 저장한 데이터를 자신의 쓰기 캐쉬에서 찾아 이 데이터가 해당하는 JBOD에 저장하여 쓰기 캐쉬를 초기화하고, 상기 오류 검출된 미러링 레이드제어기의 바로 다음 레이드제어기는 상기 미러링 레이드제어기의 쓰기 캐쉬에 저장한 데이터를 자신의 미러링 캐쉬에서 찾아 이 데이터가 해당하는 JBOD에 저장하여 미러링 캐쉬를 초기화한 후, 서로간의 연결을 설정하여 환형 연결리스트 구조를 재구성하는 것을 특징으로 하는 분산 공유 레이드 시스템의 다중 레이드제어기 오류 복구 방법.
KR10-2002-0082897A 2002-12-23 2002-12-23 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유레이드 시스템 및 그 오류 복구 방법 KR100496872B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0082897A KR100496872B1 (ko) 2002-12-23 2002-12-23 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유레이드 시스템 및 그 오류 복구 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0082897A KR100496872B1 (ko) 2002-12-23 2002-12-23 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유레이드 시스템 및 그 오류 복구 방법

Publications (2)

Publication Number Publication Date
KR20040056295A KR20040056295A (ko) 2004-06-30
KR100496872B1 true KR100496872B1 (ko) 2005-06-22

Family

ID=37348692

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0082897A KR100496872B1 (ko) 2002-12-23 2002-12-23 다중 레이드제어기 오류 복구 기능을 구비한 분산 공유레이드 시스템 및 그 오류 복구 방법

Country Status (1)

Country Link
KR (1) KR100496872B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100793224B1 (ko) * 2005-10-28 2008-01-10 후지쯔 가부시끼가이샤 Raid 시스템, raid 컨트롤러 및 그 재구성/재복사처리 방법
US10467094B2 (en) 2016-03-04 2019-11-05 Samsung Electronics Co., Ltd. Method and apparatus for performing data recovery in a raid storage

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286127B (zh) * 2008-05-08 2010-06-02 华中科技大学 一种多叉日志存储的连续数据保护和恢复方法
KR102318478B1 (ko) 2014-04-21 2021-10-27 삼성전자주식회사 스토리지 컨트롤러, 스토리지 시스템 및 상기 스토리지 컨트롤러의 동작 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100793224B1 (ko) * 2005-10-28 2008-01-10 후지쯔 가부시끼가이샤 Raid 시스템, raid 컨트롤러 및 그 재구성/재복사처리 방법
US10467094B2 (en) 2016-03-04 2019-11-05 Samsung Electronics Co., Ltd. Method and apparatus for performing data recovery in a raid storage

Also Published As

Publication number Publication date
KR20040056295A (ko) 2004-06-30

Similar Documents

Publication Publication Date Title
US7020669B2 (en) Apparatus, method and system for writing data to network accessible file system while minimizing risk of cache data loss/ data corruption
US10496296B2 (en) Low overhead resynchronization snapshot creation and utilization
US7120824B2 (en) Method, apparatus and program storage device for maintaining data consistency and cache coherency during communications failures between nodes in a remote mirror pair
US6678788B1 (en) Data type and topological data categorization and ordering for a mass storage system
JP5159797B2 (ja) フェイルオーバ後のキャッシュ・データの保存
US10133883B2 (en) Rapid safeguarding of NVS data during power loss event
US6691209B1 (en) Topological data categorization and formatting for a mass storage system
US9600375B2 (en) Synchronized flashcopy backup restore of a RAID protected array
US20150012699A1 (en) System and method of versioning cache for a clustering topology
WO2015052798A1 (ja) ストレージシステム及び記憶制御方法
US7822892B2 (en) Managing the copying of writes from primary storages to secondary storages across different networks
US6983396B2 (en) Apparatus for reducing the overhead of cache coherency processing on each primary controller and increasing the overall throughput of the system
US6332197B1 (en) System for updating data in a multi-adaptor environment
US20030158999A1 (en) Method and apparatus for maintaining cache coherency in a storage system
JP2008046986A (ja) ストレージシステム
US20130124812A1 (en) Facilitation of simultaneous storage initialization and data destage
US10831386B2 (en) Remote direct memory access
JP2009187483A (ja) ストレージサブシステム及びこれの制御方法
US10877922B2 (en) Flushes based on intent log entry states
US8140811B2 (en) Nonvolatile storage thresholding
US6128762A (en) Updating and reading data and parity blocks in a shared disk system with request forwarding
WO2008084007A1 (en) Using virtual copies in a failover and failback environment
US10877674B2 (en) Determining layout templates identifying storage drives
CN113326006B (zh) 一种基于纠删码的分布式块存储系统
JP4939205B2 (ja) データ記憶システムに配置された記憶アレイを再構成するための装置及び方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110609

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee