KR20110065504A

KR20110065504A - 교체 유닛의 테스트를 관리하기 위한 교체가능 유닛을 포함한 전산화된 저장소 시스템

Info

Publication number: KR20110065504A
Application number: KR20117007816A
Authority: KR
Inventors: 폴 니콜라스 캐쉬만; 조나단 이안 세틀; 티모시 핀바르 맥카시; 로데릭 가이 무어; 조나단 윌리엄 루이스 쇼트
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2008-10-02
Filing date: 2009-10-01
Publication date: 2011-06-15
Also published as: US20120239983A1; US9298527B2; WO2010037814A4; US20110144939A1; CN102171662B; JP5296878B2; JP2012504808A; WO2010037814A1; CN102171662A; US8639466B2; US9286151B2; US20140089740A1; EP2291743B1; TW201028841A; EP2291743A1

Abstract

하나 이상의 교체 유닛들의 테스트를 관리하기 위한, 하나 이상의 교체가능 유닛들을 포함한 전산화된 저장소 시스템에서의 사용을 위한 방법, 장치 및 소프트웨어가 개시되며, 저장소 시스템은 주어진 유닛이 교체된 것에 응답하여 자동적으로 테스트 모드에 놓이게 되며, 만약 테스트가 실패하면 저장소 시스템은 서비스 모드로 자동적으로 페일백한다.

Description

교체 유닛의 테스트를 관리하기 위한 교체가능 유닛을 포함한 전산화된 저장소 시스템{A COMPUTERISED STORAGE SYSTEM COMPRISING REPLACEABLE UNITS FOR MANAGING TESTING OF REPLACEMENT UNITS}

본 발명은 하나 이상의 교체 유닛들의 테스트를 관리하기 위한, 하나 이상의 교체가능 유닛들을 포함한 전산화된 저장소 시스템에서의 사용을 위한 방법, 장치 또는 소프트웨어에 관한 것이다.

통상적으로 컴퓨터 시스템은 구별되는 상호연결된 컴포넌트들의 세트로부터 구축된다. 유닛들이 결함이 있게 될 때, 유닛들은 옳바르게 작동하는 유닛으로 교체될 필요가 있다. 고 가용성(high availability) 저장소 시스템과 같은, 몇몇 컴퓨터 시스템들은 중요 유닛들이 복제되어 있는 빌트인 리던던시(built-in redundancy)를 갖는다. 중요 유닛들은 디스크 어레이, 인터페이스 카드 및 연결 케이블과 같은 유닛들일 수 있으며, 이것들은 어느 것이라도 결함이 있게 될 수 있고 교체를 필요로 할 수 있다. 이와 같은 시스템에서, 결함있는 유닛이 교체되는 동안에 연속적인 서비스를 제공하기 위해 복제 유닛들에 의해 제공된 리던던시가 이용될 수 있다. 예를 들어, 연결 케이블이 교체될 필요가 있다라고 제시하는 결함 또는 에러가 검출되면, 사용자 입력/출력(I/O)은 교체가 수행되는 동안에 복제 유닛으로 전환된다. 교체 유닛이 적소에 위치되면, 이것은 사용자 I/O를 통해 사용가능해진다.

하지만, 결함 또는 에러가 잘못진단되었다거나, 교체 유닛이 결함이 있다거나, 또는 하나 보다 많은 유닛들이 결함에 기여하고 있다면 결함 또는 에러는 재발할 수 있다. 게다가, 사용자 IO는 붕괴될 수 있기 때문에 교체된 유닛은 검출된 결함이나 에러를 수정하지 못한다.

이에 따라 본 발명은, 제1 양태에서, 하나 이상의 교체 유닛들의 테스트를 관리하기 위한, 하나 이상의 교체가능 유닛들을 포함한 전산화된 저장소 시스템에서의 사용을 위한 방법을 제공하며, 상기 방법은,

a) 저장소 시스템에서 교체를 위한 교체가능 유닛을 확인하고 상기 저장소 시스템을 서비스 모드로 스위칭하는 단계;

b) 교체 유닛과의 상기 교체가능 유닛의 교체에 응답하여 상기 저장소 시스템을 테스트 모드로 자동적으로 스위칭하는 단계;

c) 상기 교체 유닛의 작동을 검증하기 위해 미리결정된 테스트 정책에 따라 상기 교체 유닛을 테스트하는 단계;

d) 만약 상기 선택된 엘리먼트의 테스트가 성공적이면 상기 저장소 시스템을 온라인 모드로 복귀시키는 단계를 포함한다.

바람직하게, 상기 테스트를 위해 상기 교체 유닛과 결합되어 사용하기 위한 하나 이상의 추가적인 유닛들이 상기 저장소 시스템으로부터 선택된다. 바람직하게, 상기 교체 유닛의 풀 동작 능력을 테스트하기 위한 적절한 입력/출력(I/O) 경로를 제공하기 위해, 상기 교체 유닛과 결합되어 사용하기 위한 상기 추가적인 유닛들이 선택된다.

바람직하게, 상기 추가적인 유닛들은 상기 테스트에서의 사용을 위해 자동적으로 확인되고 선택된다.

바람직하게, 상기 테스트에서 어떠한 결함도 검출되지 않았다면, 상기 저장소 시스템은 자동적으로 상기 온라인 모드로 복귀한다. 바람직하게, 만약 상기 테스트 동안에 미리결정된 결함 레벨이 검출되면, 상기 저장소 시스템은 자동적으로 상기 서비스 모드로 복귀한다.

바람직하게, 상기 테스트 정책은 테스트 데이터를 상기 교체 유닛에 배타적으로 보내는 것을 포함한다. 바람직하게, 상기 테스트 정책은 테스트 데이터를 상기 교체 유닛에 보내는 것을 포함하며, 상기 교체 유닛에 미리결정된 레벨의 I/O를 제공하기 위해 상기 테스트 데이터의 레벨은 사용자 데이터의 레벨을 상기 교체 유닛에 대해 보완시키도록 구성된다.

바람직하게, 상기 테스트는 데이터를 하나 이상의 데이터 저장소 유닛들에 기록하는 것을 포함하며, 상기 데이터는 상기 저장소 유닛의 예약된 영역에 기록된다. 바람직하게, 상기 저장소 시스템은 리던던시를 제공하기 위한 복수의 복제 저장소 시스템들을 포함한다. 바람직하게, 주어진 저장소 시스템에서의 상기 교체 유닛이 테스트 모드에 있을 때, 모든 사용자 I/O는 상기 복제 저장소 시스템으로 전환된다. 바람직하게, 상기 저장소 시스템은 하나 이상의 FCAL(Fibre Channel Arbitrated Loop)을 포함한다.

제2 양태에서, 하나 이상의 교체 유닛들의 테스트를 관리하기 위한, 하나 이상의 교체가능 유닛들을 포함한 전산화된 저장소 시스템에서의 사용을 위한 장치가 제공되며, 상기 장치는, 저장소 시스템에서 교체를 위한 교체가능 유닛을 확인하고 상기 저장소 시스템을 서비스 모드로 스위칭하고; 교체 유닛과의 상기 교체가능 유닛의 교체에 응답하여 상기 저장소 시스템을 테스트 모드로 자동적으로 스위칭하고; 상기 교체 유닛의 작동을 검증하기 위해 미리결정된 테스트 정책에 따라 상기 교체 유닛을 테스트하며; 만약 상기 선택된 엘리먼트의 테스트가 성공적이면 상기 저장소 시스템을 온라인 모드로 복귀시키도록 동작한다.

바람직하게, 상기 테스트를 위해 상기 교체 유닛과 결합되어 사용하기 위한 하나 이상의 추가적인 유닛들이 상기 저장소 시스템으로부터 선택된다. 바람직하게, 상기 교체 유닛의 풀 동작 능력을 테스트하기 위한 적절한 입력/출력(I/O) 경로를 제공하기 위해, 상기 교체 유닛과 결합되어 사용하기 위한 상기 추가적인 유닛들이 선택된다. 바람직하게, 상기 추가적인 유닛들은 상기 테스트에서의 사용을 위해 자동적으로 확인되고 선택된다.

바람직하게, 상기 테스트 정책은 테스트 데이터를 상기 교체 유닛에 배타적으로 보내는 것을 포함한다. 바람직하게, 상기 테스트 정책은 테스트 데이터를 상기 교체 유닛에 보내는 것을 포함하며, 상기 교체 유닛에 미리결정된 레벨의 I/O를 제공하기 위해 상기 테스트 데이터의 레벨은 사용자 데이터의 레벨을 상기 교체 유닛에 대해 보완시키도록 구성된다. 바람직하게, 상기 테스트는 데이터를 하나 이상의 데이터 저장소 유닛들에 기록하는 것을 포함하며, 상기 데이터는 상기 저장소 유닛의 예약된 영역에 기록된다. 바람직하게, 상기 저장소 시스템은 리던던시를 제공하기 위한 복수의 복제 저장소 시스템들을 포함한다. 바람직하게, 주어진 저장소 시스템에서의 상기 교체 유닛이 테스트 모드에 있을 때, 모든 사용자 I/O는 상기 복제 저장소 시스템으로 전환된다. 바람직하게, 상기 저장소 시스템은 하나 이상의 FCAL(Fibre Channel Arbitrated Loops)을 포함한다.

제3 양태에서, 하나 이상의 프로그램가능 디바이스들의 그룹이 본 방법을 수행하도록 하거나 또는 제1 양태 또는 제2 양태 각각의 장치를 제공하도록 구성된 하나 이상의 프로그램들의 그룹이 제공된다.

제4 양태에서, 컴퓨터 시스템상에 로딩되어 실행될 때, 상기 컴퓨터 시스템으로 하여금 제1 양태에 따른 방법의 모든 단계들을 수행하도록 하는 컴퓨터 프로그램 코드를 포함한 컴퓨터 프로그램이 제공된다.

컴퓨터 프로그램은, 컴퓨터 프로그램 제품이 컴퓨터상에서 구동될 때 제1 양태의 방법을 수행하기 위한 소프트웨어 코드 부분들을 포함한, 디지털 컴퓨터의 내부 메모리내로 로딩가능한 컴퓨터 프로그램 제품의 형태로 제공될 수 있다.

본 발명의 실시예는, 하나 이상의 교체 유닛들의 테스트를 관리하기 위한, 하나 이상의 교체가능 유닛들을 포함한 전산화된 저장소 시스템에서의 사용을 위한 방법을 제공하며, 상기 방법은,

상기 테스트를 위해 상기 교체 유닛과 결합되어 사용하기 위한 하나 이상의 추가적인 유닛들이 상기 저장소 시스템으로부터 선택될 수 있다. 상기 교체 유닛의 풀 동작 능력을 테스트하기 위한 적절한 입력/출력(I/O) 경로를 제공하기 위해, 상기 교체 유닛과 결합되어 사용하기 위한 추가적인 유닛들이 선택된다. 상기 추가적인 유닛들은 상기 테스트에서의 사용을 위해 자동적으로 확인되고 선택될 수 있다. 만약 상기 테스트에서 어떠한 결함도 검출되지 않았다면, 상기 저장소 시스템은 자동적으로 상기 온라인 모드로 복귀될 수 있다. 만약 상기 테스트 동안에 미리결정된 레벨의 결함이 검출되면, 상기 저장소 시스템은 자동적으로 상기 온라인 모드로 복귀될 수 있다.

테스트 정책은 테스트 데이터를 상기 교체 유닛에 배타적으로 보내는 것을 포함할 수 있다. 테스트 정책은 테스트 데이터를 상기 교체 유닛에 보내는 것을 포함할 수 있으며, 상기 교체 유닛에 미리결정된 레벨의 I/O를 제공하기 위해 상기 테스트 데이터의 레벨은 사용자 데이터의 레벨을 상기 교체 유닛에 대해 보완시키도록 구성된다. 테스트는 데이터를 하나 이상의 데이터 저장소 유닛들에 기록하는 것을 포함하며, 상기 데이터는 상기 저장소 유닛의 예약된 영역에 기록될 수 있다.

저장소 시스템은 리던던시를 제공하기 위한 복수의 복제 저장소 시스템들을 포함할 수 있다. 주어진 저장소 시스템에서의 교체 유닛이 테스트 모드에 있을 때, 모든 사용자 I/O는 복제 저장소 시스템으로 전환될 수 있다. 저장소 시스템은 하나 이상의 FCAL(Fibre Channel Arbitrated Loops)을 포함할 수 있다.

또다른 실시예는, 하나 이상의 교체 유닛들의 테스트를 관리하기 위한, 하나 이상의 교체가능 유닛들을 포함한 전산화된 저장소 시스템에서의 사용을 위한 장치를 제공하며, 상기 장치는,

저장소 시스템에서 교체를 위한 교체가능 유닛을 확인하고 상기 저장소 시스템을 서비스 모드로 스위칭하고;

교체 유닛과의 상기 교체가능 유닛의 교체에 응답하여 상기 저장소 시스템을 테스트 모드로 자동적으로 스위칭하고;

상기 교체 유닛의 작동을 검증하기 위해 미리결정된 테스트 정책에 따라 상기 교체 유닛을 테스트하며;

만약 상기 선택된 엘리먼트의 테스트가 성공적이면 상기 저장소 시스템을 온라인 모드로 복귀시키도록 동작한다.

추가적인 실시예는, 하나 이상의 교체 유닛들의 테스트를 관리하기 위한, 하나 이상의 교체가능 유닛들을 포함한 전산화된 저장소 시스템에서의 사용을 위한 방법을 하나 이상의 프로그램가능 디바이스들의 그룹이 수행가능하게 해주도록 구성된 하나 이상의 프로그램들의 그룹을 제공하며, 상기 방법은,

또다른 실시예는, 하나 이상의 교체 유닛들의 테스트를 관리하기 위한, 하나 이상의 교체가능 유닛들을 포함한 전산화된 저장소 시스템에서의 사용을 위한 장치를 하나 이상의 프로그램가능 디바이스들의 그룹이 제공가능하게 하도록 구성된 하나 이상의 프로그램들의 그룹을 제공하며, 상기 장치는,

추가적인 실시예는, 컴퓨터 프로그램 제품이 컴퓨터상에서 구동될 때, 하나 이상의 교체 유닛들의 테스트를 관리하기 위한, 하나 이상의 교체가능 유닛들을 포함한 전산화된 저장소 시스템에서의 사용을 위한 방법을 수행하기 위한 소프트웨어 코드 부분들을 포함하며, 디지털 컴퓨터의 내부 메모리내로 로딩가능한 컴퓨터 프로그램 제품을 제공하며, 상기 방법은,

하나 이상의 교체 유닛들의 테스트를 관리하기 위한, 하나 이상의 교체가능 유닛들을 포함한 전산화된 저장소 시스템에서의 사용을 위한 방법, 장치 및 소프트웨어가 제공될 수 있으며, 저장소 시스템은 주어진 유닛이 교체된 것에 응답하여 자동적으로 테스트 모드에 놓이게 되며, 만약 테스트가 실패하면 저장소 시스템은 서비스 모드로 자동적으로 페일백한다.

이제부터 첨부된 도면들을 단지 예시로서만 참조하면서 본 발명의 실시예들을 설명할 것이다.
도 1은 전산화된 저장소 시스템을 포함한 컴퓨터 네트워크의 개략도이다.
도 2는 도 1의 전산화된 저장소 시스템을 보다 자세하게 도시하는 개략도이다.
도 3a는 도 2의 전산화된 저장소 시스템내의 유닛들의 연결을 보여주는 테이블이다.
도 3b는 도 2의 전산화된 저장소 시스템을 위한 테스트 정책들을 보여주는 테이블이다.
도 4는 도 2의 전산화된 저장소 시스템에 의해 수행된 프로세싱을 보여주는 흐름도이다.
도 5는 도 2의 전산화된 저장소 시스템에 의해 수행된 추가적인 프로세싱을 보여주는 흐름도이다.

도 1을 참조하면, 컴퓨터 시스템은 저장소 시스템(104)에 연결되어 있으며, 저장소 서버 애플리케이션 프로그램(103)이 로딩되어 있는 제1 컴퓨터(102)를 포함한다. 제1 컴퓨터(102)는 근거리 네트워크(LAN)(106)의 형태의 네트워크를 통해 두 개의 제2 컴퓨터들(105)에 연결된다. 제2 컴퓨터들(105)에는 저장소 서버(103)를 통해 저장소 시스템(104)상에 데이터를 저장하고 액세스하도록 구성된 데이터 프로세싱 애플리케이션 프로그램(107)이 각각 로딩되어 있다. 다시 말하면, 데이터 프로세싱 애플리케이션 프로그램(107)은 저장소 서버(103)와 저장소 시스템(104)에 사용자 입력/출력(I/O)을 제공한다.

도 2를 참조하면, 저장소 서버 애플리케이션(103)은 사용자 인터페이스를 제공하고 사용자 I/O를 처리하도록 구성된 저장소 제어기(201)와, 이후에 보다 자세하게 설명될 저장소 시스템(104)의 공급, 서비스 및 테스트를 협동적으로 관리하도록 구성된 복제 저장소 아답터들(202, 203)을 포함한다. 저장소 시스템(104)은 네 개의 디스크들(207)과 두 개의 인터페이스 카드들(208, 209)로 각각 구성된 세 개의 디스크 어레이들(204, 205, 206)을 포함한다. 각각의 인터페이스 카드들(208, 209)은 아답터들(202, 203)에 연결하기 위한 연결 포트를 제공한다. 아답터들(202, 203) 각각을 일련의 디스크 어레이(204, 205, 206) 각각의 양쪽 인터페이스 카드들(208, 209)에 연결하기 위해 링크들(210, 211)의 세트가 제공된다. 도 2에서, 링크들(210, 211)과 같이, 몇몇의 복제 아이템들의 각각의 존재에 대한 라벨표기들은 명확성을 위해 생략한다. 다수의 복제된 아답터들(202, 203), 링크들(210, 211), 디스크들(207) 및 인터페이스 카드들(208, 209)의 공급은 저장소 시스템(104)에게 다중 리던던시를 제공한다. 제시된 실시예에서, 사실상 두 개의 복제 저장소 시스템들을 제공하는 것에 의해 리던던시를 제공하기 위해, 각각의 유닛들(207, 208, 209, 210, 211)은 적어도 1회 복제되어 있다. 하나의 복제 저장소 시스템이 오프라인이면, 이것의 복제 저장소 시스템은 필요한 서비스를 제공하도록 구성되므로, 저장소 제어기(201)는 고 가용성을 제공하기 위해 복제 저장소 시스템들을 이용하도록 구성된다.

제시된 실시예에서, 다수의 링크들(210, 211), 디스크들(207) 및 인터페이스 카드들(208, 209) 각각은 개별적으로 교체될 수 있는 구별되는 유닛들로서 제공되며, 이것들을 통상적으로 필드 교체가능한 유닛(Field Replaceable Unit; FRU)이라고 칭한다. 저장소 제어기(201)는 링크들(210, 211), 디스크들(207) 및 인터페이스 카드들(208, 209)에서의 수 많은 결함 및 에러를 검출하고, 일단 검출되면 엔지니어에게 이를 통지하는 기능을 포함한다. 결함있는 FRU를 교체하기 위해, 관련된 복제 저장소 시스템은 여분의 복제 저장소 시스템에 의해 유지된 가용성을 갖고 온라인 모드에서 서비스 모드로 놓여진다. 제시된 실시예에서, 주어진 복제 저장소 시스템이 서비스 모드에 있을 때, 모든 사용자 I/O는 여분의 복제 저장소 시스템으로 전환된다. 저장소 아답터들(202, 203)들 모두가 동시적으로 서비스 모드에 있지 않음에 따라 가용성이 유지되는 것을 보장하기 위해, 온라인 또는 서비스 모드 스위칭이 각각의 저장소 아답터들(202, 203) 사이에서 협동적으로 수행된다.

제시된 실시예에서, 저장소 아답터들(202, 203)은 테스트 모드 형태에서, 추가적인 모드로 배열되며, 이 모드는 서비스 모드와 온라인 모드 사이의 중간적 모드이다. 엔지니어가 FRU를 교체하고 복제 저장소 시스템이 온라인 모드로 복귀할 수 있다라고 표시할 때, 관련된 저장소 아답터들(202, 203)은 복제 저장소 시스템을 자동적으로 테스트 모드에 있도록 구성된다. 테스트 모드에서, 교체 FRU가 옳바르게 작동중에 있다는 것과 교체 FRU가 검출된 결함을 수정하였다는 것을 확실히 하도록 하나 이상의 미리결정된 테스트들의 세트가 교체 FRU상에서 구동된다. 제시된 실시예에서, 교체되었던 FRU의 유형에 따라 테스트들이 선택된다. 제시된 실시예에서, 테스트 모드에서, 주어진 복제 저장소 시스템에 대해 사용자 I/O가 허용된다. 하지만, 저장소 아답터들(202, 203)들 모두가 동시적으로 테스트 모드에 있지 않도록 보장하기 위해 테스트 모드 스위칭은 각각의 저장소 아답터들(202, 203) 사이에서 협동적으로 수행된다. 이것은 양쪽 시스템들이 서비스 모드에 동시적으로 페일링백(failing back)할 가능성을 회피시키도록 구성된다.

도 3a를 참조하면, 테스트는, 저장소 시스템(104)에서, 및 적용가능한 경우, 테스트 시구간 동안에, 각각의 유형의 FRU에 대한 적절한 테스트를 확인하는 테스트 정책(301)에서 정의되어 있다. 예를 들어, 만약 교체된 FRU가 링크이면, 교체 링크는 10분 동안 응력테스트를 받는다. 만약 FRU가 디스크이면, 디스크 검증 테스트가 수행되는데, 이 테스트는 완료되거나 중단될 때 까지 미정된 시간 동안 행해진다. 주어진 복제 저장소 시스템이 테스트 모드에 있는 동안, 임의의 새로운 결함이나 재발된 결함이 있는지 모니터링한다. 만약 임의의 결함이 검출되면, 복제 저장소 시스템은 자동적으로 서비스 모드로 복귀될 수 있다. 하지만, 만약 테스트가 완료되고 어떠한 결함도 검출되지 않으면, 복제 저장소 시스템은 자동적으로 온라인 모드로 복귀한다.

상술한 바와 같이, 도 3a를 참조하면, 응력 테스트가 교체 링크에 대해서 수행되었다. 응력 테스트는 링크를 통해 적절한 레벨의 테스트 I/O를 제공함으로써 교체된 링크에 대한 최대 데이터율을 테스트하고 테스트 기간 동안 교체된 링크의 성능을 모니터링하도록 구성된다. 하지만, 만약 링크가 디스크와 같이, 자신의 즉각적인 다운스트림 엘리먼트보다 큰 능력을 갖는다면, 응력 테스트를 수행할 적절한 대역폭을 제공하도록 복수의 다운스트림 엘리먼트들이 선택될 필요가 있을 수 있다. 예를 들어, 만약 교체된 링크가 2기가비트/초(Gb/s)의 최대 데이터율을 갖고, 50메가바이트/초(MB/s)의 최대 데이터율을 각각 갖는 디스크들의 업스트림에 연결되면, 테스트 I/O의 2Gb/s의 형태로 테스트 데이터를 처리하기 위해 네 개의 디스크들이 이용될 필요가 있을 것이다.

도 3b를 참조하면, 각각의 저장소 아답터(202, 203)는, FRU 연결 테이블의 형태로, 테이블(302)을 유지하도록 구성되며, 이 테이블은 즉각적인 다운스트림 유닛의 FRU ID 및 주어진 FRU의 유형과 더불어 저장소 시스템(104)에서의 각각의 FRU에 대한 고유 식별자(FRU ID)를 기록한다. 교체 유닛에 대한 테스트 I/O의 적절한 레벨의 공급을 가능하게 해주기 위해, 저장소 아답터(202, 203)는 테스트 I/O에 대한 적절한 타겟을 제공하는 교체 유닛으로부터 유닛 다운스트림을 확인하기 위해 FRU 연결 테이블(302)을 이용하도록 구성된다.

이제부터 각각의 복제 저장소 시스템상에서의 결함의 검출의 결과로서 서비스 모드에 놓이게 되는 것에 응답하여 저장소 아답터(202, 203)에 의해 수행된 프로세싱을 도 4의 흐름도를 참조하여 보다 자세하게 설명할 것이다. 단계 401에서, 복제 저장소 시스템이 서비스 모드에 놓이게 되는 것에 응답하여 프로세싱이 개시되고, 프로세싱은 단계 402로 이동하여 결함있는 FRU의 교체를 기다린다. 결함있는 FRU가 교체될 때, 설치 엔지니어에 의해 지시된 바와 같이, 복제 저장소 시스템이 자동적으로 테스트 모드에 진입하는 단계 403으로 프로세싱은 이동하고, 프로세싱은 단계 404로 이동한다. 단계 404에서, 교체 FRU의 유형이 확인되고, 프로세싱은 단계 405로 이동한다. 단계 405에서, 확인된 FRU 유형을 이용하여 적절한 테스트가 테스트 정책(301)으로부터 확인되고, 프로세싱은 단계 406으로 이동한다. 단계 406에서, 확인된 테스트가 수행되고, 프로세싱은 단계 407로 이동한다. 단계 407에서, 결함 모니터링이 수행되고, 만약 테스트 구간 동안에 어떠한 결함도 검출되지 않으면, 프로세싱은 단계 408로 이동한다. 단계 408에서, 복제 저장소 시스템은 자동적으로 온라인 모드에 놓이게 되고, 프로세싱은 단계 409에서 종료한다. 만약 단계 407에서, 하나 이상의 결함들의 미리결정된 세트가 검출되면, 프로세싱은 단계 410으로 이동한다. 단계 410에서, 하나 이상의 결함이 기록되고, 복제 저장소 시스템은 자동적으로 서비스 모드로 복귀한다. 그런 후, 프로세싱은 단계 402로 이동하여 추가적인 서비스 동작을 기다리며, 그런 후 상술한 바와 같이 진행한다.

이제부터 응력 테스트를 개시하는 것에 응답하여 저장소 아답터(202, 203)에 의해 수행된 프로세싱을 도 5의 흐름도를 참조하여 보다 자세하게 설명할 것이다. 단계 501에서, 도 4의 흐름도에서의 단계 405에서 응력 테스트의 확인에 응답하여 프로세싱이 개시되고, 프로세싱은 단계 502로 이동한다. 단계 502에서, 교체 FRU에 대한 최대 동작 데이터율이 FRU 연결 테이블(302)로부터 확인되고, 프로세싱은 단계 503으로 이동한다. 단계 503에서, 다시 FRU 연결 테이블(302)을 이용하여, 교체 FRU의 최대 동작 데이터율로 I/O를 취급 또는 처리할 수 있는 테스트 그룹을 형성하기 위해 복제 저장소 시스템으로부터의 연결 유닛들의 세트가 선택된다. 그런 후 프로세싱은 사용자 I/O의 현재 레벨이 결정되는 단계 504로 이동한다. 상술한 바와 같이, 제시된 실시예에서, 테스트 모드에 있는 복제 저장소 시스템에 대해 사용자 I/O가 허용된다. 사용자 I/O의 레벨이 결정되면, 프로세싱은 단계 505로 이동한다. 단계 505에서, 탑 업(top-up) 테스트 I/O의 필요한 양, 즉 측정된 사용자 I/O를 교체 FRU에 대한 최대 동작 데이터율까지 최대로 상승시키는데 필요한 테스트 I/O를 계산하고, 프로세싱은 단계 506으로 이동한다. 단계 506에서, 탑 업 테스트 I/O가 생성되고, 이것은 응력 테스트를 위한 정의된 기간 동안에 단계 503에서 선택된 유닛들의 테스트 그룹에 전달된다. 정의된 기간 동안 테스트 I/O가 제공되면, 프로세싱은 단계 507로 이동하여 종료한다.

제시된 실시예에서, 탑 업 테스트 I/O는 I/O의 송신을 목적으로 예약된 관련 디스크 드라이브의 영역으로 송신된다. 다시 말하면, 임의의 사용자 I/O가 덮어쓰기되거나 테스트 I/O로 손상되지 않도록 하기 위해, 사용자 I/O는 테스트 I/O 타겟 디스크 드라이브의 예약된 영역으로부터 특정적으로 제외된다.

복제 저장소 시스템이 테스트 모드에 놓이게 될 때, 적어도 사용자 I/O의 일부분은 여분의 복제 저장소 시스템으로부터 검사중에 있는 복제 저장소 시스템으로 페일백(fail back)하도록 구성된다. 만약 루프 또는 드랍(drop)된 프레임들의 예상치못한 재구성과 같은, 임의의 에러들이 확인되면, 이것은 테스트 모드의 즉각적인 실패와 서비스 모드로의 페일백을 야기시키고, 이로인해 사용자 I/O가 여분의 복제 저장소 시스템만을 다운시키도록 재구동시킨다. 이것은 여분의 저장소 시스템이 양호한 데이터 경로를 유지하기 때문에 고객 액세스에 대한 위험이 없도록 만든다. 만약 테스트 모드가 실패하면, 교체 FRU는 재검사될 수 있고, 추가적인 수정 동작들이 수행될 수 있다. 이것은 주어진 수리, 예컨대 수정되는 문제가 간헐적이였으며 단일 FRU 실패로서 손쉽게 확인될 수 없을 때에 신뢰도를 향상시킨다.

또다른 실시예에서, 시스템에서 어떠한 리던던시도 제공되지 않으며, 시스템이 서비스 모드에 있는 동안, 어떠한 사용자 I/O도 처리될 수 없다. 또다른 실시예에서, 부분적인 리던던시가 제공되는데, 즉 리던던시가 시스템내의 유닛들 전부가 아닌 일부 유닛들에 대해서만 제공된다. 또다른 실시예에서, 각각의 FRU 자체는 시스템 전체에 대한 글로벌 모드들보다는 개별적인 서비스, 테스트 및 온라인 모드들을 갖도록 구성된다. 추가적인 실시예에서, 테스트 모드에 있는 동안에 어떠한 사용자 I/O도 주어진 시스템에 대해 이용되지 않으며, 만약 응력 테스트가 수행되면, 테스트 데이터는 교체 FRU에 대한 최대 동작 데이터율을 제공하도록 구성된다.

교체 유닛은 기존의 유닛 또는 결함있는 유닛에 대한 직접적 교체가 아닐 수 있지만, 예컨대 결함을 수정하거나 또는 추가적인 기능을 제공하기 위해, 시스템에 추가되는 업그레이드된 유닛 또는 새롭게 설치된 유닛일 수 있다는 것을 본 발명분야의 당업자는 이해할 것이다. 뿐만 아니라, 하나 보다 많은 FRU가 주어진 테스트에서 테스트되는 것을 초래할 수 있는 주어진 서비스 동작 동안에 하나 보다 많은 FRU가 교체될 수 있다. 테스트받는 전송 장비의 유형에 대해 특정적으로 테스트 I/O의 포맷이 배열될 수 있다는 것을 당업자라면 명백히 이해할 수 있을 것이다. 예를 들어, 저주파수로 값이 변경되는, 비트 스트림을 포함하는 I/O 패턴에 대해 FCAL(Fibre Channel Arbitrated Loop) 시스템이 최상으로 응력이 가해질 수 있다.

본 발명의 일부분 또는 전체를 구현하는 장치는 본 발명의 실시예의 일부분 또는 전체를 제공하도록 구성된 소프트웨어를 갖는 범용 디바이스일 수 있다는 것을 본 발명분야의 당업자는 이해할 것이다. 디바이스는 단일 디바이스이거나 디바이스들의 그룹일 수 있고, 소프트웨어는 단일 프로그램이거나 프로그램들의 세트일 수 있다. 뿐만 아니라, 본 발명을 이행하는데 이용된 소프트웨어 중 임의의 소프트웨어 또는 전체 소프트웨어는 임의의 적절한 전송 수단 또는 저장 수단을 통해 전달될 수 있으며, 이로써 소프트웨어는 하나 이상의 디바이스들상에 로딩될 수 있다.

본 발명의 실시예들의 설명을 통해 본 발명을 설명하였으며, 본 실시예들을 상당히 자세하게 설명하였지만, 추가적인 장점들 및 수정들이 본 발명분야의 당업자에게 손쉽게 떠오를 것이다.

107: 데이터 프로세싱 애플리케이션, 102: 저장소 서버
104: 디스크 어레이, 202: 저장소 아답터1
201: 저장소 제어기, 203: 저장소 아답터2

Claims

하나 이상의 교체 유닛들의 테스트를 관리하기 위한, 하나 이상의 교체가능 유닛들을 포함한 전산화된 저장소 시스템에서의 사용을 위한 방법에 있어서,
a) 저장소 시스템에서 교체를 위한 교체가능 유닛(replaceable unit)을 확인하고 상기 저장소 시스템을 서비스 모드로 스위칭하는 단계;
b) 교체 유닛(replacement unit)과의 상기 교체가능 유닛의 교체에 응답하여 상기 저장소 시스템을 테스트 모드로 자동적으로 스위칭하는 단계;
c) 상기 교체 유닛의 작동을 검증하기 위해 미리결정된 테스트 정책에 따라 상기 교체 유닛을 테스트하는 단계;
d) 만약 상기 선택된 엘리먼트의 테스트가 성공적이면 상기 저장소 시스템을 온라인 모드로 복귀시키는 단계
를 포함하며,
상기 테스트 정책은 테스트 데이터를 상기 교체 유닛에 보내는 것을 포함하며, 상기 교체 유닛에 미리결정된 레벨의 I/O를 제공하기 위해 상기 테스트 데이터의 레벨은 사용자 데이터의 레벨을 상기 교체 유닛에 대해 보완시키도록 구성되는 것인, 전산화된 저장소 시스템에서의 사용 방법.
제1항에 있어서, 상기 테스트를 위해 상기 교체 유닛과 결합되어 사용하기 위한 하나 이상의 추가적인 유닛들이 상기 저장소 시스템으로부터 선택되는 것인, 전산화된 저장소 시스템에서의 사용 방법.
제2항에 있어서, 상기 교체 유닛의 풀 동작 능력을 테스트하기 위한 적절한 입력/출력(I/O) 경로를 제공하기 위해, 상기 추가적인 유닛들이 상기 교체 유닛과 결합되어 사용하도록 선택되는 것인, 전산화된 저장소 시스템에서의 사용 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 만약 상기 테스트에서 어떠한 결함들도 검출되지 않으면, 상기 저장소 시스템은 자동적으로 상기 온라인 모드로 복귀하며; 만약 미리결정된 레벨의 결함들이 상기 테스트 동안에 검출되면, 상기 저장소 시스템은 자동적으로 상기 서비스 모드로 복귀하는 것인, 전산화된 저장소 시스템에서의 사용 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 테스트 정책은 테스트 데이터를 상기 교체 유닛에 배타적으로 보내는 것인, 전산화된 저장소 시스템에서의 사용 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 테스트는 데이터를 하나 이상의 데이터 저장소 유닛들에 기록하는 것을 포함하며, 상기 데이터는 상기 저장소 유닛의 예약된 영역에 기록되는 것인, 전산화된 저장소 시스템에서의 사용 방법.
하나 이상의 교체 유닛들의 테스트를 관리하기 위한, 하나 이상의 교체가능 유닛들을 포함한 전산화된 저장소 시스템에서의 사용을 위한 장치에 있어서,
저장소 시스템에서 교체를 위한 교체가능 유닛을 확인하고 상기 저장소 시스템을 서비스 모드로 스위칭하고;
교체 유닛과의 상기 교체가능 유닛의 교체에 응답하여 상기 저장소 시스템을 테스트 모드로 자동적으로 스위칭하고;
상기 교체 유닛의 작동을 검증하기 위해 미리결정된 테스트 정책에 따라 상기 교체 유닛을 테스트하며;
만약 상기 선택된 엘리먼트의 테스트가 성공적이면 상기 저장소 시스템을 온라인 모드로 복귀시키도록 동작하며,
상기 테스트 정책은 테스트 데이터를 상기 교체 유닛에 보내는 것을 포함하며, 상기 교체 유닛에 미리결정된 레벨의 I/O를 제공하기 위해 상기 테스트 데이터의 레벨은 사용자 데이터의 레벨을 상기 교체 유닛에 대해 보완시키도록 구성되는 것인, 전산화된 저장소 시스템에서의 사용을 위한 장치.
제7항에 있어서, 상기 테스트를 위해 상기 교체 유닛과 결합되어 사용하기 위한 하나 이상의 추가적인 유닛들이 상기 저장소 시스템으로부터 선택되는 것인, 전산화된 저장소 시스템에서의 사용을 위한 장치.
제8항에 있어서, 상기 교체 유닛의 풀 동작 능력을 테스트하기 위한 적절한 입력/출력(I/O) 경로를 제공하기 위해, 상기 추가적인 유닛들이 상기 교체 유닛과 결합되어 사용하도록 선택되는 것인, 전산화된 저장소 시스템에서의 사용을 위한 장치.
컴퓨터 시스템상에 로딩되어 실행될 때, 컴퓨터 시스템으로 하여금 제1항 내지 제6항 중 어느 한 항에 따른 방법의 모든 단계들을 수행하게 하는 컴퓨터 프로그램 코드를 포함한 컴퓨터 프로그램.