KR101513408B1

KR101513408B1 - 통신 환경에서의 동적 신뢰도 및 보안 제공

Info

Publication number: KR101513408B1
Application number: KR1020147009686A
Authority: KR
Inventors: 아바야 아스타나; 마크 에스 베노위츠; 우마 찬드라쉬카르
Original assignee: 알까뗄 루슨트
Priority date: 2011-10-14
Filing date: 2012-10-01
Publication date: 2015-04-17
Also published as: IN2014CN02255A; WO2013055538A1; US9300548B2; JP2014532246A; KR20140061524A; EP2767036A1; CN103875210A; US20130097304A1

Abstract

동적 신뢰도 및 보안 기능이 제공된다. 동적 신뢰도 및 보안 기능은 시간 및 소비자의 애플리케이션 또는 서비스의 요건의 함수로서 소비자의 신뢰도 파라미터를 특정하는 DRP(dynamic reliability profile)의 사용을 지원하도록 구성될 수 있다. 신뢰도 파라미터는 신뢰도 요건 및/또는 소비자의 목표를 특정할 수 있어 시변화 요건/목표 프로파일을 제공한다. 동적 신뢰도 및 보안 기능은 DRP에 의해 특정되는 요청된 신뢰도를 제공하기 위하여 클라우드 리소스를 동적으로 구성하도록 구성될 수 있다. RSG 기능은, 서비스 보장을 제공하기 위하여 자기 치료 기능의 사용을 포함할 수 있는, 특정된 신뢰도가 실제로 전달되고 있는지를 보장하는 동작을 후속적으로 감시 및 측정하도록 구성될 수 있다.

Description

통신 환경에서의 동적 신뢰도 및 보안 제공{PROVIDING DYNAMIC RELIABILITY AND SECURITY IN COMMUNICATIONS ENVIRONMENTS}

본 발명은 전반적으로 통신 환경에 관한 것이며, 더욱 구체적으로는 통신 환경에서 신뢰도 및 보안을 제공하는 것이지만 배타적인 것은 아니다.

클라우드 컴퓨팅은 신속한 자기-서비스 권한 설정을 사용하여 인터넷을 통해 소비자에게 서비스 및 리소스를 전달하는 방식을 제공하며, 하부 인프라스트럭쳐의 관리로부터 서비스 및 리소스의 소비자를 보호한다. 하지만, 클라우드 컴퓨팅의 다양한 이점과 클라우드 컴퓨팅의 최근 성장에도 불구하고, 다수의 소비자들은 그 중에서 클라우드 컴퓨팅의 신뢰도 및 보안과 같은 특정 관심사로 여전히 분투하고 있다.

클라우드 환경 내의 신뢰도 및 보안을 제공하기 위해 종래 기술에서의 다양한 결점들이 다루어진다.

일 실시예에서, 장치는 프로세서를 포함하고, 상기 프로세서는, 클라우드 공급자의 소비자와 연관된 동적 신뢰도 프로파일(DRP: dynamic reliability profile)을 수신하고 - 상기 DRP는 시간 및 소비자의 애플리케이션 또는 서비스의 요건의 함수로서 소비자의 신뢰도 파라미터를 특정함 - , 소비자의 DRP에 기초하여 소비자에 대한 클라우드 리소스의 컨피규레이션을 결정하도록 구성된다.

일 실시예에서, 컴퓨터에 의해 실행되는 경우, 컴퓨터로 하여금 방법을 수행하게 하는 명령을 저장한 컴퓨터 판독가능 저장 매체로서, 상기 방법은, 클라우드 공급자의 소비자와 연관된 동적 신뢰도 프로파일(DRP)을 수신하는 단계 - 상기 DRP는 시간 및 소비자의 애플리케이션 또는 서비스의 요건의 함수로서 소비자의 신뢰도 파라미터를 특정함 - , 및 소비자의 DRP에 기초하여 소비자에 대한 클라우드 리소스의 컨피규레이션을 결정하는 단계를 포함한다.

일 실시예에서, 방법은, 클라우드 공급자의 소비자와 연관된 동적 신뢰도 프로파일(DRP)을 수신하는 단계 - 상기 DRP는 시간 및 소비자의 애플리케이션 또는 서비스의 요건의 함수로서 소비자의 신뢰도 파라미터를 특정함 - , 및 소비자의 DRP에 기초하여 소비자에 대한 클라우드 리소스의 컨피규레이션을 결정하는 단계를 포함한다.

여기에서의 교시는 첨부 도면과 함께 후술하는 상세한 설명을 고려함으로써 용이하게 이해될 수 있다.
도 1은 RSG(Reliability and Security Guardina)를 포함하는 클라우드 시스템의 일 실시예를 도시한다.
도 2는 도 1의 RSG에 의한 사용을 위한 예시적인 DRP(dynamic reliability profile)를 도시한다.
도 3은 도 1의 클라우드 시스템의 3명의 소비자에 대한 시간의 함수로서 예시적인 애플리케이션 믹스(mix)를 도시한다.
도 4는 도 1의 클라우드 시스템의 물리적 리소스로 소비자 애플리케이션 정보를 매핑하기 위한 프로세스의 일 실시예를 도시한다.
도 5는 물리적 인프라스트럭쳐로의 애플리케이션 토폴로지의 예시적인 매핑을 도시한다.
도 6은 이벤트 상관을 수행하고, 반응/예측 제어 정보를 결정하는 도 1의 RSG의 예시적인 사용을 도시한다.
도 7은 도 1의 RSG를 구현하는 데 사용하기에 적절한 자기 신뢰 CSU(self-reliable Compute Store Unit)의 일 실시예를 도시한다.
도 8은 분산된 자기 신뢰 클라우드 시스템을 형성하기 위한 소비자 도메인에서 도 7의 복수의 CSU의 예시적인 배치를 도시한다.
도 9는 도 1의 클라우드 시스템의 일부 내에 배치된, 도 1의 RSG를 구현하는 데 사용하기에 적절한 SCU(System Control Unit)의 일 실시예를 도시한다.
도 10은 클라우드 시스템의 소비자에 대해 신뢰도를 제공하기 위한 방법의 일 실시예를 도시한다.
도 11은 여기에 설명되는 기능을 수행하는 데 사용하기에 적절한 컴퓨터의 하이 레벨 블록도를 도시한다.
이해를 촉진시키기 위해, 가능한 경우, 도면에서 공통인 동일 요소를 나타내기 위해 동일한 참조 부호가 사용되었다.

일반적으로, 다양한 다른 기능도 여기에 제시될 수 있지만, 신뢰도 및 보안 기능이 여기에 묘사 및 설명된다.

클라우드 컴퓨팅은 신속한 자기-서비스 권한 설정을 사용하여 인터넷을 통해 소비자에게 서비스 및 리소스를 전달하는 방식을 제공하며, 하부 인프라스트럭쳐의 관리로부터 서비스 및 리소스의 소비자를 보호한다. 많은 경우에, 클라우드 공급자에 의해 제공되고 있는 서비스는 유틸리티 컴퓨팅이며, 이는 통상적으로 클라우드 시스템의 소프트웨어의 추상화 레벨과 클라우드 시스템의 리소스의 관리 레벨에 기초하여 구분된다. 예를 들어, 스펙트럼의 일 단부에, 추상화가 물리적 하드웨어 레벨에 있고 소비자가 전체 소프트웨어 스택, 커널 업워드를 제어할 수 있는 구현이 있다(하지만, 이것은 장애 극복 기능을 제공하는 것을 어렵게 만든다). 예를 들어, 스펙트럼의 다른 단부에는, 스테이트리스(stateless) 연산 및 스테이트풀(stateful) 저장 시스템과 함께 웹 애플리케이션에 대해 특정한 애플리케이션 도메인인 구현이 있다. 다른 구현도 스펙트럼의 중간부 내에 속할 수 있다는 것에 유의한다.

클라우드 컴퓨팅은 다수의 관련 이점을 갖는다. 일반적으로, 클라우드 컴퓨팅은 높은 확장가능성, 구성 가능성, 동적 기반에 대한 리소스 이용가능성의 탄력성, 복구의 용이함 등의 이점을 가능하게 한다. 클라우드 컴퓨팅은 하드웨어 권한 설정에 대한 확장적인 기능을 제공하여, 부하 급등에 후속하여 충분히 신속하게 이용가능한 온 디맨드(on demand) "무한" 컴퓨팅 리소스의 외관을 생성하여, 이에 의해 사전 권한 설정에 대한 필요성을 제거한다. 그 사이징의 용이함을 고려할 때, 클라우드 컴퓨팅은, 클라우드 서비스의 온-디맨드 또는 페이-애즈-유 고(pay-as-you go) 속성으로 인해 덜 비싼 장애 극복 솔루션의 구현을 가능하게 한다. 클라우드 컴퓨팅에서, 소비자는 필요에 따라 단기 기반으로 컴퓨팅 리소스의 사용에 대해 지불하며(예를 들어, 시간 단위의 프로세서, 일 단위의 저장 등), 필요에 따라 이들을 요청하거나 릴리징할 수 있다. 또한, 클라우드 컴퓨팅은 스케일의 경제를 허용하며(예를 들어, 전기의 향상, 넷(net) 대역폭, 동작, 소프트웨어 및 하드웨어 등의 요인), 통계적인 멀티플렉싱을 허용하여 리소스 이용을 증가시키고 동작을 단순화한다. 클라우드 컴퓨팅의 다양한 다른 이점들도 이해될 것이다.

하지만, 상술한 이점과 클라우드 컴퓨팅의 성장에도 불구하고, 다수의 소비자들은 여전히 그 신뢰도 및 보안에 대한 의문을 해결하기 위해 분투하고 있다. 예를 들어, 물리적 리소스의 공유는 보안 이슈를 야기한다(예를 들어, 타인에게 보여질 수 있는 데이터, 고장 또는 퇴장 후 남겨진 데이터 흔적 등). 추가적으로, 클라우드 서비스의 널리 퍼진 채택에 대한 장벽은 무시될 수 없으며, 이러한 장벽은 이하와 같다: 보안/데이터 프라이버시 및 사법적인 이슈, SLA(Service Level Agreement)의 초창기/가변성, 신뢰도 및 벤더 중립성, 비지니스 애플리케이션과 클라우드 서비스를 통합하는 능력, 클라우드 서비스 모델의 상대적인 미성숙 및 지속적인 진화 등. 또한, 미션 크리티컬(mission critical) 애플리케이션을 배치한 기업은 SLA를 통한 합리적인 시스템 응답성의 보장, 멀티테넌트(multitenant) 환경에서의 데이터 격리를 통한 보호, 서비스 단절을 최소화하기 위한 장애 극복 보호, 예측가능한 재충전 속도, 및 다양한 관련 서비스 및 기능을 통상적으로 추구한다는 것에 유의한다. 또한, 미션-크리티컬 애플리케이션에 대한 보장은 정량화할 수 없으며, 사적인 클라우드(예를 들어, 보안 및 프라이버시의 보다 양호한 제어 및 보장을 제공함)에 비해 공공 클라우드(예를 들어, 편의 제공)의 비용/이득을 강조하기 위한 수단은 명료하지 않다. 이와 같이, 클라우드 시스템의 소프트웨어의 추상화 레벨 및 클라우드 시스템의 리소스의 관리 레벨은 클라우드 제공 간 중요한 구분이 되는 잠재성을 갖는다.

일 실시예에서, 상술한 관심사항 및/또는 필요성의 적어도 일부는 하나 이상의 새로운 시스템 아키텍쳐, 새로운 디바이스/요소, 새로운 프로그래밍 모델, 새로운 개발 환경 및 새로운 테스팅 방법론의 사용을 통해 다루어질 수 있으며, 이러한 아키텍쳐, 디바이스/요소, 모델, 환경 및/또는 방법론은 성능, 이용가능성, 보안, 탄력성, 사용 어카운팅 등에 대한 소비자의 SLA 요건의 보다 깊은 이해에 기초하여 자기-신뢰 시스템을 제공하도록 구성될 수 있다. 이것은 공공 및 개인 클라우드 컴퓨팅 양쪽을 더욱 신뢰성있고 보안성있게 만들 수 있고, 그에 따라 미션-크리티컬 사용에 적절하게 만들 수 있다.

일 실시예에서, 상술한 관심사항 및/또는 필요성의 적어도 일부는 클라우드 시스템에서의 RSG(Reliability and Security Guardian) 기능의 사용을 통해 다루어질 수 있다.

RSG 기능은, 소비자 SLA의 일부로서 포함될 수 있고, 시간의 함수 및 소비자의 애플리케이션 또는 서비스의 요건의 함수 양쪽으로서 소비자의 신뢰도 파라미터를 특정하는 DRP(dynamic reliability profile)의 사용을 지원하도록 구성될 수 있다. 신뢰도 파라미터는 신뢰도 요건 및/또는 소비자의 목표를 특정할 수 있어, 시간에 따라 변하는 요건/목표 프로파일을 제공할 수 있다. RSG 기능은 DRP에 의해 특정된 요구된 신뢰도를 제공하기 위해 클라우드 리소스를 동적으로 구성하도록 구성될 수 있다. RSG 기능은, 서비스 보장을 제공하기 위해 자기 치료 기능의 사용을 포함할 수 있는, 특정된 신뢰도가 실제로 전달되고 있다는 것을 보장하는 동작을 후속적으로 감시하고 측정하도록 구성될 수 있다. 신뢰도는 이용가능성과 연관되므로, 동적인 신뢰도 프로파일은 또한 여기에서 동적인 신뢰도/이용가능성 프로파일로 칭해질 수 있다는 것에 유의한다.

RSG 기능은 이하의 하나 이상을 수행하거나 제공하도록 구성될 수 있다: 인터럽팅되지 않는 경험으로서 소비자에게 전달된 서비스의 신뢰도 증가; 사용자-가시(visible) 충격 또는 수동 개입 없이 시스템이 자동으로 기능적인 이용가능성 레벨로 리밸런싱하는 것; 성능, 신뢰도, 이용가능성, 보안 및 탄력성 사용 어카운팅 등에 대한 SLA(Service Level Agreement) 요건의 동적 보장을 제공함으로써 공공 및/또는 개인 클라우드 컴퓨팅을 더욱 신뢰성 있고 보안성 있고 탄력성 있게 하여, 미션-크리티컬 사용에 적합하게 하는 것; 시간 및 애플리케이션 또는 서비스의 요건의 함수로서 신뢰도 요건/소비자 목표를 나타내는 것; 요청된/원하는 신뢰도를 제공하기 위하여 클라우드 리소스를 동적으로 구성하도록 구성된 자기-신뢰 시스템을 제공하는 것; 요청된/원하는 신뢰도가 충족되고 있는지를 보장하기 위하여 시스템을 감시 및 측정하는 것; 보안 컬렉션 및 이용가능한 네트워크 및 서비스 데이터의 집중화와 함께 거의 실시간으로 전체 솔루션에 걸친 엔드-투-엔드(end-to-end) 서비스를 감시하는 것; 이용가능한 네트워크 및 서비스 데이터로부터 중요한 엔드-투-엔드 서비스 이용가능성 측정을 도출하고 적절한 복구 및 제어 액션을 트리거링하는 신뢰도 완전성 측정기를 생성하는 것; 임박한 이슈의 표시의 생성과, 중요 문제를 꾸준히 검출하고 해결하기 위한 사전 인-서비스(in-service) 테스팅을 가능하게 하는 예방 제어 기능을 제공하는 것; 등.

RSG 기능은 다양한 다른 연관된 기능을 제공하도록 구성될 수 있다. 즉, 소비자가 신뢰도를 다이얼링하고 클라우드 시스템은 이를 전달하기 위한 시도에서 반응하는 것과 같다.

일 실시예에서, RSG 기능은 인프라스트럭쳐 레이어 내에 배치된다. 클라우드 컴퓨팅에서의 일반적인 트렌드는 산업-배치 지향, 동적, 자기 학습, 자기 관리 솔루션이다. 일 실시예에서, 솔루션 레벨 기능은 유기적인, 자기 인식, 자기 치료의 네트워크의 구축을 가능하도록 개발되어, 클라우드 공급자가 소비자가 원할 때 필요에 따라 보장을 제공하도록 할 수 있다. 이러한 유기적인, 자기 인식, 자기 치료 네트워크는 고가치 애플리케이션을 포함하여 다양한 소비자 애플리케이션을 지원할 수 있다는 것에 추가적으로 유의한다. 일 실시예에서, (고가치 애플리케이션을 포함하여) 이러한 애플리케이션을 지원하기 위하여, (1) 플랫폼 레이어 내에 서비스(RaaS, Reliability as a Service)로서 신뢰도가 제공되고 (2) RSG 기능이라 칭해지는 기능이 인프라스트럭쳐 레이어 내에 제공되며, RSG 기능은, 동적인 구성, 높은 이용가능성을 위한 리소스 스케줄링, 완전성 측정, 인-서비스 견고성 테스팅, 고장의 예측 및 방지, 고장 직전 및 보안 조건의 위반을 인지하고 진단하기 위한 네트워크 이벤트의 상관 등뿐만 아니라 그 다양한 조합과 같은 기능을 제공하도록 구성된다. 이러한 방식으로 동적인 자기 신뢰 클라우드 시스템이 제공될 수 있다.

일 실시예에서, RSG 기능은 소비자 네트워크 내에 배치된다. 이는 기존의 클라우드 시스템과 연관된 보안 장벽을 극복한다. 즉, 기존 클라우드 시스템에서는, 엄격한 보안 고려로 인해, 클라우드 서비스 공급자는 소비자가 그들의 내부 관리 시스템 또는 그들의 성능 및 결함 데이터에 액세스하는 것을 좀처럼 허용하지 않는다. 예를 들어, 드문 경우에 경보에 대하여 소비자에 의한 "판독 전용" 액세스 및 성능 데이터가 오프-라인 분석의 목적으로 허용될 수 있다. 반대로, RaaS가 지원되면, RSG 기능이 소비자 네트워크 내에 상주할 수 있어, RSG 기능과 소비자 네트워크 내의 다양한 다른 엔티티(예를 들어, 데이터 수집 엔티티, 관리 엔티티 등) 간 인터페이스가 믿을 수 있는 인터페이스로서 구현될 수 있다. 모든 데이터가 액세스되고 소비자 도메인 내에서 로컬로 분석되므로, DMZ(demilitarized) 기능(예를 들어 보안 VPN(virtual private network)을 통해 라우팅되는 암호화된 데이터)에 대한 필요성이 없다. 또한, 외부 엔티티가 연루되지 않으므로 감시되는 데이터에 기초한 사전 제어가 이제는 가능하다. 따라서, 소비자 네트워크 내에 RSG 기능을 삽입함으로써 기존의 보안 장애를 극복하는 것은 진정으로 유기적이고, 자기 인식의, 자기 치료의 네트워크의 구축을 가능하게 한다.

클라우드 시스템은 여기에 묘사하고 설명한 RSG(Reliability and Security Guardian)를 통하는 것과 같이 하나 이상의 기능을 통해 이러한 기능을 지원할 수 있다. 예시적인 클라우드 시스템 내의 예시적인 RSG는 도 1에 대하여 도시 및 설명된다.

도 1은 RSG(Reliability and Security Guardian) 기능을 포함하는 클라우드 시스템의 일 실시예를 도시한다.

도 1에 도시된 바와 같이, 클라우드 시스템(100)은 소비자(102)를 위한 클라우드 서비스를 제공하는 클라우드 공급자에 의해 관리되는 물리적인 인프라스트럭쳐(101)를 포함한다. 또한, 클라우드 시스템(100)은 물리적인 인프라스트럭쳐(101)를 사용하여 클라우드 서비스를 소비자(102)에게 제공한다는 관점 내에서 클라우드 공급자가 소비자(102)에게 서비스 보장을 제공할 수 있게 하도록 구성된 RSG(Reliability and Security Guardian)(120)를 포함한다.

물리적 인프라스트럭쳐(101)는 클라우드 리소스(110)를 포함하고, 선택적으로 클라우드 서비스를 지원하도록 클라우드 공급자에 의해 배치될 수 있는 임의의 다른 물리적인 인프라스트럭쳐를 포함할 수 있다.

소비자(102)는 클라우드 리소스(110)에 액세스할 수 있고 사용할 수 있는 임의의 적절한 유형의 소비자일 수 있다. 예를 들어, 소비자(102)는 기업 소비자, 홈 소비자 등일 수 있다.

소비자(102)는 소비자(102)를 위한 SLA(103)를 생성하는 데 사용될 수 있는 정보를 제공할 수 있다. SLA는 통상적으로 소비자에 대해 특정적이고, 소비자의 가상 환경을 규정하고, 소비자는 통상적으로 전체로서의 클라우드 시스템의 전체 인프라스트럭쳐에 대해서가 아니라 그들의 가상 환경에 대해 충족되고 있는 SLA에만 관심이 있다. 클라우드 공급자는 통상적으로 복수의 소비자를 지원한다(상술하였지만, 단일 소비자(120)는 명료성을 위해 여기에 도시 및 설명되었음). 결과적으로, 클라우드 공급자는 통상적으로, 클라우드 시스템의 인프라스트럭쳐가 그 소비자 모두의 가상 환경의 모두에 대해 SLA를 충족시킬 수 있다. 클라우드 시스템(100)은, 클라우드 공급자가 이러한 기능을 공급할 수 있게 하도록 구성된다.

소비자(102)는 소비자(102)를 위한 DRP(dynamic reliability profile)(105)를 생성하는 데 사용될 수 있는 정보를 공급할 수 있다. 소비자(102)를 위한 DRP(105)는 소비자(102)에 의해 직접 특정될 수 있으며, SLA(103) 내의 소비자(102)에 의해 특정될 수 있으며, SLA(103)에 대해 입력된 정보의 프로세싱 및/또는 SLA(103) 자체의 프로세싱(예를 들어, 신뢰도 특정자(104) 및/또는 임의의 다른 적절한 시스템 또는 컴포넌트에 의함) 등뿐만 아니라 그 다양한 조합을 통해 결정될 수 있다. DRP(105)는 임의의 적절한 입상(granularity)으로 공급될 수 있다(예를 들어, 특정 애플리케이션에 대해, 애플리케이션 세트에 대해, 특정 서비스에 대해, 서비스 세트에 대해, 하나 이상의 서비스 및 하나 이상의 애플리케이션에 대해, 소비자(102) 전체에 대해 등). 도 1에 도시된 바와 같이, 소비자(102)를 위한 DRP(105)는 RSG(120)로 공급된다.

클라우드 리소스(110)는 소비자(102)에 의한 사용을 위해 구성될 수 있다. 클라우드 리소스(110)는 컴퓨팅 리소스(111), 메모리 리소스(112), 저장 리소스(113), 입력-출력 리소스(114) 및 네트워크 리소스(115)를 포함할 수 있다. 클라우드 리소스(110)는 가상적으로 무한한 것으로 상정될 수 있다(즉, 임의의 소비자 수요를 충족시키기 위한 충분한 클라우드 리소스(110)가 있음)는 것에 유의한다. 클라우드 리소스(110)는 분산될 수 있고, 동적으로 그룹화될 수 있다는 것에 추가로 유의한다. 클라우드 리소스(110)가 소비자(120)에 의한 사용을 위해 할당될 수 있는 통상적인 방식은 본 기술 분야의 당업자에게 이해될 것이다. 클라우드 리소스(110)의 특정 유형에 대하여 주로 묘사 및 설명하였지만, 클라우드 리소스(110)는 소비자에 의한 사용을 위해 구성될 수 있는 임의의 다른 유형의 클라우드 리소스를 포함할 수 있다는 것이 이해될 것이다.

RSG(120)는 클라우드 시스템(100)이 자기 신뢰 시스템으로서 동작할 수 있도록 하는 다양한 기능을 공급하도록 구성된다. 예를 들어, RSG(120)는 소비자(102)의 DRP(105)를 수신하도록 구성될 수 있으며, 클라우드 시스템(100)의 클라우드 리소스(110)를 동적으로 구성하도록 구성될 수 있어 DRP(105)에 의해 특정되는 요청된 신뢰도를 공급한다. 또한, RSG(120)는, 특정된 신뢰도가 실제로 전달되고 있다는 것을 보장하기 위하여 후속적으로 동작을 감시 및 측정하도록 구성될 수 있다. 또한, RSG(120)는 다양한 다른 연관 기능을 공급하도록 구성될 수 있다. 도 1에 나타낸 바와 같이, RSG(120)는 집중화 또는 분산된 방식으로 구현될 수 있다는 것에 유의한다.

RSG(120)는 4개의 기능 컴포넌트를 포함한다: CE(configuration engine)(122), SE(scheduling engine)(124), ME(monitoring engine)(126) 및 CE(control engine)(128). 4개의 기능 컴포넌트는 하나 이상의 물리적 디바이스를 사용하여 구현될 수 있다는 것에 유의한다(예를 들어, RSG(120)의 기능은 단일 시스템에 집중화될 수 있거나 하나 이상의 시스템에 걸쳐 분산될 수 있거나 등). 따라서, RSG(120)는 4개의 기능 컴포넌트가 클라우드 시스템(100) 내에서 구현될 수 있는 다양한 방식을 나타내기 위하여 점선 박스를 사용하여 나타내어진다.

CE(122)는 소비자(102)(또는 DRP(105)를 포함하는 SLA(103))에 의해 규정되는 DRP(105)를 수신하고, DRP(105)를 사용하여 소비자(102)를 위한 가상 컨피규레이션(131)을 동적으로 생성한다. 가상 컨피규레이션(131)은 소비자(102)의 DRP(105)를 충족시키는, 소비자(102)를 위한 가상 컨피규레이션을 특정한다(예를 들어, DRP(105)의 요건 및/또는 목표를 충족시킴). 가상 컨피규레이션(131)은 시간의 함수로서 특정될 수 있다. CE(122)는 DRP(105)를 충족시키는 가상 컨피규레이션(131)을 동적으로 생성할 수 있으면서, 클라우드 시스템(100)의 현재 상태 및/또는 클라우드 시스템(100)에 의해 부과된 정책/제약에 대해 또한 설명한다. CE(122)는 가상 컨피규레이션(131)을 SE(124)로 제공한다. CE(122)는 여기에 설명된 다양한 다른 기능을 제공할 수 있다.

SE(124)는 CE(122)로부터 가상 컨피규레이션(131)을 수신한다. SE(124)는 물리적 인프라스트럭쳐(101) 상에 (예를 들어, 클라우드 리소스(110) 상에) 가상 컨피규레이션(131)을 DRP(105) 및 클라우드 시스템(100)의 현재 상태 및/또는 클라우드 시스템(100)에 의해 부과된 정책/제약에 의해 규제되는 적절한 시간에 매핑한다. SE(124)에 의해 결정된 매핑은 매핑(132)으로서 표기된다. SE(124)는 DRP(105)의 구현과 연관된 리던던시(redundancy) 및/또는 복구 스킴(들)의 필요한 유형을 특정할 수 있다. DRP(105)가 임의의 적절한 입상으로 특정될 수 있는 것처럼, 연관된 매핑(132)은 임의의 적절한 입상으로 공급될 수 있다는 것에 유의한다. SE(124)는 물리적 인프라스트럭쳐(101) 내에서 매핑(132)을 구현하도록 구성되어 (예를 들어, 소비자(102)에 의한 클라우드 리소스(110)의 사용을 가능하게 하는 물리적 인프라스트럭쳐(101)의 컨피규레이션을 통해), 그 후 소비자(102)가 클라우드 리소스(110)를 이용할 수 있다. SE(124)는 여기에 설명한 다양한 다른 기능을 제공할 수 있다.

ME(126)는 물리적 인프라스트럭쳐(101)의 컴포넌트의 상태를 관측한다(예를 들어, 컴퓨팅 리소스(111), 메모리 리소스(112), 저장 리소스(113), 입력-출력 리소스(114) 및 네트워크 리소스(115)뿐만 아니라 클라우드 리소스(110)의 임의의 다른 연관된 물리적 컴포넌트 또는 리소스). ME(126)는 물리적 인프라스트럭쳐(101)로부터 ME(126)에서 수신된 시스템 상태 정보(133)(예를 들어, 경보, 조사, 로그 파일 등뿐만 아니라 그 다양한 조합)를 수신 및 분석함으로써 물리적 인프라스트럭쳐(101)의 컴포넌트의 상태를 관측한다. ME(126)는 물리적 인프라스트럭쳐(101)의 컴포넌트의 관측된 상태를 소비자(102)의 가상 환경의 상태로 트랜슬레이팅한다. ME(126)는 신뢰도/보안 정보(134)(이것은 적어도 일부 실시예에서, RIM(Reliability Integrity Meter)로서 표현될 수 있음)와 같은 신뢰도 및 보안 관련 이벤트 및 상태를 캡쳐하도록 구성될 수 있다. ME(126)는 CE(128)에 의한 사용을 위해 제어 정보(제어 정보(135)로 표기함)를 결정하도록 구성될 수 있다(예를 들어, 클라우드 시스템(100) 내의 이벤트 또는 조건에 반응하여 CE(128)에 의한 사용을 위한 반응 제어 정보, 잠재적인 이벤트 또는 조건이 클라우드 시스템(100)에서 발생하는 것을 방지하는 CE(128)에 의한 사용을 위한 예측 방지 제어 정보 등뿐만 아니라, 그 다양한 조합). ME(126)는 여기에 설명한 다양한 다른 기능을 제공할 수 있다.

CE(128)는 ME(126)로부터 제어 정보(135)를 수신하고 정책/제약 정보(136)를 수신하고 (예를 들어, SLA(103), DRP(105) 등뿐만 아니라 그 다양한 조합의 일부로서 특정될 수 있음), 제어 정보(135) 및 정책/제약 정보(136)를 사용하여 클라우드 시스템(100)(예를 들어, 클라우드 리소스(110))의 물리적 인프라스트럭쳐(101)를 제어/구성하는 데 사용하기 위해 구성된 피드백 액션(137)을 결정하도록 구성된다. CE(128)는 피드백 액션(137)을 물리적 인프라스트럭쳐(101)로 공급하여 클라우드 시스템(100)의 물리적 인프라스트럭쳐(101)를 제어/구성한다. 피드백 액션(137)은 반응 피드백 액션(예를 들어 식별된 이벤트(들) 또는 조건에 대한 반응) 및/또는 예측 방지 피드백 액션(예를 들어, 예측된 이벤트(들) 또는 조건(들)이 발생하는 것을 방지하기 위함) 양쪽을 포함할 수 있다. 예를 들어, CE(128)는, 고장이 검출될 때 복구 액션을 트리거링할 수 있고/있거나 고장이 발생하는 것을 회피하기 위하여 방지 수단을 개시할 수 있다. CE(128)는 여기에 설명한 다양한 다른 기능을 제공할 수 있다.

도 1에 도시된 바와 같이, RSG(120)의 컴포넌트는 임의의 적절한 방식으로 클라우드 시스템(100) 내에 삽입될 수 있다. 일 실시예에서, 예를 들어, RSG(120)의 컴포넌트는 클라우드 시스템(100)의 인프라스트럭쳐, 플랫폼 및 서비스 레이어 내에 삽입될 수 있다. 도 1 및 여기에 제공된 다른 설명으로부터 이해될 바와 같이, 클라우드 시스템(100)의 자기 신뢰 속성은 후술하는 하나 이상의 특징/이점에 의해 특성화될 수 있다: (1) 하드웨어 및/또는 소프트웨어 고장 또는 붕괴에 관계없이 서비스 이용가능성을 클라이언트에게 제공하는 것, (2) 서비스, 데이터 및 인프라스트럭쳐를 공격으로부터 보호하고 개인 데이터의 프라이버시를 보장하는 것, (3) 이벤트 또는 정책에 기초하여 실시간으로 유연하고 동적인 리소스 할당을 제공하는 것, 즉, 확장가능성, (4) 전달에 있어서 수용가능한 경제성으로 작업 부하 수요의 넓은 범위에 걸친 예측가능한 성능. 클라우드 시스템(100)의 실시예들의 사용으로부터 실현될 수 있는 다양한 다른 특징/이점이 도 1 및 여기에 제공된 다른 설명으로부터 이해될 것이다.

여기에 설명한 바와 같이, DRP(105)는 시간의 함수 및 소비자(102)의 애플리케이션 또는 서비스의 요건의 함수 양쪽으로서 소비자(102)의 신뢰도 파라미터(예를 들어, 요건/목표)를 특정한다. 소비자 스위트(suite)에서 모든 애플리케이션/서비스가 동일한 신뢰도 필요성을 갖는 것으로 예측되지는 않으며, 추가적으로 애플리케이션/서비스의 신뢰도 필요성은 시간에 따라 변할 수 있다는 것이 이해될 것이다. 그 시간 변화 속성을 나타내는 예시적인 DRP(105)가 도 2에 대하여 도시 및 설명된다.

도 2는 도 1의 RSG에 의한 사용을 위한 예시적인 DRP(dynamic reliability profile)를 도시한다. 도 2에 도시된 바와 같이, DRP(105)는 시간(x-축으로 나타냄)에 대한 소비자의 신뢰도 필요(y-축으로 나타냄)의 변화를 나타낸다. 여기에 설명한 바와 같이, RSG(120)는 DRP(105)를 사용하여 클라우드 리소스(110)를 동적으로 구성하여 DRP(105)에 특정된 요청된 신뢰도를 제공하도록 구성된다. 가상으로 무한한 클라우드 리소스를 갖는 클라우드 시스템에서, 이는 리소스의 보다 높은 이용, 비용 절감, 전력 사용의 효율 및 다양한 다른 이점으로 귀결된다.

여기에 설명한 바와 같이, 클라우드 시스템(100)은 각각 하나 이상의 연관 DRP(105)를 갖는 복수의 소비자(102)를 지원할 수 있다. 그 결과, 클라우드 시스템(100)은 복수의 소비자(102)의 DRP(105)를 동시에 관리할 필요가 있으면서, DRP(105)가 시변화 프로파일이라는 사실을 설명한다. 복수의 소비자(102)의 DRP(105)의 시변화 속성에 대하여, (다양한 다른 경우들도 고려될 수 있다는 것에 유의해야 하지만) 여기에서는 후술하는 3 경우가 고려된다: (1) 소정의 소비자에 대한 애플리케이션 믹스의 요건이 시간에 따라 변할 수 있음, (2) 소비자의 세트에 대한 요건이 시간에 따라 변할 수 있음, (3) 소정의 애플리케이션에 대한 요건이 시간에 따라 변할 수 있음. 상이한 애플리케이션 믹스를 갖는 3명의 소비자(102)의 예가 도 3에 대하여 도시 및 설명된다.

도 3은 도 1의 클라우드 시스템의 3명의 소비자에 대한 시간의 함수로서의 예시적인 애플리케이션 믹스를 도시한다.

도 3에 도시된 바와 같이, 애플리케이션 믹스(300)는 소비자 A, B 및 C로 표기되는 3명의 소비자의 애플리케이션의 예시적인 믹스를 나타낸다. 3명의 소비자 A, B 및 C의 애플리케이션은 각각 A_i, B_i 및 C_i로 표기된다. 애플리케이션 A_i, B_i 및 C_i는 이들 사이에 연관된 신뢰도 요건을 각각 갖는다(여기에서, 명료화를 위해, 3개의 가능한 신뢰도 요건이 이하와 같이 지원된다: 하이(HIGH), 중간(MED), 및 로우(LOW)). 본 예에서, HIGH의 신뢰도 요건은, 풀(full) 액티브/액티브 리던던시가 예측된다는 것을 나타내고, MEDIUM의 신뢰도 요건은 액티브/대기의 리던던시 스킴이 예측된다는 것을 나타내고, LOW의 신뢰도 요건은 리던던시가 예측되지 않는다는 것을 나타낸다.

애플리케이션 믹스(300)는 시간에 따라 변하고, 4개의 예시적인 시간 구간 310₁ - 310₄(통칭하여 시간 구간 310)이 시간에 대한 애플리케이션 믹스(300)의 변화를 나타내는 데 사용되기 위하여 도시된다.

시간 구간 310₁에서, 소비자 A는 애플리케이션 A1 내지 A5를 갖고, 여기에서 애플리케이션 A1, A3 및 A4는 각각 HIGH의 신뢰도 요건을 갖고, 애플리케이션 A2는 MEDIUM의 신뢰도 요건을 갖고, 애플리케이션 A4는 LOW의 신뢰도 요건을 갖는다. 또한, 시간 구간 310₁에서, 소비자 B는 애플리케이션 B1 내지 B4를 갖고, 여기에서 애플리케이션 B1 및 B2는 각각 MEDIUM의 신뢰도 요건을 갖고, 애플리케이션 B3 및 B4는 각각 HIGH의 신뢰도 요건을 갖는다. 또한, 310₁에서, 소비자 C는 MEDIUM의 신뢰도 요건을 갖는 애플리케이션 C1을 갖는다.

시간 구간 310₂에서, 소비자 A, B 및 C의 애플리케이션의 믹스는 시간 구간 310₁의 애플리케이션 믹스(300)와 동일하다(즉, 변하는 것이 없다).

시간 구간 310₃에서, 소비자 A, B 및 C의 애플리케이션의 믹스는 다수의 방식으로 변한다(예를 들어, 이전의 애플리케이션은 더 이상 존재하지 않으며, 여전히 존재하는 이전 애플리케이션의 신뢰도 요건은 변했으며, 새로운 애플리케이션이 도입되었음, 등). 시간 구간 310₃에서, 소비자 A는 애플리케이션 A2, A4, A5, A6(신규) 및 A7(신규)를 가지며, 여기에서 애플리케이션 A2 및 A7은 각각 MEDIUM의 신뢰도 요건을 갖고, 애플리케이션 A4는 HIGH의 신뢰도 요건을 갖고, 애플리케이션 A5 및 A6은 각각 LOW의 신뢰도 요건을 갖는다. 또한, 시간 구간 310₃에서, 소비자 B는 애플리케이션 B3, B5, B6 및 B7을 가지며, 애플리케이션 B3 및 B5는 각각 HIGH의 신뢰도 요건을 갖고, 애플리케이션 B6은 MEDIUM의 신뢰도 요건을 갖고, 애플리케이션 B7은 LOW의 신뢰도 요건을 갖는다. 또한, 시간 구간 310₃에서, 소비자 C는 MEDIUM의 신뢰도 요건을 갖는 애플리케이션 C2(신규)를 갖는다.

시간 구간 310₄에서, 소비자 A, B 및 C에 대한 애플리케이션의 믹스는 다수의 방식으로 다시 변했다(예를 들어, 이전의 애플리케이션은 더 이상 존재하지 않으며, 여전히 존재하는 이전 애플리케이션의 신뢰도 요건은 변했으며, 새로운 애플리케이션이 도입됨, 등).

도 3에 대하여 도시 및 설명된 신뢰도 요건은 단지 예시적이라는 것에 유의한다. 실제로, 입상은 더 미세해질 수 있으며, 애플리케이션 및 그 연관된 신뢰도 요건의 복잡도는 상이할 수 있다. 예를 들어, 하나 이상의 예시적인 신뢰도 요건이 다른 값을 사용하여 나타내어질 수 있으며, 하나 이상의 예시적인 신뢰도 요건이 다른 방식으로 규정될 수 있으며, (상이한 신뢰도 요건을 포함하는) 더 적거나 더 많은 신뢰도 요건이 지원될 수 있으며, (예를 들어, 신뢰도 요건을 대체하고/하거나 이에 추가하여) 다양한 신뢰도 목표가 지원될 수 있는 등의 것뿐만 아니라 그 다양한 조합도 가능하다.

도 4는 도 1의 클라우드 시스템의 물리적 리소스로 소비자 애플리케이션 정보를 매핑하기 위한 프로세스의 일 실시예를 도시한다.

일반적으로, 프로세스(400)는 하부의 클라우드 인프라스트럭쳐 내에서 실현가능한 것에 소비자(102)에 의해 필요하고/하거나 원해지는 것의 제약된 매핑을 수행한다(즉, 소비자(102)가 신뢰도를 다이얼링할 수 있고, 클라우드 시스템(100)이 이를 전달하기를 시도하는 것과 같음).

일 실시예에서, 방법(400)은 RSG(120)의 CE(122)에 의해 실행된다.

도 4에 도시된 바와 같이, 입력 정보는 방법(400)의 특정 포인트에서 수신 및 사용된다. 입력 정보는 소비자 애플리케이션 정보(401) 및 클라우드 시스템 정보(402)를 포함한다. 소비자 애플리케이션 정보(401)는 소비자(102)의 소비자 애플리케이션 토폴로지 정보(예를 들어, 설명으로부터 명확하게 특정되고/되거나 추출될 수 있음), 소비자(102)의 소비자 SLA 정보, 소비자(102)의 DRP(105) 등을 포함한다. 클라우드 시스템 정보(402)는 현재 시스템 상태 정보, 정책/제약 정보(예를 들어, 하나 이상의 하드웨어 및/또는 소프트웨어 리소스 사용 정보, 소비자 프로파일 정보, 요청된 성능 정보, 보안 제약, 비용 제약 등) 등을 포함한다.

스텝 410에서, 가상 애플리케이션 토폴로지(415)가 소비자 애플리케이션 정보(401)의 적어도 일부 및/또는 클라우드 시스템 정보(402)의 적어도 일부를 사용하여 생성된다. 일 실시예에서, 예를 들어, 가상 애플리케이션 토폴로지(415)는 애플리케이션 토폴로지 정보, 현재 시스템 상태 정보, 및 정책 제약을 사용하여 생성될 수 있다.

스텝 420에서, 신뢰도 맵(425)이 가상 애플리케이션 토폴로지(415) 및 클라우드 시스템 정보(402)의 적어도 일부(그리고, 선택적으로, 명료화를 위해 생략되었지만, 소비자 애플리케이션 정보(401)의 적어도 일부)를 사용하여 생성된다. 신뢰도 맵(425)은 애플리케이션 요구 및/또는 소비자(102)의 목표를 충족시키도록 예측되는 신뢰도 컨피규레이션을 식별한다. 일 실시예에서, 신뢰도 맵(425)은 RBD(Reliability Block Diagram)로서 표현될 수 있다. 신뢰도 맵(425)의 생성과 연관된 다수의 고려사항이 존재한다는 것에 유의한다. 예를 들어, 리던던시 아키텍쳐 및 장애 극복 스킴은 프로세서 리소스의 위치에 의해 영향을 받는다(예를 들어, 프로세서 리소스가 동일 멀티-코어 칩 내, 동일 블레이드 상, 블레이드에 걸쳐, 섀시에 걸쳐, LAN 내에, WAN에 걸쳐 등에 있는지에 따름). 예를 들어, 메모리 및 디스크의 할당 또한 고려될 수 있다. 예를 들어, 로컬이든 원격이든 디스크 할당, 파일 시스템 및 데이터베이스 컨피규레이션도 고려될 수 있다. 대안적으로, 결함 공차 요건(예를 들어, DRP(105)에서 특정됨)이 단지 문제의 일부일 수 있으므로(예를 들어, 성능, 보안, 비용 등이 최적의 컨피규레이션을 결정함에 있어서 DRP(105)와 함께 고려될 필요가 있는 다른 요소들임), 신뢰도 맵(425)이 생성은 더욱 복잡해질 수 있다.

스텝 430에서, 물리적 컨피규레이션(435)이 신뢰도 맵(425) 및 클라우드 시스템 정보(402)의 적어도 일부(그리고, 선택적으로, 명료화를 위해 생략되었지만, 소비자 애플리케이션 정보(401)의 적어도 일부)를 사용하여 결정된다. 일 실시예에서, 예를 들어, 물리적 컨피규레이션(435)은 신뢰도 맵(425), 현재 시스템 상태 정보 및 정책/제약 정보를 사용하여 결정될 수 있다. 물리적 컨피규레이션(435)은 클라우드 시스템(100)의 이용가능한 물리적 인프라스트럭쳐(101)로의 (예를 들어, 클라우드 리소스(110)로의) 소비자(102)의 신뢰도 맵(425)의 매핑을 특정한다. 예를 들어, 물리적 컨피규레이션(435)은 하나 이상의 프로세서, 메모리 단위, 디스크, 파일, 데이터베이스, 입력-출력 리소스, 네트워크 리소스 등으로의 소비자(102)의 신뢰도 맵(425)의 매핑을 특정한다.

도 5는 물리적 인프라스트럭쳐에 대한 애플리케이션 토폴로지의 예시적인 매핑을 도시한다.

도 5의 예시적인 매핑(500)은 도 4의 방법(400)에 대하여 도시 및 설명된 스텝들에 대응한다. 도 5의 예시적인 매핑(500)은 애플리케이션 토폴로지(510)(예를 들어, 시간에 따른 애플리케이션 신뢰도 사양을 공급), 신뢰도 맵(520)(예를 들어, 시간에 따른 DRP 사양을 공급) 및 물리적 컨피규레이션(530)(예를 들어, 시간에 따른 물리적 컴포넌트에 대한 매핑을 특정)을 나타내며, 이는 각각 도 4의 가상 애플리케이션 토폴로지(415), 신뢰도 맵(425) 및 물리적 컨피규레이션(435)에 대응한다.

도 5에 도시한 바와 같이, 예시적인 매핑(500)은 그 신뢰도가 시간에 따라 변할 필요가 있는 애플리케이션을 위한 것이다. 애플리케이션은 시간에 따라 변하고, 4개의 예시적인 시간 구간 501₁ - 501₄(통칭적으로, 시간 구간 501)이 시간에 따른 애플리케이션의 변화를 나타내는 데 사용하기 위해 도시된다.

애플리케이션 토폴로지(510)는 애플리케이션 내의 애플리케이션 컴포넌트(511) 및 애플리케이션 컴포넌트(511)의 연관된 신뢰도 요건을 나타낸다(예시적으로, 높은, 중간의, 낮은 신뢰도 요건을 각각 표기하는 H, M 및 L을 사용함). 시간 구간 501₁에서, 애플리케이션은 HIGH 신뢰도 요건을 갖는 제 1 애플리케이션 컴포넌트 및 LOW 신뢰도 요건을 갖는 제 2 애플리케이션 컴포넌트를 포함하는 2개의 애플리케이션 컴포넌트를 포함한다. 다른 시간 구간 501에서, 애플리케이션 토폴로지(510)는 애플리케이션이 변함에 따라 변한다.

신뢰도 맵(520)은 RBD의 형태로 표현된다. 시간 구간 501₁에서, 애플리케이션은 2개의 컴포넌트 A 및 B로 매핑하며, 여기에서 컴포넌트 A는 리던던트 쌍 A1 및 A2이다(HIGH 신뢰도 요건에 기인함). 컴포넌트 B는 컴포넌트 A와 캐스케이딩되고, 동작에 있어서 심플렉스(simplex)이다(그 LOW 신뢰도 요건에 기인함). 다른 시간 구간 501에서, RBD로 표현되는 신뢰도 맵(520)은 애플리케이션 토폴로지(510)가 변함에 따라 변한다.

물리적 컨피규레이션(530)은 클라우드 시스템의 이용가능한 물리적 인프라스트럭쳐로의 애플리케이션(예시적으로, 애플리케이션의 RBD의 애플리케이션 컴포넌트)의 신뢰도 맵(520)의 매핑을 특정한다. 예를 들어, 물리적 컨피규레이션(530)은 하나 이상의 프로세서, 메모리 단위, 디스크, 파일, 데이터베이스, 입력-출력 리소스, 네트워크 링크 등으로의 신뢰도 맵(520)의 매핑을 특정할 수 있다. 시간 구간 501₁에서, 리던던트 쌍 A1 및 A2를 포함하는 애플리케이션 컴포넌트 A는 이러한 리던던시를 공급하도록 구성된 2개의 프로세서 리소스로 매핑하고, 애플리케이션 컴포넌트 B는 프로세서 리소스에 매핑한다. 다른 시간 구간 501에서, 물리적 컨피규레이션(530)은 RBD로 표현된 신뢰도 맵(520)이 변함에 따라 변한다. 프로세서 리소스로의 매핑에 대하여 주로 도시 및 설명되었지만, 물리적 컨피규레이션(530)은, 임의의 적절한 리소스로의 애플리케이션의 신뢰도 맵(520)의 매핑, 예를 들어, 프로세서 리소스로의 (예를 들어, 적절한 특권, 보안 및 사용자 프로파일 사양 등에 따르는 파일, 데이터베이스, I/O 및 통신 포트로의 판독/기입/실행 허용 및 액세스를 갖는 프로세서) 보다 상세한 매핑, 다른 유형의 리소스(예를 들어, 메모리 단위, 디스크, 파일, 데이터베이스, 입력-출력 리소스, 네트워크 링크 등)로의 매핑 등뿐만 아니라 그 다양한 조합을 특정할 수 있다는 것에 유의한다.

도 1로 다시 돌아가면, ME(126)는 클라우드 시스템(100)에 대한 기능을 감시 및 측정을 수행하도록 구성된다. ME(126)는 RSG(120)의 다른 컴포넌트와 협력하여 자기 치료 기능이 클라우드 시스템(100) 내에서 지원될 수 있게 한다.

ME(126)는 클라우드 시스템(100) 내의 컴퓨팅 리소스를 주기적으로 스캔하여, 결함을 식별하고, 보안 공격을 식별하고, 애플리케이션의 성능을 측정하는 것 등을 하도록 구성될 수 있고, 추가적으로, 관련 결과(예를 들어, 결함의 식별, 보안 공격의 식별, 성능 저하의 검출 등뿐만 아니라 그 다양한 조합)를 보고하도록 구성될 수 있다.

ME(126)는, 일탈이 검출되었을 때 경보를 생성하도록 구성될 수 있으며, 관련 경보는 상관 및 분석되어 네트워크 조건에 영향을 미치는 서비스의 존재(또는 비존재)를 결정한다.

ME(126)는 (예를 들어, 클라우드 시스템(100)의 네트워크 컴포넌트의 일부 또는 전부로부터) 경보를 수집하고, 시간적 및/공간적 상대성에 기초하여 경보 조건에 대하여 수집된 경보를 상관시키도록 구성될 수 있다.

ME(126)는 클라우드 시스템(100)에 대한 네트워크 토폴로지 정보를 수집하고, 이러한 상관 기능을 수행하는 데 사용하기 위하여 하나 이상의 모델로 네트워크 토폴로지 정보를 통합하도록 구성될 수 있다.

ME(126)는 독립적인 네트워크 이벤트의 루트(root) 원인을 결정하고, 단절 관련(서비스 영향) 또는 비단절 관련(논(non) 서비스 영향)과 같은 검출된 네트워크 이벤트를 마킹하도록 구성될 수 있다.

ME(126)는 특정 시간 구간 내에 속하는 세트를 결정하기 위해 독립적인 루트 원인 이벤트의 세트를 분석하고, 특정 시간 구간 내의 단절 시간의 전체 양을 계산하기 위하여 상관된 이벤트의 듀레이션을 결합하고, 네트워크 토폴로지 정보에 대한 이벤트와 이벤트에 의해 영향을 받는 서비스의 유형을 비교하고, 네트워크 영향의 범위 및 단절 시간의 퍼센티지를 사용하여 평가되는 서비스(들)에 대한 전체 서비스 이용가능성을 결정함으로써 특정 시간 구간에서의 특정 수집 레벨에 대한 서비스 이용가능성을 계산하도록 구성될 수 있다. 서비스 이용가능성의 결정은, 고려되는 서브-네트워크(들), 사용되는 하부의 네트워크 기술, 네트워크 토폴로지/사이즈 등의 요인에 따를 수 있다.

ME(126)는 Reliability Integrity Meter를 결정하고 CE(128)에 의한 사용을 위해 제어 정보를 결정하도록 구성될 수 있다. 이러한 기능을 수행하는 ME(126)의 예시적인 사용이 도 6에 대하여 도시 및 설명된다.

도 6은 이벤트 상관/수집을 수행하고 반응/예측 제어 정보를 결정하는, 도 1의 RSG의 예시적인 사용을 도시한다.

도 6에 도시된 바와 같이, ME(126)는 이벤트 상관/수집을 수행하고 반응/예측 제어 정보를 결정하도록 구성된다.

ME(126)는 이벤트(602) 및 정책/제약 정보(604)를 수신한다. 도 6에 도시된 바와 같이, 이벤트(602)는 클라우드 시스템(100)의 물리적 인프라스트럭쳐(101)로부터 직접 수신될 수 있고/있거나, 클라우드 시스템(100)의 물리적 인프라스트럭쳐(101) 대신 하나 이상의 다른 감시 및/또는 관리 구현체/시스템(예를 들어, 하나 이상의 프로브(probe), 하나 이상의 EMS(Element Management System), 하나 이상의 NMS(Network Management System) 등)으로부터 수신될 수 있다. 이벤트(602)에 대한 감시는 ME(126) 및/또는 (ME(126)에 대한 보고를 위하여) 클라우드 시스템(100)의 물리적 인프라스트럭쳐(101)에 걸쳐 수행될 수 있다. 감시가 수행되는 이벤트(602)의 유형은 서브시스템에 의해 생성되는 소프트웨어 경보, 다양한 측정에 대하여 측정 카운터에서 발생하는 임계 교차, 애플리케이션 고장(예를 들어, 전체 및/또는 일부), 서비스가 영향을 받는 것으로 귀결되는 보안 공격, 하드웨어 고장(예를 들어, 복구가능 또는 복구불능), 트래픽 부하의 변동, 네트워크 고장 등을 포함할 수 있다. 도 4에 도시된 바와 같이, 정책/제약 정보(604)는 하나 이상의 하드웨어 및/또는 소프트웨어 리소스 사용 정보, 소비자 프로파일 정보, 요청된 성능 정보, 보안 제약, 비용 제약 등뿐만 아니라 그 다양한 조합을 포함할 수 있다.

ME(126)는 수집 엔진(612), 상관 분석 엔진(614) 및 프로세싱 엔진(616)을 포함한다. 또한, ME(126)는 이력 데이터베이스(619)를 포함한다.

수집 엔진(612)은 물리적 인프라스트럭쳐(101)와 연관된 이벤트(602)를 수신하고 이벤트(602)를 수집한다. 수집 엔진(612)은, 특정 시간 구간에서 프로세싱을 수행할 때, 특정 시간 구간 내에 속하는 세트를 결정하기 위해 이벤트(602)를 분석함으로써 이벤트(602)를 수집할 수 있다. 수집 엔진(612)은 수집된 이벤트 정보를 상관 분석 엔진(614) 및/또는 이력 데이터베이스(619)에 공급할 수 있다.

상관 분석 엔진(614)은 수집된 이벤트 정보를 (예를 들어, 수집 엔진(612)으로부터 및/또는 이력 데이터베이스(619)로부터) 수신하고, 수집된 이벤트의 상관을 수행한다. 상관 분석 엔진(614)은 임의의 적절한 상관 기능을 수행할 수 있다. 예를 들어, 관련 이벤트(602)는 네트워크 조건에 영향을 주는 서비스의 존재(또는 비존재)를 결정하기 위해 상관 및 분석될 수 있고, 이벤트(602)는 시간 및/또는 공간 상대성 등뿐만 아니라 그 다양한 조합에 기초하여 경보 조건에 대하여 상관될 수 있다. 상관 분석 엔진(614)은 프로세싱 엔진(616) 및/또는 이력 데이터베이스(619)로 상관된 이벤트 정보를 공급할 수 있다.

프로세싱 엔진(616)은 정책/제약 정보(604)를 수신하고 (예를 들어, 상관 분석 엔진(614)으로부터 및/또는 이력 데이터베이스(619)로부터) 상관된 이벤트 정보를 수신한다.

프로세싱 엔진(616)은 ME(126)에 의해 감시, 수집 및 상관되는 정보의 개요를 포함할 수 있는 RIM(Reliability Integrity Meter)(622)을 생성한다. 프로세싱 엔진(616)은 RIM(622)을 (예를 들어, 이력 DB(619)에) 국부적으로 저장할 수 있고/있거나 RIM(622)을 임의의 적절한 시스템, 디바이스, 엔진 및/또는 다른 컴포넌트 또는 요소에 공급할 수 있다.

프로세싱 엔진(616)은 반응/예측 제어 정보(624)를 생성한다. ME(126)는 클라우드 시스템(100)의 물리적 인프라스트럭쳐(101) 내의 제어 기능을 수행함에 있어서 CE(128)에 의한 사용을 위하여 CE(128)로 반응/예측 제어 정보(624)를 공급한다. 예를 들어, ME(126)는 (1) 클라우드 시스템(100)의 물리적인 인프라스트럭쳐(101) 내의 반응 제어 기능을 제공하기 위하여 CE(128)의 하나 이상의 반응 제어 엔진에 의한 사용을 위해 CE(128)로 반응 제어 정보를 공급하고 (2) 클라우드 시스템(100)의 물리적 인프라스트럭쳐(101) 내의 예측적이고 방지적인 제어 기능을 공급하기 위해 CE(128)의 하나 이상의 예측적이고 방지적인 제어 엔진에 의한 사용을 위하여 CE(128)로 예측적이고 방지적인 제어 정보를 제공한다.

프로세싱 엔진(616)은 ME(126)에 의해 수집된 미가공 데이터로부터 다양한 유형의 성능 측정(예를 들어, KQI(key quality indicator), KPI(key performance indicator) 등)을 계산하도록 구성될 수 있다. 측정은 RIM(622)에서의 포함을 위해 계산될 수 있다. 예를 들어, 신뢰도 측정에 사용될 수 있는 성능 측정은 하드웨어 및/또는 소프트웨어에 대한 고장 빈도(예를 들어, 서비스 레벨, 컴포넌트 레벨, 또는 임의의 다른 적절한 레벨에서), 하드웨어 및/또는 소프트웨어에 대한 다운 타임(downtime)(예를 들어, 서비스 레벨, 컴포넌트 레벨, 또는 임의의 다른 적절한 레벨에서), 하드웨어 및/또는 소프트웨어에 대한 이용가능성(예를 들어, 서비스 레벨, 컴포넌트 레벨, 또는 임의의 다른 적절한 레벨에서), 데이터 이용불능(예를 들어, 고장, 보안 공격 등에 기인함) 등뿐만 아니라 그 다양한 조합 중 하나 이상을 포함할 수 있다. 측정은 (예를 들어, 가상화된 애플리케이션 또는 컴포넌트에 대해, 가상화된 애플리케이션 또는 컴포넌트의 세트에 대해, 서비스에 대해, 서비스의 세트에 대해, 엔드-투-엔드 솔루션에 대해, 데이터 센터에 대해 등뿐만 아니라 그 다양한 조합에 대해) 임의의 적절한 레벨에서 특정될 수 있다는 것에 유의한다. 성능 표시자는 고려되는 소비자(102)에 가장 적합한 것일 수 있다는 것에 유의한다. 또한, 프로세싱 엔진(616)은 예측된 값으로 성능 표시자를 비교하도록 구성될 수 있다.

도 6에서 추가적으로 도시된 바와 같이, CE(128)는 ME(126)로부터 반응/예측 제어 정보(624)를 수신하고, 클라우드 시스템(100)의 물리적 인프라스트럭쳐(101) 내의 반응/예측 제어 기능을 수행하기 위하여 반응/예측 제어 정보(624)를 사용하도록 구성된다. CE(128)는 물리적 인프라스트럭쳐(101)로의 연관된 피드백 액션(예를 들어, 도 1에 대하여 도시 및 설명된 피드백 액션(137))을 공급함으로써 반응 제어 기능 및 예측 방지 제어 기능을 공급할 수 있다. ME(126)는 클라우드 시스템(100)의 동작을 관측 및 측정하며, CE(128)는, 측정된 동작이 예측된 동작과 일치하는지를 보장하고, 편차가 있다면 적절한 보정 액션이 개시되는 것을 보장하기 위해 루프를 폐쇄한다는 것에 유의한다. ME(126)는 기능을 수행하고 CE(128)에 의해 수행된 제어 액션을 궁극적으로 도출하는 결과를 생성한다는 것에 추가적으로 유의한다(예를 들어, ME(126)는 상관 분석 엔진(614)의 결과와 정책/제약 정보(604)를 결합하고, RIM(622) 내에 포함된 측정을 생성하고, 이력 데이터베이스(619) 내에 이력 정보로서 결과 및 현재 상태를 저장하고, 정책/제약 정보(604) 및 이력 정보를 사용하여 CE(128)에 의해 수행된 반응 및 예측 방지 제어 액션을 도출한다).

CE(128)는 반응 제어 엔진(632) 및 예측 방지 제어 엔진(634)을 포함한다.

반응 제어 엔진(632)은 ME(126)로부터 반응 제어 정보를 수신하고 물리적 인프라스트럭쳐(101) 내의 반응 제어 기능을 수행한다. 반응 제어 엔진(632)은 조건(예를 들어, 이벤트, 고장 등)으로부터 복구하는 액션으로 응답하도록 구성될 수 있다. 예를 들어, 복구 액션은, 프로세스 재개 수행, 프로세서 리부트(reboot) 및 다른 프로세서에 대한 (예를 들어, 로컬 또는 원격) 프로세스 재개, 고장난 네트워크 접속의 재확립, 저장 유닛에 대한 재개 수행, 소프트 고장에 대한 복구 액션 수행(예를 들어, 데이터의 재초기화, 프로세스의 리셋 또는 복구 등) 등뿐만 아니라 그 다양한 조합을 포함할 수 있다. 반응 제어 엔진(632)은 소스 또는 조건의 루트 원인을 식별하기 위하여 진단 테스트를 실행하도록 구성될 수 있다.

예측 방지 제어 엔진(634)은 ME(126)로부터 예측 방지 제어 정보를 수신하고, 물리적 인프라스트럭쳐(101) 내의 예측 방지 제어 기능을 수행한다. 예측 방지 제어 엔진(634)은 재조직 수행, 리밸런싱 액션 수행, 감사 수행, 사전 테스팅 수행 등과 같은 예측 방지 측정을 수행하도록 구성될 수 있다.

예를 들어, 예측 방지 제어 엔진(634)은 리소스를 재조직하도록 구성될 수 있다(예를 들어, 새로운 서비스가 구성되거나 시스템에서 발생하는 최근 이벤트로 인한 동적 모델 구축, 기존 구성 서비스의 구조를 변화시키는 재구성 등).

예를 들어, 예측 방지 제어 엔진(634)은 (예를 들어, 디스크 액세스를 더욱 원활하고 보다 효율적으로 만들기 위해 저장 시스템을 주기적으로 해체하여 성능을 향상시키고 디스크 수명을 보존함으로써) 해체를 수행하도록 구성될 수 있다.

예를 들어, 예측 방지 제어 엔진(634)은, 동적 신뢰도 연산이 고장 데이터의 증가하는 갱신에 기초하는 동적 신뢰도 모델링을 수행하도록 구성될 수 있다. 일 실시예에서, 동적 신뢰도 모델링의 초점은 이력 데이터만을 사용하는 것 대신 데이터 수집 및 동적 프로파일링을 강조하면서, 신뢰도 평가에 대한 런타임 데이터 수집으로부터의 전체 프로세스에 있다. 일 실시예에서, RIM(622)은, 클라우드 시스템(100)의 변하는 환경을 충족시키기 위해 소프트웨어가 재구성될 때 동적으로 갱신될 수 있다.

예를 들어, 예측 방지 제어 엔진(634)은 (예를 들어, 정책/제약 정보(604)에 영향을 받는 이용가능한 리소스에 대한 부하를 리밸런싱함으로써) 리밸런싱 동작을 수행하도록 구성될 수 있다.

예를 들어, 예측 방지 제어 엔진(634)은 감사를 수행하도록 구성될 수 있다. 일 실시예에서, 주기적인 감사가 수행되어 물리적 및 논리적 리소스를 트래킹하고, 데이터 완전성을 유지하고 보안을 보장한다. 일 실시예에서, 감사는 (1) 리소스 항목(예를 들어, CPU, 메모리, I/O 및 네트워크 리소스) 및 (2) 인프라스트럭쳐의 토폴로지(예를 들어, 리던던시 컨피규레이션을 포함하는 컴포넌트들 사이의 접속)에 대해 수행될 수 있다. 일 실시예에서, 감사는 사용자 데이터베이스 및 파일에 대해 수행되어 데이터 완전성을 보장하고 임의의 잠재적인 문제를 알아낸다.

예를 들어, 예측 방지 제어 엔진(634)은 사전 테스팅을 수행하도록 구성될 수 있다. 일 실시예에서, 사전 테스팅은 인-서비스 시뮬레이팅된 공격, 고장 직전 조건 테스팅, 계획된 관리 액션(예를 들어, 언플러깅)에 관한 테스팅을 포함할 수 있다. 일 실시예에서, 이러한 사전 테스팅의 적어도 일부는 물리적 인프라스트럭쳐(101) 내의 가상적으로 무한한 리소스의 이용가능성에 따를 수 있다. 이러한 유형의 테스팅은, 클라우드 시스템(100)이 계속 견고하다는 것을 보장하는 것을 도울 수 있다.

이러한 방식으로, RSG(120)는, 클라우드 시스템(100)이 자기 신뢰 시스템으로서 기능할 수 있도록 구성된다.

RSG(120)의 특정 기능을 제공하기 위하여 특정 컴포넌트(예를 들어, CE(122), SE(124), ME(126) 및 CE(128))의 사용에 대하여 주로 도시 및 설명되었지만, RSG(120)의 기능은 임의의 적절한 컴포넌트 또는 컴포넌트들을 사용하여 제공될 수 있다는 것에 유의한다. 예를 들어, 예시된 컴포넌트에 의해 수행되는 것으로 도시 및 설명된 기능은 각각 다른 방식으로 예시된 컴포넌트에 걸쳐 분산될 수 있다. 예를 들어, (예를 들어, 예시된 컴포넌트 대신 및/또는 이에 추가하여) 하나 이상의 다른 컴포넌트가 예시된 컴포넌트에 의해 수행되는 것으로 도시 및 설명된 기능을 제공하는 데 사용될 수 있다.

(예시적으로, 특정의 분산 아키텍쳐를 사용하여) 클라우드 시스템(100) 내의 RSG(120)의 특정 배치에 대하여 주로 도시 및 설명되었지만, RSG(120)는 RSG(120)의 다양한 기능의 집중 또는 탈집중화된 배치를 포함할 수 있는 임의의 다른 적절한 배치를 사용하여 클라우드 시스템(100) 내에 구현될 수 있다는 것이 이해될 것이다.

따라서, RSG(120)는 임의의 적절한 방식으로 클라우드 시스템(100)으로 통합될 수 있다는 것이 이해될 것이다.

일 실시예에서, RSG(120)는 (1) 그 예시적인 실시예가 도 7 및 8에 대하여 도시 및 설명된 하나 이상의 CSU(Compute Store Unit)로 구성된 가상 레이어 및 (2) 그 예시적인 실시예가 도 9에 대하여 도시 및 설명된 하나 이상의 SCU(System Control Unit)로 구성된 물리적 레이어를 사용하여 클라우드 시스템(100)으로 통합될 수 있다.

도 7은 도 1의 RSG를 구현하는 데 사용하기에 적절한 자기 신뢰 CSU(Compute Store Unit)의 일 실시예를 도시한다.

CSU(700)는 클라우드 시스템(100)의 분산된 버전의 추상 기본 구축 블록이다. CSU(700)는, CSU(700)가 보안성이 있고 복구가능한 것으로 기대하는 소비자(102)에 의해 특정될 수 있다. CSU(700)는 소비자(102)에 의해 제공될 수 있는 다양한 파라미터(예를 들어, SLA(103), DRP(105), QoS 파라미터 등)에 기초하여 제어될 수 있다. 또한, 소비자(102)는 관련 정보(예를 들어, 분산 클라우드 시스템의 토폴로지, 분산 클라우드 시스템에 대한 정책 룰 규제 등)를 제공할 수 있다. 소비자 도메인은 하나 이상의 CSU(700)를 포함할 수 있다는 것에 유의한다. 소비자 도메인이 복수의 CSU(700)를 포함하는 경우, 복수의 CSU(700)는 서로 통신할 수 있어 가상의 분산된 컴퓨팅 머신을 형성한다. 일 실시예에서, RSG(120)는, 각 CSU(700)가 나타내어지는 바와 같이 자기 신뢰적이라는 것을 보장하기 위하여 각 CSU(700) 내에 삽입된다.

CSU(700)는 VM(Virtual Machine)(710), VSV(Virtual Storage Volume)(720), VSI(Virtual Subnetwork Interface)(730), VP(Virtual Probe)(740), VRSG(Virtual Reliability/Security Guardian)(750), CC(CSU Controller)(760) 및 CS(CSU Specification)(770)를 포함한다.

VM(710)은 CSU(700)의 다양한 기능을 제공하도록 구성된 프로세서 및 관련 메모리를 포함한다. 이것은 성능 및 신뢰도의 몇몇 레벨에 대하여 기본 컴퓨트 엔진으로서 사용될 수 있다.

VSV(720)는 CSU(700)에 대한 저장을 제공한다. VSV(720)는 하나 이상의 데이터베이스(들), 하나 이상의 파일, 하나 이상의 디스크, 하나 이상의 플래시 메모리 컴포넌트 등뿐만 아니라 그 다양한 조합을 포함할 수 있다.

VSI(730)는 클라우드 시스템(100)의 다른 CSU(700)에 대한 인터페이스를 제공한다(예를 들어, VM(710)과 연관된 가상 메모리 공유에 대해, VSV(720)에서의 저장 공유에 대해, 등). VSI(730)는 이러한 공유 기능을 제공하기 위해 확고한 접속을 지원할 수 있다. 복수의 연관된 VSI(730)를 통해 통신하는 복수의 CSU(700)를 사용하는 예시적인 분산된 자기 신뢰 클라우드 시스템이 도 8에 대하여 도시 및 설명된다.

VP(740)는 CSU(700)에 대하여 이용, 신뢰도, 성능 및 보안 데이터를 수집한다.

VRSG(750)는 각각 CE(122), SE(124), ME(126) 및 CE(128)에 의해 수행되는 것으로 도 1 내지 6에 대하여 도시 및 설명된 컨피규레이션, 스케줄링, 감시 및 제어 기능을 수행하는 CSU(700)에 대한 RSG(120)로서 동작하도록 구성된다. 또한, VRSG(750)는 (예를 들어, VRSG(750)가 구현되는 CSU(700) 및/또는 다른 VRSG(750)를 갖는 다른 CSU(700) 내의 고장으로부터 복구를 위한 복구 액션 수행을 포함하는, CSU(700) 내의 컴포넌트의 복구 감시 및 관리에 대하여) CSU(700)의 컴포넌트를 감시 및 관리하도록 구성될 수 있다.

CC(760)는 CSU(700)의 동작을 관리하도록 구성된다. CC(760)는 클라우드 공급자와 상호작용할 수 있다. 또한, CC(760)는 VRSG(750)를 통해 가상 인프라스트럭쳐의 상태를 감시할 수 있다. CC(760)는 SCU와 통신하도록 구성된다.

CS(770)는 CSU(700)와 연관된 속성을 유지한다(예를 들어, CPU 요건, 메모리 요건, VSV(720)에 대한 저장 볼륨 부가 장치, VSI(730)를 통한 다른 CSU(700)로의 접속, 신뢰도 레벨, 복구 스킴, 고장과 같은 조건의 이벤트에서의 동작, 확장성 정책 속성, QoS 속성, 보안 제약, 성능 제약 등뿐만 아니라 그 다양한 조합). CSU(700) 내의 요소들 사이에 보안이 있을 수 있으며, 마찬가지로 복수의 자기 신뢰 CSU(700)를 포함하는 분산 클라우드 시스템의 경우에 자기 신뢰 CSU(700) 사이에 보안이 있을 수 있다는 것에 유의한다. CS(770)는 권한 설정을 통해 속성에 대한 변화를 지원할 수 있다.

여기에 설명한 바와 같이, 소비자 도메인은 임의의 적절한 수의 CSU(700)를 포함할 수 있다. 소비자 도메인이 복수의 CSU(700)를 포함하는 일 실시예에서, 복수의 CSU(700)는 서로 통신할 수 있어, 가상의 분산 컴퓨팅 머신으로서 동작하도록 구성되는 분산된 자기 신뢰 클라우드 시스템을 형성한다. 이러한 일 실시예에서, 복수의 CSU(700)의 VRSG(750)는 복수의 CSU(700)의 VSI(730)를 통해 서로 통신할 수 있어 분산된 자기 신뢰 클라우드 시스템을 형성한다. 도 8에 대하여 예가 도시 및 설명된다.

도 8은 분산된 자기 신뢰 클라우드 시스템을 형성하기 위해 소비자 도메인에서 도 7의 복수의 CSU의 예시적인 배치를 도시한다.

도 8에 도시된 바와 같이, 소비자 도메인(800)은 3개의 CSU(700₁ 내지 700₃)을 포함하며, 여기에서 각각의 CSU(700)는 도 7의 CSU(700)에 대하여 도시 및 설명된 바와 같이 구현된다.

3개의 CSU(700)는 통신 네트워크(810)를 통해 서로 통신하도록 구성된다. 더욱 구체적으로, CSU(700)의 VRSG(750)는 CSU(700)의 각각의 VSI(730)를 통해 통신 네트워크(810)에 액세스함으로써 서로 통신하도록 구성된다. 일 실시예에서, CSU(700)가 물리적 서버 상에 통합되고 플랫폼의 관련 네트워킹 요구가 그 결과 강화되는 경우에, 로컬 통신이 가상화될 수 있으며(예를 들어, 플랫폼의 물리적 레이어에 대해 CSU(700) 사이의 통신의 전부를 강제하는 것이 아님), 여기에서, (예를 들어, 물리적 스위치와 같이 동작하도록 구성되지만 플랫폼으로 가상화되는 하나 이상의 가상 스위치를 사용하여, 또는 임의의 다른 적절한 방식으로) 가상화는 임의의 적절한 방식으로 구현될 수 있다.

3개의 CSU(700)가 RADP(Reliable Adaptive Distributed Protocol)를 사용하여 서로 통신하도록 구성될 수 있다. RADP는 3개의 CSU(700)가 다양한 유형의 정보를 교환할 수 있게 하여(예를 들어, 신뢰도, 보안, 성능, 토폴로지, 이벤트 데이터, 등뿐만 아니라 그 다양한 조합), 3개의 CSU(700)가 액션을 조정할 수 있게 한다.

다른 통신 관련 기능이 지원될 수 있다는 것에 유의한다. 일 실시예에서, 예를 들어, 디폴트 네트워크는 동일한 서브넷 상의 VM(710) 사이에서 교환되는 것으로 제한된다. 일 실시예에서, 예를 들어, VSV(720)는 동일 CSU(700) 내의 접속 및 이미징을 위해 단지 가시화될 수 있다. 일 실시예에서, 예를 들어, CSU(700) 사이에서 VSV(720)로부터 정보를 공유하는 것은 안전한 경로를 통한 수송으로 제한된다.

이러한 방식으로, 클라우드 공급자는 통신 네트워크(810)의 도달 및 스케일을 사용할 수 있어, 물리적 인프라스트럭쳐(101)에 걸쳐 클라우드 서비스를 효율적으로 분산시킨다.

상술한 바와 같이, RSG(120)는, 하나 이상의 CSU(700)로 구성된 가상 레이어에 추가하여, 하나 이상의 SCU로 구성된 물리적 레이어를 사용하여 클라우드 시스템(100)으로 통합될 수 있다.

도 9는 도 1의 클라우드 시스템의 일부 내에 배치된, 도 1의 RSG를 구현하는 데 사용하기에 적절한 SCU(System Control Unit)의 일 실시예를 도시한다.

도 9에 도시된 바와 같이 단순화된 물리적 인프라스트럭쳐(900)는 물리적 리소스 부분(910) 및 SCU(920)를 포함한다.

물리적 리소스 부분(910)은 (도 1에 대하여 도시 및 설명된 물리적 인프라스트럭쳐(101)의 일부일 수 있는) 물리적 인프라스트럭쳐(900)의 물리적 리소스(911) 및 하이퍼바이저(919)를 포함한다.

물리적 리소스(911)는 컴퓨팅 리소스, 메모리 리소스, 입력-출력 리소스, 저장 리소스 등뿐만 아니라 그 다양한 조합을 포함할 수 있다.

하이퍼바이저(919)는 물리적 리소스(911)에 대한 관리 기능을 제공하도록 구성된다. 하이퍼바이저(919)는 CPU 가상화를 지원하도록 구성되어, CPU가 복수의 운영 체제와 공유될 수 있게 한다. 하이퍼바이저(919)는 다양한 다른 기능을 제공할 수 있다.

SCU(920)는 소비자 도메인의 CSU(예를 들어, 도 7의 하나 이상의 CSU(700))를 관리하기 위한 CSU 관리 기능을 제공하도록 구성된다. SCU(920)는 소비자 도메인의 CSU(700)의 CC(들)(760)와 통신하도록 구성된다. SCU(920)는 CSU 관리 기능을 수행하도록 구성되며, 이는 가상 컴포넌트 생성/관리/삭제, 인트라-CSU 및 인터-CSU 상호작용에 대해 규정된 접속 정책 관리 등뿐만 아니라 그 다양한 조합과 같은 기능을 포함할 수 있다.

SCU(920)는 HM(host manager)(921), RM(resource manager)(922), SM(storage manager)(923), RPSG(Physical Reliability/Security Guardian)(924) 및 PP(Physical Probe)(925)를 포함한다.

HM(921)은 특권이 있는 가상 머신(예를 들어, 호스트 OS) 내의 물리적 호스트 상에서 실행되며, 물리적 호스트 상에서 발생하는 액션을 관리 및 검증한다. HM(921)은 물리적 호스트의 다양한 리소스(예를 들어, 컴퓨트, 저장, 네트워크 등)로의 액세스를 중재함으로써 서로로부터 그리고 SCU(920)로부터 CSU(700)의 격리를 강제한다. HM(921)은 추상 가상 모델을 물리적 호스트의 하부의 하이퍼바이저(919)에 적절한 컨피규레이션 데이터로 트랜슬레이팅한다. HM(921)은 SM(923)과 상호작용하여 호스팅된 가상 머신에 의한 요청에 따라 가상 블록 디바이스를 생성 및 제거한다. CSU(700)는 임의의 특수한 하드웨어에 대한 필요 없이, 단일의 공유된 물리적 네트워크 상의 가상 오버레이 네트워크로서 구현될 수 있다. 네트워크 레이어는 가상 머신 대역폭 소비를 제한 및 우선 처리하기 위해 리소스 제어를 제공한다.

SCU(920) 및 하이퍼바이저(919)는 협력하여 (예를 들어, 도 4 및 도 5에 대하여 여기에 도시 및 설명한 바와 같이) 클라우드 시스템의 물리적 인프라스트럭쳐로 가상 애플리케이션 토폴로지의 매핑을 수행할 수 있다. 소비자(102)는 가상 머신의 원하는 토폴로지, 가상 저장 블록 및 가상 네트워크를 특정하며, 여기에서 특정된 토폴로지는 규정된 제약의 세트를 충족시키는 것으로 예측된다. 제약은 허가된 통신 패턴, 가상 머신 동일 배치 제약, QoS 제약 등뿐만 아니라 그 다양한 조합을 포함한다. 토폴로지 및 제약 기술은 다양한 조건(예를 들어, 부하 조건, 고장 조건 등)에 응답하여 동적으로 변할 수 있다. 소비자 도메인의 CSU(700)는 그 후 변하는 요건에 충족하기 위하여 자동으로 적응될 수 있다. 저장 측에, 부하 조건에서도 서비스가 데이터 스루풋을 유지할 수 있게 하는 확장가능하고, 일관되고 부호화된 저장소가 존재한다는 것에 유의한다.

도 1 내지 9에 대하여 도시 및 설명된 자기 신뢰 아키텍쳐는 다양한 다른 기능 및/또는 기술을 이용하고/하거나 제공할 수 있으며, 이들 중 적어도 일부는 자기 신뢰 아키텍쳐 내의 서비스 신뢰도에 대한 연관을 가질 수 있다.

제 1 기능은 자기 신뢰 아키텍쳐의 관점 내에서 고장 모드 및 복구에 관한 것이다.

다수의 경우에, 자기 신뢰 시스템은 리던던시 및 결함 공차에 관한 것이다. 어떠한 단일 컴포넌트도 100% 업타임(uptime)을 보장할 수 없으므로, 아키텍쳐는 전체 시스템의 이용가능성에 영향을 주지 않고 개별 컴포넌트가 고장나는 것을 허용한다. 자기 신뢰 동작은 전부는 아니더라도 분산 시스템에서의 시스템의 다수가 그가 따르는 다른 시스템으로부터의 고장을 용인한다는 것을 예측한다.

일 실시예에서, 가상 레벨 및 물리적 레벨에 있는 RSG(120)는 다양한 유형의 고장으로부터 검출, 봉쇄 및 복구를 담당한다. 일 실시예에서, 결함 봉쇄는 클라우드 시스템(100)의 물리적 인프라스트럭쳐(101)의 공유된 속성으로 인한 상당한 중요성을 상정할 수 있다.

일 실시예에서, 후술하는 고장 유형과 관련된 복구 모드가 지원될 수 있다: (1) 프로세스 고장(예를 들어: 로컬 프로세스 리셋/재개; 다른 CPU에 대한 프로세스 재개; 다른 공통 배치된 블레이드, 셸프(shelf), 컨테이너 및/또는 CPU에 대한 프로세스 재개; 원격 CPU에 대한 프로세스 재개; 기타), (2) 애플리케이션 고장(예를 들어: 로컬 재개; 다른 것: CPU, 블레이드, 셸프, 컨테이너; 서버에 대한 복수의 프로세스 전부, 원격; 기타), (3) 프로세서/CPU 고장(예를 들어: CPU, 블레이드, 셸프, 컨테이너, 사이트의 고장; 기타), 및 (4) 네트워크 고장(예를 들어: 링크, 노드 등의 고장; 네트워크 경로의 주기적 감사; 기타).

일 실시예에서, 결함의 검출 시에, 물리적 유닛은 즉시 "격리된다". 보안 경계는 굳어진다. 복구는, DRP(105), 클라우드 시스템(100)과 연관된 시스템 상태 정보, 및/또는 클라우드 시스템(100)과 연관된 정책/제약 정보에 의해 안내될 수 있다. 복구 전략은 미리 확립될 수 있거나, RSG(120)에 의해 결정될 수 있다. 복구 전략이 RSG(120)에 의해 결정되는 일 실시예에서, RSG(120)는 하나 이상의 요인(예를 들어, 신뢰도, 비용, 성능, 보안 고려사항 등의 레벨)에 기초하여 복구 전력을 결정할 수 있다. 예를 들어, 프로세스 고장으로부터의 복구인 경우에, RSG(120)는 프로세스를 로컬로 재개하거나, 동일 블레이드 상의 다른 프로세서에 대해 프로세스를 재개하거나, 동일 새시 내의 다른 블레이드 상의 프로세스를 재개하거나, 다른 셸프 내의 블레이드 상의 프로세스를 재개하거나, 원격 셸프 내의 블레이드 상의 프로세스를 재개하도록 결정할 수 있다. RSG(120)는 다른 유형의 고장 조건 및 연관된 복구 모드에 대해 다른 결정을 내릴 수 있다.

제 2 기능은 자기 신뢰 아키텍쳐의 관점 내에서의 사전 테스팅에 관한 것이다.

일 실시예에서, 사전 테스팅의 목적은 인-서비스 탄력성 및 견고성 테스트를 주기적으로 수행하여, 시스템이 실제로 고장을 극복할 수 있다는 준비를 보장하는 것이다. 예를 들어, 사전 테스팅은 클라우드 시스템(100)이 시뮬레이션 조건 하에서 동작을 지속할 수 있는 능력을 검증하는 다양한 시뮬레이팅 조건을 포함할 수 있다. 예를 들어, 사전 테스팅은 클라우드 시스템(100)이 높은 스트레스 조건 동안 성공할 능력을 검증하는 고장 직전 조건의 시뮬레이션을 포함할 수 있다.

일 실시예에서, RSG(120)는, 클라우드 시스템(100)이 임의의 소비자 영향 없이 이러한 공통 유형의 고장을 극복할 수 있다는 것을 보장하기 위하여 랜덤하게 생성 인스턴스를 중지시키는 테스트를 주기적으로 실행한다. 일 실시예에서, RSG(120)는 드러나지 않은 고장을 찾아내기 위해 사전 진단을 수행한다. 일 실시예에서, 클라우드 시스템(100)의 "무한 리소스" 특징은, RSG(120)가 훨씬 큰 스케일에서 액티브, 대기 극복 시나리오를 수행할 수 있게 한다. 이러한 적어도 일부 실시예에서, 테스트는 임의의 적절한 컴포넌트를 포함하도록 설계될 수 있다(예를 들어, CPU, 메모리, 스토리지, I/O, 네트워크 등뿐만 아니라 그 다양한 조합).

일 실시예에서, RSG(120)는 클라우드 시스템(100)의 신뢰도와 보안을 평가하도록 구성된 하나 이상의 인-서비스 테스트를 지원할 수 있다. 예를 들어, RSG(120)는 다음과 같은 인-서비스 컨피규레이션 테스트를 수행하도록 구성될 수 있다: (1) 복수 버전의 네트워크 드라이버 사용, OS 및 드라이버 레벨 네트워크 설정 트위킹(tweaking), 및 커널 핫 픽스 취득 및 이를 서비스에 적용, (2) 가상 공급자 스위칭 및 TCP/IP 호스트 모델 변경, 및 (3) 복수의 지리적 위치에서 컨피규레이션 및 런 타임 문제 확인. 예를 들어, RSG(120)는 다음과 같이 인-서비스 파손, 장애 극복 테스트를 수행하도록 구성될 수 있다: (1) 고장 및/또는 유지 액션을 시뮬레이팅하고 복원 액션을 트리거링하기 위해 프로세서, 메모리, 디스크, 네트워크 포트 등의 리소스를 랜덤하게 인에이블링, 디스에이블링, 접속 해제 및 재접속, (2) 프로세서 및 데이터베이스에 대한 장애 극복 테스트 수행, CSU(700)에 걸쳐 데이터의 복수의 리던던트 사본이 있다는 것을 보장, N+1 리던던시 확인, 및 (3) 주기적으로 또는 지속적으로 보안 공격 수행. 예를 들어, RSG(120)는 클라우드 시스템(100)이 비정상적 동작으로 인하여 야기된 부하의 대규모 스파이크에 대처하는 능력을 검증하고 순간적인 고장의 리플(ripple) 효과에 대처하는 클라우드 시스템(100)의 능력과 같은 인-서비스 부하 및 용량 테스트를 수행하도록 구성될 수 있다. 예를 들어, RSG(120)는 다음과 같은 인-서비스 지연 및 타임아웃 테스트를 하도록 구성될 수 있다: (1) 타임아웃 확인, 강제 타임아웃 설정, 복원 확인, 및 복구 시간 검증, (2) 서비스 저하 시뮬레이션 및 업스트림 서비스 응답 측정 및 의존성 고장 확인을 위해 클라이언트-서버 통신 레이어에서의 인위적 지연 유발. 예를 들어, RSG(120)는 다음과 같은 인-서비스 감사, 건전성 확인 테스트를 수행하도록 구성될 수 있다: (1) 각 인스턴스 상의 건전성 확인 실행, 불건전한 인스턴스를 검출하기 위해 건전성의 외부 신호(예를 들어, CPU 부하) 감시, 트랜젝션 고장을 찾아내기 위해 온라인 테스트(예를 들어, 불량 입력 사용, 순서가 바뀐 엔트리, 등의 조건) 수행, (2) 최고 실행 능력을 지키지 않는 서브-시스템 인스턴스를 찾아내기 위한 테스트 실행, (3) 사용되지 않은 리소스 검색 및 이용가능한 리소스 풀로 이들이 복귀되는 것을 보장, (4) 보안 위반이나 취약점을 찾아내는 테스트 실행.

제 3 기능은 자기 신뢰 아키텍쳐의 관점 내에서의 데이터 완전성/보안성 및 기밀성에 관한 것이다. 일반적으로, 소비자(102)는 신뢰성 문제로 인한 데이터 소실에 취약하다. 일 실시예에서, RSG(120)를 사용하여, 각 CSU(700)는 (1) 소비자 상호간, (2) 소비자로부터의 인프라스트럭쳐, 및 (3) 공급자 불법 행위로부터 소비자를 보호한다. 보안상 고장은 다음의 한가지 이상의 원인으로 인해 발생할 수 있다는 것에 유의한다: 모든 리소스들이 가상화되지는 않음, 가상 소프트웨어에 버그가 없지 않음, 코드가 깨져 통제되지 않는 상황, 클라우드 공급자 인프라스트럭쳐 또는 다른 소비자의 리소스의 민감한 부분에 소비자가 접근할 수 있게 하는 올바르지 않은 네트워크 가상화.

제 4 기능은 자기 신뢰 아키텍쳐의 관점 내에서의 데이터 이용가능성/이용불가능성에 관한 것이다.

다수의 경우, 소프트웨어 애플리케이션 및 데이터는 비지니스에 있어 매우 중요하여, 소프트웨어 애플리케이션 및/또는 데이터가 이용불가능한 경우(예를 들어, 정전 조건), 이용가능성이 복구될 때까지 비지니스는 느려지거나 심지어 잠재적으로 중단된다. 단기간에 있어서는, 그러한 정전 조건은 데이터의 소실, 작업자와 소비자 불만 및 이익 감소로 귀결된다. 장기간에 있어서는, 그러한 정전 조건은 비지니스의 생명에 대해 비지니스에 영향을 줄 수 있다(그리고 소실된 기록, 트랜젝션 및/또는 회계 파일은 심지어 비즈니스를 법규 위반의 위기에 놓을 수도 있다). 여러가지 원인에 의해 데이터가 이용불능하게 될 수 있으며, 이는 데이터에 완전히 액세스가능한 보통 상태(NORMAL 상태로 표기)에서 데이터가 부분적으로 이용가능하거나 이용불능인 비정상 상태로의 전이를 요약하는 상태 다이어그램을 사용하여 표현될 수 있다는 것이 이해될 것이다. 예를 들어, 그러한 비정상 상태는, 시스템이 보안 공격(HACKED 상태로 표기)으로 인해 해킹되거나, 운영자 실수나 프로그램 결함(CORRUPT/COMPROMISED 상태로 표기)에 의해 붕괴되거나, 암호화 키의 소실(CORRUPT/COMPROMISED 상태로 표기)로 인해 이용불능하게 되거나, 계획된 유지 액션(MAINTENANCE 상태로 표기)을 경험할 때 발생할 수 있다.

일 실시예에서, RSG(120)는 소비자 데이터를 보호하도록 구성되어, 그 이용가능성이 타협되지 않는다는 것을 보장한다. RSG(120)는 감사, 인-서비스 테스트, 및 데이터 수리 등뿐만 아니라 그 다양한 조합 중 하나 이상을 통해 소비자 데이터를 보호할 수 있다. 데이터 백업과 저장 스킴은 종종 재난 복구 계획의 중요한 요소임에 유의한다. 일 실시예에서, 소비자 데이터는 용이하게 그리고 자동적으로 필요에 따라 이동될 수 있다. 일 실시예에서, 데이터가 동기된 상태로 복수의 위치에 있는 소비자 데이터의 복수의 사본의 저장을 통해 소비자 데이터가 복구될 수 있다. 일 실시예에서, 특정 유형의 조건(예를 들어, 파일이나 데이터베이스 또는 디스크 고장의 이벤트시)에 대하여 데이터 복구 전략이 특정될 수 있으며, 다음의 하나 이상의 데이터 복구 전략이 사용될 수 있다: (1) 파일 스냅샷이 얻어지고 파일이 저장 및 백업되는 콜드 백업 스킴; (2) 리소스들이 소비자용으로 예약되는 웜 백업 스킴; (3) 원격 사이트에서의 동기화된 리소스들에 의해 관리되는 데이터의 복제에 관한 핫 백업 스킴(예를 들어, 복제된 대체 장애 극복 사이트가 단절 이벤트시 즉시 인수함).

제 5 기능은 자기 신뢰 아키텍쳐의 관점 내에서의 에러 및 경보 핸들링에 관한 것이다.

일 실시예에서, RSG(120)는 CSU(700)와 SCU(920) 상의 비정상적 동작을, 소비자 서비스가 영향을 받기 전에 조기 검출하기 위한 액티브 감시를 수행하도록 구성된다.

일 실시예에서, VRSG(750)는 문제를 분석하고 관련된 방지적인 제어 액션을 결정하도록 구성된다. 이러한 일 실시예에서, VRSG(750)는, CSU(700)의 컴포넌트가 비정상 이벤트를 검출하고 복구할 때 초래되는 경보를 수신하는 것에 응답하여 이러한 기능을 수행하도록 구성된다.

일 실시예에서, VRSG(750)는 다양한 제어 기능(예를 들어, 제어, 필터링, 결함 분석 등뿐만 아니라 그 다양한 조합)을 제공하기 위하여 다양한 유형의 입력 정보를 프로세싱하도록 구성된다.

VRSG(750)는 다양한 제어 기능을 제공하기 위하여 각 CSU(700)에 대한 정보를 프로세싱할 수 있다. 클라우드 시스템(100)은 그 동작 과정 동안, 임의의 또는 모든 레벨(예를 들어, 물리적 SCU 레벨, 가상 CSU 레벨, 네트워크 레벨, 서비스 레벨 등 중 하나 이상)에서 비정상 이벤트(예를 들어, 경고, 경보 등)를 생성하도록 구성된다. 클라우드 시스템(100)은 또한 다양한 유형의 성능 데이터를 수집하도록 구성된다. 감시되고 있는 이벤트 변수의 값은, 비정상 조건에 도달했는지 여부를 결정하는 임계에 영향을 받을 수 있다. 적어도 일부 경우에서, 필터링 기준이 적용되고 그 기준을 충족시키는 변수들이 기록된다(예를 들어, 로그 파일에). 매 시간 간격마다 기록되는 유한한 수의 이벤트 변수가 존재한다는 것이 이해될 것이다. 이벤트 변수는 관련 컴포넌트의 동작을 캡쳐하고 이벤트 프로세싱에 대한 추가적인 컨텍스트를 제공한다. 예를 들어, 이벤트 변수는 이하를 포함할 수 있다: 확대된 기능 에러, 복구된 트랩/예외, CPU 전체 사용량, 메모리 전체 사용량, 취소된 트랜젝션, 프로세스 재개, 에러 TPDU 송신, 에러 TPDU 수신, 전송 타임아웃 발생, 온전 상태 타임아웃의 수, 블레이드 재개, 장애 극복의 수, 디스크 액세스 고장, 파일 액세스 고장, 디스크 사용량, 주요 경보의 수. 상술한 바와 같이, VRSG(750)는 다양한 제어 기능을 제공하기 위해 각 CSU(700)에 대하여 이러한 정보를 프로세싱하도록 구성된다.

VRSG(750)는 몇몇 소스로부터 정보를 수신 및 프로세싱한다(예를 들어, CSU(750)의 컴포넌트로부터의 고장의 자가 보고서, 소비자 및 피어 VRSG(750)로부터의 문제 보고서, VRSG(750)로부터의 진단/연습/감사의 결과, (4) 성능 관리자로부터의 장애 표시, 컨피규레이션 관리자로부터의 네트워크 컨피규레이션 데이터 등뿐만 아니라 그 다양한 조합). VRSG(750)는 이러한 정보를 통합하고, 제어, 필터링, 결함 분석 등과 같은 기능을 제공하도록 구성된다. VRSG(750)에 의한 이러한 처리의 결과, 고장난 인프라스트럭쳐 리소스가 인식되고, 결함의 루트 원인이 식별되고, 수리 액션이 계획 및 스케줄링되고, 고장난 리소스가 서비스로 복귀된다.

VRSG(750) 및 PRSG(924)는 이벤트 통지를 수신하도록 구성될 수 있다. 경고 및 경보 수집은 하드웨어 및/또는 소프트웨어 이벤트를 포함할 수 있으며, 이들 중 적어도 일부는 CSU(700)(VRSG(750)인 경우) 및 SCU(920)(PRSG(924)인 경우)에 의해 특정되는 기준에 기초하여 로컬 호스트 내에서 핸들링된다. 일 실시예에서, 이벤트 통지는, 그 조건이 어드레싱되었더라도 PRSG(750) 및 VRSG(924)로 송신된다. 이런 방식으로 서명 분석 및 가능한 방지 액션의 결정을 위해 이력 정보가 유지될 수 있다. 소프트웨어 에러의 경우, 에러의 대부분은 종종 예외 핸들러에 의해 해결되지만, 단지 상대적으로 적은 수의 에러가 복구불능한 예외 상황으로 귀결된다는 것에 유의한다. 적어도 일부 액션은 호스트 머신에 의하여 로컬로 수행되며, 이 경우 PRSG(750) 및 PRSG(924)는 단지 취해진 액션만 통지받을 수 있다는 것에 더욱 유의한다.

제 6 기능은 자기 신뢰 아키텍쳐의 관점 내에서의 신뢰성있고 확장가능한 저장에 관한 것이다. 다수의 경우에 있어서, 규모와 비용 목표를 충족시키기 위해서, 클라우드 시스템은 복수의, 지리적으로 분포되어 있는 데이터 센터에 산재해 있는 상업 서버, 디스크, 및 네트워크의 클러스터로부터 구축된다. 많은 고장 시나리오들은 그러한 환경에서 가능함에 유의한다(예를 들어, 디스크 고장, 네트워크 정전, 전원 공급 중단 및 재해 등). 결과적으로, 저장 고장으로부터의 복구는, 특정 경우에 하부의 저장 시스템의 시맨틱이 알려지지 않은 경우에는, 클라우드 애플리케이션 개발자들에게는 어려울 수 있다. 예를 들어, 데이터 불일치로 귀결되는 고장 조건은 일부 기입, 저장 노드 깨짐, 네트워크 파티션, 복수의 사이트에서의 복수의 판독기/기입기 등을 포함한다. 일 실시예에서, 소비자는 상이한 비용, 용량 및 신뢰도 절충을 달성하기 위해 다른 인코딩을 특정할 수 있다. 예를 들어, 한시적이고 쉽게 재생되는 데이터는 최소한의 리던던시 및 비용으로 저장될 수 있고, 아키브 데이터(archival data)는 신뢰도를 높이기 위해 넓게 분산될 수 있고, 저장은 궁극적인 일치 시맨틱 등을 제공할 수 있다. 일 실시예에서, 저장 시스템은 다른 운용 조건 하에서 다른 유형의 리던던시 및 일관성을 제공할 수 있다(예를 들어, 데이터의 복제, RAID, 코딩 삭제 등).

제 7 기능은 자기 신뢰 아키텍쳐의 관점 내에서의 성능과 과부하에 관한 것이다. 많은 경우, 서비스에 대한 요구는 시간에 따라 변하여, 성능 예측이 불가능하게 된다. 데이터 센터 운용 시간의 작은 퍼센티지에 대해서만 유지되는 피크 부하 조건을 위해 데이터 센터를 제공한다는 것은 데이터 센터 리소스의 이용으로 귀결될 것이라는 것이 이해될 것이다. 결과적으로, 페이 애즈 유 고 스킴(예를 들어, 컴퓨팅 리소스에 대한 시간만큼 지불)이 우선될 수 있다. 그러나 페이-애즈-유-고 접근법은 또한 관련된 문제를 가질 수 있다(예를 들어, 수요가 미리 알려지지 않고(예를 들어, 초기의 큰 스파이크 발생 후 안정된 트래픽이 올 수 있음), 클라우드를 통해 구매되는 시간이 시간에 따라 불균등한 점 등).

게다가, 또한 많은 서비스들은 계절적 또는 주기적인 수요의 변화(예를 들어, 12월의 온라인 시장, 뉴스 이벤트로 예측 불가한 수요 등)를 경험한다. 또한, 성능의 저하는 고장, 과부하 또는 설계(예를 들어, 계획되고 제어되는 과부하 정책 제어로 인한 트랜젝션 이용가능성의 손실, 트래픽 과부하, VM 간 I/O 성능의 변화, VM 간 I/O 간섭 등뿐만 아니라 그 다양한 조합)에 기인할 수 있다.

제 8 기능은 자기 신뢰 아키텍쳐의 관점 내에서의 전원관리와 하드웨어 수명에 관한 것이다. 일부의 경우에, 데이터 센터는 다수의 서버에 다수의 사용자를 가질 수 있다(예를 들어, 수천대의 서버로 수백만명의 사용자를 지원). 그러한 많은 경우에, 전원과 냉각은 중요한 문제이고, 주요 비용이 된다. 일 실시예에서, 인프라스트럭쳐의 다양한 부분들은, 소프트웨어 스택, 확장가능한 저장 장치, 밀집 블레이드를 갖는 서버 블록, 플래시 기반 비휘발성 메모리를 갖는 분해된 메모리 블레이드, 크로스 레이어 전원 관리 등뿐만 아니라 그 다양한 조합의 사용을 통해 더 효율적이 될 수 있다. 일 실시예에서, 하드웨어 수명은 소비자 불만 등의 가장 공통적인 원인의 하나를 방지하거나 지연시키는 자동화된 디스크 단편화와 같은 소프트웨어 전략을 통해 연장될 수 있다.

제 9 기능은 자기 신뢰 아키텍쳐의 관점 내에서 시스템 이용가능성과 비지니스 연속성에 관한 것이다. 단일 회사에 의한 클라우드 컴퓨팅 서비스의 관리는 고장의 단일 포인트이므로 지속성은 또 다른 요인이라는 것에 유의한다(예를 들어, 다른 위치에 복수의 데이터 센터를 갖고 있더라도 공통의 소프트웨어 인프라스트럭쳐와, 회계, 및 다른 공통 요소 및 기능을 가짐). 일 실시예에서, 비지니스 연속성 전략이 지원된다. 일 실시예에서, 비지니스 연속성 전략은 단지 데이터 복구 이상을 특정할 수 있으며, 이는 대부분의 경우에, 데이터는 진정한 비지니스 연속성 및 재해 복구 계획의 단지 하나의 컴포넌트이기 때문이다.

분리된 기능으로 독립적으로 주로 설명되었지만, 이러한 기능들의 다양한 조합이 같이 사용됨으로써 다양한 기능을 제공할 수 있음에 유의한다.

도 10은 클라우드 시스템의 소비자에 대한 신뢰도를 제공하는 방법의 일 실시예를 도시한다. 방법 1000의 다양한 스텝들에 대해서는 여기에서 도시 및 설명된 도 1 내지 도 9의 관련 부분들과 함께 고려하면 더 잘 이해될 수 있다.

스텝 1010에서, 방법 1000이 시작된다.

스텝 1020에서, 소비자의 DRP가 수신된다. 소비자는 클라우드 시스템을 관리하는 클라우드 공급자의 소비자일 수 있다.

스텝 1030에서, 소비자에 대한 클라우드 리소스의 컨피규레이션이 소비자의 DRP에 기초하여 결정된다.

스텝 1040에서, 클라우드 리소스는 클라우드 리소스의 정해진 컨피규레이션을 사용하여 소비자에 대하여 구성된다.

스텝 1050에서, 클라우드 시스템은 조건 및/또는 잠재적 조건에 대하여 감시된다.

스텝 1060에서, 하나 이상의 조건이 검출되었는지 여부에 대해 결정이 이루어진다. 만약 어떤 조건도 검출되지 않았다면, 방법 1000은 스텝 1050으로 돌아간다(즉, 조건 및/또는 잠재적 조건에 대한 클라우드 시스템의 감시는 계속됨). 만약 어떤 조건이 검출되었다면, 방법 1000은 스텝 1070으로 진행한다.

스텝 1070에서, 하나 이상의 액션이 검출된 조건에 기초하여 개시된다. 스텝 1070부터, 방법 1000은 스텝 1050으로 돌아간다(즉, 조건 및/또는 잠재적 조건에 대한 클라우드 시스템의 감시는 계속됨).

클라우드 시스템 내에서, 신뢰성은 단순히 하나의 고려되는 요소임에 유의한다(예를 들어, 고려될 수 있는 다른 요소는 성능, 보안, 비용 등을 포함). 그러므로 여기에서 주로 클라우드 시스템의 신뢰도와 이용가능성을 고려하여 도시 및 설명되었지만, 클라우드 시스템의 신뢰도와 이용가능성 측면의 개선에 대하여 여기에 도시 및 설명된 다양한 원리, 능력 및 기능은 확장될 수 있어 그러한 하나 이상의 다른 고려사항(예를 들어, 성능, 보안, 비용 등)을 다룬다는 것이 이해될 것이다.

여기서 주로 클라우드 시스템의 관점 내에서 도시되고 설명되었지만, 여기서 도시되고 설명된 다양한 능력과 기능들은 다른 환경에서의 사용을 위해 적응될 수 있다는 것에 유의한다. 예를 들어, 클라우드 시스템의 관점 내에서 여기서 도시되고 설명된 다양한 능력과 기능은 머신 대 머신 환경, 스마트 측정 환경 등에서의 사용을 위해 적응될 수 있다.

도 11은 여기서 설명된 기능을 수행하는데 사용하기에 적절한 컴퓨터의 하이 레벨 블록도를 도시한다.

도 11에 도시된 바와 같이, 컴퓨터(1100)는 프로세서 요소(1102)(예를 들어, CPU(central processing unit) 및/또는 다른 적절한 프로세서(들)) 및 메모리(1104)(예를 들어, RAM(random access memory), ROM(read only memory) 등)를 포함한다. 컴퓨터(1100)는 또한 협력 모듈/프로세스(1105) 및/또는 다양한 입력/출력 디바이스(1106)(예를 들어, 사용자 입력 디바이스(키보드, 키패드, 마우스 등과 같음), 사용자 출력 디바이스(디스플레이, 스피커 등과 같음), 입력 포트, 출력 포트, 수신기, 송신기, 및 저장 디바이스(예를 들어, 테이프 드라이브, 플로피 드라이브, 하드디스크 드라이브, 컴팩트 디스크 드라이브 등))를 포함한다.

여기서 도시되고 설명된 기능은 소프트웨어로 구현이 될 수 있고(예를 들어, 하나 이상의 프로세서 상의 소프트웨어 구현을 통해) 및/또는 하드웨어로 구현이 될 수 있다(예를 들어, 범용 컴퓨터, 하나 이상의 ASIC(application specific integrated circuit) 및/또는 임의의 다른 하드웨어 균등물을 사용함).

여기서 도시되고 설명된 기능은 소프트웨어로 구현이 될 수 있고(예를 들어, 특수 목적 컴퓨터를 구현하기 위하여 범용 컴퓨터에 실행(예를 들어, 하나 이상의 프로세서에 의한 실행)), 및/또는 하드웨어로 구현이 될 수 있다(예를 들어, 하나 이상의 ASIC(application specific integrated circuit) 및/또는 하나 이상의 다른 하드웨어 균등물을 사용함).

일 실시예에서, 여기서 설명된 기능의 구현을 위해 협력 프로세스(1105)가 메모리(1104)에 로드되고, 프로세서(1102)에 의하여 실행될 수 있다. 따라서, 협력 프로세스(1105)(관련 데이터 구조 포함)는 예를 들어, RAM 메모리, 자기 또는 광 드라이브 또는 디스켓 등인 컴퓨터 판독가능 저장 매체에 저장될 수 있다.

도 11에 도시된 컴퓨터(1100)는 여기에 설명된 기능적 요소와 여기에 설명된 기능적 요소의 일부를 구현하기에 적절한 일반적인 아키텍쳐와 기능을 제공한다는 것이 이해될 것이다. 예를 들어, 컴퓨터(1100)는 여기서 도시되고 설명된 하나 이상의 다양한 물리적 리소스, 모듈, 유닛, 요소, 컴포넌트 등을 구현하기에 적절한 일반적인 아키텍쳐와 기능을 제공한다.

여기서 소프트웨어 방법으로 설명된 일부 스텝들은, 예를 들어 다양한 방법 스텝을 수행하는 프로세서와 협력하는 회로로서 하드웨어 내에 구현될 수 있다는 것이 고려된다. 여기서 설명된 기능/요소의 부분은 컴퓨터 프로그램 제품으로 구현될 수 있으며, 여기서 컴퓨터 명령들은, 컴퓨터에 의해 프로세싱될 경우, 여기서 설명된 방법 및/또는 기술이 호출되거나 그렇지 않으면 제공되도록 컴퓨터의 동작을 적응시킨다. 진보적인 방법들을 호출하기 위한 명령들은 고정형 또는 제거가능 매체에 저장될 수 있고, 브로드캐스트나 다른 신호 담지 매체에서의 데이터 스트림을 통해 전송될 수 있고/있거나, 명령에 따라서 동작하는 컴퓨팅 디바이스 내의 메모리 내에 저장될 수 있다.

다양한 실시예의 양태들이 청구항에 특정된다. 다양한 실시예의 이러한 양태 및 다른 양태들은 이하의 번호가 붙여진 항들에서 특정된다.

1. 프로세서 및 메모리를 포함하는 장치로서,

상기 프로세서는,

클라우드 공급자의 소비자와 연관된 동적 신뢰도 프로파일(DRP: dynamic reliability profile)을 수신하고 - 상기 DRP는 시간 및 소비자의 애플리케이션 또는 서비스의 요건의 함수로서 소비자의 신뢰도 파라미터를 특정함 - ;

소비자의 DRP에 기초하여 소비자에 대한 클라우드 리소스의 컨피규레이션을 결정하도록 구성되는

장치.

2. 제 1 항에 있어서,

상기 DRP는 소비자와 연관된 SLA(Service Level Agreement)의 일부로서 특정되도록 구성되는

장치.

3. 제 1 항에 있어서,

상기 클라우드 리소스는, 컴퓨팅 리소스, 메모리 리소스, 입력-출력 리소스, 저장 리소스 및 네트워크 리소스 중 적어도 하나를 포함하는

장치.

4. 제 1 항에 있어서,

상기 프로세서는,

소비자 애플리케이션 정보 및 상기 클라우드 공급자의 클라우드 시스템과 연관된 클라우드 시스템 정보를 사용하여 소비자의 가상 애플리케이션 토폴로지(topology)를 결정하고;

소비자에 대한 가상 애플리케이션 토폴로지 및 상기 클라우드 시스템과 연관된 클라우드 시스템 정보를 사용하여 신뢰도 맵을 결정하고;

신뢰도 맵 및 상기 클라우드 시스템과 연관된 클라우드 시스템 정보를 사용하여 클라우드 리소스의 컨피규레이션을 결정함으로써,

장치.

5. 제 4 항에 있어서,

상기 클라우드 시스템 정보는 상기 클라우드 시스템과 연관된 현재 시스템 상태 정보 및 정책 정보와 제약 정보 중 적어도 하나를 포함하는

장치.

6. 제 4 항에 있어서,

상기 신뢰도 맵은 애플리케이션 컴포넌트의 각각의 신뢰도 요구 및 애플리케이션 컴포넌트 사이의 적어도 하나의 관계의 관점에서 애플리케이션의 복수의 애플리케이션 컴포넌트를 나타내도록 구성된 RBD(Reliability Block Diagram)로서 표현되는

장치.

7. 제 1 항에 있어서,

상기 프로세서는,

복수의 시간 구간의 각각에서 소비자에 대한 클라우드 리소스의 컨피규레이션을 결정하도록 구성되는

장치.

8. 제 1 항에 있어서,

상기 프로세서는,

상기 DRP에서 특정된 신뢰도 파라미터가 충족되고 있는지 여부를 결정하기 위해 상기 클라우드 리소스의 동작을 감시하도록 추가적으로 구성되는

장치.

9. 제 1 항에 있어서,

상기 프로세서는,

상기 DRP에서 특정된 신뢰도 파마리터를 충족시키기 위한 클라우드 리소스의 동작을 측정하도록 추가적으로 구성되는

장치.

10. 제 1 항에 있어서,

상기 프로세서는,

가상 컨피규레이션을 생성하기 위하여 소비자와 연관된 DRP를 프로세싱하고;

상기 가상 컨피규레이션을 상기 클라우드 리소스로 매핑하도록 구성된 스케줄링 엔진에 상기 가상 컨피규레이션을 제공하도록 구성된 컨피규레이션 엔진을 제공하도록 구성되는

장치.

11. 제 1 항에 있어서,

상기 프로세서는,

소비자와 연관된 DRP를 충족시키는 가상 컨피규레이션을 수신하고;

상기 가상 컨피규레이션을 상기 클라우드 리소스로 매핑하도록 구성된 스케줄링 엔진을 제공하도록 구성되는

장치.

12. 제 1 항에 있어서,

상기 프로세서는,

상기 클라우드 공급자의 클라우드 시스템과 연관된 시스템 상태 정보 및 상기 클라우드 시스템의 상기 클라우드 공급자에 의해 특정된 정책 정보 및 제약 정보 중 적어도 하나를 사용하여, 상기 클라우드 시스템의 클라우드 리소스를 제어하는 데 사용되도록 구성된 신뢰도 완전성 측정 정보 및 제어 정보 중 적어도 하나를 생성하도록 구성된 감시 엔진을 제공하도록 구성되는

장치.

13. 제 12 항에 있어서,

상기 감시 엔진은,

상기 클라우드 시스템의 물리적 인프라스트럭쳐와 연관된 이벤트를 수신 및 수집하도록 구성된 수집 엔진;

상기 클라우드 시스템과 연관된 시스템 상태 정보를 형성하기 위해 수집된 이벤트를 상관시키도록 구성된 상관 분석 엔진; 및

상기 클라우드 시스템의 클라우드 리소스를 제어하는 데 사용되도록 구성된 제어 정보 및 신뢰도 완전성 측정 정보 중 적어도 하나를 생성하기 위해, 상기 클라우드 시스템과 연관된 시스템 상태 정보 및 상기 클라우드 시스템의 클라우드 공급자에 의해 특정된 정책 정보 및 제약 정보 중 적어도 하나를 프로세싱하도록 구성된 프로세싱 엔진을 포함하는

장치.

14. 제 12 항에 있어서,

상기 신뢰도 완전성 측정은 시스템 상태 정보 및 상기 시스템 상태 정보로부터 도출된 측정 중 적어도 하나를 포함하는

장치.

15. 제 12 항에 있어서,

상기 클라우드 시스템의 클라우드 리소스를 제어하는 데 사용하도록 구성된 제어 정보는, 상기 클라우드 시스템에서의 적어도 하나의 조건에 반응하도록 구성된 반응 제어 정보 및 상기 클라우드 시스템에서 상기 적어도 하나의 조건이 발생하는 것을 방지하도록 구성된 예측 방지 제어 정보 중 적어도 하나를 포함하는

장치.

16. 제 1 항에 있어서,

상기 프로세서는,

상기 클라우드 리소스를 제어하는 데 사용하도록 구성된 제어 정보를 수신하고;

상기 제어 정보를 사용하여 상기 클라우드 리소스의 적어도 일부를 수정하도록 구성된 적어도 하나의 피드백 액션을 생성하도록 구성된 제어 엔진을 제공하도록 구성되는

장치.

17. 제 1 항에 있어서,

상기 프로세서는 CSU(Compute Store Unit)을 지원하도록 구성되고, 상기 CSU는,

가상 프로세서 및 메모리 리소스를 포함하는 가상 머신;

가상 저장 리소스를 포함하는 가상 저장 볼륨;

적어도 하나의 다른 SCU와의 적어도 하나의 안전 접속을 지원하도록 구성된 가상 서브 네트워크 인터페이스;

VRSG(virtual reliability/security guardian);

CSU에 대한 이용, 신뢰도, 성능 및 보안 데이터 중 적어도 하나를 수집하도록 구성된 가상 프로브;

CSU를 관리하도록 구성된 컨트롤러; 및

CSU의 복수의 속성을 포함하는 CSU 사양 중 적어도 하나를 포함하고,

상기 VRSG는,

CSU의 요소의 복구의 관리; 및

적어도 하나의 다른 CSU와 신뢰도, 보안, 성능, 토폴로지 및 이벤트 데이터 중 적어도 하나의 교환 중 적어도 하나를 수행하도록 구성되는

장치.

18. 제 1 항에 있어서,

상기 프로세서는 물리적 호스트 상에 배치되고, 상기 프로세서는 상기 물리적 호스트에 대한 SCU(System Control Unit)를 지원하도록 구성되고,

상기 SCU는,

상기 물리적 호스트 상의 액션 관리, 상기 물리적 호스트 상에서의 사용을 위한 CSU(Compute Store Unit)을 생성 및 삭제, 물리적 호스트 상의 CSU와 적어도 하나의 다른 물리적 호스트 사이의 안전 통신 강제 중 적어도 하나를 수행하도록 구성된 HM(Host Manager);

상기 물리적 호스트 상의 리소스를 관리하도록 구성된 RM(Resource Manager);

상기 물리적 호스트 상의 저장을 관리하도록 구성된 SM(Storage Manager);

상기 물리적 호스트 상의 CSU의 복구를 감시 및 관리하도록 구성된 PRSG(physical reliability/security guardian); 및

상기 물리적 호스트와 연관된 이용, 신뢰도, 성능 및 보안 데이터 중 적어도 하나를 수집하도록 구성된 물리적 프로브 중 적어도 하나를 포함하는

장치.

19. 컴퓨터에 의해 실행되는 경우, 컴퓨터로 하여금 방법을 수행하게 하는 명령을 저장한 컴퓨터 판독가능 저장 매체로서,

상기 방법은,

클라우드 공급자의 소비자와 연관된 동적 신뢰도 프로파일(DRP)을 수신하는 단계 - 상기 DRP는 시간 및 소비자의 애플리케이션 또는 서비스의 요건의 함수로서 소비자의 신뢰도 파라미터를 특정함 - ; 및

소비자의 DRP에 기초하여 소비자에 대한 클라우드 리소스의 컨피규레이션을 결정하는 단계를 포함하는

컴퓨터 판독가능 저장 매체.

20. 프로세서를 사용하는 방법으로서,

방법.

본 발명의 교시를 통합하는 다양한 실시예들이 여기에 상세하게 도시 및 설명되었지만, 본 기술 분야의 당업자는 여전히 이러한 교시를 통합하는 변형된 다른 다수의 실시예를 용이하게 고안할 수 있다.

Claims

프로세서 및 상기 프로세서와 통신 가능하게 연결된 메모리를 포함하는 장치로서,
상기 프로세서는,
클라우드 공급자의 소비자의 동적 신뢰도 프로파일(DRP: dynamic reliability profile) - 상기 DRP는 시간 및 상기 소비자의 서비스 또는 애플리케이션의 요건의 함수로서 상기 소비자의 신뢰도 파라미터를 특정함 - 을 수신하고,
상기 소비자의 DRP에 기초하여 상기 소비자에 대한 클라우드 리소스의 컨피규레이션(configuration)을 결정하도록 구성되고,
상기 소비자의 DRP에 기초하여 상기 소비자에 대한 클라우드 리소스의 컨피규레이션을 결정하기 위하여, 상기 프로세서는,
상기 소비자의 DRP에 기초하여 상기 소비자의 서비스 또는 애플리케이션에 대한 가상 토폴로지(a virtual topology)를 결정 - 상기 가상 토폴로지는 상기 서비스의 또는 애플리케이션의 컴포넌트의 세트를 포함하고, 상기 서비스 또는 애플리케이션의 컴포넌트의 세트의 각각의 컴포넌트에 대하여, 상기 서비스 또는 애플리케이션의 상기 각각의 컴포넌트와 연관된 하나 이상의 신뢰도 요건을 포함함 - 하고,
상기 소비자의 서비스 또는 애플리케이션에 대한 상기 가상 토폴로지에 기초하여 상기 소비자의 서비스 또는 애플리케이션에 대한 신뢰도 맵(a reliability map)을 결정하고,
상기 소비자의 서비스 또는 애플리케이션에 대한 상기 신뢰도 맵에 기초하여 상기 소비자에 대한 상기 클라우드 리소스의 컨피규레이션을 결정하도록 구성되는
장치.
제 1 항에 있어서,
상기 프로세서는,
상기 클라우드 공급자의 클라우드 시스템과 연관된 클라우드 시스템 정보에 기초하여 상기 소비자의 서비스 또는 애플리케이션에 대한 상기 가상 토폴로지를 결정하고,
상기 클라우드 시스템과 연관된 클라우드 시스템 정보에 기초하여 상기 소비자의 서비스 또는 애플리케이션에 대한 상기 신뢰도 맵을 결정하고,
상기 클라우드 시스템과 연관된 클라우드 시스템 정보에 기초하여 상기 소비자에 대한 클라우드 리소스의 컨피규레이션을 결정하도록 구성되는
장치.
제 1 항에 있어서,
상기 프로세서는,
복수의 시간 구간의 각각에서 상기 소비자에 대한 상기 클라우드 리소스의 컨피규레이션을 결정하도록 구성되는
장치.
제 1 항에 있어서,
상기 프로세서는,
상기 소비자의 DRP에서 특정된 상기 소비자의 상기 신뢰도 파라미터가 충족되고 있는지 여부를 결정하기 위해 상기 클라우드 리소스의 동작을 감시하고,
상기 소비자의 DRP에서 특정된 상기 소비자의 상기 신뢰도 파라미터를 충족시키기 위한 상기 클라우드 리소스의 상기 동작을 측정(meter)하도록 추가적으로 구성되는
장치.
제 1 항에 있어서,
상기 신뢰도 맵은,
상기 서비스 또는 애플리케이션의 상기 각각의 컴포넌트와 연관된 상기 신뢰도 요건에 기초하여, 상기 서비스 또는 애플리케이션의 컴포넌트의 배치를 포함하는
장치.
제 5 항에 있어서,
상기 소비자에 대한 상기 클라우드 리소스의 컨피규레이션은,
상기 서비스 또는 애플리케이션의 상기 컴포넌트의, 상기 클라우드 공급자의 물리적 인프라스트럭쳐로의 매핑을 포함하는
장치.
제 1 항에 있어서,
상기 프로세서는,
상기 클라우드 공급자의 클라우드 시스템과 연관된 시스템 상태 정보와, 상기 클라우드 시스템의 상기 클라우드 공급자에 의해 특정된 제약 정보 및 정책 정보 중 적어도 하나를 사용하여,
상기 클라우드 시스템의 클라우드 리소스를 제어하는 데 사용되도록 구성된 제어 정보 및 신뢰도 완전성 측정(reliability intergrity meter) 정보 중 적어도 하나를 생성하도록 구성된 감시 엔진을 제공하도록 구성되는
장치.
제 1 항에 있어서,
상기 프로세서는,
상기 클라우드 리소스를 제어하는 데 사용하기 위해 구성된 제어 정보를 수신하고,
상기 제어 정보를 사용하여 상기 클라우드 리소스의 적어도 일부분을 수정하도록 구성된 적어도 하나의 피드백 액션을 생성하도록 구성된 제어 엔진을 제공하도록 구성되는
장치.
컴퓨터에 의해 실행되는 경우, 상기 컴퓨터로 하여금 방법을 수행하게 하는 명령을 저장한 컴퓨터 판독가능 저장 매체로서,
상기 방법은,
클라우드 공급자의 소비자의 동적 신뢰도 프로파일(DRP: dynamic reliability profile) - 상기 소비자의 DRP는 시간 및 상기 소비자의 서비스 또는 애플리케이션의 요건의 함수로서 상기 소비자의 신뢰도 파라미터를 특정함 - 을 수신하는 단계와,
상기 소비자의 DRP에 기초하여 상기 소비자에 대한 클라우드 리소스의 컨피규레이션을 결정하는 단계를 포함하고,
상기 소비자의 DRP에 기초하여 상기 소비자에 대한 클라우드 리소스의 컨피규레이션을 결정하는 단계는,
상기 소비자의 DRP에 기초하여 상기 소비자의 서비스 또는 애플리케이션에 대한 가상 토폴로지를 결정하는 단계 - 상기 가상 토폴로지는 상기 서비스 또는 애플리케이션의 컴포넌트의 세트를 포함하고, 상기 컴포넌트의 세트의 각각의 컴포넌트에 대하여, 상기 컴포넌트의 세트의 각각의 컴포넌트의 상기 서비스 또는 애플리케이션의 하나 이상의 연관된 신뢰도 요건을 포함함 - 와,
상기 소비자의 서비스 또는 애플리케이션에 대한 가상 토폴로지에 기초하여 상기 소비자의 서비스 또는 애플리케이션에 대한 신뢰도 맵을 결정하는 단계와,
상기 소비자의 서비스 또는 애플리케이션에 대한 신뢰도 맵에 기초하여 상기 소비자에 대한 상기 클라우드 리소스의 컨피규레이션을 결정하는 단계를 포함하는
컴퓨터 판독가능 저장 매체.
프로세서 및 메모리를 사용하여,
클라우드 공급자의 소비자의 동적 신뢰도 프로파일(DRP: dynamic reliability profile) - 상기 소비자의 DRP는 시간 및 상기 소비자의 서비스 또는 애플리케이션의 요건의 함수로서 상기 소비자의 신뢰도 파라미터를 특정함 -을 수신하는 단계와,
상기 소비자의 DRP에 기초하여 상기 소비자에 대한 클라우드 리소스의 컨피규레이션을 결정하는 단계를 포함하고,
상기 소비자의 DRP에 기초하여 상기 소비자에 대한 클라우드 리소스의 컨피규레이션을 결정하는 단계는,
상기 소비자의 DRP에 기초하여 상기 소비자의 서비스 또는 애플리케이션에 대한 가상 토폴로지를 결정하는 단계 - 상기 가상 토폴로지는 상기 서비스 또는 애플리케이션의 컴포넌트의 세트를 포함하고, 상기 컴포넌트의 세트의 각각의 컴포넌트에 대하여, 상기 컴포넌트의 세트의 각각의 컴포넌트의 상기 서비스 또는 애플리케이션의 하나 이상의 연관된 신뢰도 요건을 포함함 - 와,
상기 소비자의 서비스 또는 애플리케이션에 대한 상기 가상 토폴로지에 기초하여 상기 소비자의 서비스 또는 애플리케이션에 대한 신뢰도 맵을 결정하는 단계와,
상기 소비자의 서비스 또는 애플리케이션에 대한 신뢰도 맵에 기초하여 상기 소비자에 대한 상기 클라우드 리소스의 컨피규레이션을 결정하는 단계를 포함하는
방법.