KR20150129839A - 분산 데이터 시스템들을 위한 전 시스템에 미치는 체크포인트 회피 - Google Patents

분산 데이터 시스템들을 위한 전 시스템에 미치는 체크포인트 회피 Download PDF

Info

Publication number
KR20150129839A
KR20150129839A KR1020157029050A KR20157029050A KR20150129839A KR 20150129839 A KR20150129839 A KR 20150129839A KR 1020157029050 A KR1020157029050 A KR 1020157029050A KR 20157029050 A KR20157029050 A KR 20157029050A KR 20150129839 A KR20150129839 A KR 20150129839A
Authority
KR
South Korea
Prior art keywords
database
data page
redo log
storage
log records
Prior art date
Application number
KR1020157029050A
Other languages
English (en)
Other versions
KR101771246B1 (ko
Inventor
아누라그 윈드라스 굽타
프라딥 즈나나 마드하바라푸
로리온 다렐 버찰
닐 파찬
Original Assignee
아마존 테크놀로지스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아마존 테크놀로지스, 인크. filed Critical 아마존 테크놀로지스, 인크.
Publication of KR20150129839A publication Critical patent/KR20150129839A/ko
Application granted granted Critical
Publication of KR101771246B1 publication Critical patent/KR101771246B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1474Saving, restoring, recovering or retrying in transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/82Solving problems relating to consistency

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

분산 데이터베이스 시스템은 고속 장애 복구를 구현할 수 있다. 데이터베이스 헤드 노드 고장으로부터 복구 시, 데이터베이스 헤드 노드에 의해 구현되는 데이터베이스에 대해 데이터를 저장하는 분산 저장 시스템의 하나 이상의 저장 노드와의 연결이 수립될 수 있다. 저장 노드들과 연결의 수립 시, 데이터베이스는 다양한 액세스 요청들과 같은, 액세스를 위해 이용 가능하게 만들어질 수 있다. 다양한 실시예들에서, 리두 로그 레코드는 데이터베이스에 액세스를 제공하기 위해 리플레이되지 않을 수 있다. 적어도 일부 실시예들에서, 저장 노드들은 요청들에 응답하여 데이터베이스에 대해 저장된 데이터의 현재 상태를 제공할 수 있다.

Description

분산 데이터 시스템들을 위한 전 시스템에 미치는 체크포인트 회피{SYSTEM-WIDE CHECKPOINT AVOIDANCE FOR DISTRIBUTED DATABASE SYSTEMS}
소프트웨어 스택의 다양한 구성요소들의 분산은 일부 경우들에서 내 고장력(예를 들어, 복제를 통해), 고 지속성, 및 저가의 해결책들(예를 들어, 보다 적은 대형, 고가의 구성요소들 대신 많은 소형, 저가의 구성요소들을 통해) 제공(또는 지원)할 수 있다. 그러나, 데이터베이스는 역사적으로 분산하기가 제일 힘든 소프트웨어 스택의 구성요소들 사이에 있어왔다. 예를 들어, 그것들이 제공할 것으로 예상되는 소위 ACID 속성들(예를 들어, 원자성, 일관성, 분리성, 및 지속성)을 여전히 보장하면서 데이터베이스들을 분산하기가 어려울 수 있다.
대부분 기존의 관계 데이터베이스들이 분산되지 않지만, 일부 기존의 데이터베이스들은 두 개의 공통적인 모델들: "비공유" 모델, 및 "공유 디스크" 모델 중 하나를 사용하여 "스케일링 아웃(scale out)"된다(단지 보다 대형의 모놀리식 시스템을 채용함으로써 "스케일링 업(scale up)"되는 것과 대조적으로). 일반적으로, "비공유" 모델에서, 수신된 질의들은 데이터베이스 샤드들(database shards)(그 각각이 질의의 구성요소를 포함하는)로 분해되고, 이들 샤드들은 질의 절차를 위해 상이한 컴퓨트 노드들로 송신되며, 그것들이 리턴되기 전에 결과들이 수집되고 종합된다. 일반적으로, "공유 디스크" 모델에서, 클러스터에서의 모든 컴퓨트 노드는 동일한 기본 데이터에 액세스한다. 이 모델을 채용하는 시스템들에서, 캐시 일관성을 관리하기 위한 세심한 주의가 취해져야 한다. 이들 모델들 양자에서, 대형, 모놀리식 데이터베이스는 다수의 노드(독립형 데이터베이스 인스턴스의 모든 기능을 포함하는) 상에 복제되고, "글루(glue)" 로직이 그것들을 함께 스티칭(stitching)하기 위해 추가된다. 예를 들어, "비공유" 모델에서, 글루 로직은 질의들을 재분할하고, 다수의 컴퓨트 노트에 그것들을 송신한 후, 결과들을 결합하는 디스패처(dispatcher)의 기능을 제공할 수 있다. "공유 디스크" 모델에서, 글루 로직은 다수의 노드의 캐시들을 함께 퓨징(fusing)하는(예를 들어, 캐싱 계층에서 일관성을 관리하기 위해) 역할을 할 수 있다. 이들 "비공유" 및 "공유 디스크" 데이터베이스 시스템들은 배치하기에 고가이고 유지하기에 복잡할 수 있고, 많은 데이터베이스 사용 경우들을 맹신할 수 있다.
도 1은 일 실시예에 따라, 데이터베이스 소프트웨어 스택의 다양한 구성요소들을 예시하는 블록도이다.
도 2는 일부 실시예들에 따라, 웹 서비스들 기반의 데이터베이스 서비스를 구현하도록 구성될 수 있는 서비스 시스템 아키텍처를 예시하는 블록도이다.
도 3은 일 실시예에 따라, 데이터베이스 엔진 및 개별 분산 데이터베이스 저장 서비스를 포함하는 데이터베이스 시스템의 다양한 구성요소들을 예시하는 블록도이다.
도 4는 일 실시예에 따라, 분산 데이터베이스-최적화 저장 시스템을 예시하는 블록도이다.
도 5는 일 실시예에 따라, 데이터베이스 시스템에서의 개별 분산 데이터베이스-최적화 저장 시스템의 사용을 예시하는 블록도이다.
도 6은 일 실시예에 따라, 데이터 및 메타데이터가 분산 데이터베이스-최적화 저장 시스템의 소정의 노드에 저장될 수 있는 방법을 예시하는 블록도이다.
도 7은 일 실시예에 따라, 데이터베이스 볼륨의 예시적인 구성을 예시하는 블록도이다.
도 8은 일부 실시예들에 따라, 분산 데이터베이스 시스템에서의 전 시스템에 미치는 체크포인트 회피를 위한 방법을 예시하는 흐름도이다.
도 9a는 일부 실시예들에 따라, 분산 데이터베이스 시스템을 위한 고속 장애 복구를 수행하기 위한 방법을 예증하는 일련의 예시들이다.
도 9b는 일부 실시예들에 따라, 분산 데이터베이스 시스템을 위한 고속 장애 복구를 수행하기 위한 방법을 예시하는 흐름도이다.
도 9c는 일부 실시예들에 따라, 복구된 데이터베이스에서 액세스 요청들을 프로세싱하기 위한 방법을 예시하는 흐름도이다.
도 10은 다양한 실시예들에 따라, 데이터베이스 엔진 및 개별 분산 데이터베이스 저장 서비스를 포함하는 데이터베이스 시스템의 적어도 일부를 구현하도록 구성되는 컴퓨터 시스템을 예시하는 블록도이다.
실시예들이 몇몇 실시예들 및 예시적인 도면들을 위한 예로서 본 출원에 설명되지만, 당해 기술분야의 통상의 기술자들은 실시예들이 설명된 실시예들 또는 도면들에 제한되지 않는다는 것을 인식할 것이다. 도면들 및 그것들에 대한 상세한 설명이 실시예들을 개시된 특정한 형태로 제한하는 것으로 의도되지 않고, 이와 반대로, 첨부된 청구항들에 의해 정의된 바와 같은 사상 및 범위 내에 들어가는 모든 변형물들, 등가물들, 및 대안물들을 망라하도록 의도된다는 것이 이해되어야 한다. 본 출원에 사용된 머릿말들은 본 설명 또는 청구항들의 범위를 제한하는 것으로사용되도록 의도되지 않으며 단지 구조상의 목적들을 위함이다. 본 출원 전체에 걸쳐 사용된 바와 같이, 단어 "할 수 있다"는 필수적 의미(즉, 해야한다의 의미)가 아니라, 관대한 의미(즉, 가능성을 갖는 의미)로 사용된다. 단어들 "포함하다", "포함하는", 및 "포함한다"는 개방형 관계들을 나타내고 그에 따라 제한되지는 않으나, 포함하는 것을 의미한다. 이와 유사하게, 단어들 "가진다", "갖는", 및 "갖는다"도 또한 개방형 관계들을 나타내고, 그에 따라 제한되지는 않으나 포함하는 것을 의미한다. 본 출원에 사용되는 바와 같은 용어들 "제1", "제2", "제3" 등은 그러한 순서가 명백히 다르게 표시되지 않는 한 그것들이 선행하는, 그리고 임의의 유형의 순서(예를 들어, 공간적, 시간적, 논리적 등)를 내포하지 않는 명사들을 위한 라벨들로서 사용된다.
다양한 구성요소들은 작업 또는 작업들을 수행"하도록 구성되는"과 같이 설명될 수 있다. 그러한 맥락들에서, "하도록 구성되는"은 일반적으로 동작 동안 작업 또는 작업들을 수행하는 "구조를 갖는 것"을 의미하는 광범위한 열거이다. 이와 같이, 구성요소는 구성요소가 현재 해당 작업을 수행하고 있지 않을 때조차 작업을 수행하도록 구성될 수 있다(예를 들어, 컴퓨터 시스템은 동작들이 현재 수행되고 있지 않을 때조차 동작들을 수행하도록 구성될 수 있다). 일부 맥락들에서, "하도록 구성되는"은 일반적으로 동작 동안 작업 또는 작업들을 수행하는 "회로를 갖는 것"을 의미하는 구조의 광범위한 열거일 수 있다. 이와 같이, 구성요소는 구성요소가 현재 작업 중이지 않을 때조차 작업을 수행하도록 구성될 수 있다. 일반적으로, "하도록 구성되는"에 대응하는 구조를 형성하는 회로는 하드웨어 회로들을 포함할 수 있다.
다양한 구성요소들은 설명에서 편의를 위해, 작업 또는 작업들을 수행하는 것으로 설명될 수 있다. 그러한 설명들은 절 "하도록 구성되는"을 포함하는 것으로 해석되어야 한다. 하나 이상의 작업을 수행하도록 구성되는 구성요소를 나열하는 것은 명확하게 해당 구성요소를 위한 35 U.S.C. §112, 문단 6, 해석을 적용하도록 의도되지 않는다.
"~에 기초하여". 본 출원에서 사용되는 바와 같이, 이 용어는 결정에 영향을 미치는 하나 이상의 요인을 설명하는데 사용된다. 이 용어는 결정에 영향을 미칠 수 있는 추가적인 요인들을 배제하지 않는다. 즉, 결정은 단지 그러한 요인들에 기초하거나, 또는 적어도 부분적으로, 그러한 요인들에 기초할 수 있다. 절 "B에 기초하여 A를 결정한다"를 고려하자. B가 A의 결정에 영향을 미치는 요인일 수 있지만, 그러한 절은 또한 C에 기초하는 것으로부터 A를 결정하는 것을 배제하지 않는다. 다른 인스턴스들에서, A는 단지 B에 기초하여 결정될 수 있다.
본 발명의 범위는 그것이 본 출원에서 다뤄지는 문제들 중 임의의 문제 또는 모든 문제를 완화하는지 여부에 관계없이, 본 출원에 설명되는 피처들 중 임의의 피처 또는 그것들의 조합(명백하게 또는 함축적으로), 또는 그것들의 임의의 일반화를 포함한다. 따라서, 새로운 청구항들이 피처들의 임의의 그러한 조합을 위해 본 출원(또는 이에 대한 우선권을 주장하는 출원)의 절차가 진행되는 동안 만들어질 수 있다. 특히, 첨부된 청구항들을 참조하여, 종속 청구항들에서의 피처들은 독립 청구항들의 피처들과 조합될 수 있고 각각의 독립 청구항들에서의 피처들은 임의의 적절한 방식으로 조합될 수 있고 단지 첨부된 청구항들에서 열거되는 특정한 조합들로 조합되는 것은 아닐 수 있다.
분산 데이터베이스 시스템을 위한 전 시스템에 미치는 체크포인트 회피의 다양한 실시예들이 개시된다. 분산 저장 시스템의 저장 노드는 일부 실시예들에서, 데이터베이스 시스템으로부터 저장 노드에 저장된 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 수신할 수 있다. 데이터 페이지는 데이터베이스에 대해 데이터를 저장하는 복수의 데이터 페이지 중 하나일 수 있다. 병합 이벤트가 적어도 부분적으로, 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드에 기초하여 특정한 데이터 페이지에 대해 검출될 수 있다. 병합 동작은 특정한 데이터 페이지를 그것의 현재 상태로 생성하기 위해 하나 이상의 로그 레코드를 특정한 데이터 페이지의 이전에 저장된 버전에 적용하도록 수행될 수 있다.
분산 데이터베이스 시스템을 위한 고속 장애 복구의 다양한 실시예들이 개시된다. 데이터베이스 시스템 헤드 노드는 일부 실시예들에서, 고장 복구 동작을 수행할 수 있다. 시스템 고장으로부터 복구 시, 데이터베이스에 대해 데이터를 저장하는 분산 저장 시스템의 저장 노드들과의 연결들이 수립될 수 있다. 일부 실시예들에서, 저장 노드들과의 연결들의 수립 시, 데이터베이스 헤드 노드는 액세스를 위해 이용 가능한 데이터베이스를 만들 수 있다. 적어도 일부 실시예들에서, 하나 이상의 액세스 요청이 수신될 수 있고, 하나 이상의 데이터 페이지의 현재 상태가 요청되어 저장 노드들로부터 수신될 수 있다.
본 명세서는 먼저 전 시스템에 미치는 체크포인트 회피(예를 들어, 생성하는 것, 삭제, 사용, 조작 등) 및 고속 장애 복구 기술들을 구현하도록 구성되는 예시적인 웹 서비스 기반 데이터베이스 서비스를 설명한다. 예시적인 웹 서비스 기반 데이터베이스 서비스의 설명에는 데이터베이스 엔진 및 개별 분산 데이터베이스 저장 서비스와 같은, 예시적인 웹 서비스 기반 데이터베이스 서비스의 다양한 측면들이 포함된다. 본 명세서는 그 후 전 시스템에 미치는 체크포인트 회피 및 고속 장애 복구를 위한 방법들의 다양한 실시예들의 흐름도들을 설명한다. 다음으로, 본 명세서는 개시된 기술들을 구현할 수 있는 예시적인 시스템을 설명한다. 다양한 예들이 본 명세서 전체에 걸쳐 제공된다.
본 출원에 설명되는 시스템들은 일부 실시예들에서, 클라이언트들(예를 들어, 가입자들)이 클라우드 컴퓨팅 환경에서의 데이터 저장 시스템을 작동하는 것을 가능하게 하는 웹 서비스를 구현할 수 있다. 일부 실시예들에서, 데이터베이스 시스템은 매우 가변적이고 확장 가능한 기업 급 데이터베이스 시스템일 수 있다. 일부 실시예들에서, 질의들은 다수의 물리적 자원에 걸쳐 분산되는 데이터베이스 저장소에 지시될 수 있고, 데이터베이스 시스템은 필요에 따라를 기초로 스케일 업 또는 스케일 다운될 수 있다. 데이터베이스 시스템은 상이한 실시예들에서, 다양한 유형들 및/또는 구조들의 데이터베이스 도식과 효과적으로 작용할 수 있다. 일부 실시예들에서, 클라이언트들/가입자들은 많은 방법들로, 예를 들어, 데이터베이스 시스템에 대한 SQL 인터페이스를 통해 쌍방향으로 질의들을 제출할 수 있다. 다른 실시예들에서, 외부 애플리케이션들 및 프로그램들은 데이터베이스 시스템에 대한 오픈 데이터베이스 연속성(ODBC; Open Database Connectivity) 및/또는 자바 데이터베이스 연속성(JDBC; Java Database Connectivity) 드라이버 인터페이스들을 사용하여 질의들을 제출할 수 있다.
보다 구체적으로, 본 출원에 설명되는 시스템들은 일부 실시예들에서, 단일 데이터베이스 시스템의 다양한 기능적 구성요소들이 본질적으로 분산되는 서비스 지향적인 데이터베이스 아키텍처를 구현할 수 있다. 예를 들어, 다수의 완전한 및 모놀리식 데이터베이스 인스턴스(그 각각이 애플리케이션 서버, 탐색 기능, 또는 데이터베이스의 코어 기능들을 제공하도록 요구되는 것을 넘어서는 다른 기능을 포함할 수 있는)를 함께 래싱(lashing)하기 보다, 이들 시스템들은 데이터베이스의 기본 동작들(예를 들어, 질의 프로세싱, 트랜잭션 관리, 캐싱 및 저장)을 개별적으로 그리고 독립적으로 가변적일 수 있는 티어들(tiers)로 구조화할 수 있다. 예를 들어, 일부 실시예들에서, 본 출원에 설명되는 시스템들에서의 각 데이터베이스 인스턴스는 데이터베이스 티어(단일 데이터베이스 엔진 헤드 노드 및 클라이언트-측 저장 시스템 드라이버를 포함할 수 있는), 및 개별, 분산 저장 시스템(기존 시스템들의 데이터베이스 티어에서 전통적으로 수행되는 동작들의 일부를 총괄적으로 수행하는 다수의 저장 노드를 포함할 수 있는)을 포함할 수 있다.
본 출원에 보다 상세하게 설명될 바와 같이, 데이터베이스의 최저 레벨 동작들의 일부, (예를 들어, 백업, 복구, 스냅샷, 복원, 로그 레코드 조작 및/또는 다양한 공간 관리 동작들)는 데이터베이스 엔진으로부터 저장 계층으로 분담되고 다수의 노드 및 저장 디바이스에 걸쳐 분산될 수 있다. 예를 들어, 일부 실시예들에서, 데이터베이스(또는 그것들의 데이터 페이지들)에 변경들을 적용한 후 변경된 데이터 페이지들을 저장 계층으로 송신하는 데이터베이스 엔진보다, 저장된 데이터베이스(또는 그것들의 데이터 페이지들)에 대한 변경들의 애플리케이션이 저장 계층 그 자체의 책임일 수 있다. 이러한 실시예들에서, 변형된 데이터 페이지들이 아닌, 리두 로그 레코드들은 저장 계층으로 송신될 수 있고, 그 후 리두 (예를 들어, 리두 로그 레코드들의 애플리케이션)가 다소 느리게 그리고 분산 방식으로(예를 들어, 백그라운드 프로세스에 의해) 수행될 수 있다. 일부 실시예들에서, 장애 복구(예를 들어, 저장된 리두 로그 레코드들로부터 데이터 페이지들의 재구성)는 또한 저장 계층에 의해 수행될 수 있고 또한 분산된(그리고, 일부 경우들에서, 느리게) 백그라운드 프로세스에 의해 수행될 수 있다.
일부 실시예들에서, 단지 리두 로그들(그리고 변경된 데이터 페이지들이 아닌)이 저장 계층에 송신되기 때문에, 기존 데이터베이스 시스템들보다 데이터베이스 티어 및 저장 계층 간 훨씬 더 적은 네트워크 트래픽이 있을 수 있다. 일부 실시예들에서, 각 리두 로그는 그것이 변경을 명시하는 대응하는 데이터 페이지의 약 1/10 크기일 수 있다. 데이터베이스 티어 및 분산 저장 시스템으로부터 송신되는 요청이 비동기식일 수 있다는 것 및 다수의 그러한 요청이 동시에 진행될 수 있다는 것을 주의하자.
일반적으로, 데이터의 조각이 주어진 후, 데이터베이스의 주요 요건은 그것이 결국에는 데이터의 해당 조각을 다시 돌려줄 수 있다는 것이다. 이를 위해, 데이터베이스는 몇몇의 상이한 구성요소(또는 티어)를 포함할 수 있고, 그 각각은 상이한 기능을 수행한다. 예를 들어, 전통적인 데이터베이스는 세 개의 티어: 질의 분석, 최적화 및 실행을 수행하기 위한 제1 티어; 트랜잭션성, 복구, 및 지속성을 제공하기 위한 제2 티어; 및 지역적으로 연결된 디스크들 상에 또는 네트워크 연결 저장소 상에, 저장소를 제공하는 제3 티어를 갖는 것으로서 간주될 수 있다. 상기에서 언급한 바와 같이, 전통적인 데이터베이스를 스케일링하기 위한 이전 시도들은 전형적으로 데이터베이스의 모든 세 개의 티어를 복제하는 것 및 그러한 복제된 데이터베이스 인스턴스들을 다수의 기계에 걸쳐 분산하는 것을 수반했다.
일부 실시예들에서, 본 출원에 설명된 시스템들은 전통적인 데이터베이스와 상이하게 데이터베이스 시스템의 기능을 분배할 수 있고, 스케일링을 구현하기 위해 단지 기능 구성요소들의 서브세트(완전한 데이터베이스 인스턴스가 아닌)를 다수의 기계에 걸쳐 분산할 수 있다. 예를 들어, 일부 실시예들에서, 클라이언트-대면 티어는 데이터를 저장 또는 검색하는 방법이 아닌, 저장 또는 검색되는 데이터를 명시하는 요청을 수신하도록 구성될 수 있다. 이러한 티어는 요청 분석 및/또는 최적화(예를 들어, SQL 분석 및 최적화)를 수행할 수 있는 한편, 또 다른 티어는 질의 실행에 책임이 있을 수 있다. 일부 실시예들에서, 제3 티어는 트랜잭션성 및 결과들의 일관성을 제공하기 위한 책임이 있을 수 있다. 예를 들어, 이러한 티어는 소위 ACID 속성들의 일부, 특히, 데이터베이스 내 일관성을 유지하고, 데이터베이스를 타겟팅하는 트랜잭션들 간 분리성을 보장하면서, 데이터베이스를 타겟팅하는 트랜잭셩들의 원자성을 강화하도록 구성될 수 있다. 일부 실시예들에서, 제4 티어는 그 후 다양한 종류들의 고장들의 존재 시 저장된 데이터의 지속성을 제공하기 위한 책임이 있을 수 있다. 예를 들어, 이러한 티어는 변경 로깅, 데이터베이스 장애의 회복, 기본 저장 볼륨들에 대한 액세스를 관리하는 것 및/또는 기본 저장 볼륨들에서의 공간 관리에 책임이 있을 수 있다.
이제 도면들을 참조하면, 도 1은 일 실시예에 따라, 데이터베이스 소프트웨어 스택의 다양한 구성요소들을 예시하는 블록도이다. 이 예에서 예시된 바와 같이, 데이터베이스 인스턴스는 다수의 기능적 구성요소들(또는 계층들)을 포함할 수 있고, 그 각각은 데이터베이스 인스턴스의 기능의 일부를 제공한다. 이 예에서, 데이터베이스 인스턴스(100)는 질의 분석 및 질의 최적화 계층(110으로 도시된), 질의 실행 계층(120으로 도시된), 트랜잭션성 및 일관성 관리 계층(130으로 도시된), 및 지속성 및 공간 관리 계층(140으로 도시된)을 포함한다. 상기에서 언급한 바와 같이, 일부 기존 데이터베이스 시스템들에서, 데이터베이스 인스턴스를 스케일링하는 것은 전체 데이터베이스 인스턴스를 일회 또는 수회 복제한 후(도 1에 예시된 모든 계층을 포함하여), 그것들을 함께 스티칭하기 위해 글루 로직을 추가하는 것을 수반할 수 있다. 일부 실시예들에서, 본 출원에 설명된 시스템들은 데이터베이스 티어로부터 개별 저장 계층으로 지속성 및 공간 관리 계층(140)의 기능을 대신 분담할 수 있고, 해당 기능을 저장 계층에서의 다수의 저장 노드에 걸쳐 분산할 수 있다.
일부 실시예들에서, 본 출원에 설명된 데이터베이스 시스템들은 도 1에 예시된 데이터베이스 인스턴스의 상반부의 상당수의 구조를 유지할 수 있으나, 백업, 복원, 스냅샷, 복구, 및/또는 다양한 공간 관리 동작들 중 적어도 부분들에 대한 책임을 저장 티어에 재분산할 수 있다. 이러한 방식으로 기능을 재분산하는 것 및 데이터베이스 티어 및 저장 티어 간 로그 프로세싱을 단단히 결합하는 것은 가변 데이터베이스를 제공하기 위한 이전 접근법들과 비교할 때, 성능을 향상하고, 이용 가능성을 증가하며 비용을 감소시킬 수 있다. 예를 들어, 단지 리두 로그 레코드들(실제 데이터 페이지들보다 크기가 훨씬 더 작은)이 노드들에 걸쳐 수송될 수 있거나 기록 동작들의 지연 경로 내에서 지속되기 때문에, 네트워크 및 입력/출력 대역폭 요건들이 감소될 수 있다. 또한, 데이터 페이지들의 생성은 착신 기록 동작들을 블로킹하지 않고, 각 저장 노드(우위 프로세싱을 허용하는 바와 같은) 상의 백그라운드에서 독립적으로 완료될 수 있다. 일부 실시예들에서, 로그-구조의, 비-겹쳐쓰기 저장소의 사용은 백업, 복원, 스냅샷들, 시점 복구, 및 예를 들어, 데이터 페이지의 이동 또는 복사가 아니라 메타데이터 조작을 사용함으로써, 보다 효율적으로 수행될 볼륨 확대 동작들을 허용할 수 있다. 일부 실시예들에서, 저장 계층은 또한 다수의 저장 노드에 걸쳐 클라이언트들(및/또는 리두 로그 레코드들과 같은, 해당 데이터와 연관된 메타데이터)을 대신하여 저장된 데이터의 복제에 대한 책임을 맡을 수 있다. 예를 들어, 데이터(및/또는 메타데이터)는 지역적으로(예를 들어, 저장 노드들의 수집이 그 자체의 물리적으로 별개의, 독립적인 기반구조 상에서 실행하는 단일 "이용 가능 존" 내에서) 및/또는 단일 영역에서의 또는 상이한 영역들에서의 이용 가능 존들에 걸쳐 복제될 수 있다.
다양한 실시예들에서, 본 출원에 설명된 데이터베이스 시스템들은 다양한 데이터베이스 동작을 위해 표준 또는 주문형 애플리케이션 프로그래밍 인터페이스(API)를 지원할 수 있다. 예를 들어, API는 데이터베이스를 생성하기 위한 동작들, 테이블을, 생성하기 위한 동작들, 테이블를 변경하기 위한 동작들, 사용자를 생성하기 위한 동작들, 사용자를 드롭하기 위한 동작들, 테이블에 하나 이상의 행을 삽입하기 위한 동작들, 테이블 내로부터 데이터를 선택하기 위한 동작들(예를 들어, 테이블에 질의하기 위한 동작들), 질의를 취소 또는 중단하기 위한 동작들, 스냅샷을 생성하는 동작 및/또는 다른 동작들을 지원할 수 있다.
일부 실시예들에서, 데이터베이스 인스턴스의 데이터베이스 티어는 다양한 클라이언트 프로그램들(예를 들어, 애플리케이션들) 및/또는 가입자들(사용자들)로부터 판독 및/또는 기록 요청들을 수신한 후, 그것들을 분석하여 관련 데이터베이스 동작(들)을 수행하기 위해 실행 계획을 개발하는 데이터베이스 엔진 헤드 노드 서버를 포함할 수 있다. 예를 들어, 데이터베이스 엔진 헤드 노드는 복합 질의들 및 조인들(joins)에 대한 결과들을 획득하는데 필요한 일련의 단계를 개발할 수 있다. 일부 실시예들에서, 데이터베이스 엔진 헤드 노드는 데이터베이스 시스템의 데이터베이스 티어 및 클라이언트들/가입자들 간 통신뿐만 아니라, 데이터베이스 티어 및 개별 분산 데이터베이스-최적화 저장 시스템 간 통신을 관리할 수 있다.
일부 실시예들에서, 데이터베이스 엔진 헤드 노드는 JDBC 또는 ODBC 인터페이스를 통해 말단 클라이언트들로부터 SQL 요청들을 수신하는 것 및 지역적으로 SQL 프로세싱 및 트랜잭션 관리(잠금을 포함할 수 있는)를 수행하는 것에 대한 책임이 있을 수 있다. 그러나, 지역적으로 데이터 페이지들을 생성하는 것보다, 데이터베이스 엔진 헤드 노드(또는 그것의 다양한 구성요소들)는 리두 로그 레코드들을 생성할 수 있고 그것들은 개별 분산 저장 시스템의 적절한 노드들로 수송할 수 있다. 일부 실시예들에서, 분산 저장 시스템을 위한 클라이언트-측 드라이버는 데이터베이스 엔진 헤드 노드 상에 호스팅될 수 있고 그것들의 리두 로그 레코드들이 지시되는 세그먼트들(또는 그것들의 데이터 페이지들)을 저장하는 저장 시스템 노드(또는 노드들)로 리두 로그 레코드들을 라우팅하는 것에 대한 책임이 있을 수 있다. 예를 들어, 일부 실시예들에서, 각 세그먼트는 보호 그룹을 형성하는 다수의 저장 시스템 노드 상에 미러링(또는 다르게 지속 가능하게) 될 수 있다. 이러한 실시예들에서, 클라이언트-측 드라이버는 클라이언트 요청이 수신될 때, 각 세그먼트가 저장된 노드들을 계속 추적할 수 있고 세그먼트가 저장된 모든 노드로 리두 로그들을 라우팅할 수 있다(예를 들어, 비동기식으로 및 병렬로, 실질적으로 동시에). 클라이언트-측 드라이버가 보호 그룹에서의 저장 노드들의 기록 쿼럼으로부터 다시 확인 응답(리두 로그 레코드가 저장 노드에 기록되었다는 것을 나타낼 수 있는)을 수신하자마자, 그것은 데이터베이스 티어에(예를 들어, 데이터베이스 엔진 헤드 노드에) 요청된 변경의 확인 응답을 송신할 수 있다. 예를 들어, 데이터가 보호 그룹들의 사용을 통해 지속 가능하게 만들어지는 실시예들에서, 데이터베이스 엔진 헤드 노드는 클라이언트-측 드라이버가 기록 쿼럼을 구성하기 위해 충분한 저장 노드 인스턴스들로부터 답신을 수신할 때까지 그리고 수신하지 않는 한 트랜잭션을 커밋할 수 없을 수 있다. 이와 유사하게, 특정한 세그먼트에 지시되는 판독 요청을 위해, 클라이언트-측 드라이버는 세그먼트가 저장된 모든 노드에 판독 요청을 라우팅할 수 있다(예를 들어, 비동기식으로 및 병렬로, 실질적으로 동시에). 클라이언트-측 드라이버가 보호 그룹에서의 저장 노드들의 판독 쿼럼으로부터 요청된 데이터를 수신하자마자, 그것은 데이터베이스 티어에(예를 들어, 데이터베이스 엔진 헤드 노드에) 요청된 데이터를 리턴할 수 있다.
일부 실시예들에서, 데이터베이스 티어(또는 보다 구체적으로, 데이터베이스 엔진 헤드 노드)는 최근 액세스된 데이터 페이지들이 일시적으로 유지되는 캐시를 포함할 수 있다. 이러한 실시예들에서, 그러한 캐시에 유지된 데이터 페이지를 타겟팅하는 기록 요청이 수신되면, 저장 계층으로 대응하는 리두 로그 레코드를 수송하는 것에 추가하여, 데이터베이스 엔진은 그것의 캐시에 유지된 데이터 페이지의 복사본에 변경을 적용할 수 있다. 그러나, 데이터베이스 시스템들에서와 다르게, 캐시에 유지되는 데이터 페이지는 저장 계층에 전혀 플러싱될 수 없고, 그것을 언제라도(예를 들어, 캐싱된 복사본에 가장 최근에 적용된 기록 요청을 위한 리두 로그 레코드가 저장 계층에 송신되고 확인 응답된 후 언제라도) 폐기될 수 있다. 캐시는 상이한 실시예들에서, 동시에 최대한 하나의 기록기(또는 다수의 판독기)에 의한 캐시에의 액세스를 제어하기 위해 다양한 잠금 메커니즘들 중 임의의 것을 구현할 수 있다. 그러나, 그러한 캐시를 포함하는 실시예들에서, 캐시는 다수의 노드에 걸쳐 분산될 수 없으나, 단지 소정의 데이터베이스 인스턴스를 위한 데이터베이스 엔진 헤드 노드 상에 존재할 수 있다는 것을 주의하자. 따라서, 관리할 어떤 캐시 일관성 이슈들도 존재하지 않을 수 있다.
일부 실시예들에서, 데이터베이스 티어는 시스템에서의 동기식 또는 비동기식 판독 복제본들, 예를 들어, 판독 요청이 라우팅될 수 있는 데이터베이스 티어의 상이한 노드 상에서의 데이터의 판독-전용 복사본들의 사용을 지원할 수 있다. 이러한 실시예들에서, 소정의 데이터베이스를 위한 데이터베이스 엔진 헤드 노드가 특정한 데이터 페이지에 지시되는 판독 요청을 수신하면, 이들 판독-전용 복사본들 중 임의의 본사본(또는 특정한 복사본)에 대한 요청을 라우팅할 수 있다. 일부 실시예들에서, 데이터베이스 엔진 헤드 노드에서의 클라이언트-측 드라이버는 이들 다른 노드들에 캐싱된 데이터 페이지들에 대한 업데이트들 및/또는 무효화들을 통지하도록 구성될 수 있다(예를 들어, 그것들이 그것들의 캐시들을 무효화하도록 유도하기 위해, 그 후 그것들이 저장 계층으로부터의 업데이트된 데이터 페이지들의 업데이트된 복사본들을 요청할 수 있다).
일부 실시예들에서, 데이터베이스 엔진 헤드 노드 상에서 작동하는 클라이언트-측 드라이버는 저장 티어에 사설 인터페이스를 노출시킬 수 있다. 일부 실시예들에서, 그것은 또한 하나 이상의 다른 구성요소(예를 들어, 다른 데이터베이스 엔진들 또는 가상 컴퓨팅 서비스 구성요소들)에 전통적인 iSCSI 인터페이스를 노출시킬 수 있다. 일부 실시예들에서, 저장 티어에서의 데이터베이스 인스턴스를 위한 저장소는 제한 없이 크기가 커질 수 있고, 제한 없이 그것과 연관된 IOPS를 가질 수 있는 단일 볼륨으로서 모델링될 수 있다. 볼륨이 생성될 때, 그것은 특정한 크기로, 특정한 이용 가능/지속 특성(예를 들어, 그것이 복제되는 방법을 명시하는)으로, 및/또는 그것과 연관된 IOPS 레이트(예를 들어, 피크 및 유지 양자 모두)로 생성될 수 있다. 예를 들어, 일부 실시예들에서, 다양한 상이한 지속성 모델들이 지원될 수 있고, 사용자들/가입자들은 그것들의 데이터베이스에 대해, 다수의 복제 복사본, 존, 또는 영역 및/또는 복제가 그것들의 지속성, 성능 및 비용 목적들에 기초하여 동기식인지 또는 비동기식인지를 명시할 수 있을 수 있다.
일부 실시예들에서, 클라이언트 측 드라이버는 볼륨에 대한 메타데이터를 유지할 수 있고 저장 노드들 간 추가적인 홉들(hops)을 요구하지 않고 판독 요청들 및 기록 요청들을 이행하는데 필요한 저장 노드들 각각에 비동기식 요청들을 직접 송신할 수 있다. 예를 들어, 일부 실시예들에서, 데이터베이스을 변경하기 위한 요청에 응답하여, 클라이언트-측 드라이버는 타겟 데이터 페이지를 위한 저장소를 구현하고 있는 하나 이상의 노드를 결정하도록, 그리고 그러한 저장 노드들에 해당 변경을 명시하는 리두 로그 레코드(들)을 라우팅하도록 구성될 수 있다. 그 후 저장 노드들은 미래의 어느 지점에서 타겟 데이터 페이지에 리두 로그 레코드에서 명시된 변경을 적용하는 것에 대한 책임이 있을 수 있다. 기록들이 클라이언트-측 드라이버로 다시 확인 응답됨에 따라, 클라이언트-측 드라이버는 볼륨이 지속 가능한 지점으로 진행될 수 있고 데이터베이스 티어에 다시 커밋들을 확인 응답할 수 있다. 이전에 언급된 바와 같이, 일부 실시예들에서, 클라이언트-측 드라이버는 저장 노드 서버들에 데이터 페이지들을 전혀 송신하지 않을 수 있다. 이는 네트워크 트래픽을 단지 감소시키지 않을 수 있으나, 또한 이전 데이터베이스 시스템들에서의 우위-프로세싱 스루풋을 제한하는 체크포인트 또는 백그라운드 기록기 스레드들의 필요를 제거할 수 있다.
일부 실시예들에서, 많은 판독 요청들은 데이터베이스 엔진 헤드 노드 캐시에 의해 제공될 수 있다. 그러나, 단지 메모리 내 복제를 허용하기 위해 대규모 고장 이벤트들이 매우 흔할 수 있기 때문에, 기록 요청들은 지속성을 요구할 수 있다. 따라서, 본 출원에 설명된 시스템들은 두 개의 영역: 리두 로그 레코드들이 데이터베이스 티어로부터 수신될 때 그것들이 기록되는 작은 첨부-전용 로그-구조 영역, 및 로그 레코드들이 백그라운드에 데이터 페이지들의 신규 버전들을 생성하기 위해 함께 병합되는 보다 큰 영역으로서 저장 티어에 데이터 저장소를 구현함으로써 우위 레이턴시 경로에 있는 리두 로그 레코드 기록 동작들의 비용을 최소화하도록 구성될 수 있다. 일부 실시예들에서, 메모리 내 구조는 인스턴스화된 데이터 블록이 참조될 때까지 로그 레코드들을 역방향으로 연결하여, 해당 페이지에 대한 마지막 리두 로그 레코드를 가리키는 각 데이터 페이지에 대해 유지될 수 있다. 이러한 접근법은 판독들이 주로 캐싱되는 애플리케이션들에 포함하여, 혼합된 판독-기록 작업부하들에 양호한 성능을 제공할 수 있다.
일부 실시예들에서, 리두 로그 레코드를 위한 로그-구조의 데이터 저장소에의 접근들이 일련의 순차적인 입력/출력 동작(랜덤 입력/출력 동작이 아닌)으로 구성되기 때문에, 이루어지는 변경들이 함께 단단하게 패킹될 수 있다. 데이터 페이지에 대한 각 변경이 영구 데이터 저장을 위한 두 개의 입력/출력 동작(리두 로그 레코드를 위한 하나 및 변경된 데이터 페이지 자체를 위한 하나)을 야기하는 기존 시스템들과 비교하여, 일부 실시예들에서, 본 출원에 설명된 시스템들은 리두 로그 레코드들의 수신에 기초하여 분산 저장 시스템의 저장 노드들에 데이터 페이지들을 병합함으로써 이러한 "기록 확장"을 방지할 수 있다는 것이 또한 주의되어야 한다.
이전에 언급된 바와 같이, 일부 실시예들에서, 데이터베이스 시스템의 저장 티어는 데이터베이스 스냅샷들을 취하는 것에 책임이 있을 수 있다. 그러나, 저장 티어가 로그-구조의 저장소를 구현하기 때문에, 데이터 페이지(예를 들어, 데이터 블록)의 스냅샷을 취하는 것은 데이터 페이지/블록에 가장 최근에 적용된 리두 로그 레코드와 연관된 타임스탬프(또는 데이터 페이지/블록의 신규 버전을 생성하기 위해 다수의 리두 로그 레코드를 병합하기 위한 가장 최근의 동작과 연관된 타임스탬프)를 레코딩하는 것, 및 레코드 시점까지 페이지/블록 및 임의의 후속 로그 엔트리들의 이전 버전의 가비지 수집(garbage collection)을 예방하는 것을 포함할 수 있다. 그러한 실시예들에서, 데이터베이스 스냅샷을 취하는 것은 오프-볼륨 백업 전략을 채용할 때 요구될 수 있는 바와 같이, 데이터 블록을 판독하는 것, 복사하는 것, 또는 기록하는 것을 요구하지 않을 수 있다. 일부 실시예들에서, 사용자/가입자들이 그들이 활성 데이터 세트에 추가하여 온-볼륨 스냅샷들을 위해 얼마나 많은 추가 공간을 유지하기 원하는지 선택할 수 있을 수 있더라도, 단지 변형된 데이터만이 추가 공간을 요구할 수 있기 때문에, 스냅샷들에 대한 공간 요건들이 최소일 수 있다. 상이한 실시예들에서, 스냅샷들은 별개(예를 들어, 각 스냅샷은 특정한 시점으로부터 데이터 페이지에서의 모든 데이터에 대한 액세스를 제공할 수 있다) 또는 연속적(예를 들어, 각 스냅샷은 두 개의 시점 간 데이터 페이지에 존재하는 데이터의 모든 버전에 대한 액세스를 제공할 수 있다)일 수 있다. 일부 실시예들에서, 이전 스냅샷으로 회귀하는 것은 스냅샷이 무효이고 수집 가능한 이후 해당 모든 리두 로그 레코드 및 데이터 페이지를 나타내기 위해 로그 레코드를 레코딩하는 것, 및 스냅샷 지점 이후 모든 데이터베이스 캐시 엔트리를 폐기하는 것을 포함할 수 있다. 이러한 실시예들에서, 마치 저장 시스템이 정상적인 순방향 기록/판독 처리에서 수행하는 바와 같이, 그것이 블록마다를 기초로, 리두 로그 레코드들을 모든 노드에 걸쳐 백그라운드에 그리고 요구되는 바와 같이 데이터 블록들에 적용할 것이기 때문에 어떤 롤-포워드(roll-forward)도 요구되지 않을 수 있다. 그렇게 함으로써 장애 복구는 노드들가 걸쳐 병렬로 이루어지고 분산될 수 있다.
웹 서비스 기반 데이터베이스 서비스를 구현하도록 구성될 수 있는 서비스 시스템 아키텍처의 일 실시예가 도 2에 예시된다. 예시된 실시예에서, 다수의 클라이언트(데이터베이스 클라이언트들(250a 내지 250n)으로 도시된)는 네트워크(260)를 통해 웹 서비스 플랫폼(200)과 상호작용하도록 구성될 수 있다. 웹 서비스 플랫폼(200)은 데이터베이스 서비스(210), 분산 데이터베이스-최적화 저장 서비스(220) 및/또는 하나 이상의 다른 가상 컴퓨팅 서비스(230) 중 하나 이상의 인스턴스와 인터페이싱하도록 구성될 수 있다. 소정의 구성요소의 하나 이상의 인스턴스가 존재할 수 있는 곳에서, 본 출원에서의 해당 구성요소에 대해 단일 또는 복수 어느 하나로 참조될 수 있다는 것이 주의된다. 그러나, 어느 하나의 형태의 사용이 다른 형태를 배제하도록 의도되지 않는다.
다양한 실시예들에서, 도 2에 예시된 구성요소들은 컴퓨터 하드웨어(예를 들어, 마이크로프로세서 또는 컴퓨터 시스템)에 의해 직접 또는 간접적으로 실행 가능한 명령들로서, 또는 이들 기술들의 조합을 사용하여, 컴퓨터 하드웨어 내에서 직접 구현될 수 있다. 예를 들어, 도 2의 구성요소들은 다수의 컴퓨팅 노드(또는 단순히, 노드)를 포함하는 시스템에 의해 구현될 수 있고, 그 각각은 도 10에 예시된 그리고 아래 설명될 컴퓨터 시스템 실시예와 유사할 수 있다. 다양한 실시예들에서, 소정의서비스 시스템 구성요소(예를 들어, 데이터베이스 서비스의 구성요소 또는 저장 서비스의 구성요소)의 기능은 특정한 노드에 의해 구현될 수 있거나 몇몇의 노드에 걸쳐 분산될 수 있다. 일부 실시예들에서, 소정의 노드는 하나보다 많은 서비스 시스템 구성요소(예를 들어, 하나보다 많은 데이터베이스 서비스 시스템 구성요소)의 기능을 구현할 수 있다.
일반적으로 말해서, 클라이언트들(250)은 데이터베이스 서비스들에 대한 요청들(예를 들어, 스냅샷을 생성하기 위한 요청, 등)을 포함하여, 네트워크(260)를 통해 웹 서비스 플랫폼(200)으로 웹 서비스 요청들을 제출하도록 구성 가능한 임의의 유형의 클라이언트를 포함할 수 있다. 예를 들어, 소정의 클라이언트(250)는 웹 브라우저의 적합한 버전을 포함할 수 있거나, 웹 브라우저에 의해 제공되는 실행 환경으로 또는 실행 환경 내 확장으로서 실행하도록 구성되는 플러그-인 모듈 또는 다른 유형의 코드 모듈을 포함할 수 있다. 대안적으로, 클라이언트(250)(예를 들어, 데이터베이스 서비스 클라이언트)는 데이터베이스 애플리케이션(또는 그것의 사용자 인터페이스), 미디어 애플리케이션, 오피스 애플리케이션 또는 하나 이상의 데이터베이스를 저장 및/또는 액세스하기 위해 영구 저장 자원들을 사용할 수 있는 임의의 다른 애플리케이션과 같은 애플리케이션을 포함할 수 있다. 일부 실시예들에서, 그러한 애플리케이션은 모든 유형의 웹 기반 데이터를 위해 완전한 브라우저 지원을 반드시 구현하지 않고도 웹 서비스 요청들을 생성 및 프로세싱하기 위한 충분한 프로토콜 지원(예를 들어, 하이퍼텍스트 전송 프로토콜(HTTP)의 적합한 버전을 위한)을 포함할 수 있다. 즉, 클라이언트(250)는 웹 서비스 플랫폼(200)과 직접 상호작용하도록 구성된 애플리케이션일 수 있다. 일부 실시예들에서, 클라이언트(250)는 REST(Representational State Transfer)-방식 웹 서비스 아키텍처, 문서 또는 메시지 기반 웹 서비스 아키텍처, 또는 다른 적합한 웹 서비스 아키텍처에 따라 웹 서비스 요청들을 생성하도록 구성될 수 있다.
일부 실시예들에서, 클라이언트(250)(예를 들어, 데이터베이스 서비스 클라이언트들)는 다른 애플리케이션들에 명료한 방식으로 그러한 애플리케이션들에 데이터베이스들의 웹 서비스 기반 저장소에의 액세스를 제공하도록 구성될 수 있다. 예를 들어, 클라이언트(250)는 본 출원에 설명된 저장 모델들의 적합한 변종에 따라 저장소를 제공하기 위해 운영 시스템 또는 파일 시스템과 통합하도록 구성될 수 있다. 그러나, 운영 시스템 또는 파일 시스템은 파일들, 디렉토리들 및/또는 폴더들의 통상의 파일 시스템 계층과 같은, 애플리케이션들에 상이한 저장 인터페이스를 제공할 수 있다. 이러한 실시예에서, 애플리케이션들은 도 1의 저장 시스템 서비스 모델을 사용하기 위해 변형될 필요는 없을 수 있다. 대신에, 웹 서비스 플랫폼(200)에 대한 인터페이싱의 세부사항들은 운영 시스템 환경 내에서 실행하는 애플리케이션들을 대신하여 운영 시스템 또는 파일 시스템 및 클라이언트(250)에 의해 조정될 수 있다.
클라이언트들(250)은 네트워크(260)를 통해 웹 서비스 플랫폼(200)으로 웹 서비스 요청들(예를 들어, 스냅샷 요청, 스냅샷의 파라미터들 요청, 판독 요청, 스냅샷 복구 등)을 전달하고 그로부터 응답들을 수신할 수 있다. 다양한 실시예들에서, 네트워크(260)는 클라이언트들(250) 및 플랫폼(200) 간 웹 기반 통신을 설정하는데 필요한 네트워킹 하드웨어 및 프로토콜들의 임의의 적합한 조합을 포함할 수 있다. 예를 들어, 네트워크(260)는 일반적으로 다양한 통신 네트워크들 및 인터넷을 총괄적으로 구현하는 서비스 제공자들을 포함할 수 있다. 네트워크(260)는 또한 공중 또는 사설 무선 네트워크들뿐만 아니라 로컬 영역 네트워크들(LAN들) 또는 광역 네트워크들(WAN들)과 같은 사설 네트워크들을 포함할 수 있다. 예를 들어, 소정의 클라이언트(250) 및 웹 서비스 플랫폼(200)은 각각 그들 자체의 내부 네트워크들을 갖는 기업 내에 제공될 수 있다. 이러한 실시예에서, 네트워크(260)는 인터넷 및 웹 서비스 플랫폼(200) 간 뿐만 아니라 소정의 클라이언트(250) 및 인터넷 간 네트워킹 링크를 설정하는데 필요한 하드웨어(예를 들어, 모뎀들, 라우터들, 스위치들, 부하 분산장치들, 프록시 서버들 등) 및 소프트웨어(예를 들어, 프로토콜 스택들, 회계 소프트웨어, 방화/보안 소프트웨어 등)을 포함할 수 있다. 일부 실시예들에서, 클라이언트들(250)은 공중 인터넷이 아닌 사설 네트워크를 사용하여 웹 서비스 플랫폼(200)와 통신할 수 있다. 예를 들어, 클라이언트들(250)은 데이터베이스 서비스 시스템(예를 들어, 데이터베이스 서비스(210) 및/또는 분산 데이터베이스-최적화 저장 서비스(220)를 구현하는 시스템)으로서 동일한 기업 내에 제공될 수 있다. 이러한 경우, 클라이언트들(250)은 사설 네트워크(260)(예를 들어, 공중이 액세스 가능하지 않으나 인터넷 기반 통신 프로토콜들을 사용할 수 있는 LAN 또는 WAN)를 통해 전적으로 플랫폼(200)과 통신할 수 있다.
일반적으로 말해서, 웹 서비스 플랫폼(200)은 데이터 페이지들(또는 그것들의 레코드들)에의 액세스를 위한 요청들과 같은, 웹 서비스 요청들을 수신 및 프로세싱하도록 구성되는 하나 이상의 서비스 종단점을 구현하도록 구성될 수 있다. 예를 들어, 웹 서비스 플랫폼(200)은 특정한 종단점을 구현하도록 구성된 하드웨어 및/또는 소프트웨어를 포함할 수 있어, 해당 종단점에 지시되는 HTTP 기반 웹 서비스 요청이 적절하게 수신 및 프로세싱된다. 일 실시예에서, 웹 서비스 플랫폼(200)은 클라이언트들(250)로부터 웹 서비스 요청들을 수신하고 그것들을 데이터베이스 서비스(210), 분산 데이터베이스-최적화 저장 서비스(220) 및/또는 프로세싱하기 위한 또 다른 컴퓨팅 서비스(230)를 구현하는 시스템의 구성요소들에 전송하도록 구성된 서버 시스템으로 구현될 수 있다. 다른 실시예들에서, 웹 서비스 플랫폼(200)은 부하 분산을 구현하는 다수의 별개의 시스템(예를 들어, 클러스터 토폴로지 내) 및 부하들을 프로세싱하는 대형 웹 서비스 요청을 동적으로 관리하도록 구성된 다른 요청 관리 피처들로 구성될 수 있다. 다양한 실시예들에서, 웹 서비스 플랫폼(200)은 REST 방식 또는 문서 기반(예를 들어, SOAP 기반) 유형들의 웹 서비스 요청들을 지원하도록 구성될 수 있다.
클라이언트의 웹 서비스 요청들을 위해 어드레스 지정 가능한 종단점으로 기능하는 것에 추가하여, 일부 실시예들에서, 웹 서비스 플랫폼(200)은 다양한 클라이언트 관리 피처들을 구현할 수 있다. 예를 들어, 플랫폼(200)은 이를테면 요청 클라이언트들(250)의 정체들, 클라이언트 요청들의 수 및/또는 빈도, 클라이언트들(250)을 대신하여 저장 또는 검색된 데이터베이스 테이블들(또는 그것들의 레코드들)의 크기, 클라이언트들(250)에 의해 사용되는 전체 저장 대역폭, 클라이언트들(250)에 의해 요청되는 저장소의 클래스, 또는 다른 측정 가능한 클라이언트 사용량 파라미터를 추적함으로써, 저장 자원들을 포함하여, 웹 서비스들의 클라이언트 사용량의 계량 및 계산을 조정할 수 있다. 플랫폼(200)은 또한 재무 회계 및 과금 시스템들을 구현할 수 있거나, 클라이언트 사용량 활동의 보고 및 과금을 위해 외부 시스템들에 의해 질의 및 프로세싱될 수 있는 사용량 데이터의 데이터베이스를 유지할 수 있다. 어떤 실시예들에서, 플랫폼(200)은 클라이언트들(250)로부터 수신된 요청들의 레이트들 및 유형들을 반영하는 지표, 그러한 요청들에 의해 활용되는 대역폭, 그러한 요청들에 대한 시스템 프로세싱 레이턴시, 시스템 구성요소 활용(예를 들어, 네트워크 대역폭 및/또는 저장 서비스 시스템 내 저장소 활용), 요청들로부터 야기되는 에러들의 레이트들 및 유형들, 저장 및 요청된 데이터 페이지들 또는 그것들의 레코드들의 특성들(예를 들어, 크기, 데이터 유형 등), 또는 임의의 다른 적합한 지표와 같은, 다양한 저장 서비스 시스템 운영 지표를 수집, 모니터링 및/또는 종합하도록 구성될 수 있다. 일부 실시예들에서 그러한 지표는 시스템 구성요소들을 조정 및 유지하기 위해 시스템 관리자들에 의해 사용될 수 있는 반면, 다른 실시예들에서 그러한 지표(또는 그러한 지표의 관련 부분들)는 클라이언트들(250)이 데이터베이스 서비스(210), 분산 데이터베이스-최적화 저장 서비스(220) 및/또는 또 다른 가상 컴퓨팅 서비스(230)(또는 그러한 서비스들을 구현하는 기본 시스템들)에 대한 그들의 사용량을 모니터링하게 하기 위해 클라이언트들에 노출될 수 있다.
일부 실시예들에서, 플랫폼(200)은 또한 사용자 인증 및 액세스 제어 절차들을 구현할 수 있다. 예를 들어, 특정한 데이터베이스에의 액세스를 위한 소정의 웹 서비스 요청을 위해 플랫폼(200)은 요청과 연관된 클라이언트(250)가 특정한 데이터베이스에 액세스할 권한이 있는지를 확인하도록 구성될 수 있다. 플랫폼(200)은 예를 들어, 특정한 데이터베이스와 연관된 자격들과 대조하여 아이디, 비밀번호 또는 다른 자격을 평가함으로써, 또는 특정한 데이터베이스에 대한 액세스 제어 리스트와 대조하여 특정한 데이터베이스에의 요청된 액세스를 평가함으로써 그러한 인증을 결정할 수 있다. 예를 들어, 클라이언트(250)가 특정한 데이터베이스에 액세스하기 위해 충분한 자격들을 가지지 않는다면, 플랫폼(200)은 예를 들어 에러 상태를 나타내는 응답을 요청 클라이언트(250)에 리턴함으로써, 대응하는 웹 서비스 요청을 거부할 수 있다. 다양한 액세스 제어 정책들은 데이터베이스 서비스(210), 분산 데이터베이스-최적화 저장 서비스(220) 및/또는 다른 가상 컴퓨팅 서비스들(230)에 의한 액세스 제어 정보의 레코드들 또는 리스트들로 저장될 수 있다.
웹 서비스 플랫폼(200)은 클라이언트들(250)이 데이터베이스 서비스(210)를 구현하는 데이터베이스 시스템의 피처들을 액세스할 수 있는 주요 인터페이스를 나타낼 수 있지만, 그것이 그러한 피처들에 대한 유일한 인터페이스를 나타낼 필요가 없다는 것이 주의된다. 예를 들어, 웹 서비스 인터페이스와 별개일 수 있는 대안적인 API는 데이터베이스 시스템을 제공하는 기업 내부의 클라이언트들이 웹 서비스 플랫폼(200)을 우회하는 것을 허용하는데 사용될 수 있다. 본 출원에 설명된 많은 예에서, 분산 데이터베이스-최적화 저장 서비스(220)는 클라이언트들(250)에 데이터베이스 서비스들을 제공하는 컴퓨팅 시스템 또는 기업 시스템 내부에 있을 수 있고, 외부 클라이언트들(예를 들어, 사용자들 또는 클라이언트 애플리케이션들)에 노출되지 않을 수 있다. 이러한 실시예들에서, 내부 "클라이언트"(예를 들어, 데이터베이스 서비스(210))는 분산 데이터베이스-최적화 저장 서비스(220) 및 데이터베이스 서비스(210) 간 유일한 라인으로 도시된, 로컬 또는 사설 네트워크를 통해(예를 들어, 이들 시스템들을 구현하는 시스템들 간 직접적으로 API를 통해) 분산 데이터베이스-최적화 저장 서비스(220)에 액세스할 수 있다. 이러한 실시예들에서, 클라이언트들(250)을 대신하여 데이터베이스를 저장하는 것에 있어서의 분산 데이터베이스-최적화 저장 서비스(220)의 사용은 그러한 클라이언트들에 명료할 수 있다. 다른 실시예들에서, 분산 데이터베이스-최적화 저장 서비스(220)는 데이터베이스 관리를 위해 데이터베이스 서비스(210)에 의존하는 것들이 아닌 애플리케이션들을 위한 데이터베이스들 또는 다른 정보의 저장소를 제공하기 위해 웹 서비스 플랫폼(200)을 통해 클라이언트들(250)에 노출될 수 있다. 이는 웹 서비스 플랫폼(200) 및 분산 데이터베이스-최적화 저장 서비스(220) 간 점선에 의해 도 2에 예시된다. 이러한 실시예들에서, 분산 데이터베이스-최적화 저장 서비스(220)의 클라이언트들은 네트워크(260)를 통해(예를 들어, 인터넷을 통해) 분산 데이터베이스-최적화 저장 서비스(220)에 액세스할 수 있다. 일부 실시예들에서, 가상 컴퓨팅 서비스(230)는 클라이언트(250)를 대신하여 컴퓨팅 서비스들(230)을 수행하는데 사용되는 객체들을 저장하기 위해 분산 데이터베이스-최적화 저장 서비스(220)로부터(예를 들어, 가상 컴퓨팅 서비스(230) 및 분산 데이터베이스-최적화 저장 서비스(220) 간 직접적으로 API를 통해) 저장 서비스들을 수신하도록 구성될 수 있다. 이는 가상 컴퓨팅 서비스(230) 및 분산 데이터베이스-최적화 저장 서비스(220) 간 점선에 의해 도 2에 예시된다. 일부 경우들에서, 플랫폼(200)의 계정 및/또는 자격 인증 서비스들은 동일한 기업 내 서비스 구성요소들 사이에 또는 관리상의 클라이언트들과 같은 내부 클라이언트들에 불필요할 수 있다.
다양한 실시예들에서, 상이한 저장 정책들은 데이터베이스 서비스(210) 및/또는 분산 데이터베이스-최적화 저장 서비스(220)에 의해 구현될 수 있다. 그러한 저장 정책들의 예들은 지속성 정책(예를 들어, 저장될 데이터베이스(또는 그것의 데이터 페이지)의 다수의 인스턴스 및 그것들이 저장될 다수의 상이한 노드를 나타내는 정책) 및/또는 부하 분산 정책(요청 트래픽을 동등하게 하려는 시도로 상이한 노드들, 볼륨들 및/또는 디스크들에 걸쳐 데이터베이스들, 또는 그것의 데이터 페이지들을 분산할 수 있는)을 포함할 수 있다. 또한, 상이한 저장 정책들은 다양항 서비스들 중 하나에 의해 상이한 유형들의 저장된 아이템들에 적용될 수 있다. 예를 들어, 일부 실시예들에서, 분산 데이터베이스-최적화 저장 서비스(220)는 데이터 페이지들보다 리두 로그 레코드들을 위해 더 높은 지속성을 구현할 수 있다.
도 3은 일 실시예에 따라, 데이터베이스 엔진 및 개별 분산 데이터베이스 저장 서비스를 포함하는 데이터베이스 시스템의 다양한 구성요소들을 예시하는 블록도이다. 이 예에서, 데이터베이스 시스템(300)은 몇몇 데이터베이스 각각을 위한 각각의 데이터베이스 엔진 헤드 노드(320) 및 분산 데이터베이스-최적화 저장 서비스(310)(데이터베이스 클라이언트들(350a 내지 350n)로 도시된, 데이터베이스 시스템의 클라이언트들에 보일 수 있거나 보이지 않을 수 있는)를 포함한다. 이 예에서 예시된 바와 같이, 하나 이상의 데이터베이스 클라이언트(350a 내지 350n)는 네트워크(360)를 통해(예를 들어, 이들 구성요소들은 데이터베이스 클라이언트들(350a 내지 350n)에 네트워크-주소 지정 가능하고 액세스 가능할 수 있다) 데이터베이스 헤드 노드(320)(예를 들어, 그 각각이 각각의 데이터베이스 인스턴스의 구성요소인, 헤드 노드(320a), 헤드 노드(320b), 또는 헤드 노드(320c))에 액세스할 수 있다. 그러나, 데이터베이스 클라이언트들(350a 내지 350n)을 대신하여 하나 이상의 데이터베이스의 데이터 페이지들(및 리두 로그 레코드들 및/또는 그것들과 연관된 다른 메타데이터)을 저장하기 위해, 그리고 본 출원에 설명된 데이터베이스 시스템의 다른 기능들을 수행하기 위해 데이터베이스 시스템에 의해 채용될 수 있는, 분산 데이터베이스-최적화 저장 서비스(310)는, 상이한 실시예들에서, 저장 클라이언트들(350a 내지 350n)에 네트워크-주소 지정 가능하고 액세스 가능할 수 있거나 가능하지 않을 수 있다. 예를 들어, 일부 실시예들에서, 분산 데이터베이스-최적화 저장 서비스(310)는 저장 클라이언트들(350a 내지 350n)에 비가시적인 방식으로 다양한 저장, 액세스, 변경 로깅, 복구, 로그 레코드 조작 및/또는 공간 관리 동작들을 수행할 수 있다.
이전에 언급된 바와 같이, 각 데이터베이스 인스턴스는 다양한 클라이언트 프로그램들(예를 들어, 애플리케이션들) 및/또는 가입자들(사용자들)로부터 요청들(예를 들어, 스냅샷 요청 등)을 수신한 후, 그것들을 분석하고, 그것들 최적화하며, 관련 데이터베이스 동작(들)을 수행하기 위해 실행 계획을 개발하는 단일 데이터베이스 엔진 헤드 노드(320)를 포함할 수 있다. 도 3에 예시된 예에서, 데이터베이스 엔진 헤드 노드(320a)의 질의 분석, 최적화, 및 실행 구성요소(305)는 데이터베이스 클라이언트(350a)로부터 수신되고 데이터베이스 엔진 헤드 노드(320a)가 구성요소인 데이터베이스 인스턴스를 타겟팅하는 질의들을 위해 이들 기능들을 수행할 수 있다. 일부 실시예들에서, 질의 분석, 최적화, 및 실행 구성요소(305)는 데이터베이스 클라이언트(350a)에 질의 응답들을 리턴할 수 있는데, 이 질의 응답들은 적절하게, 기록 확인 응답들, 요청된 데이터 페이지들(또는 그것들의 부분들), 에러 메시지들, 및 또는 다른 응답들을 포함할 수 있다. 이 예에서 예시된 바와 같이, 데이터베이스 엔진 헤드 노드(320a)는 또한 클라이언트-측 저장 서비스 드라이버(325)를 포함할 수 있는데, 이는 분산 데이터베이스-최적화 저장 서비스(310) 내 다양한 저장 노드들에 판독 요청들 및/또는 리두 로그 레코드들을 라우팅하고, 분산 데이터베이스-최적화 저장 서비스(310)로부터 기록 확인 응답들을 수신하고, 분산 데이터베이스-최적화 저장 서비스(310)로부터 요청된 데이터 페이지들을 수신하며, 및/또는 데이터 페이지들, 에러 메시지들, 또는 다른 응답들을 질의 분석, 최적화, 및 실행 구성요소(305)(결과적으로, 그것들을 데이터베이스 클라이언트(350a)에 리턴할 수 있는)에 리턴할 수 있다.
이 예에서, 데이터베이스 엔진 헤드 노드(320a)는 데이터 페이지 캐시(335)를 포함하는데, 여기에 최근에 액세스된 데이터 페이지들이 일시적으로 유지될 수 있다. 도 3에 예시된 바와 같이, 데이터베이스 엔진 헤드 노드(320a)는 또한 트랜잭션 및 일관성 관리 구성요소(330)를 포함할 수 있는데, 이는 데이터베이스 엔진 헤드 노드(320a)가 구성요소인 데이터베이스 인스턴스에서의 트랜잭션성 및 일관성을 제공하는 것에 책임이 있을 수 있다. 예를 들어, 이러한 구성요소는 데이터베이스 인스턴스 및 해당 데이터베이스 인스턴스에 지시되는 트랜잭션들의 원자성, 일관성, 및 분리성 속성들을 보장하는 것에 책임이 있을 수 있다. 도 3에 예시된 바와 같이, 데이터베이스 엔진 헤드 노드(320a)는 또한 트랜잭션 로그(340) 및 언두 로그(undo log)(345)를 포함할 수 있는데, 이들은 다양한 트랜잭션들의 상황을 추적하고 커밋하지 않은 트랜잭션들의 임의의 지역적으로 캐싱된 결과들을 롤백(roll back)하기 위해 트랜잭션 및 일관성 관리 구성요소(330)에 의해 채용될 수 있다.
도 3에 예시된 다른 데이터베이스 엔진 헤드 노드들(320) 각각(예를 들어, 320b 및 320c)이 유사한 구성요소들을 포함할 수 있고 하나 이상의 데이터베이스 클라이언트(350a 내지 350n)에 의해 수신되고 그것이 구성요소인 각각의 데이터베이스 인스턴스들에 지시되는 질의들을 위한 유사한 기능들을 수행할 수 있다는 것을 주의하자.
일부 실시예들에서, 본 출원에 설명된 분산 데이터베이스-최적화 저장 시스템들은 하나 이상의 저장 노드 상의 저장소를 위해 다양한 논리 볼륨들, 세그먼트들, 및 페이지들로 데이터를 구조화할 수 있다. 예를 들어, 일부 실시예들에서, 각 데이터베이스는 논리 볼륨에 의해 제시될 수 있고, 각 논리 볼륨은 저장 노드들의 수집을 통해 세그먼트화된다. 저장 노드들 중 특정한 저장 노드 상에 존재하는, 각 세그먼트는 인접한 블록 어드레스들의 세트를 포함한다. 일부 실시예들에서, 각 데이터 페이지는 세그먼트에 저장되어, 각 세그먼트는 하나 이상의 데이터 페이지의 집한 및 그것이 저장하는 각 데이터 페이지를 위한 변경 로그(또한 리두 로그로 지칭되는)(예를 들어, 리두 로그 레코드들의 로그)를 저장한다. 본 출원에 상세하게 설명된 바와 같이, 저장 노드들은 리두 로그 레코드들(또한 본 출원에서 ULR들로 지칭될 수 있는)을 수신하도록 그리고 대응하는 데이터 페이지들 및/또는 추가적인 또는 대체 로그 레코드들의 신규 버전들을 생성하기 위해 리두 로그 레코드들을 병합하도록(예를 들어, 느리게 및/또는 데이터 페이지에 대한 요청 또는 데이터베이스 장애에 응답하여) 구성될 수 있다. 일부 실시예들에서, 데이터 페이지들 및/또는 변경 로그들은 다양한 구성(클라이언트를 대신하여 데이터베이스 시스템에 유지되고 있는 데이터베이스들에 의해 명시될 수 있는)에 따라, 다수의 저장 노드에 걸쳐 미러링될 수 있다. 예를 들어, 상이한 실시예들에서, 데이터 또는 변경 로그들의 하나, 두 개, 또는 세 개의 복사본은 디폴트 구성, 애플리케이션 특정 지속 성능, 또는 클라이언트 명시 지속 성능에 따라, 하나, 두 개, 또는 세 개의 상이한 이용 가능 존들 또는 영역들 각각에 저장될 수 있다.
본 출원에서 사용되는 바와 같이, 이하의 용어들은 다양한 실시예들에 따라, 분산 데이터베이스-최적화 저장 시스템에 의해 데이터의 구조화를 설명하는데 사용될 수 있다.
볼륨: 볼륨은 저장 시스템의 사용자/클라이언트/애플리케이션이 이해하는 저장소의 매우 지속 가능한 유닛을 나타내는 논리 개념이다. 보다 구체적으로, 볼륨은 데이터베이스 테이블의 다양한 사용자 페이지들에 대한 기록 동작들의 단일의 일관된 순서의 로그로서 사용자/클라이언트/애플리케이션에 나타나는 분산 저장이다. 각 기록 동작은 사용자 로그 레코드(ULR; User Log Record)로 인코딩될 수 있고, 이는 볼륨 내 단일 사용자 페이지의 콘텐츠에 대한 논리, 순서 변형을 나타낸다. 상기에서 언급된 바와 같이, ULR은 또한 본 출원에서 리두 로그 레코드로서 지칭될 수 있다. 각 URL은 포함할 수 고유의 식별자(예를 들어, 논리 시퀀스 번호(LSN; Logical Sequence Number)를 포함할 수 있다. 각 URL은 URL에 높은 지속성 및 이용 가능성을 제공하기 위해, 보호 그룹(PG; Protection Group)을 형성하는 분산 저장에서의 하나 이상의 동기식 세그먼트에 지속될 수 있다. 볼륨은 LSN-유형의 판독/기록 인터페이스에 가변 크기의 인접 범위의 바이트들을 제공할 수 있다.
일부 실시예들에서, 볼륨은 각각이 보호 그룹을 통해 지속 가능한, 다수의 범위로 구성될 수 있다. 이러한 실시예들에서, 볼륨은 이변 인접 시퀀스의 볼륨 범위들로 구성되는 저장소의 유닛을 나타낼 수 있다. 볼륨에 지시되는 판독들 및 기록들은 구성 볼륨 범위들에 대응하는 판독들 및 기록들로 매핑될 수 있다. 일부 실시예들에서, 볼륨의 크기는 볼륨의 말단으로부터 볼륨 범위들을 추가 또는 제거함으로써 변경될 수 있다.
세그먼트: 세그먼트는 단일 저장 노드에 할당되는 저장소의 제한 지속성 유닛이다. 보다 구체적으로, 세그먼트는 특정한 고정 크기 바이트 범위의 데이터를 위해 제한된 최선 노력 지속성(예를 들어, 영구적이나, 저장 노드인 고장의 비-리던던트 단일 지점)을 제공한다. 이러한 데이터는 일부 경우들에서 사용자 주소 지정 가능한 데이터의 미러일 수 있거나, 그것은 다양한 실시예들에서, 볼륨 메타데이터 또는 소거 코딩된 비트들과 같은, 다른 데이터일 수 있다. 소정의 세그먼트는 정확히 하나의 저장 노드에 존재할 수 있다. 저장 노드 내에, 다수의 세그먼트는 각 SSD에 존재할 수 있고, 각 세그먼트는 하나의 SSD로 한정될 수 있다(예를 들어, 세그먼트는 다수의 SSD에 걸쳐 이어지지 않을 수 있다). 일부 실시예들에서, 세그먼트는 SSD 상의 인접 영역을 점유하도록 요구되지 않을 수 있다; 오히려 세그먼트의 각각에 의해 소유되는 영역을 설명하는 각 SSD에서의 할당 맵이 존재할 수 있다. 상기에서 언급한 바와 같이, 보호 그룹은 다수의 저장 노드에 걸쳐 확산되는 다수의 세그먼트로 구성될 수 있다. 일부 실시예들에서, 세그먼트는 LSN-유형의 판독/기록 인터페이스에 고정 크기 인접 범위의 바이트들을 제공할 수 있다(여기서 크기는 생성 시 정의된다). 일부 실시예들에서, 각 세그먼트는 세그먼트 UUID(예를 들어, 세그먼트의 보편적 고유 식별자)에 의해 식별될 수 있다.
저장 페이지: 저장 페이지는 메모리의 블록이고, 이는 일반적으로 고정 크기를 가진다. 일부 실시예들에서, 각 페이지는 운영 시스템에 의해 정의되는 크기의 메모리의(예를 들어, 가상 메모리, 디스크, 또는 다른 물리 메모리의) 블록이고, 또한 본 출원에서 용어 "데이터 블록"에 의해 지칭될 수 있다. 보다 구체적으로, 저장 페이지는 인접 섹터들의 세트일 수 있다. 그것은 SSD들에서의 할당 유닛으로, 뿐만 아니라 헤더 및 메타데이터가 존재하는 로그 페이지들에서의 유닛으로 역할할 수 있다. 일부 실시예들에서, 그리고 본 출원에 설명된 데이터베이스 시스템들의 맥락에서, 용어 "페이지" 또는 "저장 페이지"는 데이터베이스 구성에 의해 정의되는 크기의 유사한 블록을 나타낼 수 있는데, 이는 전형적으로 4096, 8192, 16384, 또는 32768 바이트와 같은, 2의 배수일 수 있다.
로그 페이지: 로그 페이지는 저장 로그 레코드들(예를 들어, 리두 로그 레코드 또는 언두 로그 레코드들)에 사용되는 저장 페이지의 유형이다. 일부 실시예들에서, 로그 페이지들은 저장 페이지들과 크기가 동일할 수 있다. 각 로그 페이지는 해당 로그 페이지에 대한 메타데이터 예를 들어, 그것이 속하는 세그먼트를 식별하는 메타데이터를 포함하는 헤더를 포함할 수 있다. 로그 페이지는 구조화 유닛이고 기록 동작들에 포함되는 데이터 유닛일 필요는 없을 수 있다는 것을 주의하자. 예를 들어, 일부 실시예들에서, 정상적인 순방향 프로세싱 동안, 기록 동작들은 동시에 하나의 섹터를 로그의 테일에 기록할 수 있다.
로그 레코드들: 로그 레코드들(예를 들어, 로그 페이지의 개별적인 요소들)은 몇몇 상이한 클래스를 가질 수 있다. 예를 들어, 저장 시스템의 사용자들/클라이언트들/애플리케이션들에 의해 생성 및 이해될 수 있는, 사용자 로그 레코드들(URL들)은 볼륨에서 사용자 데이터에 대한 변경들을 나타내는데 사용될 수 있다. 저장 시스템에 의해 생성되는, 제어 로그 레코드들(CLR들)은 현재 무조건적인 볼륨 지속 가능 LSN(VDL)과 같은 메타데이터를 계속 추적하는데 사용되는 제어 정보를 포함할 수 있다. 널 로그 레코드들(NLR들)은 일부 실시예들에서 로그 섹터 또는 로그 페이지에서의 미사용 공간을 채우기 위한 패딩(padding)으로서 사용될 수 있다. 일부 실시예들에서, 이들 클래스들 각각 내 다양항 유형들의 로그 레코드들일 수 있고, 로그 레코드의 유형은 로그 레코드를 해석하는데 적용되어야 하는 기능에 대응할 수 있다. 예를 들어, 하나의 유형은 특정한 압축 포맷을 사용하여 압축된 포맷으로 사용자 페이지의 모든 데이터를 나타낼 수 있고; 제2 유형은 사용자 페이지 내 바이트 범위의 신규 값들을 나타낼 수 있고; 제3 유형은 정수로서 해석되는 바이트들의 시퀀스에 대한 증분 동작을 나타낼 수 있으며; 제4 유형은 페이지 내 또 다른 장소에 한 바이트 범위를 복사하는 것을 포함할 수 있다. 일부 실시예들에서, 로그 레코드 유형들은 GUID들에 의해(정수들 또는 이넘들(enums)에 의해서가 아니라) 식별될 수 있는데, 이는 단순히 특히 ULR들을 위한, 버저닝(versioning) 및 개발일 수 있다.
페이로드: 로그 레코드의 페이로드는 특정한 유형의 로그 레코드 또는 로그 레코드들에 특수한 데이터 또는 파라미터 값들이다. 예를 들어, 일부 실시예들에서, 대부분(또는 모든) 로그 레코드들이 포함하고, 저장 시스템 그 자체가 이해하는 파라미터들 또는 속성들의 세트가 존재할 수 있다. 이들 속성들은 공통 로그 레코드 헤더/구조의 부분일 수 있는데, 이는 섹터 크기와 비교할 때 상대적으로 작을 수 있다. 또한, 대부분의 로그 레코드들은 해당 로그 레코드 유형에 특수한 추가적인 파라미터들 또는 데이터를 포함할 수 있고, 이러한 추가적인 데이터는 해당 로그 레코드의 페이로드로 간주될 수 있다. 일부 실시예들에서, 특정한 URL에 대한 페이로드가 사용자 페이지 크기보다 크다면, 그것은 그것의 페이로드가 사용자 페이지에 대한 모든 데이터를 포함하는 절대적 URL(AURL)에 의해 대체될 수 있다. 이는 저장 시스템이 사용자 페이지들의 크기와 동일한 ULR들에 대한 페이로드의 크기에 대한 상한을 강화하는 것을 가능하게 할 수 있다.
저장 로그 레코드들이 세그먼트 로그에 있을 때, 페이로드는 일부 실시예들에서, 로그 헤더와 함께 저장될 수 있다는 것을 주의하자. 다른 실시예들에서, 페이로드는 개별 장소에 저장될 수 있고, 페이로드가 저장되는 장소에 대한 포인터들은 로그 헤더와 저장될 수 있다. 또 다른 실시예들에서, 페이로드의 일부는 헤더에 저장될 수 있고, 페이로드의 잔여 부분은 개별 장소에 저장될 수 있다. 전체 페이로드가 로그 헤더와 저장된다면, 이는 대역 내 저장소로 지칭될 수 있고; 그 외 저장소는 대역 외인 것으로서 지칭될 수 있다. 일부 실시예들에서, 대부분의 대형 AULR들의 페이로드들은 로그의 콜드 존(아래에서 설명될)에서 대역 외에 저장될 수 있다.
사용자 페이지들: 사용자 페이지들은 저장 시스템의 사용자들/클라이언트들에 가시적인 특정한 볼륨을 위한 바이트 범위들(고정된 크기의) 및 그것의 정렬들이다. 사용자 페이지들은 논리 개념이고, 특정한 사용자 페이지들의 바이트들은 그대로 임의의 저장 페이지에 저장될 수 있거나 저장되지 않을 수 있다. 특정한 볼륨에 대한 사용자 페이지들의 크기는 해당 볼륨에 대한 저장 페이지 크기에 독립적일 수 있다. 일부 실시예들에서, 사용자 페이지 크기는 볼륨마다 구성 가능할 수 있고, 저장 노드 상의 상이한 세그먼트들은 상이한 사용자 페이지 크기들을 가질 수 있다. 일부 실시예들에서, 사용자 페이지 크기들은 다수의 섹터 크기(예를 들어, 4KB)이도록 제한될 수 있고, 상한(예를 들어, 64KB)을 가질 수 있다. 반면에, 저장 페이지 크기는 전체 저장 노드에 대해 고정될 수 있고 기본 하드웨어에 대한 변경이 존재하지 않는 한 변하지 않을 수 있다.
데이터 페이지: 데이터 페이지는 압축된 포맷으로 사용자 페이지 데이터를 저장하는데 사용되는 저장 페이지의 유형이다. 일부 실시예들에서 데이터 페이지에 저장되는 데이터의 모든 조각은 로그 레코드와 연관되고, 각 로그 레코드는 데이터 페이지(또한 데이터 섹터로 지칭되는) 내 섹터에 대한 포인터를 포함할 수 있다. 일부 실시예들에서, 데이터 페이지들은 각 섹터에 의해 제공되는 것이 아닌 임의의 내장된 메타데이터를 포함하지 않을 수 있다. 데이터 페이지 내 섹터들 간 어떤 관계도 존재하지 않을 수 있다. 대신에, 페이지들로의 구조화는 세그먼트에 대한 데이터의 할당의 세분화의 표현으로서 단지 존재할 수 있다.
저장 노드: 저장 노드는 저장 노드 서버 코드가 배치되는 단일 가상 기계이다. 각 저장 노드는 다수의 지역적으로 연결된 SSD을 포함할 수 있고, 하나 이상의 세그먼트에의 액세스를 위한 네트워크 API를 제공할 수 있다. 일부 실시예들에서, 다양한 노드들은 활성화 리스트 상에 또는 저하된 리스트 상에(예를 들어, 그것들이 응답하기에 느리거나 다르게 손상을 입은 경우, 그러나 완전히 사용 불가능하지 않은 경우) 있을 수 있다. 일부 실시예들에서, 클라이언트-측 드라이버는 노드들이 대체되어야 할 경우 및 대체되어야 할 때를 결정하기 위해, 그리고/또는 관측된 성능에 기초하여, 다양한 노드들 중에 데이터를 재분산할 때 및 재분산하는 방법을 결정하기 위해, 노드들을 활성 또는 저하로서 분류하는 것을 보조할 수 있다(또는 그것에 책임이 있을 수 있다).
SSD: 본 출원에서 지칭되는 바와 같이, 용어 "SSD"는 해당 저장 볼륨, 예를 들어, 디스크, 고체 상태 드라이브, 배터리 백업형 RAM, 비-휘발성 RAM 디바이스(예를 들어, 하나 이상의 NV-DIMM), 또는 또 다른 유형의 영구 저장 디바이스에 의해 채용되는 저장소의 유형에 관계없이, 저장 노드에 의해 보여지는 바와 같이 로컬 블록 저장 볼륨을 나타낼 수 있다. SSD는 반드시 하드웨어에 직접 매핑될 필요는 없다. 예를 들어, 단일 고체 상태 저장 디바이스는 각 볼륨이 다수의 세그먼트로 분할되고 다수의 세그먼트에 걸쳐 나뉘는 다수의 로컬 볼륨으로 분산될 수 있고/있거나, 단일 드라이브는 상이한 실시예들에서, 단순히 관리의 용이함을 위해 다수의 볼륨으로 분산될 수 있다. 일부 실시예들에서, 각 SSD는 단일 고정 장소에 할당 맵을 저장할 수 있다. 이러한 맵은 특정한 세그먼트들에 의해 소유되는 저장 페이지들이 어느 것인지, 및 이들 중 로그 페이지들(데이터 페이지들이 아니라)인 페이지들이 어느 것인지를 나타낼 수 있다. 일부 실시예들에서, 저장 페이지들은 순방향 프로세싱이 할당을 기다릴 필요가 없을 수 있도록 각 세그먼트에 미리 할당될 수 있다. 할당 맵에 대한 임의의 변경들은 새로 할당된 저장 페이지들이 세그먼트들에 의해 사용되기 전에 지속 가능하게 되어야 할 수 있다.
분산 데이터베이스-최적화 저장 시스템의 일 실시예는 도 4의 블록도에 의해 예시된다. 이 예에서, 데이터베이스 시스템(400)은 분산 데이터베이스-최적화 저장 시스템(410)을 포함하는데, 이는 상호연결부(460)를 통해 데이터베이스 엔진 헤드 노드(420)와 통신한다. 도 3에 예시된 예에서와 같이, 데이터베이스 엔진 헤드 노드(420)는 클라이언트-측 저장 서비스 드라이버(425)를 포함할 수 있다. 이 예에서, 분산 데이터베이스-최적화 저장 시스템(410)은 다수의 저장 시스템 서버 노드(430, 440, 및 450으로 도시된 것들을 포함하는)를 포함하는데, 그 각각은 그것이 저장하는 세그먼트(들)을 위한 데이터 페이지들 및 리두 로그들을 위한 저장소, 및 다양한 관리 기능을 수행하도록 구성되는 하드웨어 및/또는 소프트웨어를 포함한다. 예를 들어, 각 저장 시스템 서버 노드는 다음의 동작들: 복제(지역적으로, 예를 들어, 저장 노드 내), 데이터 페이지들을 생성하기 위한 리두 로그들의 병합, 스냅샷들(예를 들어, 생성하는 것, 복구, 삭제 등), 로그 관리(예를 들어, 로그 레코드들을 조작하는 것), 장애 복구, 및/또는 공간 관리(예를 들어, 세그먼트를 위한) 중 임의의 또는 모든 동작의 적어도 일부를 수행하도록 구성되는 하드웨어 및/또는 소프트웨어를 포함할 수 있다. 각 저장 시스템 서버 노드는 또한 데이터 블록들이 클라이언트들(예를 들어, 사용자들, 클라이언트 애플리케이션들, 및/또는 데이터베이스 서비스 가입자들)을 대신하여 저장될 수 있는 다수의 연결 저장 디바이스(예를 들어, SSD들)를 가질 수 있다.
도 4에 예시된 예에서, 저장 시스템 서버 노드(430)는 데이터 페이지(들)(433), 세그먼트 리두 로그(들)(435), 세그먼트 관리 기능들(437), 및 연결 SSD들(471 내지 478)을 포함한다. 다시 라벨 "SSD"는 고체 상태 드라이브를 나타낼 수 있거나 나타내지 않을 수 있으나, 보다 일반적으로 그것의 기본 하드웨어와 관계없이, 로컬 블록 저장 볼륨을 나타낼 수 있다는 것을 주의하자. 이와 유사하게, 저장 시스템 서버 노드(440)는 데이터 페이지(들)(443), 세그먼트 리두 로그(들)(445), 세그먼트 관리 기능들(447), 및 연결 SSD들(481 내지 488)을 포함한다; 그리고 저장 시스템 서버 노드(450)는 데이터 페이지(들)(453), 세그먼트 리두 로그(들)(455), 세그먼트 관리 기능들(457), 및 연결 SSD들(491 내지 498)을 포함한다.
이전에 언급한 바와 같이, 일부 실시예들에서, 섹터는 SSD 상의 정렬 유닛이고 기록이 단지 부분적으로만 완전할 리스크 없이 기록될 수 있는 SSD 상에서 최대 크기일 수 있다. 예를 들어, 다양한 고체 상태 드라이브들 및 스피닝 매체(spinning media)에 대한 섹터 크기는 4KB일 수 있다. 본 출원에 설명된 분산 데이터베이스-최적화 저장 시스템들의 일부 실시예들에서, 각 및 모든 섹터는 섹터가 부분인 상위 레벨 개체와 관계없이, 섹터의 시작에서 64-비트(8 바이트) CRC를 가질 수 있다. 이러한 실시예들에서, 이러한 CRC(섹터가 SSD로부터 판독되는 시간마다 인증될 수 있는)는 손상들을 검출하는데 사용될 수 있다. 일부 실시예들에서, 각 및 모든 섹터는 또한 그 값이 로그 섹터, 데이터 섹터, 또는 초기화되지 않은 섹터로서의 섹터인지를 식별하는 "섹터 유형" 바이트를 포함할 수 있다. 예를 들어, 일부 실시예들에서, 0의 섹터 유형 바이트 값은 섹터가 초기화되지 않은 것을 나타낼 수 있다.
일부 실시예들에서, 분산 데이터베이스-최적화 저장 시스템에서의 저장 시스템 서버 노드들 각각은 예를 들어, 리두 로그들을 수신하고, 데이터 페이지들을 다시 송신하는 등을 위해, 데이터베이스 엔진 헤드 노드와의 통신을 관리하는 노드 서버의 운영 시스템 상에서 작동하는 프로세스들의 세트를 구현할 수 있다. 일부 실시예들에서, 분산 데이터베이스-최적화 저장 시스템에 기록된 모든 데이터 블록은 장기 및/또는 아카이벌 저장소에(예를 들어, 원격 키-값 지속 가능 백업 저장 시스템에) 백업될 수 있다.
도 5는 일 실시예에 따라, 데이터베이스 시스템에서의 개별 분산 데이터베이스-최적화 저장 시스템의 사용을 예시하는 블록도이다. 이 예에서, 하나 이상의 클라이언트 프로세스(510)는 데이터를 데이터베이스 엔진(520) 및 분산 데이터베이스-최적화 저장 시스템(530)을 포함하는 데이터베이스 시스템에 의해 유지되는 하나 이상의 데이터베이스에 저장할 수 있다. 도 5에 예시된 예에서, 데이터베이스 엔진(520)은 데이터베이스 티어 구성요소들(560) 및 클라이언트-측 드라이버(540)(분산 데이터베이스-최적화 저장 시스템(530) 및 데이터베이스 티어 구성요소들(560) 간 인터페이스로서 역할을 하는)를 포함한다. 일부 실시예들에서, 데이터베이스 티어 구성요소들(560)은 도 3의 질의 분석, 최적화 및 실행 구성요소(305) 및 트랜잭션 및 일관성 관리 구성요소(330)에 의해 수행되는 것들과 같은 기능들을 수행할 수 있고/있거나, 데이터 페이지들, 트랜잭션 로그들 및/또는 언두 로그들(도 3의 데이터 페이지 캐시(335)에 의해 저장되는 것들, 트랜잭션 로그(340) 및 언두 로그(345)와 같은)을 저장할 수 있다.
이 예에서, 하나 이상의 클라이언트 프로세스(510)는 데이터베이스 티어 구성요소들(560)에 데이터베이스 질의 요청들(515)(하나 이상의 저장 노드(535a 내지 535n) 상에 저장된 데이터를 타겟팅하는 판독 및/또는 기록 요청들을 포함할 수 있는)을 송신할 수 있고, 데이터베이스 티어 구성요소들(560)로부터 데이터베이스 질의 응답들(517)(예를 들어, 기록 확인 응답들 및/또는 요청된 데이터를 포함하는 응답들)을 수신할 수 있다. 데이터 페이지에 기록하기 위한 요청을 포함하는 각 데이터베이스 질의 요청(515)은 하나 이상의 기록 레코드 요청(541)을 생성하기 위해 분석되고 최적화될 수 있는데, 이는 분산 데이터베이스-최적화 저장 시스템(530)에 후속하여 라우팅하기 위해 클라이언트-측 드라이버(540)에 송신될 수 있다. 이 예에서, 클라이언트-측 드라이버(540)는 기록 레코드 요청(541)에 대응하는 하나 이상의 리두 로그 레코드(531)를 생성할 수 있고, 그것들을 분산 데이터베이스-최적화 저장 시스템(530)의 저장 노드들(535) 중 특정한 저장 노드들에 송신할 수 있다. 분산 데이터베이스-최적화 저장 시스템(530)은 데이터베이스 엔진(520)에(구체적으로 클라이언트-측 드라이버(540)에) 각 리두 로그 레코드(531)에 대한 대응하는 기록 확인 응답(523)을 리턴할 수 있다. 클라이언트-측 드라이버(540)는 데이터베이스 티어 구성요소들(560)에 이들 기록 확인 응답들(기록 응답들(542)와 같은)을 전달할 수 있는데, 이는 그 후 데이터베이스 질의 응답들(517)로서 하나 이상의 클라이언트 프로세스(510)에 대응하는 응답들(예를 들어, 기록 확인 응답들)을 송신할 수 있다.
이 예에서, 데이터 페이지를 판독하기 위한 요청을 포함하는 각 데이터베이스 질의 요청(515)은 하나 이상의 판독 레코드 요청(543)을 생성하기 위해 분석되고 최적화될 수 있는데, 이는 분산 데이터베이스-최적화 저장 시스템(530)에 후속하여 라우팅하기 위해 클라이언트-측 드라이버(540)에 송신될 수 있다. 이 예에서, 클라이언트-측 드라이버(540)는 이들 요청들을 분산 데이터베이스-최적화 저장 시스템(530)의 저장 노드들(535) 중 특정한 저장 노드들에 송신할 수 있고, 분산 데이터베이스-최적화 저장 시스템(530)은 데이터베이스 엔진(520)에(구체적으로 클라이언트-측 드라이버(540)에) 요청된 데이터 페이지들(533)을 리턴할 수 있다. 클라이언트-측 드라이버(540)는 리턴 데이터 레코드들(544)로서 요청된 데이터 페이지들을 데이터베이스 티어 구성요소들(560)에 송신할 수 있고, 그 후 데이터베이스 티어 구성요소들(560)은 데이터베이스 질의 요청들(517)로서 데이터 페이지들을 하나 이상의 클라이언트 프로세스(510)에 송신할 수 있다.
일부 실시예들에서, 다양한 에러 및/또는 데이터 손실 메시지들(534)은 데이터베이스 엔진(520)에(구체적으로 클라이언트-측 드라이버(540)에) 분산 데이터베이스-최적화 저장 시스템(530)으로부터 송신될 수 있다. 이들 메시지들은 에러 및/또는 손실 보고 메시지들(545)로서 클라이언트-측 드라이버(540)로부터 데이터베이스 티어 구성요소들(560)에, 그리고 그 후 데이터베이스 질의 응답(517)과 함께(또는 그 대신) 하나 이상의 클라이언트 프로세스(510)에 전달될 수 있다.
일부 실시예들에서, 분산 데이터베이스-최적화 저장 시스템(530)의 API들(531 내지 534) 및 클라이언트-측 드라이버(540)의 API들(541 내지 545)은 데이터베이스 엔진(520)이 분산 데이터베이스-최적화 저장 시스템(530)의 클라이언트인 것처럼 데이터베이스 엔진(520)에 분산 데이터베이스-최적화 저장 시스템(530)의 기능을 노출시킬 수 있다. 예를 들어, 데이터베이스 엔진(520)(클라이언트-측 드라이버(540)를 통해)은 데이터베이스 엔진(520) 및 분산 데이터베이스-최적화 저장 시스템(530)의 조합에 의해 구현되는 데이터베이스 시스템의 다양한 동작들(예를 들어, 저장, 액세스, 변경 로깅, 복구, 및/또는 공간 관리 동작들)을 수행하기 위해(또는 그것들의 수행을 용이하게 하기 위해) 이들 API들을 통해 리두 로그 레코드들 또는 요청 데이터 페이지들을 기록할 수 있다. 도 5에 예시된 바와 같이, 분산 데이터베이스-최적화 저장 시스템(530)은 저장 노드들(535a 내지 535n) 상에 데이터 블록들을 저장할 수 있고, 그 각각은 다수의 연결 SSD들을 가질 수 있다. 일부 실시예들에서, 분산 데이터베이스-최적화 저장 시스템(530)은 다양한 유형들의 리던던시 기법의 애플리케이션을 통해 저장된 데이터 블록에 높은 지속성을 제공할 수 있다.
다양한 실시예들에서, 도 5의 데이터베이스 엔진(520) 및 분산 데이터베이스-최적화 저장 시스템(530) 간 API 호들 및 응답들(예를 들어, API들(531 내지 534)) 및/또는 클라이언트-측 드라이버(540) 및 데이터베이스 티어 구성요소들(560) 간 API 호들 및 응답들(예를 들어, API들(541 내지 545))은 보안 프록시 연결(예를 들어, 게이트웨이 제어 평면에 의해 관리되는 것)을 통해 수행될 수 있거나, 공중 네트워크를 통해 또는, 대안적으로, 가상 사설 네트워크(VPN) 연결과 같은 사설 채널을 통해 수행될 수 있다. 본 출원에 설명된 데이터베이스 시스템들의 구성요소들에 대한 및/또는 구성요소들 간 이들 및 다른 API들은 이들에 제한되지 않으나, SOAP(Simple Object Access Protocol) 기술 및 REST(Representational state transfer)를 포함하는, 상이한 기술들에 따라 구현될 수 있다. 예를 들어, 이들 API들은 반드시는 아니나, SOAP API들 또는 RESTful API들로서 구현될 수 있다. SOAP는 웹 기반 서비스들의 맥락에서 정보를 교환하기 위한 프로토콜이다. REST는 분산 하이퍼미디어 시스템들을 위한 아키텍처 유형이다. RESTful API(또한 RESTful 웹 서비스로 지칭될 수 있는)는 HTTP 및 REST 기술을 사용하여 구현되는 웹 서비스 API이다. 본 출원에에 설명된 API들은 일부 실시예들에서 데이터베이스 엔진(520) 및/또는 분산 데이터베이스-최적화 저장 시스템(530)과의 통합을 지원하기 위해 이들에 제한되지는 않으나, C, C++, Java, C# 및 Perl을 포함하는, 다양한 언어들로 클라이언트 라이브러리들로 랩핑될 수 있다.
상기에서 언급한 바와 같이, 일부 실시예들에서, 데이터베이스 시스템의 기능 구성요소들은 데이터베이스 엔진에 의해 수행되는 구성요소들들 및 개별, 분산, 데이터베이스-최적화 저장 시스템에서 수행되는 구성요소들 사이에 분배될 수 있다. 하나의 특정한 예에서, 데이터베이스로 무언가를 삽입하기 위해(예를 들어, 해당 데이터 블록에 레코드를 추가함으로써 단일 데이터 블록을 업데이트하기 위해) 클라이언트 프로세스(또는 그것의 스레드)로부터 요청을 수신하는 것에 응답하여, 데이터베이스 엔진 헤드 노드의 하나 이상의 구성요소는 질의 분석, 최적화, 및 실행을 수행할 수 있고, 질의의 각 부분을 트랜잭션 및 일관성 관리 구성요소에 송신할 수 있다. 트랜잭션 및 일관성 관리 구성요소는 다른 어떤 클라이언트 프로세스(또는 그것의 스레드)도 동시에 동일한 행을 변형하려 시도하고 있지 않다는 것을 보장할 수 있다. 예를 들어, 트랜잭션 및 일관성 관리 구성요소는 이러한 변경은 원자적으로, 일관적으로, 지속적으로, 및 데이터베이스에서 분리된 방식으로 수행되는 것을 보장하는 것에 책임이 있을 수 있다. 예를 들어, 트랜잭션 및 일관성 관리 구성요소는 분산 데이터베이스-최적화 저장 서비스에서 노드들 중 하나에 송신될 리두 로그 레코드를 생성하기 위해 그리고 그것들을 순서대로 및/또는 ACID 속성들이 이러한 트랜잭션을 위해 충족되는 것을 보장하는 타이밍에 분산 데이터베이스-최적화 저장 서비스로 송신하기 위해(다른 클라이언트 요청들에 응답하여 생성된 다른 리두 로그 레코드과 함께) 데이터베이스 엔진 헤드 노드의 클라이언트-측 저장 서비스 드라이버와 함께 작동할 수 있다. 리두 로그 레코드(저장 서비스에 의해 "업데이트 레코드"로 간주될 수 있는)를 수신 시, 대응하는 저장 노드는 데이터 블록을 업데이트할 수 있고, 데이터 블록을 위한 리두 로그 레코드(예를 들어, 데이터 블록에 지시되는 모든 변경들의 레코드)를 업데이트할 수 있다. 일부 실시예들에서, 데이터베이스 엔진은 이러한 변경을 위한 언두 로그 레코드를 생성하는 것에 책임이 있을 수 있고, 또한 트랜잭션성을 보장하기 위해 지역적으로(데이터베이스 티어 내에서) 사용될 수 있는 리두 로그 레코드 및 언두 로그 레코드 양자를 생성하는 것에 책임이 있을 수 있다. 그러나, 전통적인 데이터베이스 시스템과 달리, 본 출원에 설명된 시스템들은 변경들을 데이터 블록들에 적용(데이터베이스에의 데이터 블록들을 적용하는 것 및 변경된 데이터 블록들을 저장 시스템에 수송하는 것이 아닌)하기 위한 책임을 저장 시스템에 전가할 수 있다. 또한, 본 출원에서 도 8 내지 도 9b에 설명되는 바와 같이, 다양한 실시예들에서, 전 시스템에 미치는 체크포인트가 또한 저장 시스템에 의해 수행될 수 있는 다양한 로그 레코드 동작들로 인한 데이터베이스 시스템 장애로부터의 고속 복구와 함께 데이터베이스 시스템에서 회피될 수 있다.
다양한 상이한 할당 모델들이 상이한 실시예들에서, SSD를 위해 구현될 수 있다. 예를 들어, 일부 실시예들에서, 로그 엔트리 페이지들 및 애플리케이션 페이지들은 SSD 디바이스와 연관된 페이지들의 단일 히프(heap)로부터 할당될 수 있다. 이러한 접근법은 불특정으로 유지하기 위한 그리고 사용에 자동적으로 적응시키기 위한 로그 페이지들 및 데이터 페이지들에 의해 소모되는 상대적인 저장량을 허용하는 이점을 가질 수 있다. 그것은 또한 페이지들이 그것들이 사용될 때까지 준비되지 않은 상태로, 및 준비 없이 자유로이 다른 목적에 맞게 고치도록 유지하는 것을 허용하는 이점을 가질 수 있다. 다른 실시예들에서, 할당 모델은 저장 디바이스를 로그 엔트리들 및 데이터 페이지들을 위한 개별 공간들로 분배할 수 있다. 그러한 할당 모델이 도 6의 블록도에 의해 예시되고 아래에 설명된다.
도 6은 일 실시예에 따라, 데이터 및 메타데이터가 분산 데이터베이스-최적화 저장 시스템의 소정의 저장 노드(또는 영구 저장 디바이스)에 저장될 수 있는 방법을 예시하는 블록도이다. 이 예에서, SSD 저장 공간(600)은 라벨링된 공간의 일부(610)에 SSD 헤더 및 다른 고정 메타데이터를 저장한다. 그것은 라벨링된 공간의 일부(620)에 로그 페이지들을 저장하고, 추가적인 로그 페이지들을 위해 초기화 및 예약 할당되는 라벨링된 공간(630)을 포함한다. SSD 저장 공간(600)의 일부(640으로 도시된)는 초기화되나, 비할당되고, 공간의 다른 부분(650으로 도시된)은 비초기화 및 비할당된다. 마지막으로, 라벨링된 SSD 저장 공간(600)의 일부(660)는 데이터 페이지들을 저장한다.
이 예에서, 처음 사용 가능한 로그 페이지 슬롯은 615으로 언급되고, 마지막으로 사용된 로그 페이지 슬롯(단기)은 625로 언급된다. 마지막으로 예약 할당된 로그 페이지 슬롯은 635로 언급되고, 마지막 사용 가능한 로그 페이지 슬롯은 645로 언급된다. 이 예에서, 처음 사용된 데이터 페이지 슬롯(단기)는 665로 언급된다. 일부 실시예들에서, SSD 저장 공간(600) 내 이들 요소들의 각각(615, 625, 635, 645, 및 665)의 위치들은 각각의 포인터에 의해 식별될 수 있다.
도 6에 예시된 할당 접근법에서, 유효한 로그 페이지들은 플랫 저장 공간의 시작으로 패킹될 수 있다. 자유롭게 된 로그 페이지들로 인해 이용할 수 있게 된 홀들은 어드레스 공간까지 더 먼 추가적인 로그 페이지 슬롯들이 사용되기 전에 재사용될 수 있다. 예를 들어, 최악의 경우, 처음 n 로그 페이지 슬롯들은 유효한 로그 데이터를 포함하고, 여기서 n은 동시에 존재한 적 없는 최다수의 유효한 로그 페이지들이다. 이 예에서, 유효한 데이터 페이지들은 플랫 저장 공간의 마지막으로 패킹될 수 있다. 자유롭게 된 데이터 페이지들로 인해 이용할 수 있게 된 홀들은 어드레스 공간에서 더 낮은 추가적인 로그 페이지 슬롯들이 사용되기 전에 재사용될 수 있다. 예를 들어, 최악의 경우, 처음 m 데이터 페이지들은 유효한 데이터를 포함하고, 여기서 m은 동시에 존재한 적 없는 최다수의 유효한 데이터 페이지들이다.
일부 실시예들에서, 로그 페이지 슬롯이 유효한 로그 페이지 엔트리들의 잠재적인 세트의 부분이 될 수 있기 전에, 그것은 유효한 장래 로그 엔트리 페이지에 대해 혼동될 수 없는 값으로 초기화되어야 할 수 있다. 이는 회수된 로그 페이지가 신규 유효 로그 페이지에 대해 절대 혼동되지 않을 충분한 메타데이터를 갖기 때문에, 재활용된 로그 페이지 슬롯들에 대해 함축적으로 사실이다. 그러나, 저장 디바이스가 처음 초기화될 때, 또는 애플리케이션 데이터 페이지들을 저장하는데 잠재적으로 사용된 공간이 재활용될 때, 로그 페이지 슬롯들은 그것들이 로그 페이지 슬롯 풀에 추가되기 전에 초기화되어야 할 수 있다. 일부 실시예들에서, 재균형/재활용 로그 공간은 백그라운드 태스크로서 수행될 수 있다.
도 6에 예시된 예에서, 현재 로그 페이지 슬롯 풀은 처음 사용 가능한 로그 페이지 슬롯(615에서) 및 마지막으로 예약 할당된 로그 페이지 슬롯(625) 사이에 영역을 포함한다. 일부 실시예들에서, 이러한 풀은 신규 로그 페이지 슬롯들의 재-초기화 없이 마지막으로 사용 가능한 로그 페이지 슬롯(625)까지 안전하게 확대될 수 있다(예를 들어, 마지막으로 예약 할당된 로그 페이지 슬롯들, 635를 식별하는 포인터에 대한 업데이트를 지속함으로써). 이 예에서, 마지막으로 사용 가능한 로그 페이지 슬롯(포인터(645)에 의해 식별되는)을 지나, 풀은 초기화된 로그 페이지 슬롯들을 지속하고 마지막으로 사용 가능한 로그 페이지 슬롯(645)에 대한 포인터를 지속적으로 업데이트함으로써 처음으로 사용된 데이터 페이지 슬롯(포인터(665)에 의해 식별되는)까지 확대될 수 있다. 이 예에서, 650으로 도시된 SSD 저장 공간(600)의 이전에 비초기화 및 비할당된 부분은 로그 페이지들을 저장하기 위한 서비스로 유도될 수 있다. 일부 실시예들에서, 현재 로그 페이지 슬롯 풀은 마지막으로 예약 할당된 로그 페이지 슬롯에 대한 포인터(635)에 대한 업데이트를 지속함으로써 마지막으로 사용된 로그 페이지 슬롯(포인터에 의해 식별되는)의 위치 아래로 축소될 수 있다.
도 6에 예시된 예에서, 현재 데이터 페이지 슬롯 풀은 마지막으로 사용 가능한 로그 페이지 슬롯(포인터(645)에 의해 식별되는) 및 SSD 저장 공간(600)의 마지막 사이에 영역을 포함한다. 일부 실시예들에서, 데이터 페이지 풀은 마지막으로 사용 가능한 로그 페이지 슬롯(645)에 대한 포인터에 대한 업데이트를 지속함으로써 마지막으로 예약 할당된 로그 페이지 슬롯(635)에 대한 포인터에 의해 식별되는 위치로 안전하게 확대될 수 있다. 이 예에서, 640으로 도시된 SSD 저장 공간(600)의 이전에 초기화되었으나, 비할당된 부분은 데이터 페이지들을 저장하기 위한 서비스로 유도될 수 있다. 이를 지나, 풀은 로그 페이지들이 아닌 데이터 페이지들을 저장하기 위해 630 및 640으로 도시된 SSD 저장 공간(600)의 부분들을 효과적으로 재할당하여, 마지막으로 예약 할당된 로그 페이지 슬롯(635) 및 마지막으로 사용 가능한 로그 페이지 슬롯(645)에 대한 포인터들에 대한 업데이트들을 지속함으로써 마지막으로 사용된 로그 페이지 슬롯(625)에 의해 식별되는 위치로 안전하게 확대될 수 있다. 일부 실시예들에서, 데이터 페이지 슬롯 풀은 추가적인 로그 페이지 슬롯들을 초기화하고 마지막으로 사용 가능한 로그 페이지 슬롯(645)에 대한 포인터에 대한 업데이트를 지속함으로써 처음으로 사용된 데이터 페이지 슬롯(665)에 대한 포인터에 의해 식별되는 위치로 안전하게 축소될 수 있다.
도 6에 예시된 할당 접근법을 채용하는 실시예들에서, 로그 페이지 풀 및 데이터 페이지 풀에 대한 페이지 크기들은 여전히 양호한 패킹 동작을 용이하게 하면서, 독립적으로 선택될 수 있다. 이러한 실시예들에서, 추가적인 데이터에 의해 형성되는 스푸핑(spoofing)된 로그 페이지에 연결하는 유효한 로그 페이지의 어떤 가능성도 존재하지 않을 수 있고, 손상된 로그 및 아직 기록되지 않은 다음 페이지에 연결하는 유효한 로그 테일을 구별하는 것이 가능할 수 있다. 도 6에 예시된 할당 접근법을 채용하는 실시예들에서, 시작 시, 마지막으로 예약 할당된 로그 페이지 슬롯(635)에 대해 포인터에 의해 식별되는 위치까지의 모든 로그 페이지 슬롯은 빠르게 그리고 순차적으로 판독될 수 있고, 전체 로그 인덱스가 재구성될 수 있다(추론된 연결/순서화를 포함하여). 이러한 실시예들에서, 모든 것이 LSN 시퀀싱 제약으로부터 추론될 수 있기 때문에, 로그 페이지들 간 명백한 연결을 위한 어떤 요구도 존재하지 않을 수 있다.
일부 실시예들에서, 세그먼트는 세 개의 주요 부분(또는 존): 핫 로그를 포함하는 하나, 콜드 로그를 포함하는 하나, 및 사용자 페이지 데이터를 포함하는 하나로 구성될 수 있다. 존들은 반드시 SSD의 인접 영역들일 필요는 없다. 오히려, 그것들은 저장 페이지의 세분화로 산재될 수 있다. 또한, 세그먼트 및 그것의 속성들에 대한 메타데이터를 저장하는 각 세그먼트에 대한 루트 페이지가 존재할 수 있다. 예를 들어, 세그먼트를 위한 루트 페이지는 세그먼트에 대한 사용자 페이지 크기, 세그먼트에서의 사용자 페이지들의 수, 핫 로그 존의 현재 도입부/헤드(플러시 번호 형태로 레코딩될 수 있는), 볼륨 이포크(volume epoch), 및/또는 액세스 제어 메타데이터를 저장할 수 있다.
일부 실시예들에서, 핫 로그 존은 그것들이 저장 노드에 의해 수신됨에 따라 클라이언트로부터 신규 기록들을 수용할 수 있다. 페이지의 이전 버전으로부터 델타(delta) 형태로 사용자/데이터 페이지에 대한 변경을 명시하는, 델타 사용자 로그 레코드들(DULR들; Delta User Log Records), 및 완전한 사용자/데이터 페이지의 콘텐츠를 명시하는, 절대 사용자 로그 레코드들(AULR들; Absolute User Log Records) 양자는 완전하게 로그 내에 기록될 수 있다. 로그 레코드들은 대략 그것들이 수신되는(예를 들어, 그것들이 LSN에 의해 정렬되지 않는다) 순서로 이 존에 추가될 수 있고 그것들은 로그 페이지들에 걸쳐 이어질 수 있다. 로그 레코드들은 자체 기술할 수 있다, 예를 들어, 그것들은 그들 자체 크기의 표시를 포함할 수 있다. 일부 실시예들에서, 어떤 가비지 수집도 이 존에서 수행되지 않는다. 대신에, 공간은 모든 요구된 로그 레코드가 콜드 로그로 복사된 후 로그의 시작으로부터 절단됨으로써 재활용될 수 있다. 핫 존에서의 로그 섹터들은 섹터가 기록되는 각 시간마다 가장 최근에 알려진 무조건적인 VDL으로 주석이 첨가될 수 있다. 조건부 VDL CLR들은 그것들이 수신됨에 따라 핫 존 내에 기록될 수 있으나, 가장 최근에 기록된 VDL CLR이 의미있을 수 있다.
일부 실시예들에서, 신규 로그 페이지가 기록될 때마다, 그것은 플러시 번호로 할당될 수 있다. 플러시 번호는 각 로그 페이지 내 모든 섹터의 부분으로 기록될 수 있다. 플러시 번호들은 두 개의 로그 페이지를 비교할 때 어느 로그 페이지가 나중에 기록되었는지를 결정하는데 사용될 수 있다. 플러시 번호들은 단조롭게 증가하고 SSD(또는 저장 노드)로 스코프(scope)된다. 예를 들어, 단조롭게 증가하는 플러시 번호의 세트는 SSD 상의 모든 세그먼트들(또는 저장 노드 상의 모든 세그먼트들) 간에 공유된다.
일부 실시예들에서, 콜드 로그 존에서, 로그 레코드들은 그것들의 LSN들의 증가하는 순으로 저장될 수 있다. 이 존에서, AULR들은 반드시 그것들의 크기에 따라, 인-라인으로 데이터를 저장할 필요는 없을 수 있다. 예를 들어, 그것들이 큰 페이로드들을 가지면, 페이로드들의 전부 또는 일부는 데이터 존에 저장될 수 있고 그것들은 그것들의 데이터가 데이터 존에 저장되는 곳을 가리킬 수 있다. 일부 실시예들에서, 콜드 로그 존에서의 로그 페이지들은 섹터마다가 아니라, 동시에 하나의 완전한 페이지가 기록될 수 있다. 콜드 존에서의 로그 페이지들은 동시에 완전한 페이지가 기록되기 때문에, 모든 섹터들에서의 플러시 번호들이 동일하지 않은 콜드 존에서의 임의의 로그 페이지는 불완전하게 기록된 페이지로 간주될 수 있고 무시될 수 있다. 일부 실시예들에서, 콜드 로그 존에서, DULR들은 로그 페이지들에 걸쳐 이어질 수 있을 수 있다(최대 두 로그 페이지까지). 그러나, AULR들은 로그 섹터들에 걸쳐 이어지지 않을 수 있을 수 있다, 예를 들어, 따라서 병합 동작은 DULR을 단일 원자 기록에서 AULR로 대체할 수 있을 것이다.
일부 실시예들에서, 콜드 로그 존은 핫 로그 존으로부터 로그 레코드들을 복사함으로써 파퓰레이팅된다. 이러한 실시예들에서, LSN이 현재 무조건적인 볼륨 지속 가능한 LSN(VDL)보다 적거나 동일한 로그 레코드들이 단지 콜드 로그 존에 복사될 자격이 있을 수 있다. 로그 레코드들을 핫 로그 존으로부터 콜드 로그 존으로 이동시킬 때, 일부 로그 레코드들(많은 CLR과 같은)은 그것들이 더 이상 필요하지 않기 때문에 복사할 필요가 없을 수 있다. 또한, 사용자 페이지들의 일부 추가적인 병합이 이 지점에서 수행될 수 있는데, 이는 요구되는 복사량을 감소시킬 수 있다. 일부 실시예들에서, 소정의 핫 존 로그 페이지가 완전히 기록되었고 더 이상 최신 핫 존 로그 페이지가 아닐 때, 그리고 핫 존 로그 페이지 상의 모든 ULR이 성공적으로 콜드 로그 존으로 복사되었을 때, 핫 존 로그 페이지는 자유롭게 되어 재사용될 수 있다.
일부 실시예들에서, 가비지 수집은 폐 로그 레코드들, 예를 들어, 더 이상 저장 티어의 SSD들에 저장될 필요가 없는 로그 레코드들에 의해 차지되는 공간을 재활용하기 위해 콜드 로그 존에서 이행될 수 있다. 예를 들어, 로그 레코드는 동일한 사용자 페이지에 대한 후속 AULR이 존재할 때 더 이상 쓸모 없게 될 수 있고 그 로그 레코드에 의해 제시되는 사용자 페이지의 버전은 SSD 상의 보유를 위해 필요하지 않다. 일부 실시예들에서, 가비지 수집 프로세스는 두 개 이상의 인접한 로그 페이지를 병합하고 그것들을 그것들이 대신하고 있는 로그 페이지들로부터의 모든 쓸모없지 않은 로그 레코드들을 포함하는 더 적은 신규 로그 페이지로 대체함으로써 공간을 재활용할 수 있다. 신규 로그 페이지들은 그것들이 대신하고 있는 로그 페이지들의 플러시 번호들보다 큰 신규 플러시 번호들이 할당될 수 있다. 이들 신규 로그 페이지들의 기록이 완료된 후, 대체된 로그 페이지들은 자유 페이지 풀에 추가될 수 있다. 일부 실시예들에서, 임의의 포인터들을 사용하는 로그 페이지들의 임의의 명백한 연결이 존재하지 않을 수 있다는 것을 주의하자. 대신에, 로그 페이지들의 시퀀스는 그것들의 페이지들 상의 플러시 번호들에 의해 함축적으로 결정될 수 있다. 로그 레코드의 다수의 복사본이 발견될 때마다, 최고 플러시 번호를 갖는 로그 페이지에 존재하는 로그 레코드는 유효한 것으로 간주될 수 있고 다른 것들은 쓸모없는 것으로 간주될 수 있다.
일부 실시예들에서, 예를 들어, 데이터 존 내(섹터)에서 관리되는 공간의 세분화가 데이터 존 밖(저장 페이지)의 세분화와 상이할 수 있기 때문에, 일부 단편화가 존재할 수 있다. 일부 실시예들에서, 제어되는 이러한 단편화를 유지하기 위해, 시스템은 각 데이터 페이지에 의해 사용되는 섹터들의 수를 계속 추적할 수 있고, 거의 빈 공간이 없는 데이터 페이지들로부터 우선적으로 할당할 수 있으며, 거의 빈 데이터 페이지들(그것이 여전히 관련되면 신규 장소에 데이터를 이동시킬 필요가 있을 수 있는)을 우선적으로 가비지 수집할 수 있다. 세그먼트에 할당된 페이지들이 일부 실시예들에서 세 개의 존 사이에서 다른 목적에 맞게 만들어질 수 있다. 예를 들어, 세그먼트에 할당되었던 페이지가 자유롭게 될 때, 그것은 일부 시간의 기간 동안 해당 세그먼트와 연관되게 유지할 수 있고 후속하여 해당 세그먼트의 세 개의 존 중 임의의 존에서 사용될 수 있다. 모든 섹터의 섹터 헤더는 섹터가 속하는 존을 나타낼 수 있다. 페이지에서의 모든 섹터가 자유로울 때, 페이지는 존들에 걸쳐 공유되는 공통 자유 저장 페이지 풀에 리턴될 수 있다. 이러한 자유 저장 페이지 공유는 일부 실시예들에서 단편화를 감소(또는 방지)할 수 있다.
일부 실시예들에서, 본 출원에 설명된 분산 데이터베이스-최적화 저장 시스템들은 메모리 내 다양한 데이터 구조들을 유지할 수 있다. 예를 들어, 세그먼트에 존재하는 각 사용자 페이지에 대해, 사용자 페이지 테이블은 이 사용자 페이지가 "제거"되는지 여부(즉, 그것이 모든 제로를 포함하는지 여부)를 나타내는 비트, 페이지를 위한 콜드 로그 존으로부터의 최신 로그 레코드의 LSN, 및 페이지를 위한 핫 로그 존으로부터의 모든 로그 레코드의 장소들의 어레이/리스트를 저장할 수 있다. 각 로그 레코드에 대해, 사용자 페이지 테이블은 섹터 번호, 해당 섹터 내 로그 레코드의 오프셋, 해당 로그 페이지 내에서 판독할 섹터들의 수, 제2 로그 페이지의 섹터 번호(로그 레코드가 로그 페이지들에 걸쳐 이어지는 경우), 해당 로그 페이지 내에서 판독할 섹터들의 수를 저장할 수 있다. 일부 실시예들에서, 사용자 페이지 테이블은 또한 콜드 로그 존으로부터 모든 로그 레코드의 LSN들 및/또는 그것이 콜드 로그 존에 있는 경우 최신 AULR의 페이로드에 대한 섹터 번호들의 어레이를 저장할 수 있다.
본 출원에 설명된 분산 데이터베이스-최적화 저장 시스템들의 일부 실시예들에서, LSN 인덱스가 메모리에 저장될 수 있다. LSN 인덱스는 LSN들을 콜드 로그 존 내 로그 페이지들에 매핑할 수 있다. 콜드 로그 존에서의 해당 로그 레코드들이 정렬되면, 그것은 로그 페이지마다 하나의 엔트리를 포함하는 것일 수 있다. 그러나, 일부 실시예들에서, 모든 쓸모없지 않은 LSN은 인덱스에 저장되고 대응하는 섹터 번호들, 오프셋들, 및 각 로그 레코드에 대한 섹터들의 번호들에 매핑될 수 있다.
본 출원에 설명된 분산 데이터베이스-최적화 저장 시스템들의 일부 실시예들에서, 로그 페이지 테이블은 메모리에 저장될 수 있고, 로그 페이지 테이블은 콜드 로그 존의 가비지 수집 동안 사용될 수 있다. 예를 들어, 로그 페이지 테이블은 어느 로그 레코드들이 쓸모없는지(예를 들어, 어느 로그 레코드들이 가비지 수집될 수 있는지) 및 자유 공간이 각 로그 페이지 상에서 이용 가능한 방법을 식별할 수 있다.
본 출원에 설명된 저장 시스템들에서, 범위는 볼륨을 나타내기 위해 다른 범위들(연결되거나 또는 나뉘는)과 결합될 수 있는 매우 지속 가능한 저장 유닛을 나타내는 논리 개념일 수 있다. 각 범위는 단일 보호 그룹에서의 일원에 의해 지속 가능하게 될 수 있다. 범위는 생성 시 정의되는 고정 크기를 갖는 인접 바이트 서브-범위에 LSN-유형 판독/기록 인터페이스를 제공할 수 있다. 어느 범위까지의 판독/기록 동작들은 포함하는 보호 그룹에 의해 하나 이상의 적절한 세그먼트 판독/기록 동작으로 매핑될 수 있다. 본 출원에서 사용되는 바와 같이, 용어 "볼륨 범위"는 볼륨 내 바이트들의 특정한 서브-범위의 바이트들을 나타내는데 사용되는 범위를 나타낼 수 있다.
상기에서 언급한 바와 같이, 보호 그룹에 의해 제시되는 각각이 하나 이상의 세그먼트를 구성하는, 볼륨은 다수의 범위로 구성될 수 있다. 일부 실시예들에서, 상이한 범위들에 지시되는 로그 레코들은 인터리빙된 LSN들을 가질 수 있다. 특정한 LSN까지 지속 가능할 볼륨에 대한 변화들에 대해 그것은 그것들이 속하는 범위에 관계없이, 지속 가능할 해당 LSN까지의 모든 로그 레코드에 필요할 수 있다. 일부 실시예들에서, 클라이언트는 아직 지속 가능하게되지 않은 미처리된 로그 레코드들을 추적할 수 있고, 특정한 LSN까지의 모든 ULR이 지속가능하게 될 때, 그것은 볼륨 내 보호 그룹들 중 하나에 볼륨 지속 가능한 LSN(VDL) 메시지를 송신할 수 있다. VDL은 보호 그룹을 위해 모든 동기식 미러 세그먼트에 기록될 수 있다. 이는 때때로 "무조건적인 VDL"로 지칭되고 그것은 세그먼트들 상에서 일어나는 기록 활동과 함께 다양한 세그먼트들에(또는 보다 구체적으로, 다양한 보호 그룹들에) 주기적으로 지속될 수 있다. 일부 실시예들에서, 무조건적인 VDL은 로그 섹터 헤더들에 저장될 수 있다.
다양한 실시예들에서, 세그먼트 상에서 수행될 수 있는 동작들은 클라이언트로부터 수신되는 DULR 또는 AULR을 기록하는 동작(핫 로그 존의 테일에 DULR 또는 AULR을 기록한 후 사용자 페이지 테이블을 업데이트하는 동작을 수반할 수 있는), 콜드 사용자 페이지를 판독하는 동작(사용자 페이지의 데이터 섹터들의 정확한 위치를 찾고 그것들을 임의의 추가적인 DULR들을 적용할 필요 없이 리턴하는 동작을 수반할 수 있는), 핫 사용자 페이지를 판독하는 동작(사용자 페이지에 대한 가장 최근 AULR의 데이터 섹터들의 정확한 위치를 찾는 동작을 수반하고 그것을 리턴하기 전에 사용자 페이지에 임의의 후속 DULR들을 적용할 수 있는), DULR들을 AULR들로 대체하는 동작(적용된 마지막 DULR을 대신하는 AULR을 생성하기 위해 사용자 페이지에 대한 DULR들을 병합하는 동작을 수반할 수 있는), 로그 레코드들을 조작하는 동작 등을 포함할 수 있다. 본 출원에 설명된 바와 같이 병합은 사용자 페이지의 이후 버전을 생성하기 위해 사용자 페이지의 이전 버전에 DULR들을 적용하는 프로세스이다. 사용자 페이지를 병합하는 것은 (또 다른 DULR이 기록될 때까지) 병합하기 전에 기록된 모든 DULR이 요구에 따라 판독 및 적용될 필요가 없을 수 있기 때문에 판독 레이턴시를 감소시키는 것을 도울 수 있다. 그것은 또한 오래된 AULR들 및 DULR들을 쓸모없게 만듦으로써(로그 레코드들이 존재하도록 요구하는 어떤 스냅샷도 존재하지 않는다면) 저장 공간을 재활용하는 것을 도울 수 있다. 일부 실시예들에서, 병합 동작은 가장 최근 AULR의 정확한 위치를 찾는 동작 및 DULR들 중 임의의 것을 스킵하지 않고 시퀀스 내 임의의 후속 DULR들을 적용하는 동작을 포함할 수 있다. 상기에서 언급한 바와 같이, 일부 실시예들에서, 병합은 핫 로그 존 내에서 수행되지 않을 수 있다. 대신에, 콜드 로그 존 내에서 수행될 수 있다. 일부 실시예들에서, 병합은 또한 로그 레코드들이 핫 로그 존으로부터 콜드 로그 존으로 복사됨에 따라 수행될 수 있다.
일부 실시예들에서, 사용자 페이지를 병합하기 위한 결정은 페이지에 대해 계류 중인 DULR 연결의 크기에 의해(예를 들어, DULR 연결의 길이가 시스템-와이드, 애플리케이션-특정 또는 클라이언트-특정 정책에 따라, 병합 동작을 위해 미리 결정된 임계치를 초과하는 경우), 또는 클라이언트에 의해 판독된 사용자 페이지에 의해 트리거될 수 있다.
도 7은 일 실시예에 따라, 데이터베이스 볼륨(710)의 예시적인 구성을 예시하는 블록도이다. 이 예에서, 다양한 어드레스 범위들(715) 각각(어드레스 범위들(715a 내지 715e)로 도시된)에 대응하는 데이터는 상이한 세그먼트들(745)(세그먼트들(745a 내지 745n)로 도시된)로 저장된다. 보다 구체적으로, 다양한 어드레스 범위들(715) 각각에 대응하는 데이터는 상이한 범위들(범위들(725a 및 725b), 및 범위들(735a 내지 735h)로 도시된)로 구조화될 수 있고, 이들 범위들의 다양한 범위들은 나뉘거나 나뉘지 않고(스트라이프 세트(720a) 및 스트라이프 세트(720b)로서 도시된 것과 같은) 상이한 보호 그룹들(730)(730a 내지 730f로 도시된)에 포함될 수 있다. 이 예에서, 보호 그룹 1은 소거 코딩의 사용을 예시한다. 이 예에서, 보호 그룹들 2 및 3 및 보호 그룹들 6 및 7은 서로의 미러링된 데이터 세트들을 나타내고, 보호 그룹 4는 단일-인스턴스(비-리던던트) 데이터 세트를 나타낸다. 이 예에서, 보호 그룹 8은 다른 보호 그룹들을 결합하는 멀티-티어 보호 그룹을 나타낸다(예를 들어, 이는 멀티-영역 보호 그룹을 나타낼 수 있다). 이 예에서, 스트라이프 세트 1(720a) 및 스트라이프 세트 2(720b)는 범위들(예를 들어, 범위들(725a 및 725b))이 일부 실시예들에서, 볼륨으로 어떻게 나뉠 수 있는지를 예시한다.
보다 구체적으로, 이 예에서, 보호 그룹 1(730a)은 범위들 a 내지 c(735a 내지 735c)을 포함하는데, 이는 범위들 1 내지 3(715a 내지 715c), 각각을 포함하고, 이들 범위들을 세그먼트들 1 내지 4(745a 내지 745d)에 매핑된다. 보호 그룹 2(730b)는 범위 d(735d)를 포함하는데, 이는 범위 4(715d)로부터 나뉘는 데이터를 포함하며, 이 범위는 세그먼트들 5 내지 7(745e 내지 745g)에 매핑된다. 이와 유사하게, 보호 그룹 3(730c)는 범위 e(735e)를 포함하는데, 이는 범위 4(715d)로부터 나뉘는 데이터를 포함하며, 세그먼트들 8 및 9(745h 및 745i)에 매핑되고; 보호 그룹 4(730d)는 범위 f(735f)를 포함하는데, 이는 범위 4(715d)로부터 나뉘는 데이터를 포함하며, 세그먼트 10(745j)에 매핑된다. 이 예에서, 보호 그룹 6(730e)은 범위 g(735g)를 포함하는데, 이는 범위 5(715e)로부터 나뉘는 데이터를 포함하며, 세그먼트들 11 및 12(745k 내지 745l)에 매핑되고; 보호 그룹 7(730f)는 범위 h(735h)를 포함하는데, 이는 또한 범위 5(715e)로부터 나뉘는 데이터를 포함하며, 세그먼트들 13 및 14(745m 및 745n)에 매핑된다.
이제 도 8을 참조하면, 다양한 실시예들에서, 상기 설명된 바와 같이, 데이터베이스 시스템은 저장 노드들 상의 데이터 페이지들 내에 저장된 데이터에 대한 다양한 액세스 요청들(예를 들어, 기록 요청들)에 응답하여 리두 로그 레코드들을 생성하고 리두 로그 레코드들을 리두 로그 레코드들이 생성되었던 각각의 데이터 페이지들을 저장하는 저장 노드들에 송신하도록 구성될 수 있다. 저장 노드들은 특정한 데이터 페이지에 대한 병합 이벤트를 검출하고 이에 응답하여 특정한 데이터 페이지에 대한 병합 동작을 수행할 수 있다. 전형적인 데이터베이스 시스템은 대조적으로, 주기적인 간격들마다 적용될 생성된 리두 로그들 전부를 플러싱(flushing)하는 전 시스템에 미치는 체크포인트를 저장된 데이터에 적용할 수 있고, 그에 따라 데이터베이스에 의해 수행되는 액세스 요청들 및 다른 작업들의 프로세싱에 지장을 줄 수 있다.
도 8의 방법이 분산 데이터베이스-최적화 저장 시스템(410)(예를 들어, 저장 시스템 서버 노드(들)(430, 440, 450 등))과 같은, 로그-구조 저장 시스템의 다양한 구성요소들에 의해 수행되는 것으로 설명될 수 있지만, 방법은 일부 경우들에서 임의의 특정한 구성요소에 의해 수행될 필요는 없다. 예를 들어, 일부 경우들에서, 도 8의 방법은 일부 실시예들에 따라, 일부 다른 구성요소 또는 컴퓨터 시스템에 의해 수행될 수 있다. 또는, 일부 경우들에서, 데이터베이스 시스템(400)의 구성요소들은 도 4의 예에 도시된 방식과 상이한 방식으로 조합되거나 존재할 수 있다. 다양한 실시예들에서, 도 8의 방법은 분산 데이터베이스-최적화 저장 시스템의 하나 이상의 컴퓨터에 의해 수행될 수 있고, 그 중 하나는 도 10의 컴퓨터 시스템으로 도시된다. 도 8의 방법은 전 시스템에 미치는 체크포인트 회피를 위한 방법의 하나의 예시적인 구현예로서 도시된다. 다른 구현예들에서, 도 8의 방법은 도시된 블록들에 추가적인 블록들 또는 도시된 블록들보다 적은 블록들을 포함할 수 있다.
810에 표시된 바와 같이, 데이터베이스에 대해 저장된 특정한 데이터 페이지에 링크되는 리두 로그 레코드들이 유지될 수 있다. 이들 리두 로그 레코드들(때때로 상기 설명된 바와 같이 URL들로 지칭되는)은 사용자 데이터에 대한 변경을 설명할 수 있다. 리두 로그 레코드들은 데이터 페이지와 같은, 사용자 데이터의 특정한 부분에 링크될 수 있다. 예를 들어, 일부 실시예들에서 리두 로그 레코드들은 데이터 페이지에 대해 이전에 수신된 리두 로그 레코드를 가리키는 각 리두 로그 레코드를 가지고 특정한 데이터 페이지에 궁극적으로 링크되는 연속적인 리두 로그 레코드들을 형성할 수 있다. 이 예를 사용하여, 세 개의 리두 로그 레코드가 특정한 데이터 페이지에 링크되면, 데이터 페이지의 가장 최근에 저장된 상태를 가리키는, 가장 최근에 수신된 리두 로그 레코드는 다음 최근에 수신된 리두 로그 레코드를 가리킬 것이며, 이는 결국 세 번째 최근에 수신된 리두 로그 레코드를 가리킬 것이다. 이전 리두 로그 레코드에 대한 각 포인터에 의해 표시되는 리두 로그 레코드들의 논리적 순서는 그러한 리두 로그 레코드들이 물리적으로 그러한 순서로 저장되는 것을 의미하지 않는다는 것을 주의하자. 도 6에 관하여 상기에서 논의된 바와 같이, 이들 리두 로그 레코드들은 일부 실시예들에서, 사용자 데이터의 다른 부분들에 링크되는 다른 리두 로그 레코드들과 인터리빙될 수 있다. 따라서, 이전 예는 제한하는 것으로 의도되지 않는다.
다양한 실시예들에서, 리두 로그 레코드들은 데이터베이스 엔진 헤드 노드(420)와 같은, 데이터베이스 시스템으로부터 수신될 수 있는며, 이는 데이터가 저장 노드(430, 440, 450 등)와 같은, 저장 노드에 저장될 수 있는 하나 이상의 데이터베이스를 관리할 수 있다. 그러나, 적어도 일부 실시예들에서 저장 노드는 저장 노드가 데이터를 저장하는 하나 이상의 추가적인 데이터베이스 시스템 또는 노드로부터 리두 로그 레코드들을 수신할 수 있다. 이들 다른 데이터베이스 시스템들 또는 노드들은 또한 저장 노드에 그들 각각의 데이터베이스들에 대해 저장된 데이터의 특정한 부분들에 링크되는 리두 로그 레코드들을 송신할 수 있다.
일부 실시예들에서, 그 후 수신된 리두 로그 레코드들이 저장될 수 있다. 도 6 그러한 리두 로그 레코드들이 저장 노드에서 수신, 프로세싱, 및 저장될 수 있는 방법의 다양한 실시예들을 설명한다. 데이터 페이지와 같은, 특정한 부분의 데이터에 링크되는 리두 로그 레코드들의 수 또는 카운트와 같은, 메타데이터의 다양한 형태들이 저장된 리두 로그 레코드들에 대해 유지될 수 있다. 예를 들어, 상기에서 주어진 예에서와 같이, 세개의 리두 로그 레코드가 특정한 데이터 페이지에 링크되면, 특정한 데이터 페이지에 대한 리두 로그 레코드 카운트가 3으로 유지될 수 있다. 크기 또는 물리적 위치, 및 그것들이 링크되는 데이터의 부분들와 같은, 리두 로그 레코드들에 관한 다른 메타데이터는 다양한 다른 리두 로그 레코드들에 대한 포인터들 또는 데이터 페이지의 가장 최근에 저장된 상태에 대한 또는 포인터들과 같이, 유지될 수 있다.
저장된 리두 로그 레코드들에 대해 유지되는 메타데이터에 대한 업데이트들이 리두 로그 레코드들 자체에 대한 변경들, 그것들이 링크되는 특정한 데이터 페이지에 대한 변경들, 또는 리두 로그 레코드들을 활용함으로써, 또는 리두 로그 레코드들에 관해 수행되는 동작들 또는 다른 방법들 또는 기술들에 응답하여 이루어질 수 있다. 예를 들어, 830에 표시된 바와 같은, 데이터 페이지의 현재 상태를 생성하기 위해 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 적용하는 병합 동작이 수행되면, 리두 로그 레코드 카운트는 특정한 데이터 페이지에 대한 리두 로그 레코드 카운트로부터 그 적용된 리두 로그 레코드들을 제거하도록 업데이트될 수 있다.
다양한 실시예들에서, 특정한 데이터 페이지에 대한 병합 이벤트가 적어도 부분적으로, 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드에 기초하여, 820에 표시된 바와 같이, 검출될 수 있다. 검출된 병합 이벤트는, 병합 동작이 특정한 데이터 페이지에 대해 수행될 수 있다는 것을 표시할 수 있다. 적어도 일부 실시예들에서, 병합 이벤트에 대한 병합 이벤트를 검출하는 것은 다른 데이터 페이지들에 대해 검출되는 병합 이벤트들과 따로 또는 그것들과 관련하지 않고 발생할 수 있다. 특정한 데이터 페이지가 많은 리두 로그 레코드가 수신되는 "핫" 데이터 페이지일 수 있는 시나리오를 고려하자. 리두 로그 레코드들은 다른 데이터 페이지들에 대해 드물게 다르게 수신될 수 있다. 병합 이벤트를 검출하는 것은 병합 임계치를 초과하는 각각의 데이터 페이지에 링크되는 리두 로그 레코드들의 수에 기초할 수 있고, 그에 따라 이 시나리오에서, 병합 이벤트는 다른 데이터 페이지들에 대해서 보다 특정한 "핫" 데이터 페이지에 대해서 더 빈번하게 검출될 수 있다.
병합 이벤트를 검출하는 것은 판독, 기록, 및 다른 액세스 요청들을 처리하는 포어그라운드 프로세스들이 병합 이벤트의 검출 이전에(또는 지연시켜) 수행될 수 있는 백그라운드 프로세스로서 실행할 수 있는 구성요소 또는 프로세스를 모니터링하는 저장 노드의 부분으로서 수행될 수 있다. 병합 이벤트의 검출은 주기적인 또는 저장 노드의 작업량이 작업량 임계치보다 적을 때와 같이, 비주기적인 간격들마다 발생할 수 있다.
적어도 부분적으로, 특정한 데이터 페이지에 링크되는 리두 로그 레코드들에 기초하는 병합 이벤트들에 대한 다양한 방법들 및 기술들이 구현될 수 있다. 예를 들어, 적어도 일부 실시예들에서, 병합 임계치는 병합 이벤트들을 검출하기 위해 활용될 수 있다. 병합 임계치는 병합 이벤트가 검출되기 전 특정한 데이터 페이지에 링크될 수 있는 리두 로그 레코드들의 수를 정의할 수 있다. 예를 들어, 특정한 데이터 페이지가 10개의 리두 로그 레코드의 병합 임계치를 초과하는 11개의 리두 로그 레코드를 가지면, 병합 이벤트가 검출될 수 있다. 상이한 병합 임계치들이 상이한 데이터 페이지들을 위해 활용될 수 있다. 예를 들어, 데이터 페이지에 링크되는 빈번한 리두 로그 레코드들을 수신하는 "핫" 데이터 페이지 시나리오를 다시 고려하자. 보다 높은 병합 임계치가 덜 빈번하게 리두 로그 레코드들을 수신하는 데이터 페이지보다, "핫" 데이터 페이지를 위해 활용될 수 있고, 이에 따라 "핫" 데이터 페이지에 대해 수행되는 병합 동작들의 수를 감소시킬 수 있다. 대안적으로, 일부 실시예들에서, 동일한 또는 유사한 병합 임계치가 활용될 수 있다. 병합 임계치는 또한 다른 기술들 또는 구성요소들과 조합될 수 있다. 예를 들어, 병합 임계치가 초과되기 쉬울 때를 산출하기 위한 다른 구성요소들을 사용하는 것 및 특정한 데이터 페이지에 대한 리두 로그 레코드 카운트가 검토되어야 한다는 것을 병합 이벤트 검출을 수행하는 백그라운드 모니터 또는 다른 프로세스에 표시하기 위한 타이머 또는 다른 구성요소를 하는 것.
적어도 일부 실시예들에서, 특정한 데이터 페이지에 대한 병합 임계치가 결정될 수 있다(또는 데이터 페이지들의 특정한 세트에 대해). 예를 들어, 일부 실시예들에서, 병합 임계치는 사용자-정의 병합 임계치에 따라 결정될 수 있다. 사용자-정의 병합 임계치는 데이터베이스 엔진 헤드 노드(420)와 같은, 데이터베이스 시스템으로부터 저장 노드에 요청, 결정, 또는 표시되는 병합 임계치일 수 있거나, 또는 데이터베이스 시스템의 클라이언트가 병합 이벤트를 검출하는데 사용될 병합 임계치를 제공할 수 있다. 일부 실시예들에서, 병합 임계치는 저장 노드의 작업량 또는 성능에 기초하여 결정될 수 있다. 예를 들어, 일부 실시예들에서, 작업량 또는 성능의 정도가 병합 동작들을 수행하는 능력이 낮은 것을 표시하면, 병합 임계치는 검출되는 병합 이벤트들의 수가 그것의 현재 작업량만큼 저장 노드에 의해 처리될 수 있도록 증가될 수 있다. 일부 실시예들에서, 리두 로그 레코드들이 특정한 데이터 페이지에 대해 수신되는 레이트 또는 빈도가 산출되어, 병합 임계치를 결정하는데 사용될 수 있다. 적어도 일부 실시예들에서, 리두 로그 레코드들의 크기, 물리 저장장치에서 리두 로그 레코드들의 위치, 리두 로그 레코드들을 저장하기 위해 이용 가능한 공간, 및/또는 병합 동작이 리두 로그 레코드들을 데이터 페이지의 이전에 저장된 버전에 적용하도록 수행될 수 있는 시간과 같은, 다양한 다른 특성들이 병합 임계치를 결정하는데 사용될 수 있다.
특정한 데이터 페이지에 대한 병합 이벤트를 검출하는 것에 응답하여, 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드가 830에 도시된 바와 같이, 그것의 현재 상태에서의 특정한 데이터 페이지를 생성하기 위해 특정한 데이터의 이전에 저장된 버전에 적용될 수 있다. 적어도 일부 실시예들에서, 특정한 데이터 페이지에 링크되는 리두 로그 레코드를 적용하는 것이 병합 동작의 부분으로서 수행된다. 병합 동작 또는 상기 설명된 바와 같이 병합하는 것은 사용자 페이지의 이후 버전을 생성하기 위해 사용자 페이지의 이전 버전에, DULR들과 같은, 리두 로그 레코드들을 적용할 수 있다. 일부 실시예들에서, 병합 동작은 가장 최근 AULR(예를 들어, 데이터 페이지의 이전에 저장된 버전)의 위치를 찾는 것 및 DULR들 중 임의의 것을 스킵하지 않고 순차적으로 임의의 후속 DULR들을 적용하는 것을 포함할 수 있다. 예를 들어, 3개의 DULR이 수신되고 AULR에 링크되면, 첫 번째로 수신된 DULR이 AULR에 적용된다(이에 따라 이전에 저장된 데이터 페이지에 관해 처음 수신된 변경을 적용한다). 그 후, 다음 수신된 DULR이 적용되며, 마지막으로 가장 최근 DULR이 적용되어, 저장 노드에서의 DULR의 수신에 기초하여 결정되는 시퀀스로 DULR들을 적용한다. 일부 실시예들에서, 신규 AULR이 특정한 데이터 페이지의 현재 상태로서 생성된다. 리두 로그 레코드 카운트와 같은, 상기 논의된 메타데이터는 리두 로그 레코드들의 적용을 반영하기 위해 업데이트되고, 리두 로그 레코드에 관해, 그 수를 카운트로부터 제거할 수 있다.
적어도 일부 실시예들에서, 지연이 발생할 수 있거나 820에 표시된, 병합 이벤트의 검출과, 830에 표시된, 리두 로그 레코드들을 적용하는 것 사이에 시행될 수 있다. 예를 들어, 상기 검출하는 것 및 상기 적용하는 것을 수행하는 저장 노드의 작업량은, 리두 로그 레코드들을 적용하는 수행과 병합 이벤트의 검출 사이 지연을 결정할 수 있다. 이와 유사하게, 병합 이벤트를 검출하는 것에 응답하여 리두 로그 레코드들을 적용하는 것은 다양한 액세스 요청들(예를 들어, 판독 요청들 또는 기록 요청들)를 처리하는 것과 같은, 포어그라운드 프로세스들을 수행하지 않을 때만 수행되거나 감소되는, 백그라운드 프로세스의 부분으로서 수행될 수 있다. 지연된 병합 동작들 또는 데이터 페이지들에 대한 리두 로그들의 적용은 데이터 페이지들이 리두 로그 레코드들을 적용해야 할 때의 순서, 시퀀스, 또는 타이밍을 결정하는, 우선순위 큐 또는 선입 선출(FIFO) 큐와 같은 데이터 구조에 입력될 수 있다. 예를 들어, 상기 설명된 시나리오에서와 같이, "핫" 데이터 페이지가 검출된 병합 이벤트를 가지면, 다른 데이터 페이지 대신 "핫" 데이터 페이지에 리두 로그들의 적용을 수행하는 것이 보다 효율적일 수 있다. 백그라운드 프로세스로서 리두 로그 레코드들의 적용을 수행하는 것 또는 지연하는 것의 결과로, 병합 이벤트가 검출된 데이터 페이지에 링크되는 하나 이상의 추가적인 리두 로그 레코드가 수신될 수 있다. 적어도 일부 실시예들에서, 이들 추가적인 리두 로그 레코드들은 다른 리두 로그 레코드들이 데이터 페이지의 이전에 저장된 버전에 적용될 때 적용될 수 있다.
도 4에 예시된 바와 같이, 다수의 저장 노드(430, 440, 450 등)가 분산 저장 서비스의 일부로서 구현될 수 있다. 상기 도 8에 관해 상기에서 설명된 다양한 방법들 및 기술들이 서로 독립적으로 이들 다수의 저장 노드에 의해 수행될 수 있다. 각 저장 노드는 상이한 또는 동일한 병합 임계치들을 결정할 뿐만 아니라, 동일한 또는 서로 상이한 시간들에 응답하여 병합 이벤트들을 검출하는 것 및 하나 이상의 리두 로그 레코드를 적용하는 것을 수행할 수 있다.
이제 일부 실시예들에 따라, 분산 데이터베이스 시스템을 위한 고속 장애 복구를 수행하기 위한 방법을 예증하는 일련의 예시들을 도시하는, 도 9a를 참조하자. 전형적인 데이터베이스 시스템에서의 장애 복구는 힘든 프로세스이다. 이들 전형적인 시스템들에서, 데이터베이스 시스템 고장으로부터의 복구 시, 데이터베이스의 클린 버전이 획득되고, 그 후 데이터베이스가 액세스될 수 있기 전 상당한 복구 시간을 생성하여, 디스크에 저장되지 않은 트랜잭션들로부터의 모든 리두 로그 레코드가 데이터베이스 시스템 고장 이전의 그것의 현재 상태로 데이터베이스를 복구하기 위해 리플레이되어야 한다. 도 9a는, 대조적으로, 장애 복구를 수행하기 위해 더 빠르고 더 효율적인 기술을 제공할 수 있는 분산 데이터베이스 시스템을 위한 고속 장애 복구의 예시들을 제공한다.
신 992에서, 도 2에 관해 상기에서 설명된 클라이언트(250)와 같은, 데이터베이스 클라이언트(906)는 데이터베이스를 구현하는, 도 4에 관해 상기에서 설명된 데이터베이스 헤드 노드(430)와 같은, 데이터베이스 헤드 노드(902)를 가지고, 도 2에서 상기에서 설명된, 네트워크(260)를 통해 통신한다. 저장 노드들(908)은 데이터베이스 헤드 노드(902)에 의해 구현되는 데이터베이스에 대한 로그-구조 데이터 저장장치를 구현하는 하나 이상의 저장 노드일 수 있다. 다양한 액세스 요청들이 수신되고, 후속하여 저장 노드들(908)로부터 액세스된 데이터를 검색 시 데이터베이스 헤드 노드(902)에 의해 서비스될 수 있다. 도 8에 관해 상기에서 설명된 리두 로그 레코드들과 같은, 리두 로그 레코드들은 생성되어 사용자 데이터를 송신하는 대신 저장 노드들(908)에 송신될 수 있다. 리두 로그 레코드들이 저장 노드들(908)에 유지될 수 있다. 적어도 일부 실시예들에서, 병합 동작은, 도 8에 관해 상기에서 설명된 바와 같은, 병합 이벤트의 검출에 응답하여 수행될 수 있다.
신 994는 데이터베이스 헤드 노드(902) 실패를 예시한다. 데이터베이스 헤드 노드 고장은 데이터베이스 헤드 노드를 전력 손실, 메모리 이용 불가능, 시스템 글리치 등과 같이, 계속하여 기능할 수 없게 하는 임의의 유형의 시스템 고장일 수 있다. 데이터베이스 클라이언트(906)과 데이터베이스 헤드 노드(902) 사이 어떤 통신도 도해에 표시된 바와 같이, 송신되거나 수신되지 않을 수 있다. 따라서, 데이터베이스에 대한 어떤 액세스도 제공되지 않을 수 있다. 유사하게, 저장 노드들(908)과 데이터베이스 헤드 노드(902) 사이 어떤 통신도 송신되거나 수신되지 않을 수 있고, 이에 따라 데이터베이스에 대해 저장된 데이터에 대한 어떤 요청들도 프로세싱되지 않을 수 있다.
신 996에서, 복구 동작이 예시될 수 있다. 동일한 하드웨어 상에서 재시작되는 헤드 노드 애플리케이션 프로그램 또는 상이한 하드웨어 상에서 시작되는 헤드 노드의 다른 인스턴스의 버전일 수 있는, 신규 데이터베이스 헤드 노드(904)가 온라인으로 가져와질 수 있다. 저장 노드들(908)과의 연결들이 예시된 바와 같이, 데이터베이스 헤드 노드(904)에 의해 수립될 수 있다. 씬 998은 저장 노드들(908)과의 연결들의 수립 시, 데이터베이스 헤드 노드(902)에서 구현되었던 바와 동일한 데이터베이스가 신규 데이터베이스 헤드 노드(904)에서 액세스를 위해 이용 가능하게 만들어질 수 있다는 것을 도시한다. 판독 요청들 또는 기록 요청들과 같은, 액세스 요청들은 네트워크(260)를 통해 데이터베이스 클라이언트(906)로부터 신규 데이터베이스 헤드 노드(904)로 송신될 수 있다. 이들 리두 로그 레코드들이 액세스 요청을 서비스하기 위해 신규 데이터베이스 헤드 노드(908)에 데이터베이스에 대해 저장된 데이터의 현재 버전을 제공할 수 있는 저장 노드들(908)에 이미 송신되었기 때문에, 신규 데이터베이스 헤드 노드(904)는 데이터베이스 헤드 노드 고장 이전의 데이터의 현재 상태를 획득하기 위해 리두 로그 레코드들을 리플레이할 필요가 없을 수 있다. 저장 노드들(908)은 특정한 데이터에 대한 요청이 수신될 때 특정한 데이터의 이전에 저장된 버전에 리두 로그 레코드들을 적용할 수 있다. 대안적으로, 특정한 데이터의 현재 상태가 이를테면 도 8에 관해 상기에서 설명된 바와 같이 병합 이벤트가 검출될 때, 이미 적용된 특정한 것에 지시되는 임의의 리두 로그 레코드들을 갖는 저장 노드들에 사전에 저장될 수 있다.
도 9b는 일부 실시예들에 따라, 분산 데이터베이스 시스템을 위한 고속 장애 복구를 수행하기 위한 방법을 예시하는 흐름도이다. 다양한 실시예들에서, 데이터베이스 헤드 노드 고장이 발생할 수 있다. 이 헤드 노드 고장은 고장난 데이터베이스 헤드 노드에 의해 구현되고 관리되는 데이터베이스에 대한 임의의 통신, 수정들, 또는 액세스의 다른 형태를 방지할 수 있다. 예를 들어, 도 2에 설명된 데이터베이스 클라이언트(250)와 같은, 데이터베이스 시스템 클라이언트는 고장난 데이터베이스 헤드 노드에 판독 또는 기록 요청들을 송신할 수 없을 수 있다. 데이터베이스 헤드 노드의 고장은 이를테면 도 2에서 상기 설명된 웹 서비스 플랫폼(200), 또는 일부 다른 시스템 또는 구성요소에 의해, 검출될 수 있다. 헤드 노드의 고장에 응답하여, 재시작된 데이터베이스 헤드 노드 또는 신규 데이터베이스 헤드 노드(예를 들어, 이전에 고장난 헤드 노드와 동일한 또는 상이한 하드웨어 중 하나로 호스팅되는 신규 데이터베이스 헤드 노드 인스턴스)는 복구 동작을 수행하도록 지시될 수 있다. 일부 실시예들에서, 이 복구 동작은 도 9b에 도시된 다양한 요소들을 포함할 수 있지만, 그것은 이들 요소들에 제한되지 않는다.
데이터베이스 헤드 노드 고장으로부터의 복구가 910에 표시된 바와 같이, 발생할 수 있다. 복구는 다양한 방법들로 완성되도록 수행되고 결정될 수 있다. 예를 들어, 데이터베이스 헤드 노드 애플리케이션은 이를테면 다양한 테스트들을 수행하는 것, 다양한 디바이스들을 이네이블링하는 것 등을 실행하도록 준비할 때 다양한 상태들을 가질 수 있다. 이 프로세스의 부분으로서, 준비 상태가 노드 고장으로부터의 복구의 완료를 표시할 수 있는 데이터베이스 헤드 노드에 대해 결정될 수 있다. 데이터베이스 노드 고장으로부터의 복구 시, 910에 표시된 바와 같이, 데이터베이스에 대해 데이터를 저장하는 하나 이상의 저장 노드와의 연결이 920에 표시된 바와 같이, 수립될 수 있다.
도 9a 및 상기 다양한 다른 도면들에 관해 상기에서 설명된 바와 같이, 데이터베이스는 도 3 및 도 4에 설명된 데이터베이스 헤드 노드(320 또는 440)와 같은, 데이터베이스 헤드 노드에 의해 구현되고 관리될 수 있다. 데이터베이스를 구현하는 것의 부분으로서, 상기에서 설명된 판독 요청들 기록 요청들과 같은, 액세스 요청들이 데이터베이스 헤드 노드에서 프로세싱될 수 있다. 적어도 일부 실시예들에서 데이터베이스에 대한 변경들을 반영하는 리두 로그 레코드들은 도 4에서의 상기에서 설명된 저장 노드들(450)과 같은, 하나 이상의 저장 노드로 송신될 수 있고, 이들은 저장 노드들에 저장된 데이터에 대한 변경들을 반영한다. 특정한 데이터 페이지들 또는 데이터의 다른 부분들과 같은, 변경될 데이터를 저장하는 저장 노드들은 변경되어야 하는, 데이터 페이지들과 같은, 데이터의 부분들에 링크되는 리두 로그 레코드들을 수신할 수 있다. 이들 리두 로그 레코드들은 그 후 데이터 페이지의 현재 버전에 대한 요청들에 응답하여, 또는 이를테면 병합 이벤트를 검출하는 것에 응답하여, 일부 다른 시간에, 데이터 페이지와 같은, 데이터의 일부의 이전에 저장된 버전에 적용(예를 들어, 병합 동작)될 수 있다. 데이터베이스에 대한 리두 로그 레코드들이 이를테면 상기 논의된 다양한 방법들로, 데이터베이스 헤드 노드에서 구현되는 데이터베이스에 대해 유지되기 때문에, 저장 노드들은 일부 실시예들에서, 데이터베이스 헤드 노드 고장의 시간까지의 현재인 것이 보장되는 데이터의 현재 상태를 데이터베이스 헤드 노드에 송신할 수 있다.
연결들을 수립하는 저장 노드들이 식별될 수 있다. 예를 들어, 도 4에서의 상기에서 설명된 클라이언트-측 저장 서비스 드라이버(425)는 어떤 저장 노드들이 데이터베이스에 대해 데이터를 저장하는지 및 어떤 데이터베이스의 부분들이 저장 노드들에 저장되는지를 표시하는 정보를 유지할 수 있다. 연결 요청, 또는 일부 다른 통신 메시지가 도 4에 관해 상기에서 논의된 다양한 통신 방법들 중 하나를 사용하여 송신될 수 있다. 유사하게, 확인 응답들 및 저장 노드 및/또는 데이터베이스 헤드 노드의 상황에 대한 다른 정보가 교환될 수 있다.
920에 표시된 바와 같이, 하나 이상의 저장 노드와의 연결의 수립 시, 데이터베이스는 930에 표시된 바와 같이, 액세스를 위해 이용 가능하게 될 수 있다. 일부 실시예들에서, 액세스는 하나 이상의 액세스 요청(예를 들어, 판독 요청들, 기록 요청들)에 대해 제공될 수 있다. 데이터베이스의 이용 가능성의 표시가 생성되어 클라이언트로 송신될 수 있다. 예를 들어, 데이터베이스가 액세스를 위해 이용 가능하다는 메시시가 데이터베이스 클라이언트로 송신될 수 있다. 그러한 메시지는 도 2에 설명된, 웹 서비스 플랫폼(200), 또는 일부 다른 통신 플랫폼 또는 디바이스를 통해 송신될 수 있다. 상기에서 언급한 바와 같이, 전형적인 데이터베이스 시스템들에서는, 리두 로그 레코드들의 리플레이가 데이터베이스를 이용 가능하게 만들기 전에 수행되어야 한다. 그러나, 적어도 일부 실시예들에서, 데이터베이스는 리두 로그 레코드들을 리플레이하지 않고 이용 가능하게 될 수 있다. 리두 로그 레코드들과 사용될 때의 용어 "리플레이(replay)"는 일반적으로 하나 이상의 리두 로그 레코드를 데이터의 이전에 저장된 버전에 적용하는 것을 의미한다는 것을 주의하자.
적어도 일부 실시예들에서, 저장 노드는 데이터베이스 헤드 노드 고장을 검출하거나 다르게 인식하게 될 수 있을 수 있다. 데이터베이스 헤드 노드 고장을 검출하는 것에 응답하여, 저장 노드는 저장 노드에 수신된 리두 로그 레코드들 상에 절단 동작을 수행할 수 있다. 절단 동작은 데이터베이스 헤드 노드의 고장 전에 완료하지 않았던 시스템 트랜잭션의 부분인 리두 로그 레코드들을 결정 또는 식별할 수 있다. 이들 식별된 리두 로그 레코드들은 그 후 그것들이 링크된 데이터 페이지들에 그것들이 적용되지 않을 수 있도록 제거되거나 다르게 마킹, 이동, 또는 식별될 수 있다. 예를 들어, 저장 페이지가 특정한 데이터 페이지에 대한 5개의 리두 로그 레코드들을 유지하고, 가장 최근 3개의 리두 로그 레코드들이 데이터베이스 헤드 노드 고장 전 완료하지 않았던 시스템 트랜잭션의 부분이라면, 저장 노드는 단지 2개의 가장 오래된 리두 로그 레코드를 적용함으로써 데이터 페이지의 현재 상태를 생성할 때 데이터 페이지에 대한 가장 최근 3개의 리두 로그 레코드를 무시할 수 있다. 적어도 일부 실시예들에서, 절단 동작은 복원된 데이터베이스 헤드 노드와 수립된 연결을 가능하게 하기 이전에 영향을 받은 리두 로그 레코드들을 갖는 저장 노드 상에서 수행될 수 있다. 데이터베이스 엔진 헤드 노드는 일부 실시예들에서, 데이터베이스 헤드 노드의 고장 전 완료하지 않았던 시스템 트랜잭션의 부분인 리두 로그 레코드들을 결정 또는 식별하고 이들 식별된 리두 로그 레코드들이 그것들이 링크된 데이터 페이지들에 그것들이 적용되지 않을 수 있도록 제거되거나 다르게 마킹, 이동, 또는 식별될 수 있다는 통지를 저장 노드들로 송신하도록 구성될 수 있다. 예를 들어, 도 3에 관해 상기에서 설명된 클라이언트-측 저장 서비스 드라이버(325)와 같은, 클라이언트-측 저장 서비스 드라이버는 이전에 설명된 기술들을 수행할 수 있다. 절단 동작을 설명하는 이들 기술들은, 일부 실시예들에서, 백그라운드 프로세스의 부분으로서 수행될 수 있다.
적어도 일부 실시예들에서, 시스템 트랜잭션은 사용자 트랜잭션을 수행 또는 구현하기 위한 동작 또는 작업 또는 작업들의 다른 형태일 수 있다. 사용자 트랜잭션은 수신된 액세스 요청으로부터 다양한 작업들 또는 동작들을 수행하기 위한 다수의 시스템 트랜잭션을 포함할 수 있다. 예를 들어, 데이터베이스로의 삽입 명령이 수신될 수 있다. 사용자 트랜잭션으로서, 이 삽입 명령은, 삽입을 수행하기 위해, 이를테면 데이터베이스 데이터 구조들, 예를 들어, b-트리들을 상호작용하여, 삽입을 수행하기 위한 다수의 시스템 트랜잭션을 포함할 수 있다. 적어도 일부 실시예들에서, 미완료 사용자 트랜잭션은 사용자 트랜잭션에 포함되는 모든 시스템 트랜잭션이 완료되지(지속 가능하게 되지)는 않았을 수 있는 사용자 트랜잭션이다. 이와 유사하게, 시스템 트랜잭션이 또한 미완료일 수 있다. 사용자 및 시스템 트랜잭션들의 부분으로서 데이터베이스에 대해 저장된 데이터에 대해 이루어진 변경들을 반영하는 리두 로그 레코드들은, 일부 실시예들에서, 특정한 사용자 및/또는 시스템 트랜잭션으로 식별될 수 있다.
도 9c는 일부 실시예들에 따라, 복원된 데이터베이스에서 액세스 요청들을 프로세싱하기 위한 방법을 예시하는 흐름도이다. 상기에서 언급한 바와 같이, 적어도 일부 실시예들에서, 액세스 요청들은 데이터베이스를 액세스를 위해 이용 가능하게 한 데이터베이스 헤드 노드에 수신될 수 있다. 액세스 요청들은 판독 요청, 기록 요청, 또는 데이터베이스에 대해 저장된 데이터를 획득 또는 수정하기 위한 임의의 다른 요청일 수 있다. 도 9c가 예시하는 바와 같이, 액세스 요청은 940에 표시된 바와 같이, 데이터베이스에 대해 수신될 수 있다. 이에 응답하여, 하나 이상의 저장 노드로부터의 하나 이상의 데이터 페이지에 대한 요청이 950에 표시된 바와 같이, 이루어질 수 있다(클라이언트들로부터의 액세스 요청들 및 데이터베이스 헤드 노드로부터의 데이터 요청들 양자가 상기 도 5에 관해 보다 상세하게 커버된다). 요청된 하나 이상의 데이터 페이지의 현재 상태는 960에 표시된 바와 같이, 저장 노드들로부터 수신될 수 있다. 상기에서 논의된 바와 같이, 이 현재 상태는 이전에 수신된 리두 로그 레코드들을 데이터 페이지의 이전에 저장된 버전에 리플레이 또는 적용함으로써, 또는 현재 상태인 데이터 페이지의 이전에 저장된 버전을 리턴함으로써 생성될 수 있다. 다양한 실시예들에서, 각 데이터 페이지 또는 요청된 데이터의 부분은 데이터에 대한 요청을 수신하는 것에 응답하여 결정, 생성, 및/또는 다시 송신된(예를 들어, 느린 방식으로) 그것의 현재 상태를 가질 수 있다.
적어도 일부 실시예들에서, 언두 로그 레코드들이 데이터베이스 헤드 노드에 유지될 수 있다. 상기에서 논의된 바와 같은, 언두 로그 레코드들은 미완료 사용자 트랜잭션의 이벤트에서와 같은, 데이터에 대해 이루어지는 변경들을 취소하기 위해 데이터베이스에 대해 저장된 데이터에 적용될 변경들을 레코딩할 수 있다. 사용자 트랜잭션은 데이터베이스에 대해 저장된 데이터에 대한 다수의 변경(다수의 시스템 트랜잭션과 같은)을 포함하여, 하나 이상의 리두 로그 레코드 및 언두 로그 레코드를 생성할 수 있다. 사용자 트랜잭션은 사용자 트랜잭션의 모든 변경이 커밋되지(지속 가능하게 되지) 않을 때 미완료일 수 있다. 도 3에 관해 상기에서 설명된 트랜잭션 로그(340)와 같은, 트랜잭션 테이블이 사용자 트랜잭션들 및 저장 노드들에 저장된 데이터의 그것들의 관련 부분들이 데이터베이스 헤드 노드 고장 이전에 커밋되지 않았고, 그에 따라 미완료라는 것을 표시하기 위해 구현될 수 있다. 970에 표시된 바와 같이, 수신된 데이터 페이지가 트랜잭션 테이블에 의해 표시된 바와 같은, 미완료 사용자 트랜잭션에 의해 영향을 받는지에 대한 결정이 이루어질 수 있다. 만약 그렇다면, 긍정의 출구가 표시하는 바와 같이, 언두 로그 레코드들 중 하나 이상이 972에 표시된 바와 같이, 미완료 트랜잭션에 의해 이루어진 변경들을 취소하도록 데이터 페이지에 적용되고 데이터 페이지의 신규 현재 상태를 생성할 수 있다. 언두 로그 레코드들이 적용된 후, 또는 데이터 페이지가 미완료 사용자 트랜잭션에 의해 영향을 받지 않은 후, 데이터 페이지의 현재 상태가 980에 표시된 바와 같이, 액세스 요청을 서비스하기 위해 제공될 수 있다.
적어도 일부 실시예들에서, 트랜잭션 테이블에 기초하여, 미완료 사용자 트랜잭션에 의해 영향을 받는 데이터의 부분들을 결정 또는 식별하는 백그라운드 프로세스가 수행될 수 있다. 미완료 사용자 트랜잭션들에 의해 영향을 받는, 데이터 페이지들과 같은, 데이터의 부분들의 현재 상태에 대한 요청들이 송신 및 수신될 수 있다. 그 후 언두 로그 레코드들이 미완료 사용자 트랜잭션에 의해 이들 데이터 페이지들에 지시되는 변경들을 취소하도록 적용될 수 있다. 다양한 실시예들에서, 데이터베이스 캐시는 언두 로그 레코드들이 적용된 후 이들 데이터 페이지들로 업데이트될 수 있다.
적어도 일부 실시예들에서, 이전에 레코딩된 스냅샷이 데이터베이스의 상태를 이전 상태로 복구하는데 사용될 수 있다. 예를 들어, 데이터베이스를 액세스를 위해 이용 가능하게 만들기 이전에, 데이터베이스에 대한 데이터를 이전에 레코딩된 스냅샷에 대응하는 상태로 복구될 요청이 저장 노드들로 송신될 수 있다. 스냅샷은 이전에 수신된 리두 로그 레코드들이 레코딩된 스냅샷 지점(예를 들어, 타임스탬프 또는 마커)까지 리플레이되는 것을 가능하게 하는 저장 노드들에 저장된 리두 로그들에 대한 타임 스탬프 또는 다른 마커 또는 표시자를 식별함으로써 레코딩될 수 있고., 여기서 상기 복구는 데이터의 이전 버전에 복수의 리두 로그 중 하나 이상을 적용하는 것을 포함한다. 저장 노드들 상에 스냅샷들을 구현하는 추가 논의가 상기에 제공된다.
도 9b 및 도 9c의 방법들 및 기술들이 데이터베이스 엔진 헤드 노드(420)와 같은, 데이터베이스 시스템의 다양한 구성요소들에 의해 수행되는 것으로서 설명되었지만, 방법은 일부 경우들에서 임의의 특정한 구성요소에 의해 수행될 필요는 없다. 예를 들어, 일부 경우들에서, 도 9b 및 도 9c의 방법은 일부 실시예들에 따라, 일부 다른 구성요소 또는 컴퓨터 시스템에 의해 수행될 수 있다. 또는, 일부 경우들에서, 데이터베이스 시스템(400)의 구성요소들은 도 4의 예에 도시된 방식과 상이한 방식으로 조합되거나 존재할 수 있다. 다양한 실시예들에서, 도 9b 및 도 9c의 방법들은 분산 데이터베이스 시스템의 하나 이상의 컴퓨터에 의해 수행될 수 있고, 그 중 하나는 도 10의 컴퓨터 시스템으로 도시된다. 도 9b 및 도 9c의 방법들은 분산 데이터베이스 시스템의 고속 장애 복구를 위한 방법들의 예시적인 구현예들로서 도시된다. 다른 구현예들에서, 도 9b 및 도 9c의 방법들은 도시된 것보다 추가적인 블록들 또는 적은 블록들을 포함할 수 있다.
본 출원에 설명된 방법들은 다양한 실시예들에서 하드웨어 및 소프트웨어의 임의의 조합에 의해 구현될 수 있다. 예를 들어, 일 실시예에서, 방법들은 프로세서들에 결합된 컴퓨터 판독 가능 저장 매체 상에 저장된 프로그램 명령들을 실행하는 하나 이상의 프로세서를 포함하는 컴퓨터 시스템(예를 들어, 도 10에서와 같은 컴퓨터 시스템)에 의해 구현될 수 있다. 프로그램 명령들은 본 출원에 설명된 기능(예를 들어, 본 출원에 설명된 데이터베이스 서비스/시스템들 및/또는 저장 서비스들/시스템을 구현하는 다양한 서버들 및 다른 구성요소들의 기능)을 구현하도록 구현될 수 있다.
도 10은 다양한 실시예들에 따라, 본 출원에 설명된 데이터베이스 시스템들의 적어도 일부를 구현하도록 구성된 컴퓨터 시스템을 예시하는 블록도이다. 예를 들어, 컴퓨터 시스템(1000)은 상이한 실시예들에서, 데이터베이스 티어의 클라이언트들을 대신하여 데이터베이스들 및 관련 메타데이터를 저장하는 개별 분산 데이터베이스-최적화 저장 시스템의 복수의 저장 노드 중 하나, 또는 데이터베이스 티어의 데이터베이스 엔진 헤드 노드를 구현하도록 구성될 수 있다. 컴퓨터 시스템(1000)은 이들에 제한되지는 않으나, 개인용 컴퓨터 시스템, 데스크탑 컴퓨터, 랩탑 또는 노트북 컴퓨터, 메인프레임 컴퓨터 시스템, 핸드헬드 컴퓨터, 워크스테이션, 네트워크 컴퓨터, 고객 디바이스, 애플리케이션 서버, 저장 디바이스, 전화, 모바일 전화, 또는 일반적으로 임의의 유형의 컴퓨팅 디바이스를 포함하는, 다양한 유형들의 디바이스들 중 임의의 디바이스일 수 있다.
컴퓨터 시스템(1000)은 입력/출력(I/O) 인터페이스(1030)를 통해 시스템 메모리(1020)에 결합되는 하나 이상의 프로세서(1010)(그 각각은 다수의 코어를 포함할 수 있는데, 이는 단일 또는 다수-스레드일 수 있다)를 포함한다. 컴퓨터 시스템(1000)은 I/O 인터페이스(1030)에 결합된 네트워크 인터페이스(1040)를 더 포함한다. 다양한 실시예들에서, 컴퓨터 시스템(1000)은 하나의 프로세서(1010)를 포함하는 단일 프로세서 시스템, 또는 몇몇(예를 들어, 2, 4, 8, 또는 또 다른 적합한 수) 프로세서(1010)를 포함하는 멀티프로세서 시스템일 수 있다. 프로세서들(1010)은 기존 명령들을이 가능한 임의의 적합한 프로세서들일 수 있다. 예를 들어, 다양한 실시예들에서, 프로세서들(1010)은 x86, PowerPC, SPARC, 또는 MIPS ISA들, 또는 임의의 다른 적합한 ISA와 같은, 다양한 명령 세트 아키텍처들(ISA들) 중 임의의 아키텍처를 구현하는 범용 또는 내장 프로세서들일 수 있다. 다수의 프로세서 시스템들에서, 프로세서들(1010) 각각은 필수적이지는 않으나, 통상, 동일한 ISA를 구현할 수 있다. 컴퓨터 시스템(1000)은 또한 통신 네트워크(예를 들어, 인터넷, LAN등)를 통해 다른 시스템들 및/또는 구성요소들과 통신하기 위한 하나 이상의 네트워크 통신 디바이스(예를 들어, 네트워크 인터페이스(1040))를 포함한다. 예를 들어, 시스템(1000) 상에서 실행하는 클라이언트 애플리케이션은 본 출원에서 설명된 데이터베이스 시스템들의 구성요소들 중 하나 이상을 구현하는 서버들의 클러스터 상의 또는 단일 서버 상의 서버 애플리케이션과 통신하기 위해 네트워크 인터페이스(1040)를 사용할 수 있다. 다른 예에서, 컴퓨터 시스템(1000) 상에서 실행하는 서버 애플리케이션의 인스턴스는 다른 컴퓨터 시스템들(예를 들어, 컴퓨터 시스템들(1090)) 상에서 구현될 수 있는 서버 애플리케이션(또는 또 다른 서버 애플리케이션)의 다른 인스터스들과 통신하기 위해 네트워크 인터페이스(1040)를 사용할 수 있다.
예시된 실시예에서, 컴퓨터 시스템(1000)은 또한 하나 이상의 영구 저장 디바0이스(1060) 및/또는 하나 이상의 I/O 디바이스(1080)를 포함한다. 다양한 실시예들에서, 영구 저장 디바이스들(1060)은 디스크 드라이브들, 테이프 드라이버들, 고체 상태 메모리, 다른 대량 저장 디바이스들, 또는 임의의 다른 영구 저장 디바이스에 대응할 수 있다. 컴퓨터 시스템(1000)(또는 분산 애플리케이션 또는 그 상에서 작동하는 운영 시스템)은 요구 시 영구 저장 디바이스들(1060)에 명령들 및/또는 데이터를 저장할 수 있고, 필요 시 저장된 명령 및/또는 데이터를 검색할 수 있다. 예를 들어, 일부 실시예들에서, 컴퓨터 시스템(1000)은 저장 시스템 서버 노드를 호스팅할 수 있고, 영구 저장소(1060)는 해당 서버 노드에 연결된 SSD들을 포함할 수 있다.
컴퓨터 시스템(1000)은 프로세서(들)(1010)에 의해 액세스 가능한 명령들 및 데이터를 저장하도록 구성되는 하나 이상의 시스템 메모리(1020)를 포함한다. 다양한 실시예들에서, 시스템 메모리들(1020)은 임의의 적합한 메모리 기술, (예를 들어, 하나 이상의 캐시, 정적 랜덤 액세스 메모리(SRAM), DRAM, RDRAM, EDO RAM, DDR 10 RAM, 동기식 동적 RAM (SDRAM), 램버스 RAM, EEPROM, 비-휘발성/플래시-유형 메모리 또는 임의의 다른 유형의 메모리)을 사용하여 구현될 수 있다. 시스템 메모리(1020)는 본 출원에 설명된 방법들 및 기술들을 구현하기 위해 프로세서(들)(1010)에 의해 실행 가능한 프로그램 명령들(1025)을 포함할 수 있다. 다양한 실시예들에서, 프로그램 명령들(1025)은 플랫폼 고유의 바이너리, JavaTM 바이트-코드와 같은 임의의 해석된 언어로, 또는 C/C++, JavaTM 등과 같은 임의의 다른 언어로, 또는 이들의 임의의 조합으로 인코딩될 수 있다. 예를 들어, 예시된 실시예에서, 프로그램 명령들(1025)은 상이한 실시예들에서, 데이터베이스 티어의 클라이언트들을 대신하여 데이터베이스들 및 관련 메타데이터를 저장하는 개별 분산 데이터베이스-최적화 저장 시스템의 복수의 저장 노드 중 하나, 또는 데이터베이스 티어의 데이터베이스 엔진 헤드 노드의 기능을 구현하도록 실행 가능한 프로그램 명령들을 포함한다. 일부 실시예들에서, 프로그램 명령들(1025)은 다수의 개별 클라이언트, 서버 노드, 및/또는 다른 구성요소를 구현할 수 있다.
일부 실시예들에서, 프로그램 명령들(1025)은 UNIX, LINUX, SolarisTM, MacOSTM, WindowsTM 등과 같은, 다양한 운영 시스템들 중 임의의 운영 시스템일 수 있는, 운영 시스템(미도시)을 구현하도록 실행 가능한 명령들을 포함할 수 있다. 프로그램 명령들(1025) 중 임의의 또는 모든 프로그램 명령들은 컴퓨터 프로그램 제품, 또는 소프트웨어로서 제공될 수 있는데, 이는 그 상에 명령들을 저장한 비-일시적 컴퓨터 판독 가능 저장 매체를 포함할 수 있고, 이들은 다양한 실시예들에 따라 프로세스를 수행하기 위해 컴퓨터 시스템(또는 다른 전자 디바이스들)을 프로그래밍하는데 사용될 수 있다. 비-일시적 컴퓨터 판독 가능 저장 매체는 기계(예를 들어, 컴퓨터)에 의해 판독 가능한 형태(예를 들어, 소프트웨어, 프로세싱 애플리케이션)로 정보를 저장하기 위한 임의의 메커니즘을 포함할 수 있다. 일반적으로 말해서, 비-일시적 컴퓨터 액세스 가능 매체는 마그네틱 또는 광 미디어, 예를 들어, I/O 인터페이스(1030)를 통해 컴퓨터 시스템(1000)에 결합된 디스크 또는 DVD/CD-ROM과 같은 메모리 미디어 또는 컴퓨터 판독 가능 저장 매체를 포함할 수 있다. 비-일시적 컴퓨터 판독 가능 저장 매체는 또한 RAM(예를 들어 SDRAM, DDR SDRAM, RDRAM, SRAM 등), ROM 등과 같은 임의의 휘발성 또는 비-휘발성 미디어를 포함할 수 있는데, 이는 시스템 메모리(1020) 또는 다른 유형의 메모리로서 컴퓨터 시스템(1000)의 일부 실시예들에 포함될 수 있다. 다른 실시예들에서, 프로그램 명령들은 네트워크 인터페이스(1040)를 통해 구현될 수 있는 바와 같은, 네트워크 및/또는 무선 링크와 같은 통신 매체를 통해 전달되는 전파된 신호(예를 들어, 바송파들, 적외선 신호들, 디지털 신호들 등)의 광학, 음향 또는 다른 형태를 사용하여 전달될 수 있다.
일부 실시예들에서, 시스템 메모리(1020)는 데이터 저장소(1045)를 포함할 수 있는데, 이는 본 출원에 설명된 바와 같이 구성될 수 있다. 예를 들어, 본 출원에 설명된 데이터베이스 티어들의 기능들을 수행하는데 있어 사용되는 트랜잭션 로그, 언두 로그, 캐싱된 페이지 데이터, 또는 다른 정보와 같은, 데이터베이스 티어(예를 들어, 데이터베이스 엔진 헤드 노드 상의)에 의해 저장되는 바와 같이 본 출원에 설명된 정보는 여러 경우들에 그리고 다양한 실시예들에서 데이터 저장소(1045)에 또는 하나 이상의 노드 상의 시스템 메모리(1020)의 또 다른 부분에, 영구 저장소(1060)에, 그리고/또는 하나 이상의 원격 저장 디바이스(1070)에 저장될 수 있다. 이와 유사하게, 저장 티어에 의해 저장된 바와 같이 본 출원에 설명된 정보(예를 들어, 리두 로그 레코드들, 병합된 데이터 페이지들, 및/또는 본 출원에 설명된 분산 저장 시스템들의 기능들 수행하는데 사용되는 다른 정보)는 여러 경우들에 그리고 다양한 실시예들에서 데이터 저장소(1045)에 또는 하나 이상의 노드 상의 시스템 메모리(1020)의 또 다른 부분에, 영구 저장소(1060)에, 그리고/또는 하나 이상의 원격 저장 디바이스(1070)에 저장될 수 있다. 일반적으로, 시스템 메모리(1020)(예를 들어, 시스템 메모리(1020) 내 데이터 저장소(1045)), 영구 저장소(1060), 및/또는 원격 저장소(1070)는 데이터 블록들, 데이터 블록들의 복제본들, 데이터 블록들과 연관된 메타데이터 및/또는 그것들의 상태, 데이터베이스 구성 정보, 및/또는 본 출원에 설명된 방법들 및 기술들을 구현하는데 사용 가능한 임의의 다른 정보를 저장할 수 있다.
일 실시예에서, I/O 인터페이스(1030)는 네트워크 인터페이스(1040) 또는 다른 주변 인터페이스들을 통해서를 포함하여, 시스템에서 프로세서(1010), 시스템 메모리(1020) 및 시스템 내 임의의 다른 디바이스들 간 I/O 트래픽을 조정하도록 구성될 수 있다. 일부 실시예들에서, I/O 인터페이스(1030)는 데이터 신호들을 하나의 구성요소(예를 들어, 시스템 메모리(1020))로부터 또 다른 구성요소(예를 들어, 프로세서(1010))에 의해 사용하기에 적합한 포맷으로 변환하기 위해 임의의 필요한 프로토콜, 타이밍, 또는 다른 데이터 변환들을 수행할 수 있다. 일부 실시예들에서, I/O 인터페이스(1030)는 예를 들어, 다양한 주변 구성요소 상호연결(PCI) 버스 표준 또는 범용 직렬 버스(USB) 표준과 같은, 다양한 유형들의 주변 버스들을 통해 연결되는 디바이스들에 대한 지원을 포함할 수 있다. 일부 실시예들에서, I/O 인터페이스(1030)의 기능은 예를 들어, 노스 브리지(north bridge) 및 사우스 브리지(south bridge)와 같은, 두 개 이상의 개별 구성요소로 분배될 수 있다. 또한, 일부 실시예들에서, 시스템 메모리(1020)에 대한 인터페이스와 같은, I/O 인터페이스(1030)의 기능의 일부 또는 전부는 프로세서(1010)로 직접 포함될 수 있다.
네트워크 인터페이스(1040)는 데이터가 예를 들어, 컴퓨터 시스템(1000) 및 다른 컴퓨터 시스템들(1090)(본 출원에 설명된 하나 이상의 저장 시스템 서버 노드, 데이터베이스 엔진 헤드 노드, 및/또는 데이터베이스 시스템들의 클라이언트)과 같은, 네트워크에 연결된 다른 디바이스들 사이에서 교환되는 것을 허용하도록 구성될 수 있다. 또한, 네트워크 인터페이스(1040)는 컴퓨터 시스템(1000) 및 다양한 I/O 디바이스들(1050) 및/또는 저장소(1070) 사이의 통신을 허용하도록 구성될 수 있다. 입력/출력 디바이스들(1050)은 일부 실시예들에서, 하나 이상의 디스플레이 단자, 키보드, 키패드, 터치패드, 스캐닝 디바이스, 음성 또는 광 인식 디바이스, 또는 하나 이상의 컴퓨터 시스템(1000)에 의해 데이터를 입력 또는 검색하기에 적합한 임의의 다른 디바이스를 포함할 수 있다. 다수의 입력/출력 디바이스(1050)는 컴퓨터 시스템(1000)에 존재할 수 있거나 컴퓨터 시스템(1000)를 포함하는 분산 시스템의 다양한 노드들 상에 분산될 수 있다. 일부 실시예들에서, 유사한 입력/출력 디바이스들은 컴퓨터 시스템(1000)과 별개일 수 있고 네트워크 인터페이스(1040)를 통해서와 같이, 유선 또는 무선 연결을 통해 컴퓨터 시스템(1000)을 포함하는 분산 시스템의 하나 이상의 노드와 상호작용할 수 있다. 네트워크 인터페이스(1040)는 통상 하나 이상의 무선 네트워킹 프로토콜(예를 들어, Wi-Fi/IEEE 802.11, 또는 또 다른 무선 네트워킹 표준)을 지원할 수 있다. 그러나, 다양한 실시예들에서, 네트워크 인터페이스(1040)는 예를 들어, 다른 유형들의 이더넷 네트워크들과 같은, 임의의 적합한 유선 또는 무선의 일반적인 데이터 네트워크들을 통해 통신을 지원할 수 있다. 추가적으로, 네트워크 인터페이스(1040)는 아날로그 음성 네트워크들 또는 디지털 파이버 통신 네트워크들과 같은 전화통신/전화기 네트워크들을 통해, 파이버 채널 SAN들과 같은 저장 영역 네트워크를 통해, 또는 임의의 다른 적합한 유형의 네트워크 및/또는 프로토콜을 통해 통신을 지원할 수 있다. 다양한 실시예들에서, 컴퓨터 시스템(1000)은 도 10에 예시된 것들보다 많은, 적은, 또는 상이한 구성요소들(예를 들어, 디스플레이들, 비디오, 카드들, 오디오 카드들, 주변 디바이스들, ATM 인터페이스, 이더넷 인터페이스, 프레임 릴레이 인터페이스(Frame Relay interface) 등과 같은 다른 네트워크 인터페이스들)을 포함할 수 있다.
본 출원에 설명된 분산 시스템 실시예들 중 임의의 실시예, 또는 그것들의 구성요소들 중 임의의 구성요소는 하나 이상의 웹 서비스로서 구현될 수 있다는 것이 주의된다. 예를 들어, 데이터베이스 시스템의 데이터베이스 티어 내 데이터베이스 엔진 헤드 노드는 데이터베이스 서비스들 및/또는 웹 서비스들로서 클라이언트들을 위해 본 출원에 설명된 분산 저장 시스템을 채용하는 다른 유형들의 데이터 저장 서비스들을 제공할 수 있다. 일부 실시예들에서, 웹 서비스는 네트워크를 통해 공동 운전 가능한 기계 대 기계 상호작용을 지원하도록 설게된 소프트웨어 및/또는 하드웨어 시스템에 의해 구현될 수 있다. 웹서비스는 웹 서비스 설명 언어(WSDL)와 같은, 기계 프로세스 가능 포맷으로 설명되는 인터페이스를 가질 수 있다. 다른 시스템들은 웹 서비스의 인터페이스의 설명에 의해 규정된 방식으로 웹 서비스와 상호작용할 수 있다. 예를 들어, 웹 서비스는 다른 시스템들이 적용할 수 있는 다양한 동작들을 정의할 수 있고, 다양한 동작들을 요구할 때 다른 시스템들이 따르도록 기대될 수 있는 특정한 애플리케이션 프로그래밍 인터페이스(API)를 정의할 수 있다.
다양한 실시예들에서, 웹 서비스는 웹 서비스 요청과 연관된 파라미터들 및/또는 데이터를 포함하는 메시지의 사용을 통해 요청 또는 적용될 수 있다. 그러한 메시지는 확장 가능 마크업 언어(XML)와 같은 특정한 마크업 언어에 따라 포맷팅될 수 있고/있거나 단순 객체 액세스 프로토콜(SOAP)과 같은 프로토콜을 사용하여 캡슐화될 수 있다. 웹 서비스 요청을 수행하기 위해, 웹 서비스 클라이언트는 요청을 포함하는 메시지를 어셈블링하고 그 메시지를 하이퍼텍스트 전송 프로토콜(HTTP)과 같은 인터넷 기반 애플리케이션 계층 전송 프로토콜을 사용하여, 웹 서비스에 대응하는 주소 지정 가능한 엔드포인트(예를 들어, 고유한 자원 위치 표시자(URL))에 전달할 수 있다.
일부 실시예들에서, 웹 서비스들은 메시지 기반 기술들이 아닌 "RESTful"(Representational State Transfer) 기술들을 사용하여 구현될 수 있다. 예를 들어, RESTful 기술에 따라 구현된 웹 서비스는 SOAP 메시지 내로 캡슐화되기보다, PUT, GET, 또는 DELETE와 같은 HTTP 방법 내에 포함되는 파라미터들을 통해 적용될 수 있다.
앞서 말한 내용은 다음 절들을 고려하여 보다 양호하게 이해될 수 있다:
1. 시스템으로서:
데이터베이스 서비스의 적어도 하나의 데이터베이스 엔진 헤드 노드로서:
분산 저장 서비스를 구현하는 복수의 저장 노드 중 저장 노드에 저장된 복수의 데이터 페이지 중 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 생성하는 것으로서, 저장 노드들은 특정한 데이터 페이지를 포함하는 복수의 데이터 페이지로 데이터베이스에 대해 데이터를 저장하고, 하나 이상의 리두 로그 레코드의 각각은 특정한 데이터 페이지 내에 저장된 데이터에 대한 하나 이상의 액세스 요청에 응답하여 생성되는, 상기 하나 이상의 리두 로그 레코드를 생성하고;
하나 이상의 리두 로그 레코드를 저장 노드로 송신하도록 구성되는, 상기 데이터베이스 서비스의 적어도 하나의 데이터베이스 엔진 헤드 노드;
분산 저장 서비스의 저장 노드로서:
특정한 데이터 페이지에 링크되는 수신된 하나 이상의 리두 로그 레코드를 저장하고;
특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드가 병합 임계치를 초과한다는 것을 결정하며;
병합 동작을 수행하는 것으로서, 상기 병합 동작은 그것의 현재 상태에서의 특정한 데이터 페이지를 생성하기 위해 특정한 데이터 페이지의 이전에 저장된 버전에 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 적용하는 것을 포함하는, 상기 병합 동작을 수행하도록 구성되는, 분산 저장 서비스의 저장 노드를 포함하는, 시스템.
2. 절 1에 있어서,
저장 노드는 복수의 데이터 페이지의 각각에 대해 리두 로그 레코드 카운트를 유지하도록 더 구성되고;
특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드가 병합 임계치를 초과한다는 것을 결정하기 위해, 적어도 하나의 산출 노드가 특정한 데이터 페이지에 대해 유지되는 리두 로그 레코드 카운트가 병합 임계치를 초과한다는 것을 결정하도록 더 구성되는, 시스템.
3. 절 2에 있어서, 저장 노드는 병합 동작을 수행하는 것에 응답하여, 리두 로그 레코드 카운트로부터 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 제거하기 위해 리두 로그 레코드 카운트를 업데이트하도록 더 구성되는, 시스템.
4. 절 1에 있어서,
데이터베이스 엔진 헤드 노드는 저장 노드에 저장된 복수의 데이터 페이지 중 다른 데이터 페이지에 링크되는 하나 이상의 다른 리두 로그 페이지를 이전에 생성하여 송신하였고;
데이터베이스 엔진 헤드 노드는:
데이터베이스 엔진 헤드 노드 고장으로부터의 복구 시, 저장 노드에 특정한 데이터 페이지의 현재 상태 및 다른 데이터 페이지의 현재 상태에 대한 요청을 송신하도록 더 구성되고;
저장 노드는:
데이터베이스 엔진 헤드 노드로부터 특정한 데이터 페이지의 현재 상태 및 다른 데이터 페이지의 현재 상태에 대한 요청을 수신하고;
특정한 데이터 페이지에 대한 요청을 수신하는 것에 응답하여, 데이터베이스 엔진 헤드 노드에 특정한 데이터 페이지의 이전에 생성된 현재 상태를 송신하고;
다른 데이터 페이지에 대한 요청을 수신하는 것에 응답하여:
그것의 현재 상태에서의 다른 데이터 페이지를 생성하기 위해 다른 데이터 페이지의 이전에 저장된 버전에 다른 데이터 페이지에 링크되는 하나 이상의 다른 리두 로그 레코드를 적용하는 병합 동작을 수행하며;
데이터베이스 엔진 헤드 노드로 다른 데이터 페이지의 현재 상태를 송신하도록 더 구성되는, 시스템.
5. 방법에 있어서:
하나 이상의 컴퓨팅 디바이스에 의해:
데이터베이스에 대해 저장된 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 유지하는 단계;
적어도 부분적으로, 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드에 기초하여 특정한 데이터 페이지에 대한 병합 이벤트를 검출하는 단계; 및
특정한 데이터 페이지에 대한 병합 이벤트를 검출하는 것에 응답하여, 그것의 현재 상태에서의 특정한 데이터 페이지를 생성하기 위해 특정한 데이터 페이지의 이전에 저장된 버전에 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 적용하는 단계를 수행하는 단계를 포함하는, 방법.
6. 절 5에 있어서, 특정한 데이터 페이지에 대한 병합 이벤트를 상기 검출하는 단계는 비주기적으로 발생하는, 방법.
7. 절 5에 있어서, 특정한 데이터 페이지에 대한 병합 이벤트를 상기 검출하는 단계는 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드가 병합 임계치를 초과한다는 것을 결정하는 단계를 더 포함하는, 방법.
8. 절 7에 있어서, 특정한 데이터 페이지에 대한 병합 이벤트를 상기 검출하는 단계는 사용자-정의 병합 임계치에 따라 병합 임계치를 결정하는 단계를 더 포함하는, 방법.
9. 절 7에 있어서,
데이터베이스에 대해 저장된 상이한 데이터 페이지에 링크되는 하나 이상의 추가적인 리두 로그 레코드를 유지하는 단계; 및
상이한 데이터 페이지에 링크되는 하나 이상의 추가적인 리두 로그 레코드가 병합 임계치와 상이한, 다른 병합 임계치를 초과한다는 것을 결정하는 단계를 더 포함하는, 방법.
10. 절 5에 있어서, 하나 이상의 컴퓨팅 디바이스는 분산 저장 서비스를 구현하는 복수의 저장 노드 중 저장 노드를 함께 구현하고, 하나 이상의 리두 로그 레코드는 복수의 저장 노드에 걸쳐 데이터베이스에 대해 저장된 특정한 데이터 페이지를 포함하는 복수의 데이터 페이지 중 하나에 각각 링크되는 복수의 리두 로그 레코드에 포함되며, 복수의 리두 로그 레코드는 데이터베이스 시스템으로부터 수신되는, 방법.
11. 절 10에 있어서, 복수의 저장 노드 중 하나 이상의 다른 저장 노드는 하나 이상의 다른 저장 노드에 저장된 복수의 데이터 페이지 중 상이한 데이터 페이지들에 대해 상기 유지하는 단계, 상기 검출하는 단계, 및 상기 적용하는 단계를 수행하는, 방법.
12. 절 12에 있어서, 상기 검출하는 단계 및 상기 적용하는 단계는 하나 이상의 다른 저장 노드에 저장된 데이터 페이지들 중 상이한 데이터 페이지들에 대해 상이한 시간들에 수행되는, 방법.
13. 절 5에 있어서, 하나 이상의 컴퓨팅 디바이스는 분산 저장 서비스를 구현하는 복수의 저장 노드 중 저장 노드를 함께 구현하고,
특정한 데이터 페이지에 대한 병합 이벤트를 검출하는 것에 응답하여:
그것의 현재 상태에서의 특정한 데이터 페이지를 생성하기 위해 특정한 데이터 페이지의 이전에 저장된 버전에 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 적용하기 이전에, 적어도 부분적으로, 저장 노드에 의해 수행되는 다른 프로세스들의 작업량에 기초하여 하나 이상의 리두 로그 레코드를 상기 적용하는 것의 시작을 지연하는 단계를 더 포함하는, 방법.
14. 프로그램 명령들을 저장하는, 비-일시적, 컴퓨터 판독-가능 저장 매체로서, 상기 프로그램 명령들은 하나 이상의 컴퓨팅 디바이스에 의해 실행될 때:
데이터베이스에 대해 저장된 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 유지하는 것;
특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드가 병합 임계치를 초과한다는 것을 결정하는 것; 및
그것의 현재 상태에서의 특정한 데이터 페이지를 생성하기 위해 특정한 데이터 페이지의 이전에 저장된 버전에 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 적용하는 것을 구현하는, 비-일시적, 컴퓨터 판독-가능 저장 매체.
15. 절 14에 있어서, 하나 이상의 컴퓨팅 디바이스는 분산 저장 서비스의 저장 노드를 함께 구현하고, 프로그램 명령들은 하나 이상의 컴퓨팅 디바이스에 의해 실행될 때 적어도 부분적으로, 저장 노드의 수행에 기초하여 병합 임계치를 결정하는 것을 더 구현하는, 비-일시적, 컴퓨터 판독 가능 저장 매체.
16. 절 14에 있어서, 프로그램 명령들은 하나 이상의 컴퓨팅 디바이스에 의해 실행될 때 적어도 부분적으로, 특정한 데이터 페이지에 링크되는 수신된 리두 로그 레코드들의 빈도수에 기초하여 병합 임계치를 결정하는 것을 더 구현하는, 비-일시적, 컴퓨터 판독-가능 저장 매체.
17. 절 14에 있어서, 프로그램 명령들은 하나 이상의 컴퓨팅 디바이스에 의해 실행될 때 적어도 부분적으로, 저장 공간 이용 가능성에 기초하여 병합 임계치를 결정하는 것을 더 구현하는, 비-일시적, 컴퓨터 판독-가능 저장 매체.
18. 절 14에 있어서, 프로그램 명령들은 하나 이상의 컴퓨팅 디바이스에 의해 실행될 때 적어도 부분적으로, 하나 이상의 리두 로그 레코드를 상기 적용하는 것이 수행될 수 있는 시간에 기초하여 병합 임계치를 결정하는 것을 더 구현하는, 비-일시적, 컴퓨터 판독-가능 저장 매체.
19. 절 14에 있어서, 프로그램 명령들은 하나 이상의 컴퓨팅 디바이스에 의해 실행될 때 적어도 부분적으로, 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드의 하나 이상의 크기에 기초하여 병합 임계치를 결정하는 것을 더 구현하는, 비-일시적, 컴퓨터 판독-가능 저장 매체.
20. 절 14에 있어서, 프로그램 명령들은 하나 이상의 컴퓨팅 디바이스에 의해 실행될 때 적어도 부분적으로, 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드에 대한 하나 이상의 저장장치 위치에 기초하여 병합 임계치를 결정하는 것을 더 구현하는, 비-일시적, 컴퓨터 판독-가능 저장 매체.
21. 절 14에 있어서, 그것의 현재 상태에서의 특정한 데이터 페이지를 생성하기 위해 특정한 데이터 페이지의 이전에 저장된 버전에 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 상기 적용하는 것은 백그라운드 프로세스로서 수행되는, 비-일시적, 컴퓨터 판독-가능 저장 매체.
22. 절 14에 있어서, 프로그램 명령들은 하나 이상의 컴퓨팅 디바이스에 의해 실행될 때: 그것의 현재 상태에서의 특정한 데이터 페이지를 생성하기 위해 특정한 데이터 페이지의 이전에 저장된 버전에 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 적용하는 것에 응답하여, 리두 로그 레코드 카운트로부터 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 제거하기 위해 특정한 데이터 페이지에 대한 리두 로그 레코드 카운트를 업데이트하도록 더 구성되는, 비-일시적, 컴퓨터 판독-가능 저장 매체.
23. 절 22에 있어서, 프로그램 명령들은 하나 이상의 컴퓨팅 디바이스에 의해 실행될 때:
특정한 데이터 페이지에 링크되는 다른 리두 로그 레코드를 수신하는 것; 및
특정한 데이터 페이지에 링크되는 다른 리두 로그 레코드를 포함하기 위해 특정한 데이터 페이지에 대한 리두 로그 레코드 카운트를 업데이트하는 것을 구현하는, 비-일시적, 컴퓨터 판독-가능 저장 매체.
도면들에서 예시되고 본 출원에서 설명된 바와 같은 다양한 방법들은 방법들의 예시적인 실시예들을 나타낸다. 방법들은 소프트웨어에서, 하드웨어에서, 또는 이들의 조합에서 수동으로 구현될 수 있다. 임의의 방법의 순서는 변경될 수 있고, 다양한 요소들이 추가, 재순서화, 결합, 생략, 수정 등이 될 수 있다.
상기에서 실시예들이 상당히 상세하게 설명되었지만, 많은 변경 및 변형이 상기 개시내용이 완전히 이해되면 당해 기술분야의 통상의 기술자들에게 명백해질 바와 같이 이루어질 수 있다. 이하의 청구항들이 모든 그러한 변형 및 변경을 포함하고, 그에 따라, 상기 설명이 제한적인 의미가 아닌 예시적으로 간주되도록 해석된다는 것이 의도된다.

Claims (15)

  1. 데이터베이스 서비스의 적어도 하나의 데이터베이스 엔진 헤드 노드로서:
    분산 저장 서비스를 구현하는 복수의 저장 노드 중 저장 노드에 저장된 복수의 데이터 페이지 중 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 생성하는 것으로서, 상기 저장 노드들은 상기 특정한 데이터 페이지를 포함하는 복수의 데이터 페이지로 데이터베이스에 대해 데이터를 저장하고, 상기 하나 이상의 리두 로그 레코드의 각각은 상기 특정한 데이터 페이지 내에 저장된 데이터에 대한 하나 이상의 액세스 요청에 응답하여 생성되는, 상기 하나 이상의 리두 로그 레코드를 생성하고;
    상기 하나 이상의 리두 로그 레코드를 상기 저장 노드로 송신하도록 구성되는, 상기 데이터베이스 서비스의 적어도 하나의 데이터베이스 엔진 헤드 노드;
    상기 분산 저장 서비스의 상기 저장 노드로서:
    상기 특정한 데이터 페이지에 링크되는 수신된 상기 하나 이상의 리두 로그 레코드를 저장하고;
    상기 특정한 데이터 페이지에 링크되는 상기 하나 이상의 리두 로그 레코드는 병합 임계치를 초과한다는 것을 결정하며;
    병합 동작을 수행하는 것으로서, 상기 병합 동작은 그것의 현재 상태에서의 상기 특정한 데이터 페이지를 생성하기 위해 상기 특정한 데이터 페이지의 이전에 저장된 버전에 상기 특정한 데이터 페이지에 링크되는 상기 하나 이상의 리두 로그 레코드를 적용하는 것을 포함하는, 상기 병합 동작을 수행하도록 구성되는, 상기 분산 저장 서비스의 상기 저장 노드를 포함하는, 시스템.
  2. 청구항 1에 있어서,
    상기 저장 노드는 상기 복수의 데이터 페이지의 각각에 대해 리두 로그 레코드 카운트를 유지하도록 더 구성되고;
    상기 특정한 데이터 페이지에 링크되는 상기 하나 이상의 리두 로그 레코드가 상기 병합 임계치를 초과한다는 것을 결정하기 위해, 적어도 하나의 산출 노드가 상기 특정한 데이터 페이지에 대해 유지되는 상기 리두 로그 레코드 카운트가 상기 병합 임계치를 초과한다는 것을 결정하도록 더 구성되는, 시스템.
  3. 청구항 2에 있어서, 상기 저장 노드는 상기 병합 동작을 수행하는 것에 응답하여, 상기 리두 로그 레코드 카운트로부터 상기 특정한 데이터 페이지에 링크되는 상기 하나 이상의 리두 로그 레코드를 제거하기 위해 상기 리두 로그 레코드 카운트를 업데이트하도록 더 구성되는, 시스템.
  4. 청구항 1에 있어서,
    상기 데이터베이스 엔진 헤드 노드는 상기 저장 노드에 저장된 상기 복수의 데이터 페이지 중 다른 데이터 페이지에 링크되는 하나 이상의 다른 리두 로그 페이지를 이전에 생성하여 송신하였고;
    상기 데이터베이스 엔진 헤드 노드는:
    데이터베이스 엔진 헤드 노드 고장으로부터의 복구 시, 상기 저장 노드에 상기 특정한 데이터 페이지의 상기 현재 상태 및 상기 다른 데이터 페이지의 현재 상태에 대한 요청을 송신하도록 더 구성되고;
    상기 저장 노드는:
    상기 데이터베이스 엔진 헤드 노드로부터 상기 특정한 데이터 페이지의 상기 현재 상태 및 상기 다른 데이터 페이지의 상기 현재 상태에 대한 상기 요청을 수신하고;
    상기 특정한 데이터 페이지에 대한 상기 요청을 수신하는 것에 응답하여, 상기 데이터베이스 엔진 헤드 노드에 상기 특정한 데이터 페이지의 이전에 생성된 현재 상태를 송신하고;
    상기 다른 데이터 페이지에 대한 상기 요청을 수신하는 것에 응답하여:
    그것의 현재 상태에서의 상기 다른 데이터 페이지를 생성하기 위해 상기 다른 데이터 페이지의 이전에 저장된 버전에 상기 다른 데이터 페이지에 링크되는 상기 하나 이상의 다른 리두 로그 레코드를 적용하는 병합 동작을 수행하며;
    상기 데이터베이스 엔진 헤드 노드로 상기 다른 데이터 페이지의 상기 현재 상태를 송신하도록 더 구성되는, 시스템.
  5. 하나 이상의 컴퓨팅 디바이스에 의해:
    데이터베이스에 대해 저장된 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 유지하는 단계;
    적어도 부분적으로, 상기 특정한 데이터 페이지에 링크되는 상기 하나 이상의 리두 로그 레코드에 기초하여 상기 특정한 데이터 페이지에 대한 병합 이벤트를 검출하는 단계; 및
    상기 특정한 데이터 페이지에 대한 상기 병합 이벤트를 검출하는 것에 응답하여, 그것의 현재 상태에서의 상기 특정한 데이터 페이지를 생성하기 위해 상기 특정한 데이터 페이지의 이전에 저장된 버전에 상기 특정한 데이터 페이지에 링크되는 상기 하나 이상의 리두 로그 레코드를 적용하는 단계를 수행하는 단계를 포함하는, 방법.
  6. 청구항 5에 있어서, 상기 특정한 데이터 페이지에 대한 상기 병합 이벤트를 상기 검출하는 단계는 비주기적으로 발생하는, 방법.
  7. 청구항 5에 있어서, 상기 특정한 데이터 페이지에 대한 상기 병합 이벤트를 상기 검출하는 단계는 상기 특정한 데이터 페이지에 링크되는 상기 하나 이상의 리두 로그 레코드가 병합 임계치를 초과한다는 것을 결정하는 단계를 더 포함하는, 방법.
  8. 청구항 7에 있어서, 상기 특정한 데이터 페이지에 대한 상기 병합 이벤트를 상기 검출하는 단계는 사용자-정의 병합 임계치에 따라 상기 병합 임계치를 결정하는 단계를 더 포함하는, 방법.
  9. 청구항 7에 있어서,
    상기 데이터베이스에 대해 저장된 상이한 데이터 페이지에 링크되는 하나 이상의 추가적인 리두 로그 레코드를 유지하는 단계; 및
    상기 상이한 데이터 페이지에 링크되는 상기 하나 이상의 추가적인 리두 로그 레코드가 상기 병합 임계치와 상이한, 다른 병합 임계치를 초과한다는 것을 결정하는 단계를 더 포함하는, 방법.
  10. 청구항 5에 있어서, 상기 하나 이상의 컴퓨팅 디바이스는 분산 저장 서비스를 구현하는 복수의 저장 노드 중 저장 노드를 함께 구현하고, 상기 하나 이상의 리두 로그 레코드는 상기 복수의 저장 노드에 걸쳐 상기 데이터베이스에 대해 저장된 상기 특정한 데이터 페이지를 포함하는 복수의 데이터 페이지 중 하나에 각각 링크되는 복수의 리두 로그 레코드에 포함되며, 상기 복수의 리두 로그 레코드는 데이터베이스 시스템으로부터 수신되는, 방법.
  11. 청구항 10에 있어서, 상기 복수의 저장 노드 중 하나 이상의 다른 저장 노드는 상기 하나 이상의 다른 저장 노드에 저장된 상기 복수의 데이터 페이지 중 상이한 데이터 페이지들에 대해 상기 유지하는 단계, 상기 검출하는 단계, 및 상기 적용하는 단계를 수행하는, 방법.
  12. 청구항 7에 있어서, 상기 검출하는 단계 및 상기 적용하는 단계는 상기 하나 이상의 다른 저장 노드에 저장된 데이터 페이지들 중 상기 상이한 데이터 페이지들에 대해 상이한 시간들에 수행되는, 방법.
  13. 청구항 5에 있어서, 상기 하나 이상의 컴퓨팅 디바이스는 분산 저장 서비스를 구현하는 복수의 저장 노드 중 저장 노드를 함께 구현하고,
    상기 특정한 데이터 페이지에 대한 상기 병합 이벤트를 검출하는 것에 응답하여:
    그것의 현재 상태에서의 상기 특정한 데이터 페이지를 생성하기 위해 상기 특정한 데이터 페이지의 이전에 저장된 버전에 상기 특정한 데이터 페이지에 링크되는 상기 하나 이상의 리두 로그 레코드를 적용하기 이전에, 적어도 부분적으로, 상기 저장 노드에 의해 수행되는 다른 프로세스들의 작업량에 기초하여 상기 하나 이상의 리두 로그 레코드를 상기 적용하는 것의 시작을 지연하는 단계를 더 포함하는, 방법.
  14. 시스템으로서:
    하나 이상의 프로세서; 및
    프로그램 명령들을 저장하는 하나 이상의 메모리를 포함하고, 상기 프로그램 명령들은 하나 이상의 프로세서에 의해 실행될 때:
    데이터베이스에 대해 저장된 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 유지하는 것;
    상기 특정한 데이터 페이지에 링크되는 상기 하나 이상의 리두 로그 레코드가 병합 임계치를 초과한다는 것을 결정하는 것; 및
    그것의 현재 상태에서의 상기 특정한 데이터 페이지를 생성하기 위해 상기 특정한 데이터 페이지의 이전에 저장된 버전에 상기 특정한 데이터 페이지에 링크되는 상기 하나 이상의 리두 로그 레코드를 적용하는 것을 구현하는, 시스템.
  15. 청구항 14에 있어서, 상기 프로그램 명령들은 상기 하나 이상의 프로세서에 의해 실행될 때: 그것의 현재 상태에서의 상기 특정한 데이터 페이지를 생성하기 위해 상기 특정한 데이터 페이지의 상기 이전에 저장된 버전에 상기 특정한 데이터 페이지에 링크되는 상기 하나 이상의 리두 로그 레코드를 적용하는 것에 응답하여, 상기 리두 로그 레코드 카운트로부터 상기 특정한 데이터 페이지에 링크되는 하나 이상의 리두 로그 레코드를 제거하기 위해 상기 특정한 데이터 페이지에 대한 상기 리두 로그 레코드 카운트를 업데이트하도록 더 구성되는, 시스템.
KR1020157029050A 2013-03-15 2014-03-13 분산 데이터 시스템들을 위한 전 시스템에 미치는 체크포인트 회피 KR101771246B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361799632P 2013-03-15 2013-03-15
US61/799,632 2013-03-15
US14/201,517 US9672237B2 (en) 2013-03-15 2014-03-07 System-wide checkpoint avoidance for distributed database systems
US14/201,517 2014-03-07
PCT/US2014/025311 WO2014151260A1 (en) 2013-03-15 2014-03-13 System-wide checkpoint avoidance for distributed database systems

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020177023182A Division KR101827239B1 (ko) 2013-03-15 2014-03-13 분산 데이터 시스템들을 위한 전 시스템에 미치는 체크포인트 회피

Publications (2)

Publication Number Publication Date
KR20150129839A true KR20150129839A (ko) 2015-11-20
KR101771246B1 KR101771246B1 (ko) 2017-08-24

Family

ID=51532997

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020177023182A KR101827239B1 (ko) 2013-03-15 2014-03-13 분산 데이터 시스템들을 위한 전 시스템에 미치는 체크포인트 회피
KR1020157029050A KR101771246B1 (ko) 2013-03-15 2014-03-13 분산 데이터 시스템들을 위한 전 시스템에 미치는 체크포인트 회피

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020177023182A KR101827239B1 (ko) 2013-03-15 2014-03-13 분산 데이터 시스템들을 위한 전 시스템에 미치는 체크포인트 회피

Country Status (8)

Country Link
US (2) US9672237B2 (ko)
EP (2) EP3588322B1 (ko)
JP (2) JP6196368B2 (ko)
KR (2) KR101827239B1 (ko)
CN (2) CN105210062B (ko)
AU (3) AU2014235185B2 (ko)
CA (2) CA3080525C (ko)
WO (1) WO2014151260A1 (ko)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8671265B2 (en) 2010-03-05 2014-03-11 Solidfire, Inc. Distributed data storage system providing de-duplication of data using block identifiers
US9838269B2 (en) 2011-12-27 2017-12-05 Netapp, Inc. Proportional quality of service based on client usage and system metrics
US9054992B2 (en) 2011-12-27 2015-06-09 Solidfire, Inc. Quality of service policy sets
US9672237B2 (en) 2013-03-15 2017-06-06 Amazon Technologies, Inc. System-wide checkpoint avoidance for distributed database systems
US9152330B2 (en) * 2014-01-09 2015-10-06 Netapp, Inc. NVRAM data organization using self-describing entities for predictable recovery after power-loss
US20150244795A1 (en) 2014-02-21 2015-08-27 Solidfire, Inc. Data syncing in a distributed system
JP2015225603A (ja) * 2014-05-29 2015-12-14 富士通株式会社 ストレージ制御装置、ストレージ制御方法およびストレージ制御プログラム
US10082980B1 (en) * 2014-06-20 2018-09-25 EMC IP Holding Company LLC Migration of snapshot in replication system using a log
US9798728B2 (en) 2014-07-24 2017-10-24 Netapp, Inc. System performing data deduplication using a dense tree data structure
US9671960B2 (en) 2014-09-12 2017-06-06 Netapp, Inc. Rate matching technique for balancing segment cleaning and I/O workload
US10133511B2 (en) 2014-09-12 2018-11-20 Netapp, Inc Optimized segment cleaning technique
US9558078B2 (en) 2014-10-28 2017-01-31 Microsoft Technology Licensing, Llc Point in time database restore from storage snapshots
US9870386B1 (en) * 2014-10-31 2018-01-16 Amazon Technologies, Inc. Reducing I/O operations for on-demand demand data page generation
US9836229B2 (en) 2014-11-18 2017-12-05 Netapp, Inc. N-way merge technique for updating volume metadata in a storage I/O stack
JP5916974B1 (ja) * 2014-11-19 2016-05-11 株式会社インフォメックス データ検索装置、プログラム、及び記録媒体
US9292332B1 (en) 2014-12-11 2016-03-22 Amazon Technologies, Inc. Live updates for virtual machine monitor
CN105760398A (zh) * 2014-12-18 2016-07-13 中兴通讯股份有限公司 一种日志记录系统及日志记录操作方法
US9535798B1 (en) * 2014-12-19 2017-01-03 Amazon Technologies, Inc. Systems and methods for maintaining virtual component checkpoints on an offload device
US9720601B2 (en) 2015-02-11 2017-08-01 Netapp, Inc. Load balancing technique for a storage array
US9762460B2 (en) 2015-03-24 2017-09-12 Netapp, Inc. Providing continuous context for operational information of a storage system
US9710317B2 (en) 2015-03-30 2017-07-18 Netapp, Inc. Methods to identify, handle and recover from suspect SSDS in a clustered flash array
US9740566B2 (en) 2015-07-31 2017-08-22 Netapp, Inc. Snapshot creation workflow
US10025947B1 (en) * 2015-11-30 2018-07-17 Ims Health Incorporated System and method to produce a virtually trusted database record
US10649976B1 (en) * 2015-12-18 2020-05-12 Amazon Technologies, Inc. Using a global sequence number for replicating mutating data
KR101758558B1 (ko) * 2016-03-29 2017-07-26 엘에스산전 주식회사 에너지 관리 서버 및 그를 갖는 에너지 관리 시스템
US10929022B2 (en) 2016-04-25 2021-02-23 Netapp. Inc. Space savings reporting for storage system supporting snapshot and clones
US10642763B2 (en) 2016-09-20 2020-05-05 Netapp, Inc. Quality of service policy sets
US9852202B1 (en) * 2016-09-23 2017-12-26 International Business Machines Corporation Bandwidth-reduced coherency communication
CN108269049B (zh) * 2016-12-30 2021-01-12 广东精点数据科技股份有限公司 一种状态转移对象的数据检测方法及装置
US11074267B2 (en) * 2017-03-20 2021-07-27 Sap Se Staged approach to automatic data discovery and performance
US10909143B1 (en) * 2017-04-14 2021-02-02 Amazon Technologies, Inc. Shared pages for database copies
US10769035B2 (en) 2017-04-28 2020-09-08 International Business Machines Corporation Key-value index recovery by log feed caching
US10268502B2 (en) * 2017-06-29 2019-04-23 Intel Corporation Methods and apparatus to perform atomic transactions in nonvolatile memory under hardware transactional memory
CN109542329B (zh) * 2017-09-21 2022-04-12 阿里云计算有限公司 日志写入方法、存储管理设备及系统
US11556520B2 (en) 2017-11-13 2023-01-17 Lendingclub Corporation Techniques for automatically addressing anomalous behavior
US11354301B2 (en) 2017-11-13 2022-06-07 LendingClub Bank, National Association Multi-system operation audit log
US10579240B2 (en) * 2018-02-09 2020-03-03 Picmonkey, Llc Live-rendered and forkable graphic edit trails
US11593496B2 (en) * 2018-04-23 2023-02-28 EMC IP Holding Company LLC Decentralized data protection system for multi-cloud computing environment
CN109189608B (zh) * 2018-08-13 2019-07-26 武汉达梦数据库有限公司 一种保证复制事务一致性的方法以及相应的复制装置
US10728255B2 (en) * 2018-09-24 2020-07-28 Nutanix, Inc. System and method for protection of entities across availability zones
US10949548B2 (en) * 2018-10-18 2021-03-16 Verizon Patent And Licensing Inc. Systems and methods for providing multi-node resiliency for blockchain peers
CN109271453B (zh) * 2018-10-22 2021-08-27 创新先进技术有限公司 一种数据库容量的确定方法和装置
US10628242B1 (en) 2018-12-24 2020-04-21 Lendingclub Corporation Message stream processor microbatching
US11061927B2 (en) * 2019-04-03 2021-07-13 Sap Se Optimization of relocated queries in federated databases using cross database table replicas
US11170029B2 (en) 2019-05-31 2021-11-09 Lendingclub Corporation Multi-user cross-device tracking
CN110502494B (zh) * 2019-08-30 2022-03-18 北京思维造物信息科技股份有限公司 日志处理方法、装置、计算机设备及存储介质
CN110968463B (zh) * 2019-12-19 2022-08-30 北京五八信息技术有限公司 一种确定群组中各数据节点类型的方法及装置
CN113010480B (zh) * 2020-03-26 2024-03-19 腾讯科技(深圳)有限公司 日志处理方法、装置、电子设备及计算机可读存储介质
US11625370B2 (en) 2020-04-07 2023-04-11 Vmware, Inc. Techniques for reducing data log recovery time and metadata write amplification
US11334276B2 (en) * 2020-04-07 2022-05-17 Vmware Inc. Using segment pre-allocation to support large segments
US11334277B2 (en) * 2020-04-07 2022-05-17 Vmware Inc. Issuing efficient writes to erasure coded objects in a distributed storage system with two tiers of storage
US11467746B2 (en) 2020-04-07 2022-10-11 Vmware, Inc. Issuing efficient writes to erasure coded objects in a distributed storage system via adaptive logging
CN111913913B (zh) * 2020-08-07 2024-02-13 北京星辰天合科技股份有限公司 访问请求的处理方法和装置
US11593229B2 (en) * 2020-09-23 2023-02-28 Netapp, Inc. Data protection methods and systems for a networked storage environment
US11474719B1 (en) * 2021-05-13 2022-10-18 Vmware, Inc. Combining the metadata and data address spaces of a distributed storage object via a composite object configuration tree

Family Cites Families (115)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0373037A (ja) * 1989-05-26 1991-03-28 Hitachi Ltd データベース障害回復方法
JPH03130842A (ja) 1989-10-17 1991-06-04 Toshiba Corp データベースシステムの同時実行制御装置
DE69126066T2 (de) 1990-06-29 1997-09-25 Oracle Corp Verfahren und Gerät zur Optimierung des Logbuchaufhebungsgebrauchs
JPH0827755B2 (ja) * 1991-02-15 1996-03-21 インターナショナル・ビジネス・マシーンズ・コーポレイション データの単位を高速度でアクセスする方法
US5280612A (en) 1991-11-26 1994-01-18 International Business Machines Corporation Multiple version database concurrency control system
US5452445A (en) 1992-04-30 1995-09-19 Oracle Corporation Two-pass multi-version read consistency
US5455944A (en) * 1993-03-16 1995-10-03 International Business Machines Corporation Method for managing logging and locking of page free space information in a transaction processing system
US5530850A (en) 1993-10-25 1996-06-25 International Business Machines Corporation Data storage library array with log-structured file system which allows simultaneous write and garbage collection
EP0675451A3 (en) 1994-03-30 1996-12-04 Siemens Stromberg Carlson Distributed database architecture and system for managing a distributed database for development in an open network.
US5574902A (en) * 1994-05-02 1996-11-12 International Business Machines Corporation Efficient destaging of updated local cache pages for a transaction in a multisystem and multiprocess database management system with a high-speed shared electronic store
JP3593366B2 (ja) 1994-09-19 2004-11-24 株式会社日立製作所 デ−タベ−ス管理方法
US5692184A (en) * 1995-05-09 1997-11-25 Intergraph Corporation Object relationship management system
US5870758A (en) 1996-03-11 1999-02-09 Oracle Corporation Method and apparatus for providing isolation levels in a database system
US6041423A (en) 1996-11-08 2000-03-21 Oracle Corporation Method and apparatus for using undo/redo logging to perform asynchronous updates of parity and data pages in a redundant array data storage environment
US5845292A (en) * 1996-12-16 1998-12-01 Lucent Technologies Inc. System and method for restoring a distributed checkpointed database
US5907848A (en) 1997-03-14 1999-05-25 Lakeview Technology, Inc. Method and system for defining transactions from a database log
US7031987B2 (en) 1997-05-30 2006-04-18 Oracle International Corporation Integrating tablespaces with different block sizes
US6240413B1 (en) 1997-12-22 2001-05-29 Sun Microsystems, Inc. Fine-grained consistency mechanism for optimistic concurrency control using lock groups
US7930278B2 (en) 1998-02-13 2011-04-19 Oracle International Corporation Methods to perform disk writes in a distributed shared disk system needing consistency across failures
US6233585B1 (en) 1998-03-12 2001-05-15 Crossworlds Software, Inc. Isolation levels and compensating transactions in an information system
US6317754B1 (en) 1998-07-03 2001-11-13 Mitsubishi Electric Research Laboratories, Inc System for user control of version /Synchronization in mobile computing
JP3450786B2 (ja) 1999-03-05 2003-09-29 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド 異なるデータファイルを調停する方法
JP3763992B2 (ja) 1999-03-30 2006-04-05 富士通株式会社 データ処理装置及び記録媒体
US6615219B1 (en) 1999-12-29 2003-09-02 Unisys Corporation Database management system and method for databases having large objects
US6856993B1 (en) * 2000-03-30 2005-02-15 Microsoft Corporation Transactional file system
US6631374B1 (en) 2000-09-29 2003-10-07 Oracle Corp. System and method for providing fine-grained temporal database access
EP1332444A4 (en) 2000-10-09 2005-10-12 Maximum Availability Ltd METHOD AND APPARATUS FOR PROCESSING DATA
US20020107835A1 (en) 2001-02-08 2002-08-08 Coram Michael T. System and method for adaptive result set caching
US6832229B2 (en) 2001-03-09 2004-12-14 Oracle International Corporation System and method for maintaining large-grained database concurrency with a log monitor incorporating dynamically redefinable business logic
WO2003001382A1 (en) 2001-06-25 2003-01-03 Nokia Corporation Method and system for restarting a replica of a database
WO2003009139A1 (en) 2001-07-16 2003-01-30 Transact In Memory, Inc. Parallelized redo-only logging and recovery for highly available main memory database systems
US7305421B2 (en) * 2001-07-16 2007-12-04 Sap Ag Parallelized redo-only logging and recovery for highly available main memory database systems
US7136883B2 (en) * 2001-09-08 2006-11-14 Siemens Medial Solutions Health Services Corporation System for managing object storage and retrieval in partitioned storage media
US6732171B2 (en) 2002-05-31 2004-05-04 Lefthand Networks, Inc. Distributed network storage system with virtualization
US7305386B2 (en) 2002-09-13 2007-12-04 Netezza Corporation Controlling visibility in multi-version database systems
US7089253B2 (en) 2002-09-13 2006-08-08 Netezza Corporation Computer method and system for concurrency control using dynamic serialization ordering
US6976022B2 (en) 2002-09-16 2005-12-13 Oracle International Corporation Method and mechanism for batch processing transaction logging records
US8489742B2 (en) 2002-10-10 2013-07-16 Convergys Information Management Group, Inc. System and method for work management
US7308456B2 (en) 2002-12-19 2007-12-11 International Business Machines Corporation Method and apparatus for building one or more indexes on data concurrent with manipulation of data
US7010645B2 (en) 2002-12-27 2006-03-07 International Business Machines Corporation System and method for sequentially staging received data to a write cache in advance of storing the received data
US7937551B2 (en) 2003-01-21 2011-05-03 Dell Products L.P. Storage systems having differentiated storage pools
CA2422176C (en) * 2003-03-14 2009-07-21 Ibm Canada Limited - Ibm Canada Limitee Method and apparatus for interrupting updates to a database to provide read-only access
US7890466B2 (en) * 2003-04-16 2011-02-15 Oracle International Corporation Techniques for increasing the usefulness of transaction logs
US7039773B2 (en) 2003-04-29 2006-05-02 Oracle International Corporation Method and mechanism for efficient implementation of ordered records
US7287034B2 (en) 2003-05-08 2007-10-23 Oracle International Corporation On-demand multi-version data dictionary to support distributed applications
US7328226B1 (en) 2003-06-30 2008-02-05 Symantec Operating Corporation Coordinated distributed log-based snapshots in a multi-host environment
US20050203783A1 (en) * 2004-02-27 2005-09-15 Allen Michelle M. Automated real-time event planning system and method
JP2005276094A (ja) 2004-03-26 2005-10-06 Hitachi Ltd 分散ストレージ装置のファイル管理方法及び分散ストレージシステム並びにプログラム
US7146386B2 (en) 2004-03-29 2006-12-05 Microsoft Corporation System and method for a snapshot query during database recovery
US20060020634A1 (en) 2004-07-20 2006-01-26 International Business Machines Corporation Method, system and program for recording changes made to a database
US7650356B2 (en) 2004-08-24 2010-01-19 Microsoft Corporation Generating an optimized restore plan
US7403945B2 (en) 2004-11-01 2008-07-22 Sybase, Inc. Distributed database system providing data and space management methodology
US20060136933A1 (en) * 2004-12-17 2006-06-22 Microsoft Corporation Server-side eventing for managed server applications
US7814057B2 (en) 2005-04-05 2010-10-12 Microsoft Corporation Page recovery using volume snapshots and logs
US7716645B2 (en) 2005-06-10 2010-05-11 International Business Machines Corporation Using atomic sets of memory locations
US7620660B2 (en) * 2005-06-30 2009-11-17 Microsoft Corporation Pre-image logging for database recovery
US7873683B2 (en) 2005-07-01 2011-01-18 Qnx Software Systems Gmbh & Co. Kg File system having transaction record coalescing
US20070083570A1 (en) 2005-10-11 2007-04-12 Fineberg Samuel A File system versioning using a log
CA2933790C (en) 2005-10-28 2019-04-30 Oracle International Corporation Apparatus and method for creating a real time database replica
AU2006331932B2 (en) 2005-12-19 2012-09-06 Commvault Systems, Inc. Systems and methods for performing data replication
JP2007200182A (ja) 2006-01-30 2007-08-09 Hitachi Ltd ストレージ装置、及びストレージシステム
JP5124989B2 (ja) 2006-05-26 2013-01-23 日本電気株式会社 ストレージシステム及びデータ保護方法とプログラム
JP2008003932A (ja) 2006-06-23 2008-01-10 Sony Corp データ記憶装置、データ記憶方法およびコンピュータプログラム
US7882064B2 (en) 2006-07-06 2011-02-01 Emc Corporation File system replication
US8069191B2 (en) 2006-07-13 2011-11-29 International Business Machines Corporation Method, an apparatus and a system for managing a snapshot storage pool
US8935206B2 (en) 2007-01-31 2015-01-13 Hewlett-Packard Development Company, L.P. Snapshots in distributed storage systems
US8370715B2 (en) 2007-04-12 2013-02-05 International Business Machines Corporation Error checking addressable blocks in storage
US8086650B1 (en) 2007-06-15 2011-12-27 Ipswitch, Inc. Method for transforming and consolidating fields in log records from logs generated on different operating systems
US8326897B2 (en) 2007-12-19 2012-12-04 International Business Machines Corporation Apparatus and method for managing data storage
US7979670B2 (en) 2008-01-24 2011-07-12 Quantum Corporation Methods and systems for vectored data de-duplication
EP2263145B1 (en) 2008-02-12 2020-02-05 NetApp, Inc. Hybrid media storage system architecture
US8401994B2 (en) 2009-09-18 2013-03-19 Oracle International Corporation Distributed consistent grid of in-memory database caches
US7747663B2 (en) 2008-03-05 2010-06-29 Nec Laboratories America, Inc. System and method for content addressable storage
US8229945B2 (en) 2008-03-20 2012-07-24 Schooner Information Technology, Inc. Scalable database management software on a cluster of nodes using a shared-distributed flash memory
US8074014B2 (en) 2008-03-31 2011-12-06 Microsoft Corporation Storage systems using write off-loading
US8266114B2 (en) 2008-09-22 2012-09-11 Riverbed Technology, Inc. Log structured content addressable deduplicating storage
US8341128B1 (en) 2008-05-09 2012-12-25 Workday, Inc. Concurrency control using an effective change stack and tenant-based isolation
US9104662B2 (en) 2008-08-08 2015-08-11 Oracle International Corporation Method and system for implementing parallel transformations of records
US9842004B2 (en) 2008-08-22 2017-12-12 Red Hat, Inc. Adjusting resource usage for cloud-based networks
WO2010030996A1 (en) * 2008-09-15 2010-03-18 Virsto Software Storage management system for virtual machines
US8255373B2 (en) 2008-10-24 2012-08-28 Microsoft Corporation Atomic multiple modification of data in a distributed storage system
US8229890B2 (en) 2008-12-15 2012-07-24 International Business Machines Corporation Opening document stored at multiple database replicas
US8429134B2 (en) 2009-09-08 2013-04-23 Oracle International Corporation Distributed database recovery
WO2011031899A2 (en) 2009-09-09 2011-03-17 Fusion-Io, Inc. Apparatus, system, and method for power reduction in a storage device
US8595191B2 (en) 2009-12-31 2013-11-26 Commvault Systems, Inc. Systems and methods for performing data management operations using snapshots
US8392479B1 (en) 2009-09-14 2013-03-05 Symantec Corporation Method and apparatus for optimizing storage space allocation for computer data
US8255627B2 (en) 2009-10-10 2012-08-28 International Business Machines Corporation Secondary cache for write accumulation and coalescing
US8250213B2 (en) 2009-11-16 2012-08-21 At&T Intellectual Property I, L.P. Methods and apparatus to allocate resources associated with a distributive computing network
CN101706811B (zh) * 2009-11-24 2012-01-25 中国科学院软件研究所 一种分布式数据库系统事务提交方法
US8396831B2 (en) 2009-12-18 2013-03-12 Microsoft Corporation Optimistic serializable snapshot isolation
US20110161496A1 (en) 2009-12-28 2011-06-30 Nicklin Jonathan C Implementation and management of internet accessible services using dynamically provisioned resources
US8671074B2 (en) 2010-04-12 2014-03-11 Microsoft Corporation Logical replication in clustered database system with adaptive cloning
JP5536568B2 (ja) 2010-07-01 2014-07-02 インターナショナル・ビジネス・マシーンズ・コーポレーション トランザクションを集約して処理する方法、システム、およびプログラム
US8412689B2 (en) 2010-07-07 2013-04-02 Microsoft Corporation Shared log-structured multi-version transactional datastore with metadata to enable melding trees
US20120041899A1 (en) 2010-08-10 2012-02-16 Palo Alto Research Center Incorporated Data center customer cost determination mechanisms
US10430298B2 (en) * 2010-10-28 2019-10-01 Microsoft Technology Licensing, Llc Versatile in-memory database recovery using logical log records
CN102012849B (zh) * 2010-11-19 2012-10-24 中国人民大学 一种基于闪存的数据库恢复方法
US8910172B2 (en) 2010-12-29 2014-12-09 Symantec Corporation Application resource switchover systems and methods
KR20120084906A (ko) * 2011-01-21 2012-07-31 에스케이하이닉스 주식회사 비휘발성 메모리 시스템 및 그 관리 방법
JP5672491B2 (ja) * 2011-03-29 2015-02-18 ソニー株式会社 情報処理装置および方法、並びにログ収集システム
US8918362B2 (en) 2011-05-23 2014-12-23 Microsoft Corporation Replication processes in a distributed storage environment
US8543538B2 (en) 2011-06-01 2013-09-24 Clustrix, Inc. Systems and methods for redistributing data in a relational database
US9348883B2 (en) 2011-06-01 2016-05-24 Clustrix, Inc. Systems and methods for replication replay in a relational database
US8554726B2 (en) 2011-06-01 2013-10-08 Clustrix, Inc. Systems and methods for reslicing data in a relational database
US8868492B2 (en) 2011-06-15 2014-10-21 Oracle International Corporation Method for maximizing throughput and minimizing transactions response times on the primary system in the presence of a zero data loss standby replica
JP2013025425A (ja) 2011-07-19 2013-02-04 Nec Corp 分散データ管理システム、分散データ管理方法、および分散データ管理プログラム
EP2742428B1 (en) 2011-08-12 2016-01-06 Sandisk Enterprise IP LLC Cache management including solid state device virtualization
US8909996B2 (en) * 2011-08-12 2014-12-09 Oracle International Corporation Utilizing multiple storage devices to reduce write latency for database logging
US8712961B2 (en) 2011-09-23 2014-04-29 International Business Machines Corporation Database caching utilizing asynchronous log-based replication
US10042674B2 (en) 2011-09-30 2018-08-07 Teradata Us, Inc. Regulating capacity and managing services of computing environments and systems that include a database
US9542279B2 (en) * 2011-11-07 2017-01-10 Sap Se Shadow paging based log segment directory
US8527462B1 (en) * 2012-02-09 2013-09-03 Microsoft Corporation Database point-in-time restore and as-of query
US9507523B1 (en) * 2012-10-12 2016-11-29 Western Digital Technologies, Inc. Methods, devices and systems for variable size logical page management in a solid state drive
US9672237B2 (en) 2013-03-15 2017-06-06 Amazon Technologies, Inc. System-wide checkpoint avoidance for distributed database systems
US9870279B2 (en) * 2014-01-29 2018-01-16 Hitachi, Ltd. Analysis apparatus and analysis method

Also Published As

Publication number Publication date
EP3588322B1 (en) 2023-05-03
AU2017225108A1 (en) 2017-09-28
EP3588322A1 (en) 2020-01-01
CN110019280A (zh) 2019-07-16
AU2017225107A1 (en) 2017-09-28
AU2014235185A1 (en) 2015-11-05
EP2973055A1 (en) 2016-01-20
US9672237B2 (en) 2017-06-06
JP6538780B2 (ja) 2019-07-03
CN110019280B (zh) 2024-01-19
EP2973055A4 (en) 2016-10-26
US20140279931A1 (en) 2014-09-18
KR20170098981A (ko) 2017-08-30
AU2017225107B2 (en) 2018-09-13
JP2017216010A (ja) 2017-12-07
CA3080525A1 (en) 2014-09-25
WO2014151260A1 (en) 2014-09-25
CA2907086A1 (en) 2014-09-25
AU2017225108B2 (en) 2018-09-13
US20170270152A1 (en) 2017-09-21
KR101771246B1 (ko) 2017-08-24
CN105210062A (zh) 2015-12-30
JP6196368B2 (ja) 2017-09-13
JP2016511499A (ja) 2016-04-14
KR101827239B1 (ko) 2018-02-07
CA2907086C (en) 2020-07-21
US10331655B2 (en) 2019-06-25
CA3080525C (en) 2022-09-27
AU2014235185B2 (en) 2017-06-08
CN105210062B (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
KR101771246B1 (ko) 분산 데이터 시스템들을 위한 전 시스템에 미치는 체크포인트 회피
KR101914019B1 (ko) 분산 데이터베이스 시스템들을 위한 고속 장애 복구
KR101764897B1 (ko) 데이터베이스 엔진 및 개별 분산 저장 서비스를 갖는 데이터베이스 시스템
KR101754926B1 (ko) 로그 레코드 관리
KR101932372B1 (ko) 인 플레이스 스냅샷들
US10223184B1 (en) Individual write quorums for a log-structured distributed storage system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant