KR20110079655A - 분산형 저장 시스템 내의 데이터의 원자 다중 변경 - Google Patents

분산형 저장 시스템 내의 데이터의 원자 다중 변경 Download PDF

Info

Publication number
KR20110079655A
KR20110079655A KR1020117008649A KR20117008649A KR20110079655A KR 20110079655 A KR20110079655 A KR 20110079655A KR 1020117008649 A KR1020117008649 A KR 1020117008649A KR 20117008649 A KR20117008649 A KR 20117008649A KR 20110079655 A KR20110079655 A KR 20110079655A
Authority
KR
South Korea
Prior art keywords
stream
streams
changes
readable media
selected streams
Prior art date
Application number
KR1020117008649A
Other languages
English (en)
Other versions
KR101573965B1 (ko
Inventor
사무엘 제임스 맥켈비
브래들리 젠 캘더
주 왕
신란 우
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20110079655A publication Critical patent/KR20110079655A/ko
Application granted granted Critical
Publication of KR101573965B1 publication Critical patent/KR101573965B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • G06F9/526Mutual exclusion algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

스트림들의 원자 다중 변경들이 제공된다. 원자 다중 변경의 적용을 위해 스트림들이 선택된다. 스트림들과 관련된 메타데이터에 대해 록이 취득된다. 각각의 스트림이 그의 이름으로부터 분리된다. 선택된 스트림들에 대해 다수의 변경이 적용된다. 변경들을 수행한 후, 이름들이 스트림들에 결합된다. 각각의 스트림과 관련된 메타데이터에 대한 록이 해제된다.

Description

분산형 저장 시스템 내의 데이터의 원자 다중 변경{ATOMIC MULTIPLE MODIFICATION OF DATA IN A DISTRIBUTED STORAGE SYSTEM}
서버 팜(server farm), 웹 서비스 및 분산형 네트워크 접속 저장 시스템을 포함하는 분산형 시스템들은 점점 더 보편화되어, 많은 양의 연산 및 저장 자원들을 제공해왔다. 분산형 저장 시스템들은 잠재적 광역 네트워크 전반에서 다수의 노드에 걸쳐 저장 공간을 이용한다. 분산형 저장 시스템 내의 노드들 상에 저장된 데이터에 액세스하기 위한 데이터 액세스 루틴들은 동시 액세스를 필요로 하는 다수의 클라이언트 세션을 관리해야 한다. 그러나, 데이터의 일관된 뷰를 유지하기 위하여, 변경 액세스는 한 번에 하나의 호스트로 제한되어야 한다. 게다가, 다수의 변경을 수행하는 클라이언트 세션은 다수의 변경의 적용을 통해 데이터 일관성을 유지해야 한다.
본 발명의 실시예들은 본 요약이 아니라, 아래의 청구항들에 의해 정의된다. 본 발명의 다양한 양태의 고레벨 개요는 그러한 이유로, 본 발명의 개요를 제공하기 위해 그리고 아래의 상세한 설명 부분에서 더 설명되는 개념들의 발췌를 소개하기 위해 본 명세서에 제공된다. 본 요약은 청구 발명의 중요한 특징들 또는 본질적인 특징들을 식별하는 것을 의도하지도 않고, 청구 발명의 범위를 결정하기 위한 고립된 보조물로서 사용되는 것도 의도하지 않는다.
본 발명의 실시예들은 하나 이상의 스트림에 대한 다수의 변경을 원자 다중 변경이라고 하는 단일 원자 단위로서 수행하는 것과 관련된다. 일부 실시예들에서는, 다수의 변경 중 하나가 성공적이지 못한 경우(예컨대, 전제 조건이 충족되지 않은 경우), 성공적으로 적용된 변경들이 취소되어, 스트림들이 원자 다중 변경의 시작 전의 그들의 본래 상태로 복귀된다.
본 발명의 예시적인 구현들이 첨부된 도면들과 관련하여 아래에 더 상세히 설명된다. 도면에서:
도 1은 본 발명을 구현하는 데 사용하기에 적합한 예시적인 네트워크 환경의 개략도이다.
도 2는 본 발명을 구현하는 데 사용하기에 적합한 예시적인 컴퓨팅 환경의 블록도이다.
도 3은 본 발명의 일 실시예에 따른 예시적인 스트림의 블록도이다.
도 4는 본 발명의 일 실시예에 따른 예시적인 메타데이터 블록의 블록도이다.
도 5는 본 발명의 일 실시예에 따른 예시적인 다중 변경의 블록도이다.
도 6은 본 발명의 일 실시예에 따라, 하나 이상의 스트림에 대한 다수의 변경을 단일 원자 단위로서 수행하기 위한 방법을 나타내는 흐름도이다.
도 7은 본 발명의 일 실시예에 따라, 하나 이상의 선택된 스트림에서 제2 변경이 실패한 것으로 결정되는 경우에 성공적인 변경을 취소하기 위한 방법을 나타내는 흐름도이다.
도 8은 본 발명의 일 실시예에 따라, 다수의 변경 중 하나가 모순을 유발하거나 실패할지를 결정하는 것을 포함하여, 하나 이상의 스트림에 대한 다수의 변경을 단일 원자 단위로서 수행하기 위한 방법을 나타내는 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 다중 변경의 일례를 나타내는 도면이다.
본 발명의 내용은 법정 요건을 충족시키기 위해 본 명세서에서 구체적으로 설명된다. 그러나, 본 설명 자체는 본 특허의 범위를 제한하는 것을 의도하지 않는다. 오히려, 본 발명자들은 청구 발명이 다른 현재 또는 미래의 기술들과 관련하여 본 명세서에서 설명되는 것들과 다른 단계들 또는 유사한 단계들의 조합들을 포함하도록 다른 방식들로 구현될 수도 있다는 것을 고려하였다. 더욱이, 본 명세서에서 "단계" 및/또는 "블록"이라는 용어들이 이용되는 방법들의 상이한 요소들을 의미하기 위해 사용될 수 있지만, 이러한 용어들은 개별 단계들의 순서가 명시적으로 설명되지 않는 한 그리고 명시적으로 설명될 때를 제외하고는 본 명세서에 개시되는 다양한 단계들 간의 임의의 특정 순서를 의미하는 것으로 해석되지 않아야 한다.
본 발명의 실시예들은 저장 노드들의 네트워크에 걸쳐 분산 방식으로 저장된 데이터의 다수의 변경을 행하는 것과 관련된다. 대형 네트워크 전반에 분산된 다수의 노드로 구성된 네트워크에서, 데이터의 각각의 단위가 복수의 클라이언트 세션에 의해 잠재적으로 동시에 액세스될 수 있다. 더욱이, 네트워크에 걸쳐 상이한 데이터 부분들에 대해 일관성이 유지되어야 한다. 데이터에 액세스하는 모든 클라이언트 세션들에 걸쳐 데이터의 일관된 뷰가 유지되게 하기 위해, 데이터의 변경이 조정되어야 한다. 데이터의 변경에 대한 조정이 없는 경우, 2개의 클라이언트 세션이 2개의 데이터 부분을 모순된 방식으로 변경하여 예측 불가능한 결과들을 유발할 수 있다. 더욱이, 다수의 상호 의존적인 변경의 원자 적용이 없는 경우, 변경 클라이언트 세션의 실패가 데이터를 모순된 상태로 남기거나, 제2 클라이언트 세션이 중간 모순 상태를 나타내는 데이터를 판독할 수 있다.
이러한 유형의 모순들을 방지하기 위하여, 원시 함수 연산들이 데이터의 변경을 조정하는 데에 필요하다. 특히, 개별 변경들의 독립적인 적용이 일시적인 모순 상태를 유발할 때, 하나 또는 다수의 데이터 부분에 대한 다수의 상호 의존적인 변경을 원자 트랜잭션으로서 적용하여, 분산 네트워크 내의 다른 클라이언트 세션들로부터의 데이터의 뷰에서의 모순들을 방지하기 위한 능력을 갖추는 것이 바람직하다. 더욱이, 다수의 변경 중 하나 이상이 성공적으로 적용될 수 없는 경우에 다수의 변경의 전체 세트를 취소하여, 부분적으로 성공한 트랜잭션으로부터 발생하는 데이터의 뷰의 모순들을 방지할 수 있는 것도 바람직하다. 게다가, 특정 변경이 성공적으로 적용될 수 있기 전에 충족되어야 하는 하나 이상의 예상되는 전제 조건을 지정하여, 클라이언트 세션들이 분산된 록들(locks)을 사용할 필요 없이 "최적" 방식으로 독립적인, 잠재적으로 충돌하는 트랜잭션들의 적용을 조정할 수 있게 할 수 있는 것이 바람직하다.
예를 들어, 클라이언트 세션 X 및 클라이언트 세션 Y 양자는, 그들이 데이터 A의 값을 판독하고, 데이터 A의 이전 값 및 각각의 클라이언트 세션에 의해 결정되는 다른 외부 데이터(클라이언트 세션 X에 대한 데이터 Cx 및 클라이언트 세션 Y에 대한 데이터 Cy)에 기초하는 데이터 A 및 데이터 B에 대한 새로운 값들을 계산할 것을 요구하는 알고리즘을 실행하고 있다. 이어서, A 및 B의 새로운 값들은 원자 연산으로서 기록될 수 있다. 그러나, 데이터 A의 값의 판독과 데이터 A 및 데이터 B의 새로운 값들의 기록 사이에는 록이 유지되지 않으므로, 클라이언트 세션 X 및 클라이언트 세션 Y 양자가 데이터 A를 동시에 판독하고, 이어서 데이터 A 및 데이터 B에 대한 새로운 값들을 독립적으로 계산하는 것이 가능하다. 클라이언트 세션 X가 먼저, 이어서 클라이언트 세션 Y가 원자 변경 트랜잭션을 이용하여 데이터 A 및 데이터 B에 대한 그들 각각의 새로운 값들을 기록하려고 시도하고, 모두가 성공할 것이다. 그러나, 클라이언트 세션 X에 의해 적용되는 변경의 효과는 클라이언트 세션 Y에 의해 적용되는 변경에 의해 사실상 취소되어, 외부 데이터와 관련하여 잠재적인 모순이 발생한다. 이러한 일이 발생하는 것을 방지하기 위하여, 많은 전통적인 네트워크 기반 파일 시스템들은 클라이언트 세션들이 데이터 A 및 데이터 B의 기록을 통해 데이터 A의 판독에 걸쳐 분산 록을 청구하여, 클라이언트 세션 X가 데이터 A 및 데이터 B의 갱신을 완료할 때까지 클라이언트 세션 Y가 데이터 A의 값을 판독하지 못할 것을 요구할 것이다. 그러나, 분산 록의 사용은 상당한 오버헤드를 유발하고, 분산 시스템을 더 취약하게 하며, 예를 들어 클라이언트 세션 X가 록의 해제에 실패하는 경우, 클라이언트 세션 Y는 진행이 무한히 방해될 수 있다. 본 발명은 클라이언트 세션 X 및 클라이언트 세션 Y가 이들이 데이터 A 및 데이터 B에 대한 새로운 값들을 기록하려고 시도할 때 충족되어야 하는 전제 조건들을 지정하게 함으로써 명시적 분산 록들에 대한 필요를 제거한다. 이 예에서, 클라이언트 세션 X 및 클라이언트 세션 Y 각각은 데이터 A 및 데이터 B가 교체될 수 있기 전에 데이터 A의 값이 판독된 이후에 변경되지 않았음이 참일 것을 요구한다. 데이터 A의 판독과 데이터 A 및 데이터 B의 기록 사이에 변경이 발생하지 않았으므로, 클라이언트 세션 Y는 그의 갱신에 성공할 것이다. 그러나, 클라이언트 세션 X는 데이터 A의 판독과 갱신의 시도 사이에 데이터 A의 값이 변경되었으므로 어떠한 데이터의 갱신에도 성공하지 못할 것이다. 클라이언트 세션 X는 연산을 포기하거나, 데이터 A를 다시 한 번 판독함으로써 전체 시퀀스를 다시 시작할 수 있다. 어느 경우에나, 모든 데이터는 내부적으로 그리고 외부 상태에서 일관되게 유지된다.
네트워크에 저장되는 특정 데이터는 많은 상이한 형태를 가질 수 있다. 일반적인 형태들은 파일들 및 유사한 파일들의 그룹들을 포함한다. 본 발명의 일부 실시예들에 따르면, 데이터는 스트림들 내에 조직화되고, 각각의 스트림은 다양한 스트림 메타데이터 특성들(예컨대, 스트림 이름, 액세스 제어 정책, 만기 등)은 물론, 익스텐트들(extents)에 대한 참조들의 정돈된 시퀀스로 구성되는 데이터 엔티티이다. 각각의 익스텐트는 첨부 블록들의 연속적인 정돈된 시퀀스로 구성된다. 각각의 첨부 블록은 변경할 수 없으며, 바이트 값들의 연속적인 정돈된 시퀀스로 구성된다. 새로운 익스텐트 참조들이 스트림의 끝에 첨부될 수 있지만, 첨부된 경우에 익스텐트 참조들은 스트림으로부터 삭제될 수 있다. 둘 이상의 스트림이 동일 익스텐트에 대한 참조들을 포함하거나, 단일 스트림이 동일 익스텐트에 대한 다수의 참조를 포함할 수도 있다. 새로운 첨부 블록들은 익스텐트가 봉인될 때까지 익스텐트에 첨부될 수 있으며, 익스텐트는 봉인 후에는 변경할 수 없게 된다. 익스텐트가 봉인되면, 익스텐트는 개봉될 수 없다. 첨부 블록들은 익스텐트가 봉인되는지의 여부에 관계없이 익스텐트로부터 변경 또는 제거되지 않을 수도 있다. 따라서, 스트림들 및 익스텐트들은 크기가 증가하기만 한다.
본 발명의 일 실시예에 따르면, 스트림들은 독립적인, 느슨하게 결합된 익스텐트 서버들의 대형 그룹 상에 익스텐트 데이터를 저장하고, 중앙 서버 또는 작은, 단단히 결합된 서버들의 그룹 상에 각각의 스트림을 설명하는 메타데이터를 저장함으로써 파일 시스템 내에 조직화된다. 익스텐트에 데이터를 첨부하기 위하여, 클라이언트 세션은 정확한 독립 익스텐트 서버와 상호작용하며, 결과적으로 익스텐트들에 대한 첨부는 고도로 스케일링 가능하지만, 상이한 익스텐트들에 대한 첨부들의 조정을 용이하게 하지는 않는다. 이와 달리, 모든 관련 스트림들에 대한 메타데이터가 중앙 서버 상에 유지되며, 따라서 스트림 메타데이터에 대한 갱신들의 효율적인 조정이 가능하다.
예를 들어, 각각의 스트림과 관련된 메타데이터는 현재의 스트림 이름, 전역 고유 식별자(GUID), 액세스 제어 정책, 만기, 및 스트림을 구성하는 익스텐트들에 대한 참조들의 정돈된 리스트와 같은 정보를 포함할 수 있다. 이러한 조직화의 한 가지 이점은 네트워크 내의 어떠한 데이터의 이동도 필요 없이 익스텐트 참조들이 하나의 스트림에서 다른 스트림으로 복사될 수 있다는 것이다. 대신에, 중앙 서버 상에 저장된 메타데이터에서 참조 리스트들만이 변경된다. 복사 작업들은 스트림 메타데이터에만 영향을 미치므로, 이들은 원자 다중 변경의 일부로서 효율적으로 포함될 수 있다. 본 발명의 다른 실시예들에서는, 메타데이터 자체가 네트워크 내의 다수의 노드 사이에 분산될 수 있다. 이 분야의 기술자들은 본 발명이 스트림들이 아닌 다른 데이터 포맷들에 적용될 수 있다는 것을 이해할 것이다.
일부 실시예들에 따르면, 본 발명은 다수의 스트림 전제 조건 제한들 및 변경 작업들을 작업들의 리스트로 배치(batch)화하고, 이들을 하나의 원자 다중 변경으로서 실행하는 능력을 제공한다. 작업들은 스트림 메타데이터 전제 조건 제한들, 스트림 생성, 스트림 삭제, 스트림 개명, 다른 스트림들로부터 기존 익스텐트 참조들의 복사, 및 만기, 판독 전용 플래그, 액세스 제어 정보 및 복사 정책과 같은 다양한 스트림 특성들의 설정을 포함한다. 또한, 본 발명의 일부 실시예들은 동일한 다중 변경 내의 다른 변경 작업들에 대한 참조들에 의해 크로스-스트림 작업들을 표현하는 능력을 제공한다. 예컨대, 다중 변경 내에는, 다중 변경에 의해 생성되는 스트림들에 적용되는 추가적인 작업들이 존재할 수 있다. 유사하게, 다중 변경 내에는, 다중 변경 작업들에 의해 삭제 또는 개명되는 스트림들에 적용되는 추가적인 작업들이 존재할 수 있다. 다중 변경에서의 각각의 개별 작업 레코드를 타겟 스트림 식별자와 연관시킴으로써, 그리고 크로스 스트림 작업에서의 소스 스트림들을, 수행되고 있는 다중 변경에서의 그들 각각의 레코드 인덱스들에 의해 참조함으로써, 다중 변경 동안에 식별자들이 생성되거나 이름들이 변경되는 스트림들이 다중 변경 중의 임의 시간에 참조될 수 있다. 예를 들어, 수행될 작업들의 리스트 내에 5개의 레코드가 존재하는 경우, 제3 작업이 새로운 스트림을 생성하는 것인 경우에, 다른 작업들 중 임의의 작업은 그 스트림을 작업 3에서의 스트림으로서 참조할 수 있다.
일 실시예에 따르면, 본 발명은 비변경 전제 조건 제한들을 다중 변경에서의 작업들로 표현하는 능력을 제공한다. 이러한 작업들 자체는 스트림들의 상태의 어떠한 변경도 유발하지 않지만, 이들은 전제 조건들이 충족되지 않는 경우에 전체 다중 변경이 실패하게 할 수 있다. 이것은 다수의 클라이언트가 외부 록들 또는 다른 동기화 메커니즘들의 사용을 필요로 하지 않고 스트림 상태의 조정된 조작을 구현할 수 있게 한다. 지정될 수 있는 전제 조건들의 예들은 스트림 존재, 스트림 이름, 스트림 식별자(개명을 통해서는 유지되지만, 삭제/재생성을 통해서는 변경되는 고유 ID), 스트림 버전 번호, 스트림 만기 및 익스텐트 참조 카운트를 포함한다.
추가 실시예에 따르면, 본 발명은 원자 다중 변경의 일부로서 스트림 콘텐츠의 부분들을 새로운 스트림들로 효과적으로 복사하는 능력을 제공한다. 스트림은 저장 노드들의 네트워크 전반에 분산되는 연속 데이터 블록들(익스텐트들)에 대한 참조들의 정돈된 시퀀스로서 모델링될 수 있다. 단순히 스트림의 콘텐츠를 판독하고, 동일 데이터를 갖는 새로운 스트림을, 그러나 새로운 익스텐트들 내에 기록함으로써 스트림을 복사하는 것이 가능하다. 그러나, 대량의 데이터를 하나의 익스텐트에서 다른 익스텐트로 복사하는 것은 다수의 네트워크 노드를 필요로 하는 고가의 네트워크/디스크 집약적 활동일 뿐만 아니라, 둘 이상의 스트림에 의해 동일 익스텐트가 참조될 수도 있다. 단지 익스텐트를 복사함으로써 스트림의 매우 큰 섹션들을 다른 스트림 내에(아마도 상이한 위치에) 효과적으로 복사하는 것이 가능하며, 이러한 액션은 간단하고, 실제의 스트림 데이터 콘텐츠의 복사를 필요로 하지 않는다. 더욱이, 이러한 유형의 복사를 수행하기 위해 조작되는 모든 상태는 중앙 메타데이터 서버에 의해 유지될 수 있다. 이러한 모델의 결과는 록들이 긴 기간 동안 유지될 필요 없이 스트림 콘텐츠의 잠재적으로 큰 부분들의 하나의 스트림에서 다른 스트림으로의 복사가 원자 다중 변경의 일부로서 수행될 수 있다는 것이다. 클라이언트들은 스트림 연결, 쓰레기 수거, 로그/저널 절단, 단일 인스턴싱 및 에일리어싱을 포함하는 다양한 목적에 이러한 능력을 이용할 수 있다. 또한, 다수의 관계없는 작업들을 원자 다중 변경으로 함께 배치화하여, 소정량의 작업을 완수하는 데 필요한 트랜잭션들의 수를 줄이는 것이 가능하다. 메타데이터 변경들은 영속적인 트랜잭션들이므로, 이들은 완료된 것으로 간주될 수 있기 전에 영구 저장 장치에 중복적으로 커미트되어야 한다. 영구 저장 장치(디스크) 커미트 작업들의 지연/성능은 트랜잭션 시스템의 확장성/성능에서의 중요한 제한 인자일 수 있으며, 많은 작업을 단일 커미트로 결합하는 능력이 이로울 수 있다. 또한, 서버는 임의의 변경들을 적용하기 전에 모든 작업들을 검사할 수 있으므로, 그렇지 않으면 가능하지 않을 최적화들이 구현될 수 있다.
일부 실시예들에 따르면, 본 발명은 "전부가 아니면 무(all-or-none)" 시맨틱 및 "동시 작업들"을 표현하는 능력을 용이하게 하게 한다. 전부가 아니면 무 시맨틱은, 다중 변경에서의 임의의 작업이 실패하는 경우에 전체 다중 변경이 실패하고, 변경을 위해 선택된 스트림들의 상태가 다중 변경의 시작 전의 상태로 남는 것을 보증한다. 이것은 클라이언트들이 상태의 일관성은 물론, 다수의 변경의 원자성에 의존할 수 있게 한다. 다중 변경 시스템에서의 동시 작업들은 작업들이 엄격하게 순차적으로 수행되는 경우에는 어렵거나 비효율적인 소정의 변경 세트들이 단일 원자 다중 변경에서 이루어지는 것을 가능하게 한다. 예컨대, 동일 다중 변경에서, 하나의 작업으로 스트림 "A"를 "B"로 개명하고, 다른 작업에서 스트림 "B"를 "A"로 개명하는 것이(즉, 2개의 작업으로 명칭 공간에서 2개의 스트림을 스와핑하는 것이) 가능하다. 이러한 2개의 작업은 순차적으로 수행되는 경우에는 성공하지 못할 것인데, 그 이유는 제1 작업이 명칭 공간 충돌로 인해 실패하기 때문이다. 순차적으로 스와핑을 수행하는 것은 3개의 작업 및 임시 스트림 이름의 도입을 필요로 할 것이다(즉, "A"를 "C"로 개명하고, "B"를 "A"로 개명하고, "C"를 "B"로 개명해야 한다). 또한, 이것은 하나의 작업이 다른 작업들이 성공한 후에 실패하는 경우에 부분적으로 완료된 다중 변경을 "언와인딩(unwinding)"하는 프로세스(전부가 아니면 무 시맨틱)를 복잡하게 한다. 원자 다중 변경은 동시에 모두 적용되는 정돈되지 않은 작업들의 세트로서 취급되어, 클라이언트가 중간의 일관된 상태들을 표현할 필요를 없애고, 서버가 원자 다중 변경의 구현을 최적화할 수 있게 한다.
본 발명의 추가 실시예들에 따르면, 본 발명은 원자 다중 변경을 이용하여 간단한 클라이언트 액세스 가능한 분산 록들 및 분산 리스들(leases)을 구현하는 능력을 제공한다. 스트림 메타데이터는 만기가 연장되지 않으면 지정 기간 후에 스트림이 자동으로 삭제되게 하는 데 사용될 수 있는 만기 특성을 포함한다. 원자 다중 변경과 함께 만기를 이용함으로써, 한 세트의 클라이언트들이 합의된 이름을 갖는 새로운 스트림을 생성하려고 시도함으로써 리스 또는 록에 대해 경쟁할 수 있으며, 성공적으로 생성된 스트림에 대한 만기를 연장함으로써 리스를 연장할 수 있다. 자기 생성된 리스 스트림의 존재 및 그의 합의된 이름의 계속적인 소유를 다중 변경에 대한 추가 전제 조건들로서 추가함으로써 리스/록의 소유가 임의의 다른 스트림 메타데이터 원자 다중 변경에 대한 전제 조건으로서 효과적으로 추가될 수 있다. 클라이언트가 리스/록을 유지하는 동안 실패하는 경우, 리스 또는 록 파일은 그의 만기에 도달할 때 자동으로 삭제되어, 다른 클라이언트가 리스를 청구하는 것을 가능하게 할 수 있다. 리스 또는 록이 통상의 스트림으로 표현되므로, 스트림들에 대해 이용 가능한 도구들 및 메커니즘들(예를 들어, 명칭 공간 조직, 액세스 제어, 브라우징/뷰잉 등)은 본질적으로 리스들 및 록들에 대해서도 이용 가능하다.
따라서, 본 발명의 일 실시예는 하나 이상의 스트림에 대한 다수의 변경을 단일 원자 단위로서 수행하는 방법을 수행하기 위한 컴퓨터 실행가능 명령어들을 구현하는 컴퓨터 판독가능 저장 매체들에 관한 것이다. 하나 이상의 스트림들이 변경을 위해 선택된 스트림들로서 선택된다. 선택된 스트림들과 관련된 하나 이상의 메타데이터에 대해 록이 취득된다. 선택된 스트림들과 관련된 이름들이 선택된 스트림들로부터 분리된다. 선택된 스트림들에 대해 복수의 변경이 수행된다. 선택된 스트림들과 관련된 이름들이 선택된 스트림들과 재결합된다. 하나 이상의 선택된 스트림과 관련된 메타데이터와 관련된 록이 해제된다.
다른 실시예에 따르면, 본 발명은 하나 이상의 스트림에 대한 다수의 변경을 단일 원자 단위로서 수행하는 방법을 수행하기 위한 컴퓨터 실행가능 명령어들을 구현하는 컴퓨터 판독가능 저장 매체들에 관한 것이다. 하나 이상의 스트림들이 변경을 위해 선택된 스트림들로서 선택된다. 선택된 스트림들과 관련된 메타데이터에 대해 록이 취득된다. 선택된 스트림들의 각각과 관련된 이름들이 선택된 스트림들로부터 분리된다. 선택된 스트림들에 대해 제1 변경이 수행된다. 제2 변경이 수행될 경우에 모순을 유발할 것으로 결정된다. 선택된 스트림들에 대한 제1 변경이 취소된다. 선택된 스트림들과 관련된 이름들이 선택된 스트림들과 재결합된다. 선택된 스트림들과 관련된 메타데이터에 대한 록이 해제된다.
추가 실시예에 따르면, 본 발명은 하나 이상의 스트림에 대한 다수의 변경을 단일 원자 단위로서 수행하는 방법을 수행하기 위한 컴퓨터 실행가능 명령어들을 저장하는 컴퓨터 판독가능 매체들에 관한 것이다. 하나 이상의 첨부 전용 스트림들이 변경을 위해 선택된 스트림들로서 선택된다. 선택된 스트림들과 관련된 메타데이터에 대해 록이 취득되고, 록의 취득은 소정의 이름을 갖는 스트림을 록 스트림이 되도록 변경하는 것을 포함한다. 각각의 선택된 스트림과 관련된 이름이 그와 관련된 선택된 스트림으로부터 분리된다. 선택된 스트림들에 대해 제1 변경이 적용된다. 제2 변경이 적용될 경우에 모순을 유발하는지가 결정된다. 변경이 모순을 유발하는 경우, 선택된 스트림들에 대한 제1 변경은 취소된다. 제2 변경이 모순을 유발하지 않는 경우, 제2 변경이 선택된 스트림들에 적용된다. 선택된 스트림들과 관련된 이름들이 선택된 스트림들과 재결합된다. 선택된 스트림들과 관련된 메타데이터와 관련된 록이 해제된다.
본 발명의 실시예들의 개요를 설명하였지만, 본 발명의 실시예들이 구현될 수 있는 예시적인 운영 환경이 본 발명의 다양한 양태에 대한 일반 상황을 제공하기 위해 아래에 설명된다. 먼저, 특히 도 1을 참조하면, 통상의 네트워크 토폴로지(100)는 다수의 상호 접속된 네트워크 세그먼트(101, 102, 103, 104)로 구성되며, 각각의 세그먼트는 더 큰 네트워크(115)에 접속된다. 네트워크 세그먼트(101)는 호스트(106) 및 데이터 저장에 참여하는 2개의 노드(105, 107)를 구비한다. 네트워크 세그먼트(102)는 데이터 저장에 참여하는 2개의 노드(108, 109)를 구비한다. 네트워크 세그먼트(103)는 호스트(111) 및 데이터 저장에 참여하는 2개의 노드(110, 112)를 구비한다. 네트워크 세그먼트(104)는 데이터 저장에 참여하는 2개의 노드(113, 114)를 구비한다.
예를 들어, 네트워크 상의 임의의 노드는 각각의 스트림 내의 익스텐트 참조들의 리스트들 및 각각의 익스텐트를 유지하는 노드들의 세트를 포함하는, 네트워크 전반에 저장된 스트림들을 설명하는 메타데이터의 위치로서 작용할 수 있다. 호스트(111) 및 호스트(106) 상의 클라이언트 세션들은 노드(112) 및 노드(109) 상에 저장된 익스텐트 인스턴스들을 갖는 스트림에 대해 원자 다중 변경을 수행하기를 동시에 원할 수 있다. 노드(110)는 메타데이터 제어기로서 이용될 수 있다. 이 경우, 양 호스트들(111, 106)은 원하는 스트림의 메타데이터에 대해 변경을 행하기 위한 요청들을 노드(110)로 동시에 전송할 것이며, 경쟁이 발생할 것이다. 적절한 전제 조건 제한들을 규정함으로써, 노드(110)에 의해 성공적으로 처리될 제1 요청을 개시한 어떠한 노드도 스트림과 관련된 메타데이터를 변경하는 것이 허가될 것이다. 제2 노드의 요청이 실패하여, 제2 노드가 예를 들어 작업을 포기하거나 모순 없는 포인트로부터 다시 시작함으로써 전제 조건 실패를 처리하도록 요구될 것이다. 이것은 최적 동시 모델에서 요구되는 거동이다. 제1 및 제2 노드들이 다수의 상이한 트랜잭션을 필요로 하는 더 복잡한 활동들을 조정하는 것이 필요한 경우, 이들은 이들의 다중 변경 요청들에서 전용 록/리스 스트림들에 대한 전제 조건들 및 조작을 포함하는 록들 및 리스들을 설정하여, 실패한 노드에게 그의 변경들을 수행하기 위해 록이 해제될 때까지 기다리도록 요구할 수 있다.
이제, 도 2를 참조하면, 예시적인 노드가 도시되어 있으며, 일반적으로 컴퓨팅 장치(200)로서 지시된다. 컴퓨팅 장치(200)는 적합한 컴퓨팅 환경의 일례에 불과하며, 본 발명의 용도 또는 기능성의 범위에 관해 어떤 제한을 암시하고자 하는 것이 아니다. 컴퓨팅 장치(200)는 도시된 컴포넌트들 중 임의의 하나 또는 그 컴포넌트들의 임의의 조합과 관련하여 어떤 의존성 또는 요구사항을 갖는 것으로 해석되어서는 안 된다.
본 발명은 일반적으로 컴퓨터 또는 개인용 휴대 단말기 또는 다른 핸드헬드 장치와 같은 다른 기계에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어를 포함하는 컴퓨터 코드 또는 기계 사용가능 명령어와 관련하여 기술될 수 있다. 일반적으로, 루틴, 프로그램, 개체, 컴포넌트, 데이터 구조 등을 포함하는 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 코드를 지칭한다. 본 발명은 핸드헬드 장치, 가전제품, 범용 컴퓨터, 더 특수한 컴퓨팅 장치 등을 포함하는 다양한 시스템 구성에서 실시될 수 있다. 본 발명은 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실시될 수도 있다.
도 2와 관련하여, 컴퓨팅 장치(200)는 다음 장치들, 즉 네트워크 장치(202), CPU(203), 메모리(204), 저장 장치(205) 및 입출력(I/O) 장치(206)를 직접 또는 간접적으로 결합하는 버스(201)를 포함한다. 버스(201)는 (어드레스 버스, 데이터 버스 또는 이들의 조합과 같은) 하나 이상의 버스일 수 있는 것을 나타낸다. 도 2의 다양한 블록들이 명료화를 위해 라인들로서 도시되지만, 실제로 다양한 컴포넌트들의 묘사는 그렇게 명확하지 않으며, 비유적으로 라인들은 더 정확하게는 흐리거나 희미할 것이다. 예컨대, 많은 프로세서는 메모리를 갖는다. 그러한 것이 기술의 속성임을 인식하며, 도 2의 개략도는 본 발명의 하나 이상의 실시예와 관련하여 사용될 수 있는 예시적인 컴퓨팅 장치를 예시할 뿐임을 반복한다. "워크스테이션", "서버", "랩톱", "핸드헬드 장치" 등과 같은 카테고리들 사이에는 차이가 없는데, 그 이유는 이들 모두가 도 2의 범위 내에서 고려되고, "컴퓨팅 장치" 또는 "노드"를 지칭하기 때문이다.
컴퓨팅 장치(200)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 컴퓨팅 장치(200)에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체 양자를 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체 양자를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨팅 장치(200)에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다.
메모리(204)는 휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 예시적인 하드웨어 장치들은 RAM과 같은 반도체 메모리를 포함한다. 저장 장치(205)는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 메모리는 이동식, 비이동식 또는 이들의 조합일 수 있다. 예시적인 하드웨어 장치들은 반도체 메모리, 하드 드라이브, 광 디스크 드라이브 등을 포함한다. 컴퓨팅 장치(100)는 메모리(204), 저장 장치(205) 또는 I/O 장치(206)와 같은 다양한 엔티티로부터 데이터를 판독하는 하나 이상의 프로세서(CPU)(203)를 포함한다. I/O 장치들(206)은 컴퓨팅 장치(200)가 입력 컴포넌트들 및 출력 컴포넌트들을 포함하는 다른 장치들에 논리적으로 결합될 수 있게 하며, 그러한 장치들 중 일부는 내장될 수 있다. 예시적인 컴포넌트들은 마이크, 조이스틱, 게임 패드, 위성 안테나, 스캐너, 프린터, 무선 장치 등을 포함한다. 컴퓨팅 장치(200)는 다른 네트워크 장치들과의 통신을 용이하게 하는 네트워크 장치(202)를 포함한다. 네트워크 장치(202)는 추가적인 I/O 장치로서 작용한다.
이 분야의 기술자들은 컴퓨팅 장치들, 피호출 노드들 또는 저장 노드들의 네트워크에 저장된 데이터가 다양한 방식으로 포맷팅될 수 있다는 것을 인식할 것이다. 예를 들어, 음악 파일, 비디오 파일, 워드 프로세싱 문서 등과 같은 독립적인 데이터 파일들은 분산 방식으로 저장되는 것이 일반적이다. 본 발명의 일 실시예에 따르면, 데이터는 통상의 계층적 명칭 공간 내에 조직화될 수 있는 스트림들의 집합으로서 모델링된다. 도 3은 데이터 저장에 사용되는 예시적인 데이터 포맷인 스트림(300)을 나타내며, 본 발명의 일부 실시예들에 따르면, 이러한 스트림에 대해 원자 다중 변경이 행해질 수 있다. 스트림(300)은 논리적으로 관련된 데이터의 집합이다. 본 발명의 일부 실시예들에 따르면, 스트림(300)은 첨부 전용이며, 크기가 매우 크며, 아마도 네트워크 노드들의 개별 저장 용량의 여러 배를 초과할 수 있다. 스트림(300)은 핸들 또는 이름에 의해 액세스되며, 스트림(300)과 같은 각각의 스트림은 보존 및 액세스 정책을 갖는다. 본 발명의 일부 실시예들에 따르면, 각각의 스트림은 스트림의 수명 동안 변경될 수 없는 관련 전역 고유 식별자(GUID)도 갖는다(즉, 변경될 수 있는 이름과 달리, GUID는 그의 관련 스트림을 영구적으로 식별한다). 스트림(300)은 예컨대 바이트들의 시퀀스로서 취급될 수 있다. 스트림(300)은 익스텐트들(301, 302, 303)의 정돈된 시퀀스로 구성된다. 익스텐트들(301, 302, 303)은 스트림들(300)에 대한 할당의 단위들이다. 익스텐트들(301, 302, 303)은 또한 첨부 전용이며, 각각의 익스텐트(301, 302, 303)는 전역 고유 식별자(GUID)로 식별된다. 익스텐트들(301, 302, 303)은 네트워크 내의 많은 노드 사이에 분산될 수 있다. 익스텐트들(301, 302, 303)은 일반적으로 복사되며, 익스텐트들(301, 302, 303)의 사본들은 네트워크 내의 많은 노드 사이에 분산될 수 있다. 익스텐트들(301, 302, 303)은 크기 한도(예컨대, 2 GB)를 가지며, 다양한 목적을 위한 분할 단위이다. 실패 복구, 부하 균형, 복사, 검색 및/또는 데이터 마이닝을 위해 병렬로 처리될 수 있는 청크들로서 스트림을 분할하기 위해 익스텐트들(301, 302, 303)의 크기가 종종 제한된다. 익스텐트의 크기는 저장 시스템의 실패 복구 모드들에 의해서도 제한될 수 있다.
본 발명의 일부 실시예에 따르면, 스트림(300)은 각각의 익스텐트에 대한 참조들 및/또는 각각의 익스텐트의 사본들의 위치 또는 위치들을 저장한다. 예컨대, 익스텐트(301)의 사본은 노드(304) 상에 저장되며, 익스텐트들(302, 303)의 인스턴스들은 모두 노드(305) 상에 저장된다. 익스텐트들은 복사될 수 있다는 점에 유의해야 한다. 이러한 시나리오들에서, 익스텐트 데이터는 그의 사본들의 위치들인 다수의 위치에서 액세스될 수 있다. 익스텐트의 GUID는 변경되지 않지만, 그의 사본들의 수 및 위치는 시간이 지남에 따라 변할 수 있다. 간명화를 위해, 이 예는 익스텐트들이 복사되지 않는 시나리오만을 설명한다. 참조들을 저장하는 것의 한 가지 이점은 익스텐트와 관련된 어떠한 데이터도 복사하거나 이동시키지 않고도 스트림에 익스텐트 참조를 추가하는 것이 가능하다는 점이다. 예컨대, 익스텐트(301)의 다른 사본이 스트림(300)에 추가되는 경우, 노드(304) 상의 데이터는 변경 또는 복사될 필요가 없다. 대신에, 스트림(300) 내의 기존의 익스텐트 참조들의 리스트에 추가적인 익스텐트 참조가 추가된다.
스트림들은 메타데이터에 의해 표현되며, 본 발명의 일 실시예에 따르면, 메타데이터 자체는 네트워크 전반에 분산되거나, 중앙 서버 상에 저장될 수 있다. 이제, 도 4를 참조하면, 예를 들어 메타데이터(400)는 스트림에 대한 정보를 포함하는 데이터의 집합이다. 본 발명의 일부 실시예들에 따르면, 스트림과 관련된 메타데이터(400)는 스트림과 현재 관련된 이름(401)을 포함한다. 스트림들의 이름들은 데이터에 액세스하는 클라이언트들에 의해 사용되는 디렉토리 구조 내에서 스트림을 찾는다. 스트림들이 이동 및 변경됨에 따라 이름들이 변경될 수 있다. 본 발명의 일부 실시예들에 따르면, 호스트들은 이름(401)에 의해 스트림들에 액세스한다. 메타데이터(400)는 또한 GUID(402)를 포함하며, 이는 전역적으로 고유한 식별자로서, 스트림과 영구적으로, 배타적으로 관련된다(즉, 스트림에 대한 GUID(402)는 결과 변경되지 않으며, 2개의 스트림은 동일한 GUID를 공유하지 않는다). 스트림과 연관된 메타데이터(400)는 스트림을 구성하는 익스텐트 참조들의 리스트(403)도 포함한다. 각각의 익스텐트 참조(403)는 특정 익스텐트를 식별하며, 클라이언트 또는 서버가 네트워크에서 익스텐트의 모든 사본들을 찾게 하여, 실제 데이터에 대한 물리적 액세스를 제공한다.
원자 다중 변경은 하나 이상의 스트림에 다수의 변경을 수행하는 것을 포함한다. 예를 들어, 변경들은 새로운 스트림의 생성, 스트림의 삭제, 스트림의 개명, 둘 이상의 스트림의 연결, 기존 스트림의 사본 생성, 및 스트림의 익스텐트들의 서브세트의 제2 스트림으로의 복사를 포함한다. 이 분야의 기술자들은 원자 다중 변경의 구성과 연계하여 사용될 수 있는 많은 다른 가능한 변경이 존재한다는 것을 인식할 것이다. 이제, 도 5를 참조하면, 원자 다중 변경의 일례를 고려한다. 명령어들의 다중 변경 세트(503)는 "A"에서 "B"로 스트림(501)을 개명하는 것과 "B"에서 "A"로 스트림(502)을 개명하는 것으로 구성된다. 이 분야의 기술자들은, 표준 데이터 복사 방법들의 이용이 그러한 변경을 수행하기 위해 임시 저장 영역을 필요로 하고, 실패들로부터의 복구시에 복잡성을 유발하는데, 그 이유는 복구 논리가 에러들의 경우에 임시 저장을 삭제하는 것을 필요로 하고, 또한 스트림(501) 및 스트림(502) 양자가 실패로부터의 복구 후에 전역적으로 일관된 상태에 도달하는 것을 보증하는 것을 필요로 하기 때문이라는 것을 인식할 것이다. 그러나, 본 발명의 일 실시예에 따르면, 원자 다중 변경은 하나의 단계인 것처럼 실행되며, 따라서 스트림(501) 및 스트림(502) 양자가 실패들에도 불구하고 일관된 상태에 있고, 삭제할 임시 저장 영역이 존재하지 않는다는 점에서 복구 논리를 단순화한다. 예를 들어, 스트림(501) 및 스트림(502)의 이름들(각각 "A" 및 "B")이 그들의 메타데이터로부터 먼저 제거되며, 따라서 양 스트림들은 이름이 없어진다. 이것은 스트림들을 스트림 명칭 공간으로부터 분리하여, 다수의 변경이 발생할 수 있게 한다.
변경 세트(503) 내의 제1 변경(509)이 수행된다. 이 경우, 스트림(501)이 "B"로 개명되어야 한다. 이를 달성하기 위해, 스트림(501)의 이름이 "B"로 설정되고, 스트림(501)이 스트림 명칭 공간에 재부착된다. 이것은 명칭 공간 충돌없이 성공할 수 있는데, 그 이유는 스트림(502)이 스트림 명칭 공간으로부터 분리될 때 이름 "B"가 이용될 수 있게 되기 때문이다. 변경 세트(503)로부터의 제2 변경(512)이 또한 수행된다. 이 경우, 스트림(502)이 "A"로 개명되어야 한다. 이를 달성하기 위하여, 스트림(502)이 이름이 "A"로 설정되고, 스트림(502)이 스트림 명칭 공간에 재부착된다. 이것은 명칭 공간 충돌없이 성공할 수 있는데, 그 이유는 스트림(501)이 스트림 명칭 공간으로부터 분리될 때 이름 "A"가 이용될 수 있게 되기 때문이다.
이제, 도 6을 참조하면, 본 발명의 일 실시예에 따라 하나 이상의 선택된 스트림에 대해 원자 다중 변경을 수행하기 위한 방법(600)을 나타내는 흐름도가 제공된다. 블록 601에 도시된 바와 같이, 변경을 위해 하나 이상의 스트림이 선택된다. 이 분야의 기술자들은 변경을 위해 스트림들이 선택될 수 있는 다양한 방법이 존재한다는 것을 인식할 것이다. 예컨대, 변경을 위해 선택된 스트림들로서 포함될, 그의 현재 이름 또는 GUID에 의해 각각 참조되는 스트림들의 리스트를 애플리케이션이 제공할 수 있다. 이름들 및/또는 GUID들의 리스트는 스트림과 연관된 익스텐트 참조들의 리스트를 포함하는 각각의 스트림에 대한 메타데이터를 발견하는 데 사용된다. 본 발명의 일부 실시예들에 따르면, 각각의 스트림의 물리 위치도 메타데이터 내의 정보에 기초하여 발견된다.
블록 602에 도시된 바와 같이, 변경을 위해 선택된 하나 이상의 스트림의 각각과 관련된 메타데이터는 물론, 다중 변경에 의해 커버된 스트림 명칭 공간에 대한 록이 취득된다. 록이 취득되면, 블록 603에 도시된 바와 같이, 삭제 또는 개명을 위한 타겟인 선택된 스트림들이 그들 각각의 이름들로부터 분리된다. 본 발명의 일부 실시예들에 따르면, 이것은 변경들이 동시에 발생한 것처럼 변경들이 스트림들에 영향을 미치는 방식으로 다수의 변경의 적용을 용이하게 한다. 예를 들어, 스트림들의 관련 이름들로부터의 분리는 선택된 스트림들 각각의 이름들에 대한 스트림 GUID들의 최초의 결합을 저장하는 임시 맵핑을 생성함으로써 달성된다.
다수의 변경은 이들이 원자 다중 변경으로서 발생하는 방식으로 이루어질 수 있다. 도 6에는 2개의 변경이 도시되지만, 이 분야의 기술자는 임의 수의 변경들이 단일 원자 다중 변경을 형성하도록 결합되어, 하나 이상의 선택된 스트림에 대해 동작할 수 있다는 것을 인식할 것이다. 블록 604에 도시된 바와 같이, 하나 이상의 스트림에 대해 제1 변경이 수행되고, 블록 605에 도시된 바와 같이 제2 변경이 수행된다. 본 발명의 일부 실시예들에 따르면, 이러한 변경들은 이들이 연속적이 아니라 동시에 발생하는 것으로 보이도록 이루어진다. 예를 들어, 변경들은 새로운 스트림의 생성, 스트림 삭제, 스트림 개명, 스트림의 메타데이터의 갱신, 기존 스트림의 사본 생성, 둘 이상의 스트림의 연결, 및 스트림의 익스텐트들의 서브세트의 제2 스트림으로의 복사를 포함한다.
원자 다중 변경 내의 모든 변경들이 완료되면, 블록 606에 도시된 바와 같이, 스트림들이 이름들에 재결합된다. 본 발명의 일부 실시예들에 따르면, 스트림 이름들은 대응 스트림들에 적용된 변경들 각각에 의해 임시 맵핑에 대해 행해진 변경들에 기초하여 스트림들에 결합된다. 스트림들의 GUID들은 이러한 변경들을 추적하고 재결합을 실행하는 데 사용된다. 블록 607에 도시된 바와 같이, 하나 이상의 선택된 스트림의 각각과 관련된 메타데이터는 물론, 다중 변경에 의해 커버된 스트림 명칭 공간에 대한 록 또는 록들이 해제된다.
이제, 도 7을 참조하면, 본 발명의 일 실시예에 따라 하나 이상의 선택된 스트림에 대해 원자 다중 변경을 수행하기 위한 방법(700)을 나타내는 흐름도가 제공되며, 이 방법에서는 다수의 변경 중 하나의 변경이 성공적으로 완료될 수 없다. 원자 다중 변경을 구성하는 변경들을 수행하는 과정에서, 변경들 중 하나가 수행될 때 성공적으로 완료되지 못하는 것이 가능하다. 예를 들어, 다중 변경 내의 2개의 변경 모두가 (예컨대, 스트림 생성 또는 개명을 통해) 동일 이름을 갖는 스트림에 작용하려고 시도할 수 있다. 따라서, 다중 변경이 성공하도록 허가되는 경우, 결과적인 상태는 변경들이 수행되는 순서에 의존할 것이며, 이들이 동시적인 것처럼 이들을 수행할 방법은 없다. 그러한 경우가 발견되면, 지금까지 원자 다중 변경의 일부로서 수행된 모든 변경들이 취소되며, 스트림 메타데이터는 원자 다중 변경이 시작되기 전의 상태로 재설정된다. 도 6의 방법(600)과 마찬가지로, 블록 701에 도시된 바와 같이 원자 다중 변경의 적용을 위해 하나 이상의 스트림이 선택되고, 블록 702에 도시된 바와 같이, 선택된 스트림들 각각과 관련된 메타데이터에 대해 록이 취득된다.
도 6의 블록 603 및 604와 유사하게, 블록 703에 도시된 바와 같이, 각각의 선택된 스트림이 그와 관련된 이름으로부터 분리되고, 블록 704에 도시된 바와 같이, 하나 이상의 선택된 스트림에 제1 변경이 적용된다. 블록 705에 도시된 바와 같이, 선택된 스트림들에 대한 제2 변경이 성공적으로 완료되지 않을 것이라는 결정이 이루어진다. 이 분야의 기술자는 그러한 결정이 이루어질 수 있는 다양한 방법이 존재한다는 것을 인식할 것이다. 본 발명의 일부 실시예들에 따르면, 원자 다중 변경을 수행하는 프로세스 내의 임의 단계를 언와인딩하기 위한 메커니즘을 추가로 제공하기 위해 임시 취소 가능 변경들의 이력이 이용된다.
원자 다중 변경의 적용에서 실패가 발생할 것으로 결정되면, 블록 706에 도시된 바와 같이, 적용된 변경들이 취소된다. 선택된 스트림들에 대해 행해진 임의의 변경들의 취소 후에, 블록 707에 도시된 바와 같이, 스트림들이 그들 각각의 최초 이름들과 재결합되고, 새로 생성된 스트림들이 삭제된다. 변경들이 취소되고, 스트림들이 그들의 최초 이름들과 재결합되고, 새로 생성된 스트림들이 삭제되면, 도 6의 블록 607과 유사하게, 블록 708에 도시된 바와 같이, 록이 해제된다.
본 발명의 일부 실시예들에 따르면, 하나 이상의 선택된 스트림에 대해 원자 다중 변경을 수행하기 위한 방법이 도 8의 흐름도에 도시되어 있다. 원자 다중 변경을 구성하는 변경들 중 하나가 실패한 것이 검출되는 경우, 원자 다중 변경이 중지되고, 스트림들은 원자 다중 변경의 시작 전에 그들이 있었던 상태로 복귀한다. 도 6의 블록 601 및 602와 유사하게, 블록 801에 도시된 바와 같이, 변경을 위해 하나 이상의 스트림이 선택되고, 블록 802에 도시된 바와 같이, 선택된 스트림들과 관련된 메타데이터에 대해 록이 취득된다.
도 6의 블록 603 및 604와 유사하게, 블록 803에 도시된 바와 같이, 삭제 또는 개명을 위한 타겟인 각각의 스트림이 그의 관련 이름으로부터 분리되고, 블록 804에 도시된 바와 같이, 제1 변경이 수행된다. 이어서, 블록 805에 도시된 바와 같이, 제2 변경의 적용이 성공적으로 완료되지 못할지를 결정한다. 이러한 결정은 도 7의 블록 705의 결정과 유사한 방식으로 수행될 수 있다. 예컨대, 제2 변경의 적용이 스트림을 제1 변경에 의해 또는 이전 트랜잭션에서 다른 스트림과 이미 관련된 이름과 연관시키는 경우, 제2 변경은 성공적으로 완료되지 못하는 것으로 결정된다.
제2 변경이 성공적으로 수행될 수 있는 것으로 결정되는 경우, 블록 806에 도시된 바와 같이, 제2 변경이 수행되고, 블록 808에 도시된 바와 같이, 스트림들이 그들의 최종 관련 이름들과 재결합되며, 블록 809에 도시된 바와 같이, 변경을 위해 선택된 스트림들과 관련된 메타데이터에 대해 록 또는 록들이 취득되고, 스트림 명칭 공간이 해제된다. 이러한 단계들 각각은 도 6의 단계들 605, 606 및 607 각각과 유사하게 수행될 수 있다.
그러나, 제2 변경이 실행할 것으로 결정되는 경우, 블록 807에 도시된 바와 같이, 제1 변경이 취소되고, 블록 808에 도시된 바와 같이, 스트림들이 그들의 최초 관련 이름들과 재결합되며, 블록 809에 도시된 바와 같이, 임의의 새로 생성된 스트림들이 삭제되고, 변경을 위해 선택된 스트림들과 관련된 메타데이터에 대한 록 또는 록들이 취득되고, 스트림 명칭 공간이 해제된다. 이러한 단계들 각각은 도 7의 단계들 706, 707 및 708 각각과 유사하게 수행될 수 있다.
예를 들어, 도 9는 수행되는 다중 변경의 일례를 나타낸다. 도 9의 예는 시스템 내의 상태를 나타내는 "체크포인트 + 로그" 시스템의 구현을 포함한다. 이러한 시스템에서, 시스템의 상태는 체크포인트들이라고 하는 완전한 상태 정보를 포함하는 스냅샷 및 이어서 최종 공지된 체크포인트로부터 이루어진 변경들을 포함하는 다양한 더 작은 델타들에 의해 표현된다. 로그는 이러한 델타들의 리스트를 포함한다. 시스템의 현재 상태에 도달하기 위해, 클라이언트는 최종 스냅샷 후에 발생하는 로그 내의 모든 델타들을 최종 스냅샷에 적용할 것이다. 가장 최근의 스냅샷 전에 발생한 스냅샷들 및 델타들은 낡아서 더 이상 필요하지 않으며, 따라서 쓰레기 수거 프로세스가 낡은 스냅샷들 및 델타들을 주기적으로 제거할 수 있다. 이 분야의 기술자들은 원자 다중 변경들을 위한 많은 다른 시스템 응용들이 존재한다는 것을 인식할 것이다.
예컨대, 3개의 스트림, 즉 ALBUM.CHECKPOINT(901), ALBUM.DELTA(902) 및 ALBUM.DATA(903)로 표현되는 사진 앨범을 저장하는 시스템을 고려한다. ALBUM.CHECKPOINT(901)는 모든 사진들의 완전한 리스트, 및 특정 시점에서의 앨범 내의 주석들을 저장한다. 사진들의 삭제 및 추가는 ALBUM.DELTA(902)에 저장된다. 실제 사진들은 ALBUM.DATA(903)에 저장된다. 이러한 사진 앨범은 수천 명의 클라이언트에 의해 동시에 액세스될 수 있으며, 이들 각각은 새로운 사진들을 추가하고, 사진들을 편집 및 교체하고, 사진들을 삭제하고, 사진들을 개명하고, 사진들에 주석을 첨부하는 것 등을 행할 수 있다. 주기적으로, ALBUM.DELTA(902) 파일은 매우 커져서, 클라이언트들이 긴 로드 시간을 겪게 할 수 있다. 또한, ALBUM.DATA(903) 내의 익스텐트들은 더 이상 임의의 최근의 체크포인트 또는 델타로부터 임의의 참조들을 갖지 않을 수도 있다(예컨대, 이러한 익스텐트들 내의 사진들은 이미 삭제되었다).
수천 명의 클라이언트들 각각은 이러한 스트림들 각각을 열 수 있다. 결국, 쓰레기 수거 프로세스는 스트림들로부터 불필요한 아이템들을 삭제하기로 결정할 수 있다. 예를 들어, ALBUM.CHECKPOINT(901)가 2개의 익스텐트, 즉 오래된 체크포인트(904)를 갖는 제1 익스텐트 및 최신 체크포인트(905)를 갖는 제2 익스텐트로 구성된 것으로 가정한다. 새로운 체크포인트가 완전한 시스템 스냅샷을 포함하므로, 오래된 체크포인트가 제거될 수 있다. 또한, ALBUM.DELTA(902)는 다수의 익스텐트를 포함한다. 이 예에서, 현재의 체크포인트(905)로부터의 관련 델타들은 모두 ALBUM.DELTA의 최종 익스텐트(906) 내에 있는 것으로 가정한다. ALBUM.DATA(903)는 많은 익스텐트를 포함하며, 이들 사이에는 참조 스트림들이 없는 익스텐트들, 즉 제거될 수 있는 익스텐트들이 산재한다. 예컨대, ID R, S, Y, Z를 갖는 익스텐트들(912, 913, 914, 915)만이 ALBUM.DATA 스트림 내에 유지될 것이다. 불필요한 익스텐트들을 삭제하기 위하여, 쓰레기 수거 프로세스는 다음과 같은 변경들을 수행할 수 있는데, 즉 ALBUM.CHECKPOINT(901)로부터 오래된 익스텐트들을 제거하고, ALBUM.DELTA(902)로부터 오래된 익스텐트들을 제거하고, ALBUM.CHECKPOINT(901) 및 ALBUM.DELTA(902) 내의 나머지 익스텐트들에서 참조되지 않는 ALBUM.DATA(903) 내의 임의의 익스텐트들을 제거할 수 있다. 쓰레기 수거 프로세스는 원자 다중 변경을 이용하여 이러한 변경들을 달성할 수 있다.
쓰레기 수거 프로세스가 이용할 수 있는 원자 다중 변경의 일례는 다음과 같은 변경들을 포함한다. 변경 1: ALBUM.CHECKPOINT(907)라는 이름을 갖는 새로운 스트림을 생성하고, STREAM_ID ABCD(901)를 갖는 스트림을 삭제하고, ID QRST를 할당받은 새로운 스트림에 EXTENT_ID B(910)를 첨부한다. 변경 2: ALBUM.DELTA(908)라는 이름을 갖는 새로운 스트림을 생성하고, STREAM_ID AFDE(902)를 갖는 스트림을 삭제하고, ID VCDE를 할당받은 새로운 스트림에 EXTENT_ID L(911)를 첨부한다. 변경 3: ALBUM.DATA(909)라는 이름을 갖는 새로운 스트림을 생성하고, STREAM_ID DEFF(903)를 갖는 스트림을 삭제하고, ID RSTV를 할당받은 새로운 스트림에 EXTENT_ID R(912), EXTENT_ID S(913), EXTENT_ID Y(914) 및 EXTENT_ID Z(915)를 첨부한다. 모든 변경들은 원자적으로 수행되므로, 클라이언트들은 결코 앨범의 모순된 뷰를 갖지 않는다. 이러한 특정 예에서, 개별적인 다중 변경 트랜잭션들에서 이러한 스트림들 각각을 변경하는 것도 논리적으로 올바르다. 이러한 스트림들은 효율의 이유로(트랜잭션들의 수를 줄이기 위해) 단일 다중 변경 트랜잭션에서 변경된다. 그러나, 이 분야의 기술자들은 다수의 스트림을 하나의 원자 트랜잭션에서 변경하여, 이러한 스트림들 사이의 일관성을 보장하는 시나리오들이 존재하며, 이러한 시나리오들에서 다중 변경 지원이 이용될 수 있다는 것을 인식할 것이다.
본 발명의 사상 및 범위를 벗어나지 않고, 도시된 다양한 컴포넌트들은 물론, 도시되지 않은 컴포넌트들의 많은 상이한 배열이 가능하다. 본 발명의 실시예들은 제한이 아니라 예시의 의도로 설명되었다. 본 발명의 범위를 벗어나지 않는 대안 실시예들이 이 분야의 기술자들에게 명백할 것이다. 기술자는 본 발명의 범위로부터 벗어나지 않고 전술한 개량들을 구현하는 대안 수단들을 개발할 수 있다.
소정의 특징들 및 하위 조합들이 유용하고, 다른 특징들 및 하위 조합들과 관계없이 이용될 수 있으며, 청구항들의 범위 내에서 고려된다. 다양한 도면들에 열거된 모든 단계들은 설명된 특정 순서로 수행될 필요는 없다.

Claims (20)

  1. 하나 이상의 스트림에 대한 다수의 변경을 단일 원자 단위(atomic unit)로서 수행하는 방법을 수행하기 위한 컴퓨터 실행가능 명령어들을 저장한 하나 이상의 컴퓨터 판독가능 매체로서,
    상기 방법은,
    변경을 위해 하나 이상의 스트림을 하나 이상의 선택된 스트림으로서 선택하는 단계(601);
    상기 하나 이상의 선택된 스트림과 관련된 하나 이상의 메타데이터에 대한 록(lock)을 취득하는 단계(602);
    각각의 스트림과 관련된 하나 이상의 이름으로부터 상기 하나 이상의 선택된 스트림의 각각을 분리하는 단계(603);
    상기 하나 이상의 선택된 스트림에 대해 복수의 변경을 수행하는 단계(604, 605);
    상기 하나 이상의 선택된 스트림의 각각을 각각의 스트림과 관련된 적어도 하나의 이름에 결합하는 단계(606); 및
    상기 하나 이상의 선택된 스트림의 하나 이상의 메타데이터에 대한 록을 해제하는 단계(607)
    를 포함하는 하나 이상의 컴퓨터 판독가능 매체.
  2. 제1항에 있어서, 상기 하나 이상의 스트림은 첨부 전용 스트림들인 하나 이상의 컴퓨터 판독가능 매체.
  3. 제1항에 있어서, 상기 분리하는 단계는 각각의 스트림과 관련된 이름으로부터의 상기 하나 이상의 선택된 스트림 각각의 최초 결합을 저장하는 임시 맵핑을 유지하는 단계를 포함하는 하나 이상의 컴퓨터 판독가능 매체.
  4. 제3항에 있어서, 상기 임시 맵핑은 상기 하나 이상의 스트림 각각의 GUID에 기초하는 하나 이상의 컴퓨터 판독가능 매체.
  5. 제1항에 있어서, 상기 복수의 변경은 새로운 스트림의 생성, 기존 스트림에의 첨부, 기존 스트림의 사본의 생성, 스트림 삭제, 스트림 개명, 스트림의 메타데이터의 갱신, 및 스트림의 익스텐트들(extents)의 서브세트의 제2 스트림으로의 복사 중 하나 이상을 포함하는 하나 이상의 컴퓨터 판독가능 매체.
  6. 제1항에 있어서, 상기 재결합하는 단계는 상기 하나 이상의 선택된 스트림의 하나 이상의 GUID를 상기 하나 이상의 이름과 연관시키는 단계를 포함하는 하나 이상의 컴퓨터 판독가능 매체.
  7. 제6항에 있어서, 상기 재결합하는 단계는 스트림들을 식별하는 하나 이상의 GUID와 하나 이상의 이름 사이의 임시 맵핑을 이용하는 단계를 포함하는 하나 이상의 컴퓨터 판독가능 매체.
  8. 제1항에 있어서, 상기 복수의 변경은 하나 이상의 익스텐트의 데이터를 이동시키지 않고 익스텐트들에 대한 하나 이상의 포인터를 변경함으로써 상기 하나 이상의 선택된 스트림에 영향을 주는 하나 이상의 컴퓨터 판독가능 매체.
  9. 하나 이상의 스트림에 대한 다수의 변경을 단일 원자 단위로서 수행하는 방법을 수행하기 위한 컴퓨터 실행가능 명령어들을 저장한 하나 이상의 컴퓨터 판독가능 매체로서,
    상기 방법은,
    변경을 위해 하나 이상의 스트림을 하나 이상의 선택된 스트림으로서 선택하는 단계(701);
    상기 하나 이상의 선택된 스트림과 관련된 하나 이상의 메타데이터에 대한 록을 취득하는 단계(702);
    각각의 스트림과 관련된 이름으로부터 상기 하나 이상의 선택된 스트림의 각각을 분리하는 단계(703);
    상기 하나 이상의 선택된 스트림에 대해 복수의 변경 중 제1 변경을 수행하는 단계(704);
    상기 하나 이상의 선택된 스트림에 대한 복수의 변경 중 제2 변경이 모순을 유발할 것으로 결정하는 단계(705);
    상기 하나 이상의 선택된 스트림에 대한 복수의 변경 중 제1 변경을 취소하는 단계(706);
    상기 하나 이상의 선택된 스트림의 각각을 각각의 스트림과 관련된 적어도 하나의 이름에 결합하는 단계(707); 및
    상기 하나 이상의 선택된 스트림의 하나 이상의 메타데이터에 대한 록을 해제하는 단계(708)
    를 포함하는 하나 이상의 컴퓨터 판독가능 매체.
  10. 제9항에 있어서, 상기 하나 이상의 스트림은 첨부 전용인 하나 이상의 컴퓨터 판독가능 매체.
  11. 제9항에 있어서, 상기 분리하는 단계는 각각의 스트림과 관련된 이름으로부터의 상기 하나 이상의 선택된 스트림 각각의 최초 결합을 저장하는 임시 맵핑을 유지하는 단계를 포함하는 하나 이상의 컴퓨터 판독가능 매체.
  12. 제11항에 있어서, 상기 복수의 변경은 상기 임시 맵핑의 하나 이상의 변경을 실행하는 하나 이상의 컴퓨터 판독가능 매체.
  13. 제11항에 있어서, 상기 복수의 변경 각각은 상기 임시 맵핑의 새로운 사본을 생성하고, 각각의 사본은 상기 임시 맵핑의 새로운 사본과 관련된 상기 복수의 변경 중의 변경의 적용 후의 상기 하나 이상의 선택된 스트림의 스냅샷을 지시하는 하나 이상의 컴퓨터 판독가능 매체.
  14. 제11항에 있어서, 상기 복수의 변경 중 제1 변경을 취소하는 단계는 상기 선택된 스트림들 각각에 대한 변경들을 취소하는 단계를 포함하는 하나 이상의 컴퓨터 판독가능 매체.
  15. 제11항에 있어서, 상기 재결합하는 단계는 최초 결합을 저장하는 임시 맵핑을 이용하여 각각의 스트림과 관련된 이름에 상기 하나 이상의 선택된 스트림 각각을 재결합하는 하나 이상의 컴퓨터 판독가능 매체.
  16. 제9항에 있어서, 상기 복수의 변경은 새로운 스트림의 생성, 기존 스트림에의 첨부, 기존 스트림의 사본의 생성, 스트림 삭제, 스트림 개명, 스트림의 메타데이터의 갱신, 및 스트림의 익스텐트들의 서브세트의 제2 스트림으로의 복사 중 하나 이상을 포함하는 하나 이상의 컴퓨터 판독가능 매체.
  17. 제9항에 있어서, 상기 복수의 변경은 하나 이상의 익스텐트의 데이터를 이동시키지 않고 익스텐트들에 대한 하나 이상의 포인터를 변경함으로써 상기 하나 이상의 선택된 스트림에 영향을 주는 하나 이상의 컴퓨터 판독가능 매체.
  18. 하나 이상의 스트림에 대한 다수의 변경을 단일 원자 단위로서 수행하는 방법을 수행하기 위한 컴퓨터 실행가능 명령어들을 저장한 하나 이상의 컴퓨터 판독가능 매체로서,
    상기 방법은,
    변경을 위해 하나 이상의 첨부 전용 스트림을 하나 이상의 선택된 스트림으로서 선택하는 단계(801);
    상기 하나 이상의 선택된 스트림과 관련된 하나 이상의 메타데이터에 대한 록을 취득하는 단계(802) - 상기 록을 취득하는 단계는 소정의 이름을 갖는 스트림을 록 스트림이 되도록 변경하는 단계를 포함함 -;
    각각의 스트림과 연관된 하나 이상의 이름으로부터 상기 하나 이상의 선택된 스트림 각각을 분리하는 단계(803);
    상기 하나 이상의 선택된 스트림에 대해 복수의 변경 중 제1 변경을 수행하는 단계(804);
    상기 하나 이상의 선택된 스트림에 대한 복수의 변경 중 제2 변경이 모순을 유발할지를 결정하는 단계(805);
    복수의 변경 중 제2 변경이 모순을 유발하는 경우, 상기 하나 이상의 선택된 스트림에 대한 복수의 변경 중 제1 변경을 취소하는 단계(807);
    복수의 변경 중 제2 변경이 모순을 유발하지 않는 경우, 상기 하나 이상의 선택된 스트림에 대해 복수의 변경 제2 변경을 수행하는 단계(806);
    상기 하나 이상의 선택된 스트림 각각을 각각의 스트림과 관련된 적어도 하나의 이름과 결합하는 단계(808); 및
    상기 하나 이상의 선택된 스트림의 하나 이상의 메타데이터에 대한 록을 해제하는 단계(809)
    를 포함하는 하나 이상의 컴퓨터 판독가능 매체.
  19. 제18항에 있어서, 상기 복수의 변경은 하나 이상의 익스텐트의 데이터를 이동시키지 않고 익스텐트들에 대한 하나 이상의 포인터를 변경함으로써 상기 하나 이상의 선택된 스트림에 영향을 주는 하나 이상의 컴퓨터 판독가능 매체.
  20. 제18항에 있어서, 상기 복수의 변경은 새로운 스트림의 생성, 기존 스트림에의 첨부, 기존 스트림의 사본의 생성, 스트림 삭제, 스트림 개명, 스트림의 메타데이터의 갱신, 및 스트림의 익스텐트들의 서브세트의 제2 스트림으로의 복사 중 하나 이상을 포함하는 하나 이상의 컴퓨터 판독가능 매체.
KR1020117008649A 2008-10-24 2009-10-15 분산형 저장 시스템 내의 데이터의 원자 다중 변경 KR101573965B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/258,025 US8255373B2 (en) 2008-10-24 2008-10-24 Atomic multiple modification of data in a distributed storage system
US12/258,025 2008-10-24

Publications (2)

Publication Number Publication Date
KR20110079655A true KR20110079655A (ko) 2011-07-07
KR101573965B1 KR101573965B1 (ko) 2015-12-02

Family

ID=42119902

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117008649A KR101573965B1 (ko) 2008-10-24 2009-10-15 분산형 저장 시스템 내의 데이터의 원자 다중 변경

Country Status (11)

Country Link
US (1) US8255373B2 (ko)
EP (1) EP2356560B1 (ko)
JP (1) JP5657550B2 (ko)
KR (1) KR101573965B1 (ko)
CN (1) CN102197365B (ko)
AU (1) AU2009307842B2 (ko)
BR (1) BRPI0919072A2 (ko)
CA (1) CA2736961C (ko)
RU (1) RU2011116176A (ko)
TW (1) TWI395104B (ko)
WO (1) WO2010048027A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190142815A (ko) * 2018-06-19 2019-12-30 주식회사 티맥스데이터 데이터 익스텐트 이동 방법

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2191402A4 (en) * 2007-08-20 2014-05-21 Nokia Corp SEGMENTED METADATA AND INDEXES FOR MULTIMEDIA FLOW DATA
US9015136B2 (en) * 2010-01-22 2015-04-21 Microsoft Technology Licensing, Llc Storing temporary state data in separate containers
US8473953B2 (en) 2010-07-21 2013-06-25 International Business Machines Corporation Batching transactions to apply to a database
US9697216B2 (en) * 2011-07-20 2017-07-04 Simplivity Corporation Method and apparatus for differentiated data placement
US10180951B2 (en) 2013-03-15 2019-01-15 Amazon Technologies, Inc. Place snapshots
US9501501B2 (en) 2013-03-15 2016-11-22 Amazon Technologies, Inc. Log record management
US9514007B2 (en) 2013-03-15 2016-12-06 Amazon Technologies, Inc. Database system with database engine and separate distributed storage service
US9672237B2 (en) 2013-03-15 2017-06-06 Amazon Technologies, Inc. System-wide checkpoint avoidance for distributed database systems
US11030055B2 (en) 2013-03-15 2021-06-08 Amazon Technologies, Inc. Fast crash recovery for distributed database systems
US10747746B2 (en) 2013-04-30 2020-08-18 Amazon Technologies, Inc. Efficient read replicas
US9760596B2 (en) 2013-05-13 2017-09-12 Amazon Technologies, Inc. Transaction ordering
US9208032B1 (en) 2013-05-15 2015-12-08 Amazon Technologies, Inc. Managing contingency capacity of pooled resources in multiple availability zones
US10303564B1 (en) 2013-05-23 2019-05-28 Amazon Technologies, Inc. Reduced transaction I/O for log-structured storage systems
US9047189B1 (en) 2013-05-28 2015-06-02 Amazon Technologies, Inc. Self-describing data blocks of a minimum atomic write size for a data store
US9460008B1 (en) 2013-09-20 2016-10-04 Amazon Technologies, Inc. Efficient garbage collection for a log-structured data store
US10216949B1 (en) 2013-09-20 2019-02-26 Amazon Technologies, Inc. Dynamic quorum membership changes
US9699017B1 (en) 2013-09-25 2017-07-04 Amazon Technologies, Inc. Dynamic utilization of bandwidth for a quorum-based distributed storage system
US10223184B1 (en) 2013-09-25 2019-03-05 Amazon Technologies, Inc. Individual write quorums for a log-structured distributed storage system
US9880933B1 (en) 2013-11-20 2018-01-30 Amazon Technologies, Inc. Distributed in-memory buffer cache system using buffer cache nodes
US9223843B1 (en) 2013-12-02 2015-12-29 Amazon Technologies, Inc. Optimized log storage for asynchronous log updates
US10242222B2 (en) 2014-01-14 2019-03-26 Baker Hughes, A Ge Company, Llc Compartment-based data security
US10657113B2 (en) 2014-01-14 2020-05-19 Baker Hughes, A Ge Company, Llc Loose coupling of metadata and actual data
US10002077B2 (en) 2014-01-31 2018-06-19 Hewlett Packard Enterprise Development Lp Persistent memory controller based atomicity assurance
US9519510B2 (en) * 2014-03-31 2016-12-13 Amazon Technologies, Inc. Atomic writes for multiple-extent operations
CN106339176B (zh) * 2015-07-08 2020-04-10 阿里巴巴集团控股有限公司 中间文件处理方法、客户端、服务器和系统
US10789223B2 (en) 2016-03-24 2020-09-29 Microsoft Technology Licensing, Llc Hybrid garbage collection in a distributed storage system
DE102017210076B4 (de) * 2017-06-14 2023-08-24 Elektrobit Automotive Gmbh Verfahren und System zur Multikern-Kommunikation mit Sicherheitseigenschaften
CN109101341B (zh) * 2017-06-21 2022-02-22 阿里巴巴集团控股有限公司 分布式锁的分配方法及设备
US10872066B2 (en) 2017-06-27 2020-12-22 Salesforce.Com, Inc. Systems and methods of database tenant migration
KR102457400B1 (ko) 2017-11-16 2022-10-21 삼성전자주식회사 가비지 컬렉션 방법, 이를 수행하는 저장 장치 및 이를 포함하는 컴퓨팅 시스템
US11914571B1 (en) 2017-11-22 2024-02-27 Amazon Technologies, Inc. Optimistic concurrency for a multi-writer database
CN109240848A (zh) * 2018-07-27 2019-01-18 阿里巴巴集团控股有限公司 一种数据对象标识生成方法及装置
US10834194B2 (en) 2019-02-13 2020-11-10 International Business Machnes Corporation Batching updates in a dispersed storage network
US11237829B2 (en) * 2019-02-13 2022-02-01 International Business Machines Corporation Performing composable transactions in a dispersed storage network
US11341122B2 (en) 2019-07-24 2022-05-24 Vmware, Inc. Byzantine fault tolerance that supports heterogeneous clients
US11334561B2 (en) 2019-07-24 2022-05-17 Vmware, Inc. Flexible byzantine fault tolerant protocol using message delay upper bound for client commit decision
US11341163B1 (en) 2020-03-30 2022-05-24 Amazon Technologies, Inc. Multi-level replication filtering for a distributed database

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5313629A (en) * 1989-10-23 1994-05-17 International Business Machines Corporation Unit of work for preserving data integrity of a data-base by creating in memory a copy of all objects which are to be processed together
US5946685A (en) * 1997-06-27 1999-08-31 Sun Microsystems, Inc. Global mount mechanism used in maintaining a global name space utilizing a distributed locking mechanism
US5933834A (en) * 1997-10-16 1999-08-03 International Business Machines Incorporated System and method for re-striping a set of objects onto an exploded array of storage units in a computer system
US6240413B1 (en) * 1997-12-22 2001-05-29 Sun Microsystems, Inc. Fine-grained consistency mechanism for optimistic concurrency control using lock groups
US6173293B1 (en) 1998-03-13 2001-01-09 Digital Equipment Corporation Scalable distributed file system
US6697846B1 (en) 1998-03-20 2004-02-24 Dataplow, Inc. Shared file system
JP4286857B2 (ja) * 1998-11-18 2009-07-01 富士通株式会社 ノード間共用ファイル制御方法
US6523078B1 (en) * 1999-11-23 2003-02-18 Steeleye Technology, Inc. Distributed locking system and method for a clustered system having a distributed system for storing cluster configuration information
US6981005B1 (en) * 2000-08-24 2005-12-27 Microsoft Corporation Partial migration of an object to another storage location in a computer system
US7165096B2 (en) 2000-12-22 2007-01-16 Data Plow, Inc. Storage area network file system
US7788335B2 (en) * 2001-01-11 2010-08-31 F5 Networks, Inc. Aggregated opportunistic lock and aggregated implicit lock management for locking aggregated files in a switched file system
US7062490B2 (en) 2001-03-26 2006-06-13 Microsoft Corporation Serverless distributed file system
US6715050B2 (en) * 2001-05-31 2004-03-30 Oracle International Corporation Storage access keys
US20030041097A1 (en) 2001-07-11 2003-02-27 Alexander Tormasov Distributed transactional network storage system
US6687701B2 (en) * 2001-09-25 2004-02-03 Hewlett-Packard Development Company, L.P. Namespace management in a distributed file system
US7299463B2 (en) * 2001-09-28 2007-11-20 Intel Corporation Method for atomically updating a plurality of files
US7406473B1 (en) 2002-01-30 2008-07-29 Red Hat, Inc. Distributed file system using disk servers, lock servers and file servers
KR100453228B1 (ko) 2002-03-21 2004-10-15 한국전자통신연구원 공유 디스크 파일 시스템의 저널링 및 회복 방법
US7222119B1 (en) * 2003-02-14 2007-05-22 Google Inc. Namespace locking scheme
CA2422161C (en) * 2003-03-14 2009-10-06 Ibm Canada Limited - Ibm Canada Limitee Decoupled object identification for object switching in database systems
CN100430916C (zh) * 2003-05-17 2008-11-05 微软公司 用于将转换应用到多部分文件的方法和系统
US7243089B2 (en) * 2003-11-25 2007-07-10 International Business Machines Corporation System, method, and service for federating and optionally migrating a local file system into a distributed file system while preserving local access to existing data
US7349926B2 (en) * 2004-03-30 2008-03-25 International Business Machines Corporation Atomic renaming and moving of data files while permitting lock-free look-ups
US7685128B2 (en) * 2004-06-10 2010-03-23 International Business Machines Corporation Remote access agent for caching in a SAN file system
US20050289143A1 (en) 2004-06-23 2005-12-29 Exanet Ltd. Method for managing lock resources in a distributed storage system
US7584220B2 (en) * 2004-10-01 2009-09-01 Microsoft Corporation System and method for determining target failback and target priority for a distributed file system
US7650336B1 (en) * 2004-12-02 2010-01-19 Adobe Systems Incorporated File system atomic lock
US20060195460A1 (en) * 2005-02-28 2006-08-31 Microsoft Corporation Data model for object-relational data
US7680835B2 (en) * 2005-02-28 2010-03-16 Microsoft Corporation Online storage with metadata-based retrieval
US7870353B2 (en) * 2005-08-15 2011-01-11 International Business Machines Corporation Copying storage units and related metadata to storage
US20070106771A1 (en) * 2005-11-10 2007-05-10 International Business Machines Corporation Reconciliation of independently updated distributed data
US7650514B2 (en) * 2005-12-30 2010-01-19 Microsoft Corporation Scalable leases
US7392335B2 (en) 2006-02-10 2008-06-24 Oracle International Corporation Anticipatory changes to resources managed by locks
US7809685B2 (en) * 2006-04-21 2010-10-05 Ricoh Co., Ltd. Secure and efficient methods for logging and synchronizing data exchanges
JP4890931B2 (ja) * 2006-05-01 2012-03-07 キヤノン株式会社 コンテンツ管理方法、装置、及びシステム
US8255420B2 (en) * 2006-05-23 2012-08-28 Noryan Holding Corporation Distributed storage
US8019790B2 (en) * 2006-07-11 2011-09-13 Dell Products, Lp System and method of dynamically changing file representations
US7822728B1 (en) * 2006-11-08 2010-10-26 Emc Corporation Metadata pipelining and optimization in a file server
US7620659B2 (en) * 2007-02-09 2009-11-17 Microsoft Corporation Efficient knowledge representation in data synchronization systems
US7836226B2 (en) * 2007-12-06 2010-11-16 Fusion-Io, Inc. Apparatus, system, and method for coordinating storage requests in a multi-processor/multi-thread environment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190142815A (ko) * 2018-06-19 2019-12-30 주식회사 티맥스데이터 데이터 익스텐트 이동 방법

Also Published As

Publication number Publication date
US8255373B2 (en) 2012-08-28
TW201029393A (en) 2010-08-01
US20100114848A1 (en) 2010-05-06
EP2356560A4 (en) 2012-05-09
CA2736961C (en) 2016-07-12
KR101573965B1 (ko) 2015-12-02
CA2736961A1 (en) 2010-04-29
JP5657550B2 (ja) 2015-01-21
WO2010048027A3 (en) 2010-06-17
AU2009307842A1 (en) 2010-04-29
BRPI0919072A2 (pt) 2015-12-15
TWI395104B (zh) 2013-05-01
EP2356560B1 (en) 2019-03-20
CN102197365B (zh) 2014-03-05
RU2011116176A (ru) 2012-10-27
CN102197365A (zh) 2011-09-21
WO2010048027A2 (en) 2010-04-29
JP2012507072A (ja) 2012-03-22
AU2009307842B2 (en) 2014-05-22
EP2356560A2 (en) 2011-08-17

Similar Documents

Publication Publication Date Title
KR101573965B1 (ko) 분산형 저장 시스템 내의 데이터의 원자 다중 변경
JP7393334B2 (ja) コンテンツアイテム同期のための一意の識別子の割り振り及び再割り当て
JP6309103B2 (ja) スナップショットおよびクローンの複製
CN109074306B (zh) 分布式存储系统中的混合垃圾收集
JP4762972B2 (ja) データベース内の回復ユニット(recoveryunit)のためのシステムおよび方法
KR101932372B1 (ko) 인 플레이스 스냅샷들
JP6246315B2 (ja) ログレコード管理
US11132350B2 (en) Replicable differential store data structure
US20060190469A1 (en) Serialization of file system item(s) and associated entity(ies)
JP2008541225A (ja) データベースとファイルシステムとの間でのリンクレベル整合性の維持
CN110209527B (zh) 数据恢复方法、装置、服务器以及存储介质
JP2022501747A (ja) データバックアップ方法、装置、サーバ及びコンピュータプログラム
US11221777B2 (en) Storage system indexed using persistent metadata structures
JP2002014859A (ja) リソース・グループをアトミックかつ永続的にスワップする方法、システムおよびプログラム
US11803511B2 (en) Methods and systems for ordering operations on a file system having a hierarchical namespace

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191029

Year of fee payment: 5