KR20210147976A - 확장 가능하고 일관성 있는 메모리 장치를 위한 시스템 및 방법 - Google Patents

확장 가능하고 일관성 있는 메모리 장치를 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20210147976A
KR20210147976A KR1020210069113A KR20210069113A KR20210147976A KR 20210147976 A KR20210147976 A KR 20210147976A KR 1020210069113 A KR1020210069113 A KR 1020210069113A KR 20210069113 A KR20210069113 A KR 20210069113A KR 20210147976 A KR20210147976 A KR 20210147976A
Authority
KR
South Korea
Prior art keywords
memory
controller
cache
cxl
data
Prior art date
Application number
KR1020210069113A
Other languages
English (en)
Inventor
크리슈나 티. 말라디
앤드류 창
이산 나자파바디
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20210147976A publication Critical patent/KR20210147976A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/06Addressing a physical block of locations, e.g. base addressing, module addressing, memory dedication
    • G06F12/0646Configuration or reconfiguration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0817Cache consistency protocols using directory methods
    • G06F12/0824Distributed directories, e.g. linked lists of caches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0813Multiuser, multiprocessor or multiprocessing cache systems with a network or matrix configuration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0831Cache consistency protocols using a bus scheme, e.g. with bus monitoring or watching means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0866Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches for peripheral storage systems, e.g. disk cache
    • G06F12/0868Data transfer between cache memory and other subsystems, e.g. storage devices or host systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0866Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches for peripheral storage systems, e.g. disk cache
    • G06F12/0871Allocation or management of cache space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0891Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches using clearing, invalidating or resetting means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0893Caches characterised by their organisation or structure
    • G06F12/0897Caches characterised by their organisation or structure with two or more cache hierarchy levels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/16Handling requests for interconnection or transfer for access to memory bus
    • G06F13/1605Handling requests for interconnection or transfer for access to memory bus based on arbitration
    • G06F13/1642Handling requests for interconnection or transfer for access to memory bus based on arbitration with request queuing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/16Handling requests for interconnection or transfer for access to memory bus
    • G06F13/1668Details of memory controller
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4204Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
    • G06F13/4234Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being a memory bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • G06F15/17306Intercommunication techniques
    • G06F15/17331Distributed shared memory [DSM], e.g. remote direct memory access [RDMA]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • G06F3/0679Non-volatile semiconductor memory device, e.g. flash memory, one time programmable memory [OTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • G06F9/30047Prefetch instructions; cache control instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/0284Multiple user address space allocation, e.g. using different base addresses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0888Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches using selective caching, e.g. bypass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1048Scalability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/15Use in a specific computing environment
    • G06F2212/154Networked environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/21Employing a record carrier using a specific recording technology
    • G06F2212/217Hybrid disk, e.g. using both magnetic and solid state storage devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/28Using a specific disk cache architecture
    • G06F2212/283Plural cache memories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/60Details of cache memory
    • G06F2212/601Reconfiguration of cache memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0026PCI express
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

스토리지 자원을 제공하는 시스템, 방법 및 장치가 제공된다. 상기 방법은 캐시 일관성 프로토콜에 따라 네트워크 인터페이스에 연결된 제1 컨트롤러를 동작시키는 단계; 상기 제1 컨트롤러에 연결되고 제1 메모리에 연결된 제2 컨트롤러를 사용하여 캐시와 연관된 데이터에 대해 적어도 하나의 동작을 수행하는 단계; 및 상기 제1 컨트롤러 또는 상기 제2 컨트롤러 중 하나에 연결된 제2 메모리에 상기 데이터를 저장하는 단계를 포함한다.

Description

확장 가능하고 일관성 있는 메모리 장치를 위한 시스템 및 방법{SYSTEMS AND METHODS FOR SCALABLE AND COHERENT MEMORY DEVICES}
본 개시는 일반적으로 캐시 일관성에 관한 것이고, 보다 구체적으로는 확장 가능하고 일관성 있는 메모리 장치를 위한 시스템 및 방법에 관한 것이다.
일부 서버 시스템은 네트워크 프로토콜에 의해 연결된 서버들의 컬렉션을 포함할 수 있다. 이러한 시스템의 서버들 각각은 프로세싱 자원(예를 들어, 프로세서) 및 메모리 자원(예를 들어, 시스템 메모리)를 포함할 수 있다. 어떤 환경에서는 한 서버의 처리 자원이 다른 서버의 메모리 자원에 액세스하는 것이 유리할 수 있으며, 이러한 액세스는 이들 서버의 어느 하나의 처리 자원을 최소화하면서 발생하는 것이 유리할 수 있다.
따라서, 하나 이상의 서버들을 포함하는 시스템에서 메모리 자원을 관리하는 개선된 시스템 및 방법에 대한 요구가 있다.
이 발명의 배경 기술에 공개된 상기 정보는 본 개시의 배경의 이해를 높이기 위한 것일 뿐이므로 종래 기술을 구성하지 않는 정보를 포함할 수 있다.
본 개시의 목적은 스토리지 자원을 제공하는 시스템, 방법 및 장치를 제공하는데 있다.
다양한 실시예에서, 스토리지 자원을 제공하기 위한 시스템, 방법 및 장치가 설명된다. 특히, 장치가 개시되는데, 상기 장치는 네트워크 인터페이스에 연결되며 캐시 일관성 프로토콜과 동작 가능한 제1 컨트롤러; 상기 제1 컨트롤러에 연결되고 제1 메모리에 연결되며, 상기 장치의 캐시와 관련된 적어도 하나의 동작을 수행하는 제2 컨트롤러; 및 상기 제1 컨트롤러 또는 상기 제2 컨트롤러 중 적어도 하나에 연결된 제2 메모리를 포함한다.
일부 실시예에서, 상기 장치는 호스트로부터 구성 정보를 수신하고; 상기 제2 컨트롤러를 동작의 부팅-시간 모드에서 소프트웨어 기반 캐시 또는 하드웨어 기반 캐시 중 하나로서 동작시키도록 상기 장치를 구성하고; 상기 캐시 일관성 프로토콜을 사용하여 상기 네트워크 인터페이스를 통해 데이터를 상기 제1 컨트롤러를 통해 수신하고; 상기 데이터에 대해 적어도 하나의 제2 동작을 수행하여 제2 데이터를 생성하고; 상기 캐시 일관성 프로토콜에 기초하여 상기 제2 메모리에 상기 제2 데이터를 저장한다. 다른 실시예에서, 상기 캐시 일관성 프로토콜은 CXL(compute express link) 프로토콜을 포함하고, 상기 장치는 상기 장치와 관련된 적어도 하나의 능력을 결정하고 상기 능력을 호스트에 제공하는 프로파일러를 더 포함한다.
다른 실시예에서, 상기 장치는 제3 메모리에 연결된 제3 컨트롤러를 더 포함하고, 상기 제3 메모리는 비휘발성 메모리를 포함한다. 다양한 실시예에서, 상기 제1 메모리는 제1 휘발성 메모리를 포함하고, 상기 제2 메모리는 제2 휘발성 메모리를 포함한다. 다른 실시예에서, 상기 휘발성 메모리는 DDR(double-data rate) 메모리 또는 저전력 DDR 메모리를 포함한다. 상기 제1 메모리는 제1 비휘발성 메모리를 포함하고, 상기 제2 메모리는 제2 비휘발성 메모리를 포함한다. 일 실시예에서, 상기 제1 비휘발성 메모리는 3차원 플래시 메모리를 포함한다.
다양한 실시에에서, 상기 장치는 M.2 폼 팩터, E1.L 폼 팩터, E1.S 폼 팩터, E3 S/L 폼 팩터, U.2 폼 팩터, NF1 폼 팩터, 전체 높이, 절반 길이(FHHL), 애드인 카드(add-in card)(AIC) 폼 팩터 또는 절반 높이, 절반 길이(HHHL) AIC 폼 팩터 중 적어도 하나를 포함한다.
다른 실시예에서, 상기 제2 컨트롤러는 흐름 제어 모듈, 캐시 어드레싱 모듈 또는 캐시 정책 모듈 중 적어도 하나를 포함한다. 일부 실시예에서, 제2 컨트롤러는 채널 요청 큐, 휘발성 메모리 요청 스케줄러 또는 휘발성 메모리 명령 스케줄러 중 적어도 하나를 포함한다. 다른 실시예에서, 상기 장치는 가속기 또는 네트워크 인터페이스 카드(NIC)를 더 포함한다.
유사하게, 전술한 바와 동일한 또는 유사한 동작들을 실질적으로 수행하는 시스템 및 방법이 또한 개시된다.
따라서, 여기에서 설명된 본 발명의 특정 실시예들은 다음의 이점들 중 하나 이상을 실현하도록 구현될 수 있다. 네트워크 대기 시간을 줄이고 네트워크 안정성과 운영 데이터 전송률을 개선하여 사용자 경험을 개선한다. 라우팅 네트워크 트래픽, 네트워크 유지 관리, 네트워크 업그레이드 등과 관련된 비용을 감소시킨다. 또한, 일부 측면에서, 개시된 시스템은 네트워크상의 장치의 전력 소비 및/또는 대역폭을 감소시키는 역할을 할 수 있고, 장치 간의 통신 속도 및/또는 효율성을 증가시키는 역할을 할 수 있다.
본 기술의 전술한 측면 및 다른 측면은 첨부된 도면을 참조하여 본 출원을 읽을 때 더 잘 이해되며, 도면에서 유사한 참조번호는 유사하거나 동일한 요소를 나타낸다.
도 1a는 본 개시의 일 실시 예에 따른, 캐시-일관성 연결을 사용하여 메모리 자원을 컴퓨팅 자원에 첨부하는 시스템의 블록도이다.
도 1b는 본 개시의 일 실시 예에 따른, 캐시-일관성 연결을 사용하여 메모리 자원을 컴퓨팅 자원에 첨부하는, 확장 소켓 어댑터를 채용한 시스템의 블록도이다.
도 1c는 본 개시의 일 실시 예에 따른, 이더넷 ToR 스위치를 채용한 메모리를 취합하는 시스템의 블록도이다.
도 1d는 본 개시의 일 실시 예에 따른, 이더넷 ToR 스위치 및 확장 소켓 어댑터를 채용한 메모리를 취합하는 시스템의 블록도이다.
도 1e는 본 개시의 일 실시 예에 따른, 메모리를 취합하는 시스템의 블록도이다.
도 1f는 본 개시의 일 실시 예에 따른, 확장 소켓 어댑터를 채용한 메모리를 취합하는 시스템의 블록도이다.
도 1g는 본 개시의 일 실시 예에 따른, 서버들을 해체하는 시스템의 블록도이다.
도 2는 본 개시의 예시적인 실시예들에 따른, 도 1a 내지 도 1g와 관련하여 설명된 다양한 서버들과 통신하고 구성할 수 있는 관리 컴퓨팅 엔티티와 관련하여 개시된 실시예들이 동작할 수 있는 대표적인 시스템 아키텍처의 다이어그램을 도시한다.
도 3a는 본 개시의 예시적인 실시예들에 따른, 도 1a 내지 도 1g와 관련하여 설명된 다양한 서버들과 통신하고 구성할 수 있는 관리 컴퓨팅 엔티티와 관련하여 개시된 실시예들이 동작할 수 있는 대표적인 시스템 아키텍처의 제1 다이어그램을 도시한다.
도 3b는 본 개시의 예시적인 실시예들에 따른, 도 1a 내지 도 1g와 관련하여 설명된 다양한 서버들과 통신하고 구성할 수 있는 관리 컴퓨팅 엔티티와 관련하여 개시된 실시예들이 동작할 수 있는 대표적인 시스템 아키텍처의 제2 다이어그램을 도시한다.
도 3c는 개시의 예시적인 실시예들에 따른, 도 1a 내지 도 1g와 관련하여 설명된 다양한 서버들과 통신하고 구성할 수 있는 관리 컴퓨팅 엔티티와 관련하여 개시된 실시예들이 동작할 수 있는 대표적인 시스템 아키텍처의 제3 다이어그램을 도시한다.
도 3d는 개시의 예시적인 실시예들에 따른, 도 1a 내지 도 1g와 관련하여 설명된 다양한 서버들과 통신하고 구성할 수 있는 관리 컴퓨팅 엔티티와 관련하여 개시된 실시예들이 동작할 수 있는 대표적인 시스템 아키텍처의 제4 다이어그램을 도시한다.
도 4는 도 1과 관련하여 설명된 서버의 측면들을 특성화할 수 있는 대표적인 파라미터들의 대표적 테이블의 다이어그램을 도시하며, 여기서 관리 컴퓨팅 엔티티는 본 개시의 예시적인 실시예에 따라 파라미터들의 테이블에 기초하여 다양한 서버를 구성한다.
도 5는 본 개시의 예시적인 실시예들에 따른, 메모리 장치에 대한 상이한 구성들의 다이어그램들을 도시한다.
도 6은 본 개시의 예시적인 실시예들에 따른, 장치 관련 파라미터들과 연관된 예시적인 테이블을 도시한다.
도 7은 본 개시의 예시적인 실시예들에 따른, 예시적인 캐시-일관성 장치 마이크로아키텍처를 도시한다.
도 8은 본 개시의 예시적인 실시예들에 따른, 자원 관리를 위한 예시적인 장치를 도시한다.
도 9는 본 개시의 예시적인 실시예들에 따른 예시적인 캐시 일관성 장치를 도시한다.
도 10은 본 개시의 예시적인 실시예들에 따른, 개시된 시스템들과 관련된 예시적인 동작들을 포함하는 예시적인 흐름을 도시한다.
도 11은 본 개시의 실시예들을 실행하는데 사용될 수 있는 시스템의 예시적인 개략도를 도시한다.
도 12는 본 개시의 예시적인 실시예들에 따른, 관리 컴퓨팅 엔티티의 예시적인 개략도를 도시한다.
도 13은 본 개시의 예시적인 실시예들에 따른, 사용자 장치의 예시적인 개략도를 도시한다.
본 기술은 다양한 변경 및 대안적인 형태가 가능하지만, 그 특정 실시예들이 도면에서 예로서 도시되고 여기서 설명될 것이다. 도면은 축척되지 않을 수 있다. 그러나, 도면 및 그에 대한 상세한 설명은 본 기술을 개시된 특정 형태로 제한하려는 것이 아니라, 첨부된 청구범위에 의해 정의 된 본 기술의 사상 및 범위 내에 있는 모든 변경, 등가물 및 대안을 포함하도록 의도된 것임을 이해해야 한다.
본 명세서에 설명된 발명의 하나 이상의 실시예들의 세부사항은 첨부된 도면 및 이하의 설명에서 제공된다. 본 발명의 다른 특징, 측면 및 이점은 상세한 설명, 도면 및 청구 범위로부터 명백해질 것이다.
이하, 본 개시의 다양한 실시예들이 첨부된 도면을 참조하여 보다 완전하게 설명될 것이며, 여기서 모든 실시예는 아니지만 일부 실시예가 도시된다. 실제로, 본 개시는 다수의 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되는 것으로 해석되어서는 안되며, 오히려 이러한 실시예들은 본 개시가 적용 가능한 법적 요건을 만족하도록 제공된다. 용어 "또는"는 별도로 언급되지 않는 한 대안적 및 결합적 의미로 여기에서 사용된다. "도시"및 "예시"라는 용어는 품질 레벨을 나타내지 않는 예들로 사용된다. 동일한 도면부호는 전체적으로 동일한 요소를 나타낸다. 각 도면에서 화살표는 양방향 데이터 흐름 및/또는 양방향 데이터 흐름 능력을 나타낸다. 용어 "패스(path)", "경로(pathway)"및 "루트(route)"는 여기에서 상호 교환적으로 사용된다.
본 개시의 실시예들은 제조 물품을 포함하는 컴퓨터 프로그램 제품을 포함하여 다양한 방식으로 구현될 수 있다. 컴퓨터 프로그램 제품은 어플리케이션, 프로그램, 프로그램 컴포넌트, 스크립트, 소스 코드, 프로그램 코드, 개체 코드, 바이트 코드, 컴파일된 코드, 해석된 코드, 기계 코드, 실행가능한 명령어(실행 가능한 명령어, 실행을 위한 명령어, 컴퓨터 프로그램 제품, 프로그램 코드 및/또는 여기에서 상호 교환적으로 사용되는 유사한 용어로 지칭됨) 등을 포함할 수 있다. 이러한 비-일시적 컴퓨터 판독가능 저장 매체는 모든 컴퓨터 판독 가능 매체(휘발성 및 비휘발성 매체를 포함함)를 포함한다.
일 실시예에서, 비휘발성 컴퓨터 판독 가능 저장 매체는 플로피 디스크, 플렉서블 디스크, 하드 디스크, 솔리드 스테이트 스토리지(SSS)(예컨대, 솔리드 스테이트 드라이브(SSD)), 솔리드 스테이트 카드(SSC), 솔리드 스테이트 컴포넌트(SSM), 엔터프라이즈 플래시 드라이브, 자기 테이프 또는 기타 비-일시적 자기 매체 등을 포함할 수 있다. 비휘발성 컴퓨터 판독가능 저장 매체는 또한 펀치 카드, 종이 테이프, 광학 마크 시트(또는 홀 패턴 또는 기타 광학적으로 인식 가능한 인디시아를 가진 기타 물리적 매체), CD-ROM (Compact Disc Read Only Memory), CD-RW (compact disc-rewritable), DVD(Digital Versatile Disc), BD(Blu-ray Disc), 기타 비-일시적 광학 매체 등을 포함한다. 이러한 비휘발성 컴퓨터 판독가능 저장 매체는 또한 ROM(read-only memory), PROM(programmable read-only memory), EPROM(erasable programmable read-only memory), EEPROM(electrically erasable programmable read-only memory), 플래시 메모리(예컨대, 시리얼, NAND, NOR 등), MMC(multimedia memory cards), SD(secure digital) 메모리 카드, 스마트미디어 카드(SmartMedia cards), 컴팩플래시(CompactFlash: CF) 카드, 메모리 스틱 등을 포함할 수 있다. 또한, 비휘발성 컴퓨터 판독가능 저장 매체는 CBRAM (conductive-bridging random access memory), PRAM (phase-change random access memory), FeRAM(ferroelectric random-access memory), 비휘발성 랜덤 액세스 메모리(NVRAM), 자기 저항성 랜덤 액세스 메모리 (MRAM), 저항성 랜덤 액세스 메모리 (RRAM), SONOS(silicon-Oxide-Nitride-Oxide-Silicon) 메모리, 플로팅 접합 게이트 랜덤 액세스 메모리 (FJG RAM), 밀리피드(Millipede) 메모리, 레이스트랙(racetrack) 메모리 등을 또한 포함할 수 있다.
일 실시예에서, 휘발성 컴퓨터 판독가능 저장 매체는 랜덤 액세스 메모리(RAM), 동적 랜덤 액세스 메모리(DRAM), 정적 랜덤 액세스 메모리(SRAM), 고속 페이지 모드 동적 랜덤 액세스 메모리(FPM DRAM), EDO DRAM(extended data-out dynamic random access memory), 동기식 동적 랜덤 액세스 메모리 (SDRAM), DDR SDRAM(double data rate synchronous dynamic random access memory), DDR2 SDRAM(double data rate type two synchronous dynamic random access memory), DDR3 SDRAM(double data rate type three synchronous dynamic random access memory), RDRAM(Rambus dynamic random access memory), TTRAM(Twin Transistor RAM), T-RAM(Thyristor RAM), 제로 커패시터 RAM (Zero-capacitor RAM), RIMM(Rambus in-line memory component), DIMM(dual in-line memory component), SIMM(single in-line memory component), 비디오 랜덤 액세스 메모리(VRAM), 캐시 메모리 (다양한 레벨 포함), 플래시 메모리, 레지스터 메모리 등을 포함할 수 있다. 실시예들이 컴퓨터 판독가능 저장 매체를 사용하는 것으로 설명되는 경우, 다른 타입의 컴퓨터 판독가능 저장 매체가 전술 한 컴퓨터 판독가능 저장 매체에 추가하여 대체되거나 사용될 수 있다는 것이 이해될 것이다.
이해되는 바와 같이, 본 개시의 다양한 실시예들은 또한 방법, 장치, 시스템, 컴퓨팅 장치, 컴퓨팅 엔티티 등으로 구현될 수 있다. 이와 같이, 본 개시의 실시예들은 특정 단계들 또는 동작들을 수행하기 위해 컴퓨터 판독가능 저장 매체에 저장된 명령어들을 실행하는 장치, 시스템, 컴퓨팅 장치, 컴퓨팅 엔티티 등의 형태를 취할 수 있다. 따라서, 본 개시의 실시예들은 또한 전체 하드웨어 실시예, 전체 컴퓨터 프로그램 제품 실시예, 및/또는 특정 단계 또는 동작을 수행하는 컴퓨터 프로그램 제품 및 하드웨어의 조합을 포함하는 실시예의 형태를 취할 수 있다.
본 개시의 실시예는 블록도 및 흐름도 도시를 참조하여 이하 설명된다. 따라서, 블록도 및 순서도 도시의 각 블록은 실행을 위해 컴퓨터 판독가능 저장 매체 상의 명령어, 동작, 단계 및 상호 교환적으로 사용되는 유사 단어들(예컨대, 실행가능한 명령어, 실행을 위한 명령어, 프로그램 코드 등)을 수행하는 컴퓨터 프로그램 제품, 전체 하드웨어 실시예, 하드웨어 및 컴퓨터 프로그램 제품의 조합, 및/또는 장치, 시스템, 컴퓨팅 장치, 컴퓨팅 엔티티 등의 형태로 구현될 수 있음이 이해되어야 한다. 예를 들어, 코드의 검색, 로딩(loading) 및 실행은 한 번에 하나의 명령어가 검색되고, 로딩되고 및 실행되도록 순차적으로 수행될 수 있다. 일부 예시적인 실시예에서, 검색, 로딩 및/또는 실행은 다수의 명령어가 함께 검색, 로딩 및/또는 실행되도록 병렬로 수행될 수 있다. 따라서, 이러한 실시예들은 블록도 및 흐름도 도시들에 명시된 단계 또는 동작을 수행하는 구체적으로-구성된 기계(machine)을 생산할 수 있다. 따라서, 블록도 및 흐름도 도시들은 명시된 명령어들, 동작들 또는 단계들은 수행하기 위한 실시예들의 다양한 조합을 지원한다.
일부 측면에서, 네트워크화된 계산 및 저장은 데이터 수요가 증가함에 따라 몇 가지 문제에 직면할 수 있다. 특히, 워크로드들은 높은 대역폭 할당 니즈를 갖는 것에 추가하여 메모리 및 입/출력(IO) 대기 시간에서 다양성을 나타냄에 따라 하이퍼스케일 워크로드 필요요건이 점점 더 까다로워지고 있다. 또한 일부 기존 시스템은 하드웨어 랙 시스템을 재구성하지 않고도 자원 탄력성을 감소시킬 수 있으며, 이는 데이터 처리 및 저장 필요요건을 방해할 수 있는 비효율성을 초래할 수 있다. 더욱이, 컴퓨팅 및 메모리 자원들은 점점 더 긴밀하게 결합되고 있으며 하나의 자원에 대한 필요요건이 증가하면 다른 자원에 대한 필요요건에 영향을 미칠 수 있다. 또한, 업계 전체는 실현 가능한 분산 공유 메모리와 대용량 주소 공간 시스템의 부족에 직면해 있다. 일부 측면에서, 고정된 자원은 소유 비용(예컨대, 데이터 센터-기반 환경)에 추가될 수 있으며 하위 시스템의 최고 성능을 제한할 수도 있다. 어떤 측면에서, 이러한 환경에서 사용되는 하드웨어는 서로 다른 교체 주기들 및 관련 타임라인들을 가질 수 있으며, 이는 이러한 시스템의 업데이트를 더욱 복잡하게 만들 수 있다. 따라서, 자원의 개선된 공유 및 네트워크화된 컴퓨팅 시스템에서 워크로드로의 매칭에 대한 요구가 있다.
일부에서는 CXL(Compute Express Link)과 같은 캐시 일관성 프로토콜이 메모리 확장 및 일관성 가속기를 인에이블할 수 있다. 다양한 실시 예에서, 개시된 시스템은 CXL과 같은 캐시 일관성 프로토콜을 사용하여 고유의 구성들을 필요로 하는 서로 다른 워크로드를 수용하면서 일 클래스의 메모리 시스템들 및 가속기들을 가능하게 한다. 따라서, 개시된 시스템은 예를 들어, 데이터 센터의 하나 이상의 클러스터에서 랙들에 걸쳐 구동하는 각 워크로드에 시스템 뷰를 제공하는 패브릭 및 아키텍처를 활용하여 구성 가능한 캐시 일관성(예를 들어, CXL) 메모리 및 가속기 자원을 가능하게 할 수 있다. 일부 측면에서, 개시된 시스템은 단일 서버 이상으로 캐시 일관성을 확장하고, 워크로드 요구에 따라 이기종 랙들의 관리를 제공하며, 자원의 구성 가능성을 제공하는 역할을 할 수 있다. 또한 일부 예에서 PCIe 패브릭 상에서의 CXL은 원격 I/O 장치의 구성 가능성에 사용될 수 있는 NVMeoF(Non-Volatile Memory express over fabric)와 같은 다른 프로토콜에 대한 상대방(counterpart)으로서 기능할 수 있다. 여기에서 사용되는 "구성 가능한(composable)"은 주어진 장치(예 컨대, 특정 클러스터의 캐시 일관성 인에이블된 장치)가 예컨대, 워크로드의 적어도 일부를 실행하기 위해 네트워크의 다른 부분(예컨대, 제2 클러스터의 적어도 하나의 다른 캐시 일관성 인에이블된 장치)으로부터 자원(예컨대, 메모리, 컴퓨팅 및/또는 네트워크 자원)을 요청 및/또는 획득할 수 있는 속성을 나타낼 수 있다. 일부 실시예에서, 여기에서 사용되는 구성 가능성(composability)은 임의의 어플리케이션 또는 워크로드를 구동하기 위해 임의의 적합한 구성으로의 물리적 및 가상의 컴퓨팅, 스토리지 및 패브릭 자원들의 유동적 풀의 사용을 포함할 수 있다.
다양한 실시예에서, 개시된 시스템은 제어 평면과 관련된 다양한 동작을 실행하도록 구성될 수 있는 하나 이상의 프로세서(예를 들어, RISC-V 프로세서(들))를 갖는 캐시 일관성 CXL 모듈을 포함하는 하나 이상의 아키텍처 컴포넌트를 포함할 수 있다. 또한, 개시된 시스템은 캐시 일관성 CXL 자원의 하나 이상의 동종 풀의 사용을 가능하게 할 수 있으며, 이는 이하 더 설명된다. 특히, 개시된 시스템은 다양한 네트워크 장치에 의해 사용하기 위한 캐시 일관성 자원의 성능 및 용량 및 가속 특성을 노출하고 활용하는 관리 컴퓨팅 장치를 특징으로 할 수 있다. 특히, 관리 컴퓨팅 장치는 관리 컴퓨팅 장치가 동작하는 시스템과 관련된 하나 이상의 파라미터를 결정하고 상기 파라미터들에 기초하여 워크로드를 다른 클러스터로 라우팅할 수 있다.
다양한 실시예에서, 개시된 시스템은 다수의 동종 자원 풀의 사용을 가능하게 할 수 있으며, 각각의 풀은 특정 캐시 일관성 아키텍처에 특화되어 있다. 특히, 개시된 시스템은 직접 부착된 메모리 확장 장치(SCM, DRAM, DRAM-ZNAND 하이브리드)를 갖는 서버들의 컬렉션일 수 있는 타입-A 클러스터, CXL 타입-2 호환(complaint) 일관성 가속기들의 컬렉션일 수 있는 Type-B 클러스터, 프로세스들이 동일한 주소 공간을 공유하는 백도어 PCIe 상호연결을 사용하여 분배된 메모리 시스템 아키텍처에서 연결된 CXL 장치들을 포함할 수 있는 타입-C 클러스터, 및 동일한 구조(예컨대, 섀시)의 물리적 클러스터 메모리 및 가속기 확장을 포함하는 타입-D 클러스터를 사용할 수 있다.
다양한 실시예에서, 관리 컴퓨팅 장치를 포함하는 개시된 시스템은 스마트-장치 아키텍처를 특징으로 할 수 있다. 특히, 개시된 시스템은 캐시 일관성 인터페이스(예컨대, CXL/PCIe5 인터페이스)로 플러그하는 장치를 특징으로 할 수 있으며 다양한 캐시 및 메모리 프로토콜들(예컨대, 타입-2 장치 기반 CXL.cache 및 CXL.memory 프로토콜들)을 구현할 수 있다. 또한, 일부 예에서, 장치는 캐시 일관성 프로토콜(예를 들어, CXL.IO 프로토콜)을 사용하여 협상된 로컬 시스템의 일부로서 원격 일관성 장치를 제공하도록 구성될 수 있는 프로그래밍 가능 컨트롤러 또는 프로세서(예를 들어, RISC-V 프로세서)를 포함할 수 있다.
다양한 실시예에서, 개시된 시스템은 클러스터-레벨 성능 기반 제어 및 관리 능력을 가능하게 하여 워크로드가 원격 아키텍처 구성 및 장치 성능, 전력 특성 등에 기반하여 자동으로 (예를 들어, 알고리즘 방식 및/또는 머신 러닝-기반 방식을 통해) 라우팅될 수 있다. 일부 예에서, 개시된 시스템은 ASIC 회로, FPGA 유닛 등을 통해 적어도 부분적으로 프로그래밍될 수 있다. 또한, 이러한 장치는 AI 기반 기술(예를 들어, 머신 러닝 기반 방법론)을 구현하여 여기에 도시되고 설명된 워크로드를 라우팅할 수 있다. 또한, 개시된 시스템은 미리 결정된 기준(예를 들어, 통화 또는 전력 단위당 최고의 성능)에 기초하여 발견 및/또는 워크로드 분할 및/또는 자원 바인딩을 수행하기 위해 관리 컴퓨팅 엔티티를 사용할 수 있다. 또한, 관리 컴퓨팅 엔티티는 캐시 일관성 프로토콜 기반(예를 들어, CXL 기반) 왕복 시간, 장치가 호스트 바이어스에 있는지 또는 장치 바이어스에 있는지 여부의 결정, 캐시 일관성 프로토콜 기반(예컨대, CXL 기반) 스위치 계층 및/또는 디바이스 다운스트림 포트로의 호스트 업스트림 포트의 바인딩, 캐시 일관성 프로토콜 기반(예컨대, CXL 기반) 스위치 패브릭 매니저 구성, 캐시 일관성 프로토콜 기반(예컨대, CXL 기반) 프로토콜 패킷 또는 물리적 매체 패킷(예컨대, CXL.IO 또는 PCIe 개입 벌크 4KB 패킷), 네트워크 대기 시간, 캐시 일관성 프로토콜 기반 (예 : CXL 기반) 메모리 기술 (예컨대, 메모리 타입), 이들의 조합, 등을 포함하지만 이에 제한받지 않는 시스템의 다양한 파라미터들에 기초하여 이러한 동작들을 수행할 수 있다.
다양한 실시예에서, 관리 컴퓨팅 엔티티(202)는 랙 및/또는 클러스터 레벨에서 동작할 수 있으며 및/또는 주어진 클러스터 아키텍처의 일부(예를 들어, 타입 A, B, C, 및/또는 D 클러스터)인 주어진 장치(예를 들어, 캐시-일관성 인에이블된 장치) 내에서 적어도 부분적으로 동작할 수 있다. 다양한 실시예에서, 주어진 클러스터 아키텍처 내의 상기 장치는 관리 컴퓨팅 엔티티의 동작들의 제1 부분을 수행할 수 있는 반면, 관리 컴퓨팅 엔티티의 동작들의 다른 부분은 랙 상에서 및/또는 클러스터 레벨에서 구현될 수 있다. 일부 실시예에서, 동작들의 2개의 부분들은 조정된 방식으로(예를 들어, 클러스터내의 장치가 랙에서 및/또는 클러스터 레벨에서 구현된 관리 컴퓨팅 엔티티로/로부터 조정 메시지를 송수신함으로써) 수행될 수 있다. 일부 실시예에서, 클러스터 내의 장치와 관련된 동작들의 제1 부분은 장치 또는 클러스터에 의해 현재 또는 미래의 자원 니즈(need)를 결정하는 단계, 장치 또는 클러스터에 의해 현재 또는 미래의 자원 가용성을 광고하는 단계, 장치 또는 클러스터 레벨에서 구동되고 있는 알고리즘과 관련된 특정 파라미터들을 동기화하는 단계, 장치의 또는 랙/클러스터의 동작들과 관련된 하나 이상의 머신 러닝 모듈을 트레이닝하는 단계, 또는 라우팅 워크로드, 이들의 조합 등과 관련된 해당 데이터를 기록하는 단계를 포함하며, 이에 제한되지 않는다.
PCIe(Peripheral Component Interconnect Express)는 메모리에 대한 연결들을 생성하는 데 있어서 그의 유용성을 제한할 수 있는 상대적으로 높고 가변적인 대기시간(latency)을 가질 수 있는 컴퓨터 인터페이스를 나타낼 수 있다. CXL은 PCIe 5.0에 기반한 통신을 위한 개방형 산업 표준으로, 고정적인, 비교적 짧은 패킷 크기를 제공할 수 있으며, 그 결과 비교적 높은 대역폭과 비교적 낮은 고정 대기시간을 제공할 수 있다. 이와 같이, CXL은 캐시 일관성을 지원할 수 있으며 CXL은 메모리에 대한 연결들을 생성하는 데에 매우 적합할 수 있다. CXL은 또한 서버에서 호스트와 가속기, 메모리 장치들 및 네트워크 인터페이스 회로들(또는 "네트워크 인터페이스 컨트롤러" 또는 네트워크 인터페이스 카드(NIC)) 간의 연결을 제공하기 위해 또한 사용될 수 있다.
CXL과 같은 캐시 일관성 프로토콜은 예컨대, 스칼라, 벡터 및 버퍼링된 메모리 시스템에서 이기종 처리(heterogeneous processing)를 위해 채용될 수도 있다. CXL은 채널, 리타이머(retimer), 시스템의 PHY 계층, 인터페이스의 논리적 측면 및 프로토콜을 PCIe 5.0로부터 활용하여 캐시-일관성 인터페이스를 제공하는 데 사용될 수 있다. CXL 트랜잭션 계층은 단일 링크 상에서 동시에 작동하는 3개의 다중화된 하위 프로토콜들을 포함할 수 있으며 CXL.io, CXL.cache 및 CXL.memory라고 지칭될 수 있다. CXL.io에는 PCIe와 유사할 수 있는 I/O 시멘틱을 포함할 수 있다. CXL.cache는 캐싱 시멘틱(caching semantic)를 포함 할 수 있고 CXL.memory는 메모리 시멘틱(memory samantic)을 포함할 수 있고, 캐싱 시멘틱 및 메모리 시멘틱은 모두 선택사항일 수 있다. PCIe와 마찬가지로 CXL은 (i)분할가능한 x16, x8 및 x4의 기본 너비, (ii) 8GT/s 및 16GT/s, 128b/130b로 성능저하 가능한 32GT/s의 데이터 속도, (iii) 300W(x16 커넥터에서 75W) 및 (iv) 플러그 앤 플레이(plug and play)를 지원할 수 있다. 플러그 앤 플레이를 지원하기 위해 PCIe 또는 CXL 장치 링크는 Gen1의 PCIe에서 트레이닝을 시작하고, CXL을 협상하고 Gen 1-5 트레이닝을 완료한 후 CXL 트랜잭션을 시작할 수 있다.
일부 실시예에서, 메모리(예를 들어, 함께 연결된 복수의 메모리 셀을 포함하는 메모리량)의 집합 또는 "풀"에 대한 CXL 연결들의 사용은 이하 상세히 설명되는 바와 같이, 네트워크에 의해 함께 연결된 복수개의 서버를 포함하는 시스템에서 다양한 이점을 제공할 수 있다. 예를 들어, CXL 패킷에 대한 패킷-스위칭 기능을 제공하는 것 외에 추가 기능을 갖는 CXL 스위치(본 명세서에서 "향상된 기능 CXL 스위치"라고 지칭함)는 메모리의 집합을 하나 이상의 중앙 처리 장치( CPU)(또는 "중앙 처리 회로") 및 하나 이상의 네트워크 인터페이스 회로(향상된 기능을 가질 수 있음)에 연결하는데 사용될 수 있다. 이러한 구성은(i) 메모리의 집합이 서로다른 특성들을 갖는 다양한 타입의 메모리를 포함할 수 있도록 하며, (ii) 향상된 기능 CXL 스위치가 메모리 집합을 가상화하고 다른 특성(예컨대, 액세스 주파수)의 데이터를 적절함 타입의 메모리에 저장할 수 있도록 하며, (iii) 향상된 기능 CXL 스위치가 RDMA(remote direct memory access)를 지원하여 RDMA가 서버의 처리 회로에서 거의 또는 전혀 관여하지 않고 수행될 수 있도록 한다. 본 명세서에서 사용된 바와 같이, 메모리를 "가상화"한다는 것은 처리 회로와 메모리 사이에서 메모리 주소 변환을 수행하는 것을 의미한다.
CXL 스위치는 (i) 단일 레벨 스위칭을 통해 메모리 및 가속기 분리를 지원하고, (ii) 자원이 도메인들 사이에서에서 오프-라인되고 온-라인되도록 하고, 이에 의해 요구에 따라 도메인들에 걸쳐 시간 다중화가 가능하게 하며 (iii) 다운스트림 포트의 가상화를 지원할 수 있다. CXL은 집합된 장치들이 일부 실시예들에서는 LD-ID (논리 장치 식별자)를 각각 갖는 다수의 논리 장치들로 분할된 상태에서 (일대다(one-to-many) 및 다대일(many-to-one) 스위칭을 가능하게 하는 집합 메모리를 구현하는 데 사용될 수 있다(예컨대, (i) CXL은 다수의 루트 포트들을 하나의 엔드포인트에 연결하고 (ii) 하나의 루트 포트를 다수의 엔드포인트들에 연결하고 또는 (iii) 다수의 루트 포트들을 다수의 엔트포인트들에 연결할 수 있다). 이러한 실시예에서, 물리적 장치는 각각의 개시자(initiator)에게 가시적인 복수의 논리적 장치로 분할될 수 있다. 장치는 하나의 물리적 기능(PF)과 복수(예를 들어, 16)의 분리된 논리적 장치들을 가질 수 있다. 일부 실시예들에서 논리 장치들의 개수(예를 들어, 파티션들의 개수)는 제한될 수 있고(예를 들어, 16 개까지), 하나의 제어 파티션 (상기 장치를 제어하기 위해 사용되는 물리적 기능일 수 있음)이 또한 존재할 수 있다.
일부 예실시에서, 패브릭 매니저(fabric manager)는 (i) 장치 발견 및 가상 CXL 소프트웨어 생성을 수행하고 (ii) 가상 포트들을 물리적 포트들에 바인딩하기 위해 채용될 수 있다. 이러한 패브릭 관리장치는 SMBus 측파대(sideband)를 통한 연결을 통해 동작할 수 있다. 패브릭 관리장치는 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합으로 구현될 수 있으며, 예를 들어 호스트에, 메모리 모듈들(135)중 하나에, 향상된 기능 캐시 일관성 스위치(130)에 또는 네트워크에서 그 외 장소에 상주할 수 있다. 일부 실시예에서, 캐시 일관성 스위치는 CXL 스위치(130)일 수 있다. 패브릭 관리장치는 측파대 버스 또는 PCIe 트리를 통해 발행된 커맨드들을 포함한 커맨드들을 발행할 수 있다.
도 1a를 참조하면, 일부 실시 예에서, 서버 시스템은 랙 이더넷 스위치(110) ToR (Top of Rack) 이더넷 스위치 (110)에 의해 함께 연결된 복수의 서버(105)를 포함한다. 이 스위치는 이더넷 프로토콜을 사용하는 것으로 설명되지만 다른 적절한 네트워크 프로토콜이 사용될 수 있다. 각 서버는 (i) 시스템 메모리(120) (예를 들어, DDR4 (Double Data Rate (version 4)) 메모리 또는 어떤 다른 적절한 메모리), (ii) 하나 이상의 네트워크 인터페이스 회로(125), 및 (iii) 하나 이상의 CXL 메모리 모듈(135)에 개별적으로 연결된 하나 이상의 처리 회로 (115)를 포함한다. 각각의 처리 회로(115)는 저장된-프로그램 처리 회로, 예를 들어, 중앙 처리 장치 (CPU(예를 들어, x86 CPU)), 그래픽 처리 장치(GPU), 또는 ARM 프로세서일 수 있다. 일부 실시 예들에서, 네트워크 인터페이스 회로(125)는 메모리 모듈들(135)중 하나에서(예를 들어, 동일한 반도체 칩 상에서 또는 동일한 모듈 내에) 내장될 수 있거나, 네트워크 인터페이스 회로(125)가 메모리 모듈들(135)과는 별개로 패키징될 수 있다.
다양한 실시예에서, 관리 컴퓨팅 엔티티(102)(이하에서 상세히 설명됨)는 처리 엘리먼트(예를 들어, 프로세서, FPGA, ASIC, 컨트롤러 등)를 포함하도록 구성될 수 있으며, 상기 처리 엘리먼트는 네트워크의 임의의 일부(예를 들어, 이더넷 트래픽, 데이터 센터 파라미터, ToR 이더넷 스위치(110) 파라미터, 서버(105)와 관련된 파라미터, 네트워크 인터페이스 회로(NIC)(125) 관련 파라미터, 하나 이상의 CXL 메모리 모듈(135) 관련 파라미터, 이들의 조합, 등)와 관련된 하나 이상의 파라미터를 모니터링하여 여기에 설명된 도 1a 내지 도 1g의 임의의 적절한 엘리먼트를 포함하는, 네크워크의 서로 다른 부분들로 워크로드 및/또는 워크로드의 부분들로 라우팅할 수 있다. 또한, 전술한 바와 같이, 개시된 시스템은 클러스터-레벨 성능 기반 제어 및 관리 능력을 가능하게 하여 워크로드가 원격 아키텍처 구성 및 장치 성능, 전력 특성 등에 기반하여 자동으로 (예를 들어, 알고리즘 방식 및/또는 머신 러닝-기반 방식을 통해) 라우팅될 수 있다. 일부 예에서, 개시된 시스템은 ASIC 회로, FPGA 유닛 등을 통해 적어도 부분적으로 프로그래밍될 수 있다. 또한, 이러한 장치는 AI 기반 기술(예를 들어, 머신 러닝 기반 방법론)을 구현하여 여기에 도시되고 설명된 워크로드를 라우팅할 수 있다. 또한, 개시된 시스템은 미리 결정된 기준(예를 들어, 통화 또는 전력 단위당 최고의 성능)에 기초하여 발견 및/또는 워크로드 분할 및/또는 자원 바인딩을 수행하기 위해 관리 컴퓨팅 엔티티를 사용할 수 있다. 또한, 관리 컴퓨팅 엔티티는 캐시 일관성 프로토콜 기반(예를 들어, CXL 기반) 왕복 시간, 장치가 호스트 바이어스에 있는지 또는 장치 바이어스에 있는지 여부의 결정, 캐시 일관성 프로토콜 기반(예컨대, CXL 기반) 스위치 계층 및/또는 디바이스 다운스트림 포트로의 호스트 업스트림 포트의 바인딩, 캐시 일관성 프로토콜 기반(예컨대, CXL 기반) 스위치 패브릭 매니저 구성, 캐시 일관성 프로토콜 기반(예컨대, CXL 기반) 프로토콜 패킷 또는 물리적 매체 패킷(예컨대, CXL.IO 또는 PCIe 개입 벌크 4KB 패킷), 네트워크 대기 시간, 캐시 일관성 프로토콜 기반 (예 : CXL 기반) 메모리 기술 (예컨대, 메모리 타입), 이들의 조합, 등을 포함하지만 이에 제한받지 않는 시스템의 다양한 파라미터들에 기초하여 이러한 동작들을 수행할 수 있다.
본 명세서에서 사용 된 바와 같이, "메모리 모듈"은 하나 이상의 메모리 다이를 포함하는 패키지(예를 들어, 인쇄 회로 기판 및 이에 연결된 구성 요소를 포함하는 패키지 또는 인쇄 회로 기판을 포함하는 인클로저)이며, 여기에서 각 메모리 다이는 복수의 메모리 셀을 포함한다. 각 메모리 다이 또는 일련의 메모리 다이 그룹들 각각은 메모리 모듈의 인쇄 회로 기판에 납땜된 (커넥터를 통해 메모리 모듈의 인쇄 회로 기판의 인쇄 회로 기판에 연결되는) 패키지 (예 : EMC(epoxy mold compound) 패키지) 내에 위치할 수 있다. 메모리 모듈들(135) 각각은 CXL 인터페이스를 가질 수 있고, 예를 들어, CXL 패킷과 메모리 다이의 메모리 인터페이스, 예컨대, 메모리 모듈(135)에서 메모리의 메모리 기술에 적합한 신호 사이를 변환하기 위한 컨트롤러(137) (예컨대, FPGA, ASIC, 프로세서 등)을 포함할 수 있다. 본 명세서에서 사용되는 바와 같이, 메모리 다이의 "메모리 인터페이스"는 메모리 다이의 기술에 고유한 인터페이스이며, 예를 들어 DRAM의 경우, 메모리 인터페이스는 워드 라인 및 비트 라인일 수 있다. 메모리 모듈은 또한 이하 더 상세히 설명되는 바와 같이 향상된 기능을 제공할 수 있는 컨트롤러 (137)를 포함할 수있다. 각 메모리 모듈 (135)의 컨트롤러(137)는 예컨대, CXL 인터페이스를 통해 캐시-일관성 인터페이스를 통해 처리 회로 (115)에 연결될 수 있다. 컨트롤러(137)는 또한 처리 회로(115)를 우회하여 서로 다른 서버들(105) 사이의 데이터 전송(예컨대, RDMA 리퀘스트)을 용이하게 할 수 있다. ToR 이더넷 스위치(110) 및 네트워크 인터페이스 회로(125)는 서로 다른 서버들상의 CXL 메모리 장치들 간의 RDMA 요청들을 가능하게 하기 위해 RDMA 인터페이스를 포함할 수 있다 (예를 들어, ToR 이더넷 스위치(110) 및 네트워크 인터페이스 회로(125)는 RoCE (Converged Ethernet) 상에서의 RDMA, 인피니밴드(Infiniband) 및 iWARP 패킷들의 하드웨어 오프로드 또는 하드웨어 가속을 제공할 수있다).
상기 시스템에서의 CXL 상호 연결은 CXL 1.1 표준과 같은 캐시 일관성 프로토콜을 따르며, 또는 일부 실시예에서는 CXL 2.0 표준, 향후 버전의 CXL 또는 임의의 다른 적절한 프로토콜 (예: 캐시 일관성 프로토콜)을 따를 수 있다. 메모리 모듈(135)은 도시된 바와 같이 처리 회로(115)에 직접 부착될 수도 있고, 랙 이더넷 스위치 (110)의 상부는 시스템을 더 큰 크기로 (예를 들어, 더 많은 수의 서버 (105)로) 확장하기 위해 사용될 수 있다.
일부 실시예에서, 각 서버는 도 1a에 도시된 바와 같이 다수의 직접-부착 CXL 부착 메모리 모듈들(135)로 채워질 수 있다. 각 메모리 모듈(135)은 메모리 범위로서 호스트의 BIOS (Basic Input/Output System)로 베이스 어드레스 레지스터들의(BAR) 세트를 노출할 수 있다. 메모리 모듈들(135) 중 하나 이상은 호스트 OS 맵 뒤의 메모리 공간을 투명하게 관리하는 펌웨어를 포함 할 수있다. 각각의 메모리 모듈(135)은 예컨대, DRAM(Dynamic Random Access Memory), NAND(Not-AND) 플래시, HBM(High Bandwidth Memory), 및 LPDDR SDRAM (Low-Power Double Data Rate Synchronous Dynamic Random Access Memory) 기술들을 포함하는 (그러나 이에 제한되지 않는) 메모리 기술들 중 하나 또는 이들의 조합을 포함 할 수 있으며, 캐시 컨트롤러를 포함하거나 서로 다른 기술 메모리 장치들(다른 기술의 여러 메모리 장치를 결합하는 메모리 모듈 135의 경우)을 위한 분리된 각각의 스플릿(split) 컨트롤러들을 포함할 수도 있다. 각 메모리 모듈(135)은 서로 다른 인터페이스 폭들(x4 - x16)을 포함할 수 있으며, 예컨대, U.2, M.2, 절반 높이, 절반 길이 (HHHL), 전체 높이, 절반 길이 (FHHL), E1.S, E1.L, E3.S 및 E3.H을 포함하는 다양한 관련 폼 팩터들 중 임의의 것에 따라 구성될 수 있다.
일부 실시예들에서, 전술한 바와 같이, 향상된 기능 CXL 스위치(130)는 FPGA (또는 ASIC) 컨트롤러(137)를 포함하고 CXL 패킷들의 스위칭 이상의 추가 특징들을 제공한다. 향상된 기능 CXL 스위치 (130)의 컨트롤러(137)는 또한 메모리 모듈(135)에 대한 관리 장치로 동작하고, 호스트 제어 플레인 처리에 도움이 되며, 풍부한 제어 의미 및 통계를 가능하게 할 수 있다. 컨트롤러(137)는 추가적인 "백도어"(예를 들어, 100 기가비트 이더넷 (GbE)) 네트워크 인터페이스 회로(125)를 포함할 수 있다. 일부 실시 예에서, 컨트롤러(137)는 CXL 타입 2 장치로서, 처리 회로들(115)에 존재하며, 이는 원격 쓰기 요처을 수신할 때 처리 회로들(115)에 대한 캐시 무효화 명령의 발행을 가능하게 한다. 일부 실시예들에서, DDIO 기술이 인에이블되고, 원격 데이터는 먼저 처리 회로의 마지막 레벨 캐시(LLC)로 풀링되고 나중에 메모리 모듈 (135)(캐시로부터)에 기록된다. 여기에서 사용된 "타입 2" CXL 장치는 트랜잭션을 시작할 수 있고 선택적 일관성 캐시 및 호스트-관리된 장치 메모리를 구현하며, 이에 대해 적용 가능한 트랜잭션 타입들은 모든 CXL.cache 및 모든 CXL.mem 트랜잭션들을 포함한다.
전술한 바와 같이, 메모리 모듈(135) 중 하나 이상은 영구 메모리 또는 "영구 저장소"(즉, 외부 전원이 차단될 때 데이터가 손실되지 않는 저장소)를 포함할 수있다. 메모리 모듈(135)이 영구 장치로 제공되는 경우, 메모리 모듈(135)의 컨트롤러(137)는 영구 도메인을 관리 할 수 있는데, 예컨대, 영구 스토리지를 필요로 할 때 (예컨대, 대응하는 운영 시스템 기능을 호출하는 어플리케이션의 결과로서) 처리 회로(115)에 의해 식별된 데이터를 영구 저장소에 저장할 수 있다. 이러한 실시예에서, 소프트웨어 API는 캐시들 및 데이터를 영구 저장소로 플러시(flush)할 수 있다.
일부 실시예들에서, 네트워크 인터페이스 회로(125)로부터 메모리 모듈(135)로의 직접 메모리 전송이 인에이블된다. 이러한 전송은 분산 시스템에서 빠른 통신을 위한 원격 메모리로의 단방향 전송일 수 있다. 이러한 실시예에서, 메모리 모듈(135)은 더 빠른 RDMA 전송을 가능하게 하기 위해 시스템에서의 네트워크 인터페이스 회로 (125)에 하드웨어 세부 사항들을 노출할 수 있다. 이러한 시스템에서, 처리 회로(115)의 데이터 다이렉트 I/O (DDIO)가 인에이블 또는 디스에이블되는지 여부에 따라 두 가지 시나리오가 발생할 수 있다. DDIO는 이더넷 컨트롤러 또는 이더넷 어댑터와 처리 회로(115)의 캐시 사이의 직접 통신을 가능하게 할 수 있다. 처리 회로(115)의 DDIO가 인에이블되면, 전송의 타겟은 처리 회로의 마지막 레벨 캐시일 수 있고, 이로부터의 데이터는 추후 메모리 모듈(135)로 자동으로 플러시될 수있다. 처리 회로(115)의 DDIO가 디스에이블되면, 메모리 모듈(135)은 장치-바이어스 모드에서 동작하여 액세스들이 (DDIO없이) 목적지 메모리 모듈(135)에 의해 직접 수신되도록 할 수 있다. 호스트 채널 어댑터(HCA), 버퍼 및 기타 처리를 갖는 RDMA-가능 네트워크 인터페이스 회로(125)는 이러한 RDMA 전송을 가능하게 하기 위해 채용될 수 있으며, 이는 다른 RDMA 전송 모드에 존재할 수 있는 타겟 메모리 버퍼 전송을 우회할 수 있다. 예를 들어, 이러한 실시예에서, 바운스 버퍼(예를 들어, 메모리에서의 최종 목적지가 RDMA 프로토콜에 의해 지원되지 않는 주소 범위에 있을 때 원격 서버의 버퍼)의 사용이 회피될 수 있다. 일부 실시예들에서, RDMA는 이더넷 이외의 다른 물리적 매체 옵션을 사용한다(예컨대, 다른 네트워크 프로토콜을 다루도록 구성된 스위치와 함께 사용하기 위해). RDMA를 인에이블할 수 있는 서버간 연결의 예로는 인피니밴드(Infiniband), RoCE(RDMA over Converged Ethernet)(이더넷 UDP(User Datagram Protocol)를 사용함) 및 iWARP(TCP/IP (transmission control protocol/Internet protocol)을 사용함)가 있다.
도 1b는 처리 회로들(115)이 메모리 모듈(135)을 통해 네트워크 인터페이스 회로(125)에 연결되는 도 1a와 유사한 시스템을 도시한다. 메모리 모듈들(135) 및 네트워크 인터페이스 회로들(125)은 확장 소켓 어댑터들(140) 상에 위치한다. 각 확장 소켓 어댑터(140)는 서버(105)의 마더보드상의 확장 소켓(145), 예를 들어, M.2 커넥터에 연결될 수 있다. 이와 같이, 서버는 확장 소켓들(145)에서, 확장 소켓 어댑터들(140)의 설치에 의해 변경된, 임의의 적절한(예를 들어, 산업 표준) 서버일 수 있다. 이러한 실시예에서, (i) 각 네트워크 인터페이스 회로(125)는 메모리 모듈들(135)의 각각에 통합될 수 있거나, (ii) 각 네트워크 인터페이스 회로(125)는 PCIe 인터페이스를 가질 수 있어(네트워크 인터페이스 회로(125)는 PCIe 엔드포인트(즉, PCIe 슬레이브 장치)일 수 있음), (PCIe 마스터 장치 또는 "루트 포트"로서 동작할 수 있는) 네트워크 인터페이스 회로(125)에 연결된 처리 회로(115)가 엔드포인트 PCIe 연결에 대한 루트 포트를 통해 네트워크 인터페이스 회로(125)와 통신할 수 있고, 메모리 모듈(135)의 컨트롤러(137)는 P2P(peer-to-peer) PCIe 연결을 통해 네트워크 인터페이스 회로(125)와 통신할 수 있다.
본 발명의 일 실시 예에 따르면, 시스템이 제공되는데, 상기 시스템은 제1 서버를 포함하고, 상기 제1 서버는 저장된-프로그램 처리 회로, 제1 네트워크 인터페이스 회로 및 제1 메모리 모듈을 포함하며, 상기 제1 메모리 모듈은 제1 메모리 다이 및 컨트롤러를 포함하고, 상기 컨트롤러는 메모리 인터페이스를 통해 상기 제1 메모리 다이에 연결되고, 캐시-일관성 인터페이스를 통해 상기 저장된-프로그램 처리 회로에 연결되고, 상기 제1 네트워크 인터페이스 회로에 연결된다. 일부 실시예들에서, 제1 메모리 모듈은 제2 메모리 다이를 더 포함하고, 제1 메모리 다이는 휘발성 메모리를 포함하고, 제2 메모리 다이는 영구 메모리를 포함한다. 일부 실시예들에서, 상기 영구 메모리는 NAND 플래시를 포함한다. 일부 실시예들에서, 상기 컨트롤러는 상기 영구 메모리를 위한 플래시 변환 계층(flash translation layer)을 제공하도록 구성된다. 일부 실시예들에서, 캐시-일관성 인터페이스는 CXL (Compute Express Link) 인터페이스를 포함한다. 일부 실시예들에서, 상기 제1 서버는 상기 제1 서버의 확장 소켓에 연결된 확장 소켓 어댑터를 포함하고, 상기 확장 소켓 어댑터는 상기 제1 메모리 모듈 및 상기 제1 네트워크 인터페이스 회로를 포함한다. 일부 실시예들에서, 상기 제1 메모리 모듈의 컨트롤러는 상기 확장 소켓을 통해 저장된-프로그램 처리 회로에 연결된다. 일부 실시예들에서, 상기 확장 소켓은 M.2 소켓을 포함한다. 일부 실시예들에서, 상기 제1 메모리 모듈의 컨트롤러는 피어 투 피어 PCIe(Peripheral Component Interconnect Express) 연결에 의해 상기 제1 네트워크 인터페이스 회로에 연결된다. 일부 실시예들에서, 상기 시스템은 제2 서버, 및 상기 제1 서버와 상기 제2 서버에 연결된 네트워크 스위치를 더 포함한다. 일부 실시예들에서, 상기 네트워크 스위치는 ToR (top of rack) 이더넷 스위치를 포함한다. 일부 실시예들에서, 상기 제1 메모리 모듈의 컨트롤러는 RDMA 스트레이트(straight) RDMA (remote direct memory access) 요청들을 수신하고 연속한 RDMA 응답들을 전송하도록 구성된다. 일부 실시예들에서, 제1 메모리 모듈의 컨트롤러는 상기 네트워크 스위치를 통해 그리고 제1 네트워크 인터페이스 회로를 통해 연속한 RDMA 요청들을 수신하고, 상기 네트워크 스위치를 통해 그리고 상기 제1 네트워크 인터페이스 회로를 통해 연속한 RDMA 응답들을 전송하도록 구성된다. 일부 실시예들에서, 상기 제1 메모리 모듈의 컨트롤러는: 상기 제2 서버로부터 데이터를 수신하고; 데이터를 상기 제1 메모리 모듈에 저장하고; 캐시 라인을 무효화하기 위한 커맨드를 저장된-프로그램 처리 회로로 전송하도록 구성된다. 일부 실시예들에서, 상기 제1 메모리 모듈의 컨트롤러는 FPGA (field programmable gate array) 또는 ASIC (application-specific integrated circuit)을 포함한다. 본 발명의 일 실시예에 따르면, 컴퓨팅 시스템에서 원격 직접 메모리 액세스를 수행하는 방법으로서, 상기 컴퓨팅 시스템은 제1 서버 및 제2 서버를 포함하고, 상기 제1 서버는 저장된-프로그램 처리 회로, 네트워크 인터페이스 회로, 및 컨트롤러를 포함하는 제1 메모리 모듈을 포함하는, 상기 방법은 상기 제1 메모리 모듈의 컨트롤러에 의해 스트레이트 원격 직접 메모리 액세스 (RDMA) 요청을 수신하는 단계; 및 상기 제1 메모리 모듈의 제어기에 의해 스트레이트 RDMA 응답을 전송하는 단계를 포함한다. 일부 실시예들에서 상기 컴퓨팅 시스템은 상기 제1 서버 및 상기 제2 서버에 연결된 이더넷 스위치를 더 포함하고, 스트레이트 RDMA 요청을 수신하는 단계는 상기 이더넷 스위치를 통해 상기 스트레이트 RDMA 요청을 수신하는 단계를 포함한다. 일부 실시예들에서, 상기 방법은 상기 제1 메모리 모듈의 컨트롤러에 의해 상기 저장된-프로그램 처리 회로로부터 제1 메모리 어드레스에 대한 판독 커맨드를 수신하는 단계, 상기 제1 메모리 모듈의 컨트롤러에 의해 상기 제1 메모리 어드레스를 제2 메모리 어드레스로 변환하는 단계, 상기 제1 메모리 모듈의 컨트롤러에 의해 상기 제2 메모리 어드레스에서 제1 메모리 모듈로부터 데이터를 검색하는 단계를 포함한다. 일부 실시예들에서, 상기 방법은 상기 제1 메모리 모듈의 컨트롤러에 의해 데이터를 수신하는 단계, 상기 제1 메모리 모듈의 컨트롤러에 의해 상기 제1 메모리 모듈에 데이터를 저장하는 단계, 및 상기 상기 제1 메모리 모듈의 컨트롤러에 의해 캐시 라인을 무효화하기 위한 커맨드를 상기 저장된-프로그램 처리 회로로 전송하는 단계를 포함한다. 본 발명의 일 실시 예에 따르면, 시스템이 제공되는데, 상기 시스템은 제1 서버를 포함하고, 상기 제1 서버는 저장된-프로그램 처리 회로, 제1 네트워크 인터페이스 회로 및 제1 메모리 모듈을 포함하며, 상기 제1 메모리 모듈은 제1 메모리 다이 및 컨트롤러 수단을 포함하고, 상기 컨트롤러 수단은 메모리 인터페이스를 통해 상기 제1 메모리 다이에 연결되고, 캐시-일관성 인터페이스를 통해 상기 저장된-프로그램 처리 회로에 연결되고, 상기 제1 네트워크 인터페이스 회로에 연결된다.
도 1c를 참조하면, 일부 실시 예에서, 서버 시스템은 랙 이더넷 스위치(110) ToR (Top of Rack) 이더넷 스위치 (110)에 의해 함께 연결된 복수의 서버(105)를 포함한다. 각 서버는 (i) 시스템 메모리(120) (예를 들어, DDR4 메모리), (ii) 하나 이상의 네트워크 인터페이스 회로(125), 및 (iii) 향상된 능력 CXL 스위치(130)에 개별적으로 연결된 하나 이상의 처리 회로(115)를 포함한다. 향상된 기능 CXL 스위치(130)는 복수의 메모리 모듈(135)에 연결될 수 있다. 즉, 도 1c의 시스템은 저장된-프로그램 처리 회로(115), 네트워크 인터페이스 회로(125), 캐시-일관성 스위치(130) 및 제1 메모리 모듈 (135)을 포함하는 제1 서버(105)를 포함한다. 도 1c의 시스템에서, 제1 메모리 모듈(135)은 캐시-일관성 스위치(130)에 연결되고, 캐시-일관성 스위치(130)는 네트워크 인터페이스 회로(125)에 연결되고, 저장된-프로그램 처리 회로(115)는 캐시-일관성 스위치(130)에 연결된다.
메모리 모듈들(135)은 타입, 폼 팩터(form factor) 또는 기술 타입(예컨대, DDR4, DRAM, LDPPR, 고대역폭 메모리(HBM), NAND, 플래시, 또는 기타 영구 스토리지(예컨대, NAND 플래시를 통합하는 SSD(solid state drives))별로 그룹화될 수 있다. 각 메모리 모듈은 CXL 인터페이스를 가질 수 있고, 신호들과 메모리 모듈(135)의 메모리에 적합한 CXL 패킷들 사이를 변환하기 위한 인터페이스 회로를 포함할 수 있다. 일부 실시예들에서, 이들 인터페이스 회로들은 향상된 기능 CXL 스위치(130)에 대신 존재하고, 메모리 모듈(135) 각각은 인터페이스 즉, 메모리 모듈(135)의 메모리의 고유 인터페이스를 갖는다. 일부 실시예들에서, 향상된 기능 CXL 스위치(130)는 메모리 모듈(135)(예를 들어, 메모리 모듈(135)의 다른 구성요소들과 함께 M.2 폼 팩터 패키지에서 또는 상기 메모리 모듈(135)의 다른 구성요소들과 단일의 직접 회로로 통합됨)에 통합된다.
ToR 이더넷 스위치(110)는 서로 다른 서버들 상의 집합된 메모리 장치들 사이의 RDMA 요청을 용이하게 하기 위한 인터페이스 하드웨어를 포함할 수 있다. 향상된 기능 CXL 스위치(130)는 처리 회로들(115)을 우회함으로써 (i) 워크로드를 기반으로 데이터를 서로 다른 메모리 타입들로 라우팅하고 (ii) 호스트 주소들을 디바이스 주소들로 가상화하며 및/또는 (iii) 서로 다른 서버들 간의 RDMA 요청들을 용이하게 하는 하나 이상의 회로들(예컨대, FPGA 또는 ASIC를 포함할 수도 있음)을 포함할 수 있다.
메모리 모듈(135)은 확장 박스(예를 들어, 인클로저의 마더보드를 수용하는 인클로저와 동일한 랙에 있음)에 있을 수 있으며, 상기 확장 박스는 적합한 커넥터에 각각 연결된 미리 정해진 개수(예컨대, 20개 이상 또는 100개 이상)의 메모리 모듈들(135)을 포함 할 수 있다. 상기 모듈들은 M.2 폼 팩터 내에 있을 수 있으며 상기 커넥터들은 M.2 커넥터들일 수 있다. 일부 실시예들에서, 서버들 사이의 연결들은 이더넷이 아닌 다른 네트워크 상에서 이루어지며, 예를 들어 WiFi 또는 5G 연결들과 같은 무선 연결들일 수 있다. 각 처리 회로는 x86 프로세서 또는 다른 프로세서, 예컨대, ARM 프로세서 또는 GPU 일 수 있다. CXL 링크가 인스턴스화되는 PCIe 링크는 PCIe 5.0 또는 다른 버전 (예컨대, 이전 버전 또는 이후(예컨대, 미래) 버전(예컨대, PCIe 6.0))일 수 있다. 일부 실시예들에서, 상이한 캐시-일관성 프로토콜이 시스템에서 CXL을 대신하여 또는 CXL에 추가하여 사용되며, 상이한 캐시-일관성 스위치가 향상된 기능 CXL 스위치(130) 대신에 또는 이에 추가하여 사용될 수 있다. 이러한 캐시-일관성 프로토콜은 다른 표준 프로토콜 또는 표준 프로토콜의 캐시-일관성 변형일 수 있다(CXL이 PCIe 5.0의 변형인 방식과 유사한 방식으로). 표준 프로토콜의 예들은 비휘발성 듀얼 인-라인 메모리 모듈(버전 P) (NVDIMM-P), 가속기용 캐시-일관성 상호 연결(CCIX) 및 OpenCAPI (Open Coherent Accelerator Processor Interface)를 포함하며, 이에 한정되지 않는다.
시스템 메모리(120)는 예를 들어, DDR4 메모리, DRAM, HBM 또는 LDPPR 메모리를 포함할 수 있다. 메모리 모듈(135)은 분할되거나 다수의 메모리 타입들을 다루기 위해 캐시 컨트롤러를 포함할 수 있다. 메모리 모듈(135)은 상이한 폼 팩터들에 있을 수 있으며, 그 예들로는 HHHL, FHHL, M.2, U.2, 메자닌(mezzanine) 카드, 도터(daughter) 카드, E1.S, E1.L, E3.L, 및 E3.S를 포함하며, 이에 한정되지 않는다.
일부 실시예들에서, 상기 시스템은 다수의 서버들을 포함하는 집합 아키텍처를 구현하고, 각 서버는 다수의 CXL-부착 메모리 모듈들(135)로 집합된다. 각각의 메모리 모듈(135)은 메모리 장치들로서 다수의 처리 회로들(115)에 개별적으로 노출될 수 있는 다수의 파티션들을 포함할 수 있다. 향상된 기능 CXL 스위치(130)의 각 입력 포트는 향상된 기능 CXL 스위치(130) 및 이에 연결된 메모리 모듈들(135)의 다수의 출력 포트에 독립적으로 액세스할 수 있다. 본 명세서에서 사용된 바와 같이, 향상된 기능 CXL 스위치(130)의 "입력 포트"또는 "업스트림 포트"는 PCIe 루트 포트에 연결된 (또는 연결하기에 적합한) 포트이고, 향상된 기능 CXL 스위치(130)의 "출력 포트" 또는 "다운 스트림 포트"는 PCIe 엔드포인트에 연결되는 (또는 연결하기에 적합한) 포트이다. 도 1a의 실시예의 경우와 같이, 각 메모리 모듈(135)은 메모리 범위로서 호스트 BIOS에 베이스 어드레스 레지스터들(BARs)의 세트를 노출할 수 있다. 메모리 모듈들(135) 중 하나 이상은 호스트 OS 맵 뒤의 메모리 공간을 투명하게 관리하는 펌웨어를 포함 할 수있다.
일부 실시예들에서, 전술한 바와 같이, 향상된 기능 CXL 스위치(130)는 FPGA (또는 ASIC) 컨트롤러(137)를 포함하고 CXL 패킷들의 스위칭 이상의 추가 특징들을 제공한다. 예를 들어, 향상된 기능 CXL 스위치(130)는 (전술한 바와 같이) 메모리 모듈(135)를 가상화하는데 즉, 회로-측 어드레스들(또는 "프로세서-측 어드레스들 즉, 처리 회로(115)에 의해 발행된 판독 및 기록 커맨드들에 포함된 어드레스들)과 메모리-측 어드레스들(즉, 향상된 기능 CXL 스위치(130)에 의해 채용된, 메모리 모듈(135)에서의 저장 위치들을 어드레스화하는 어드레스들) 사이에서 변환하는 변환 게층으로서 동작하며 그에 따라 메모리 모듈들(135)의 물리적 어드레스들을 마스킹하고 메모리의 가상 집합(virtual aggregation)을 제공한다. 향상된 기능 CXL 스위치 (130)의 컨트롤러(137)는 또한 메모리 모듈(135)에 대한 관리 장치로 동작하고, 호스트 제어 플레인 처리를 용이하게 한다. 컨트롤러(137)는 처리 회로(115)의 참여 없이 데이터를 투명하게 이동시킬 수 있고, 따라서 후속 액세스가 예상대로 기능하도록 메모리 맵(또는 "주소 변환 테이블")을 업데이트할 수 있다. 컨트롤러 (137)는 (i) 런타임 동안 업스트림 및 다운스트림 연결들을 적절하게 바인딩(binding) 및 바인딩 해제(unbinding)할 수 있고, (iii) 메모리 모듈들(135) 내외로의 데이터 전송과 관련된 풍부한 제어 시맨틱들(semantics) 및 통계를 가능하게 할 수 있는 스위치 관리 장치를 포함할 수 있다. 컨트롤러(137)는 다른 서버(105) 또는 다른 네트워크된 장비에 연결하기 위한 추가의 "백도어" 100 GbE 또는 다른 네트워크 인터페이스 회로(125)(호스트에 연결하는 데 사용되는 네트워크 인터페이스에 추가하여)를 포함할 수 있다. 일부 실시 예에서, 컨트롤러(137)는 타입 2 장치로서 처리 회로들(115)에 제공하고, 이는 원격 쓰기 리퀘스트를 수신할 때 처리 회로들(115)에 대한 캐시 무효화 명령의 발행을 가능하게 한다. 일부 실시예들에서, DDIO 기술이 인에이블되고, 원격 데이터는 먼저 처리 회로의 마지막 레벨 캐시(LLC)로 풀링되고 나중에 메모리 모듈 (135)(캐시로부터)에 기록된다.
전술한 바와 같이, 메모리 모듈들(135) 중 하나 이상은 영구 저장 장치를 포함할 수 있다. 메모리 모듈(135)이 영구 장치로 제공되는 경우, 향상된 기능 CXL 스위치(130)의 컨트롤러(137)는 영구 도메인을 관리 할 수 있는데, 예컨대, 영구 저장소를 필요로 할 때 (예컨대, 대응하는 운영 시스템 기능의 사용에 의해) 처리 회로(115)에 의해 식별된 데이터를 영구 저장소에 저장할 수 있다. 이러한 실시예에서, 소프트웨어 API는 캐시들 및 데이터를 영구 저장소로 플러시(flush)할 수 있다.
일부 실시예들에서, 메모리 모듈들(135)로의 직접 메모리 전송은 메모리 모듈(135)의 컨트롤러들에 의해 수행되는 동작들은 향상된 기능 CXL 스위치(130)의 컨트롤러(137)에 의해 수행되면서, 도 1a 및 1b의 실시예에 대해 전술한 바와 유사한 방식으로 수행될 수 있다.
전술한 바와 같이, 일부 실시예들에서, 메모리 모듈들(135)은 그룹들로 조직화되며, 예를 들어 메모리 집약적인 하나의 그룹, HBM-무거운 또 하나의 그룹, 제한된 밀도 및 성능을 갖는 또 하나의 그룹, 및 밀도가 높은 또하나의 그룹으로 조작화될 수 있다. 이러한 그룹들은 서로다른 형태 팩터들을 갖거나 또는 서로다른 기술들에 기반할 수 있다. 향상된 기능 CXL 스위치(130)의 컨트롤러(137)는 예를 들어, 워크로드, 태깅 또는 서비스 품질(QoS)에 기초하여 지능적으로 데이터 및 커맨드를 라우팅할 수 있다. 판독 요청들에 대해, 이러한 팩터들에 기반한 라우팅이 없을 수 있다.
향상된 기능 CXL 스위치(130)의 컨트롤러(137)는 또한 (전술한 바와 같이) 처리 회로-측 주소들 및 메모리-측 주소들를 가상화 할 수 있으며, 이는 향상된 기능 CXL 스위치(130)의 컨트롤러(137)가 데이터가 어디에 저장될 지를 결정하는 것을 가능하게 한다. 향상된 기능 CXL 스위치(130)의 컨트롤러는(137)는 처리 회로(115)로부터 수신할 수 있는 정보 또는 명령에 기초하여 그러한 결정을 할 수 있다. 예를 들어, 운영 체제는 메모리 할당 기능을 제공하여, 애플리케이션이 저-지연 스토리지, 고-대역폭 스토리지, 또는 영구 스토리지가 할당되는 것을 지정할 수 있도록 할 수 있으며, 상기 애플리케이션에 의해 개시된 이러한 요청은 그런 다음, 어디에((예를 들어, 메모리 모듈들(135)중 어떤 메모리 내의 어디에) 상기 메모리를 할당할 지를 결정할 때 향상된 기능 CXL 스위치(130)의 컨트롤러(137)에 의해 고려된다. 예를 들어, 상기 애플리케이션에 의해 고-대역폭이 요청되는 스토리지는 HBM를 포함하는 메모리 모듈들(135)에서 할당될 수 있고, 상기 애플리케이션에 의해 데이터 지속성이 요청되는 스토리지는 NAND 플래시를 포함하는 메모리 모듈들(135)에서 할당될 수 있고, 다른 스토리지(상기 애플리케이션이 어떠한 요청도 하지 않음)는 비교적 저렴한 DRAM을 포함하는 메모리 모듈들(135) 상에 저장될 수 있다. 일부 실시예들에서, 향상된 기능 CXL 스위치(130)의 컨트롤러(137)는 네트워크 사용 패턴에 기초하여 임의의 데이터를 어디에 저장할 지에 대한 결정을 할 수 있다. 예컨대, 향상된 기능 CXL 스위치(130)의 컨트롤러(137)는 사용 패턴을 모니터링하여 어떤 범위의 물리적 주소들의 데이터가 다른 데이터보다 더 자주 액세스되고 있음을 판단할 수 있으며, 향상된 기능 CXL 스위치(130)의 컨트롤러(137)는 그런 다음, 이들 데이터를 HBM을 포함하는 메모리 모듈(135)로 복사하고, 새로운 위치에 있는 데이터가 동일한 범위의 가상 주소들에 저장되도록 그 주소 변환 테이블을 수정할 수 있다. 일부 실시예들에서, 메모리 모듈들(135) 중 하나 이상은 플래시 메모리(예컨대, NAND 플래시)를 포함하고, 향상된 기능 CXL 스위치(130)의 컨트롤러(137)는 이 플래시 메모리에 대한 플래시 변환 계층을 구현한다. 플래시 변환 계층은 프로세서-측 메모리 위치들의 덮어쓰기(overwriting)(상기 데이터를 다른 위치로 이동하고 상기 데이터의 이전 위치를 유효하지 않은 것으로 표시함으로써)를 지원할 수 있으며, 플래시 변환 계층은 가비지 수집(유효하지 않은 것으로 표시된 블록의 데이터의 비율이 임계값을 초과하면 상기 블록에서 모든 유효한 데이터를 다른 블록으로 이동한 후 블록을 지움)을 수행할 수 있다.
일부 실시에들에서, 향상된 기능 CXL 스위치(130)의 컨트롤러(137)는 물리적 기능(PF) 이전 (PF transfer)에 대한 PF를 용이하게 할 수 있다. 예컨대, 처리 회로들(115)중 하나가 하나의 물리적 주소에서 다른 물리적 주소로 데이터를 이동할 필요가 있는 경우(동일한 가상 주소를 가질 수 있으며, 이 사실은 처리 회로(115)의 동작에 영향을 미칠 필요가 없음) 또는 처리 회로(115)가 (처리 회로(115)가 가질 필요가 있는) 2개의 가상 주소들 사이에서 데이터를 이동시킬 필요가 있으면, 향상된 기능 CXL 스위치(130)의 컨트롤러(137)는 처리 회로(115)의 개입없이 이전을 감독할 수 있다. 예를 들어, 처리 회로(115)는 CXL 요청을 전송할 수 있고, 데이터는 처리 회로(115)로 가지 않고 하나의 메모리 모듈(135)로부터 향상된 기능 CXL 스위치(130) 후위의 다른 메모리 모듈(135)로 전송될 수 있다(예를 들어, 데이터는 하나의 메모리 모듈(135)에서 다른 메모리 모듈(135)로 데이터가 복사될 수 있음). 이 상황에서, 처리 회로(115)가 CXL 요청을 개시했기 때문에, 처리 회로(115)는 일관성을 보장하기 위해 처리 회로(115)의 캐시를 플러시 할 필요가 있을 수 있다. 대신 Type 2 메모리 장치(예컨대, 메모리 모듈들(135)중 하나 또는 CXL 스위치에 연결될 수도 있는 가속기)가 CXL 요청을 개시하고, 스위치가 가상화되지 않은 경우, Type 2 메모리 장치는 메시지를 처리 회로(115)로 보내 캐시를 무효화한다.
일부 실시예들에서, 향상된 기능 CXL 스위치 (130)의 컨트롤러(137)는 서버들 간의 RDMA 요청들을 용이하게 할 수 있다. 원격 서버(105)는 이러한 RDMA 요청을 개시할 수 있고, 상기 요청은 ToR 이더넷 스위치(110)를 통해 전송될 수 있고, RDMA 요청에 응답하는 서버("로컬 서버")(105)의 향상된 기능 CXL 스위치(130)에 도착할 수 있다. 향상된 기능 CXL 스위치(130)는 이러한 RDMA 요청을 수신하도록 구성될 수 있고, 수신 서버(105)(즉, RDMA 요청을 수신하는 서버)의 메모리 모듈들(135)의 그룹을 자신의 메모리 공간으로 취급할 수있다. 로컬 서버에서, 향상된 기능 CXL 스위치(130)는 다이렉트 RDMA 요청 (즉, 로컬 서버에서 처리 회로(115)을 통해 라우팅되지 않는 RDMA 요청)으로서 RDMA 요청을 수신할 수 있고, 다이렉트 응답을 상기 RDMA 요청으로 전송할 수 있다 (즉, 로컬 서버의 처리 회로(115)를 통해 라우팅되지 않고 상기 응답을 전송할 수 있음). 원격 서버에서 상기 응답(예컨대, 로컬 서버에 의해 전송된 데이터)은 원격 서버의 향상된 기능 CXL 스위치(130)에 의해 수신될 수 있으며, 원격 서버의 처리 회로(115)를 통해 라우팅되지 않고 원격 서버의 메모리 모듈들(135)에 저장 될 수 있다.
도 1d는 처리 회로들(115)이 향상된 기능 CXL 스위치(130)를 통해 네트워크 인터페이스 회로들(125)에 연결되는 도 1c의 시스템과 유사한 시스템을 도시한다. 향상된 기능 CXL 스위치(130), 메모리 모듈(135) 및 네트워크 인터페이스 회로들(125)은 확장 소켓 어댑터(140) 상에 위치한다. 확장 소켓 어댑터(140)는 서버(105)의 마더보드상의 확장 소켓, 예컨대, PCIe 커넥터(145)에 플러그-연결된 회로 기판 또는 모듈일 수 있다. 따라서, 서버는 PCIe 커넥터(145)에서 확장 소켓 어댑터(140)의 설치에 의해서만 변경되는, 임의의 적절한 서버일 수 있다. 메모리 모듈(135)은 확장 소켓 어댑터(140) 상의 커넥터들(예컨대, M.2 커넥터들)에 설치될 수 있다. 이러한 실시예에서, (i) 네트워크 인터페이스 회로(125)는 향상된 기능 CXL 스위치(130)에 통합될 수 있거나, 또는 (ii) 각 네트워크 인터페이스 회로(125)는 PCIe 인터페이스를 가질 수 있으며(상기 네트워크 인터페이스 회로(125)는 PCIe 엔드포인트일 수 있음), 따라서, 네트워크 인터페이스 회로(125)가 연결된 처리 회로(115)는 루트 포트-투(to)-엔드포인트 PCIe 연결을 통해 네트워크 인터페이스 회로(125)와 통신할 수 있다. 향상된 기능 CXL 스위치(130)의 컨트롤러(137)(처리 회로(115) 및 네트워크 인터페이스 회로들(125)에 연결된 PCIe 입력 포트를 가질 수 있음)는 피어-투-피어 PCIe 연결을 통해 네트워크 인터페이스 회로(125)와 통신할 수 있다.
본 발명의 일 실시예에 따르면, 제1 서버를 포함하는 시스템이 제공되며, 저장된-프로그램 처리 회로, 네트워크 인터페이스 회로, 캐시-일관성 스위치, 및 제1 메모리 모듈을 포함하며, 상기 제1 메모리 모듈은 상기 캐시-일관성 스위치에 연결되고, 상기 캐시-일관성 스위치는 상기 네트워크 인터페이스 회로에 연결되며, 상기 저장된-프로그램 처리 회로는 상기 캐시-일관성 스위치에 연결된다. 일부 실시예들에서, 상기 시스템은 상기 캐시-일관성 스위치에 연결된 제2 메모리 모듈을 더 포함하고, 상기 제1 메모리 모듈은 휘발성 메모리를 포함하고 상기 제2 메모리 모듈은 영구 메모리를 포함한다. 일부 실시예들에서, 상기 캐시-일관성 스위치는 상기 제1 메모리 모듈 및 상기 제2 메모리 모듈을 가상화하도록 구성된다. 일부 실시예들에서, 상기 제1 메모리 모듈은 플래시 메모리를 포함하고, 상기 캐시-일관성 스위치는 플래시 메모리에 대한 플래시 변환 계층을 제공하도록 구성된다. 일부 실시예들에서, 상기 캐시-일관성 스위치는 상기 제1 메모리 모듈에서 제1 메모리 위치의 액세스 주파수를 모니터링하고, 상기 액세스 주파수가 제1 임계 값을 초과한다고 결정하고, 상기 제1 메모리 위치의 내용을 제2 메모리 위치로 복사하고, 상기 제2 메모리 위치는 제2 메모리 모듈에 있다. 일부 실시예들에서, 상기 제2 메모리 모듈은 고-대역폭 메모리 (HBM)를 포함한다. 일부 실시예들에서, 상기 캐시-일관성 스위치는 프로세서-측 주소들을 메모리-측 주소들에 매핑하기 위한 테이블을 유지하도록 구성된다. 일부 실시예들에서, 상기 시스템은 제2 서버, 및 상기 제1 서버와 상기 제2 서버에 연결된 네트워크 스위치를 더 포함한다. 일부 실시예들에서, 상기 네트워크 스위치는 ToR (top of rack) 이더넷 스위치를 포함한다. 일부 실시예들에서, 상기 캐시-일관성 스위치는 RDMA 스트레이트(straight) RDMA (remote direct memory access) 요청들을 수신하고 스트레이트 RDMA 응답들을 전송하도록 구성된다. 일부 실시예들에서, 상기 캐시-일관성 스위치는 상기 ToR 이더넷 스위치를 통해 그리고 네트워크 인터페이스 회로를 통해 상기 RDMA 요청들을 수신하고, 상기 ToR 이더넷 스위치를 통해 그리고 상기 네트워크 인터페이스 회로를 통해 스트레이트 RDMA 응답들을 전송하도록 구성된다. 일부 실시예들에서, 캐시-일관성 인터페이스는 CXL (Compute Express Link) 프로토콜을 지지하도록 포함한다. 일부 실시예들에서, 상기 제1 서버는 상기 제1 서버의 확장 소켓에 연결된 확장 소켓 어댑터를 포함하고, 상기 확장 소켓 어댑터는 캐시-일관성 스위치 및 메모리 모듈 소켓을 포함하고, 상기 제1 메모리 모듈은 상기 메모리 모듈 소켓을 통해 상기 캐시-일관성 스위치에 연결된다. 일부 실시예들에서, 상기 메모리 모듈 소켓은 M.2 소켓을 포함한다. 일부 실시예에서, 네트워크 인터페이스 회로는 확장 소켓 어댑터 상에 있다. 본 발명의 일 실시예에 따르면, 컴퓨팅 시스템에서 원격 직접 메모리 액세스를 수행하는 방법으로서, 상기 컴퓨팅 시스템은 제1 서버 및 제2 서버를 포함하고, 상기 제1 서버는 저장된-프로그램 처리 회로, 네트워크 인터페이스 회로, 및 컨트롤러를 포함하는 제1 메모리 모듈을 포함하는, 상기 방법은 상기 캐시-일관성 스위치에 의해 스트레이트 RDMA 요청을 수신하는 단계 및 상기 캐시-일관성 스위치에 의해 스트레이트 RDMA 응답을 송신하는 단계를 포함한다. 일부 실시예들에서, 상기 컴퓨팅 시스템은 이더넷 스위치를 더 포함하고, 상기 스트레이트 RDMA 요청을 수신하는 단계는 상기 이더넷 스위치를 통해 상기 스트레이트 RDMA 요청을 수신하는 단계를 포함한다. 일부 실시예들에서, 상기 방법은 상기 캐시-일관성 스위치에 의해 저장된-프로그램 처리 회로로부터 제1 메모리 어드레스에 대한 판독 커맨드를 수신하는 단계, 상기 캐시-일관성 스위치에 의해 상기 제1 메모리 어드레스를 제2 메모리 어드레스로 변환하는 단계, 상기 캐시-일관성 스위치에 의해 상기 제2 메모리 어드레스에서 제1 메모리 모듈로부터 데이터를 검색하는 단계를 포함한다. 일부 실시예들에서, 상기 방법은 캐시-일관성 스위치에 의해 데이터를 수신하는 단계, 상기 캐시-일관성 스위치에 의해 상기 제1 메모리 모듈에 데이터를 저장하는 단계, 및 상기 캐시-일관성 스위치에 의해 캐시 라인을 무효화하기 위한 커맨드를 상기 저장된-프로그램 처리 회로로 전송하는 단계를 포함한다. 본 발명의 일 실시예에 따르면, 제1 서버를 포함하는 시스템이 제공되며, 저장된-프로그램 처리 회로, 네트워크 인터페이스 회로, 캐시-일관성 스위칭 수단, 및 제1 메모리 모듈을 포함하며, 상기 제1 메모리 모듈은 상기 캐시-일관성 스위칭 수단에 연결되고, 상기 캐시-일관성 스위치는 상기 네트워크 인터페이스 회로에 연결되며, 상기 저장된-프로그램 처리 회로는 상기 캐시-일관성 스위칭 수단에 연결된다.
도 1e는 복수의 서버(105) 각각이 도시된 바와 같이, PCIe 기능들을 갖는 PCIe 5.0 CXL 스위치일 수 있는 ToR 서버-링크 스위치(112)에 연결되는 실시예를 도시한다. 서버-링크 스위치(112)는 FPGA 또는 ASIC를 포함할 수 있으며, 이더넷 스위치보다 우수한 성능(처리량(throughput) 및 지연시간(latency)의 측면에서)을 제공할 수 있다. 서버들(105) 각각은 향상된 기능 CXL 스위치(130) 및 복수의 PCIe 커넥터를 통해 서버-링크 스위치(112)에 연결된 복수의 메모리 모듈 (135)을 포함할 수 있다. 서버들(105) 각각은 또한 도시된 바와 같이, 하나 이상의 처리 회로들(115) 및 시스템 메모리(120)를 포함할 수 있다. 서버-링크 스위치(112)는 마스터로서 동작할 수 있고, 향상된 기능 CXL 스위치들(130) 각각은 이하 더 상세히 기술되는 바와 같이 슬레이브로서 동작할 수 있다.
도 1e의 실시 예에서, 서버-링크 스위치(112)는 서로다른 서버들(105)로부터 수신된 다수의 캐시 요청들을 그룹화하거나 묶을 수 있고, 패킷들을 그룹화하여 제어 오버헤드를 감소시킬 수 있다. 향상된 기능 CXL 스위치(130)는 (i) 워크로드에 기반한 서로다른 메모리 타입들로 데이터를 라우팅하고, (ii) 프로세서-측 주소들을 메모리-측 주소들로 가상화하고 (iii) 처리 회로들(115)을 우회함으로써 서로다른 서버들(105) 사이의 일관성 있는 요청들(coherent requests)을 용이하게 하기 위해 슬레이브 컨트롤러(예컨대, 슬레이브 FPGA 또는 슬레이브 ASIC)를 포함할 수 있다. 도 1e에 도시된 시스템은 CXL 2.0 기반일 수 있고, 랙(rack) 내에 분배된 공유 메모리를 포함할 수 있으며, 원격 노드들과 기본적으로(natively) 연결하기 위해 ToR 서버-링크 스위치(112)를 사용할 수 있다.
ToR 서버-링크 스위치(112)는 다른 서버 또는 클라이언트에 연결하기 위한 추가 네트워크 연결 (예컨대, 도시된 이더넷 연결들 또는 다른 종류의 연결, 예컨대, WiFi 연결 또는 5G 연결과 같은 무선 연결)을 가질 수 있다. 서버-링크 스위치(112) 및 향상된 기능 CXL 스위치(130)는 각각 ARM 프로세서와 같은 처리 회로이거나 이를 포함할 수있는 컨트롤러를 포함할 수 있다. PCIe 인터페이스는 PCIe 5.0 표준 또는 상기 PCIe 표준의 이전 버전 또는 향후 버전을 따르거나, 다른 표준(예컨대, NVDIMM-P, CCIX 또는 OpenCAPI)을 따르는 인터페이스들이 PCIe 인터페이스들 대신에 채용될 수 있다. 메모리 모듈들(135)은 DDR4 DRAM, HBM, LDPPR, NAND 플래시 또는 SSD들(Solid State Drives)을 포함한 다양한 메모리 타입들을 포함할 수 있다. 메모리 모듈들(135)은 분할되거나 다수의 메모리 타입들을 다루기 위해 캐시 컨트롤러들을 포함할 수 있으며, HHHL, FHHL, M.2, U.2, 메자닌(mezzanine) 카드, 도터 카드, E1.S, E1.L, E3.L 또는 E3.S와 같은 폼 팩터들 내에 있을 수 있다.
도 1e의 실시 예에서, 향상된 능력 CXL 스위치(130)는 일대다 및 다대일 스위칭을 가능하게 할 수 있고, 플리트(flit)(64-byte) 레벨에서 미세 입자 로드-스토어(load-store) 인터페이스를 가능하게 할 수 있다. 각 서버는 집합된 메모리 장치들을 가질 수 있으며, 각 장치는 각 LD-ID를 갖는 다수의 논리 장치들로 분할된다. ToR 스위치(112)("서버-링크 스위치"로 지칭될 수 있음)는 일대다 기능을 가능하게 하고, 서버(105)의 향상된 기능 CXL 스위치(130)는 다대일 기능을 가능하게 한다. 서버-링크 스위치(112)는 PCIe 스위치, CXL 스위치 또는 둘 다일 수 있다. 이러한 시스템에서, 요청자들은 다수의 서버들(105)의 처리 회로들(115)일 수 있고, 응답자들은 많은 집합된 메모리 모듈들(135)일 수 있다. 2개의 스위치들의 계층구조(전술한 바와 같이, 마스터 스위치는 서버-링크 스위치(112)이고, 슬레이브 스위치는 향상된 기능 CXL 스위치 (130)임)는 아무-아무(any-any) 통신을 가능하게 한다. 메모리 모듈들(135) 각각은 하나의 물리적 기능 (PF)과 최대 16 개의 분리된(isolated) 논리적 장치들을 가질 수 있다. 일부 실시예들에서 논리 장치들의 개수(예를 들어, 파티션들의 개수)는 제한될 수 있고(예를 들어, 16 개까지), 하나의 제어 파티션 (상기 장치를 제어하기 위해 사용되는 물리적 기능일 수 있음)이 또한 존재할 수 있다. 메모리 모듈들(135) 각각은 처리 회로(115)가 보유할 수 있는 캐시 라인 카피들을 처리하기 위해 cxl.cache, cxl.mem 및 cxl.io 및 주소 변환 서비스 (ATS) 구현을 갖는 타입 2 장치일 수 있다. 향상된 기능 CXL 스위치 (130) 및 패브릭 매니저는 메모리 모듈 (135)의 발견을 제어하고 (i) 장치 발견, 가상 CXL 소프트웨어 생성을 수행하고, (ii) 가상을 물리적 포트에 바인딩 할 수 있습니다. 도 1a-1d의 실시 예에서와 같이, 패브릭 매니저는 SMBus 사이드밴드 상에서 연결들을 통해 동작할 수 있다. IPMI (Intelligent Platform Management Interface) 또는 레드피쉬(Redfish) 표준을 준수하는( 그리고 표준에서 요구하지 않는 추가 기능을 제공할 수도 있는) 인터페이스일 수 있는 메모리 모듈 (135)에 대한 인터페이스는 구성 가능성을 인에이블할 수 있다.
전술한 바와 같이, 일부 실시예들은 서버-링크 스위치 (112)의 일부인 마스터 컨트롤러(FPGA 또는 ASIC에서 구현 될 수 있음) 및 향상된 기능 CXL 스위치 (130)의 일부 슬레이브 컨트롤러를 갖는 계층구조를 구현하여 로드-스토어 인터페이스 (즉, 소프트웨어 드라이버의 개입없이 일관성 도메인 내에서 동작하는 캐시-라인 (예컨대, 64 바이트) 단위(granularity)를 가진인터페이스)를 제공한다. 이러한 로드-스토어 인터페이스는 개별 서버, CPU 또는 호스트를 넘어서 일관성 도메인을 확장할 수 있으며 전기적 또는 광학적 물리적 매체를 포함할 수 있다(예컨대, 양 단부에서 전기-광 트랜시버와의 광학 연결). 동작 시에, (서버-링크 스위치(112)의) 마스터 컨트롤러는 랙 상의 모든 서버들(105)를 부팅(또는 "재부팅")하고 구성한다. 상기 마스터 컨트롤러는 모든 호스트들에 대한 가시성을 가질 수 있으며, (i) 각 서버를 발견하고 얼마나 많은 서버들(105) 및 메모리 모듈들(135)이 서버 클러스터에 존재하는 지를 발견하고, (ii) 서버들(105) 각각을 독립적으로 구성하고, (iii) 예컨대, 랙의 구성을 기반으로 서로다른 서버들 상의 메모리의 일부 블록들을 인에이블 또는 디스에이블하고(예 : 메모리 모듈들(135) 중 어느 하나를 인에이블 또는 디스에이블하고), (iv) 액세스를 제어하고(예컨대, 어떤 서버가 어떤 다른 서버를 제어할 수 있을 지), (v) 흐름 제어를 구현하고(예컨대, 모든 호스트 및 장치 요청들이 상기 마스터를 통과하기 때문에, 하나의 서버에서 다른 서버로 데이터를 전송하고 상기 데이터에 대한 흐름 제어를 수행함), (vi) 요청들 또는 패킷들을 그룹화하거나 묶고(예컨대, 다수의 캐시 요처을은 서로다른 서버들(105)로부터 마스터에 의해 수신됨) 및 (vii) 원격 소프트웨어 업데이트, 방송 통신 등을 수신할 수 있다. 묶음 모드에서, 서버-링크 스위치(112)는 동일한 서버로 향하는 (예를 들어, 제1 서버로 향하는) 복수의 패킷을 수신하고 패킷들을 함께 (즉, 패킷들 사이의 중지 없이) 제1 서버로 전송할 수 있다. 예를 들어, 서버-링크 스위치(112)는 제2 서버로부터 제1 패킷을 수신하고, 제3 서버로부터 제2 패킷을 수신하고, 상기 제1 패킷과 제2 패킷을 함께 제1 서버로 전송할 수 있다. 서버들(105) 각각은 마스터 컨트롤러로 (i) IPMI 네트워크 인터페이스, (ii) 시스템 이벤트 로그 (SEL) 및 (iii) 보드 관리 컨트롤러(BMC)를 노출하여 마스터 마스터 컨트롤러가 성능을 측정하고, 신뢰성을 상황에 따라(on the fly) 측정하고, 서버(105)를 재구성할 수 있게 한다.
일부 실시예들에서, 고-가용성 로드-스토어 인터페이스를 용이하게 하는 소프트웨어 아키텍처가 사용된다. 이러한 소프트웨어 아키텍처는 신뢰성, 복제, 일관성, 시스템 일관성, 해싱, 캐싱 및 지속성을 제공할 수 있다. 상기 소프트웨어 아키텍처는 IPMI를 통해 CXL 장치 컴포넌트들의 주기적인 하드웨어 검사를 수행함으로써(서버의 개수가 많은 시스템에서) 신뢰성을 제공할 수 있다. 예를 들어, 서버-링크 스위치(112)는 IPMI 인터페이스를 통해 메모리 서버(150)의 상태를 조회하는데, 예를 들어, 전원 상태 (메모리 서버 (150)의 전원 공급 장치가 적절하게 작동하는지 여부), 네트워크 상태 (서버-링크 스위치(112)에 대한 인터페이스가 적절하게 동작하는지 여부) 및 에러 검사 상태 (에러 조건이 메모리 서버(150)의 서브 시스템중 하나에 존재하는지 여부)를 조회한다. 상기 소프트웨어 아키텍처는 복제를 제공할 수 있는데, 그에 따라 마스터 컨트롤러가 메모리 모듈들(135)에 저장된 데이터를 복제하고 복제본의 데이터 일관성을 유지할 수 있다.
소프트웨어 아키텍처는 일관성을 제공할 수 있는데, 그에 따라 마스터 컨트롤러가 서로 다른 일관성 레벨로 구성될 수 있고, 서버-링크 스위치(112)는 유지될 일관성 레벨에 따라 패킷 포맷을 조정할 수 있다. 예를 들어, 최종 일관성이 유지되는 경우, 서버-링크 스위치(112)는 요청들을 재정렬할 수 있는 반면, 엄격한 일관성을 유지하기 위해서는 서버-링크 스위치(112)는 스위치들에서 정확한 타임스탬프들을 가지고 모든 요청들의 스코어보드를 유지할 수 있다. 소프트웨어 아키텍처는 시스템 일관성을 제공할 수 있는데, 그에 따라 다수의 처리 회로(115)는 동일한 메모리 주소로부터 판독하거나 기록할 수 있으며, 마스터 컨트롤러는 일관성을 유지하기 위해 (디렉토리 룩업을 사용하여) 주소의 홈 노드에 도달하거나 공통 버스 상에서 요청을 브로드캐스팅할 책임을 가진다.
소프트웨어 아키텍처는 해싱(hashing)을 제공할 수 있는데, 그에 따라, 서버-링크 스위치(112) 및 향상된 기능 CXL 스위치가 부팅시 모든 노드들에 걸쳐 모든 CXL 장치들에 데이터를 균등하게 매핑하기 위해 (또는 한 서버가 다운되거나 작동할 때 조정하기 위해) 다수의 해시 기능들과 함께 일관된 해싱을 사용할 수 있는 주소의 가상 매핑을 유지할 수 있다. 소프트웨어 아키텍처는 캐싱을 제공할 수 있는데, 그에 따라 마스터 컨트롤러가 (예를 들어, HBM 또는 유사한 능력들을 가진 기술을 포함하는 메모리 모듈(135)에서) 어떤 메모리 파티션을 지정하여 캐시(동시 기록(write-through) 캐싱 또는 후기 기록(write-back) 캐싱을 사용함)로서 작동할 수 있다. 소프트웨어 아키텍처는 지속성을 제공하는데, 그에 따라 마스터 컨트롤러와 슬레이브 컨트롤러가 영구 도메인 및 플러시를 관리할 수 있다.
일부 실시예들에서, CXL 스위치의 능력들은 메모리 모듈(135)의 컨트롤러에 통합된다. 이러한 실시예에서, 서버-링크 스위치(112)는 그럼에도 불구하고 마스터로서 작동할 수 있고 이외의 다른 곳에서도 전술한 바와 같이 향상된 특징들을 가질 수 있다. 서버-링크 스위치(112)는 또한 시스템의 다른 저장 장치를 관리할 수 있으며, 예를 들어 서버-링크 스위치(112)에 의해 형성된 PCIe 네트워크의 일부가 아닌 클라이언트 머신에 연결하기 위한 이더넷 연결(예컨대, 100 GbE 연결)을 가질 수 있다.
일부 실시예들에서, 서버-링크 스위치(112)는 향상된 기능들(capabilities)을 갖고 또한 통합된 CXL 컨트롤러를 포함한다. 다른 실시예들에서, 서버-링크 스위치(112)는 물리적 라우팅 장치일 뿐이며, 각 서버(105)는 마스터 CXL 컨트롤러를 포함한다. 이러한 실시예에서, 서로 다른 서버들에 걸쳐 있는 마스터들은 마스터-슬레이브 아키텍처를 협상할 수 있다. (i) 향상된 기능 CXL 스위치(130) 및 (ii) 서버-링크 스위치(112)의 지능형 기능들은 하나 이상의 FPGA, 하나 이상의 ASIC, 하나 이상의 ARM 프로세서, 또는 컴퓨팅 기능들을 갖는 하나 이상의 SSD 장치에서 구현될 수 있다. 서버-링크 스위치(112)는 예를 들어, 독립적인 요청들을 재정렬함으로써 흐름 제어를 수행할 수 있다. 일부 실시예에서, 인터페이스가 로드-저장소이기 때문에, RDMA는 옵션이지만 PCIe 물리적 매체(100GbE 대신)를 사용하는 개입 RDMA 요청(intervening RDMA requests)이 있을 수 있다. 이러한 실시예에서, 원격 호스트는 RDMA 요청을 개시할 수 있으며, 상기 RDMA 요청은 서버-링크 스위치(112)를 통해 향상된 기능 CXL 스위치(130)로 전송될 수 있다. 서버-링크 스위치(112) 및 향상된 기능 CXL 스위치(130)는 RDMA 4KB 요청, 또는 CXL의 플리트 (64- 바이트) 요청에 우선 순위를 둘 수 있다.
도 1c 및 도 1d의 실시예에서와 같이, 향상된 기능 CXL 스위치(130)는 이러한 RDMA 요청을 수신하도록 구성될 수 있고, 수신 서버(105)(즉, RDMA 요청을 수신하는 서버)의 메모리 모듈들(135)의 그룹을 자신의 메모리 공간으로 취급할 수있다. 또한, 향상된 기능 CXL 스위치(130)는 처리 회로들(115)에 걸쳐 가상화하고 원격의 향상된 기능 CXL 스위치들 (130)에 대한 RDMA 요청을 개시하여, 처리 회로 (115)가 관여될 필요 없이 서버들(105) 사이에서 데이터를 앞뒤로 이동할 수 있다.
도 1f는 처리 회로들(115)이 향상된 기능 CXL 스위치(130)를 통해 네트워크 인터페이스 회로들(125)에 연결되는 도 1e의 시스템과 유사한 시스템을 도시한다. 도 1d의 실시예에서와 같이, 도 1f에서, 향상된 기능 CXL 스위치(130), 메모리 모듈(135) 및 네트워크 인터페이스 회로들(125)은 확장 소켓 어댑터(140) 상에 위치한다. 확장 소켓 어댑터(140)는 서버(105)의 마더보드상의 확장 소켓, 예컨대, PCIe 커넥터(145)에 플러그-연결된 회로 기판 또는 모듈일 수 있다. 따라서, 서버는 PCIe 커넥터(145)에서 확장 소켓 어댑터(140)의 설치에 의해서만 변경되는, 임의의 적절한 서버일 수 있다. 메모리 모듈(135)은 확장 소켓 어댑터(140) 상의 커넥터들(예컨대, M.2 커넥터들)에 설치될 수 있다. 이러한 실시예에서, (i) 네트워크 인터페이스 회로(125)는 향상된 기능 CXL 스위치(130)에 통합될 수 있거나, 또는 (ii) 각 네트워크 인터페이스 회로(125)는 PCIe 인터페이스를 가질 수 있어(네트워크 인터페이스 회로(125)는 PCIe 엔드포인트일 수 있음), 네트워크 인터페이스 회로(125)에 연결되는 처리 회로(115)는 루트 포트-투-엔드포인트 PCIe 연결을 통해 네트워크 인터페이스 회로(125)와 통신할 수 있고, 상기 향상된 기능 CXL 스위치 (130)의 컨트롤러(137)(처리 회로(115) 및 네트워크 인터페이스 회로(125)에 연결된 PCIe 입력 포트를 가질 수 있음)는 피어-투-피어 PCIe 연결을 통해 네트워크 인터페이스 회로(125)와 통신할 수 있다.
본 발명의 일실시예에 따르면, 제1 서버, 제2 서버, 및 상기 제1 서버 및 상기 제2 서버에 연결된 서버-링크 스위치를 포함하고, 상기 제1 서버는 저장된-프로그램 처리 회로, 캐시-일관성 스위치 및 제1 메모리 모듈을 포함하며, 상기 제1 메모리 모듈은 상기 캐시-일관성 스위치에 연결되고, 상기 캐시-일관성 스위치는 상기 캐시-일관성 스위치에 연결되고, 상기 저장된- 프로그램 처리 회로는 상기 캐시-일관성 스위치에 연결된다. 일부 실시예에서, 서버-링크 스위치는 PCIe (Peripheral Component Interconnect Express) 스위치를 포함한다. 일부 실시 예에서, 서버-링크 스위치는 CXL (Compute Express Link) 스위치를 포함한다. 일부 실시 예에서, 서버-링크 스위치는 ToR(Top of rack) CXL 스위치를 포함한다. 일부 실시 예에서, 서버-링크 스위치는 제1 서버를 발견하도록 구성된다. 일부 실시 예에서, 서버-링크 스위치는 제1 서버가 재부팅하도록 구성된다. 일부 실시 예에서, 서버-링크 스위치는 캐시-일관성 스위치가 상기 제1 메모리 모듈을 디스에이블하도록 구성된다. 일부 실시 예에서, 서버-링크 스위치는 제2 서버에서 제1 서버로 데이터를 전송하고 데이터에 대한 흐름 제어를 수행하도록 구성된다. 일부 실시 예에서, 시스템은 서버-링크 스위치에 연결된 제3 서버를 더 포함하고, 서버-링크 스위치는 제2 서버로부터 제1 패킷을 수신하고, 제3 서버로부터 제2 패킷을 수신하고, 제1 패킷 및 제2 패킷을 제1 서버로 전송한다. 일부 실시예들에서, 상기 시스템은 상기 캐시-일관성 스위치에 연결된 제2 메모리 모듈을 더 포함하고, 상기 제1 메모리 모듈은 휘발성 메모리를 포함하고 상기 제2 메모리 모듈은 영구 메모리를 포함한다. 일부 실시예들에서, 상기 캐시-일관성 스위치는 상기 제1 메모리 모듈 및 상기 제2 메모리 모듈을 가상화하도록 구성된다. 일부 실시예들에서, 상기 제1 메모리 모듈은 플래시 메모리를 포함하고, 상기 캐시-일관성 스위치는 플래시 메모리에 대한 플래시 변환 계층을 제공하도록 구성된다. 일부 실시예들에서, 상기 제1 서버는 상기 제1 서버의 확장 소켓에 연결된 확장 소켓 어댑터를 포함하고, 상기 확장 소켓 어댑터는 캐시-일관성 스위치 및 메모리 모듈 소켓을 포함하고, 상기 제1 메모리 모듈은 상기 메모리 모듈 소켓을 통해 상기 캐시-일관성 스위치에 연결된다. 일부 실시예들에서, 상기 메모리 모듈 소켓은 M.2 소켓을 포함한다. 일부 실시 예에서, 캐시-일관성 스위치는 커넥터를 통해 서버-링크 스위치에 연결되고 커넥터는 확장 소켓 어댑터 상에 있다. 본 발명의 일 실시 예에 따르면, 컴퓨팅 시스템에서 원격 다이렉트 메모리 액세스를 수행하는 방법으로서, 상기 컴퓨팅 시스템은 제1 서버, 제2 서버, 제3 서버, 및 상기 제1 서버, 상기 제2 서버 및 제3 서버에 연결된 서버-링크 스위치를 포함하고, 상기 제1 서버는 저장된-프로그램 처리 회로, 캐시-일관성 스위치, 및 제1 메모리 모듈을 포함하는, 상기 방법은 상기 서버-링크 스위치에 의해 상기 제2 서버로부터 제1 패킷을 수신하는 단계, 상기 서버-링크 스위치에 의해, 상기 제3 서버로부터 제2 패킷을 수신하는 단계 및 상기 제1 패킷 및 상기 제2 패킷을 상기 제1 서버로 전송하는 단계를 포함한다. 일부 실시 예에서, 상기 방법은 상기 캐시-일관성 스위치에 의해 스트레이트 RDMA 요청을 수신하는 단계 및 상기 캐시-일관성 스위치에 의해 스트레이트 RDMA 응답을 전송하는 단계를 더 포함한다. 일부 실시예들에서, 상기 스트레이트 RDMA 요청을 수신하는 단계는 상기 서버-링크 스위치를 통해 상기 스트레이트 RDMA 요청을 수신하는 단계를 포함한다. 일부 실시예들에서, 상기 방법은 상기 캐시-일관성 스위치에 의해 저장된-프로그램 처리 회로로부터 제1 메모리 어드레스에 대한 판독 커맨드를 수신하는 단계, 상기 캐시-일관성 스위치에 의해 상기 제1 메모리 어드레스를 제2 메모리 어드레스로 변환하는 단계, 상기 캐시-일관성 스위치에 의해 상기 제2 메모리 어드레스에서 제1 메모리 모듈로부터 데이터를 검색하는 단계를 포함한다. 본 발명의 일실시예에 따르면, 제1 서버, 제2 서버, 및 상기 제1 서버 및 상기 제2 서버에 연결된 서버-링크 스위치를 포함하고, 상기 제1 서버는 저장된-프로그램 처리 회로, 캐시-일관성 스위칭 수단 및 제1 메모리 모듈을 포함하며, 상기 제1 메모리 모듈은 상기 캐시-일관성 스위칭 수단에 연결되고, 상기 캐시-일관성 스위칭 수단은 상기 캐시-일관성 스위칭 수단에 연결되고, 상기 저장된- 프로그램 처리 회로는 상기 캐시-일관성 스위칭 수단에 연결된다.
도 1g는 복수의 메모리 서버들(150) 각각이 도시된 바와 같이, PCIe 5.0 CXL 스위치일 수 있는 ToR 서버-링크 스위치(112)에 연결되는 실시예를 도시한다. 도 1e 및 1f의 실시예에서, 서버-링크 스위치(112)는 FPGA 또는 ASIC를 포함할 수 있으며, 이더넷 스위치보다 우수한 성능(처리량(throughput) 및 지연시간(latency)의 측면에서)을 제공할 수 있다. 도 1e 및 1f의 실시 예에서와 같이, 메모리 서버(150)는 복수의 PCIe 커넥터를 통해 서버-링크 스위치(112)에 연결된 복수의 메모리 모듈 (135)을 포함할 수 있다. 도 1g의 실시 예에서, 처리 회로들(115) 및 시스템 메모리(120)는 부재할 수 있고, 메모리 서 (150)의 주 목적은 컴퓨팅 자원을 갖는 다른 서버들(105)에 의한 사용을 위해 메모리를 제공하는 것일 수 있다.
도 1g의 실시 예에서, 서버-링크 스위치(112)는 서로다른 메모리 서버들(150)로부터 수신된 다수의 캐시 요청들을 그룹화하거나 묶을 수 있고, 패킷들을 그룹화하여 제어 오버헤드를 감소시킬 수 있다. 향상된 기능 CXL 스위치(130)는 (i) 워크로드에 기초하여 데이터를 서로다른 메모리 타입들로 라우팅하고 (ii) 프로세서-측 주소들을 가상화하기 위해(이러한 주소를 메모리-측 주소들로 변환하기 위해) 구성가능한 하드웨어 빌딩 블록들을 포함할 수 있다. 도 1g에 도시된 시스템은 CXL 2.0 기반일 수 있고, 랙(rack) 내에 구성가능한 및 집합되지 않은 공유 메모리를 포함할 수 있으며, 원격 장치들에 풀링된(pooled)(즉, 집합된) 메모리를 제공하기 위해 ToR 서버-링크 스위치(112)를 사용할 수 있다.
ToR 서버-링크 스위치(112)는 다른 서버 또는 클라이언트에 연결하기 위한 추가 네트워크 연결 (예컨대, 도시된 이더넷 연결들 또는 다른 종류의 연결, 예컨대, WiFi 연결 또는 5G 연결과 같은 무선 연결)을 가질 수 있다. 서버-링크 스위치(112) 및 향상된 기능 CXL 스위치(130)는 각각 ARM 프로세서와 같은 처리 회로이거나 이를 포함할 수있는 컨트롤러를 포함할 수 있다. PCIe 인터페이스는 PCIe 5.0 표준 또는 상기 PCIe 표준의 이전 버전 또는 향후 버전을 따르거나, 다른 표준(예컨대, NVDIMM-P, CCIX 또는 OpenCAPI)이 PCIe 대신에 채용될 수 있다. 메모리 모듈들(135)은 DDR4 DRAM, HBM, LDPPR, NAND 플래시 및 SSD들(Solid State Drives)을 포함한 다양한 메모리 타입들을 포함할 수 있다. 메모리 모듈들(135)은 분할되거나 다수의 메모리 타입들을 다루기 위해 캐시 컨트롤러들을 포함할 수 있으며, HHHL, FHHL, M.2, U.2, 메자닌(mezzanine) 카드, 도터 카드, E1.S, E1.L, E3.L 또는 E3.S와 같은 폼 팩터들 내에 있을 수 있다.
도 1g의 실시 예에서, 향상된 능력 CXL 스위치(130)는 일대다 및 다대일 스위칭을 가능하게 할 수 있고, 플리트(flit)(64-byte) 레벨에서 미세 입자 로드-스토어(load-store) 인터페이스를 가능하게 할 수 있다. 각 메모리 서버(150)는 집합된 메모리 장치들을 가질 수 있으며, 각 장치는 각 LD-ID를 갖는 다수의 논리 장치들로 분할된다. 향상된 기능 CXL 스위치(130)는 컨트롤러(137) (예컨대, ASIC 또는 FPGA), 및 장치 발견, 계산(enumeration), 분할(partitioning) 및 물리적 주소 범위들의 제공을 위한 회로 (이러한 ASIC 또는 FPGA로부터 또는 그 일부로부터 분리될 수 있음)를 포함할 수 있다. 메모리 모듈들(135) 각각은 하나의 물리적 기능 (PF)과 최대 16 개의 분리된(isolated) 논리적 장치들을 가질 수 있다. 일부 실시예들에서 논리 장치들의 개수(예를 들어, 파티션들의 개수)는 제한될 수 있고(예를 들어, 16 개까지), 하나의 제어 파티션 (상기 장치를 제어하기 위해 사용되는 물리적 기능일 수 있음)이 또한 존재할 수 있다. 메모리 모듈들(135) 각각은 처리 회로(115)가 보유할 수 있는 캐시 라인 카피들을 처리하기 위해 cxl.cache, cxl.mem 및 cxl.io 및 주소 변환 서비스 (ATS) 구현을 갖는 타입 2 장치일 수 있다.
향상된 기능 CXL 스위치 (130) 및 패브릭 매니저는 메모리 모듈 (135)의 발견을 제어하고 (i) 장치 발견, 가상 CXL 소프트웨어 생성을 수행하고, (ii) 가상을 물리적 포트에 바인딩 할 수 있습니다. 도 1a-1d의 실시 예에서와 같이, 패브릭 매니저는 SMBus 사이드밴드 상에서 연결들을 통해 동작할 수 있다. IPMI (Intelligent Platform Management Interface) 또는 레드피쉬(Redfish) 표준을 준수하는( 그리고 표준에서 요구하지 않는 추가 기능을 제공할 수도 있는) 인터페이스일 수 있는 메모리 모듈 (135)에 대한 인터페이스는 구성 가능성을 인에이블할 수 있다.
도 1g의 실시예에 대한 빌딩 블록들은 (전술한 바와 같이) FPGA 또는 ASIC 상에 구현된 CXL 컨트롤러(137)를 포함할 수 있으며, 메모리 장치들(예를 들어, 메모리 모듈들(135)), SSD들, 가속기들(GPUs, NICs), CXL 및 PCIe5 커넥터들 및 펌웨어의 집합을 가능하게 하여 장치 세부사항들을 HMAT(heterogeneous memory attribute table) 또는 SRAT (static resource affinity table)와 같은, 운영 체제의 ACPI (advanced configuration and power interface) 테이블들에 노출시킨다.
일부 실시 예에서, 상기 시스템은 구성가능성(composability)을 제공한다. 상기 시스템은 소프트웨어 구성에 기초하여 온라인 및 오프라인, CXL 장치 및 기타 가속기에 능력(ability)을 제공할 수 있으며, 가속기, 메모리, 저장 장치 리소스를 그룹화하고 이들을 랙의 각 메모리 서버(150)에 할당할 수 있다. 상기 시스템은 물리적 주소 공간을 숨기고 HBM 및 SRAM과 같은 더 빠른 장치들을 사용하여 투명한 캐시를 제공할 수 있다.
도 1g의 실시 예에서, 향상된 기능 CXL 스위치(130)의 컨트롤러(137)는 (i) 메모리 모듈들(135)을 관리하고, (ii) NICs, SSDs, GPUs, DRAM과 같은 이기종 장치들을 통합 및 제어하고 (iii) 파워-게이팅에 의해 메모리 장치들에 대한 스토리지의 동적 재구성을 가져올 수 있다. 예를 들어, ToR 서버-링크 스위치(112)는 (향상된 기능 CXL 스위치(130)에 메모리 모듈(135)에 대한 전력을 디스에이블하도록 지시함으로써) 메모리 모듈들(135) 중 하나에 대한 전력을 디스에이블(즉, 전력 차단 또는 전력 감소)한다. 그런 다음, 향상된 기능 CXL 스위치(130)는지시를 받았을 때, 메모리 모듈에 대한 전력을 디스에이블하기 위해 서버-링크 스위치(112)에 의해 메모리 모듈 (135)에 대한 전력을 디스에이블할 수 있다. 이러한 디스에이블은 전력을 보존할 수 있고, 메모리 서버(150)에서 다른 메모리 모듈들(135)의 성능(예컨대, 처리량 및 대기시간)을 개선할 수 있다. 각 원격 서버(105)는 협상에 기초한 메모리 모듈(135) 및 이들의 연결들의 상이한 논리적 관점을 볼 수 있다. 향상된 기능 CXL 스위치 130)의 컨트롤러(137)는 각 원격 서버가 할당된 자원 및 연결을 유지하도록 상태를 유지할 수 있으며, 메모리 용량을 (구성가능한 청크(chunk) 크기를 사용하여) 절약하기 위해 메모리의 압축 또는 중복제거(deduplication)를 수행할 수 있다. 도 1g의 집합되지 않은 랙은 자체 BMC를 가질 수 있다. 또한, 도 1g의 집합되지 않은 랙은 IPMI 네트워크 인터페이스 및 시스템 이벤트 로그(SEL)를 원격 장치들에 노출하여, 마스터(예컨대, 메모리 서버들(150)에 의해 제공된 스토리지를 사용하는 원격 서버)가 성능 및 신뢰성을 상황에 따라 측정하고 집합되지 않은 랩을 재구성할 수 있도록 한다. 도 1g의 집합되지 않은 랙은 예를 들어, 일관성은 동일한 메모리 주소에 대해 판독하거나 또는 기록하는 다수의 원격 서버들에서 제공되고 각 원격 서버가 서로다른 일관성 레벨들로 구성되면서, 도 1e의 실시예에 대해 본 명세서에서 설명된 것과 유사한 방식으로 신뢰성, 복제, 일관성, 시스템 일관성, 해싱, 캐싱 및 지속성을 제공할 수 있다. 일부 실시 예에서, 서버-링크 스위치는 제1 메모리 서버에 저장된 데이터와 제2 메모리 서버에 저장된 데이터 사이의 최종 일관성을 유지한다. 서버-링크 스위치(112)는 서로다른 서버 쌍들에 대해 서로 다른 일관성 레벨들을 유지할 수 있는데, 예들어, 서버-링크 스위치는 또한 제1 메모리 서버에 저장된 데이터와 제3 메모리 서버에 저장된 데이터 사이에서 엄격한 일관성, 순차적 일관성, 인과적 일관성 또는 프로세서 일관성인 일관성 레벨을 유지할 수 있다. 상기 시스템은 "로컬-밴드"(서버-링크 스위치(112)) 및 "글로벌-밴드"(집합되지 않은 서버) 도메인들에서 통신을 채용할 수 있다. 쓰기들은 다른 서버들로부터 새로운 읽기들에 대해 가시적이도록 "글로벌 밴드"로 플러시(flush)될 수 있다. 향상된 기능 CXL 스위치(130)의 컨트롤러(137)는 영구 도메인들을 관리하고 각 원격 서버에 대해 별도로 플러시할 수 있다. 예를 들어, 캐시-일관성 스위치는 메모리(휘발성 메모리, 캐시로 동작)의 제1 영역의 채워짐(fullness)을 모니터링할 수 있으며, 채워짐 레벨이 임계값을 초과하면, 캐시-일관성 스위치가 메모리의 제1 영역에서 메모리의 제2 영역으로 이동할 수 있고, 메모리의 제2 영역은 영구 메모리에 위치한다. 흐름 제어는 원격 서버들 사이에서 향상된 기능 CXL 스위치(130)의 컨트롤러(137)에 의해 우선 순위가 설정되어 상이한 인지된 대기 시간 및 대역폭을 제공할 수 있다는 점에서 다뤄질 수 있다.
본 발명의 일실시예에 따르면, 캐시-일관성 스위치 및 제1 메모리 모듈을 포함하는 제1 메모리 서버, 제2 메모리 서버, 및 상기 제1 메모리 서버 및 제2 메모리 서버에 연결된 서버-링크 스위치를 포함하고, 상기 제1 메모리 모듈은 상기 캐시-일관성 스위치 에 연결되며, 상기 캐시-일관성 스위치는 상기 서버-링크 스위치에 연결된다. 일부 실시 예에서, 상기 서버-링크 스위치는 제1 메모리 모듈에 대한 전력을 디스에이블하도록 구성된다. 일부 실시 예에서, 서버-링크 스위치는 캐시-일관성 스위치에게 제1 메모리 모듈에 대해 전력을 디스에이블하도록 지시함으로써 제1 메모리 모듈에 대한 전원을 비활성화하도록 구성되고, 캐시-일관성 스위치는 제1 메모리 모듈에 대해 전력을 디스에이블하도록 상기 서버-링크 스위치에 의해 지시될 때, 제1 메모리 모듈로 전력을 디스에이블하도록 구성된다. 일부 실시 예에서, 캐시-일관성 스위치는 제1 메모리 모듈 내에서 중복제거를 수행하도록 구성된다. 일부 실시 예에서, 캐시-일관성 스위치는 데이터를 압축하고 압축된 데이터를 제1 메모리 모듈에 저장하도록 구성된다. 일부 실시 예에서, 서버-링크 스위치는 제1 메모리 서버의 상태를 질의하도록 구성된다. 일부 실시 예에서, 서버-링크 스위치는 지능형 플랫폼 관리 인터페이스(IPMI)를 통해 제1 메모리 서버의 상태를 질의하도록 구성된다. 일부 실시 예에서, 상태의 질의는 전력 상태, 네트워크 상태 및 에러 검사 상태로 구성된 그룹으로부터 선택된 상태를 질의하는 것을 포함한다. 일부 실시 예에서, 서버-링크 스위치는 제1 메모리 서버로 향하는 캐시 요청들을 묶도록 구성된다. 일부 실시 예에서, 시스템은 서버-링크 스위치에 연결된 제3 메모리 서버를 더 포함하고, 상기 서버-링크 스위치는 제1 메모리 서버에 저장된 데이터와 제3 메모리 서버에 저장된 데이터 사이에서, 엄격한 일관성, 순차적 일관성, 인과적 일관성 및 프로세서 일관성으로 구성된 그룹에서 선택된 일관성 레벨을 유지하도록 구성된다. 일부 실시 예에서, 상기 캐시-일관성 스위치는 메모리의 제1 영역의 채워짐을 모니터링하고, 데이터를 메모리의 제1 영역에서 메모리의 제2 영역으로 이동하도록 구성되며, 상기 메모리의 제1 영역은 휘발성 메모리에 위치하며, 상기 메모리의 제2 영역은 영구 메모리에 위치한다. 일부 실시예에서, 서버-링크 스위치는 PCIe (Peripheral Component Interconnect Express) 스위치를 포함한다. 일부 실시 예에서, 서버-링크 스위치는 CXL (Compute Express Link) 스위치를 포함한다. 일부 실시 예에서, 서버-링크 스위치는 ToR(Top of rack) CXL 스위치를 포함한다. 일부 실시 예에서, 서버-링크 스위치는 제2 메모리 서버에서 제1 메모리 서버로 데이터를 전송하고 데이터에 대한 흐름 제어를 수행하도록 구성된다. 일부 실시 예에서, 시스템은 서버-링크 스위치에 연결된 제3 메모리 서버를 더 포함하고, 서버-링크 스위치는 제2 메모리 서버로부터 제1 패킷을 수신하고, 제3 메모리 서버로부터 제2 패킷을 수신하고, 제1 패킷 및 제2 패킷을 제1 메모리 서버로 전송한다. 본 발명의 일 실시 예에 따르면, 컴퓨팅 시스템에서 원격 다이렉트 메모리 액세스를 수행하는 방법으로서, 상기 컴퓨팅 시스템은 제1 메모리 서버, 제1 서버, 제2 서버, 및 상기 제1 메모리 서버, 상기 제1 서버, 밍 상기 제2 서버에 연결된 서버-링크 스위치를 포함하고, 상기 제1 메모리 서버는 캐시-일관성 스위치, 및 제1 메모리 모듈을 포함하는, 상기 제1 서버는 저장된-프로그램 처리 회로를 포함하고, 상기 제2 서버는 저장된-프로그램 처리 회로를 포함하는, 상기 방법은 상기 서버-링크 스위치에 의해 상기 제1 서버로부터 제1 패킷을 수신하는 단계, 상기 서버-링크 스위치에 의해, 상기 제2 서버로부터 제2 패킷을 수신하는 단계, 및 상기 제1 패킷 및 상기 제2 패킷을 상기 제1 메모리 서버로 전송하는 단계를 포함한다. 일부 실시 예에서, 상기 방법은 상기 캐시-일관성 스위치에 의해 데이터를 압축하는 단계 및 상기 데이터를 상기 제1 메모리 모듈에 저장하는 단계를 더 포함한다. 일부 실시 예에서, 방법은 상기 방법은 상기 서버-링크 스위치에 의해 상기 제1 메모리 서버의 상태를 질의하는 단계를 더 포함한다. 본 발명의 일실시예에 따르면, 캐시-일관성 스위치 및 제1 메모리 모듈을 포함하는 제1 메모리 서버, 제2 메모리 서버, 및 상기 제1 메모리 서버 및 제2 메모리 서버에 연결된 서버-링크 스위칭 수단을 포함하고, 상기 제1 메모리 모듈은 상기 캐시-일관성 스위치에 연결되며, 상기 캐시-일관성 스위치는 상기 서버-링크 스위칭 수단에 연결된다.
도 2는 본 개시의 예시적인 실시예들에 따른, 도 1과 관련하여 설명된 다양한 서버들과 통신하고 구성할 수 있는 관리 컴퓨팅 엔티티와 관련하여 개시된 실시예들이 동작할 수 있는 대표적인 시스템 아키텍처의 다이어그램(200)을 도시한다. 일부 실시예에서, 개시된 시스템은 다수의 클러스터들과 관련하여 동작하도록 구성될 수 있는 관리 컴퓨팅 엔티티(202)를 포함할 수 있다. 도시된 바와 같이, 클러스터들은 타입-A 풀 클러스터(pool cluster)(204), 타입-B 풀 클러스터(206), 타입-C 풀 클러스터(208) 및 타입-D 풀 클러스터(210)를 포함할 수 있다. 일 실시예에서, 타입-A 풀 클러스터(204)는 직접 부착 메모리(예를 들어, CXL 메모리)를 포함할 수 있고, 타입-B 풀 클러스터(206)는 가속기(예를 들어, CXL 가속기)를 포함할 수 있고, 타입-C 풀 클러스터(208)는 풀링된/분배된 메모리(예를 들어, CXL 메모리)를 포함할 수 있고, 타입-D 풀 클러스터(210)는 비집계된(disaggregated) 메모리(예를 들어, CXL 메모리)를 포함할 수 있다. 또한, 클러스터 각각은 프로세서(예를 들어, RISC-V 기반 프로세서) 및/또는 프로그램 가능 컨트롤러(예를 들어, FPGA 기반 컨트롤러)와 같은 컴퓨팅 엘리먼트(214) 및 대응하는 매체(216)를 포함할 수 있는 플러그-인 모듈(212)를 포함할 수 있으며, 이에 제한받지 않는다.
다양한 실시예에서, 관리 컴퓨팅 엔티티(202)는 하나 이상의 미리 결정된 파라미터, 예를 들어, 관리 컴퓨팅 엔티티(202)와 통신하는 네트워크상의 호스트 또는 장치에 의해 처리되는, 대응하는 워크로드와 연관된 파라미터에 기초하여 I/O 및 메모리 저장 및 검색 동작을 다양한 클러스터에 지시하도록 구성될 수 있다.
다양한 실시예에서, 관리 컴퓨팅 엔티티(202)는 랙 및/또는 클러스터 레벨에서 동작할 수 있으며 또는 주어진 클러스터 아키텍처의 일부(예를 들어, 타입-A 풀 클러스터(204), 타입-B 풀 클러스터(206), 타입-C 풀 클러스터(208) 및 타입-D 풀 클러스터(210))인 주어진 장치(예를 들어, 캐시-일관성 인에이블된 장치) 내에서 적어도 부분적으로 동작할 수 있다. 다양한 실시예에서, 주어진 클러스터 아키텍처 내의 상기 장치는 관리 컴퓨팅 엔티티의 동작들의 제1 부분을 수행할 수 있는 반면, 관리 컴퓨팅 엔티티의 동작들의 다른 부분은 랙 상에서 및/또는 클러스터 레벨에서 구현될 수 있다. 일부 실시예에서, 동작들의 2개의 부분들은 조정된 방식으로(예를 들어, 클러스터내의 장치가 랙에서 및/또는 클러스터 레벨에서 구현된 관리 컴퓨팅 엔티티로/로부터 조정 메시지를 송수신함으로써) 수행될 수 있다. 일부 실시예에서, 클러스터 내의 장치와 관련된 동작들의 제1 부분은 장치 또는 클러스터에 의해 현재 또는 미래의 자원 니즈(need)를 결정하는 단계, 장치 또는 클러스터에 의해 현재 또는 미래의 자원 가용성을 광고하는 단계, 장치 또는 클러스터 레벨에서 구동되고 있는 알고리즘과 관련된 특정 파라미터들을 동기화하는 단계, 장치의 또는 랙/클러스터의 동작들과 관련된 하나 이상의 머신 러닝 모듈을 트레이닝하는 단계, 또는 라우팅 워크로드, 이들의 조합 등과 관련된 해당 데이터를 기록하는 단계를 포함하며, 이에 제한되지 않는다.
도 3a는 본 개시의 예시적인 실시예들에 따른, 도 1과 관련하여 설명된 다양한 서버들과 통신하고 구성할 수 있는 관리 컴퓨팅 엔티티와 관련하여 개시된 실시예들이 동작할 수 있는 대표적인 시스템 아키텍처의 다른 다이어그램(300)을 도시한다. 일부 실시예에서, 관리 컴퓨팅 엔티티(302)는 상기 도 2와 관련하여 도시되고 설명된 관리 컴퓨팅 엔티티(202)와 유사할 수 있지만 반드시 동일하지는 않을 수 있다. 또한, 관리 컴퓨팅 엔티티(202)는 타입-A 풀과 통신할 수 있다. 다양한 실시예에서, 타입-A 풀 클러스터(312)는 여러 개의 서버들을 포함할 수 있다. 더욱이, 타입-A 풀 클러스터(312)는 예를 들어 RCiEP를 사용하여 동작하도록 구성될 수 있는 직접-부착 캐시 일관성(예를 들어, CXL) 장치를 특징으로 할 수 있다. 다른 실시예에서, 타입-A 풀 클러스터(312)는 CPU 핀들의 임의의 제한을 감소시키기 위해 CXL 메모리와 같은 캐시 일관성 프로토콜 기반 메모리를 특징으로 할 수 있다. 일 실시예에서, 타입-A 풀 클러스터(312)는 다양한 폼 팩터 옵션들(예를 들어, EDSFF(Enterprise & Data Center SSD Form Factor) 표준를 따를 수 있는 E1, E3 폼 팩터, 및/또는 AIC(add-in card) 폼 팩터)을 갖는 직접-부착 장치들을 포함할 수 있다. 다른 실시예에서, 개시된 시스템은 캐시 일관성(예를 들어, CXL) 기반 스위치 및/또는 실리콘 포토닉스(silicon photonics) 기반 스위치와 같은 스위치(304)를 포함할 수 있다. 일 실시예에서, 스위치(304)는 랙 레벨(rack level)로 시스템을 확장하는(scale) 역할을 할 수 있는 ToR(top of rack) 이더넷-기반 스위치를 특징으로 할 수 있다.
다양한 실시예에서,도 3b에 도시된 바와 같이, 타입-B 풀 클러스터(314)는 또한 여러 서버를 포함할 수 있다. 더욱이, 타입-B 풀 클러스터(314)는 서버들의 하나의 서버 내에서 풀링될 수 있는 캐시 일관성 기반(예를 들어, CXL 2.0 기반) 스위치 및 가속기를 사용할 수 있다. 더욱이, 타입-B 풀 클러스터(314)는 워크로드에 기초한 가상 캐시 일관성 프로토콜(예를 들어, CXL 프로토콜) 기반 스위치(VCS) 계층 기능을 특징으로 할 수있다. 특히, VCS는 상기 스위치 및 하나의 특정 루트 포트(예컨대, PCIe 루트 포트) 뒤에 있는 연결된 컴포넌트들의 일부로서 식별될 수 있다. 다른 실시예에서, 개시된 시스템은 캐시 일관성(예를 들어, CXL) 기반 스위치 및/또는 실리콘 포토닉스(silicon photonics) 기반 스위치와 같은 스위치(306)를 포함할 수 있다.
다양한 실시예에서,도 3c에 도시된 바와 같이, 타입-C 풀 클러스터(316)는 또한 여러 서버를 포함할 수 있다. 더욱이, 타입-C 풀 클러스터(316)는 서버들 중 하나의 서버 내의 CXL 2.0 스위치를 사용할 수 있다. 추가로, 타입-C 풀 클러스터(316)는 PCIe-기반 패브릭 및/또는 Gen-Z 기반 시스템을 사용하여 서버들에 걸쳐 캐시-일관성 메모리를 확장(scale)할 수 있다. 추가적으로, 타입-C 풀 클러스터(316)는 상기 클러스터의 일관성 메모리의 적어도 3개의 풀(pools), 즉 로컬 DRAM, 로컬 CXL 메모리 및 원격 메모리를 도입할 수 있다. 다른 실시예에서, 개시된 시스템은 캐시 일관성(예를 들어, CXL) 기반 스위치 및/또는 실리콘 포토닉스(silicon photonics) 기반 스위치와 같은 스위치(308)를 포함할 수 있다.
다양한 실시예에서,도 3d에 도시된 바와 같이, 타입-D 풀 클러스터(318)는 또한 여러 서버를 포함할 수 있다. 일 실시예에서, 타입-D 풀 클러스터(318)는 물리적으로 비집계된 CXL 메모리를 포함할 수 있다. 또한, 각 서버에 파티션을 할당하여 서버들 간에 공유를 제한하거나 공유를 하지 않을 수 있다. 일부 실시예에서, 타입-D 풀 클러스터(318)는 초기에 미리 결정된 수(예를 들어, 16)의 MLD(multiple logical device) 파티션들 및 호스트들로 제한될 수 있다. 특히, 타입-3 캐시 일관성 프로토콜(예컨대, CXL) 기반 메모리 장치들은 각 장치가 고유한 논리 장치(unique logical device) ID를 제공하는 다수의 장치들처럼 보이도록 분할될 수 있다. 추가로, 타입-D 풀 클러스터(318)는 PCIe-기반 패브릭 및/또는 Gen-Z 기반 시스템을 사용하여 서버들에 걸쳐 캐시-일관성 메모리를 확장(scale)할 수 있다. 다른 실시예에서, 개시된 시스템은 캐시 일관성(예를 들어, CXL) 기반 스위치 및/또는 실리콘 포토닉스(silicon photonics) 기반 스위치와 같은 스위치(310)를 포함할 수 있다.
도 4는도 1과 관련하여 설명된 서버의 측면들을 특성화할 수 있는 대표적인 파라미터들의 대표적 테이블의 다이어그램을 도시하며, 여기서 관리 컴퓨팅 엔티티는 본 개시의 예시적인 실시예에 따라 파라미터들의 테이블에 기초하여 다양한 서버를 구성한다. 특히, 테이블(400)은 개시된 시스템에 의해, 특히 여기에서 다양하게 설명된 관리 컴퓨팅 엔티티에 의해 고려될 수 있는 다양한 예시적인 파라미터들을 나타내는데, 전술한 서로 다른 풀 클러스터 타입들에 대해 이들 파라미터들(또는 유사한 파라미터들)의 값들의 비교에 기초하여 워크로드의 일부를 서로 다른 클러스터들로 라우팅한다. 특히, 테이블(400)은 컬럼들에 표시된 서로 다른 클러스터 타입들에 해당하는 파라미터들(402), 즉 직접-부착된(Direct-attached)(406) 메모리 클러스터(타입-A 풀 클러스터와 유사), 풀링된(Pooled)(408) 메모리 클러스터(타입-B 풀 클러스터와 유사), 분배된(Distributed)(410) 메모리 클러스터(타입-C 풀 클러스터와 유사) 및 비집계된(disaggregated)(412) 메모리 클러스터(타입-D 풀 클러스터와 유사)을 나타낸다. 이러한 파라미터들(402)의 비제한적인 예들로서, 직접-메모리 용량, 원거리 메모리 용량(예를 들어, CXL과 같은 캐시 일관성 프로토콜에 대해), 원격 메모리 용량(예컨대, 서버 당), 원격 메모리 성능, 전체 총 소유 비용(TCO), 전체 전력(상각) 및 전체 면적(예컨대, E1 폼 팩터들을 이용)이 포함된다. 다양한 실시예에서, 개시된 시스템은 아래에 추가로 설명되는 바와 같이 워크로드의 적어도 일부를 서로 다른 클러스터들로 라우팅하는 결정을 내리기 위해 관리 컴퓨팅 엔티티와 관련하여 머신 러닝 알고리즘을 사용할 수 있다. 도 4는 일부 예시적인 파라미터들을 도시하지만, 개시된 시스템은 워크로드 또는 워크로드의 일부를 클러스터들과 연관된 서로 다른 장치들로 라우팅하기 위해 임의의 적절한 파라미터를 모니터링하도록 구성될 수 있다. 또한, 관리 컴퓨팅 엔티티는 캐시 일관성 프로토콜 기반(예를 들어, CXL 기반) 왕복 시간, 장치가 호스트 바이어스에 있는지 또는 장치 바이어스에 있는지 여부의 결정, 캐시 일관성 프로토콜 기반(예컨대, CXL 기반) 스위치 계층 및/또는 디바이스 다운스트림 포트로의 호스트 업스트림 포트의 바인딩, 캐시 일관성 프로토콜 기반(예컨대, CXL 기반) 스위치 패브릭 매니저 구성, 캐시 일관성 프로토콜 기반(예컨대, CXL 기반) 프로토콜 패킷 또는 물리적 매체 패킷(예컨대, CXL.IO 또는 PCIe 개입 벌크 4KB 패킷), 네트워크 대기 시간, 캐시 일관성 프로토콜 기반 (예 : CXL 기반) 메모리 기술 (예컨대, 메모리 타입), 이들의 조합, 등을 포함하지만 이에 제한받지 않는 시스템의 다양한 파라미터들에 기초하여 이러한 동작들을 수행할 수 있다.
다양한 측면에서, 기존 데이터 센터 및 서버 아키텍처에 문제를 일으킬 수 있는 특정 기능을 가질 수 있는 다양한 하이퍼스케일러 워크로드 필요요건이 있을 수 있다. 예를 들어, 이러한 워크로드는 메모리 및 I/O 대기 시간 필요요건, 대역폭 니즈(needs)에서 다양성을 나타낼 수 있으며 컴퓨팅 및/또는 메모리 자원이 제한될 수 있다.
전술한 바와 같이, 개시된 시스템은 CXL과 같은 캐시 일관성 프로토콜을 포함할 수 있다. 특히, CXL은 추가적인 타입의 메모리 확장 및 일관성 가속기가 기존 스토리지 및 컴퓨팅과 함께 작동할 수 있도록 할 수 있다. 그러나 일부 측면에서, CXL 관련 프로토콜과 같은 프로토콜은 특정 어플리케이션의 니즈를 충족하기 위한 시스템 설계 및/또는 마이크로아키텍처를 기술하지 않을 수 있다. 또한, 분산형 및 대형 CXL 메모리 시스템은 많은 구현에 관한 도전을 가질 수 있기 때문에 다양한 서로 다른 타입의 CXL 시스템 및 관련 마이크로아키텍처가 있을 수 있다.
일부 측면에서 CXL과 같은 캐시 일관성 프로토콜은 메모리 확장 및 이기종 컴퓨팅 아키텍처를 가능하게 할 수 있다. 또한, CPU-중심 에코시스템 내에서 캐시 일관성 동작은 가속기 및 메모리 계층 구조를 위한 설계 및 사용 케이스를 가능하게 한다. 다양한 실시예에서, 개시된 시스템은 여기에서 추가로 설명되는 바와 같이, CXL 타입-1 장치 아키텍처, 타입-2 장치 마이크로아키텍처 및/또는 타입-3 메모리 장치 마이크로아키텍처를 포함할 수 있는 CXL 장치 마이크로아키텍처를 포함할 수 있다. 다른 실시예에서, 개시된 시스템은 주어진 장치(예를 들어, 휘발성 및 비 휘발성 메모리 타입)에서 상이한 메모리 타입들을 동일한 장소에 위치시키고(co-locate) 캐시 일관성 프로토콜과 통신하도록 구성될 수 있다. 다른 실시예에서, 개시된 시스템은 부팅시에 메모리 자원을 재구성할 수 있다. 대안적으로 또는 추가적으로, 개시된 시스템은 미리 결정된 파라미터(예컨대, 대역폭 또는 스토리지 사용 파라미터)에 기초하여 특정 메모리를 비활성화 및/또는 활성화할 수 있다.
전술한 바와 같이, 개시된 시스템은 예컨대, 캐시 일관성 호환 장치의 부팅시 자원을 재구성하는 것을 가능하게 한다. 예를 들어, 개시된 시스템은 네트워크 파라미터를 변경하는 것에 기초하여 특정 메모리 타입(예컨대, 휘발성 메모리 또는 비 휘발성 메모리)을 비활성화/활성화하도록 재구성될 수 있다. 다른 실시예에서, 개시된 시스템은 네트워크 파라미터에 기초하여 하드웨어 캐시 또는 소프트웨어 캐시를 사용하도록 재구성될 수 있다. 일부 실시예에서, 상기 파라미터는 장치의 능력을 결정할 수 있는(사용 등에 기초하여 시간에 따라 변화할 수 있는) 온-디바이스 프로파일링 모듈에 의해 결정될 수 있다. 파라미터는 호스트와 같은 다른 장치로 전송될 수 있으며, 상기 다른 장치는 이 정보를 사용하여 예를 들어 런타임시 상기 장치를 재구성할 수 있다. 다른 실시예에서, 개시된 시스템은 PCIe 인터페이스와 같은 주어진 인터페이스를 전용 인터페이스들(예컨대, 제1 메모리 타입과 관련한 사용을 위한 제1 인터페이스로서 다수의 채널들에 대응하는 하나의 부분 및 제2 메모리 타입과 관련한 사용을 위한 제2 인터페이스로서 제2 개수의 채널들에 대응하는 제2 부분을 사용)로 분할하는 역할을 할 수 있다. 다른 실시예에서, 개시된 시스템은 예를 들어 CXL 기반 로직 도메인(LD-LDs)을 통해 상기 장치를 서로 다른 도메인들로 분할할 수 있다.
전술한 바와 같이, 개시된 시스템은 타입-1, 타입-2 및/또는 타입-3 CXL 장치 마이크로아키텍처들을 포함할 수 있다. 다양한 실시예에서, 타입-1 CXL 장치는 일관성 캐시를 구현하지만 호스트-관리되는 장치 메모리를 포함하지 않을 수 있는 장치를 지칭할 수 있다. 또한, 타입-1 CXL 장치는 PCIe 프로토콜 능력(예컨대, 원자 동작 능력)을 확장할 수 있다. 다양한 실시예에서, 타입-2 CXL 장치는 일관성 캐시 및 호스트-관리되는 장치 메모리를 구현할 수 있다. 또한, 타입-2 CXL 디바이스는 고-대역폭 메모리가 부착된 장치들을 포함하는 어플리케이션들을 지원할 수 있다. 또한, 이러한 타입-2 CXL 장치을 위한 적용가능한 트랜잭션 타입들은 다양한 CXL.cache 및 CXL.mem 트랜잭션들을 포함할 수 있다. 다양한 실시예에서, 타입-3 CXL 장치는 호스트-관리되는 장치 메모리를 포함할 수 있다. 또한, 일부 실시예에서, 개시된 시스템은 상기 호스트를 위한 메모리 확장과 같은 이러한 장치의 어플리케이션을 지원할 수 있다. 또한, 타입-3 CXL 장치는 CXL.mem, 메모리 읽기 및 메모리 쓰기 트랜잭션과 같은 적용가능한 트랜잭션 타입을 포함할 수 있다.
다른 실시예에서, 개시된 시스템은 다양한 아키텍처 블록들을 포함할 수 있지만 이에 한정되지 않는다. 일부 실시예에서, 개시된 시스템은 여기에서 더 설명되는, 캐시 컨트롤러, CXL 컨트롤러, 지능형 메모리 컨트롤러, DCOH(device coherency engine) 및 인터리빙 디코더, ECC(error correction control) 및 보안 블록 등을 포함하며 이에 한정되지 않는다.
다양한 실시예에서, DCOH 및 인터리빙 디코더는 호스트 대신에 상기 장치 상에 있는 장치 일관성 브리지, 단순화된 홈 에이전트 및 일관성 브리지로서 기능할 수 있다. 또한, 일부 실시예에서, 하나의 장치(예를 들어, 타입-3 장치)는 예컨대, 주어진 물리적 주소 범위에서 다른 CXL 장치와 인터리빙될 수 있다. 다양한 실시예에서, 개시된 시스템은 호스트 브리지, 루트 포트(root port) 또는 스위치 레벨에서 메모리 인터리빙을 수행할 수 있다. 또한, 개시된 시스템은 (예컨대, 리프 노드들(leaf nodes)을 인터리브 세트로 조립하는 등을 통해) 인터리빙을 수행하기 위한 관리 계층을 구현할 수 있다.
다양한 실시예에서, ECC 및 보안 블록은 보안(예를 들어, 암호화) 알고리즘을 구현하는 다양한 하드웨어 및 소프트웨어 블록들을 포함할 수 있다. 또 다른 실시예에서, ECC 및 보안 블록은 (예를 들어, CXL을 위한 AES-GCM(Advanced Encryption Standard Galois/Counter Mode)를 통해) 암호화 엔진을 구성하는 모듈들을 포함한다. 다른 실시예에서, ECC 및 보안 블록은 상기 2개의 블록들과 직접 또는 간접적으로 통신하는 임의의 다른 블록을 포함할 수 있다. 다양한 실시예에서, ECC 및 보안 블록은 물리적 링크상의 두 장치들 사이에서 교환되는 트랜잭션, 데이터 및 메타 데이터 모두를 보호하는 역할을 할 수 있다. 암호화 기반 보안의 경우, ECC 및 보안 블록은 대칭 암호화 키 (예컨대, AES-GCM에 대해 256-비트 키)를 구현할 수 있다. 다양한 실시예에서, ECC 및 보안 블록은 CXL.io 및 CXL.cachemem 프로토콜에 따라 동작을 수행할 수 있다. 특히 CXL.io 경로는 PCIe 정의된 IDE를 사용할 수 있는 반면 CXL.cachemem은 CXL 2.0로부터의 추가 업데이트를 포함할 수 있다.
다양한 실시예에서, ECC 및 보안 블록은 다음 중 하나 이상을 포함하는 ECC 생성 및 검사 방법을 수행할 수 있다. ECC 코드는 쓰기 데이터를 기반으로 개시된 시스템에 의해 생성될 수 있다. 개시된 시스템은 쓰기 데이터와 ECC 코드를 모두 저장할 수 있다. 또한, 읽기 동작 동안, 개시된 시스템은 데이터와 ECC 코드 모두를 읽을 수 있다. 개시된 시스템은 수신된 데이터로부터 ECC 코드를 재생성할 수 있고 재생성된 ECC 코드를 수신된 ECC 코드와 비교할 수 있다. 따라서, 개시된 시스템은 일치하는 것을 알게되면 에러가 발생하지 않았음을 결정할 수 있다. 그러나 불일치가 있는 경우 개시된 시스템에서 에러를 정정할 수 있다. 다양한 실시예에서, ECC 및 보안 블록은 예컨대, DDR (Double Data Rate) 메모리들(예컨대, DDR4 및 DDR5)를 사용하여 측-대역 ECC를 포함하는 ECC를 위한 다양한 방식을 구현한다. 특히, 개시된 시스템은 실제 데이터와 함께 측-대역 데이터로서 ECC 코드를 메모리에 전송할 수 있다. 다른 실시예에서, ECC 및 보안 블록은 예컨대, 저전력 DDR (LPDDR) 메모리를 사용하여 인라인 ECC(inline ECC)를 구현할 수 있는데, 왜냐하면 측-대역 ECC가 LPDDR에서 더 복잡한 구현일 수 있기 때문이다. 다양한 실시예에서, ECC 및 보안 블록은 예컨대, LPDDR5 메모리를 사용하여 링크-ECC를 구현할 수 있다. 상기 링크-ECC는 LPDDR5 링크 또는 채널상의 에러에 대한 추가 보호를 제공할 수 있다. 또한, ECC 및 보안 블록은 쓰기 데이터에 대한 ECC를 결정할 수 있으며 데이터와 함께 특정 비트에 대한 ECC를 전송할 수 있다. DRAM은 수신된 데이터에 대해 ECC를 생성하고 수신된 ECC 데이터에 대비하여 수신된 데이터를 검사하고 임의의 에러를 정정한다. 상기 동작은 DRAM과 ECC 및 보안 블록에 대해 반대 역할들을 사용하여 읽기 데이터에 대해 구현될 수 있다.
다양한 실시예에서, 개시된 시스템은 도 5, 7, 8 및 9와 관련하여 추가로 설명될 CXL 장치 마이크로아키텍처를 포함할 수 있고, 재구성 가능한 아키텍처(예컨대, DDR, LPDDR5, Z- NAND, 이들의 조합 등)를 포함할 수 있다. 일부 실시예에서, 개시된 시스템은 메모리 관리를 위한 제1 프로토콜(예컨대, cxl.mem 프로토콜) 및 원격 지역을 관리하기 위한 제2 프로토콜(예컨대, cxl.cache)을 사용할 수 있는 캐시 일관성 장치(예컨대, CXL 장치)를 포함할 수 있다. 일 실시예에서, 개시된 시스템은 메타데이터(예컨대, CXL 메타데이터)를 사용하여 장치가 부팅시에 구성될 수 있도록 한다. 다른 실시예에서, 개시된 시스템은 DRAM 타이밍 필요요건을 만족시키면서 데이터 및 메모리 계층의 리맵핑(remapping)을 가능하게 할 수 있다. 일 실시예에서, 개시된 시스템은 미리 결정된 바이트 레벨(예를 들어, 64 바이트 레벨)에서 가속 및 중복제거(deduplication)를 제공할 수 있다.
일부 실시예에서, 개시된 시스템은 지능형 컨트롤러를 포함할 수 있다. 일 실시예에서, 지능형 컨트롤러는 서로 다른 기술들 사이에서 메모리를 계층화하는(tier) 로직을 포함할 수 있다. 다른 실시예에서, 지능형 컨트롤러는 PCIe 인터페이스를 서로 다른 도메인들로 분할하고, 풀링(pooling) 및 기타 CXL 특징들을 위한 다수의 로직 ID들(Multiple logical IDs)을 지원하는 로직을 포함할 수 있다. 지능형 컨트롤러는 DRAM/NAND 컨트롤러와 통신하는 인터페이스 로직 및 글로벌 마스터를 포함할 수 있다. 지능형 컨트롤러는 들어오는(incoming) 읽기/쓰기 트랜잭션을 리맵핑하는 주소 매핑을 포함할 수 있다. 지능형 컨트롤러는 글로벌 메모리 컨트롤러와 직접 인터페이스할 수 있으며 메모리 주소와 읽기/쓰기 트랜잭션을 수신한다. 지능형 컨트롤러는 주소를 식별하고 주소를 인덱스/태그 및 기타 캐시 필드로 변환하는 캐시-주소 지정(chche-addressing) 모듈을 포함할 수 있다. 지능형 컨트롤러는 검색(lookup) 시간을 최소화하기 위해 동일한 캐시 세트를 서로 다른 DRAM 뱅크들로 매핑하는 방법들을 포함하는 최적화 방식들(optimizations)을 특징으로 한다. 지능형 컨트롤러는 DRAM 캐시에서 데이터의 이동 및 구성을 통제하기 위해 하나 이상의 대체 체계(replacement schemes), 연대 정책, 뱅킹 정책, 복제 및 배치를 구현할 수 있는 캐시 정책 모듈을 포함할 수 있다. 지능형 컨트롤러는 다운스트림 NAND에 대한 대부분의 쓰기를 싱크하기 위해 대용량 쓰기 버퍼를 더 포함할 수 있다. 지능형 컨트롤러는 독립적인 메모리 트랜잭션들을 식별하고 상기 메모리 트랜잭션들을 채널당 요청 큐로 푸시하는 컨트롤러의 트랜잭션 큐를 포함할 수 있다.
일부 실시 예에서, 개시된 시스템은 하나 이상의 미디어 컨트롤러를 포함할 수 있다. 다양한 실시예에서, 미디어 컨트롤러는 모든 DRAM 타이밍 정책 및 전력 관리를 만족시키면서 요청들을 효율적으로 스케줄링하는 채널당 모듈을 포함할 수 있다. 또한, 표준 DDR 컨트롤러로부터의 기타 메모리 컨트롤러 정책들은 미디어 컨트롤러(들)와 관련하여 구현될 수 있다.
일부 실시예에서, 미디어 컨트롤러를 포함하는 장치는 여기에서 NAND 컨트롤러로도 지칭되는 플래시 메모리(예컨대, Z-NAND) 컨트롤러를 포함할 수 있다. 일부 실시예에서, 시스템 또는 장치가 플래시 메모리로부터 데이터를 읽거나 플래시 메모리에 데이터를 쓸 때, 플래시 메모리 컨트롤러와 통신할 수 있다. 일부 실시예에서, 플래시 컨트롤러는 웨어 레벨링(wear leveling)이라는 기술을 사용하여 저장 장치의 모든 플래시 블록들에 가능한 한 균등하게 쓰기를 분산하여 모든 블록이 최대 수명까지 기록될 수 있도록 할 수 있다. 다른 실시 예에서, 플래시 메모리 컨트롤러는 또한 플래시 메모리의 물리적 주소(논리적 주소)로 호스트측 또는 파일 시스템 논리 블록 주소(LBA)를 맵핑하는(논리-대-물리 맵핑) 파일 시스템 이하의 계층인 플래시 변환 계층(FTL)을 포함할 수 있다. 일부 실시예에서, 플래시 컨트롤러가 웨어 레벨링 및 다른 플래시 관리 알고리즘(불량 블록 관리, 읽기 방해 관리, 안전한 플래시 처리 등)을 구현할 때, LBA의 물리적 위치가 동적으로 변화할 수 있다. 따라서, 개시된 시스템은 LBA가 블록-, 페이지- 또는 서브-페이지-기반으로 매핑되도록 FTL의 매핑 단위들을 구별할 수 있다. 따라서, 개시된 시스템은 플래시 마모(wear)를 줄이고 플래시 기반 저장 매체의 내구성을 최대화하기 위해 더 미세한 맵핑 입도(granularity)를 구현할 수 있다. 다른 실시예에서, 플래시 컨트롤러는 어떤 블록들이 더 이상 현재 데이터(예컨대, 오래된 블록)를 갖지 않은 후에 사용을 위해 준비될 수 있는 가비지 수집(garbage collection)을 구현할 수 있다. 이들 블록의 데이터는 새로 기록된 블록으로 대체되었으며 그에 따라 새 데이터를 기록할 수 있도록 삭제 대기열에 추가된다.
일부 실시예에서, 개시된 시스템은 데이터 스트림을 검출한 후 캐시-라인 프리페칭(prefetching)을 수행하고 DRAM 캐시로부터 데이터 스트림에 효율적으로 액세스할 수 있는 프리페칭 모듈을 포함할 수 있다. 다양한 실시예에서, 캐시 프리페칭은 필요하기 전에 더 느린 메모리의 원래 스토리지로부터 더 빠른 로컬 메모리로 명령어 또는 데이터를 페치함으로써 실행 성능을 향상시키는 기술을 지칭할 수 있다. 다른 실시예에서, 프리페칭 모듈은 데이터 또는 명령어를 캐시로 페치할 수 있다. 전술한 바와 같이, 데이터 프리페칭은 데이터가 필요하기 전에 데이터를 페치한다. 그러나, 데이터 액세스 패턴은 명령어 패턴보다 규칙성이 낮기 때문에 정확한 데이터 프리페칭은 명령어 프리페칭보다 복잡할 수 있다. 반면에 명령어 프리페칭은 명령어가 실행될 필요가 있기 전에 명령어를 페치한다. 다른 실시예에서, 하드웨어-기반 프리페칭은 실행 프로그램에 의해 요청되는 명령어 또는 데이터의 스트림을 감시하고 프로그램이 이 스트림을 기반으로 필요로 할 수 있는 다음 몇 가지 엘리먼트를 인식하며 캐시로 프리페칭하는 전용 하드웨어 메커니즘을 사용하여 프리페칭 모듈에 의해 수행될 수 있다. 다른 실시예에서, 소프트웨어-기반 프리페칭은 추가 프리페칭 명령어들이 프로그램에 삽입되는 소프트웨어 메커니즘을 사용하여 프리페칭 모듈에 의해 수행될 수 있다. 일부 실시예에서, 개시된 시스템은 값에 의해 데이터를 검색하고 변경하는 모델을 제공할 수 있는 중복 제거 모듈(deduplication module)을 포함할 수 있다. 따라서, 개시된 시스템은 메모리 시스템에 오직 하나의 데이터 사본 만이 존재하고 동일한 데이터를 갖는 모든 다른 주소들이 동일한 데이터를 가리키는 것을 보장할 수 있다.
도 5는 본 개시의 예시적인 실시예들에 따른, 메모리 장치에 대한 상이한 구성들의 다이어그램들을 도시한다. 특히, 개시된 시스템은 CXL과 같은 캐시 일관성 프로토콜로 동작하도록 구성될 수 있는 다른 타입의 컨트롤러 및 메모리 장치를 포함할 수 있다. 다이어그램(501)은 예시적인 DDR-기반 메모리를 포함하는 제1 마이크로아키텍처 구성을 보여준다. 특히, 다이어그램 (501)은 DRAM이 DDR5(506) (또는 DDR4 또는 임의의 다른 적절한 DDR 메모리) 및 DRAM 컨트롤러(504)를 포함하는 구성(502)을 도시한다. DRAM 컨트롤러(504)는 CXL을 통해 프로세서(508) (예컨대, x86-기반 CPU)의 PCIe 인터페이스로 통신하도록 구성될 수 있다. 일부 실시예에서, DRAM 컨트롤러(504)는 프로세서(508)와 미리 결정된 개수의 채널(예를 들어, 16개 채널)을 통해 통신하도록 구성될 수 있다. 프로세서(508) 자체는 DRAM(예컨대, DDR5(510) 또는 임의의 적절한 메모리)에 연결될 수 있다. 다양한 실시예에서, 이러한 마이크로아키텍처 구성(502)은 어드레스 디코딩 및/또는 인터리빙 메커니즘을 가속화 및/또는 수용하도록 구성될 수 있다.
다이어그램 (503)은 예시적인 DDR 및 Z-NAND 메모리를 포함하는 제2 마이크로아키텍처 구성(512)을 도시한다. 특히, 다이어그램(503)은 DRAM이 DDR5(520)(또는 DDR4 또는 임의의 다른 적절한 DDR 메모리) 및 캐시 컨트롤러 기능을 더 포함할 수 있는 DRAM 컨트롤러(514)를 포함하는 구성을 도시한다. 또한, 다이어그램(503)은 대응하는 컨트롤러(예컨대, SSD(solid state device) 컨트롤러(516))를 가질 수 있는 플래시 메모리(예컨대, Z-NAND(518)) 메모리가 있을 수 있는 구성(512)을 도시한다. DRAM 컨트롤러(514)는 PCIe 및/또는 CXL과 같은 임의의 적절한 프로토콜을 통해 I/O를 편성(coordinate)하기 위해 SSD 컨트롤러(516)와 통신하도록 구성될 수 있다. 또한, DRAM 컨트롤러(514) 및/또는 SSD 컨트롤러(516)는 CXL을 통해 프로세서(522)(예컨대, x86-기반 CPU)의 PCIe 인터페이스로 통신할 수 있다. 일부 실시 예에서, DRAM 컨트롤러(514) 및/또는 SSD 컨트롤러(516)는 프로세서(522)와 미리 결정된 개수의 채널(예컨대, 16개 채널)을 통해 통신하도록 구성될 수 있다. 프로세서(522) 자체는 DRAM(예컨대, DDR5(524) 또는 임의의 적절한 메모리)에 연결될 수 있다. 다양한 실시예에서, 이러한 마이크로아키텍처 구성(512)은 프로세서에 2개의 메모리 매체(예를 들어, 휘발성 및 비휘발성 메모리)에 대한 분할(split) 및/또는 전용 인터페이스를 제공하도록 구성될 수 있다.
다이어그램(505)은 예시적인 DDR5(538) 및 LPDDR5(536) 메모리들을 포함하는 제3 마이크로아키텍처 구성(532)을 도시한다. 특히, 다이어그램(505)은 DRAM이 LDDR5(536)(또는 LDDR4 또는 임의의 다른 적절한 LDDR 메모리) 및 DRAM 컨트롤러(534)를 포함하는 구성(532)을 도시한다. DRAM 컨트롤러(534)는 CXL을 통해 프로세서(540) (예컨대, x86-기반 CPU)의 PCIe 인터페이스로 통신하도록 구성될 수 있다. 일부 실시예에서, DRAM 컨트롤러(534)는 프로세서(540)와 미리 결정된 개수의 채널(예를 들어, 16개 채널)을 통해 통신하도록 구성될 수 있다. 프로세서(540) 자체는 DRAM(예컨대, DDR5(543) 또는 임의의 적절한 메모리)에 연결될 수 있다. 다양한 실시예에서, 이러한 마이크로아키텍처 구성(532)은 어드레스 디코딩 및/또는 인터리빙 메커니즘을 가속화 및/또는 수용하도록 구성될 수 있다.
다이어그램(507)은 예시적인 분할 DDR 및 Z-NAND 메모리들(예를 들어, 8개의 메모리들)를 포함하는 제4 마이크로아키텍처 구성(542)을 도시한다. 또한, 다이어그램(507)은 대응하는 컨트롤러(예컨대, SSD 컨트롤러(546))를 가질 수 있는 플래시 메모리(예컨대, Z-NAND(548))가 있을 수 있는 구성(542)을 도시한다. DRAM 컨트롤러(544)는 미리 결정된 개수의 채널을 통해 I/O를 편성하기 위해 SSD 컨트롤러(546)와 통신하도록 구성될 수 있다. 또한, DRAM 컨트롤러(544) 및/또는 SSD 컨트롤러(546)는 CXL을 통해 프로세서(552)(예컨대, x86-기반 CPU)의 PCIe 인터페이스로 통신할 수 있다. 더욱이, DRAM 컨트롤러(544)는 제1 개수의 채널들(예를 들어, 8개의 CXL 채널들) 상에서 CXL을 통해 프로세서(552)와 통신할 수 있다. 또한, SSD 컨트롤러(546)는 제2 개수의 채널들(예컨대, 8개의 PCIe 채널들) 상에서 CXL을 통해 프로세서(552)와 통신할 수 있다. 일부 실시 예에서, DRAM 컨트롤러(544) 및/또는 SSD 컨트롤러(546)는 프로세서(552)와 미리 결정된 개수의 채널(예컨대, 16개 채널)을 통해 통신하도록 구성될 수 있다. 프로세서(552) 자체는 DRAM(예컨대, DDR5(554) 또는 임의의 적절한 메모리)에 연결될 수 있다. 다양한 실시예에서, 이러한 마이크로아키텍처 구성(542)은 프로세서에 2개의 메모리 매체(예를 들어, 휘발성 및 비휘발성 메모리)에 대한 분할(split) 및/또는 전용 인터페이스를 제공하도록 구성될 수 있다.
다양한 실시예에서, 전술한 바와 같이, 개시된 시스템은 저전력 DDR (Low-Power Double Data Rate)(저전력 DDR SDRAM 또는 LPDDR SDRAM) 메모리를 포함할 수 있다. 다른 실시예에서, LPDDR은 더 적은 전력(예컨대, 미리 결정된 임계량 미만의 전력)을 소비하고 모바일 장치와 관련하여 사용될 수 있는 DDR(double data rate) 동기식 동적 랜덤 액세스 메모리를 포함할 수 있다. 다양한 실시예에서, 개시된 시스템은 증가된 데이터 전송 속도 (예컨대, 최대 6400MT/s)를 가능하게 하기 위해 LPDDR을 사용할 수 있다. 또한, 개시된 시스템은 LPDDR을 사용하고 차동 클록(differential clocks)을 사용할 수 있다. 또한, 뱅크의 개수가 (예컨대, 16개로) 증가될 수 있으며 DDR4와 유사한 뱅크 그룹들로 나눠질 수 있다. 다양한 실시예에서, LPDDR은 또한 데이터 전송을 감소시킬 수 있고 동적 주파수 및 전압 스케일링을 구현할 수 있는 data-Copy 및 Write-X (모두 1 또는 모두 0) 명령과 같은 다양한 절전 메커니즘을 허용할 수 있다.
다른 실시예에서, 전술한 바와 같이, 개시된 시스템은 플래시 메모리를 사용할 수 있다. 일 실시예에서, 플래시 메모리는 전기적으로 소거되고 재프로그래밍될 수 있는 전자 비휘발성 컴퓨터 메모리 저장 매체이다. 다른 실시예에서, 개시된 시스템은 Z-NAND와 같은 3차원 플래시 메모리를 사용할 수 있다. 일 실시예에서, Z-NAND는 3D 단일-레벨 셀(SLC) NAND 또는 임의의 다른 적절한 플래시 메모리를 포함할 수 있다. 특히, 개시된 시스템은 SLC NAND, TLC(Triple Level Cell) NAND, QLC(Quad-level cell) NAND, 이들의 조합 등과 같은 다중-레벨 셀(MLC) NAND를 포함할 수 있지만 이에 한정되지는 않는다.
도 6은 본 개시의 예시적인 실시예들에 따른, 장치 관련 파라미터들과 연관된 예시적인 테이블을 도시한다. 다양한 실시예에서, 다이어그램(601)은 미리 결정된 파라미터에 기초하여 마이크로아키텍처를 동적으로 재구성하기 위해 다양한 모듈 아키텍처 제한점들(limits)의 테이블을 도시한다. 특히, 테이블은 폼 팩터(602), 치수(604), 전력(606), 인터페이스(608), BW 비율(610), 칩 구성(612), DDR5용 전력 제한 용량(614) 및 DDR5용 면적 제한 용량(616)을 포함하는 파라미터들을 도시한다. 특히, 개시된 시스템은 데이터 센터 또는 다른 환경에서의 상이한 어플리케이션들에 대해 CXL-기반 장치 마이크로아키텍처들의 타입들에 대한 상이한 선택사항(choices)을 알리기 위해 이러한 파라미터들에 기반할 수 있다. 다양한 실시예에서, 폼 팩터(602)는 M.2, E1.L, E1.S, E3 S/L, U.2, NF1, 전체 높이, 절반 길이(FHHL), 애드인(add-in) 카드(AIC), 절반 높이, 절반 길이(HHHL) AIC, 이들의 조합 등을 포함하지만 이에 한정되지 않는다.
일 실시예에서, 치수(604)는 각 폼 팩터에 대응하는 테이블 1에 나타낸 치수일 수 있다. 예컨대, M.2는 약 110mm x 22mm 폼 팩터를 가질 수 있는 반면 NF1은 약 110mm x 33mm 폼 팩터를 가질 수 있다. 일 실시예에서, 전력(606) 필요요건은 각각의 폼 팩터 및 치수에 대응하는 테이블에 나타난 필요요건일 수 있다. 예를 들어, M.2의 경우, 전력 필요요건은 약 8W일 수 있는 반면 U.2의 경우 전력 필요요건은 약 25W일 수 있다. 다양한 실시예에서, 각 모듈은 각 폼 팩터에 대응하여 상기 테이블에 나타난 것과 같이 해당 PCIe 인터페이스(608)를 가질 수 있다. 예를 들어, M.2 모듈의 경우, 인터페이스는 16GB/s 전송 속도를 갖는 4개의 채널들을 포함할 수 있는 반면, E1.S 모듈의 경우, 인터페이스는 약 16 내지 32GB/s 전송 속도로 동작하는 4 내지 8개의 채널들을 어디서든 포함할 수 있다.
또한, 각 장치는 각 폼 팩터에 대응하는, 상기 테이블에 나타난 것과 같이 해당 BW 비율(610)(DDR5 채널 BW와 비교하여)을 가질 수 있다. 예컨대, E1.L 폼 팩터 모듈의 경우, BW 비율은 DDR5의 BW 비율의 약 0.5배에서 약 1배일 수 있는 반면 U.2 폼 팩터 모듈의 경우, BW 비율은 DDR5의 BW 비율의 약 0.5 배가 될 수 있다. 다양한 실시예에서, 예시적인 칩 구성이 각 모듈에 대해 제공된다. 예를 들어, E1.S 모듈은 55mm2 칩의 약 12Gb 용량을 갖는 LPDDR5 메모리를 가질 수 있다. NF1 폼 팩터 모듈은 46mm2 칩의 약 64Gb 용량을 갖는 Z-NAND 플래시 메모리를 가질 수 있다. 또한, 상기 테이블은 각 모듈에 사용될 수 있는 전력 제한 DDR5(614) 및 영역 제한 DDR5(616) 용량의 예를 보여준다. 예를 들어, 전력 제한 DDR5를 사용하는 M.2 모듈의 경우, 용량은 약 25GB가 될 수 있는 반면 영역 제한 DDR5(비-3D) 메모리 용량은 약 16GB가 될 수 있다.
이들 파라미터들은 모두 다양한 기본(underlying) 메모리(예컨대, DRAM, DDR 메모리 및/또는 플래시)에 대한 기술 개선으로 시간이 지남에 따라 변화할 수 있는 단지 예시적인 파라미터일 뿐이다. 또한, 다른 타입의 메모리가 서로 다른 폼 팩터 및/또는 치수를 갖는 모듈들에 사용될 수 있다. 일부 실시예에서, 개시된 시스템은 장치 마이크로아키텍처를 통제할 수 있는 다양한 장치-레벨 특징들을 포함할 수 있다. 특히, 주어진 마이크로아키텍처는 장치가 사용되는 주어진 시스템 아키텍처, 하이-레벨 CXL 컨트롤러 동작(behavior), 휘발성 메모리(예컨대, DRAM) 캐시 컨트롤러 및 구성(organization), 및/또는 휘발성 메모리(예컨대, Z-NAND) 컨트롤러 및 특성과 같은 다양한 팩터들에 의해 개별적으로 또는 조합으로 결정될 수 있다.
일부 실시예에서, CXL 컨트롤러의 마이크로아키텍처 파라미터는 DRAM 캐시 크기, 라인 크기 및/또는 세트 구성을 포함할 수 있지만 이에 제한되지는 않는다. 또한, CXL 컨트롤러의 마이크로아키텍처는 주어진 제거 정책(eviction policy), 상세 미스 경로(detailed miss path)(예컨대, 쓰기 할당, 할당 없음 등)를 활성화하거나 프리페칭을 지원하도록 구성될 수 있다. 다른 실시예에서, CXL 컨트롤러의 마이크로아키텍처는 포함 대 제외(inclusion vs. exclusion)를 사용하도록 구성될 수 있다. 일 실시예에서, 개시된 시스템은 캐시 일관성 장치가 하나 이상의 워크로드-의존적 런타임 파라미터를 사용하도록 할 수 있다. 대안적으로 또는 추가적으로, 개시된 시스템은 DRAM 레벨에서 공간/시간적 액세스를 프로파일링 할 수 있는 온-디바이스 프로파일러 모듈(on-device profiler module)을 포함할 수 있다. 따라서, 개시된 시스템은 런타임시 용량 대 BW 대 대기 시간(capacity vs. BW vs. latency) 민감도를 프로파일링하고 이러한 민감도에 기반한 처리를 위해 데이터를 라우팅할 수 있다. 다양한 실시예에서, 개시된 시스템은 장치 마이크로아키텍처를 지원하는 소프트웨어 아키텍처를 포함할 수 있다. 특히, S/W 아키텍처는 OS-인식 데이터 배치(OS-aware data placement) 및 이동(migration)을 지원할 수 있다. 또한, 개시된 시스템은 하나 이상의 NUMA(non-uniform memory access) 메커니즘을 레버리지하기 위해 S/W 아키텍처를 구현할 수 있다.
다양한 실시예에서, 개시된 시스템은 부팅 시간 이벤트를 결정할 수 있고 그에 따라 스스로 재구성할 수 있다. 특히, 개시된 시스템은 예컨대, 소프트웨어 또는 하드웨어 캐시로서 DRAM을 사용하도록 상기 장치 상에 로직을 구성하거나 재구성할 수 있다. 일부 실시예에서, 개시된 시스템은 예컨대, DVSEC를 사용하여 CXL을 통해 호스트 장치에 그 능력을 광고할 수 있다. 또한, 개시된 시스템은 예컨대, 전술한 바와 같이 부팅시에 상기 장치를 재구성하는 호스트 명령을 수신할 수 있다. 다양한 실시예에서, 상기 장치는 메모리 어드레스, R/W, 액세스 빈도, 하나 이상의 어드레스 패턴 등을 결정하는 것과 같은 다양한 동작을 수행할 수 있는 온-디바이스 프로파일러 모듈을 포함할 수 있다. 다양한 실시예에서, 상기 프로파일러는 시스템이 부팅할 때 상기 호스트가 상기 프로파일러에 의해 식별된 이전 사용 패턴에 기초하여 상기 장치를 재구성할 수 있도록 전술한 바와 같이 이 정보를 호스트에 제공할 수 있다.
다양한 실시예에서, 개시된 시스템은 타입-2 CXL 장치 마이크로 아키텍처 구현으로 확장될 수 있다. 일부 실시예에서, 개시된 시스템은 캐시 컨트롤러에서 CXL.io 및 CXL.cache 모듈과 같은 캐시 일관성 프로토콜을 구현하는 타입-1 장치를 포함할 수 있다. 또한, 개시된 시스템은 또한 캐시 일관성일 수 있는 장치 부착 메모리를 포함할 수 있다.
도 7은 본 개시의 예시적인 실시예들에 따른, 예시적인 캐시-일관성 장치 마이크로아키텍처를 도시한다. 다양한 실시예에서, 다이어그램(701)은 CXL 타입-3 장치를 포함 할 수 있지만 반드시 이러한 프로토콜로 제한될 필요는 없다. 일 실시예에서, 상기 장치는 CXL 컨트롤러(704)(또는 다른 캐시 일관성 프로토콜 기반 컨트롤러), DRAM 캐시 컨트롤러(706)(또는 다른 휘발성 메모리 캐시 컨트롤러) 및 NAND 컨트롤러(708)(또는 다른 비휘발성 메모리 컨트롤러)를 포함할 수 있다. 다른 실시예에서, CXL 컨트롤러(704)는 루트 컴플렉스(root complex)(714)에 연결될 수 있다. 특히, 루트 컴플렉스(714)는 캐시-일관성 장치를 하나 이상의 스위치 장치로 구성된 PCI 익스프레스(Express) 스위치 패브릭에 연결할 수 있다. 루트 컴플렉스(714)는 호스트 측에서 실질적으로 유사한 동작을 수행하는 DRAM 메모리 컨트롤러(716) 및 관련 DDR4 메모리(718)에 연결될 수 있다.
다른 실시예에서, DRAM 캐시 컨트롤러(706)는 CXL 및/또는 PCIe와 같은 임의의 적절한 프로토콜을 사용하여 DDR4(710) 및 NAND 컨트롤러(708)에 연결될 수 있다. NAND 컨트롤러(708)는 비휘발성 저장을 위해 SSD(712) 장치(예를 들어, 플래시 칩)에 연결될 수 있다.
도 8은 본 개시의 예시적인 실시예들에 따른, 자원 관리를 위한 예시적인 장치를 도시한다. 다양한 실시예에서, 다이어그램(801)은 CXL 컨트롤러(802)에 추가로 결합될 수 있는 장치를 포함할 수 있다. 다른 실시예에서, 상기 장치는 프리페치 로직(804)과 같은 인텔리전스(intelligence)(예를 들어, 회로 및 대응 펌웨어 및/또는 소프트웨어)를 포함할 수 있다. 일 실시예에서, 상기 장치는 흐름 제어 모듈, 쓰기 버퍼 모듈, 캐시 어드레싱 모듈, 캐시 정책 구현 모듈 및 타이밍 모듈을 가질 수 있는 캐시 컨트롤러(806)를 포함할 수 있다. 또한, 캐시 컨트롤러는 SSD 컨트롤러(808)에 연결될 수 있다.
일부 실시예에서, 개시된 시스템은 CXL과 호환되고 계산 집약적 인 어플리케이션을 위한 가속기로서 사용될 수 있는 장치 구성요소를 포함할 수 있으며, 따라서 로컬 캐시를 포함하며 그에 따라, 캐시 컨트롤러(806)를 갖는다. 따라서 호스트 구성요소가 동일한 메모리 위치에 액세스하려는 경우 상기 장치가 로컬 캐시에서 라인을 제거하고 캐시 라인 상태에 따라 해당 메모리 위치를 업데이트하도록 강제할 수 있다. 다양한 실시예에서, 개시된 시스템은 CXL.cache 프로토콜로 동작하도록 구성될 수 있으며, CXL.cache 프로토콜은 개시된 장치들과 호스트 사이의 상호 작용을 각각 적어도 하나의 관련 응답 메시지 및 때때로 데이터 전송을 각각 갖는 다수의 요청으로서 통지할 수 있다. 일부 실시예에서, 개시된 시스템은 각 방향: 요청, 응답 및 데이터(Request, Response, and Data)에서 3개의 채널들로 구성된 인터페이스를 통해 호스트 및 다른 장치와 통신할 수 있다.
일 실시예에서, 캐시 컨트롤러(806)의 흐름 제어 모듈은 고속 송신기가 느린 수신기를 압도하는 것을 방지하기 위해 CXL 컨트롤러 및 임의의 다른 장치(입력 또는 출력)의 데이터 전송 속도를 관리하는 흐름 제어를 구현할 수 있다. 따라서, 흐름 제어 모듈은 CXL 컨트롤러가 전송 속도를 제어하는 메커니즘을 제공하여 CXL 컨트롤러(802)가 보조 장치(secondary device)(예컨대, SSD 컨트롤러 또는 호스트)로부터의 데이터로 압도되지 않도록 할 수 있다.
다른 실시예에서, 캐시 컨트롤러(806)의 쓰기 버퍼 모듈은 캐시로부터 메모리 또는 메모리 계층의 다음 캐시로 쓰여지는 데이터를 보유하는 데 사용될 수 있는 일종의 데이터 버퍼를 포함할 수 있다. 일부 실시예에서, 쓰기 버퍼 모듈은 쓰기가 발생하는 동안 읽기 요청을 서비스하기 위해 캐시를 해제할 수 있다. 따라서, 쓰기 버퍼가 가득 차면(버퍼가 점유되는 등) 후속 쓰기는 슬롯이 해제될 때까지 대기해야 하며, 따라서 후속 읽기는 쓰기 버퍼로부터 제공될 수 있다.
일부 측면에 따라, 메모리의 블록은 캐시에 무작위로 배치되지 않을 수 있으며 대신에 캐시 배치 정책에 따라 단일 캐시 라인 또는 캐시 라인 세트로 한정될 필요가 있을 수 있다. 일 실시예에서, 캐시 어드레싱 모듈은 이러한 캐시 배치 정책을 구현할 수 있다. 특히, 기본 스토리지 계층의 캐시는 세트로 그룹화된 캐시 라인들을 포함할 수 있다. 또한, 데이터 요청은 요청된 데이터의 위치를 지정하는 어드레스를 가진다. 하위 레벨로부터의 데이터의 각 캐시-라인 크기의 청크는 하나의 세트에만 배치될 수 있으며, 게다가 캐시-라인 크기의 청크가 배치될 수 있는 세트는 그의 어드레스에 좌우될 수 있다. 따라서, 캐시 어드레싱 모듈은 캐시 라인 내의 특정 위치를 식별하는 오프셋 부분을 포함할 수 있는 요청 어드레스를 생성할 수 있다. 또한, 상기 요청은 요청된 데이터를 포함하는 세트를 식별하는 세트 부분을 포함할 수 있다. 또한, 상기 요청은 세트에 배치될 수 있는 서로 다른 어드레스들을 구별하기 위해 데이터와 함께 각 캐시 라인에 저장될 수 있는 태그 부분을 포함할 수 있다.
다른 실시예에서, 캐시 컨트롤러(806)의 캐시 정책 구현 모듈은 캐시에서 메모리 블록의 배치를 위한 상이한 정책들 즉, 당업자에게 공지된 바와 같은, 직접-맵핑된, 완전 연관성 및 세트-관련 배치 정책을 구현할 수 있다.
일 실시예에서, 캐시 컨트롤러(806)의 타이밍 모듈(들)은 쓰기 정책에 기초하여 쓰기의 타이밍을 결정할 수 있다. 일부 측면에 따라, 개시된 시스템은 동시 기록 캐시(write-through cache)를 포함할 수 있으며, 여기서 캐시에 대한 쓰기는 타이밍 모듈에 의해 결정된 쓰기 정책에 기초하여 메모리로의 쓰기를 초래한다. 대안적으로, "a"에서, 개시된 시스템은 쓰기가 메인 메모리에 즉시 미러링되지 않는 재쓰기(write-back) 또는 재복사(copy-back) 캐시를 포함할 수 있으며, 상기 캐시는 대신 기록된 위치를 추적하여 타이밍 모듈에 의해 결정된 쓰기 정책에 기초하여 더티(dirty)로 표시한다. 또한 이들 위치의 데이터는 해당 데이터가 캐시에서 제거될 때 메인 메모리에 다시 쓰여진다. 또한, 재기록(write-back) 캐시에 아직 맵핑되지 않은 메인 메모리 위치에 대한 쓰기는 이미 더티 위치(already dirty location)를 제거하여 타이밍 모듈에 의해 결정된 쓰기 정책을 기반으로 새 메모리 위치에 대한 캐시 공간을 해제할 수 있다. 개시된 시스템은 타이밍 모듈에 의해 결정된 쓰기 정책에 기초하여 중간 정책(intermediate policy)을 구현할 수 있다. 예를 들어, 개시된 시스템은 동시 기록(write-through)일 수 있는 캐시를 포함할 수 있지만, 쓰기는 일시적으로 스토어 데이터 큐(store data queue)에 보관될 수 있으므로 일반적으로 타이밍 모듈에 의해 결정된 쓰기 정책에 기초하여 다수의 스토어들(multiple stores)이 (예컨대, 버스 턴어라운드를 감소시키고 버스 이용률을 개선하기 위해) 함께 처리될 수 있다.
다양한 실시 예에서, 상기 장치는 DRAM 컨트롤러를 포함할 수 있다. DRAM 컨트롤러는 다수의 채널들을 포함할 수 있다. 각각의 채널은 각각의 채널 요청 큐(예컨대, 채널 요청 큐(810 및 812))에 결합될 수 있으며, DRAM 타이밍/정책 저장소, DRAM 요청 큐, DRAM 요청 스케줄러 및 DRAM 명령 스케줄러를 포함하는 각각의 컨트롤러 서브모듈들(814 및 816)을 포함할 수 있다. 일 실시예에서, 채널 요청 큐(814 및 816)는 DRAM 메모리 및 메모리 컨트롤러가 요청을 통해 상기 채널 요청 큐들이 이용 가능해질 때 지정된 채널을 통해 통신할 수 있도록 할 수 있다.
다른 실시예에서, DRAM 타이밍/정책 저장소는 다양한 타이밍 파라미터를 제어하도록 구성될 수 있다. 예컨대, DRAM 타이밍/정책 저장소는 활성화되는 행(row)과 읽기 또는 쓰기 명령 사이에 경과해야 하는 최소 시간을 구성할 수 있다. DRAM 타이밍/정책 저정소는 CAS 대기 시간을 제어할 수 있으며, 읽기 명령과 각 데이터 버스에 나타나는 첫 번째 데이터 워드 사이의 내부 동작(internal operations)에 허용되는 클럭주기의 개수를 포함할 수 있다. DRAM 타이밍/정책 저장소는 읽기 또는 쓰기 명령당 전송되는 워드의 개수를 포함하는 읽기 및 쓰기 버스트의 길이를 포함하되 이에 국한되지 않는 기타 구성가능한 파라미터를 결정할 수 있다.
다양한 실시예에서, DRAM 요청 스케줄러는 상기 컨트롤러에 의한 처리를 위해 상기 컨트롤러와 관련된 명령들을 스케줄링할 수 있다. 일 실시예에서, DRAM 요청 큐는 중재에서 승리하고 메모리 컨트롤러로 들어가는 트랜잭션과 관련된 명령들의 시퀀스를 큐에 넣을 수 있다. 개시된 시스템은 이러한 시퀀스를 메모리 주소 위치에 맵핑하고 DRAM 명령들의 시퀀스로 변환할 수 있다. 일부 실시예에서, DRAM 요청 큐는 풀(pool)로서 배열될 수 있고, CXL 컨트롤러(802)는 실행을 위해 보류중인 명령들로부터 선택할 수 있다. 대안적으로 또는 추가적으로, 상기 큐는 뱅크 마다 또는 메모리 랭크 마다 하나의 큐가 있도록 배열될 수 있다. DRAM 명령 스케줄러는 DRAM 명령 스케줄링 정책을 결정할 수 있고 전기 시그널링 인터페이스(electrical signaling interface)를 통해 DRAM 장치에 대한 명령들을 스케줄링할 수 있다.
도 9는 본 개시의 예시적인 실시예들에 따른 예시적인 캐시 일관성 장치(902)를 도시한다. 다양한 실시예에서, 캐시 일관성 장치(902)는 타입-1 장치를 포함할 수 있다. 다른 실시예에서, 캐시 일관성 장치(902)는 CXL 컨트롤러(904), 가속기 및/또는 네트워크 인터페이스 카드(NIC) 장치(906), DDR4 (908)(또는 다른 휘발성 메모리), 프로세서(910)(선택 사항) 및 제2 DDR4(912)(또는 기타 휘발성 메모리, 선택 사항일 수 있음)를 포함할 수 있다. 캐시 일관성 장치(902)는 CXL 컨트롤러(904)를 통해 루트 컴플렉스(root complex)(914)에 추가로 연결될 수 있다. 루트 컴플렉스(914)는 DDR4(918)에 추가로 연결될 수 있는 DRAM 컨트롤러(916)에 결합될 수 있다.
다양한 실시예에서, CXL 컨트롤러(904)는 ASIC(application specific integrated circuit) 및/또는 FPGA(field-programmable gate array) 구현을 위해 설계된 소프트 IP를 포함할 수 있다. 다른 실시예에서, CXL 컨트롤러(904)는 CXL.io 경로를 위한 PCIe 5.0 (또는 다른 버전) 아키텍처를 포함할 수 있고, CXL에 특정한 CXL.cache 및 CXL.mem 경로를 추가할 수 있다. 다양한 실시예에서, CXL 컨트롤러(904)는 CXL 프로토콜(예컨대, CXL 2.0 프로토콜 또는 임의의 다른 버전)을 지원하도록 구현될 수 있다. 다른 실시예에서, CXL 컨트롤러(904)는 CXL 1.1과 같은 이전 캐시 일관성 프로토콜과 역 호환되도록 구성될 수 있다. 전술한 바와 같이, CXL 컨트롤러(904)는 CXL.io, CXL.mem 및 CXL.cache 프로토콜 또는 다른 적절한 캐시 일관성 프로토콜을 구현하도록 구성될 수 있다. 일부 실시예에서, CXL 컨트롤러(904)는 타입 1, 타입 2 및/또는 타입 3 CXL 장치와 같은 상이한 CXL 장치 타입들을 지원하도록 구성될 수 있다. 다양한 실시예에서, CXL 컨트롤러(904)는 PCIe 5.0 프로토콜과 같은 PCIe 프로토콜을 지원하도록 구성될 수 있다. 다른 실시예에서, CXL 컨트롤러(904)는 임의의 적절한 PIPE 인터페이스 폭(예컨대, 8-, 16-, 32-, 64- 및 128-비트 구성가능한 PIPE 인터페이스 폭)을 사용하여 PIPE 5.x 프로토콜을 지원하도록 구성될 수 있다. 다른 실시예에서, CXL 컨트롤러(904)는 상기 도 5와 관련하여 도시되고 설명된 것과 같은 다양한 CXL 장치 구성들을 지원하도록 구성될 수 있다.
일 실시예에서, 가속기/NIC 장치(906)는 하드웨어 가속을 수행할 수 있는데, 즉, 범용 중앙 처리 장치(CPU) 상에서 실행되는 소프트웨어에서 가능한 것보다 더 효율적으로 일부 기능들을 수행할 수 있다. 다른 실시예에서, 가속기/NIC 장치(906)는 대기 시간을 감소시키고 워크로드 또는 다른 태스크를 처리하는 것과 관련된 처리량을 증가시키기 위해 하드웨어에서 컴퓨팅 태스크들의 구현과 같은 가속화를 수행할 수 있다. 또한, 가속기/NIC 장치(906)는 더 큰 동시성을 허용하고, 임시 변수에 대한 특정 데이터 경로를 가지며, 페치-디코딩-실행 사이클에서 명령어 제어의 오버헤드를 감소시킴으로써 특정 알고리즘의 실행을 개선하도록 구성될 수 있다.
다른 실시예에서, DDR4(908)는 데이터를 저장하고 상기 데이터에 관련된 태스크를 수행하기 위한 메모리로 사용될 수 있는 DRAM 장치의 예이다. 다른 실시예에서, 개시된 시스템은 임의의 적절한 메모리를 포함할 수 있으며, DDR4는 단지 예로서 설명된다. 특히, 이러한 메모리는 외부 핀 인터페이스의ㄴ동작이 외부에서 공급되는 클록 신호에 의해 조정되는 어떠한 DRAM도 포함할 수 있다. 일부 실시예에서, 메모리는 DDR5 또는 임의의 적절한 DRAM과 같은 고 대역폭(예컨대, 더블 데이터 레이트) 인터페이스를 갖는 동기식 동적 랜덤 액세스 메모리를 포함할 수 있다. 또한, 메모리는 3D-스택 DRAM을 위한 고성능 RAM 인터페이스를 포함할 수 있는 고 대역폭 메모리(HBM)를 포함할 수 있다.
다른 실시예에서, 제2 DDR4(912)는 또한 데이터를 저장하고 상기 데이터에 관련된 태스크를 수행하기 위한 메모리로 사용될 수 있는 DRAM 장치의 예이다. 다른 실시예에서, 개시된 시스템은 임의의 적절한 메모리를 포함할 수 있으며, DDR4는 단지 예로서 설명된다. 특히, 이러한 메모리는 외부 핀 인터페이스의ㄴ동작이 외부에서 공급되는 클록 신호에 의해 조정되는 어떠한 DRAM도 포함할 수 있다. 일부 실시예에서, 메모리는 DDR5 또는 임의의 적절한 DRAM과 같은 고 대역폭(예컨대, 더블 데이터 레이트) 인터페이스를 갖는 동기식 동적 랜덤 액세스 메모리를 포함할 수 있다. 또한, 상기 메모리는 HBM을 포함할 수 있다.
일 실시예에서, 프로세서(910)는 컴퓨터 프로그램을 포함하는 명령어들을 실행하는 전자 회로를 포함할 수 있다. CPU는 프로그램의 명령어들에 의해 지정된 산술, 논리, 제어 및 입출력(I/O) 동작들을 수행하도록 구성될 수 있다.
도 10은 본 개시의 예시적인 실시예들에 따른, 개시된 시스템들과 관련된 예시적인 동작들을 포함하는 예시적인 흐름을 도시한다. 블록 1002에서, 개시된 시스템은 캐시 일관성 프로토콜에 따라 네트워크 인터페이스에 연결된 제1 컨트롤러를 동작시킬 수 있다. 블록 1004에서, 개시된 시스템은 제1 컨트롤러에 결합되고 제1 메모리에 결합된 제2 컨트롤러를 사용하여 캐시와 연관된 데이터에 대해 적어도 하나의 동작을 실행할 수 있다. 블록 1006에서, 개시된 시스템은 제1 컨트롤러 또는 제2 컨트롤러 중 하나에 결합된 제2 메모리에 데이터를 저장할 수 있다. 다양한 실시예에서, 개시된 시스템은 호스트로부터 구성 정보를 추가로 수신할 수 있고, 제2 컨트롤러를 동작의 부팅 시간 모드에서 소프트웨어 기반 캐시 또는 하드웨어 기반 캐시 중 하나로 동작시킬 수 있다. 추가적으로, 개시된 시스템은 캐시 일관성 프로토콜을 사용하여 네트워크 인터페이스를 통해 데이터를 제1 컨트롤러를 통해 수신하고, 데이터에 대해 적어도 하나의 제2 동작을 수행하여 제2 데이터를 생성하고, 상기 캐시 일관성 프로토콜에 기초하여 상기 제2 데이터를 제2 메모리에 저장할 수 있다. 일부 측면에서, 캐시 일관성 프로토콜은 CXL 프로토콜을 포함할 수 있으며, 개시된 시스템은 장치와 관련된 적어도 하나의 능력을 결정하고 그 능력을 호스트에 제공하는 프로파일러를 포함할 수 있다.
도 11은 본 개시의 실시예들을 실행하는데 사용될 수 있는 시스템의 예시적인 개략도를 도시한다. 도 11에 도시된 바와 같이, 이 특정 실시예는 하나 이상의 관리 컴퓨팅 엔티티(1100), 하나 이상의 네트워크(1105) 및 하나 이상의 사용자 장치(1110)를 포함할 수 있다. 여기에서 상호 교환적으로 사용되는 컴포넌트, 엔티티, 장치, 시스템 및 유사한 단어 각각은 예컨대, 동일하거나 상이한 유선 또는 무선 네트워크 상에서 서로 직접 또는 간접적으로 통신할 수 있다. 또한, 관리 컴퓨팅 엔티티(1100)는 여기에 설명된 머신 러닝 컴포넌트를 포함할 수 있다. 전술된 바와 같이, 통신은 여기에서 더 설명되는 바와 같이 임의의 적절한 프로토콜을 사용하여 수행될 수 있다.
도 12는 본 개시의 예시적인 실시예들에 따른, 관리 컴퓨팅 엔티티의 예시적인 개략도를 도시한다. 또한, 관리 컴퓨팅 엔티티(1200)는 컨텐츠 컴포넌트, 프로세싱 컴포넌트 및 송신 컴포넌트(미도시)를 포함할 수 있다. 특히, 콘텐츠 컴포넌트는 여기에 설명된 아키텍처 상에서 전송될 데이터(예를 들어, 비디오, 오디오, 텍스트, 데이터, 이들의 조합 등)를 나타내는 신호를 결정하는 역할을 할 수 있다. 다른 실시예에서, 전송을 위한 신호의 결정은 예를 들어, 장치에 대한 사용자 입력, 네트워크 상의 데이터 전송의 미리 결정된 스케줄, 네트워크 조건들의 변화 등에 기초할 수 있다. 일 실시예에서, 신호는 장치로부터 네트워크상의 하나 이상의 장치로 전송되도록 구성된 데이터 프레임에 캡슐화될 수 있는 데이터를 포함할 수 있다.
다른 실시예에서, 처리 엘리먼트(1205)는 상기 네트워크 상에서 전송된 데이터와 관련된 다양한 파라미터 및/또는 네트워크 부분들의 클러스터들과 관련된 파라미터를 결정하는 역할을 할 수 있다. 예를 들어, 처리 엘리먼트(1205)는 네트워크 데이터에 대해 모델을 구동하고, 네트워크 데이터에 대해 머신 러닝 기술을 실행하고, 네트워크 아키텍처의 다양한 부분들에 의해 처리될 워크로드의 분배를 결정하는 등을 수행하거나, 이들의 조합을 수행하는 역할을 할 수 있다. 또 다른 예로서, 처리 엘리먼트(1205)는 네트워크 데이터에 대해 모델을 구동하고, 네트워크의 클러스터의 서로 다른 성능 기능들과 관련된 파라미터들에 대해 머신 러닝 기술을 실행하고, 네트워크 아키텍쳐의 부분들의 다양한 클러스터에 의해 처리될 워크로드의 분배를 결정하는 등을 수행하거나 이들의 조합을 수행하는 역할을 할 수 있다.
일 실시예에서, 송신 컴포넌트(미도시)는 네트워크상의 한 장치에서 다른 장치로(예컨대, 캐시 일관성 프로토콜을 사용하여 예컨대, 제1 클러스터 상의 제1 장치에서 제2 클러스터 상의 제2 장치로) 신호를 전송하는 역할을 할 수 있다. 예를 들어, 송신 컴포넌트는 네트워크 상에서 신호를 전송하기 위해 송신기(예를 들어, 이하 도 12의 송신기(1204))를 준비하는 역할을 할 수 있다. 예를 들어, 송신 컴포넌트는 하나 이상의 버퍼에 데이터를 큐잉할 수 있고, 송신 장치 및 관련 송신기가 기능적이며 네트워크 상에서 신호를 전송하기에 적절한 전력을 가지고 있는지를 확인할 수 있고 데이터의 전송과 관련된 더 많은 파라미터(예컨대, 변조 타입, 신호 증폭, 신호 전력 레벨, 잡음 제거, 이들의 조합 등)를 조절할 수 있다.
일반적으로, 컴퓨팅 엔티티, 컴퓨터, 엔티티, 장치, 시스템, 및/또는 여기에서 상호 교환적으로 사용되는 유사한 단어는 예를 들어 하나 이상의 컴퓨터, 컴퓨팅 엔티티, 데스크탑 컴퓨터, 모바일 폰, 태블릿, 패블릿(phablets), 노트북, 랩탑, 분산 시스템, 게임 콘솔(예컨대, Xbox, PlayStation, Wii), 시계, 안경, 아이비콘(iBeacon), 근접 비콘, 전자 열쇠(key fobs), RFID(radio frequency identification) 태그, 이어피스 (ear pieces), 스캐너, 텔레비전, 동글, 카메라, 손목밴드, 웨어러블 아이템/장치, 키오스크, 입력 터미널, 서버 또는 서버 네트워크, 블레이드, 게이트웨이, 스위치, 처리 장치, 프로세싱 엔티티, 셋톱 박스, 릴레이 , 라우터, 네트워크 액세스 포인트, 기지국 등 및/또는 여기에 설명된 기능들, 동작들 및/또는 프로세스들을 수행하도록 구성된 장치들 또는 엔티티들의 임의의 조합을 나타낼 수 있다. 이러한 기능들, 동작들 및/또는 프로세스들은 예를 들어, 송신, 수신, 동작, 처리, 표시, 저장, 결정, 생성/발생, 모니터링, 평가, 비교 및/또는 여기에서 상호 교환적으로 사용되는 유사한 용어를 포함할 수 있다. 일 실시예에서, 이러한 기능들, 동작들 및/또는 프로세스들은 데이터, 콘텐츠, 정보 및/또는 여기에서 상호 교환적으로 사용되는 유사한 용어에 대해 수행될 수 있다.
지시된 바와 같이, 일 실시예에서, 관리 컴퓨팅 엔티티(1100)는 송신되고 수신되며, 동작되며, 처리되고, 표시되며, 저장될 수 있는, 데이터, 콘텐츠, 정보 및/또는 또한 여기에서 상호 교환적으로 사용되는 유사한 용어를 통신함으로써 다양한 컴퓨팅 엔티티와 통신하기 위한 하나 이상의 통신 인터페이스(1220)를 포함할 수 있다. 예를 들어, 관리 컴퓨팅 엔티티(1100)는 사용자 장치(1110) 및/또는 다양한 다른 컴퓨팅 엔티티와 통신할 수 있다.
도 12에 도시된 바와 같이, 일 실시예에서, 관리 컴퓨팅 엔티티(1100)는 예컨대, 버스를 통해 관리 컴퓨팅 엔티티(1100) 내에서 다른 엘리먼드들과 통신하는 하나 이상의 프로세싱 엘리먼트(1205)(프로세서, 처리 회로 및/또는 여기에서 상호 교환적으로 사용되는 유사한 용어라고도 함)를 포함하거나 그와 통신할 수 있다. 이해되는 바와 같이, 프로세싱 엘리먼트(1205)는 다수의 상이한 방식으로 구현될 수 있다. 예를 들어, 프로세싱 엘리먼트(1205)는 하나 이상의 복잡한 프로그래밍 가능 논리 장치(CPLD), 마이크로프로세서, 멀티-코어 프로세서, 코프로세싱 엔티티, ASIP (application-specific instruction-set processor), 마이크로 컨트롤러 및/또는 컨트롤러로서 구현될 수 있다. 또한, 프로세싱 엘리먼트(1205)는 하나 이상의 다른 처리 장치 또는 회로로서 구현될 수 있다. 용어 회로는 완전한 하드웨어 실시예 또는 하드웨어 및 컴퓨터 프로그램 제품의 조합을 나타낼 수 있다. 따라서, 프로세싱 엘리먼트(1205)는 집적 회로, ASIC(application specific integrated circuits), FPGA(field programmable gate arrays), PLA(programmable logic arrays), 하드웨어 가속기, 기타 회로 등으로서 구현될 수 있다. 따라서, 이해되는 바와 같이, 프로세싱 엘리먼트(1205)는 특정 용도를 위해 구성되거나 휘발성 또는 비휘발성 매체에 저장된 명령어들을 실행하도록 구성되거나 그렇지 않으면 프로세싱 엘리먼트(1205)에 액세스 가능하도록 구성될 수 있다. 이와 같이, 하드웨어 또는 컴퓨터 프로그램 제품에 의해 구성되든, 또는 이들의 조합에 의해 구성되든, 프로세싱 엘리먼트(1205)는 그에 따라 구성될 때 본 개시의 실시예들에 따른 단계 또는 동작을 수행할 수 있다.
일 실시예에서, 관리 컴퓨팅 엔티티(1100)는 비휘발성 매체(비휘발성 스토리지, 메모리, 메모리 스토리지, 메모리 회로, 및/또는 여기에서 상호 교환적으로 사용되는 유사한 용어로도 지칭됨)를 더 포함하거나 그와 통신할 수 있다. 일 실시예에서, 비휘발성 스토리지 또는 메모리는 하드 디스크, ROM, PROM, EPROM, EEPROM, 플래시 메모리, MMC, SD 메모리 카드, 메모리 스틱, CBRAM, PRAM, FeRAM, NVRAM, MRAM, RRAM, SONOS, FJG RAM, 밀리피드(Millipede) 메모리, 레이스트랙 메모리 등을 포함하지만 이에 제한되지 않는 하나 이상의 비휘발성 스토리지 또는 메모리 매체(1210)를 포함할 수 있다. 인식되는 바와 같이, 비휘발성 스토리지 또는 메모리 매체는 데이터베이스, 데이터베이스 인스턴스, 데이터베이스 관리 시스템, 데이터, 어플리케이션, 프로그램, 프로그램 컴포넌트, 스크립트, 소스 코드, 개체 코드, 바이트 코드, 컴파일된 코드, 해석된 코드, 기계 코드, 실행 가능한 명령어 등을 저장할 수 있다. 용어 데이터베이스, 데이터베이스 인스턴스, 데이터베이스 관리 시스템 및/또는 여기에서 상호 교환 적으로 사용되는 유사한 용어는 계층적 데이터베이스 모델, 네트워크 모델, 관계형 모델, 엔티티-관계 모델, 객체 모델, 문서 모델, 시맨틱 모델, 그래프 모델 등과 같은 하나 이상의 데이터베이스 모델을 사용하여 컴퓨터 판독가능 저장 매체에 저장된 레코드 또는 데이터의 콜렉션을 나타낼 수 있다.
일 실시예에서, 관리 컴퓨팅 엔티티(1100)는 휘발성 매체(휘발성 스토리지, 메모리, 메모리 스토리지, 메모리 회로, 및/또는 여기에서 상호 교환적으로 사용되는 유사한 용어로도 지칭됨)를 더 포함하거나 그와 통신할 수 있다. 일 실시예에서, 휘발성 스토리지 또는 메모리는 또한 RAM, DRAM, SRAM, FPM DRAM, EDO DRAM, SDRAM, DDR SDRAM, DDR2 SDRAM, DDR3 SDRAM, RDRAM, TTRAM, T-RAM, Z-RAM, RIMM, DIMM, SIMM, VRAM, 캐시 메모리, 레지스터 메모리 등을 포함하되 이에 제한되지 않는 하나 이상의 휘발성 스토리지 또는 메모리 매체(1215)를 포함할 수 있다. 인식되는 바와 같이, 휘발성 스토리지 또는 메모리 매체는 예컨대, 프로세싱 엘리먼트(1205)에 의해 실행되는, 데이터베이스, 데이터베이스 인스턴스, 데이터베이스 관리 시스템, 데이터, 어플리케이션, 프로그램, 프로그램 컴포넌트, 스크립트, 소스 코드, 개체 코드, 바이트 코드, 컴파일된 코드, 해석된 코드, 기계 코드, 실행 가능한 명령어 등의 적어도 일부를 저장하는데 사용될 수 있다. 따라서, 데이터베이스, 데이터베이스 인스턴스, 데이터베이스 관리 시스템, 데이터, 어플리케이션, 프로그램, 프로그램 컴포넌트, 스크립트, 소스 코드, 객체 코드, 바이트 코드, 컴파일된 코드, 해석된 코드, 기계 코드, 실행 가능한 명령어 등은 프로세싱 엘리먼트(1205) 및 운영 시스템의 도움으로 관리 컴퓨팅 엔티티(1100)의 동작의 특정 측면을 제어하는 데 사용될 수 있다.
지시된 바와 같이, 일 실시예에서, 관리 컴퓨팅 엔티티(1100)는 송신되고 수신되며, 동작되며, 처리되고, 표시되며, 저장될 수 있는, 데이터, 콘텐츠, 정보 및/또는 또한 여기에서 상호 교환적으로 사용되는 유사한 용어를 통신함으로써 다양한 컴퓨팅 엔티티와 통신하기 위한 하나 이상의 통신 인터페이스(1220)를 포함할 수 있다. 이러한 통신은 PCIe(peripheral component interconnect express), 광섬유 분산 데이터 인터페이스(FDDI), 디지털 가입자 회선(DSL), 이더넷, 비동기 전송 모드(ATM), 프레임 릴레이, DOCSIS(data over cable service interface specification) 또는 임의의 기타 유선 통신 프로토콜와 같은 유선 데이터 전송 프로토콜을 사용하여 실행될 수 있다. 유사하게, 관리 컴퓨팅 엔티티(1100)는 GPRS(General Packet Radio Service), UMTS(Universal Mobile Telecommunications System), CDMA2000(Code Division Multiple Access 2000), CDMA2000 1X (1xRTT), WCDMA(Wideband Code Division Multiple Access), TD-SCDMA(Time Division-Synchronous Code Division Multiple Access), LTE(Long Term Evolution), E-UTRAN(Evolved Universal Terrestrial Radio Access Network), EVDO(Evolution-Data Optimized), HSPA(고속 패킷 액세스), HSDPA(고속 다운링크 패킷 액세스), IEEE 802.11(Wi-Fi), Wi-Fi Direct, 802.16(WiMAX), 초광대역(UWB) , 적외선(IR) 프로토콜, NFC(근거리 통신) 프로토콜, 지그비, 블루투스 프로토콜, 5G 프로토콜, USB 프로토콜 및/또는 기타 무선 프로토콜와 같은 다양한 프로토콜중 어느 하나를 사용하여 무선 외부 통신 네트워크를 통해 통신하도록 구성될 수 있다.
도시되지는 않았지만, 관리 컴퓨팅 엔티티(1100)는 키보드 입력, 마우스 입력, 터치 스크린/디스플레이 입력, 모션 입력, 움직임 입력(movement input), 오디오 입력, 포인팅 장치 입력, 조이스틱 입력, 키패드 입력 등과 같은 하나 이상의 입력 엘리먼트를 포함하거나 그와 통신할 수 있다. 관리 컴퓨팅 엔티티(1100)는 또한 오디오 출력, 비디오 출력, 스크린/디스플레이 출력, 모션 출력, 움직임 출력 등과 같은 하나 이상의 출력 엘리먼트(도시되지 않음)를 포함하거나 그와 통신할 수 있다.
이해되는 바와 같이, 하나 이상의 관리 컴퓨팅 엔티티(1100)의 컴포넌트는 분산 시스템에서와 같이 다른 관리 컴퓨팅 엔티티(1100) 컴포넌트로부터 원격으로 위치될 수 있다. 또한, 하나 이상의 컴포넌트들이 결합될 수 있고, 여기서 설명된 기능을 수행하는 추가적인 컴포넌트가 관리 컴퓨팅 엔티티(1100)에 포함될 수 있다. 따라서, 관리 컴퓨팅 엔티티(1100)는 다양한 니즈 및 상황을 수용하도록 구성될 수 있다. 인식되는 바와 같이, 이러한 아키텍처 및 설명은 예시 목적으로 만 제공되며 다양한 실시예로 제한되지 않는다.
사용자는 개인, 가족, 회사, 조직, 엔티티, 조직 내 부서, 조직 및/또는 사람의 대표자 등이 될 수 있다. 일례에서, 사용자는 직원, 거주자, 고객 등일 수 있다. 예를 들어, 사용자는 관리 컴퓨팅 엔티티(1100)의 컴포넌트와 기능적으로 유사한 하나 이상의 컴포넌트를 포함하는 사용자 장치(1110)를 조작할 수 있다.
다양한 측면에서, 프로세싱 컴포넌트, 송신 컴포넌트 및/또는 수신 컴포넌트(도시되지 않음)는 하나 이상의 네트워크 상에서 동작하도록 구성될 수 있고 여기에서 도 11 및 12와 관련하여 도시되고 설명된 바와 같이 관리 컴퓨팅 엔티티(1100)의 기능성의 측면들을 포함할 수 있다. 특히, 프로세싱 컴포넌트, 송신 컴포넌트 및/또는 수신 컴포넌트는 하나 이상의 프로세싱 엘리먼트(1205), 메모리(1210), 휘발성 메모리(1215)와 통신하도록 구성될 수 있고, (예컨대, 장치들 사이의 통신을 용이하게 하기 위해) 통신 인터페이스(1220)를 포함할 수 있다.
도 13은 본 개시의 예시적인 실시예들에 따른, 사용자 장치의 예시적인 개략도를 도시한다. 도 13은 본 개시의 실시예들과 함께 사용될 수 있는 사용자 장치(1110)(도 11과 관련하여 도시됨)를 나타내는 예시적인 개략도를 제공한다. 일반적으로, "장치", "시스템", "컴퓨팅 엔티티", "엔티티" 및/또는 여기에서 상호 교환적으로 사용되는 유사한 단어는 예를 들어 하나 이상의 컴퓨터, 컴퓨팅 엔티티, 데스크탑, 모바일 폰, 태블릿, 패블릿(phablets), 노트북, 랩탑, 분산 시스템, 게임 콘솔(예컨대, Xbox, PlayStation, Wii), 시계, 안경, 전자 열쇠(key fobs), RFID(radio frequency identification) 태그, 이어피스, 스캐너, 카메라, 손목밴드, 키오스크, 입력 터미널, 서버 또는 서버 네트워크, 블레이드, 게이트웨이, 스위치, 처리 장치, 프로세싱 엔티티, 셋톱 박스, 릴레이, 라우터, 네트워크 액세스 포인트, 기지국 등 및/또는 여기에 설명된 기능들, 동작들 및/또는 프로세스들을 수행하도록 구성된 장치들 또는 엔티티들의 임의의 조합을 나타낼 수 있다. 사용자 장치들(1110)은 다양한 당사자에 의해 동작될 수 있다. 도 13에 도시된 바와 같이, 사용자 장치(1110)는 안테나(1312), 송신기(1304)(예컨대, 라디오), 수신기(1306)(예컨대, 라디오) 및 처리 엘리먼트(1308)(예컨대, CPLDs, FPGAs, 마이크로프로세서, 멀티-코어 프로세서, 코프로세싱 엔티티, ASIP, 마이크로컨트롤러 및/또는 컨트롤러)를 포함할 수 있으며, 처리 엘리먼트(1208)는 송신기(1304) 및 수신기(1306)로 신호들을 제공하고 신호들을 수신한다.
송신기(1304) 및 수신기(1306)으로 각각 제공되고 이들로부터 수신된 신호는 적용 가능한 무선 시스템의 무선 인터페이스 표준에 따른 시그널링 정보를 포함할 수 있다. 이와 관련하여, 사용자 장치(1110)는 하나 이상의 무선 인터페이스 표준, 통신 프로토콜, 변조 타입 및 액세스 타입으로 동작할 수 있다. 더 구체적으로, 사용자 장치(1110)는 도 10의 관리 컴퓨팅 엔티티(1100)와 관련하여 전술한 바와 같은 다수의 무선 통신 표준 및 프로토콜 중 어느 하나에 따라 동작할 수 있다. 특정 실시예에서, 사용자 장치(1110)는 다수의 무선 통신 표준 및 개시된 IoT DOCSIS 프로토콜, UMTS, CDMA2000, 1xRTT, WCDMA, TD-SCDMA, LTE, E-UTRAN, EVDO, HSPA, HSDPA, 5G, Wi-Fi, Wi-Fi Direct, WiMAX, UWB, IR, NFC, 블루투스, USB 등과 같은 다수의 프로토콜에 따라 동작할 수 있다. 유사하게, 사용자 장치(1110)는 관리 컴퓨팅 엔티티(1100)와 관련하여 전술한 바와 같은 다수의 유선 통신 표준 및 프로토콜에 따라 네트워크 인터페이스(1320)을 통해 동작할 수 있다.
이러한 통신 표준 및 프로토콜을 통해 사용자 장치(1110)는 USSD(Unstructured Supplementary Service Data), SMS(Short Message Service), MMS(Multimedia Messaging Service), DTMF(Dual-Tone Multi-Frequency Signaling) 및/또는 가입자 식별 컴포넌트 다이얼러(SIM 다이얼러)와 같은 개념을 사용하여 다양한 다른 엔티티와 통신할 수 있다. 사용자 장치(1110)는 또한 예를 들어 펌웨어, 소프트웨어(예를 들어, 실행 가능한 명령어, 어플리케이션, 프로그램 컴포넌트를 포함) 및 운영 체제에 대한 변경, 추가 기능(add-ons) 및 업데이트를 다운로드할 수 있다.
일 실시예에 따르면, 사용자 장치(1110)는 위치 결정 측면, 장치, 컴포넌트, 기능 및/또는 본 명세서에서 상호 교환적으로 사용되는 유사한 단어를 포함할 수 있다. 위치 결정 측면들은 관리 컴퓨팅 엔티티에 의해 사용되는 모델들 및 여기에 설명된 모델들 및/또는 머신 러닝 기술들 중 하나 이상을 알리기 위해 사용될 수 있다. 예컨대, 사용자 장치(1110)는 예를 들어 위도, 경도, 고도, 지오코드, 코스, 방향, 지향(heading), 속도, UTC(universal time), 날짜 및/또는 다양한 기타 정보/데이터를 획득하도록 구성된 위치 결정 컴포넌트와 같은 실외 포지셔닝 측면을 포함할 수 있다. 일 실시예에서, 위치 컴포넌트는 관측중인 위성의 개수 및 이러한 위성의 상대적 위치를 식별함으로써 때때로 천체 데이터(ephemeris data)로 알려진 데이터를 획득할 수 있다. 위성은 저궤도(LEO) 위성 시스템, 국방부(Department of Defense) 위성 시스템, 유럽 연합 갈릴레오 포지셔닝 시스템, 중국 나침반 내비게이션 시스템(Chinese Compass navigation systems), 인도 지역 내비게이션 위성 시스템(Indian Regional Navigational satellite systems) 등을 포함하는 다양한 위성들일 수 있다. 대안적으로, 위치 정보는 셀룰러 타워, Wi-Fi 액세스 포인트 등을 포함하는 다양한 다른 시스템과 관련하여 사용자 장치(1110)의 위치를 삼각 측량함으로써 결정될 수 있다. 유사하게, 사용자 장치(1110)는 예를 들어 위도, 경도, 고도, 지오코드, 코스, 방향, 지향(heading), 속도, 시간, 날짜 및/또는 다양한 기타 정보/데이터를 획득하도록 구성된 위치 컴포넌트와 같은 실내 포지셔닝 측면을 포함할 수 있다. 실내 시스템들중 일부는 RFID 태그, 실내 비콘 또는 송신기, Wi-Fi 액세스 포인트, 셀룰러 타워, 인근 컴퓨팅 장치(예를 들어, 스마트폰, 랩탑) 등을 포함하는 다양한 위치 또는 위치 기술을 사용할 수 있다. 예를 들어, 이러한 기술들은 아이비콘(iBeacon), 짐벌(Gimbal) 근접 비콘, BLE(Bluetooth Low Energy) 송신기, NFC 송신기 등을 포함할 수 있다. 이러한 실내 포지셔닝 측면은 다양한 설정들에서 사용되어 인치 또는 센티미터 이내로 누군가 또는 무언가의 위치를 결정할 수 있다.
사용자 장치(1110)는 또한 사용자 인터페이스(프로세싱 엘리먼트(1308)에 연결된 디스플레이(1316)를 포함할 수 있음) 및/또는 사용자 입력 인터페이스(프로세싱 엘리먼트(1308)에 연결됨)를 포함할 수 있다. 예를 들어, 사용자 인터페이스는 여기에서 설명된 바와 같이, 관리 컴퓨팅 엔티티(1100)와 상호 작용하여 관리 컴퓨팅 엔티티(1200)로부터의 정보를 표시하게 하기 위해, 사용자 장치(1110) 상에서 실행하는 및/또는 사용자 장치(1210)를 통해 액세스 가능한 사용자 어플리케이션, 브라우저, 사용자 인터페이스 및/또는 여기에서 상호 교환가능하게 사용되는 유사한 단어일 수 있다. 사용자 입력 인터페이스는 사용자 장치(1110)가 데이터를 수신할 수있게 하는, 키패드(1318) (하드 또는 소프트), 터치 디스플레이, 보이스/음성 또는 모션 인터페이스, 또는 다른 입력 장치와 같은 다수의 장치들 또는 인터페이스들 중 어느 하나를 포함할 수 있다. 키패드(1318)를 포함하는 실시예들에서, 키패드(1318)는 사용자 장치(1110)를 동작시키는데 사용되는 종래의 숫자(0-9) 및 관련 키들(#, *)와 기타 키들을 포함(또는 이들을 표시)할 수 있으며, 알파벳 키들의 풀 셋(full set) 또는 알파벳 키들의 풀셋을 제공하도록 활성화될 수 있는 키 셋(set of keys)를 포함할 수 있다. 입력의 제공에 추가하여, 사용자 입력 인터페이스는 예컨대, 화면 보호기 및/또는 슬립 모드(sleep mode)와 같은 특정 기능을 활성화하거나 비활성화하는데 사용될 수 있다.
사용자 장치(1110)는 또한 내장되거나 제거될 수 있는 휘발성 스토리지 또는 메모리(1322) 및/또는 비휘발성 스토리지 또는 메모리(1324)를 포함할 수 있다. 예를 들어, 비휘발성 메모리는 ROM, PROM, EPROM, EEPROM, 플래시 메모리, MMC, SD 메모리 카드, 메모리 스틱, CBRAM, PRAM, FeRAM, NVRAM, MRAM, RRAM, SONOS, FJG RAM, Millipede 메모리, 경마장 메모리 등일 수 있다. 휘발성 메모리는 RAM, DRAM, SRAM, FPM DRAM, EDO DRAM, SDRAM, DDR SDRAM, DDR2 SDRAM, DDR3 SDRAM, RDRAM, TTRAM, T-RAM, Z-RAM, RIMM, DIMM, SIMM, VRAM, 캐시 메모리, 레지스터 메모리 등일 수 있다. 휘발성 및 비휘발성 스토리지 또는 메모리는 사용자 장치(1110)의 기능들을 구현하기 위해 데이터베이스, 데이터베이스 인스턴스, 데이터베이스 관리 시스템, 데이터, 어플리케이션, 프로그램, 프로그램 컴포넌트, 스크립트, 소스 코드, 개체 코드, 바이트 코드, 컴파일된 코드, 해석된 코드, 기계 코드, 실행 가능한 명령어 등을 저장할 수 있다. 지시된 바와 같이, 이것은 엔티티에 상주하거나 관리 컴퓨팅 엔티티(1100) 및/또는 다양한 다른 컴퓨팅 엔티티와 통신하는 브라우저 또는 다른 사용자 인터페이스를 통해 액세스 가능한 사용자 어플리케이션을 포함할 수 있다.
다른 실시예에서, 사용자 장치(1110)는 상기 상세히 설명된 바와 같이 관리 컴퓨팅 엔티티(1100)와 동일하거나 유사한 하나 이상의 컴포넌트 또는 기능을 포함할 수 있다. 인식되는 바와 같이, 이러한 아키텍처 및 설명은 예시 목적으로 만 제공되며 다양한 실시예로 제한되지 않는다.
특정 실시예들은 하드웨어, 펌웨어 및 소프트웨어의 하나 또는 조합으로 구현될 수 있다. 다른 실시예들은 또한 본 명세서에 설명된 동작을 수행하기 위해 적어도 하나의 프로세서에 의해 판독 및 실행될 수 있는 컴퓨터 판독가능 저장 장치에 저장된 명령어로서 구현될 수 있다. 컴퓨터 판독가능 저장 장치는 기계(예를 들어, 컴퓨터)에 의해 판독 가능한 형태로 정보를 저장하기 위한 임의의 비-일시적 메모리 메커니즘을 포함할 수 있다. 예를 들어, 컴퓨터 판독가능 저장 장치는 ROM(read-only memory), RAM(random-access memory), 자기 디스크 저장 매체, 광학 저장 매체, 플래시 메모리 장치 및 기타 저장 장치 및 매체를 포함할 수 있다.
본 명세서에서 "예시"라는 단어는 "예시, 실례 또는 도시로서 기능하는 것"을 의미하기 위해 사용된다. 본 명세서에서 "예시"로서 설명된 임의의 실시예는 반드시 다른 실시예보다 바람직하거나 유리한 것으로 해석될 필요는 없다. 본 명세서에서 사용되는 용어 "컴퓨팅 장치", "사용자 장치", "통신 스테이션", "스테이션", "핸드 헬드 장치", "모바일 장치", "무선 장치" 및 "사용자 장비"(UE)는 셀룰러 폰, 스마트 폰, 태블릿, 넷북, 무선 단말기, 랩탑 컴퓨터, 펨토셀, HDR(High Data Rate) 가입자 스테이션, 액세스 포인트, 프린터, POS 장치, 액세스 터미널 또는 기타 PCS(personal communication system) 장치와 같은 무선 통신 장치를 나타낸다. 장치는 이동식 또는 고정식일 수 있다.
이 문서에서 사용되는 "통신"이라는 용어는 전송, 수신 또는 전송과 수신 모두를 포함한다. 이것은 하나의 장치에 의해 전송되고 다른 장치에 의해 수신되는 데이터의 구성을 설명할 때 청구범위에서 특히 유용할 수 있지만 청구범위를 침해하기 위해 이들 장치들중 하나의 기능만이 요구된다. 유사하게, 두 장치들(교환 중에 송신 및 수신하는 장치들 모두)간의 양방향 데이터 교환은 해당 장치들 중 하나의 기능만이 청구되는 경우 '통신'으로 설명될 수 있다. 무선 통신 신호에 대해 본 명세서에서 사용되는 "통신"이라는 용어는 무선 통신 신호를 송신하고 및/또는 무선 통신 신호를 수신하는 것을 포함한다. 예를 들어, 무선 통신 신호를 통신할 수 있는 무선 통신 장치는 적어도 하나의 다른 무선 통신 유닛에 무선 통신 신호를 송신하는 무선 송신기 및/또는 무선 통신 신호를 적어도 하나의 다른 무선 통신 유닛으로부터 수신하는 무선 통신 수신기를 포함할 수 있다.
일부 실시예는 예컨대, 퍼스널 컴퓨터(PC), 데스크탑 컴퓨터, 모바일 컴퓨터, 랩탑 컴퓨터, 노트북 컴퓨터, 태블릿 컴퓨터, 서버 컴퓨터, 핸드헬드 컴퓨터, 핸드헬드 장치, PDA(Personal Digital Assistant) 장치, 핸드헬드 PDA 장치, 온보드 장치, 오프보드 장치, 하이브리드 장치, 차량 장치, 비차량 장치, 모바일 또는 휴대용 장치, 소비자 장치, 비모바일 또는 비휴대용 장치, 무선 통신 스테이션, 무선 통신 장치, 무선 액세스 포인트(AP), 유선 또는 무선 라우터, 유선 또는 무선 모뎀, 비디오 장치, 오디오 장치, 오디오-비디오(A/V) 장치, 유선 또는 무선 네트워크, 무선 영역 네트워크, WVAN(Wireless Video Area Network), LAN(Local Area Network), WLAN(Wireless LAN), PAN(Personal Area Network), WPAN(Wireless PAN) 등의 다양한 장치들 및 시스템들과 연계하여 사용될 수 있다.
일부 실시예들은 단방향 및/또는 양방향 무선 통신 시스템, 셀룰러 무선 전화 통신 시스템, 이동 전화, 셀룰러 전화, 무선 전화, 개인 통신 시스템(PCS) 장치, 무선 통신 장치를 통합한 PDA 장치, 모바일 또는 휴대용 GPS(Global Positioning System) 장치, GPS 수신기 또는 트랜시버 또는 칩이 통합된 장치, RFID 엘리먼트 또는 칩이 통합된 장치, MIMO(Multiple Input Multiple Output) 트랜시버 또는 장치, SIMO(Single Input Multiple Output) 트랜시버 또는 장치, MISO(Multiple Input Single Output) 트랜시버 또는 장치, 하나 이상의 내부 안테나 및/또는 외부 안테나를 갖는 장치, DVB(Digital Video Broadcast) 장치 또는 시스템, 다중-표준 무선 장치 또는 시스템, 유선 또는 무선 핸드헬드 장치, 예를 들어 스마트 폰, WAP(Wireless Application Protocol) 장치 등과 연계하여 사용될 수 있다.
일부 실시예들은 하나 이상의 타입의 무선 통신 신호들 및/또는 시스템들과 연계하여 사용될 수 있으며, 상기 무선 통신 시스템들은 예컨대, 무선 주파수(RF), 적외선(IR), Frequency-Division Multiplexing (FDM), OFDM(Orthogonal FDM), TDM(Time-Division Multiplexing), TDMA(Time-Division Multiple Access), E-TDMA (Extended TDMA), GPRS(General Packet Radio Service), extended GPRS, CDMA(Code-Division Multiple Access) , 광대역 CDMA(WCDMA), CDMA 2000, 단일 반송파 CDMA, 다중 반송파 CDMA, MDM(Multi-Carrier Modulation), DMT(Discrete Multi-Tone), BluetoothTM, GPS(Global Positioning System), Wi-Fi, Wi-Max, ZigBeeTM, UWB(Ultra-Wideband), GSM(Global System for Mobile Communication), 2G, 2.5G, 3G, 3.5G, 4G, 5세대(5G) 모바일 네트워크, 3GPP, LTE(Long Term Evolution), LTE advanced, EDGE(Enhanced Data rates for GSM Evolution) 등과 같은 하나 이상의 무선 통신 프로토콜을 따른다. 다른 실시예들은 다양한 다른 장치, 시스템 및/또는 네트워크에서 사용될 수 있다
예시적인 처리 시스템은 상기에서 설명되었지만, 여기에서 설명된 발명의 실시예들 및 기능적 동작들은 다른 타입의 디지털 전자 회로, 또는 본 명세서에 개시된 구조 및 구조적 등가물을 포함하는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어, 또는 이들 중 하나 이상의 조합으로 구현될 수 있다.
여기에서 설명된 발명의 실시예들 및 동작들은 디지털 전자 회로, 또는 본 명세서에 개시된 구조 및 구조적 등가물을 포함하는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어, 또는 이들 중 하나 이상의 조합으로 구현될 수 있다. 여기에서 설명된 발명의 실시예들은 하나 이상의 컴퓨터 프로그램으로서 즉, 정보/데이터 처리 장치에 의해 실행되거나 그 동작을 제어하기 위해 컴퓨터 저장 매체 상에 인코딩된 하나 이상의 컴퓨터 프로그램 명령어들의 하나 이상의 컴포넌트로서 구현될 수 있다. 대안적으로 또는 추가적으로, 프로그램 명령어는 인공적으로 생성된 전파 신호, 예를 들어 기계-생성 전기, 광학 또는 전자기 신호 상에 인코딩될 수 있으며, 상기 신호는 정보/데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 전송을 위해 정보/데이터를 인코딩하도록 생성된다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 저장 장치, 컴퓨터 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 어레이 또는 장치, 또는 이들 중 하나 이상의 조합일 수 있거나 이에 포함될 수 있다. 더욱이, 컴퓨터 저장 매체는 전파된 신호가 아닌 반면, 컴퓨터 저장 매체는 인공적으로 생성된 전파 신호에서 인코딩된 컴퓨터 프로그램 명령어의 소스 또는 목적지일 수 있다. 컴퓨터 저장 매체는 또한 하나 이상의 개별 물리적 컴포넌트 또는 매체(예컨대, 다수의 CD, 디스크 또는 기타 저장 장치)일 수 있거나 이에 포함될 수 있다.
여기에 설명된 동작은 하나 이상의 컴퓨터 판독 가능 저장 장치에 저장되거나 다른 소스로부터 수신된 정보/데이터에 대해 정보/데이터 처리 장치에 의해 수행되는 동작으로 구현될 수 있다.
용어 "데이터 처리 장치"는 데이터를 처리하기 위한 모든 종류의 장치, 디바이스, 및 기계를 포함하며, 예를 들어, 하나의 또는 다수의 프로그램 가능한 프로세서, 컴퓨터, 시스템 온 칩, 또는 또는 이들의 조합을 포함한다. 이 장치는 특수 목적 논리 회로, 예컨대, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)를 포함할 수 있다. 이 장치는 하드웨어 외에도 해당 컴퓨터 프로그램의 실행 환경을 생성하는 코드, 예컨대, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 크로스-플랫폼 런타임 환경, 가상 머신 또는 이들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다. 장치 및 실행 환경은 웹 서비스, 분산 컴퓨팅 및 그리드 컴퓨팅 인프라와 같은 다양한 서로다른 컴퓨팅 모델 인프라들을 실현할 수 있다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 또는 코드로 알려짐)은 컴파일된 또는 해석된 언어, 선언적 또는 절차적 언어를 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있으며 독립 실행형 프로그램로서 또는 컴포넌트로서, 컴퓨팅 환경에서 사용하기에 적합한 컴포넌트, 서브루틴, 개체 또는 기타 단위를 포함하는 임의의 형태로 배치될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 해당할 수 있지만 반드시 그럴 필요는 없다. 프로그램은 다른 프로그램 또는 정보/데이터(예컨대, 마크업 언어 문서에 저장된 하나 이상의 스크립트)를 보유하는 파일의 일부, 해당 프로그램에 대해 전용의 단일 파일, 또는 다수의 조직화된 파일들(예컨대, 하나 이상의 컴포넌트, 서브 프로그램 또는 코드의 부분들을 저장하는 파일들)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 하나의 사이트에 위치되거나 여러 사이트에 분산되고 컴퓨터 네트워크에 의해 상호 연결된 다수의 컴퓨터들 상에서 실행되도록 배치될 수 있다.
본 명세서에 설명된 프로세스 및 로직 흐름은 입력 정보/데이터에 대해 동작하고 출력을 생성함으로써 행동을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그래밍 가능한 프로세서들에 의해 수행될 수 있다. 컴퓨터 프로그램의 실행에 적합한 프로세서들은 예를 들어 범용 및 특수 목적의 마이크로 프로세서와 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서를 포함한다. 일반적으로, 프로세서는 읽기 전용 메모리 또는 랜덤 액세스 메모리 또는 이들로부터 명령어 및 정보/데이터를 수신한다. 컴퓨터의 필수 엘리먼트는 명령어에 따라 행동을 수행하기 위한 프로세서와 명령어 및 데이터를 저장하기 위한 하나 이상의 메모리 장치이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치, 예를 들어 자기, 광자기(magneto-optical) 디스크 또는 광 디스크로부터 정보/데이터를 수신하거나 정보/데이터를 전송하거나, 둘다 가능하도록 작동 가능하게 결합될 수 있다. 그러나 컴퓨터에는 이러한 장치를 가질 필요가 없다. 컴퓨터 프로그램 명령어 및 정보/데이터를 저장하기에 적합한 장치는 예를 들어 EPROM, EEPROM 및 플래시 메모리 장치와 같은 반도체 메모리 장치; 자기 디스크, 예를 들어 내부 하드 디스크 또는 이동식 디스크; 광자기 디스크; 및 CD ROM 및 DVD-ROM 디스크와 같은 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함한다. 프로세서와 메모리는 특수 목적 논리 회로에 의해 보완되거나 통합될 수 있다.
사용자와의 상호 작용을 제공하기 위해, 여기에 설명된 발명의 실시예는 정보/데이터를 사용자에게 표시하기 위해 CRT(음극선 관) 또는 LCD(액정 디스플레이) 모니터와 같은 디스플레이 장치 및 사용자가 입력을 컴퓨터에 제공할 수 있도록 하는 키보드 및 마우스 또는 트랙볼과 같은 포인팅 장치를 갖는 컴퓨터 상에서 구현될 수 있다. 사용자와의 상호 작용을 제공하기 위해 다른 종류의 장치가 또한 사용될 수 있는데, 예를 들어, 사용자에게 제공되는 피드백은 예를 들어 시각적 피드백, 청각적 피드백 또는 촉각적 피드백과 같은 모든 형태의 감각 피드백일 수 있으며, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함한 모든 형태로 수신될 수 있다. 또한 컴퓨터는 사용자의해 사용되는 장치로부터 문서를 전송하고 문서를 수신함으로써, 예를 들어, 웹 브라우저에서 수신된 요청에 응답하여 사용자의 클라이언트 장치의 웹 브라우저에 웹 페이지를 전송함으로써, 사용자와 상호 작용할 수 있다.
여기에 설명된 발명의 실시예는 예컨대, 정보/데이터 서버로서 백엔드 컴포넌트를 포함하거나 미들웨어 컴포넌트, 예컨대, 어플리케이션 서버를 포함하거나 프론트 엔드 컴포넌트, 예컨대, 사용자가 여기에서 설명된 본 발명의 일 실시예와 상호 작용할 수 있도록 하는 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 클라이언트 컴퓨터, 또는 이러한 백엔드, 미들웨어 및 프론트 엔드 컴포넌트들의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트는 예를 들어 통신 네트워크와 같은 디지털 정보/데이터 통신의 임의의 형태 또는 매체에 의해 상호 연결될 수 있다. 통신 네트워크의 예들은 근거리 통신망("LAN") 및 광역 네트워크 ("WAN"), 네트워크간(예컨대, 인터넷) 및 피어-투-피어 네트워크 (예컨대, 애드혹 피어-투-피어 네트워크)를 포함할 수 있다.
컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있으며 통상으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각 컴퓨터에서 구동되고 서로에 대해 클라이언트-서버 관계를 갖는 컴퓨터 프로그램으로 인해 발생한다. 일부 실시예에서, 서버는 (예컨대, 정보/데이터를 클라이언트 장치에 표시하고 클라이언트 장치와 상호 작용하는 사용자로부터 사용자 입력을 수신할 목적으로) 정보/데이터(예컨대, HTML 페이지)를 클라이언트 장치로 전송한다. 클라이언트 장치에서 생성된 정보/데이터 (예컨대, 사용자 상호 작용의 결과)는 서버에서 클라이언트 장치로부터 수신될 수 있다.
본 명세서는 많은 특정 실시예 세부 사항을 포함하지만, 이들은 임의의 실시예의 범위 또는 청구될 수 있는 것에 대한 제한으로 해석되어서는 안되며, 오히려 특정 실시시에 특정한 특징들의 설명으로서 해석되어야 한다. 개별 실시예들의 맥락에서 여기에 설명된 특정 특징들은 단일 실시 예에서 조합하여 구현될 수도 있다. 반대로, 단일 실시예의 맥락에서 설명된 다양한 특징들은 또한 다수의 실시예들에서 개별적으로 또는 임의의 적절한 하위 조합으로 구현될 수 있다. 더욱이, 특징들이 특정 조합으로 작용하는 것으로 위에서 설명되고 심지어 처음에 그렇게 주장될 수도 있더라도, 청구된 조합으로부터 하나 이상의 특징들이 어떤 경우에는 조합으로부터 삭제될 수 있고, 청구된 조합은 하위 조합 또는 하위 조합의 변형에 대할 것일 수 있다.
유사하게, 동작들이 특정 순서로 도면에 도시되어 있지만, 이는 바람직한 결과를 달성하기 위해 이러한 동작들이 도시된 특정 순서 또는 순차적 순서로 수행되거나 모든 도시된 동작들이 수행 될 것을 요구하는 것으로 이해되어서는 안된다. 특정 상황에서는 멀티태스킹 및 병렬 처리가 유리할 수 있다. 더욱이, 전술한 실시예들에서 다양한 시스템 컴포넌트들의 분리는 모든 실시예들에서 그러한 분리를 필요로 하는 것으로 이해되어서는 안되며, 설명된 프로그램 컴포넌트들 및 시스템들이 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품들로 패키징될 수 있음이 이해되어야 한다.
따라서, 본 발명의 의 특정 실시예들이 설명되었다. 다른 실시예들이 이하의 청구범위의 범위 내에 있다. 일부 경우에, 청구범위에 언급된 동작은 다른 순서로 수행될 수 있으며 여전히 바람직한 결과를 얻을 수 있다. 또한, 첨부된 도면에 도시된 프로세스는 바람직한 결과를 얻기 위해 도시된 특정 순서 또는 순차적 순서를 반드시 요구하지 않는다. 특정 실시예에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다.
여기에 제공된 개시의 많은 변경 및 다른 실시예들이 전술한 설명 및 관련 도면에 제시된 교시의 이점을 갖는 이들 실시예들이 속하는 기술 분야의 당업자에게 자명할 것이다. 따라서, 실시예는 개시된 특정 실시예로 제한되지 않으며, 변경 및 다른 실시예는 첨부된 청구범위의 범위 내에 포함되는 것으로 의도되는 것을 이해해야 한다. 본 명세서에서는 특정 용어가 사용되지만 제한을 목적으로 하는 것이 아니라 일반적이고 설명적인 의미로만 사용된다.

Claims (20)

  1. 스토리지 자원을 제공하는 장치에 있어서,
    네트워크 인터페이스에 연결되며 캐시 일관성 프로토콜과 동작 가능한 제1 컨트롤러;
    상기 제1 컨트롤러에 연결되고 제1 메모리에 연결되며, 상기 장치의 캐시와 관련된 적어도 하나의 동작을 수행하는 제2 컨트롤러; 및
    상기 제1 컨트롤러 또는 상기 제2 컨트롤러 중 적어도 하나에 연결된 제2 메모리를 포함하는 장치.
  2. 제1항에 있어서,
    상기 장치는
    호스트로부터 구성 정보를 수신하고,
    상기 제2 컨트롤러를 동작의 부팅-시간 모드에서 소프트웨어 기반 캐시 또는 하드웨어 기반 캐시 중 하나로서 동작시키도록 상기 장치를 구성하고,
    상기 캐시 일관성 프로토콜을 사용하여 상기 네트워크 인터페이스를 통해 데이터를 상기 제1 컨트롤러를 통해 수신하고,
    상기 데이터에 대해 적어도 하나의 제2 동작을 수행하여 제2 데이터를 생성하고,
    상기 캐시 일관성 프로토콜에 기초하여 상기 제2 메모리에 상기 제2 데이터를 저장하는 장치.
  3. 제1항에 있어서,
    상기 캐시 일관성 프로토콜은 CXL(compute express link) 프로토콜을 포함하고, 상기 장치는 상기 장치와 관련된 적어도 하나의 능력을 결정하고 상기 능력을 호스트에 제공하는 프로파일러를 더 포함하는 장치.
  4. 제1항에 있어서,
    상기 장치는 제3 메모리에 연결된 제3 컨트롤러를 더 포함하고, 상기 제3 메모리는 비휘발성 메모리를 포함하는 장치.
  5. 제1항에 있어서,
    상기 제1 메모리는 제1 휘발성 메모리를 포함하고, 상기 제2 메모리는 제2 휘발성 메모리를 포함하는 장치.
  6. 제5항에 있어서,
    상기 제1 휘발성 메모리는 DDR(Double Data Rate) 메모리 또는 저전력 DDR(Double Data Rate) 메모리를 포함하는 장치.
  7. 제1항에 있어서,
    상기 제1 메모리는 제1 비휘발성 메모리를 포함하고, 상기 제2 메모리는 제2 비휘발성 메모리를 포함하는 장치.
  8. 제7항에 있어서,
    상기 제1 비휘발성 메모리는 3차원 플래시 메모리를 포함하는 장치.
  9. 제1항에 있어서,
    상기 장치는 M.2 폼 팩터, E1.L 폼 팩터, E1.S 폼 팩터, E3 S/L 폼 팩터, U.2 폼 팩터, NF1 폼 팩터, 전체 높이, 절반 길이(FHHL), 애드인 카드(add-in card)(AIC) 폼 팩터 또는 절반 높이, 절반 길이(HHHL) AIC 폼 팩터 중 적어도 하나를 포함하는 장치.
  10. 제1항에 있어서,
    상기 제2 컨트롤러는 흐름 제어 모듈, 캐시 어드레싱 모듈 또는 캐시 정책 모듈 중 적어도 하나를 포함하는 장치.
  11. 제1항에 있어서,
    상기 제2 컨트롤러는 채널 요청 큐, 휘발성 메모리 요청 스케줄러 또는 휘발성 메모리 명령 스케줄러 중 적어도 하나를 포함하는 장치.
  12. 제1항에 있어서,
    상기 장치는 가속기 또는 네트워크 인터페이스 카드(NIC)를 더 포함하는 장치.
  13. 스토리지 자원을 제공하는 시스템에 있어서,
    네트워크 인터페이스에 연결되며 캐시 일관성 프로토콜과 동작 가능한 제1 컨트롤러;
    상기 제1 컨트롤러에 연결되고 제1 메모리에 결합되며, 캐시와 관련된 적어도 하나의 동작을 수행하는 제2 컨트롤러; 및
    상기 제1 컨트롤러 또는 상기 제2 컨트롤러 중 적어도 하나에 결합된 제2 메모리를 포함하는 시스템.
  14. 제13항에 있어서,
    상기 시스템은
    상기 캐시 일관성 프로토콜을 사용하여 상기 네트워크 인터페이스를 통해 데이터를 상기 제1 컨트롤러를 통해 수신하고,
    상기 데이터에 대해 적어도 하나의 제2 동작을 수행하여 제2 데이터를 생성하고,
    상기 제1 메모리 또는 상기 제2 메모리에 상기 제2 데이터를 저장하는 시스템.
  15. 제13항에 있어서,
    상기 캐시 일관성 프로토콜은 CXL 프로토콜 및 상기 제1 컨트롤러를 포함하고, 상기 시스템은 상기 과 관련된 적어도 하나의 능력을 결정하고 상기 능력을 호스트에 제공하는 프로파일러를 더 포함하는 시스템.
  16. 제13항에 있어서,
    상기 제1 메모리는 휘발성 메모리를 포함하고, 상기 제2 메모리는 휘발성 메모리를 포함하는 장치.
  17. 제16항에 있어서,
    상기 휘발성 메모리는 DDR(double-data rate) 메모리 또는 저전력 DDR 메모리를 포함하는 시스템.
  18. 제13항에 있어서,
    상기 제1 메모리는 비휘발성 메모리를 포함하고, 상기 제2 메모리는 비휘발성 메모리를 포함하는 시스템.
  19. 스토리지 자원을 제공하는 방법에 있어서,
    캐시 일관성 프로토콜에 따라 네트워크 인터페이스에 연결된 제1 컨트롤러를 동작시키는 단계;
    상기 제1 컨트롤러에 연결되고 제1 메모리에 연결된 제2 컨트롤러를 사용하여 캐시와 연관된 데이터에 대해 적어도 하나의 동작을 수행하는 단계; 및
    상기 제1 컨트롤러 또는 상기 제2 컨트롤러 중 하나에 연결된 제2 메모리에 상기 데이터를 저장하는 단계를 포함하는 방법.
  20. 제1항에 있어서,
    상기 방법은
    호스트로부터 구성 정보를 수신하는 단계;
    상기 제2 컨트롤러를 동작의 부팅-시간 모드에서 소프트웨어 기반 캐시 또는 하드웨어 기반 캐시 중 하나로서 동작시키는 단계;
    상기 캐시 일관성 프로토콜을 사용하여 상기 네트워크 인터페이스를 통해 제2 데이터를 상기 제1 컨트롤러를 통해 수신하는 단계;
    상기 제2 데이터에 대해 적어도 하나의 제2 동작을 수행하여 제3 데이터를 생성하는 단계; 및
    상기 캐시 일관성 프로토콜에 기초하여 상기 제2 메모리에 상기 제2 데이터를 저장하는 단계를 포함하는 방법.
KR1020210069113A 2020-05-28 2021-05-28 확장 가능하고 일관성 있는 메모리 장치를 위한 시스템 및 방법 KR20210147976A (ko)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
US202063031508P 2020-05-28 2020-05-28
US202063031509P 2020-05-28 2020-05-28
US63/031,508 2020-05-28
US63/031,509 2020-05-28
US202063057746P 2020-07-28 2020-07-28
US63/057,746 2020-07-28
US202063068054P 2020-08-20 2020-08-20
US63/068,054 2020-08-20
US17/246,448 US20210374056A1 (en) 2020-05-28 2021-04-30 Systems and methods for scalable and coherent memory devices
US17/246,448 2021-04-30

Publications (1)

Publication Number Publication Date
KR20210147976A true KR20210147976A (ko) 2021-12-07

Family

ID=75914467

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210069113A KR20210147976A (ko) 2020-05-28 2021-05-28 확장 가능하고 일관성 있는 메모리 장치를 위한 시스템 및 방법

Country Status (5)

Country Link
US (2) US20210374056A1 (ko)
EP (1) EP3920034A1 (ko)
KR (1) KR20210147976A (ko)
CN (1) CN113742256A (ko)
TW (1) TW202145767A (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11704060B2 (en) * 2020-12-18 2023-07-18 Micron Technology, Inc. Split protocol approaches for enabling devices with enhanced persistent memory region access
US20220358042A1 (en) * 2021-05-07 2022-11-10 Samsung Electronics Co., Ltd. Coherent memory system
US20230027178A1 (en) * 2021-07-18 2023-01-26 Elastics.cloud, Inc. Composable infrastructure enabled by heterogeneous architecture, delivered by cxl based cached switch soc and extensible via cxloverethernet (coe) protocols
US11829619B2 (en) * 2021-11-09 2023-11-28 Western Digital Technologies, Inc. Resource usage arbitration in non-volatile memory (NVM) data storage devices with artificial intelligence accelerators
CN114020655A (zh) * 2022-01-05 2022-02-08 苏州浪潮智能科技有限公司 一种内存扩展方法、装置、设备及存储介质
US20230236725A1 (en) * 2022-01-25 2023-07-27 Dell Products L.P. Method to opportunistically reduce the number of SSD IOs, and reduce the encryption payload, in an SSD based cache in a deduplication file system
US20230281128A1 (en) * 2022-03-03 2023-09-07 Samsung Electronics Co., Ltd. Cache-coherent interconnect based near-data-processing accelerator
US20230342240A1 (en) * 2022-04-26 2023-10-26 Nxp Usa, Inc. Data processing system having a memory controller with inline error correction code (ecc) support
CN114785797A (zh) * 2022-04-26 2022-07-22 南京甄视智能科技有限公司 一种录像存储容灾系统及方法
EP4273708A1 (en) * 2022-05-06 2023-11-08 Samsung Electronics Co., Ltd. Operation method of host configured to communicate with storage devices and memory devices, and system including storage devices and memory devices
US20240036848A1 (en) * 2022-07-28 2024-02-01 Dell Products L.P. Configuring compute express link (cxl) attributes for best known configuration
US20240070082A1 (en) * 2022-08-30 2024-02-29 Micron Technology, Inc. Evicting a cache line with pending control request
CN115729849B (zh) * 2022-11-04 2024-02-20 超聚变数字技术有限公司 内存管理方法及计算设备
TWI817834B (zh) * 2022-11-18 2023-10-01 鯨鏈科技股份有限公司 記憶體架構及其資料處理方法
CN116431530B (zh) * 2023-02-08 2024-03-15 北京超弦存储器研究院 一种cxl内存模组、内存的处理方法及计算机系统
CN117785758A (zh) * 2024-02-27 2024-03-29 北京超弦存储器研究院 Cxl模组、控制器、任务处理方法、介质和系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3681647B2 (ja) * 2001-02-21 2005-08-10 株式会社半導体理工学研究センター キャッシュメモリシステム装置
US7526608B2 (en) * 2004-05-28 2009-04-28 Sony Computer Entertainment Inc. Methods and apparatus for providing a software implemented cache memory
US10877695B2 (en) * 2009-10-30 2020-12-29 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US10225344B2 (en) * 2016-08-12 2019-03-05 International Business Machines Corporation High-performance key-value store using a coherent attached bus
US10599548B2 (en) * 2018-06-28 2020-03-24 Intel Corporation Cache monitoring
US11100040B2 (en) * 2018-10-17 2021-08-24 Cisco Technology, Inc. Modular remote direct memory access interfaces
US11025544B2 (en) * 2019-06-07 2021-06-01 Intel Corporation Network interface for data transport in heterogeneous computing environments
US20200104275A1 (en) * 2019-12-02 2020-04-02 Intel Corporation Shared memory space among devices

Also Published As

Publication number Publication date
US20230367711A1 (en) 2023-11-16
EP3920034A1 (en) 2021-12-08
TW202145767A (zh) 2021-12-01
CN113742256A (zh) 2021-12-03
US20210374056A1 (en) 2021-12-02

Similar Documents

Publication Publication Date Title
US20230367711A1 (en) Systems and methods for scalable and coherent memory devices
US20210373951A1 (en) Systems and methods for composable coherent devices
US7979645B2 (en) Multiprocessor system for memory mapping of processing nodes
US11487675B1 (en) Collecting statistics for persistent memory
EP3382557B1 (en) Method and apparatus for persistently caching storage data in a page cache
JP5348429B2 (ja) 持続性メモリのためのキャッシュコヒーレンスプロトコル
US10866737B2 (en) Apparatus, method and system to store information for a solid state drive
KR20210124082A (ko) 구성 가능한 일관성 장치들을 위한 시스템 및 방법
US20140173203A1 (en) Block Memory Engine
EP3679478A1 (en) Scalable storage system
CN114461544A (zh) 对池化存储器的软件定义的一致性高速缓存
WO2016058560A1 (zh) 一种基于服务端与外部缓存系统的外接式计算设备加速方法与实现该方法的设备
US10235054B1 (en) System and method utilizing a cache free list and first and second page caches managed as a single cache in an exclusive manner
CN110869916A (zh) 用于两层写时复制的方法和装置
US11861219B2 (en) Buffer to reduce write amplification of misaligned write operations
US20230042551A1 (en) Systems, methods, and apparatus for the management of device local memory
US11960403B2 (en) Variable execution time atomic operations
KR20220108710A (ko) 연산 저장 장치에 대한 데이터 전송을 위한 시스템 및 방법
Shankar Designing Fast, Resilient and Heterogeneity-Aware Key-Value Storage on Modern HPC Clusters
CN117632784A (zh) 静默高速缓存行逐出
KR20210043001A (ko) 하이브리드 메모리 시스템 인터페이스
WO2016170632A1 (ja) 計算機及び電源制御方法