KR100348956B1 - 재실행 요구를 촉진하여 대기시간을 감소시키는 비균일 메모리액세스 데이터 프로세싱 시스템 - Google Patents

재실행 요구를 촉진하여 대기시간을 감소시키는 비균일 메모리액세스 데이터 프로세싱 시스템 Download PDF

Info

Publication number
KR100348956B1
KR100348956B1 KR1019990028653A KR19990028653A KR100348956B1 KR 100348956 B1 KR100348956 B1 KR 100348956B1 KR 1019990028653 A KR1019990028653 A KR 1019990028653A KR 19990028653 A KR19990028653 A KR 19990028653A KR 100348956 B1 KR100348956 B1 KR 100348956B1
Authority
KR
South Korea
Prior art keywords
node
local
response
interconnection network
remote
Prior art date
Application number
KR1019990028653A
Other languages
English (en)
Other versions
KR20000016945A (ko
Inventor
카펜터개리데일
글래스코데이비드브라이언
아이어캐터리차드니콜라스주니어
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20000016945A publication Critical patent/KR20000016945A/ko
Application granted granted Critical
Publication of KR100348956B1 publication Critical patent/KR100348956B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0813Multiuser, multiprocessor or multiprocessing cache systems with a network or matrix configuration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/25Using a specific main memory architecture
    • G06F2212/254Distributed memory
    • G06F2212/2542Non-uniform memory access [NUMA] architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Multi Processors (AREA)

Abstract

본 발명은 재실행 요구를 촉진하여 대기시간을 감소시키는 비균일 메모리 액세스 데이터 프로세싱 시스템에 관한 것이다. 본 발명의 비균일 메모리 액세스 컴퓨터 시스템은 노드 상호접속망 및 복수의 프로세싱 노드━여기서 복수의 프로세싱 노드는 각각 적어도 하나의 프로세서, 로컬 상호접속망, 로컬 시스템 메모리 및 로컬 상호접속망과 상기 노드 상호접속망 양자에 모두 결합된 노드 컨트롤러를 포함함━를 포함한다. 본 발명의 방법에 따르면, 통신 트랜잭션(communication transaction)은 로컬 프로세싱 노드로부터 원격 프로세싱 노드로 노드 상호접속망을 통하여 전송된다. 상기 원격 프로세싱 노드의 상기 통신 트랜잭션 수신에 응답하여, 일관성 응답 필드를 포함하는 응답이 상기 원격 프로세싱 노드로부터 로컬 프로세싱 노드로 상기 노드 상호접속망을 통하여 전송된다. 상기 로컬 프로세싱 노드에서 상기 응답의 수신에 응답하여, 상기 일관성 응답 필드가 표시하는 일관성 응답의 결정과 동시에 소정의 요구가 상기 로컬 프로세싱 노드의 로컬 상호접속망에 발행된다.

Description

재실행 요구를 촉진하여 대기시간을 감소시키는 비균일 메모리 액세스 데이터 프로세싱 시스템 {NON-UNIFORM MEMORY ACCESS(NUMA) DATA PROCESSING SYSTEM THAT DECREASES LATENCY BY EXPEDITING RERUN REQUESTS}
본 발명은 일반적으로 데이터 프로세싱 방법 및 시스템에 관한 것으로, 구체적으로는, 비균일 메모리 액세스(non-uniform memory access; NUMA) 데이터 프로세싱 시스템 및 NUMA 데이터 프로세싱 시스템 내부의 통신 방법에 관한 것이다. 좀더 상세하게는, 본 발명은 NUMA 데이터 프로세싱 시스템 및 원격 프로세싱 노드로부터 수신된 응답을 효율적으로 처리하여 통신 대기시간을 감소시키는 통신 방법에 관한 것이다.
컴퓨터 분야에 있어서, 프로세싱 능력을 가진 다수의 개별 프로세서를 직렬(tandem)로 연결하여 사용하면 뛰어난 컴퓨터 시스템 성능을 달성할 수 있음이 알려져 있다. 멀티-프로세서(Multi-Processor; MP) 컴퓨터 시스템은 다수의 상이한 토폴로지(topology)━여기서 다수의 상이한 토폴로지 중 몇 가지 토폴로지는 각 애플리케이션(application)의 소프트웨어 환경과 성능 요구에 따라서 특정한 애플리케이션에 매우 적합함━로 설계될 수 있다. 가장 일반적인 MP 컴퓨터 토폴로지 중 하나는 대칭형 멀티-프로세서(Symmetric Multi-Processor; SMP) 구성으로, 이러한 SMP 구성에서는 멀티-프로세서가 일반적으로 공유된 시스템 상호접속망(interconnect)에 결합된 공통 자원(common resource)(예를 들어, 시스템 메모리, 입/출력 부시스템(I/O subsystem))을 공유한다. SMP 컴퓨터 시스템의 모든 프로세서가 이상적으로는 공유 시스템 메모리(shared system memory)에 기억된 데이터에 대하여 동일한 액세스 대기시간을 갖기 때문에 이러한 컴퓨터 시스템을 대칭형이라고 한다.
SMP 컴퓨터 시스템에서는 상대적으로 간단한 프로세서간 통신 및 데이터 공유 방법을 사용할 수 있지만, SMP 컴퓨터 시스템은 규모의 확장성(scalability) 면에서 제한이 있다. 즉, 통상의 SMP 컴퓨터 시스템은 규모를 확장(즉, 더 많은 프로세서를 부가)하여 성능을 개선할 수 있다고 일반적으로 예상되지만, 고유 버스(inherent bus), 메모리, 및 입/출력(I/O) 대역폭이 제한되기 때문에, 이들 공유 자원의 활용이 최적화되는, 구현예에 좌우되는 크기(size) 이상으로 SMP를 확장하더라도 현저한 장점을 얻기는 어렵다. 따라서 SMP 토폴로지 자체는 시스템의 규모가 증가함에 따라 특히 시스템 메모리에서 대역폭 제한으로 인해 다소 곤란을 겪고 있다. SMP 컴퓨터 시스템은 또한 제조 효율성 면에서도 규모의 확장이 용이하지 않다. 예를 들어, 일부 구성요소가 단일 프로세서 및 소규모 SMP 컴퓨터 시스템 모두에 사용되도록 최적화될 수 있지만, 이러한 일부 구성요소를 대규모 SMP에 사용하는 것은 흔히 비효율적이다. 역으로, 대규모 SMP에 사용되도록 설계된 구성요소를 소규모 시스템에 사용하는 것은 비용면에서 실용적이지 못하다.
결과적으로, 어느 정도 복잡성(complexity)은 추가되지만 SMP 컴퓨터 시스템이 갖는 제한의 대부분을 해소할 수 있는 대안적 설계로 비균일 메모리 액세스(Non-Uniform Memory Access; NUMA)로 알려진 MP 컴퓨터 시스템 토폴로지가 등장하였다. 통상의 NUMA 컴퓨터 시스템은 다수의 상호 접속된 노드를 포함하며, 이들 각 노드는 하나 이상의 프로세서와 로컬 "시스템" 메모리를 포함한다. 이러한 컴퓨터 시스템은 각 프로세서가 원격 노드의 시스템 메모리에 기억된 데이터보다 프로세서 자신의 로컬 노드의 시스템 메모리에 기억된 데이터에 대해 더 짧은 액세스 대기시간을 갖기 때문에, 비균일 메모리 액세스라 불린다. NUMA 시스템은 또한 서로 다른 노드의 캐시들 사이에 데이터 일관성(coherency)이 유지되는지 여부에 따라서 비-일관성(non-coherent) 또는 캐시 일관성으로 분류될 수 있다. 캐시 일관성 NUMA(CC-NUMA) 시스템의 복잡성은 각 노드 내의 캐시 메모리의 다양한 레벨과 시스템 메모리 사이에서뿐만 아니라 서로 다른 노드의 캐시 메모리와 시스템 메모리 사이에서도 하드웨어가 데이터의 일관성을 유지하기 위하여 요구되는 부가적인 통신에 주로 기인한다. 그러나 NUMA 컴퓨터 시스템 내의 각 노드가 소규모 SMP 시스템으로 구현될 수 있기 때문에, NUMA 컴퓨터 시스템은 종래 SMP 컴퓨터 시스템의 확장성 제한 문제를 해결하였다. 따라서 전체 시스템이 상대적으로 짧은 대기시간을 유지한 상태로 대규모화의 병행이 가능하다는 장점을 가지면서도, 각 노드 내의 공유 구성요소가 단지 소수의 프로세서용으로 사용될 수 있도록 최적화될 수 있다.
CC-NUMA 컴퓨터 시스템과 관련된 주된 성능은 노드를 상호 연결하는 상호접속망을 통하여 전송되는 통신 트랜잭션과 연관된 대기시간이다. 모든 데이터 액세스는 노드의 상호접속망에 일관성 또는 데이터 요구 트랜잭션을 잠재적으로 트리거할 수 있기 때문에, 원격 노드에 대한 요구의 전송 및 원격 노드로부터의 응답 전송과 연관된 대기시간은 전체 시스템 성능에 심각한 영향을 줄 수 있다. 따라서 명백히 이해되는 바와 같이, 노드 상호간 짧은 통신 대기시간을 갖는 CC-NUMA 컴퓨터 시스템을 제공하는 것이 바람직하다.
따라서 본 발명의 목적은 개선된 데이터 프로세싱 방법 및 시스템을 제공하는 것이다.
본 발명의 또 다른 목적은 개선된 NUMA 데이터 프로세싱 시스템과 NUMA 데이터 프로세싱 시스템의 통신 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 원격 프로세싱 노드로부터 수신된 응답을 효율적으로 처리하여 대기시간을 감소시키는 개선된 NUMA 데이터 프로세싱 시스템 및 통신 방법을 제공하는 것이다.
상기 목적은 후술하는 바와 같이 달성된다. 본 발명에서는 노드 상호접속망과 복수의 프로세싱 노드━여기서 복수의 프로세싱 노드 각각은 적어도 하나의 프로세서, 로컬 상호접속망 및 상기 로컬 상호접속망과 노드 상호접속망 모두에 연결된 노드 컨트롤러를 포함함━를 포함하는 비균일 메모리 액세스(NUMA) 컴퓨터 시스템이 제공된다. 본 발명의 방법에 따르면, 통신 트랜잭션이 로컬 프로세싱 노드로부터 원격 프로세싱 노드로 상기 노드 상호접속망을 통하여 전송된다. 원격 프로세싱 노드의 상기 통신 트랜잭션 수신에 응답하여, 일관성 응답 필드를 포함하는 응답이 원격 프로세싱 노드로부터 로컬 프로세싱 노드로 상기 노드 상호접속망을 통하여 전송된다. 상기 로컬 프로세싱 노드에서 상기 응답이 수신됨에 따라서, 상기 일관성 응답 필드가 표시한 일관성 응답의 결정(determination)과 동시에 소정의 요구(request)가 상기 프로세싱 노드의 로컬 상호접속망에 발행된다.
본 발명의 상기 목적 및 추가적인 목적, 특징, 장점은 다음의 상세한 설명에 의하여 명백해진다.
도 1은 본 발명이 효과적으로 사용될 수 있는 비균일 메모리 액세스(NUMA) 컴퓨터 시스템의 실시예를 예시하는 도면.
도 2a는 도 1에 도시된 예시적 실시예에 사용되는 상호접속망 구조의 더욱 상세한 블록도.
도 2b는 I-명령어의 실시예를 설명하는 도면.
도 2c는 도 1에 도시된 노드 컨트롤러의 상세한 블록도.
도 3a 내지 3B는 본 발명에 따른 NUMA 컴퓨터 시스템의 통신 방법을 설명하는 상위 레벨 논리 흐름도.
본 발명의 신규한 특징이 첨부된 청구의 범위에 개시된다. 그러나 본 발명과 본 발명의 바람직한 사용모드, 추가적인 목적 및 장점 등은 첨부된 도면과 함께 예시적인 실시예에 대한 이하의 상세한 설명을 참조함으로써 더욱 명확하게 이해된다.
시스템 개요
도 1을 참조하여 설명한다. 도 1은 본 발명에 따른 NUMA 컴퓨터 시스템의 예시적인 실시예를 설명하고 있다. 도시된 실시예는 예를 들어 워크스테이션, 서버 또는 메인프레임 컴퓨터로 구현될 수 있다. 예시된 바와 같이, NUMA 컴퓨터 시스템(8)은 노드 상호접속망(22)에 의하여 상호 연결된 다수(N)의 프로세싱 노드(10a-10d)를 포함한다. 프로세싱 노드(10a-10d) 각각은 최소한 하나에서 최대 M개까지의 프로세서(12)를 포함한다. 프로세서(12a-12d)는 동형(identical)인 것이 바람직하며, 뉴욕주 아몬크에 소재한 IBM사가 상용화한 PowerPCTM계열의 프로세서로 이루어질 수 있다. 각각의 프로세서(12a-12d)는 레지스터, 인스트럭션 플로우 로직(instruction flow logic) 및 프로그램 인스트럭션을 실행하도록 사용되는 실행 유닛(execution unit) 이외에, 온칩 레벨1 캐시(on chip L1 cache; 도시되지 아니함)를 또한 포함한다. 이 L1 캐시는 각자의 레벨2(L2) 캐시(14a-14d)와 함께 사용되어 데이터를 시스템 메모리(18)로부터 연관된 프로세서(12)로 스테이지(stage)한다. 즉, L1 캐시 및 L2 캐시(14a-14d)는 시스템 메모리(18)와 프로세서(12) 사이의 중간 기억장치로서의 기능을 하여 연관된 프로세서(12)가 액세스할 가능성이 높은 데이터를 일시적으로 저장(buffer)한다. L2 캐시(14)는 일반적으로 L1 캐시에 비하여 매우 큰 기억용량을 갖지만, 액세스 대기시간이 길다. 예를 들어, L2 캐시(14a-14d)는 1-16 메가바이트(MB)의 기억 용량을 가지며, 온칩 L1 캐시는 8-32킬로바이트(KB)의 기억 용량을 갖는다. L2 캐시(14a-14d)가 도 1에서 프로세서(12)의 외부에 위치하는 것으로 예시되었지만, L2 캐시(14a-14d)는 온칩 캐시 메모리의 부가적인 레벨로서 연관된 프로세서(12)의 내부에 통합될 수 있다. 또한, 하나 이상의 부가적 레벨을 갖는 캐시 메모리(예를 들어, L3, L4 등)가 부가적인 데이터 기억장치로 사용될 수 있다. 후술하는 설명에서, 각 프로세서(12) 및 이와 연관된 캐시 계층(L1, L2 등)은 단일 스누퍼(snooper)로 간주된다.
도시된 바와 같이, 프로세싱 노드(10a-10d)는 시스템 메모리(18) 및 L2 캐시(14a-14d)와 함께 로컬 상호접속망(16)에 연결되는 각각의 노드 컨트롤러(20)를 포함한다. 각 노드 컨트롤러(20)는 적어도 두 가지 기능을 수행하여 원격 프로세싱 노드(10)용 로컬 에이전트(local agent)로서의 기능을 제공한다. 첫 째, 노드 컨트롤러(20)는 연관된 로컬 상호접속망(16)을 스누핑하고, 로컬 통신 트랜잭션이 원격 프로세싱 노드(10)로 용이하게 전송되도록 한다. 둘 째, 노드 컨트롤러(20)는 노드 상호접속망(22) 상의 통신 트랜잭션을 스누핑하고 연관된 로컬 상호접속망(16) 상의 관련 있는 통신 트랜잭션을 습득(master)한다. 중재기(arbiter; 24)가 각 로컬 상호접속망(16) 상의 통신을 제어한다. 이하에서 설명되는 바와 같이, 중재기(24)는 프로세서(12)가 생성한 버스 요구 신호(bus request signal)에 기초하여 로컬 상호접속망(16)에 대한 액세스를 조절하고, 로컬 상호접속망(16) 상에서 스누핑된 통신 트랜잭션에 대한 일관성 응답을 컴파일(compile)한다.
물론, NUMA 컴퓨터 시스템(8)은 본 발명을 이해하는데 반드시 필요하지는 않아서, 본 발명이 불명료하게 되는 것을 회피하기 위하여 생략된 부가적인 장치를 추가로 포함할 수 있다. 예를 들어, 각 노드(10)는 I/O 장치(예를 들어, 디스플레이 장치, 키보드 또는 그래픽 포인터), 운영 체제(OS)와 응용 소프트웨어를 기억하기 위한 비휘발성 기억장치, 네트워크 또는 부가 장치(attached device)에 연결하기 위한 직렬 및 병렬 포트를 지원할 수 있다.
메모리 구조
NUMA 컴퓨터 시스템(8)의 모든 프로세서(12)는 단일의 물리적 메모리 공간(physical memory space)을 공유하는데, 이것은 각 물리 어드레스가 시스템 메모리(18)들 중 하나의 시스템 메모리 내의 오직 하나의 위치와 연관되어 있음을 의미한다. 따라서 NUMA 컴퓨터 시스템(8)내 모든 프로세서(12)가 일반적으로 액세스할 수 있는 시스템 메모리의 전체 내용은 4개 시스템 메모리(18) 사이에서 구획(partition)된 것으로 볼 수 있다. 예를 들어, 도 1에 도시된 본 발명의 예시적 실시예에서, 프로세서(12)는 범용 메모리 영역과 예약된 영역(reserved area)을 모두 포함하는 16 기가바이트(GB) 어드레스 공간을 어드레스한다. 범용 메모리 영역은 500MB 세그먼트 단위로 분할되고, 4개 프로세서 노드(10) 각각은 매 4번째 세그먼트마다 할당된다. 약 2GB인 예약된 영역은 각 프로세싱 노드(10)에 각각 할당되는 시스템 컨트롤 영역, 주변 기억장치(peripheral memory) 영역 및 I/O 영역을 포함한다.
설명의 편의를 위하여, 자신의 시스템 메모리(18) 내에 특정 데이터를 기억하고 있는 프로세싱 노드(10)를 그 데이터에 대한 홈노드(home node)라 한다. 역으로, 나머지 프로세싱 노드(10-10d)를 상기 특정 데이터에 대한 원격노드라 한다.
메모리 일관성
NUMA 컴퓨터 시스템(8)의 임의 프로세서(12)가 각 시스템 메모리(18) 내에 기억된 데이터를 요구하거나, 액세스하거나 수정할 수 있기 때문에, NUMA 컴퓨터 시스템(8)은 캐시 일관성 프로토콜을 구현하여 동일 프로세싱 노드내 캐시들 간의 일관성 및 다른 프로세싱 노드 내의 캐시들 간의 일관성 모두를 유지한다. 따라서 NUMA 컴퓨터 시스템(8)은 CC-NUMA 컴퓨터 시스템으로 분류된다. 구현되는 캐시 일관성 프로토콜은 실시예마다 다르며, 예를 들어, 주지의 수정(Modified), 배타(Exclusive), 공유(Shared), 무효(Invalid) (MESI) 프로토콜 또는 그 변형 프로토콜을 포함할 수 있다. 이하, L1 캐시, L2 캐시(14) 및 중재기(24)는 종래 MESI 프로토콜을 구현하며, 노드 컨트롤러(20)는 이 MESI 프로토콜의 M, S 및 I 상태를 인식하며 E 상태는 정정을 위하여 M 상태에 병합되는 것으로 가정한다. 즉, 노드 컨트롤러(20)는 원격 캐시가 배타적으로 갖고 있는 데이터가 실제로 수정되었는지 여부에 관계없이 그 데이터가 수정되었다고 가정한다.
상호접속망 구조
로컬 상호접속망(16)과 노드 상호접속망(22) 각각은 버스 기반 동보 구조(broadcast fabric), 스위치 기반 동보 구조 또는 스위치 기반 비동보 구조(switch -based fabric without broadcast)를 포함하는 임의 상호접속망 구조로 구현될 수 있다. 본 발명은 이들 구현 각각에 균일하게 사용될 수 있지만 설명의 편의를 위하여, 로컬 상호접속망(16)과 노드 상호접속망(22) 각각은 IBM사가 개발한 6xx 통신 프로토콜에 의하여 제어되는 하이브리드-버스(hybrid-bus) 구조로서 기술되고 설명된다.
도 2a를 참조하여, 하나의 프로세싱 노드(10)의 관점에서 NUMA 컴퓨터 시스템(8) 내의 노드 상호접속망(22)의 예시적인 실시예를 설명한다. 도시된 바와 같이, 예시된 노드 상호접속망(22)의 실시예는 개별(즉, 비다중화된) 어드레스 및 데이터 부분을 포함하며, 이 어드레스 및 데이터 부분은 서로 분리되어 분할(split) 트랜잭션을 허용한다. 노드 상호접속망(22)의 어드레스 부분은 공유 어드레스 버스(shared address bus; 26)로 구현되며, 이에 대한 액세스는 중앙 중재기(27)가 컨트롤한다. 노드 컨트롤러(20)는 자신의 각 어드레스 버스 요구(Address Bus Request; ABR) 신호(25)를 표명하여 공유 어드레스 버스(26)에 대한 액세스를 요구하고, 중앙 중재기(27)는 자신의 각 어드레스 버스 허여(Address Bus Grant; ABG) 신호(29)를 표명하여 액세스 허여를 노드 컨트롤러(20)에 통지한다. 노드 상호접속망(22)에 결합된 각 노드 컨트롤러(20)는 또한 공유 어드레스 버스(26) 상의 모든 통신 트랜잭션을 스누핑하여, 후술하는 바와 같이 메모리 일관성을 지원한다. 표1은 공유 어드레스 버스(26)와 관련된 신호의 이름 및 이에 대한 정의를 요약하여 나타낸다.
공유 어드레스 버스(26)를 파이프라인형 버스(pipelined bus)로 구현하여 공유 어드레스 버스(26)의 활용도를 바람직하게 향상시킬 수 있으며, 이것은 다른 프로세싱 노드(10) 각각으로부터 일관성 응답을 수신하는 프로세싱 노드(10)가 이전 통신 트랜잭션을 습득하기 전에, 후속 트랜잭션을 제공할 수 있음을 의미한다.
노드 상호접속망(22)의 데이터 부분이 공유 버스(shared bus)로서 구현될 수 있지만, 바람직하게는 각 프로세싱 노드(10)에 대하여 N-1(예를 들어, 4-1=3)개의 데이터-입력 채널(data-in channel; 34)과 단일의 데이터-출력 채널(data-out channel; 32)을 갖는 분배형 스위치(distributed switch)로서 구현된다. 프로세싱 노드(10)가 데이터-출력 채널(32) 상에 출력한 데이터는 모든 프로세싱 노드(10)에 전송되며, 각 프로세싱 노드(10)는 데이터-입력 채널(34)을 통하여 나머지 다른 프로세싱 노드(10) 각각으로부터의 데이터를 수신한다. 공유 버스 대신 상기 방법으로 노드 상호접속망(22)의 데이터 부분을 구현함으로써, 데드락(deadlock)을 회피할 수 있고 데이터 대역폭이 증가되는 이점이 있다. 노드 상호접속망(22) 내의 데이터 부분을 바람직하게 구현한 실시예의 각 채널에 관련된 신호 이름과 정의가 하기 표2에 요약되어 있다.
표2에 표시된 바와 같이, 데이터 패킷의 수령자가 각 데이터 패킷이 속한 통신 트랜잭션을 결정하도록, 각 데이터 패킷은 트랜잭션 태그에 의하여 식별된다. 이것은 공유 어드레스 버스(26)의 타이밍과 노드 상호접속망(22)의 데이터 부분이 완전히 분리되도록 하는데, 이것은 어드레스 기간(tenures)과 데이터 기간 사이에는 고정된 타이밍 관계가 존재하지 않으며, 데이터 기간은 대응하는 어드레스 기간과 다르게 배열(ordered)될 수 있음을 의미한다. 당업자는 한정된 데이터 통신 자원의 사용을 조정하도록 데이터 플로우 컨트롤 로직 및 이와 연관된 플로우 컨트롤 신호가 사용되어야 한다는 것을 이해할 수 있다.
도 2a에 예시된 바와 같이, 노드 상호접속망(22)의 예시적인 실시예는 또한 고속 I-명령어 채널(31)을 포함한다. 이 측파대(sideband) 채널은 노드 상호접속망(22)의 데이터 부분과 마찬가지로 바람직하게는 각 프로세싱 노드(10)에 대하여 하나의 출력 채널(명령어-출력 채널(command-out channel; 32))과 N-1 개의 입력 채널(명령어-입력 채널(command-in channel; 34))을 포함하는 분배형 스위치로 구현된다. 채널(32 및 34)은 노드 상호접속망(22)의 어드레스 또는 데이터 부분에 대한 부가적인 부하(load)의 발생 없이 프로세싱 노드(10)들 간에 I-명령어의통신을 허용한다. 도 2b는 I-명령어의 예시적인 실시예를 도시하고 있다. 예시된 바와 같이, I-명령어(36)는 5개 필드를 포함한다. 즉, 4 비트의 명령어 타입 필드(command type field; 33), N 비트(예를 들어, 4 비트)의 목적지 노드 필드(target node field; 35), N 비트의 근원지 노드 필드(source node field; 37), 트랜잭션 태그 필드(38) 및 유효(valid; V) 필드(39)를 포함한다. 명령어 타입 필드(33)는 I-명령어(36) 타입의 부호화된 표시(indication)를 제공한다. 타입 필드(33) 내에 부호화될 수 있는 몇몇 가능한 I-명령어가 하기 표3에 나열되어 있다.
I-명령어의 각 타입에 대하여, 수령자는 목적지 노드 필드(35)에 특정되며, 전송 노드는 근원지 노드 필드(37)에 특정되고, I-명령어가 관련된 트랜잭션은 트랜잭션태그 필드(38) 내에 특정된다. 유효(V) 필드(39)가 I-명령어(36)의 유효성을 표시한다. 중요한 점은, I-명령어 채널(31)을 통하여 프로세싱 노드(10)가 발행한 I-명령어는 연관된 통신 트랜잭션의 어드레스 또는 데이터 기간과 어떠한 타이밍 관계도 갖지 않는다는 점이다. I-명령어 채널(31)은 작은 패킷을 사용하고 비-블록킹(non-blocking)(즉, 하나의 프로세싱 노드(10)에 의한 I-명령어 채널(31)의 사용이 다른 프로세싱 노드에 의한 사용을 금지하거나 방해하지 않음)이기 때문에, I-명령어가 프로세싱 노드(10)들 사이에서 고속으로 전송될 수 있다.
노드 상호접속망(22)과 같이, 로컬 상호접속망(16)은 3개의 개별 구성요소 즉, 어드레스 부분, 데이터 부분, 및 일관성 부분을 포함한다. 각 로컬 상호접속망(16)의 어드레스 부분은 바람직하게는 노드 상호접속망(22)의 공유 어드레스 버스(26)에 관하여 상기 기술한 바와 같이 구현된다. 각 로컬 상호접속망(16)의 데이터 부분은 상기 표2에 열거된 데이터 신호와 동일한 신호를 사용하지만, 분배형 스위치와 공유 데이터 버스가 모두 사용가능하나 분배형 스위치로 구현하는 것보다 공유 데이터 버스로 구현하는 것이 더 바람직하다. 상기 I-명령어 채널 대신에, 각 로컬 상호접속망(16)의 일관성 부분은 각각의 부가(attached) 스누퍼를 로컬 중재기(24)에 결합시키는 신호라인을 포함한다. 일관성 통신용으로 사용되는, 로컬 상호접속망(16) 내의 신호라인이 하기 표4에 요약된다.
I-명령어 채널(31)을 통하여 프로세싱 노드들(10) 사이에서 전송되는 일관성 응답과는 달리, 로컬 상호접속망(16)의 AResp 및 AStat 라인을 통하여 전송되는 일관성 응답은 연관된 어드레스 버스 트랜잭션과 고정형이지만 프로그램 가능한 타이밍 관계를 갖는 것이 바람직하다. 예를 들어, 각 스누퍼 응답의 예비 표시(preliminary indication)를 로컬 어드레스 버스 상의 통신 트랜잭션에 제공하는 AStatOut 선택은 로컬 어드레스 버스 상의 요구의 수령이 뒤따르는 제2 사이클에서 요구될 수 있다. 중재기(24)는 AStatOut 선택을 컴파일하고, 고정형이지만 프로그램 가능한 횟수의 사이클(예를 들어 1사이클) 후에 AStatIn 선택을 발행한다. 가능한 AStat 선택은 하기 표5에 요약되어 있다.
AStatIn 주기 후에, 고정형이지만 프로그램 가능한 횟수의 사이클(예를 들어, 2 사이클) 후에 ARespOut 선택이 요구될 수 있다. 중재기(24)는 바람직하게는 다음 사이클 동안에 각 스누퍼의 ARespOut 선택을 또한 컴파일하고 ARespIn 선택을전달(deliver)한다. 가능한 AResp 선택은 바람직하게는 상기 표3에 열거된 일관성 응답을 포함한다. 또한, 가능한 AResp 선택은 "재실행(ReRun)"을 포함한다. 일반적으로 노드 컨트롤러(20)에 의하여 발행되는 "재실행"은 스누핑된 요구가 긴 대기시간을 가지며, 이 요구의 근원지가 후에 트랜잭션을 재발행하도록 지시 받을 것임을 표시한다. 따라서, 재시도 응답과는 달리, 재실행 응답은 재실행을 선택한 트랜잭션의 수령자(상기 트랜잭션의 발원자(originator)가 아님)로 하여금 나중에 통신 트랜잭션이 재발행되도록 하는 책임을 지게 한다.
노드 컨트롤러
도 2c는 도 1의 NUMA 컴퓨터 시스템(8) 내의 노드 컨트롤러의 상세한 블록도이다. 도 2c에 도시된 바와 같이, 로컬 상호접속망(16)과 노드 상호접속망(22) 사이에 결합된 각 노드 컨트롤러(20)는 트랜잭션 수신 유닛(transaction receive unit; 40), 트랜잭션 송신 유닛(transaction send unit; 42), 데이터 수신 유닛(DRU; 44) 및 데이터 송신 유닛(DSU; 46)을 포함한다. 트랜잭션 수신 유닛(40), 트랜잭션 송신 유닛(42), DRU(44) 및 DSU(46)는 예를 들어, 필드 프로그래머블 게이트 어레이(Field Programmable Gate Arrays; FPGA) 또는 주문형 집적 회로(Application Specific Integrated Circuits; ASIC)로 구현될 수 있다. 도시된 바와 같이, 어드레스와 데이터 경로는 노드 컨트롤러(20)를 통하여 분할되며, 어드레스 신호는 트랜잭션 수신 유닛(40)과 트랜잭션 송신 유닛(42)에 의하여 처리되고, 데이터 신호는 DRU(44)와 DSU(46)에 의하여 처리된다.
노드 상호접속망(22)으로부터의 트랜잭션 유출(flow off)을 표시하도록 지정된 트랜잭션 수신 유닛(40)은 I-명령어 채널(31)을 통하여 다른 노드들로부터 I-명령어를 수신하고, 노드 상호접속망(22)의 공유 어드레스 버스(26)로부터 트랜잭션을 접수하고, 트랜잭션을 로컬 상호접속망(16)에 발행하고, 트랜잭션 송신 유닛(42)에 응답을 전달할 책임이 있다. 트랜잭션 수신 유닛(40)은, 이하 자세하게 설명되는 바와 같이, 노드 상호접속망(22)으로부터 트랜잭션을 수신하고 선택된 트랜잭션을 버스 마스터(54) 및 트랜잭션 송신 유닛(42)내 일관성 응답 로직(56) 모두에 전달하는 응답 멀티플렉서(MUX; 52)를 포함한다. 응답 멀티플렉서(52)로부터의 통신 트랜잭션의 수신에 따라서, 버스 마스터(54)는 수신된 통신 트랜잭션과 동일하거나 또는 다른 통신 트랜잭션을 자신이 속한 로컬 상호접속망(16)에 개시(initiate)시킬 수 있다.
트랜잭션 송신 유닛(42)은 그 이름이 나타내는 바와 같이 트랜잭션을 노드 상호접속망(22) 상으로 유입시키는 도관(conduit)으로, 트랜잭션 수신 유닛(40)과 상호 작용하여 메모리 요구 트랜잭션을 처리하고, 명령어를 DRU(44)와 DSU(46)에 발행하여 로컬 상호접속망(16)과 노드 상호접속망(22) 사이의 데이터 전송을 컨트롤한다. 트랜잭션 송신 유닛(42)은 또한 노드 상호접속망(22)에 대한 선택된(즉, MSI) 일관성 프로토콜을 일관성 응답 로직(56)으로 구현하고, 디렉토리 컨트롤 로직(58)을 사용하여 일관성 디렉토리(50)를 유지한다.
일관성 디렉토리(50)는 상기 로컬 프로세싱 노드가 홈노드인 원격노드의 캐시와 일치하는 데이터(즉, 캐시 라인)의 시스템 메모리 어드레스의 표시를 기억한다. 각 데이터에 대한 상기 어드레스 표시는 해당 데이터의 카피(copy)를 갖는 각프로세싱 노드의 식별자 및 각각의 이러한 원격 프로세싱 노드에서의 데이터 일관성 상태와 함께 일관성 디렉토리(50)에 기억된다. 일관성 디렉토리(50)의 엔트리가 가질 수 있는 일관성 상태가 표6에 요약되어 있다.
표6에 표시된 바와 같이, 원격 프로세싱 노드가 유지하고 있는 캐시 라인의 일관성 상태의 정보는 정확하지 못하다. 이러한 부정확성은 원격적으로 상태가 유지되는 캐시 라인이 S로부터 I, E로부터 I, 또는 E로부터 M으로 홈노드의 노드 컨트롤러(20)에게 통지하지 않고 전이가 가능하기 때문에 발생한다.
짧은 대기시간 통신 방법(low latency communication method)
도 3a에 관하여 설명한다. 도 3은 본 발명의 예시적 실시예에 따라서 NUMA 컴퓨터 시스템에 사용되는 예시적인 짧은 대기시간 통신 방법의 하이레벨 논리 흐름도이다. 상기 통신 방법이 상술한 노드 상호접속망(22)의 실시예를 구체적으로 참조하여 이하에서 설명되지만, 이 통신 방법은 상술한 노드 상호접속망(22)의 다른 구현예에도 동등하게 적용될 수 있다.
도시된 바와 같이, 프로세스(process)는 블록(70)에서 시작하여 블록(72)으로 진행한다. 블록(72)은 제1 프로세싱 노드(10a) 내의 어느 캐시도 유지하고 있지 아니하며 제2 프로세싱 노드(10b)를 홈노드로 갖는 데이터(즉, 캐시 라인)를 요구하는 통신 트랜잭션을 제1 프로세싱 노드(10a)의 로컬 상호접속망(16)에 발행하는 제1 프로세싱 노드(10a)의 프로세서(12)를 나타낸다. 상기 통신 트랜잭션은 수정 의도를 갖는 판독(read with intent to modify; RWITM) 트랜잭션일 수 있으며, 예를 들어, 이 트랜잭션은 상기 요구 프로세서(12)가 요구된 캐시 라인을 수정할 목적으로 캐시 라인에 대한 배타적 소유권(exclusive ownership)을 소망하고 있음을 표시한다. 상술한 바와 같이, 상기 통신 트랜잭션의 수신에 응답하여, 로컬 상호접속망(16)에 연결된 각 스누퍼는 AStatOut 선택(vote)을 제공하고 그 후에 ARespOut 선택을 제공한다. 블록(74)에 도시된 바와 같이, 제1 프로세싱 노드(10a)의 노드 컨트롤러(20)는 ARespOut 주기 동안에 재실행(ReRun)을 선택하여 요구된 캐시 라인의 어드레스가 로컬 시스템 메모리(18)에 할당된 물리 어드레스 공간 내에 속하지 아니함을 표시한다. 제1 프로세싱 노드(10a)의 어느 캐시도 상기 요구된 캐시 라인의 카피를 기억하고 있지 아니하기 때문에, ARespOut 선택의 나머지는 널(Null)이다. ARespOut 선택의 수신에 응답하여, 제1 프로세싱 노드의 중재기(24)는 상기 선택들을 컴파일하고 ARespIn 주기 동안 재실행을 선택한다. 블록(74)에서 또한 표시되는 바와 같이, 중재기(24)로부터 재실행 선택의 수신에 응답하여, 제1 프로세싱 노드(10a)의 노드 컨트롤러(20)는 상기 통신 트랜잭션(예를 들어, RWITM)을 노드 상호접속망(22)의 공유 어드레스 버스(26) 상에 전송하여, 제2 프로세싱 노드(10b)로부터 상기 캐시 라인을 요구한다.
그 후, 상기 프로세스는 블록(74)으로부터 블록(76)으로 진행한다. 블록(76)은 제2 프로세싱 노드(10b)의 노드 컨트롤러(20)가 로컬 상호접속망(16)의 소유권을 중재하고, 로컬 상호접속망(16)으로 RWITM 통신 트랜잭션을 발행함을 도시하고 있다. 로컬 상호접속망(16)상 RWITM 통신 트랜잭션의 스누핑에 응답하여, 제2 프로세싱 노드(10b) 내의 각 스누퍼는 적절한 AStatOut 및 ARespOut 선택을 제공한다. 블록(80)에서 도시된 바와 같이, 적절한 ARespOut 선택의 결정은 트랜잭션 송신 유닛(42)의 일관성 응답 로직(56)━여기서 일관성 응답 로직(56)은 상기 요구가 국소적(locally)으로 충족될 수 있는지 또는 상기 요구된 캐시 라인이 원격지에 유지되고 있기 때문에 다른 프로세싱 노드가 반드시 개입되어야 하는지 여부를 결정함━을 필요로 한다. 일관성 응답 로직(56)은 원격 프로세싱 노드가 상기 요구된 캐시 라인을 유지하고 있는지 여부를 일관성 디렉토리(coherency directory; 50)를 참조하여 결정한다. 원격 프로세싱 노드가 상기 요구된 캐시 라인을 유지하고 있지 않다는 결정에 응답하여, 프로세스는 이하 설명되는 블록(82)으로 진행한다. 그러나 적어도 하나의 원격 프로세싱 노드가 상기 요구된 캐시 라인을 보유하고 있다는 결정이 있는 경우, 이러한 결정에 응답하여 상기 프로세스는 페이지 연결기(page connector; A)를 통하여 도 3b로 진행한다.
도 3b에 관하여 설명한다. 도 3a에 설명된 프로세스가 페이지 연결기(A)로부터 블록(120)으로 계속된다. 블록(120)은 제2 프로세싱 노드(10b) 내의 노드 컨트롤러(20)의 트랜잭션 송신 유닛(42)이 상기 요구 트랜잭션에 대한 ARespOut 선택을 위해 재실행을 선택함을 도시하고 있다. 상기 재실행 선택은 트랜잭션 송신 유닛(42)이 일관성 디렉토리(50)를 참조하여 상기 요구된 캐시 라인의 일관성 상태가 결정될 수 없고, 하나 이상의 원격 프로세싱 노드를 개입시키지 않고는 상기 요구된 캐시 라인이 얻어질 수 없다고 결정하였음을 나타낸다. 제2 프로세싱 노드(10b)의 중재기(24)로부터 재실행 ARespIn 선택의 수신에 응답하여, 제2 프로세싱 노드(10b)의 트랜잭션 송신 유닛(42)은 적절한 통신 트랜잭션을 노드 상호접속망(22)의 공유 어드레스 버스(26)에 발행하여 제1 프로세싱 노드(10a)의 요구를 해결한다. 예를 들어, 제3 프로세싱 노드(10c)와 같은 원격 프로세싱 노드가 상기 요구된 캐시 라인을 배타적으로 유지하고 있고 제1 프로세싱 노드(10a)가 RWITM 트랜잭션을 발행한 경우에, 트랜잭션 송신 유닛(42)은 제3 프로세싱 노드(10c)를 목적지(target)로 하는 RWITM 트랜잭션을 발행한다. 이 시나리오는, 요구 노드(requesting node) 또는 홈노드가 상기 요구된 캐시 라인을 유지하고 있지 아니하고 제3 노드가 상기 요구된 캐시 라인을 M 상태로 유지하고 있음이 일관성 디렉토리(50)에 의하여 표시되기 때문에, 제3 노드 시나리오라 불린다. 이와 반대로, 하나 이상의 원격 프로세싱 노드가 상기 요구된 캐시 라인을 공유 상태로 유지하고 있다고 제2 프로세싱 노드(10b)의 캐시 디렉토리(50)가 표시하면, 제2 프로세싱 노드(10b)의 트랜잭션 송신 유닛(42)은 상기 요구된 캐시 라인을 공유 상태로 유지하고 있는 모든 원격 프로세싱 노드를 목적지로 하는 Dclaim 트랜잭션을 발행한다. 상기 Dclaim 트랜잭션은 원격 프로세싱 노드들에 지시하여 그들이 가지고 있는 상기 요구된 캐시 라인의 로컬 카피를 무효화시키고, 이러한 무효화를 널 일관성 응답(null coherency response)으로 표시하도록 한다.
그 후, 프로세스는 블록(120)에서 블록(122)으로 진행한다. 블록(122)은 제2 프로세싱 노드(10b)가 발행한 통신 트랜잭션의 목적지가 되는 각 원격 프로세싱 노드의 노드 컨트롤러(20)가 자신의 로컬 상호접속망(16)에 상기 제2 프로세싱 노드(10b)로부터의 통신 트랜잭션에 상응하는 통신 트랜잭션(즉, RWITM 트랜잭션 또는 Dclaim 트랜잭션)을 발행함을 도시하고 있다. 그 후, 블록(124)에 설명된 바와 같이, 블록(122) 단계에서 통신 트랜잭션이 발행된 원격 프로세싱 노드(들) 내의 각 스누퍼는 적절한 AStatOut와 ARespOut 선택을 제공한다. 블록(122)에서 발행된 상기 통신 트랜잭션이 RWITM 트랜잭션이면, 상기 요구된 캐시 라인을 기억하고 있는 캐시는 상기 요구된 캐시 라인이 수정되지 않았고 무효화될 것임을 표시하는 널 또는 상기 요구된 캐시 라인이 수정되었고, 상기 캐시는 요구된 캐시 라인을 제공하고 그 카피를 무효화시킴을 표시하는 수정(Modified)을 선택한다. 또는 블록(122)에서 발행된 통신 트랜잭션이 Dclaim이면, 상기 요구된 캐시 라인을 유지하고 있는 각 캐시는 ARespOut 주기동안 널 응답을 선택하여 상기 요구된 캐시 라인이 그 캐시 내에서 무효화되었음을 표시한다. 통신 트랜잭션을 실행하고 있는 각 원격 프로세싱 노드의 중재기(24)는 스누퍼로부터의 상기 선택을 계수(tally)하고 ARespIn 선택을 발행한다. 상기 요구된 캐시 라인이 수정된 "제3 노드" 시나리오에 있어서, 상기 수정된 캐시 라인을 유지하고 있는 캐시는 이 수정된 캐시 라인을 로컬 상호접속망(16)을 경유하여 자신의 로컬 노드 컨트롤러(20)에 제공한다.
블록(130)에 설명된 바와 같이, ARespIn 일관성 선택과, 요구된 캐시 라인이 수정된 경우에 그 수정된 캐시 라인의 수신에 응답하여, 제1 프로세싱 노드(10a)의 요구를 해결하기 위하여 개입된 각 원격 프로세싱 노드의 노드 컨트롤러(20)는 자신의 일관성 응답을 I-명령어 채널(31)을 경유하여 제2 프로세싱 노드(10b)에 전송한다. (노드 상호접속망(22)이 스위치 기반 상호접속 구조(switch-based interconnect structure)로서 구현된 변형 실시예에 있어서, 각 일관성 응답은 가상 I 명령어 채널(virtual I-command channel)을 경유하여 제2 프로세싱 노드(10b)에 전송되는 높은 우선권 패킷(high priority packet)인 것이 바람직하다) 상기 수정된 캐시 라인(이러한 수정된 캐시 라인이 있는 경우)은 제3 노드의 DSU(46)에 의하여 데이터 출력 채널(28)을 경유하여 제2 프로세싱 노드(10b)의 DRU(44)로 전송된다. 본 발명에 따라서, 블록(130) 단계에서 전송된 I-명령어 일관성 응답은 상기 일관성 응답이 오직 예상된 일관성 응답인 경우만 자동-재실행(Auto-ReRun)을 갖는 일관성 응답 중 하나가 된다. 따라서 상기 예시적인 실시예에 있어서, 명령어 타입 필드(33)는, 일관성 응답이 "제3 노드" 시나리오에 있어서와 같이 홈노드로부터 요구 노드로 또는 제3 노드로부터 홈노드로 전송되는 경우, 자동 재실행(auto-ReRun)을 갖는 일관성 응답을 명시(specify)한다. 또 변형 실시예에 있어서, 통신 트랜잭션에 대하여 얼마나 많은 일관성 응답이 예상되는지를 명시하는 부가적인 필드가 I-명령어에 부가(augment)될 수 있다. 상기 부가적인 정보가 일관성 응답 내에 포함되면(또한, 상기 정보가 노드 상호접속망(22)상 통신 트랜잭션의 응답 노드에 제공되면), 로컬 상호접속망(16) 상의 재실행 선택에 응답하여 발행된 통신 트랜잭션에 대한 모든 일관성 응답은 자동 재실행을 갖는 일관성 응답이 된다. 복호화의 편의를 위하여, 특정 일관성 응답과 자동 재실행을 갖는 일관성 응답 사이의 구별은 명령어 타입 필드(33)의 단일 비트의 상태에 의하여 표시되는 것이 바람직하다. 이 단일 비트를 이하 재실행 비트라 한다.
다시 도 3b에 대하여 설명한다. 프로세스는 블록(130) 다음에 블록(132)으로 진행한다. 블록(132)은 제2 프로세싱 노드(10b)의 트랜잭션 수신 유닛(40)내의 응답 멀티플렉스(response MUX; 52)━여기서 응답 멀티플렉스는 각각의 수신된 일관성 응답을 버스 마스터(54)와 트랜잭션 송신 유닛(42) 내의 일관성 응답 로직(56) 모두에 전달함━를 예시한다. 블록(134)에서 표시된 바와 같이, 버스 마스터(54) 및 일관성 응답 로직(56)은 상기 일관성 응답의 재실행 비트가 설정(set)되었는지 여부를 결정한다. 상기 재실행 비트가 설정 상태인 경우, 버스 마스터(54)가 제2 프로세싱 노드(10b)의 로컬 상호접속망(16) 상에 언제 재실행 요구를 재발행할지를 결정할 책임을 진다. 그러나 상기 재실행 비트가 리셋(reset) 상태인 경우, 일관성 응답 로직(56)이 상기 재실행 요구를 언제 발행할지를 결정할 책임을 진다. 따라서 재실행 비트가 리셋 상태이면 프로세스는 블록(134)에서 블록(136)과 블록(138)으로 진행한다. 블록(136)과 블록(138)은, 일관성 응답 로직(56)이 예측된 모든 일관성 응답이 원격 프로세싱 노드로부터 수신되었는지 결정하고(예를 들어, 일관성 디렉토리(50)를 참조하여 결정함), 예측된 모든 일관성 응답이 수신된 경우 버스 마스터(54)에 지시하여 로컬 상호접속망(16)에 재실행 요구를 재발행하게 함을 도시하고 있다. 따라서 블록(139)에서, 버스 마스터(54)는 요구 트랜잭션을 실행한 마스터에게 상기 요구 트랜잭션을 재발행하도록 지시하는 재실행 요구를 발행한다.
변형 실시예로서, 상기 일관성 응답(들)의 재실행 비트가 설정 상태이면, 프로세스는 블록(134)에서 블록(140)과 블록(142)으로 진행함으로 블록(140) 및 블록(142)에서 설명된 기능들이 동시에 수행된다. 따라서 버스 마스터(54)는 재실행 요구를 제2 프로세싱 노드(10b)의 로컬 상호접속망(16) 상에 발행하며, 일관성 응답 로직(56)은 수신된 일관성 응답(들)으로부터 상기 재실행 트랜잭션에 대한 적절한 일관성 응답을 결정한다. 중요한 점은 블록(140) 및 블록(142)에서 예시된 기능을 동시에 수행하여 통신 대기시간이 감소된다는 점이다.
그 후, 프로세스는 블록(144)으로 진행한다. 블록(144)은 재실행 요구를 스누핑하는 트랜잭션 수신 유닛(40)을 예시하고 있다. 트랜잭션 수신 유닛(40)은 제2 프로세싱 노드(10b)의 로컬 상호접속망(16) 상에 RWITM 통신 트랜잭션을 재발행하여 응답한다. 본 발명의 변형 실시예에 있어서, 버스 마스터(54)는 블록(144)에서 예시된 부가적인 단계를 수행하지 않고 블록(139) 또는 블록(140)에서 단지 상기 RWITM 통신 트랜잭션을 재발행한다. 이들 단계들은 도 3b에 도시된 프로세스 내에 선택적으로 포함되어 재실행 일관성 응답의 처리가 홈노드(즉, 제2 프로세싱 노드(10b)) 및 요구 노드(즉, 제1 프로세싱 노드(10a))에서 일관성을 갖도록 한다.
상기 재발행된 RWITM 트랜잭션의 스누핑에 응답하여, 제2 프로세싱 노드(10b)의 로컬 상호접속망(16)상 각 스누퍼는 적절한 AStat 및 AResp 선택으로 응답한다. 블록(150)에 예시된 바와 같이, 일관성 응답 로직(56)은 원격 프로세싱 노드(들)로부터 수신된 일관성 응답(들)에 따라 결정된 AStat 및 AResp 선택으로응답한다. 따라서 요구된 캐시 라인이 원격 방식으로 수정되면(즉, 일관성 응답 로직이 단일의 원격 프로세싱 노드로부터 수정된 응답(Modified response)을 수신하였음을 뜻함), 일관성 응답 로직(56)은 ARespOut 주기동안 수정 상태(Modified)를 선택한다. 변형예로, 상기 요구된 캐시 라인이 원격 방식으로 수정되지 않으면, 시스템 메모리(18)를 제외한 모든 스누퍼는 ARespOut 주기동안 널(null)을 선택한다. 그 후, 페이지 연결기(B)를 통하여 도 3a로 복귀한다.
도 3a에 대하여 다시 설명한다. 프로세스는 블록(80) 또는 페이지 연결기(B)로부터 블록(82)으로 진행한다. 블록(82)은 ARespOut 선택을 컴파일하고 ARespIn 선택을 발행하는, 제2 프로세싱 노드(10b)의 중재기(24)를 예시하고 있다. 블록(83)에 도시된 바와 같이, ARespIn 선택의 수신에 응답하여 스누퍼(상기 요구된 캐시 라인이 원격 방식으로 수정된 경우, 상기 스누퍼는 노드 컨트롤러(20)임)는 상기 요구된 캐시 라인을 노드 컨트롤러(20)의 DSU(46)에 제공한다. 또한, 블록(84)에 설명된 바와 같이, 제2 프로세싱 노드(10b)의 노드 컨트롤러(20) 내의 트랜잭션 송신 유닛(42)은 일관성 응답을 I-명령어 채널(31)을 통하여 제1 프로세싱 노드(10a)에 전송한다. 블록(130)과 관련하여 상기 논의된 바와 같이, 상기 일관성 응답은 바람직하게는 도 2b에 도시된 포맷(format)을 가지며, 설정된 재실행 비트를 갖는다. 그 후, 프로세스는 블록(84)에서 블록(86)으로 진행한다. 블록(86)은 요구된 캐시 라인을 노드 상호접속망(22)의 데이터 라인을 통하여 제1 프로세싱 노드(10a)에 전송하는, 제2 프로세싱 노드(10b)의 노드 컨트롤러(20) 내의 DSU(46)를 예시하고 있다.
제1 프로세싱 노드(10a)의 노드 컨트롤러(20) 내의 응답 멀티플렉스(52)는 제2 프로세싱 노드가 발행한 일관성 응답을 수신하고, DRU(44)는 상기 요구된 캐시 라인을 수신한다. 응답 멀티플렉스(52)는 블록(90)에서 도시된 바와 같이, 상기 일관성 응답을 버스 마스터(54)와 일관성 응답 로직(56) 모두에 전달한다. 블록(140) 및 블록(142)에 관하여 상기 설명한 바와 같이, 블록(92) 및 블록(94)에서 버스 마스터(54) 및 일관성 응답 로직(56)은 상기 일관성 응답을 동시에 처리한다. 상기 재실행 비트가 설정된 일관성 응답의 수신에 따라서, 버스 마스터(54)는 원래 요구 트랜잭션을 발행하였던 스누퍼로 하여금 동일한 요구 트랜잭션을 재발행하도록 지시하는 재실행 요구를 제1 프로세싱 노드(10a)의 로컬 상호접속망(16)에 발행한다. 이와 같은 버스 마스터의 동작은 재실행 요구의 트랜잭션 태그에 의하여 재실행 요구 내에서 식별된다. 한편, 일관성 응답 로직(56)은 적절한 AStat 및 AResp 선택을 결정하여 언제 상기 재발행 요구 트랜잭션이 스누핑되는지를 알린다.
그 후, 프로세스는 블록(100)으로 진행한다. 블록(100)은 상기 요구 스누퍼가 제1 프로세싱 노드(10a)의 로컬 상호접속망(16)에 요구 트랜잭션을 재발행할 때까지의 대기(waiting)를 예시한다. 상기 요구 트랜잭션을 재발행하는 요구 스누퍼에 응답하여, 로컬 상호접속망(16) 상의 모든 스누퍼는 적절한 AStat 및 AResp 선택을 제공한다. 블록(102)에 도시된 바와 같이, 제1 프로세싱 노드(10a)의 일관성 응답 로직(56)은 ARespOut 주기동안 수정 상태를 선택한다. 그 후, 제1 프로세싱 노드(10a)의 중재기(24)는 상기 ARespOut 선택을 컴파일하고, 트랜잭션 송신유닛(42)에 의하여 검출되는 수정된 ARespIn 선택을 발행한다. 그 후, 트랜잭션 송신 유닛(42)은 DRU(44)에 신호하여 상기 요구된 캐시 라인을 제1 프로세싱 노드(10a)의 로컬 상호접속망(16)을 경유하여 상기 요구 프로세서에 제공한다. 그 후, 프로세스는 블록(104)에서 종료된다.
이상 설명된 바와 같이, 본 발명은 개선된 NUMA 컴퓨터 시스템 및 재실행 요구를 촉진하여 통신 대기시간을 감소시키는 방법을 제공한다. 상기 설명된 방법에 따라서, 원격 프로세싱 노드로부터의 각 일관성 응답은 자신(일관성 응답)이 재실행에 대한 응답으로서 상기 로컬 프로세싱 노드에서 발생한(originated) 통신 트랜잭션에 대한 응답(reply)인지 여부를 표시하는 재실행 필드를 포함한다. 상기 재실행 필드가 설정된 경우, 일관성 응답 로직에 의한 일관성 응답의 처리와 동시에 상기 노드 컨트롤러의 버스 마스터는 수신 프로세싱 노드의 로컬 상호접속망 상에 통신 트랜잭션(예를 들어, 재실행 요구)을 개시(initiate)한다. 이러한 방법으로, 재실행 트랜잭션은, 상기 일관성 상태를 갱신하기 위하여 일관성 응답 로직을 대기하지 않고 또한 노드 컨트롤러의 일관성 응답 로직과 버스 마스터간의 통신에 기인한 어떠한 부가적인 시간지연 없이, 재실행 응답(reply)에 따라서 개시될 수 있다. 일관성 로직의 대기시간이 재실행 요구를 발행하고 상기 통신 트랜잭션을 재실행하는데 소요되는 총합적 대기시간보다 짧다는 것이 보장되기 때문에, 상기 일관성 로직이 일관성 상태를 갱신하기 전에 재실행 요구에 의하여 트리거된 통신 트랜잭션이 재발행되지 않도록 보장하기 위한 추가적인 로직이 요구되지 않는다.
본 발명이 특히 바람직한 실시예를 참조하여 개시되고 설명되었지만, 당업자는 본 발명의 사상 및 범위를 벗어나지 않는 범위 내에서 형식과 상세한 부분에 많은 변화가 가능함을 이해할 수 있다. 예를 들어, 노드 상호접속망이 적어도 부분적으로 공유된 블록 구조로 구현된 예시적인 실시예를 참조하여 본 발명이 설명되었지만, 노드 상호접속망이 크로스바 스위치와 같이 2 지점간(point to point) 비블록 구조로 구현된 변형 실시예에도 본 발명은 동일하게 적용됨을 알 수 있다.

Claims (11)

  1. 비균일 메모리 액세스(Non-Uniform Memory Access; NUMA) 컴퓨터 시스템에 있어서,
    노드 상호접속망과,
    복수의 프로세싱 노드- 여기서 복수의 프로세싱 노드는 각각 적어도 하나의 프로세서, 로컬 상호접속망, 로컬 시스템 메모리 및 개별 로컬 상호접속망과 상기 노드 상호접속망 양자 모두에 결합되는 노드 컨트롤러를 포함함 -를 포함하고,
    상기 노드 컨트롤러는 상기 노드 상호 접속망으로부터 일관성 응답 필드를 포함하는 복수의 원격 응답- 상기 복수의 원격 응답 각각은 상기 복수의 프로세싱 노드 중 로컬 노드의 노드 컨트롤러에 의해 발행된 메모리 요구에 따라 상기 복수의 프로세싱 노드 중 원격 노드에 의해 발행되는 응답을 포함하는 것임- 중 최소한 하나의 응답을 수신함에 따라, 상기 노드 컨트롤러의 로컬 일관성 응답을 결정하기 위해 설정(set) 상태인 재실행 필드가 상기 복수의 원격 응답에서 검출되는 경우에만 상기 복수의 원격 응답을 처리함과 동시에 자신이 속한 개별 로컬 상호 접속망상으로 재실행 요구를 발행하는 것인 비균일 메모리 액세스 컴퓨터 시스템.
  2. 삭제
  3. 제1항에 있어서, 각 노드 컨트롤러는
    상기 요구를 상기 로컬 상호 접속망 상에 발행하는 로컬 상호 접속망 마스터 로직(local interconnect master logic)과,
    상기 일관성 응답 필드에 의해 표시되는 일관성 응답을 결정하는 일관성 로직(coherency logic)을 포함하는 것인 비균일 메모리 액세스 컴퓨터 시스템.
  4. 삭제
  5. 삭제
  6. 삭제
  7. 로컬 프로세싱 노드 및 원격 프로세싱 노드- 여기서 로컬 프로세싱 노드와 원격 프로세싱 노드는 모두 노드 상호접속망에 결합되고, 상기 로컬 및 원격 프로세싱 노드 각각은 로컬 상호접속망을 포함함 -를 포함하는 비균일 메모리 액세스 컴퓨터 시스템을 동작시키는 방법에 있어서,
    상기 로컬 프로세싱 노드로부터 복수개의 원격 프로세싱 노드로 상기 노드 상호 접속망을 통하여 메모리 요구를 전송하는 단계와,
    상기 복수의 원격 노드가 상기 메모리 요구를 수신함에 따라, 상기 복수의 원격 노드로부터 상기 로컬 노드로 상기 노드 상호접속망을 통하여 복수의 응답- 여기서 응답은 일관성 응답 필드를 포함함 -을 전송하는 단계와,
    상기 로컬 노드에서 상기 응답을 수신함에 따라, 상기 노드 컨트롤러의 로컬 일관성 응답을 결정하기 위해 설정 상태인 재실행 필드가 상기 복수의 원격 응답에서 검출되는 경우에만 상기 복수의 원격 응답을 처리함과 동시에 상기 로컬 노드의 상기 로컬 상호 접속망상으로 재실행 요구를 발행하는 단계를 포함하는 것인 비균일 메모리 액세스(NUMA) 컴퓨터 시스템을 동작시키는 방법.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
KR1019990028653A 1998-08-17 1999-07-15 재실행 요구를 촉진하여 대기시간을 감소시키는 비균일 메모리액세스 데이터 프로세싱 시스템 KR100348956B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/135,283 US6085293A (en) 1998-08-17 1998-08-17 Non-uniform memory access (NUMA) data processing system that decreases latency by expediting rerun requests
US09/135,283 1998-08-17
US9/135,283 1998-08-17

Publications (2)

Publication Number Publication Date
KR20000016945A KR20000016945A (ko) 2000-03-25
KR100348956B1 true KR100348956B1 (ko) 2002-08-17

Family

ID=22467390

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990028653A KR100348956B1 (ko) 1998-08-17 1999-07-15 재실행 요구를 촉진하여 대기시간을 감소시키는 비균일 메모리액세스 데이터 프로세싱 시스템

Country Status (6)

Country Link
US (1) US6085293A (ko)
EP (1) EP0981092A3 (ko)
KR (1) KR100348956B1 (ko)
CA (1) CA2279138C (ko)
IL (2) IL131031A (ko)
TW (1) TW498210B (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6546429B1 (en) * 1998-09-21 2003-04-08 International Business Machines Corporation Non-uniform memory access (NUMA) data processing system that holds and reissues requests at a target processing node in response to a retry
US6192452B1 (en) * 1999-02-26 2001-02-20 International Business Machines Corporation Method and system for avoiding data loss due to cancelled transactions within a non-uniform memory access system
US6591348B1 (en) * 1999-09-09 2003-07-08 International Business Machines Corporation Method and system for resolution of transaction collisions to achieve global coherence in a distributed symmetric multiprocessor system
US7529799B2 (en) 1999-11-08 2009-05-05 International Business Machines Corporation Method and apparatus for transaction tag assignment and maintenance in a distributed symmetric multiprocessor system
US6553447B1 (en) * 1999-11-09 2003-04-22 International Business Machines Corporation Data processing system with fully interconnected system architecture (FISA)
JP2001167077A (ja) * 1999-12-09 2001-06-22 Nec Kofu Ltd ネットワークシステムにおけるデータアクセス方法、ネットワークシステムおよび記録媒体
US6667960B1 (en) * 2000-04-29 2003-12-23 Hewlett-Packard Development Company, L.P. Protocol for identifying components in a point-to-point computer system
US6766360B1 (en) * 2000-07-14 2004-07-20 Fujitsu Limited Caching mechanism for remote read-only data in a cache coherent non-uniform memory access (CCNUMA) architecture
US8185602B2 (en) 2002-11-05 2012-05-22 Newisys, Inc. Transaction processing using multiple protocol engines in systems having multiple multi-processor clusters
US7539819B1 (en) * 2005-10-31 2009-05-26 Sun Microsystems, Inc. Cache operations with hierarchy control
US9274835B2 (en) 2014-01-06 2016-03-01 International Business Machines Corporation Data shuffling in a non-uniform memory access device
US9256534B2 (en) 2014-01-06 2016-02-09 International Business Machines Corporation Data shuffling in a non-uniform memory access device
US10592465B2 (en) 2017-10-26 2020-03-17 Hewlett Packard Enterprise Development Lp Node controller direct socket group memory access

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR950024678A (ko) * 1994-02-04 1995-09-15 김봉근 인삼순두부 및 인삼두부 제조방법
US5530933A (en) * 1994-02-24 1996-06-25 Hewlett-Packard Company Multiprocessor system for maintaining cache coherency by checking the coherency in the order of the transactions being issued on the bus
US5577204A (en) * 1993-12-15 1996-11-19 Convex Computer Corporation Parallel processing computer system interconnections utilizing unidirectional communication links with separate request and response lines for direct communication or using a crossbar switching device
US5613071A (en) * 1995-07-14 1997-03-18 Intel Corporation Method and apparatus for providing remote memory access in a distributed memory multiprocessor system
EP0779583A2 (en) * 1995-12-15 1997-06-18 International Business Machines Corporation Method and apparatus for coherency reporting in a multiprocessing system
US5897657A (en) * 1996-07-01 1999-04-27 Sun Microsystems, Inc. Multiprocessing system employing a coherency protocol including a reply count

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5887146A (en) * 1995-08-14 1999-03-23 Data General Corporation Symmetric multiprocessing computer with non-uniform memory access architecture
US5787468A (en) * 1996-06-11 1998-07-28 Data General Corporation Computer system with a cache coherent non-uniform memory access architecture using a fast tag cache to accelerate memory references
US5878268A (en) * 1996-07-01 1999-03-02 Sun Microsystems, Inc. Multiprocessing system configured to store coherency state within multiple subnodes of a processing node

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5577204A (en) * 1993-12-15 1996-11-19 Convex Computer Corporation Parallel processing computer system interconnections utilizing unidirectional communication links with separate request and response lines for direct communication or using a crossbar switching device
KR950024678A (ko) * 1994-02-04 1995-09-15 김봉근 인삼순두부 및 인삼두부 제조방법
US5530933A (en) * 1994-02-24 1996-06-25 Hewlett-Packard Company Multiprocessor system for maintaining cache coherency by checking the coherency in the order of the transactions being issued on the bus
US5613071A (en) * 1995-07-14 1997-03-18 Intel Corporation Method and apparatus for providing remote memory access in a distributed memory multiprocessor system
EP0779583A2 (en) * 1995-12-15 1997-06-18 International Business Machines Corporation Method and apparatus for coherency reporting in a multiprocessing system
US5897657A (en) * 1996-07-01 1999-04-27 Sun Microsystems, Inc. Multiprocessing system employing a coherency protocol including a reply count

Also Published As

Publication number Publication date
TW498210B (en) 2002-08-11
IL131329A (en) 2005-07-25
EP0981092A3 (en) 2001-03-07
EP0981092A2 (en) 2000-02-23
IL131031A0 (en) 2001-01-28
IL131329A0 (en) 2001-01-28
CA2279138C (en) 2006-03-21
CA2279138A1 (en) 2000-02-17
US6085293A (en) 2000-07-04
IL131031A (en) 2003-03-12
KR20000016945A (ko) 2000-03-25

Similar Documents

Publication Publication Date Title
KR100324975B1 (ko) 잠재적인 제3 노드 트랜잭션을 버퍼에 기록하여 통신 대기시간을 감소시키는 비균일 메모리 액세스(numa) 데이터 프로세싱 시스템
KR100348947B1 (ko) 노드 상호 접속망 상에서 요구를 예측 방식으로 발행하는 비균일 메모리 액세스 데이터 처리 시스템
JP3644587B2 (ja) 共用介入サポートを有する不均等メモリ・アクセス(numa)・データ処理システム
JP3661761B2 (ja) 共用介入サポートを有する不均等メモリ・アクセス(numa)データ処理システム
KR100465583B1 (ko) 판독 요청을 원격 처리 노드에 추론적으로 전송하는 비정형 메모리 액세스 데이터 처리 시스템 및 이 시스템에서의 통신 방법
CA2280172C (en) Non-uniform memory access (numa) data processing system that holds and reissues requests at a target processing node in response to a retry
JP3900479B2 (ja) システム・メモリに組み込まれるリモート・メモリ・キャッシュを有する不均等メモリ・アクセス(numa)データ処理システム
JP3924203B2 (ja) マルチノード・コンピュータ・システムにおける非集中グローバル・コヒーレンス管理
JP3900478B2 (ja) 不均等メモリ・アクセス(numa)コンピュータ・システム及び該コンピュータ・システムを操作する方法
EP0817042B1 (en) A multiprocessing system including an apparatus for optimizing spin-lock operations
EP0817073B1 (en) A multiprocessing system configured to perform efficient write operations
JP3900481B2 (ja) 不均等メモリ・アクセス(numa)コンピュータ・システムを操作する方法、メモリ制御装置、メモリ・システム、該メモリ・システムを含むノード及びnumaコンピュータ・システム
JP3900480B2 (ja) 共用データのリモート割当て解除の通知を提供する不均等メモリ・アクセス(numa)データ処理システム
US20010013089A1 (en) Cache coherence unit for interconnecting multiprocessor nodes having pipelined snoopy protocol
EP0820016A2 (en) A multiprocessing system including an enhanced blocking mechanism for read-to-share-transactions in a NUMA mode
US6279085B1 (en) Method and system for avoiding livelocks due to colliding writebacks within a non-uniform memory access system
JP3661764B2 (ja) 不均等メモリ・アクセス・コンピュータ・システムにおいてエヴィクション・プロトコルを提供するための方法およびシステム
JP2002519785A (ja) マルチプロセッサコンピュータシステムのための分割ディレクトリベースのキャッシュコヒーレンシ技術
JP3574031B2 (ja) 不均等メモリ・アクセス・システム内で無効化トランザクションの衝突によって生じるライブロックを避けるための方法およびシステム
KR100348956B1 (ko) 재실행 요구를 촉진하여 대기시간을 감소시키는 비균일 메모리액세스 데이터 프로세싱 시스템
JP2000250883A (ja) 不均等メモリ・アクセス・システムにおいてトランザクションのキャンセルによるデータ損失を避けるための方法およびシステム
JP3924204B2 (ja) 分散グローバル・コヒーレンス管理を有する不均等メモリ・アクセス(numa)コンピュータ・システム
US6226718B1 (en) Method and system for avoiding livelocks due to stale exclusive/modified directory entries within a non-uniform access system
MXPA99006144A (en) Data processing system for non-uniform memory access data introducing potential intermediate memories third-node transactions to decrease communicate waiting time

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20060725

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee