KR100324975B1 - 잠재적인 제3 노드 트랜잭션을 버퍼에 기록하여 통신 대기시간을 감소시키는 비균일 메모리 액세스(numa) 데이터 프로세싱 시스템 - Google Patents

잠재적인 제3 노드 트랜잭션을 버퍼에 기록하여 통신 대기시간을 감소시키는 비균일 메모리 액세스(numa) 데이터 프로세싱 시스템 Download PDF

Info

Publication number
KR100324975B1
KR100324975B1 KR1019990018121A KR19990018121A KR100324975B1 KR 100324975 B1 KR100324975 B1 KR 100324975B1 KR 1019990018121 A KR1019990018121 A KR 1019990018121A KR 19990018121 A KR19990018121 A KR 19990018121A KR 100324975 B1 KR100324975 B1 KR 100324975B1
Authority
KR
South Korea
Prior art keywords
transaction
processing node
node
buffer
processing
Prior art date
Application number
KR1019990018121A
Other languages
English (en)
Other versions
KR20000005690A (ko
Inventor
카펜터개리데일
딘마크에드워드
글래스코데이비드브라이언
아이어캐터리차드니콜라스쥬니어
Original Assignee
포만 제프리 엘
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포만 제프리 엘, 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 포만 제프리 엘
Publication of KR20000005690A publication Critical patent/KR20000005690A/ko
Application granted granted Critical
Publication of KR100324975B1 publication Critical patent/KR100324975B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/17Interprocessor communication using an input/output type connection, e.g. channel, I/O port

Abstract

본 발명의 NUMA 컴퓨터 시스템은 다중 프로세싱 노드(제1, 제2 및 제3 프로세싱 노드를 포함함)가 결합된 상호접속망을 포함한다. 상기 제1, 제2 및 제3 프로세싱 노드 각각은 적어도 하나의 프로세서와 하나의 로컬 시스템 메모리를 포함한다. 상기 NUMA 컴퓨터 시스템은 상기 상호접속망에 결합되고, 제3 프로세싱 노드가 아닌 프로세싱 노드에 의하여 개시되고 제3 프로세싱 노드가 아닌 그외의 프로세싱 노드를 목적지로 하여 상호접속망 상에서 전송되는 통신 트랜잭션들을 기억하는 트랜잭션 버퍼를 추가로 포함한다. 원래 다른 프로세싱 노드를 목적지로 하는 특정 통신 트랜잭션이 제3 프로세싱 노드에 의하여 처리되어야 한다는 결정에 응답하여, 트랜잭션 버퍼에 결합된 버퍼 컨트롤 로직은 특정 통신 트랜잭션이 상기 트랜잭션 버퍼로부터 검색되어 상기 제3 프로세싱 노드에 의해 처리되도록 한다. 일 실시예에 있어서, 상호접속망은 동보구조를 포함하고, 트랜잭션 버퍼와 버퍼 컨트롤 로직은 제3 프로세싱 노드의 일부를 형성한다.

Description

잠재적인 제3 노드 트랜잭션을 버퍼에 기록하여 통신 대기시간을 감소시키는 비균일 메모리 액세스(NUMA) 데이터 프로세싱 시스템{NON-UNIFORM MEMORY ACCESS(NUMA) DATA PROCESSING SYSTEM THAT BUFFERS POTENTIAL THIRD NODE TRANSACTIONS TO DECREASE COMMUNICATION LATENCY}
본 발명은 일반적으로 데이터 프로세싱 방법 및 시스템에 관한 것이며, 특히, 비균일 메모리 액세스(non-uniform memory access; NUMA) 데이터 프로세싱 시스템 및 NUMA 데이터 프로세싱 시스템 내부의 통신 방법에 관한 것이다. 좀더 상세하게는, 본 발명은 잠재적인 제3 노드 트랜잭션이 버퍼에 저장되어 통신 대기시간을 감소시키는 NUMA 데이터 프로세싱 시스템 및 통신 방법에 관한 것이다.
컴퓨터 분야에 있어서, 다수의 개별 프로세서의 프로세싱 능력을 직렬(tandem)로 연결하여 사용하면 뛰어난 컴퓨터 시스템 성능을 달성할 수 있음이 알려져 있다. 멀티-프로세서(Multi-Processor; MP) 컴퓨터 시스템은 다수의 상이한 토폴로지(topology)━여기서 다수의 상이한 토폴로지 중 몇 가지 토폴로지는 각 어플리케이션(application)의 소프트웨어 환경과 성능 요구에 따라서 특정한 어플리케이션에 매우 적합함━으로 설계될 수 있다. 가장 일반적인 MP 컴퓨터 토폴로지 중 하나는 대칭형 멀티-프로세서(Symmetric Multi-Processor; SMP) 구성으로, 이러한 SMP구성에서는 멀티-프로세서가 일반적으로 공유된 시스템 상호접속망(interconnect)에 결합된 공통 자원(common resource)(예를 들어, 시스템 메모리, 입/출력 부시스템(I/O subsystem))을 공유한다. SMP 컴퓨터 시스템의 모든 프로세서가 이상적으로는 공유된 시스템 메모리에 기억된 데이터에 대하여 동일한 액세스 대기시간을 갖기 때문에 이러한 SMP 컴퓨터 시스템을 대칭적이라 한다.
SMP 컴퓨터 시스템에서는 상대적으로 간단한 프로세서간 통신 및 데이터 공유 방법을 사용할 수 있지만, SMP 컴퓨터 시스템은 규모의 확장성(scalability) 면에서 제한이 있다. 즉, 일반적인 SMP 컴퓨터 시스템은 규모를 확장(즉, 더 많은 프로세서를 부가함)하여 성능을 개선할 수 있다고 일반적으로 예상되지만, 고유 버스(inherent bus), 메모리, 및 입/출력(I/O) 대역폭이 제한되기 때문에, 이들 공유 자원의 활용이 최적화되는, 구현예에 좌우되는 크기(size) 이상으로 SMP를 확장하여도 상당한 장점을 얻을 수 없다. 따라서 SMP 토폴로지 자체는 시스템의 규모가 증가함에 따라 대역폭 제한(특히 시스템 메모리에서)으로 인해 다소 곤란을 겪고 있다. SMP 컴퓨터 시스템은 또한 제조 효율성 면에서도 규모의 확장이 용이하지 않다. 예를 들어, 일부 구성요소가 단일 프로세서 및 소규모 SMP 컴퓨터 시스템 모두에 사용되도록 최적화될 수 있지만, 이러한 일부 구성요소를 대규모 SMP에 사용하는 것은 흔히 비효율적이다. 반대로, 대규모 SMP에 사용되도록 설계된 구성요소를 소규모 시스템에 사용하는 것은 비용면에서 실용적이지 못하다.
결과적으로, 어느 정도 복잡성(complexity)이 추가되지만 SMP 컴퓨터 시스템이 갖는 제한의 대부분을 해소할 수 있는 대안적 설계로 비균일 메모리 액세스(Non-Uniform Memory Access; NUMA)로 알려진 MP 컴퓨터 시스템 토폴로지가 등장하였다. 종래 NUMA 컴퓨터 시스템은 다수의 상호접속된 노드를 포함하며, 이들 각 노드는 하나 이상의 프로세서와 로컬 “시스템” 메모리를 포함한다. 이러한 컴퓨터 시스템은 각 프로세서가 원격 노드의 시스템 메모리에 기억된 데이터보다 프로세서 자신의 로컬 노드의 시스템 메모리에 기억된 데이터에 대해 더 짧은 액세스 대기시간을 갖기 때문에, 비균일 메모리 액세스라 불린다. NUMA 시스템은 또한 서로 다른 노드의 캐시들 간에 데이터 일관성(coherency)이 유지되는지 여부에 따라서 비-일관성(non-coherent) 또는 캐시 일관성으로 분류될 수 있다. 캐시 일관성 NUMA(CC-NUMA) 시스템의 복잡성은 각 노드 내의 캐시 메모리의 다양한 레벨과 시스템 메모리 사이에서 뿐만 아니라 서로 다른 노드의 캐시 메모리와 시스템 메모리 사이에서도 하드웨어가 데이터의 일관성을 유지하기 위하여 요구되는 부가적인 통신에 주로 기인한다. 그러나 NUMA 컴퓨터 시스템 내의 각 노드가 소규모 SMP 시스템으로 구현될 수 있기 때문에, NUMA 컴퓨터 시스템은 종래 SMP 컴퓨터 시스템의 확장성 제한 문제를 해결하였다. 따라서 전체 시스템이 상대적으로 짧은 대기시간을 유지한 상태로 대규모화의 병행이 가능하다는 장점을 가지면서도, 각 노드 내의 공유 구성요소가 단지 소수의 프로세서용으로 사용될 수 있도록 최적화될 수 있다.
CC-NUMA 컴퓨터 시스템과 관련된 주된 성능은 노드를 상호 연결하는 상호접속망을 통하여 전송되는 통신 트랜잭션과 연관된 대기시간이다. 모든 데이터 액세스는 노드의 상호접속망에 일관성 또는 데이터 요구 트랜잭션을 잠재적으로 트리거할 수 있기 때문에, 원격 노드에 대한 요구의 전송 및 원격 노드로부터의 응답 전송과 연관된 대기시간은 전체 시스템 성능에 심각한 영향을 줄 수 있다. 따라서 명백히 이해되는 바와 같이, 노드 상호간 짧은 통신 대기시간을 갖는 CC-NUMA 컴퓨터 시스템을 제공하는 것이 소망된다.
따라서 본 발명의 목적은 개선된 데이터 프로세싱 방법 및 시스템을 제공하는 것이다.
본 발명의 또 다른 목적은 개선된 NUMA 데이터 프로세싱 시스템과 NUMA 데이터 프로세싱 시스템의 통신 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 잠재적인 제3 노드 트랜잭션이 버퍼에 기억되어 통신 대기시간을 감소시키는 개선된 NUMA 데이터 프로세싱 시스템 및 통신 방법을 제공하는 것이다.
상기 목적은 후술하는 바와 같이 달성된다. 본 발명에서는 제1 ,제2 ,제3 프로세싱 노드가 결합된 상호접속망을 포함하는 비균일 메모리 액세스(NUMA) 컴퓨터 시스템이 제공된다. 제1, 제2, 제3 프로세싱 노드 각각은 적어도 하나의 프로세서와 하나의 로컬 시스템 메모리를 포함한다. NUMA 컴퓨터 시스템은 상호접속망 상에 결합되고, 제3 프로세싱 노드가 아닌 프로세싱 노드에서 개시(initiate)되고 제3 프로세싱 노드가 아닌 프로세싱 노드를 목적지로 하며 이 상호접속망 상에서 전송되는 통신 트랜잭션들을 기억하는 트랜잭션 버퍼를 추가로 포함한다. 원래 다른 프로세싱 노드를 목적지로 하는 특정 통신 트랜잭션이 제3 프로세싱 노드에 의하여 처리되어야 한다는 결정에 응답하여, 트랜잭션 버퍼에 결합된 버퍼 컨트롤 로직은 상기 특정 통신 트랜잭션이 제3 프로세싱 노드에 의하여 트랜잭션 버퍼로부터 검색되어 처리되도록 한다. 일 실시예에 있어서, 상호접속망은 동보 구조(broadcast fabric)를 포함하고, 트랜잭션 버퍼와 버퍼 컨트롤 로직은 제3 프로세싱 노드의 일부를 형성한다.
본 발명의 상기 목적 및 추가적인 목적, 특징, 장점은 다음의 상세한 설명에 의하여 명백해진다.
도 1은 본 발명이 효과적으로 사용되는 비균일 메모리 액세스되는 (NUMA) 컴퓨터 시스템의 실시예를 예시하는 도면.
도 2(a)는 도 1에 도시된 예시적 실시예에 사용되는 상호접속망 구조의 더욱 상세한 블록도.
도 2(b)는 I-명령어의 실시예를 설명하는 도면.
도 2(c)는 도 1에 도시된 노드 컨트롤러의 좀더 상세한 블록도.
도 3(a) 내지 3(b)는 종래 기술에 따른 제3 노드 통신 시나리오를 예시하는 도면.
도 4는 본 발명에 따른, 제3 노드 통신 방법의 상위 레벨 논리 흐름도.
본 발명의 신규한 특징이 첨부된 청구의 범위에 개시된다. 그러나 본 발명과본 발명의 바람직한 사용모드, 추가적인 목적 및 장점 등은 첨부된 도면과 함께 예시적인 실시예에 대한 이하의 상세한 설명을 참조함으로써 더욱 명확하게 이해된다.
시스템 개요
도 1을 참조하여 설명한다. 도 1은 본 발명에 따른 NUMA 컴퓨터 시스템의 예시적인 실시예를 설명하고 있다. 도시된 실시예는 예를 들어 워크스테이션, 서버 또는 메인프레임 컴퓨터로 구현될 수 있다. 예시된 바와 같이, NUMA 컴퓨터 시스템(8)은 노드 상호접속망(22)에 의하여 상호 연결된 다수(N)의 프로세싱 노드(10a-10d)를 포함한다. 프로세싱 노드(10a-10d) 각각은 최소한 하나에서 최대 M개까지의 프로세서(12)를 포함한다. 프로세서(12a-12d)는 동형(identical)인 것이 바람직하며, 뉴욕주 아몬크에 소재한 IBM사가 상용화한 PowerPCTM계열의 프로세서로 이루어질 수 있다. 각각의 프로세서(12a-12d)는 레지스터, 인스트럭션 플로우 로직(instruction flow logic) 및 프로그램 인스트럭션을 실행하도록 사용되는 실행 유닛(execution unit) 이 외에, 온칩 레벨1 캐시(on chip L1 cache; 도시되지 아니함)를 또한 포함한다. L1 캐시는 각자의 레벨2(L2) 캐시(14a-14d)와 함께 사용되어 데이터를 시스템 메모리(18)로부터 연관된 프로세서(12)로 스테이지(stage)한다. 즉, L1 캐시 및 L2 캐시(14a-14d)는 시스템 메모리(18)와 프로세서(12) 사이의 중간 기억장치로서의 기능을 하여 연관된 프로세서(12)가 액세스할 가능성이 높은 데이터를 일시적으로 저장(buffer)한다. L2 캐시(14)는 일반적으로 L1 캐시에 비하여 매우 큰 기억 용량을 갖지만, 액세스 대기시간이 길다. 예를 들어, L2 캐시(14a-14d)는 1-16 메가바이트(MB)의 기억 용량을 가지며, 온칩 L1 캐시는 8-32 킬로바이트의 기억 용량을 갖는다. L2 캐시(14a-14d)가 도 1에서 프로세서(12)의 외부에 위치하는 것으로 예시되었지만, L2 캐시(14a-14d)는 온칩 캐시 메모리의 부가적인 레벨로서 연관된 프로세서(12)의 내부에 통합될 수 있다. 또한, 하나 이상의 부가적 레벨을 갖는 캐시 메모리(예를 들어, L3, L4 등)가 부가적인 데이터 기억 장치로 사용될 수 있다. 후술하는 설명에서, 각 프로세서(12) 및 이와 연관된 캐시 계층(L1, L2 등)은 단일 스누퍼(snooper)로 간주된다.
도시된 바와 같이, 프로세싱 노드(10a-10d)는 시스템 메모리(18) 및 L2 캐시(14a-14d)와 함께 로컬 상호접속망(16)에 연결되는 각각의 노드 컨트롤러(20)를 추가로 포함한다. 각 노드 컨트롤러(20)는 두 가지 기능을 수행하여 원격 프로세싱 노드(10)용 로컬 에이전트(local agent)로서 기능한다. 첫 째, 노드 컨트롤러(20)는 연관된 로컬 상호접속망(16)을 스눕하고, 로컬 통신 트랜잭션이 원격 프로세싱 노드(10)로 용이하게 전송되도록 한다. 둘 째, 노드 컨트롤러(20)는 노드 상호접속망(22) 상에서 통신 트랜잭션을 스눕하고 연관된 로컬 상호접속망(16)상의 관련있는 통신 트랜잭션을 관장(master)한다. 중재기(arbiter; 24)가 각 로컬 상호접속망(16) 상의 통신을 제어한다. 이하에서 설명되는 바와 같이, 중재기(24)는 프로세서(12)가 생성한 버스 요구 신호(bus request signal)에 기초하여 로컬 상호접속망(16)에 대한 액세스를 조절하고, 로컬 상호접속망(16) 상에서 스눕된 통신 트랜잭션에 대한 일관성 응답을 컴파일(compile)한다.
물론, NUMA 컴퓨터 시스템(8)은 본 발명을 이해하는데 반드시 필요하지는 않아서, 본 발명이 불명료하게 되는 것을 회피하기 위하여 생략된 부가적인 장치를 추가로 포함할 수 있다. 예를 들어, 각 노드(10)는 I/O 장치(예를 들어, 디스플레이 장치, 키보드 또는 그래픽 포인터), 운영 체제(OS)와 응용 소프트웨어를 기억하기 위한 비휘발성 기억장치, 네트워크 또는 부가 장치(attached device)에 연결하기 위한 직렬 및 병렬 포트를 지원할 수 있다.
메모리 구조
NUMA 컴퓨터 시스템(8)의 모든 프로세서(12)는 단일의 물리적 메모리 공간(physical memory space)을 공유하는데, 이것은 각 물리 어드레스가 시스템 메모리(18) 중 오직 하나의 위치와만 연관되어 있음을 의미한다. 따라서 NUMA 컴퓨터 시스템(8) 내의 임의 프로세서(12)가 일반적으로 액세스할 수 있는 시스템 메모리의 전체 내용은 4개 시스템 메모리(18) 사이에서 구획(partition)된 것으로 볼 수 있다. 예를 들어, 도 1에 도시된 본 발명의 예시적 실시예에서, 프로세서(12)는 범용 메모리 영역과 예약된 영역(reserved area)을 모두 포함하는 16 기가바이트 어드레스 공간을 어드레스한다. 범용 메모리 영역은 500MB 세그먼트 단위로 분할되고, 4개 프로세서 노드(10) 각각은 매 4개 세그먼트마다 하나씩 할당된다. 약 2GB인 예약된 영역은 각 프로세싱 노드(10)에 각각 할당되는 시스템 컨트롤 영역 주변, 기억 장치(peripheral memory)영역, 및 I/O 영역을 포함한다.
설명의 편의를 위하여, 자신의 시스템 메모리(18) 내에 특정 데이터를 기억하고 있는 프로세싱 노드(10)를 그 데이터에 대한 홈노드(home node)라 한다. 역으로, 나머지 프로세싱 노드(10-10d)를 그 특정 데이터에 대한 원격노드라 한다.
메모리 일관성
NUMA 컴퓨터 시스템(8)의 임의 프로세서(12)가 각 시스템 메모리(18)내에 기억된 데이터를 요구하거나, 액세스하거나 수정할 수 있기 때문에, NUMA 컴퓨터 시스템(8)은 캐시 일관성 프로토콜을 구현하여 동일 프로세싱 노드 내의 캐시들 간의 일관성 및 다른 프로세싱 노드 내의 캐시들 간의 일관성 모두를 유지한다. 따라서 NUMA 컴퓨터 시스템(8)은 CC-NUMA 컴퓨터 시스템으로 분류된다. 구현되는 캐시 일관성 프로토콜은 실시예마다 다르며, 예를 들어, 주지의 수정(Modified), 배타(Exclusive), 공유(Shared), 무효(Invalid) (MESI) 프로토콜 또는 그 변형 프로토콜을 포함할 수 있다. 이하, L1 캐시, L2 캐시(14) 및 중재기(24)는 종래 MESI 프로토콜을 구현하며, 노드 컨트롤러(20)는 이 MESI 프로토콜의 M,S 및 I 상태를 인식하며 E 상태는 정정을 위하여 M 상태에 병합되는 것으로 가정한다. 즉, 노드 컨트롤러(20)는 원격 캐시가 배타적으로 갖고 있는 데이터가 실제로 수정되었는지 여부에 관계없이 그 데이터가 수정되었다고 가정한다.
상호접속망 구조
로컬 상호접속망(16)과 노드 상호접속망(22)은 각각 임의의 동보(broadcast) 또는 2 지점간(point-to-point) 상호접속망 구조(예를 들어, 버스 또는 크로스바 스위치(crossbar switch))로 구현될 수 있다. 그러나 바람직한 실시예에 있어서, 로컬 상호접속망(16)과 노드 상호접속망(22) 각각은 IBM사가 개발한 6xx 통신 프로토콜에 의하여 제어되는 하이브리드-버스(hybrid-bus) 구조로 구현된다.
도 2(a)를 참조하여, 일 프로세싱 노드(10)의 관점에서 NUMA 컴퓨터 시스템(8) 내의 노드 상호접속망(22)의 바람직한 실시예를 설명한다. 도시된 바와 같이, 예시된 노드 상호접속망(22)의 실시예는 개별(즉, 비다중화된) 어드레스 및 데이터 부분을 포함하며, 이 어드레스 및 데이터 부분은 서로 분리되어 분할(split) 트랜잭션을 허용한다. 노드 상호접속망(22)의 어드레스 부분은 공유 어드레스 버스(shared address bus; 26)로 구현되며, 이에 대한 액세스는 중앙 중재기(27)가 컨트롤한다. 노드 컨트롤러(20)는 자신의 각 어드레스 버스 요구(Address Bus Request; ABR) 신호(25)를 표명하여 공유 어드레스 버스(26)에 대한 액세스를 요구하고, 중앙 중재기(27)는 자신의 각 어드레스 버스 허여(Address Bus Grant; ABG) 신호(29)를 표명하여 액세스 허여를 노드 컨트롤러(20)에 통지한다. 노드 상호접속망(22)에 결합된 각 노드 컨트롤러(20)는 또한 공유 어드레스 버스(26) 상의 모든 통신 트랜잭션을 스누핑하여, 후술하는 바와 같이 메모리 일관성을 지원한다. 표1은 공유 어드레스 버스(26)와 관련된 신호의 이름 및 이에 대한 정의를 요약하여 나타낸다.
신호 이름 라인 수 설 명
어드레스<0:7> 8 일관성, 일괄기록(write thru) 및 보호를 위하여 통신 트랜잭션의 속성을 정의하는 어드레스 버스 수정자
어드레스<8:15> 8 통신 트랜잭션을 식별하기 위하여 사용되는 태그
어드레스<16:63> 48 요구 내의 물리어드레스, 가상어드레스 또는 I/O 어드레스를 표시하는 어드레스 신호
AParity<0:2> 3 어드레스 비트<0:63>에 대한 패리티를 표시함
TDescriptors 10 통신 트랜잭션의 크기와 종류를 표시함
공유 어드레스 버스(26)를 파이프라인형 버스(pipelined bus)로 구현하면 공유 어드레스 버스(26)의 활용을 바람직하게 향상시킬 수 있으며, 이것은 다른 프로세싱 노드(10) 각각으로부터 일관성 응답을 수신하는 프로세싱 노드(10)가 이전 통신 트랜잭션을 습득하기 전에, 후속 트랜잭션을 제공할 수 있음을 의미한다.
노드 상호접속망(22)의 데이터 부분이 공유 버스(shared bus)로서 구현될 수 있지만, 바람직하게는 각 프로세싱 노드(10)에 대하여 N-1(예를 들어, 4-1=3)개의 데이터-입력 채널(data-in channel; 34)과 단일의 데이터-출력 채널(data-out channel; 32)을 갖는 분배 스위치(distributed switch)로서 구현된다. 프로세싱 노드(10)가 데이터-출력 채널(32) 상에 출력한 데이터는 모든 프로세싱 노드(10)에 전송되며, 각 프로세싱 노드(10)는 데이터-입력 채널(30)을 통하여 나머지 다른 프로세싱 노드(10) 각각으로부터의 데이터를 수신한다. 공유 버스가 아닌 상기 방법으로 노드 상호접속망(22)의 데이터 부분을 구현함으로써, 데드락(deadlock)을 회피할 수 있고 데이터 대역폭이 증가되는 이점이 있다. 노드 상호접속망(22) 내의 데이터 부분을 바람직하게 구현한 실시예의 각 채널에 관련된 신호 이름과 정의가 하기 표2에 요약되어 있다.
신호 이름 라인 수 설명
데이터<0:127> 128 판독 및 기록 트랜잭션에 대한 데이터를 운반하기 위하여 사용되는 데이터 라인
데이터 패리티<0:15> 16 데이터 라인<0:127>에 대한 패리티를 표시함
DTag<0:7> 8 데이터 패킷을 어드레스 버스 트랜잭션에 일치시키는데 사용되는 태그
DValid<0:1> 2 유효정보가 데이터 및 DTag 라인상에 존재하는지를 표시함
표2에 표시된 바와 같이 각 데이터 패킷이 속한 통신 트랜잭션을 데이터 패킷의 수령자가 결정하도록, 각 데이터 패킷은 트랜잭션 태그에 의하여 식별된다. 이것은 공유 어드레스 버스(26)와 노드 상호접속망(22)의 데이터 부분과의 타이밍이 완전히 분리되도록 하는데, 이것은 어드레스 기간(tenures)과 데이터 기간 사이에는 고정된 타이밍 관계가 존재하지 않으며, 데이터 기간은 대응하는 어드레스 기간과 다르게 배열될 수 있음을 의미한다. 당업자는 한정된 데이터 통신 자원의 사용을 조정하도록 데이터 플로우 컨트롤 로직과 연관된 플로우 컨트롤 신호가 사용되어야 한다는 것을 알 수 있을 것이다.
도 2(a)에 예시된 바와 같이, 노드 상호접속망(22)의 예시적인 실시예는 또한 고속 I-명령어 채널(31)을 포함한다. 이 측파대(sideband) 채널은 노드 상호접속망(22)의 데이터 부분과 마찬가지로 바람직하게는 각 프로세싱 노드(10)에 대하여 하나의 출력 채널(명령어-출력 채널(command-out channel; 32))과 N-1 개의 입력 채널(명령어-입력 채널(command-in channel; 34))을 포함하는 분배형 스위치로 구현된다. 채널(32) 및 채널(34)은 노드 상호접속망(22)의 어드레스 또는 데이터 부분에 대한 부가적인 부하(load)의 발생 없이 프로세싱 노드(10)들 간에 I-명령어의 통신을 허용한다. 도 2(b)는 I-명령어의 예시적인 실시예를 도시하고 있다. 예시된 바와 같이, I-명령어(36)는 5개 필드를 포함한다. 즉, 4 비트의 명령어 타입 필드(command type field; 33), N 비트(예를 들어, 4 비트) 목적지 노드 필드(target node field; 35), N 비트 근원지 노드 필드(source node field; 37), 트랜잭션 태그 필드(38) 및 유효(valid; V) 필드(39)를 포함한다. 명령어 타입 필드(33)는 I-명령어(36) 타입의 부호화된 표시(indication)를 제공한다. 타입 필드(33) 내에 부호화될 수 있는 몇몇 가능한 I-명령어가 하기 표3에 나열되어 있다.
I-명령어의 각 타입에 대하여, 수령자는 목적지 노드 필드(35)내에서 특정되며, 전송 노드는 근원지 노드 필드(37)내에서 특정되고, I-명령어가 관련된 트랜잭션은 트랜잭션 태그 필드(38)내에서 특정된다. 유효(V) 필드(39)가 I-명령어(36)의 유효성을 표시한다. 중요하게는, I-명령어 채널(31)을 통하여 프로세싱 노드(10)가 발행한 I-명령어는 연관된 통신 트랜잭션의 어드레스 또는 데이터 기간과 어떠한 타이밍 관계도 갖지 않는다. 그리고 I-명령어 채널(31)은 작은 패킷을 사용하고 비-블록킹(non-blocking)(즉, 하나의 프로세싱 노드(10)에 의한 I-명령어 채널(31)의 사용이 다른 프로세싱 노드에 의한 사용을 금지하거나 방해하지 않음)이기 때문에, I-명령어가 프로세싱 노드(10)들 사이에서 고속으로 전송될 수 있다.
노드 상호접속망(22)과 같이, 로컬 상호접속망(16)은 3개 개별의 구성요소 즉, 어드레스 부분, 데이터 부분, 및 일관성 부분을 포함한다. 각 로컬 상호접속망(16)의 어드레스 부분은 바람직하게는 노드 상호접속망(22)의 공유 어드레스 버스(26)에 관하여 상기 기술한 바와 같이 구현된다. 각 로컬 상호접속망(16)의 데이터 부분은 상기 표2에 열거된 데이터 신호와 동일한 신호를 사용하지만, 분배형 스위치로 구현하는 것보다 공유 데이터 버스로서 구현하는 것이 더 바람직하다. 상기 I-명령어 채널 대신에, 각 로컬 상호접속망(16)의 일관성 부분은 각각의 부가 스누퍼를 로컬 중재기(24)에 결합시키는 신호라인을 포함한다. 일관성 통신용으로 사용되는, 로컬 상호접속망(16) 내의 신호라인이 하기 표4에 요약된다.
신호 이름 라인 수 설 명
AStatOut <0:1> 2 각 버스 수신기가 표명한 부호화된 신호로 플로우 컨트롤 또는 오류 정보를 중재기에 알림.
AStatIn <0:1> 2 버스 수신기가 표명한 AStatOut 신호의 탤리(tally)에 응답하여 중재기가 표명한 부호화된 신호
ARespOut <0:2> 3 각 버스 수신기가 표명한 부호화된 신호로서 일관성 정보를 중재기에 알림.
ARespIn <0:2> 3 버스 수신기가 표명한 ARespOut 신호의 탤리에 응답하여 중재기가 표명한 부호화된 신호
I-명령어 채널(31)을 통하여 프로세싱 노드들(10) 사이에서 전송되는 일관성 응답과는 달리, 로컬 상호접속망(16)의 AResp 및 AStat 라인을 통하여 전송되는 일관성 응답은 연관된 어드레스 버스 트랜잭션과 고정형이지만 프로그램 가능한 타이밍 관계를 갖는 것이 바람직하다. 예를 들어, 각 스눕퍼 응답의 예비 표시를 로컬 어드레스 버스 상의 통신 트랜잭션에 제공하는 AStatOut 선택은 로컬 어드레스 버스에 대한 요구의 수령이 뒤따르는 제2 사이클에서 요구될 수 있다. 중재기(24)는 AStatOut 선택을 컴파일하고, 고정형이지만 프로그램 가능한 횟수의 사이클(예를 들어 1사이클) 후에 AStatIn 선택을 발행한다. 가능한 AStat 선택은 하기 표5에 요약되어 있다.
AStat 선택 의미
널(Null) 아이들링 상태(idle)
Ack 스눕퍼가 트랜잭션을 수령함
오류(Error) 트랜잭션에서 검출된 패리티 오류
재시도(Retry) 일반적으로 플로우 컨트롤용으로 사용되는 재시도 트랜잭션
AStatIn 주기 후에, 고정형이지만 프로그램 가능한 횟수의 사이클(예를 들어, 2 사이클) 후에 ARespOut 선택이 요구될 수 있다. 중재기(24)는 또한 바람직하게는 다음 사이클 동안에 각 스누퍼의 ARespOut 선택을 컴파일하고 ARespIn 선택을 전달(deliver)한다. 가능한 AResp 선택은 바람직하게는 상기 표3에 열거된 일관성 응답을 포함한다. 또한, 가능한 AResp 선택은 '재실행(ReRun)'을 포함한다. 일반적으로 노드 컨트롤러(20)에 의하여 발행되는 '재실행'은 스누핑된 요구가 긴 대기시간을 가지며, 이 요구의 근원지가 후에 트랜잭션을 재발행하도록 지시 받을 것임 을 표시한다. 따라서, 재시도 응답과는 달리, 재실행 응답은 재실행을 선택한 트랜잭션의 수령자(트랜잭션의 발원자(originator)는 아님)로 하여금 나중에 통신 트랜잭션이 재발행되도록 하는 책임을 지게 한다.
노드 컨트롤러
도 2(c)는 도 1의 NUMA 컴퓨터 시스템(8) 내의 노드 컨트롤러의 상세한 블록도이다. 도 2(c)에 도시된 바와 같이, 로컬 상호접속망(16)과 노드 상호접속망(22) 사이에 결합된 각 노드 컨트롤러(20)는 트랜잭션 수신 유닛(transaction receive unit; 40), 트랜잭션 송신 유닛(transaction send unit; 42), 데이터 수신 유닛(DRU; 44) 및 데이터 송신 유닛(DSU; 46)을 포함한다. 트랜잭션 수신 유닛(40), 트랜잭션 송신 유닛(42), DRU(44) 및 DSU(46)는 예를 들어, 필드 프로그래머블 게이트 어레이(Field Programmable Gate Arrays; FPGA) 또는 주문형 집적 회로(Application Specific Integrated Circuits; ASIC)로 구현될 수 있다. 도시된 바와 같이, 어드레스와 데이터 경로는 노드 컨트롤러(20)를 통하여 분할되며, 어드레스 신호는 트랜잭션 수신 유닛(40)과 트랜잭션 송신 유닛(42)에 의하여 처리되고, 데이터 신호는 DRU(44)와 DSU(46)에 의하여 처리된다.
노드 상호접속망(22)으로부터의 트랜잭션 유출(flow off)을 표시하도록 지정된 트랜잭션 수신 유닛(40)은 I-명령어 채널(31)로부터 I-명령어를 수신하고, 노드 상호접속망(22)으로부터 트랜잭션과 응답을 수신하고, 수신된 트랜잭션을 로컬 상호접속망(16)에 발행하고, 트랜잭션 송신 유닛(42)에 응답을 전달할 책임이 있다. 트랜잭션 수신 유닛(40)은 또한 트랜잭션 버퍼(52)를 유지할 책임이 있다. 트랜잭션 버퍼(52)는 트랜잭션 수신 유닛(40)이 공유 어드레스 버스(26)상에서 스누핑한 통신 트랜잭션━여기서 통신 트랜잭션은 로컬 프로세싱 노드가 아닌 다른 프로세싱 노드(10)를 근원지로 하며, 또한 다른 프로세싱 노드(10)를 목적지로 함━을 기억하는 연관 버퍼이다. 트랜잭션 버퍼(52) 내의 각 엔트리는 트랜잭션 태그(즉, 어드레스 비트<8:15>)와 연관된 통신 트랜잭션을 기억하여, 도 4와 관련하여 이하 서 설명되는 바와 같이, 통신 트랜잭션이 빠르게 액세스될 수 있다.
트랜잭션 송신 유닛(42)은 그 이름이 나타내는 바와 같이 트랜잭션을 노드 상호접속망(22) 상으로 유입시키는 도관(conduit)으로, 트랜잭션 수신 유닛(40)과 상호작용하여 메모리 요구 트랜잭션을 처리하고, 명령어를 DRU(44)와 DSU(46)에 발행하여 로컬 상호접속망(16)과 노드 상호접속망(22)의 데이터 부분 사이에서 데이터 전송을 컨트롤한다. 트랜잭션 송신 유닛(42)은 또한 노드 상호접속망(22)에 대한 선택된 일관성 프로토콜(즉, MSI)을 구현하고 일관성 디렉토리(50)를 유지한다.
일관성 디렉토리(50)는 상기 로컬 프로세싱 노드가 홈노드인 경우, 원격노드의 캐시와 일치하는 데이터(즉, 캐시 라인)의 시스템 메모리 어드레스의 표시를 기억한다. 각 데이터에 대한 상기 어드레스 표시는 해당 데이터의 사본(copy)을 갖는 각 프로세싱 노드의 식별자 및 상기 각 프로세싱 노드에서의 데이터 일관성 상태와 함께 일관성 디렉토리(50)에 기억된다. 일관성 디렉토리(50)의 엔트리가 가질 수 있는 일관성 상태가 표6에 요약되어 있다.
일관성 디렉토리 상태 로컬 캐시의 가능한 상태 원격 캐시의 가능한 상태 의 미
수정(M) I M,E 또는 I 캐시 라인이 홈노드의 시스템 메모리에 대하여 원격노드에서 수정될 수 있음
공유(S) S 또는 I S 또는 I 캐시 라인이 원격노드에서 비배타적으로 유지 될 수 있음
무효(I) M,E,S 또는 I I 어느 원격노드도 캐시 라인을 유지하고 있지 않음
공유-지속 S 또는 I S 또는 I 캐시 라인이 원격노드에서 무효화 과정 중에 있음
수정-지속 I M,E 또는 I 원격적으로 수정될 수 있는 캐시 라인이, 가능하다면 원격노드에서의 무효화와 함께, 홈노드에 있는 시스템 메모리에 기록되는 과정 중임
표6에 표시된 바와 같이, 원격 프로세싱 노드가 유지하고 있는 캐시 라인의 일관성 상태의 정보는 정확하지 못하다. 원격적으로 유지되는 캐시 라인이 S로부터 I, E로부터 I, 또는 E로부터 M으로 홈노드의 노드 컨트롤러(20)에게 알리지 않고 천이할 수 있기 때문에 상기 부정확성이 발생한다.
종래 기술에 따른 '제3 노드' 통신 시나리오
도 3(a) 내지 도 3(d)는 종래 기술에 따른 NUMA 컴퓨터 시스템 내의 예시적인 '제3 노드' 통신 시나리오를 도시하고 있다. 도시된 바와 같이, 종래 NUMA 컴퓨터 시스템(58)은 각각 참조번호 60, 62, 64 및 66으로 나타낸 제1, 제2, 제3 및 제4 노드를 포함한다. 제2 노드(62)가 제3 노드(64)에 의해 배타적(즉, E 또는 M 상태)으로 유지되고 있는 데이터의 홈노드이고, 제1 노드(60)는 판독요구를 노드 상호접속망에 동보(broadcast)하여 상기 데이터를 요구한다고 가정한다. 도 3(a)에 도시된 바와 같이, 제2 노드(62), 제3 노드(64) 및 제4 노드(66)는 상기 요구 트랜잭션을 수신한다. 그러나 제2 노드(62)가 상기 요구된 데이터를 소유하고 있기 때문에 제3 노드(64) 및 제4 노드(66)는 상기 데이터 요구를 완전히 여과(즉, 무시)한다. 상기 요구 트랜잭션의 수신에 응답하여, 제2 노드(62)는 자신의 노드 디렉토리를 검사하여 요구된 데이터의 사본이 원격노드 내에 유지되고 있는지 여부를 결정한다. 상기 요구된 데이터가 원격노드에 의하여 배타적으로 유지되고 있음이 제2 노드(62)의 노드 디렉토리에 기록되어 있으므로, 제2 노드(62)는 제1 노드(60)로부터 수신된 요구 트랜잭션에 즉시 응답할 수 없다. 이는 제2 노드(62)에 있는 상기 요구된 데이터가 변경을 반영하지 못하는(stale) 상태로 될 수 있기 때문이다(즉, 제3 노드(64)의 프로세서가 상기 요구 데이터를 수정할 수 있다).
따라서 도 3(b)에 도시된 바와 같이, 제2 노드(62)는 노드 상호접속망을 통하여 제3 노드(64)에 요구 데이터의 어드레스를 특정하는 요구 트랜잭션을 발행한다. 화살표(70)로 표시된 바와 같이, 요구 트랜잭션에 응답하여 제3 노드(64)는 상기 요구된 데이터를 기억할 수 있는 내부 캐시에 상기 요구 트랜잭션을 전달한다. 요구된 데이터를 배타적으로 유지하고 있는 내부 캐시가 공유 일관성 응답으로 응답하여, 요구된 데이터의 일관성 상태를 S 상태로 갱신할 것임을 표시한다. 그 후, 도 3(c)에 도시된 바와 같이, 제3 노드(64)는 공유 응답을 제2 노드(62)에 전송하여, 제3 노드(64)가 유지하고 있는, 요구된 데이터의 사본이 갖는 일관성 상태가 공유 상태로 갱신 중임을 제2 노드(62)에 알려준다.
마지막으로, 도 3(d)를 참조하면 제3 노드(64)로부터 공유 응답의 수신에 응답하여 제2 노드(62)는 요구 트랜잭션을 화살표(72)로 예시된 것과 같이 처리할 수 있다. 그 후, 화살표(74)로 표시된 바와 같이 공유 일관성 상태를 갖는 요구된 데이터는 제1 노드(60)에 제공된다. 이러한 종래의 제3 노드 통신 시나리오가 NUMA 컴퓨터 시스템의 노드들 사이에서 데이터 일관성을 보장하지만, 도 3(a) 및 3(b)에 도시된 바와 같이, 동일한 통신 트랜잭션이 제3 노드(64)에 두 번 전송된다는 점에 유의하여야 한다. 본 발명은 노드 상호접속망을 경유하는 이러한 불필요한 통신을 효과적으로 제거하여, 통신 대기시간을 감소시키고 NUMA 컴퓨터 시스템의 확장성을 향상시킨다.
혁신적인 제3 노드 통신 시나리오
본 발명에 따른 제3 노드 통신 방법의 상위레벨 논리 흐름도가 도 4에 예시되어 있다. 도 4의 흐름도는 상기 예시적인 종래 기술의 시나리오와 동일한 초기 상태를 가정한다. 즉, 프로세싱 노드(10c)가 배타적으로 유지하고 있으며, 프로세싱 노드(10b)를 홈노드로 갖는 캐시 라인에 대해 프로세서(12a-12d) 중 하나가 판독 요구를 발행한다고 가정한다.
도시된 바와 같이, 블록(80)에서 프로세스를 시작하여 블록(82)으로 진행한다. 블록(82)은 특정 어드레스에 있는 데이터를 요구하는 통신 트랜잭션을 노드 상호접속망(22)의 공유 어드레스 버스(26)를 통하여 전송하는 프로세싱 노드(10a)의 노드 컨트롤러(20)를 설명한다. 바람직한 실시예에 있어서 공유 어드레스 버스(26)가 동보 매체(broadcast medium)이기 때문에, 각 프로세싱 노드(10b), (10c) 및 (10d)는 이 요구 트랜잭션을 수신한다. 블록(82) 다음에, 프로세스는 블록(84-88)과 블록(90) 모두로 진행한다.
블록(84-88)은 프로세싱 노드(10b, 즉 요구된 캐시 라인의 홈노드)가 공유 어드레스 버스(26) 상의 요구 트랜잭션의 수신에 응답하여 수행하는 프로세싱을 도시한다. 첫 째, 블록(84)에 도시된 바와 같이, 프로세싱 노드(10b)의 노드 컨트롤러(20)는 자신의 로컬 상호접속망(16)의 소유권(ownership)을 중재하고, 로컬 상호접속망(16) 상의 요구 트랜잭션을 관장한다. 그 후 프로세스는 블록(86)으로 진행한다. 블록(86)은 요구 트랜잭션에 대한 ARespOut 일관성 응답의 재실행을 선택하는 프로세싱 노드(10b)의 노드 컨트롤러(20)를 도시한다. 상기 재실행 선택은 트랜잭션 송신 유닛(42)이 일관성 디렉토리(50)를 참조하여 요구된 캐시 라인의 일관성 상태가 제3 프로세싱 노드(즉, 요구된 데이터를 배타적으로 유지하고 있는 프로세싱 노드(10c))를 개입시키지 않고는 결정될 수 없다고 판단하였음을 표시한다. 블록(88)에 도시된 바와 같이, ARespIn의 재실행을 선택하는 로컬 상호접속망(16)의 중재기(24)에 응답하여, 프로세싱 노드(10b)의 노드 컨트롤러(20) 내의 트랜잭션 송신 유닛(42)은 I-명령어 채널(31)을 통하여 프로세싱 노드(10c)로, 프로세싱 노드(10a)가 발행한 원래(original) 요구 트랜잭션의 트랜잭션 태그와 함께 '제3 노드 실행(3rd node run)' I-명령어를 발행한다. 상기 I-명령어가 노드 상호접속망(22)의 어드레스 또는 데이터 부분이 아니라 측파대 I-명령어 채널(31)을 통하여 전송되기 때문에, 그렇지 않았더라면 낭비되었을 노드 상호접속망(22)의 어드레스 대역폭이 다른 트랜잭션의 통신에 효과적으로 사용될 수 있다. 이러한 방법으로, 노드 상호접속망(22)의 대역-제한 블록킹 부분의 통신 대기시간이 감소된다. 블록(88) 후에, 프로세스는 이하에서 기술될 블록(100)으로 진행한다.
블록(90)은 각각이 요구 트랜잭션의 근원지도 목적지도 아닌 프로세싱 노드(10c) 및 (10d)에서, 프로세싱 노드(10a)가 발행한 요구 트랜잭션의 수신에 응답하여 촉발된 프로세싱을 예시하고 있다. 표시된 바와 같이, 각 프로세싱 노드(10c) 및 (10d) 내의 트랜잭션 수신 유닛(40)은 요구 트랜잭션과 트랜잭션 태그를 각자의 트랜잭션 버퍼(52) 내의 엔트리에 기억한다. 바람직한 실시예에 있어서, 스눕퍼된 모든 트랜잭션이 제3 노드(즉, 트랜잭션의 근원지도 목적지도 아닌 프로세싱 노드)의 트랜잭션 버퍼(52)에 기억되는 것은 아니다. 대신에, 트랜잭션 버퍼(52)의 한정된 기억 용량을 보호하기 위하여, 어드레스 신호 라인<0:7>과 TDesciptor가 제3 노드의 개입을 요구할 가능성이 있는 트랜잭션으로 식별한 트랜잭션만이 버퍼에 기억된다. 물론, 버퍼에 기억되지 않고 재전송되는 경우에는 임계량보다 많은 통신 자원의 사용을 수반하여야 하는 트랜잭션만을 기억하는 것과 같은, 한정된 크기를 갖는 트랜잭션 버퍼(52)의 기억 효율을 개선하기 위한 다른 최적화 방법도 가능하다.
프로세스가 블록(90)으로부터 블록(100)으로 진행한다. 블록(100)은 프로세싱 노드(10c)(제3 노드)가 '제3 노드 실행' I-명령어를 수신하였는지 여부에 대한 결정을 설명한다. 만일 수신되지 않은 경우, 프로세싱 노드(10c)가 '제3 노드 실행' I-명령어를 수신할 때까지 도 4에 예시된 프로세스는 블록(100)에서 반복된다. 물론, 프로세싱 노드(10c)가 요구 트랜잭션을 트랜잭션 버퍼(52)에 기록하는 시점과 프로세싱 노드(10c)가 '제3 노드 실행' I-명령어를 수신하는 시점 사이의 기간 동안에, 프로세싱 노드(10a-10d)는 다른 통신 트랜잭션을 개시, 수신 및 처리할 수 있다. 그 후, 프로세싱 노드(10c)가 '제3 노드 실행' I-명령어를 수신했다는 블록(100)에서의 결정에 응답하여, 프로세스는 블록(102)으로 진행한다.
블록(102)은 프로세싱 노드(10c)의 노드 컨트롤러(20) 내에 있는 트랜잭션 수신 유닛(40)에 의해 이루어지는, I-명령어 채널(31)을 통하여 수신된 트랜잭션 태그와 일치하는 트랜잭션 태그가 트랜잭션 버퍼(52)에 기억되었는지의 여부에 대한 결정을 예시하고 있다. 트랜잭션 버퍼(52)의 크기, 및 단계(90)와 단계(102) 사이에서 프로세싱 노드(10c)가 수신한 통신 트랜잭션의 수에 따라서, 이 트랜잭션 태그가 지정한(specify) 트랜잭션은 버퍼의 한정된 크기 때문에 트랜잭션 버퍼(52)에 더 이상 기억되지 못할 수 있다. 일치된 트랜잭션 태그를 갖는 트랜잭션이 트랜잭션 버퍼(52)에 기억되면, 프로세스는 이하에서 설명되는 바와 같이, 블록(102)에서 블록(108)으로 진행한다. 그러나 I-명령어 채널(31)을 통하여 수신된 트랜잭션 태그가 트랜잭션 버퍼(52) 내의 어느 트랜잭션 태그와도 일치하지 않는다는 결정에 응답하여, 프로세스는 블록(104)으로 진행한다. 블록(104)은 수신된 트랜잭션 태그와 함께 '재발행(Reissue)' I-명령어를 I-명령어 채널(31)을 통하여 프로세싱 노드(10b)에 전송하는 프로세싱 노드(10c)를 묘사하고 있다. 블록(106)에 도시된 바와 같이, 프로세싱 노드(10b)는 '재발행' I-명령어의 수신에 응답하여, 도 3에 관하여 상기 설명된 바와 같이 노드 상호접속망(22)의 공유 어드레스 버스(26)를 통하여 통신 트랜잭션을 프로세싱 노드(10c)에 재전송한다. 따라서 관련 통신 트랜잭션이 프로세싱 노드(10c)의 트랜잭션 버퍼(52)에 기억되지 않는, 통계적으로 발생할 가능성이 적은 이벤트의 경우에, NUMA 컴퓨터 시스템(8)은 종래 NUMA 컴퓨터 시스템(58)과 같이 제3 노드 통신 시나리오를 처리한다.
프로세스는 블록(102) 또는 블록(106)으로부터 블록(108)으로 진행한다. 블록(108)은 프로세싱 노드(10c)의 로컬 상호접속망(16) 상의 요구 트랜잭션(트랜잭션 버퍼(52)로부터 액세스되거나, 프로세싱 노드(10b)로부터 수신됨)을 습득하는, 프로세싱 노드(10c)의 노드 컨트롤러(20) 내에 있는 트랜잭션 수신 유닛(40)을 예시한다. 요구 트랜잭션에 응답하여, 노드 상호접속망(16)에 부가된 각각의 스눕퍼는 ARespOut 주기동안 일관성 응답을 선택한다. 요구된 데이터를 배타적으로 유지하고 있는 스눕퍼는 ARespOut 주기동안 공유를 선택하고, 갱신을 개시하여 요구된 캐시 라인의 일관성 상태를 S상태로 갱신하며, 그 동안, 다른 스눕퍼는 널을 선택한다. 블록(110)에 묘사된 바와 같이, ARespIn 주기동안 프로세싱 노드(10c)의 버스 중재기(24)는 이러한 일관성 응답을 컴파일하고 공유 일관성 응답을 발행한다. 공유 ARespIn 일관성 응답의 수신에 응답하여, 노드 컨트롤러(20) 내의 트랜잭션 송신 유닛(42)은 공유 응답과 트랜잭션 태그를 포함하는 I-명령어를 I-명령어 채널(31)을 통하여 프로세싱 노드(10b)로 전송한다. 그 후 프로세스는 블록(112)으로 진행한다. 블록(112)은 프로세싱 노드(10b)의 로컬 상호접속망(16) 상의 요구 트랜잭션을 재실행하는 프로세싱 노드(10b)의 노드 컨트롤러(20)를 예시하고 있다. 재실행 요구 트랜잭션의 스눕핑에 응답하여, 프로세싱 노드(10b)의 노드 컨트롤러(20)는 ARespOut 주기동안 공유를 선택하는데, 이는 프로세싱 노드(10c)가 요구된 데이터를 공유 상태로 유지하고 있음을 표시한다. 그 후, 프로세싱 노드(10b)의 버스 중재기(24)는 일관성 응답을 컴파일하고 ARespIn 주기동안 공유를 선택한다. 마지막으로, 블록(114)에 도시된 바와 같이, 프로세싱 노드(10b)의 노드 컨트롤러(20)는 공유 응답과 트랜잭션 태그를 포함하는 I-명령어를 I-명령어 채널(31)을 통하여 프로세싱 노드(10a)에 전송하며, 요구된 캐시 라인을 데이터-출력 채널(28)을 통하여 프로세싱 노드(10a)에 제공한다. 그 후 프로세스는 블록(116)에서 종료된다.
상기한 바와 같이, 본 발명은 개선된 NUMA 컴퓨터 시스템 및 NUMA 컴퓨터 시스템의 개선된 제3 노드 통신 방법을 제공한다. 본 발명에 따라서, 제3 노드의 개입을 요구할 가능성이 있는 트랜잭션이 통신 트랜잭션의 근원지도 목적지도 아닌 제3 노드의 버퍼에 기억된다. 제3 노드의 개입이 요구되는 경우, 트랜잭션은 노드 상호접속망 내의 공유 어드레스 버스를 통하여 재전송되는 것이 아니라 상기 버퍼로부터 액세스된다. 이러한 방법에서는, 노드 상호접속망의 대역폭이 제한된 부분의 트래픽(traffic)이 효과적으로 감소됨으로써 통신 대기시간이 감소되고 전체 시스템 성능이 향상된다.
본 발명이 바람직한 실시예를 참조하여 도시되고 설명되었지만, 본 발명의 정신 및 범위를 이탈하지 않고 형식 및 세부 사항에 대한 다양한 변경이 가능하다. 예를 들어, 본 발명이 노드 상호접속망이 버스-기반 구조(예를 들어, 공유 버스)인 바람직한 실시예에 관하여 설명되었지만, 크로스바 스위치 같은 2 지점간(point-to-point) 동보 구조를 사용하여 노드 상호접속망을 구현한 변형 실시예도 가능하다. 이 실시예에서, 각 노드용 버퍼 및 연관된 컨트롤 로직은 각 노드 내에 통합되는 것이 아니라 구현되기보다는 크로스바 스위치에 결합된다.

Claims (14)

  1. 비균일 메모리 액세스(NUMA) 컴퓨터 시스템에 있어서,
    a) 상호접속망과,
    b) 상기 상호접속망에 결합된 적어도 제1, 제2 및 제3 프로세싱 노드━여기서 제1, 제2 및 제3 프로세싱 노드는 각각 적어도 하나의 프로세서와 하나의 로컬 시스템 메모리를 포함함━와,
    c) 상기 상호접속망에 결합되며, 상기 상호접속망 상에서 전송되는 통신 트랜잭션━이 트랜잭션의 근원지 및 목적지는 상기 제3 프로세싱 노드 이외의 프로세싱 노드들 임━을 기억하는 트랜잭션 버퍼와,
    d) 상기 상호접속망에 결합되며, 원래는 다른 프로세싱 노드를 목적지로 하는 특정 통신 트랜잭션이 상기 제3 프로세싱 노드에 의해 처리되어야 한다는 결정에 응답하여, 상기 특정 통신 트랜잭션이 제3 프로세싱 노드에 의해 상기 트랜잭션 버퍼로부터 검색되고 처리되도록 하는 버퍼 컨트롤 로직
    을 포함하는 비균일 메모리 액세스 컴퓨터 시스템.
  2. 제1항에 있어서,
    상기 상호접속망은 동보(broadcast) 상호접속망을 포함하며, 상기 트랜잭션 버퍼와 상기 버퍼 컨트롤 로직은 상기 제3 프로세싱 노드의 일부를 형성하는 것인 비균일 메모리 액세스 컴퓨터 시스템.
  3. 제1항에 있어서,
    상기 트랜잭션 버퍼는 상기 제3 프로세싱 노드에 의한 프로세싱을 요구할 가능성이 있는 통신 트랜잭션만을 기억하는 것인 비균일 메모리 액세스 컴퓨터 시스템.
  4. 제1항에 있어서,
    상기 트랜잭션 버퍼의 각 통신 트랜잭션은 연관된 트랜잭션 태그에 의해 액세스되는 것인 비균일 메모리 액세스 컴퓨터 시스템.
  5. 제4항에 있어서,
    상기 제2 프로세싱 노드는 상기 제2 프로세싱 노드를 목적지로 하는 상기 특정 통신 트랜잭션의 수신에 응답하여, 상기 특정 통신 트랜잭션이 제3 프로세싱 노드에 의해 처리되어야 하는지의 여부를 결정하고, 상기 특정 통신 트랜잭션이 제3 프로세싱 노드에 의해 처리되어야 하는 경우 상기 특정 통신 트랜잭션과 연관된 트랜잭션 태그를 상기 버퍼 컨트롤 로직에 전송하는 노드 컨트롤러
    를 더 포함하는 비균일 메모리 액세스 컴퓨터 시스템.
  6. 제1항에 있어서,
    상기 상호접속망은 제2 프로세싱 노드로부터 상기 버퍼 컨트롤 로직으로 상기 트랜잭션 태그를 전달하는 비-블록킹 상호접속망(non-blocking interconnect)
    을 포함하는 비균일 메모리 액세스 컴퓨터 시스템.
  7. 제1항에 있어서,
    상기 버퍼 컨트롤 로직은 원래 다른 프로세싱 노드를 목적지로 하고 또한 상기 제3 프로세싱 노드에 의해 처리되어야 하는 통신 트랜잭션이 상기 트랜잭션 버퍼 내에 기억되어 있지 않다는 결정에 응답하여, 재발행(reissue) 명령어를 다른 프로세싱 노드에 전송하는 것인
    비균일 메모리 액세스 컴퓨터 시스템.
  8. 상호접속망에 결합된 적어도 제1, 제2 및 제3 프로세싱 노드━여기서 제1, 제2 및 제3 프로세싱 노드는 각각 적어도 하나의 프로세서와 하나의 로컬 시스템 메모리를 포함함━를 포함하는 비균일 메모리 액세스(NUMA) 컴퓨터 시스템을 동작시키는 방법에 있어서,
    a) 상기 제2 프로세싱 노드를 목적지로하는 통신 트랜잭션을 상기 제1 프로세싱 노드로부터 상호접속망 상에 전송하는 단계와,
    b) 상기 상호접속망에 결합된 상기 제2 프로세싱 노드와 상기 트랜잭션 버퍼 모두에서 상기 통신 트랜잭션을 수신하는 단계와,
    c) 상기 통신 트랜잭션을 상기 트랜잭션 버퍼에 기억하는 단계와,
    d) 상기 통신 트랜잭션이 상기 제3 프로세싱 노드에 의해 처리되어야 한다는 결정에 응답하여, 상기 통신 트랜잭션을 상기 트랜잭션 버퍼로부터 검색하고 상기 제3 프로세싱 노드에서 처리하는 단계
    를 포함하는 비균일 메모리 액세스 컴퓨터 시스템을 동작시키는 방법.
  9. 제8항에 있어서,
    상기 상호접속망은 동보 상호접속망을 포함하며,
    상기 제3 프로세싱 노드는 상기 트랜잭션 버퍼와 상기 버퍼 컨트롤 로직을 포함하는 것이고,
    상기 트랜잭션 버퍼에서 상기 통신 트랜잭션을 수신하는 b) 단계는 상기 제3 프로세싱 노드에서 상기 통신 트랜잭션을 수신하는 단계
    를 포함하는 방법.
  10. 제8항에 있어서,
    상기 통신 트랜잭션을 상기 트랜잭션 버퍼에 기억하는 c) 단계는 상기 통신 트랜잭션이 제3 프로세싱 노드에 의한 프로세싱을 요구할 가능성이 있는 경우에 상기 트랜잭션 버퍼 내에 상기 통신 트랜잭션을 기억하는 단계
    를 포함하는 방법.
  11. 제8항에 있어서,
    상기 트랜잭션 버퍼로부터 상기 통신 트랜잭션을 검색하는 단계 d)는 연관된 트랜잭션 태그를 사용하여 상기 트랜잭션 버퍼로부터 상기 통신 트랜잭션을 검색하는 단계
    를 포함하는 방법.
  12. 제8항에 있어서,
    e) 상기 제2 프로세싱 노드를 목적지로하는 상기 통신 트랜잭션이 상기 제2 프로세싱 노드에서 수신되는 것에 응답하여, 상기 제2 프로세싱 노드에서 상기 특정 통신 트랜잭션이 상기 제3 프로세싱 노드에 의하여 처리되어야 하는지의 여부를 결정하는 단계와,
    f) 상기 특정 통신 트랜잭션이 상기 제3 프로세싱 노드에 의해 처리되어야 한다는 결정에 응답하여, 상기 결정의 표시를 상기 트랜잭션 버퍼에 전송하는 단계
    를 더 포함하는 방법.
  13. 제12항에 있어서,
    상기 결정의 표시를 전송하는 단계는 비-블록킹 상호접속망을 통하여 상기 표시를 전송하는 단계를 포함하는 것인 방법.
  14. 제8항에 있어서,
    원래 상기 제2 프로세싱 노드를 목적지로하고 또한 상기 제3 프로세싱 노드에 의해 처리되어야 하는 통신 트랜잭션이 상기 트랜잭션 버퍼 내에 기억되어 있지 않다는 결정에 응답하여, 상기 버퍼 컨트롤 로직으로부터 상기 제2 프로세싱 노드로 재발행 명령어를 전송하는 단계
    를 더 포함하는 방법.
KR1019990018121A 1998-06-30 1999-05-19 잠재적인 제3 노드 트랜잭션을 버퍼에 기록하여 통신 대기시간을 감소시키는 비균일 메모리 액세스(numa) 데이터 프로세싱 시스템 KR100324975B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/106,945 US6067611A (en) 1998-06-30 1998-06-30 Non-uniform memory access (NUMA) data processing system that buffers potential third node transactions to decrease communication latency
US09/106,945 1998-06-30

Publications (2)

Publication Number Publication Date
KR20000005690A KR20000005690A (ko) 2000-01-25
KR100324975B1 true KR100324975B1 (ko) 2002-02-20

Family

ID=22314080

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990018121A KR100324975B1 (ko) 1998-06-30 1999-05-19 잠재적인 제3 노드 트랜잭션을 버퍼에 기록하여 통신 대기시간을 감소시키는 비균일 메모리 액세스(numa) 데이터 프로세싱 시스템

Country Status (5)

Country Link
US (1) US6067611A (ko)
JP (1) JP3470951B2 (ko)
KR (1) KR100324975B1 (ko)
BR (1) BR9903228A (ko)
CA (1) CA2271536C (ko)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6546429B1 (en) * 1998-09-21 2003-04-08 International Business Machines Corporation Non-uniform memory access (NUMA) data processing system that holds and reissues requests at a target processing node in response to a retry
US6418462B1 (en) * 1999-01-07 2002-07-09 Yongyong Xu Global sideband service distributed computing method
US6192452B1 (en) * 1999-02-26 2001-02-20 International Business Machines Corporation Method and system for avoiding data loss due to cancelled transactions within a non-uniform memory access system
US6591348B1 (en) * 1999-09-09 2003-07-08 International Business Machines Corporation Method and system for resolution of transaction collisions to achieve global coherence in a distributed symmetric multiprocessor system
US6591307B1 (en) * 1999-11-09 2003-07-08 International Business Machines Corporation Multi-node data processing system and method of queue management in which a queued operation is speculatively cancelled in response to a partial combined response
JP3764015B2 (ja) * 1999-12-13 2006-04-05 富士通株式会社 メモリアクセス方法及びマルチプロセッサシステム
KR100362607B1 (ko) * 2000-05-10 2002-11-29 정상화 I/o 버스상의 캐쉬 일관성 비단일 메모리 엑세스 모듈을 포함하는 멀티프로세서 시스템의 프로세싱 노드 장치 및 그 제어방법
US20030041215A1 (en) * 2001-08-27 2003-02-27 George Robert T. Method and apparatus for the utilization of distributed caches
US8185602B2 (en) 2002-11-05 2012-05-22 Newisys, Inc. Transaction processing using multiple protocol engines in systems having multiple multi-processor clusters
US7917646B2 (en) * 2002-12-19 2011-03-29 Intel Corporation Speculative distributed conflict resolution for a cache coherency protocol
US7111128B2 (en) * 2002-12-19 2006-09-19 Intel Corporation Hierarchical virtual model of a cache hierarchy in a multiprocessor system
US7644237B1 (en) * 2003-06-23 2010-01-05 Mips Technologies, Inc. Method and apparatus for global ordering to insure latency independent coherence
US20050262250A1 (en) * 2004-04-27 2005-11-24 Batson Brannon J Messaging protocol
US20050240734A1 (en) * 2004-04-27 2005-10-27 Batson Brannon J Cache coherence protocol
US7822929B2 (en) * 2004-04-27 2010-10-26 Intel Corporation Two-hop cache coherency protocol
US7305524B2 (en) * 2004-10-08 2007-12-04 International Business Machines Corporation Snoop filter directory mechanism in coherency shared memory system
US7577794B2 (en) * 2004-10-08 2009-08-18 International Business Machines Corporation Low latency coherency protocol for a multi-chip multiprocessor system
US8332592B2 (en) * 2004-10-08 2012-12-11 International Business Machines Corporation Graphics processor with snoop filter
US7451231B2 (en) * 2005-02-10 2008-11-11 International Business Machines Corporation Data processing system, method and interconnect fabric for synchronized communication in a data processing system
US7395381B2 (en) * 2005-03-18 2008-07-01 Intel Corporation Method and an apparatus to reduce network utilization in a multiprocessor system
JP5115075B2 (ja) * 2007-07-25 2013-01-09 富士通株式会社 転送装置、転送装置を有する情報処理装置及び制御方法
JP6578992B2 (ja) * 2016-03-02 2019-09-25 富士通株式会社 制御回路、情報処理装置、および情報処理装置の制御方法
CN108123901B (zh) 2016-11-30 2020-12-29 新华三技术有限公司 一种报文传输方法和装置
US10579527B2 (en) 2018-01-17 2020-03-03 International Business Machines Corporation Remote node broadcast of requests in a multinode data processing system
US10713169B2 (en) 2018-01-17 2020-07-14 International Business Machines Corporation Remote node broadcast of requests in a multinode data processing system
US10387310B2 (en) 2018-01-17 2019-08-20 International Business Machines Corporation Remote node broadcast of requests in a multinode data processing system
US11068407B2 (en) 2018-10-26 2021-07-20 International Business Machines Corporation Synchronized access to data in shared memory by protecting the load target address of a load-reserve instruction
US10884740B2 (en) 2018-11-08 2021-01-05 International Business Machines Corporation Synchronized access to data in shared memory by resolving conflicting accesses by co-located hardware threads
US11119781B2 (en) 2018-12-11 2021-09-14 International Business Machines Corporation Synchronized access to data in shared memory by protecting the load target address of a fronting load
US11106608B1 (en) 2020-06-22 2021-08-31 International Business Machines Corporation Synchronizing access to shared memory by extending protection for a target address of a store-conditional request
US11693776B2 (en) 2021-06-18 2023-07-04 International Business Machines Corporation Variable protection window extension for a target address of a store-conditional request

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5535116A (en) * 1993-05-18 1996-07-09 Stanford University Flat cache-only multi-processor architectures
US5887146A (en) * 1995-08-14 1999-03-23 Data General Corporation Symmetric multiprocessing computer with non-uniform memory access architecture
US5673413A (en) * 1995-12-15 1997-09-30 International Business Machines Corporation Method and apparatus for coherency reporting in a multiprocessing system
US5893144A (en) * 1995-12-22 1999-04-06 Sun Microsystems, Inc. Hybrid NUMA COMA caching system and methods for selecting between the caching modes
US5878268A (en) * 1996-07-01 1999-03-02 Sun Microsystems, Inc. Multiprocessing system configured to store coherency state within multiple subnodes of a processing node

Also Published As

Publication number Publication date
CA2271536A1 (en) 1999-12-30
JP2000112910A (ja) 2000-04-21
BR9903228A (pt) 2000-10-03
CA2271536C (en) 2002-07-02
JP3470951B2 (ja) 2003-11-25
US6067611A (en) 2000-05-23
KR20000005690A (ko) 2000-01-25

Similar Documents

Publication Publication Date Title
KR100324975B1 (ko) 잠재적인 제3 노드 트랜잭션을 버퍼에 기록하여 통신 대기시간을 감소시키는 비균일 메모리 액세스(numa) 데이터 프로세싱 시스템
KR100348947B1 (ko) 노드 상호 접속망 상에서 요구를 예측 방식으로 발행하는 비균일 메모리 액세스 데이터 처리 시스템
US6546429B1 (en) Non-uniform memory access (NUMA) data processing system that holds and reissues requests at a target processing node in response to a retry
JP3644587B2 (ja) 共用介入サポートを有する不均等メモリ・アクセス(numa)・データ処理システム
KR100465583B1 (ko) 판독 요청을 원격 처리 노드에 추론적으로 전송하는 비정형 메모리 액세스 데이터 처리 시스템 및 이 시스템에서의 통신 방법
KR100308323B1 (ko) 공유된 개입 지원을 가지는 비균등 메모리 액세스 데이터처리 시스템
US5860159A (en) Multiprocessing system including an apparatus for optimizing spin--lock operations
US6067603A (en) Non-uniform memory access (NUMA) data processing system that speculatively issues requests on a node interconnect
US5749095A (en) Multiprocessing system configured to perform efficient write operations
US5983326A (en) Multiprocessing system including an enhanced blocking mechanism for read-to-share-transactions in a NUMA mode
US7395379B2 (en) Methods and apparatus for responding to a request cluster
US20010013089A1 (en) Cache coherence unit for interconnecting multiprocessor nodes having pipelined snoopy protocol
US6266743B1 (en) Method and system for providing an eviction protocol within a non-uniform memory access system
JPH10187645A (ja) プロセス・ノードの多数のサブノード内にコヒーレンス状態で格納するように構成されたマルチプロセス・システム
US6269428B1 (en) Method and system for avoiding livelocks due to colliding invalidating transactions within a non-uniform memory access system
JP2000250883A (ja) 不均等メモリ・アクセス・システムにおいてトランザクションのキャンセルによるデータ損失を避けるための方法およびシステム
US20040088495A1 (en) Cache coherence directory eviction mechanisms in multiprocessor systems
KR100348956B1 (ko) 재실행 요구를 촉진하여 대기시간을 감소시키는 비균일 메모리액세스 데이터 프로세싱 시스템
US7653790B2 (en) Methods and apparatus for responding to a request cluster
US7337279B2 (en) Methods and apparatus for sending targeted probes
MXPA99006144A (en) Data processing system for non-uniform memory access data introducing potential intermediate memories third-node transactions to decrease communicate waiting time

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20041228

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee