KR20140034130A - 분배 공유 메모리 멀티프로세서에서의 분할 트래픽 라우팅 - Google Patents

분배 공유 메모리 멀티프로세서에서의 분할 트래픽 라우팅 Download PDF

Info

Publication number
KR20140034130A
KR20140034130A KR1020137018545A KR20137018545A KR20140034130A KR 20140034130 A KR20140034130 A KR 20140034130A KR 1020137018545 A KR1020137018545 A KR 1020137018545A KR 20137018545 A KR20137018545 A KR 20137018545A KR 20140034130 A KR20140034130 A KR 20140034130A
Authority
KR
South Korea
Prior art keywords
processor
traffic
node
victim
link
Prior art date
Application number
KR1020137018545A
Other languages
English (en)
Other versions
KR101846485B1 (ko
Inventor
윌리엄 에이. 허그헤스
첸핑 양
마이클 케이. 퍼티그
케빈 엠. 레파크
Original Assignee
어드밴스드 마이크로 디바이시즈, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 어드밴스드 마이크로 디바이시즈, 인코포레이티드 filed Critical 어드밴스드 마이크로 디바이시즈, 인코포레이티드
Publication of KR20140034130A publication Critical patent/KR20140034130A/ko
Application granted granted Critical
Publication of KR101846485B1 publication Critical patent/KR101846485B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • G06F15/17306Intercommunication techniques
    • G06F15/17312Routing techniques specific to parallel machines, e.g. wormhole, store and forward, shortest path problem congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Multi Processors (AREA)
  • Small-Scale Networks (AREA)

Abstract

멀티칩 모듈 구성은 2개의 프로세서를 포함하고, 각 프로세서는 2개의 노드를 구비하며, 각 노드는 다수의 코어 또는 연산 유닛을 포함한다. 각 노드는 높은 대역폭이나 낮은 대역폭의 링크에 의해 다른 노드에 연결된다. 노드 간 트래픽 라우팅은 대역폭 사용량 및 트래픽 혼잡 제어를 최적화하는 라우팅 테이블 및/또는 제어 레지스터에 따라 각 노드에서 제어된다. 멀티칩 모듈 구성은 캐시 코히런트 분배 공유 메모리 멀티프로세서를 실현한다.

Description

분배 공유 메모리 멀티프로세서에서의 분할 트래픽 라우팅{SPLIT TRAFFIC ROUTING IN A DISTRIBUTED SHARED MEMORY MULTIPROCESSOR}
관련 출원에 대한 상호 참조
본 출원은 전체 내용이 본 명세서에 참조 문헌으로 병합된 2010년 12월 15일에 출원된 미국 정식 출원 제12/968,857호의 이익을 청구한다.
기술 분야
본 출원은 프로세서의 트래픽 라우팅(traffic routing)에 관한 것이다.
수 개의 코어 또는 연산 유닛을 각각 구비하는 다수의 처리 유닛으로 구성된 프로세서에서는 트래픽 전송을 허용하는 메모리 캐시와 코어 간의 대역폭이 가변적인 링크가 있다. 이들 링크 중 임의의 링크에 대한 트래픽 혼잡은 프로세서의 성능을 저하시킨다. 혼잡을 완화시키기 위해 트래픽 라우팅을 우회(diversion)시키는 것은 목적지에 도달하는데 추가적인 홉(hop)을 초래하여 단일 전송에 증가된 레이턴시(latency)를 초래할 수 있다.
멀티칩 모듈 구성은 2개의 프로세서를 포함하고, 각 프로세서는 2개의 노드를 구비하고, 각 노드는 다수의 코어 또는 연산 유닛을 포함한다. 각 노드는 높은 대역폭 또는 낮은 대역폭의 링크에 의해 다른 노드에 연결된다. 노드 간에 트래픽을 라우팅하는 것은 대역폭 사용량과 트래픽 혼잡 제어를 최적화하는 라우팅 테이블 및/또는 제어 레지스터에 따라 각 노드에서 제어된다.
도 1은 수 개의 연산 유닛, 라우팅 테이블, 및 다른 노드로의 링크와 인터페이싱하는 크로스바 유닛을 포함하는 프로세서 노드의 예시적인 기능 블록도;
도 2 내지 도 4는 프로세서 노드 간의 여러 링크를 통해 트래픽 흐름을 가지는 프로세서 구성의 예시적인 기능 블록도.
본 출원에서 프로세서는 복수의 노드를 포함할 수 있고, 각 노드는 복수의 연산 유닛을 구비할 수 있다. 멀티칩 프로세서는 노드를 다른 노드와 메모리 캐시에 링크하는 수단을 구비하는 적어도 2개의 프로세서를 포함하도록 구성된다.
도 1은 프로세서(110)의 예시적인 기능 블록도이다. 프로세서(110)는 중앙 처리 유닛(Central Processing Unit)(CPU) 또는 그래픽 처리 유닛(Graphics Processing Unit)(GPU)과 같은 여러 프로세서 중 임의의 프로세서일 수 있다. 예를 들어, 이 프로세서는 데스크톱, 랩탑, 서버 및 수퍼스칼라 컴퓨터에 사용되는 x86 64비트 명령 세트 아키텍처(instruction set architecture)를 구현하는 x86 프로세서이거나 또는 모바일 폰이나 디지털 미디어 플레이어에 사용되는 개선된 RISC(Reduced Instruction Set Computer) 기계(ARM) 프로세서일 수 있다. 음성 데이터 및 통신 신호와 같은 디지털 신호와 관련된 알고리즘을 처리하고 구현하는데 특히 유용한 DSP(Digital Signal Processor), 및 프린터와 복사기와 같은 소비자 애플리케이션에 유용한 마이크로제어기와 같은 프로세서의 다른 실시예도 고려된다.
도시된 바와 같이, 프로세서(110)는 연산 유닛(105, 106, 107)을 위한 명령 큐(command queue)로 사용되는 시스템 요청 큐(system request queue)(SRQ)(113)에 연결된 연산 유닛(105, 106, 107)을 포함한다. 크로스바(crossbar)(Xbar) 스위치(112)는 링크(L1, L2, L3, L4)와 SQR(113) 간에 인터페이싱한다. 라우팅 테이블(111)과 제어 레지스터(114)는 링크(L1, L2, L3, L4)를 통해 크로스바 인터페이스(112)와 트래픽 라우팅을 제어하도록 각각 구성된다. 4개의 링크(L1, L2, L3, L4)가 도 1에 도시되어 있으나, 이것은 예시를 위한 것이고, 여러 처리 용량의 링크를 포함하는 더 많거나 더 적은 링크가 프로세서 노드(110) 구성에 구현될 수 있다.
도 2는 2개의 노드 프로세서(201, 202)가 링크(253, 254, 255, 256)에 의해 연결된 멀티프로세서 구성(200)의 예시적인 기능 블록도를 도시한다. 프로세서(201)는 링크(251)에 의해 연결된 프로세서 노드(110, 120)를 포함한다. 메모리 캐시(210)는 메모리 채널(211)에 의해 프로세서 노드(110)에 연결되고, 메모리 캐시(220)는 메모리 채널(221)에 의해 프로세서 노드(120)에 연결된다. 프로세서(202)는 링크(252)에 의해 연결된 프로세서 노드(130, 140)를 포함한다. 메모리 채널(231)은 메모리 캐시(230)를 프로세서 노드(130)에 연결하고, 메모리 채널(241)은 메모리 캐시(240)를 프로세서 노드(140)에 연결한다. 링크(257, 258)는 네트워크 코드와 그래픽 드라이버와 같은 I/O 디바이스(205, 206)를 프로세서(201, 202)에 연결하는데 이용가능하다. 이 예시적인 구성에서, 크로스 링크(255, 256) 각각은 낮은 대역폭 연결(예를 들어, 8비트 연결, 또는 반 링크(half-link))인 반면, 링크(251, 252, 253, 254)는 높은 대역폭 연결(예를 들어, 16비트 연결, 또는 전 링크(full-link))이다. 대안적으로, 링크(251, 252, 253, 254)는 각각 다수의 연결(예를 들어, 하나의 전 링크와 하나의 반 링크)을 포함할 수 있다. 이 예에서, 라우팅 테이블(111)은 모든 노드-대-노드 전송(node-to-node transfer)을 위한 직접 경로를 제공한다. 예를 들어, 프로세서 노드(110)가 요청(261)을 프로세서 노드(140)에 송신할 필요가 있는 경우, 크로스 링크(255)는 직접 경로로 사용된다. 이런 형태의 라우팅 선택을 사용하면 단일 요청의 레이턴시가 낮아진다. 통계적으로, 모든 링크는 트래픽의 균일한 분배를 운반할 수 있다. 그러므로, 멀티프로세서 구성(200)의 트래픽 율(traffic rate)에서 대역폭의 상한(upper bandwidth limit)은 더 작은 대역폭 링크(255, 256)에 의해 설정된다.
도 3은 도 2에 도시된 구성(200)과 유사한 멀티프로세서 구성(300)의 블록도의 예시적인 기능 블록도를 도시한다. 이 예에서, 라우팅 테이블(111)은 높은 대역폭 링크(251, 252, 253, 254)에 트래픽을 유지하는 대안적인 라우팅 구조를 제공한다. 예를 들어, 프로세서 노드(110)가 프로세서 노드(140)에 송신할 요청을 가지고 있다면, 라우팅은 링크(251, 254)를 따라 2홉 요청(361, 362)으로 구성된다. 따라서, 이 단일 요청에 대한 레이턴시는 단일 홉 요청(261)의 레이턴시의 대략 2배이다. 그러나, 구성(300)에 따라 요청 트래픽에 대한 대역폭의 상한은 링크(251, 252, 253, 254)의 최소 대역폭에 기초하여 더 높다. 이 구성(300)에 대한 선택적인 대안은 라우팅 테이블(111)이 높은 대역폭 링크(251, 252, 253, 254)에서 요청 트래픽을 우회시키면서 낮은 대역폭 링크(255, 256)에서 응답 트래픽을 송신하는 것이며 여기서 응답 트래픽은 요청 트래픽보다 상당히 더 낮다. 이것은 대부분의 트래픽이 여기서 우회되어서 높은 대역폭 링크(251, 252, 253, 254)의 최소 대역폭에 기초하여 멀티프로세서 구성(300)에 대해 대역폭의 상한을 유지한다.
도 4는 분할 트래픽 라우팅 구조에 대한 멀티프로세서 구성(400)의 예시적인 기능 블록도를 도시한다. 물리적인 구성은 구성(200, 300)의 것과 유사하다. 그러나, 제어 레지스터(114)는 이 트래픽이 희생 요청(victim request) 및 그 연관된 응답과 관련된 것인지 또는 이 트래픽이 비희생 요청 및 응답과 관련된 것인지에 기초하여 트래픽을 제어하도록 구성된다. 이 라우팅 구조에 따라, 희생 요청 및 연관된 응답만이 높은 대역폭 링크(251, 252, 253, 254)를 따른다. 희생 트래픽은 일반적으로 레이턴시에 민감하지 않으므로, 이 트래픽에 대한 2홉 전송 라우팅 구조는 프로세서 성능을 방해하지 않는다. 이 라우팅 구조는 더 높은 대역폭 링크(251, 252, 253, 254)에 의해 더 잘 서비스될 수 있는 비희생 트래픽보다 일반적으로 더 높은 희생 트래픽 볼륨이 있는 것으로 인해 더 바람직하다. 나아가, 제거된 희생은 정렬될 필요가 없어서 비희생 요청에 비해 더 긴 라우팅 경로에 더 적합하다.
희생 요청과 응답이 높은 대역폭 링크를 따라 분할 라우팅 구조에 따라 라우팅될 수 있게 하기 위하여, 특별 모드 비트(cHTVicDistMode)가 제어 레지스터(114)(예를 들어, 코히런트한 링크 트래픽 분배 레지스터)에 설정된다. 예를 들어, 연산 유닛(105, 106, 107)은 프로세서 노드 쌍(110, 140)과 같은 링크 쌍 트래픽 분배가 인에이블(enabled)될 때 모드 비트(cHTVicDistMode)에 대해 1의 값을 설정할 수 있다. 대안적으로 모드 비트(cHTVicDistMode)는 쌍 트래픽 분배를 인에이블함이 없이 분할 트래픽 구조가 인에이블되는 것을 나타내기 위해 1로 설정될 수 있다. 나아가, 분할 라우팅 구조에 대한 파라미터를 한정하고 인에이블하기 위해 제어 레지스터(114)에 연산 유닛(105, 106, 107)에 의해 이하 설정이 이루어질 수 있다. 요소(DistNode [5:0])에서 분배 노드 식별 비트가 분배와 연관된 프로세서 노드 각각에 설정된다(예를 들어, 0 내지 31의 이진 값 범위를 가지는 이 5비트 요소에 대해 0의 값이 프로세서 노드(110)에 할당될 수 있고, 3의 값이 프로세서 노드(140)에 할당될 수 있다). 목적지 링크 요소(DstLnk [7:0])는 단일 링크에 지정된다. 예를 들어, 이 8비트 요소에 대해 0의 비트가 링크(251)에 할당될 수 있고, 1의 비트가 링크(253)에 할당될 수 있고, 2의 비트가 링크(255)에 할당될 수 있고, 링크(251)에 목적지 링크를 설정하는 것은 0의 비트를 1의 값으로 설정하는 것에 의해 달성될 수 있다. 예를 들어, 프로세서 노드(110)에 대해 이 인에이블 설정 구조를 사용하면 프로세서 노드(140)와 같은 비트(DistNode)에 의해 식별된 분배 노드 쪽으로 향하는 희생 패킷이 검출될 때, 희생 패킷은 라우팅 테이블(111)에서 한정된 바와 같은 목적지 링크(낮은 대역폭 링크(255)) 대신에 비트(DstLnk)(높은 대역폭 링크(251))에 의해 지정된 목적지 링크로 라우팅된다. 분할 트래픽 라우팅 구조에 추가적인 개선은 분할 라우팅 구조가 희생 요청 또는 희생 응답 또는 이들 둘 모두를 처리하는지 여부에 대한 지시자(indicator)를 제공하는 것에 의해 달성될 수 있다. 희생 요청이 분할 라우팅 구조에 대해 인에이블되는 것을 나타내기 위해 코히런트 요청 분배 인에이블 비트(cHTReqDistEn)가 1로 설정된다. 연관된 희생 응답만을 제어하거나 분할 트래픽 라우팅을 사용하여 희생 요청에 추가적으로 희생 응답을 제어하는 것이 요구되는 경우 코히런트 응답 분배 인에이블 비트(cHTRspDistEn)가 1로 설정된다.
전술된 실시예의 변형예에서, 라우팅 테이블(111)은 분할 트래픽 라우팅이 제어 레지스터(114) 대신에 라우팅 테이블(111)에 지시된 라우팅에 따라 직접 실행될 수 있도록 분할 트래픽 라우팅 구조의 파라미터로 구성될 수 있다.
도 4에 도시된 구성(즉, 분할 트래픽 라우팅)에서 프로세서 노드에 희생 분배 모드는 예를 들어 다음 사항, 즉 (1) 희생 분배 프로세서 노드가 프로세서에 대해 인에이블되는 것; (2) 희생 분배 프로세서 노드가 낮은 대역폭 링크에서 단 하나의 언갱드 링크 홉(unganged link hop)으로 직접적으로 및 적어도 높은 대역폭 링크에서 2개의 갱드 링크 홉을 통해 간접적으로 다른 프로세서 노드에 목적지 프로세서 노드를 연결하는 것이 참일 때만을 포함하여 특정 조건에서 인에이블된다. 예를 들어, 도 4에 대해 전술된 방법은 상기 특정 조건을 만족시키는 분배 프로세서 노드(110) 및 목적지 프로세서 노드(140)에 관한 것이다.
표 1은 작업부하의 함수인 판독:기록 비율을 가지는 상기 구성(200, 400)의 구현에 기초하여 링크 이용율을 비교하는 이용 테이블의 일례를 도시한다. 도시된 바와 같이, 라우팅이 높은 대역폭 링크와 낮은 대역폭 링크(즉, 구성(200))를 통해 균등하게 분배될 때, 높은 대역폭 링크 이용율은 50%이고 이는 2:1 링크 사이즈 비에 대응한다. 구성(400)의 분할 라우팅 구조를 사용하면 높은 대역폭과 낮은 대역폭 링크는 보다 균일하게 이용될 수 있다.
Figure pct00001
특징과 요소가 특정 조합으로 전술되었으나, 각 특징이나 요소는 다른 특징과 요소 없이 단독으로 또는 다른 특징과 요소와 여러 조합으로 또는 다른 특징과 요소 없이 여러 조합으로 사용될 수 있다. 본 명세서에 설명된 장치는 일반 목적 컴퓨터 또는 프로세서에 의해 실행하기 위해 컴퓨터 판독가능한 저장 매체에 포함된 컴퓨터 프로그램, 소프트웨어 또는 펌웨어를 사용하는 것에 의해 제조될 수 있다. 컴퓨터 판독가능한 저장 매체의 예는 판독 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), 레지스터, 캐시 메모리, 반도체 메모리 디바이스, 자기 매체, 예를 들어, 내부 하드 디스크와 이동식 디스크, 광자기 매체, 및 광 매체, 예를 들어, CD-ROM 디스크 및 DVD(digital versatile disk)를 포함한다.
본 발명의 실시예는 컴퓨터 판독가능한 저장 매체에 저장된 명령과 데이터로 표현될 수 있다. 예를 들어, 본 발명의 측면은 하드웨어 설명 언어(HDL: hardware description language)인 베릴로그(Verilog)를 사용하여 구현될 수 있다. 처리될 때, 베릴로그 데이터 명령은 반도체 제조 시설에서 구현되는 제조 공정을 수행하는데 사용될 수 있는 다른 중간 데이터{예를 들어, 네트리스트(netlist), GDS 데이터 등}를 생성할 수 있다. 제조 공정은 본 발명의 여러 측면을 구현하는 반도체 디바이스(예를 들어, 프로세서)를 제조하도록 적응될 수 있다.
적절한 프로세서는 일례로써 일반 목적 프로세서, 특수 목적 프로세서, 종래의 프로세서, DSP(digital signal processor), 복수의 마이크로프로세서, 그래픽 처리 유닛(graphics processing unit)(GPU), DSP 코어, 제어기, 마이크로제어기, ASIC(application specific integrated circuit), FPGA(field programmable gate arrays), 임의의 다른 유형의 집적 회로(integrated circuit)(IC) 및/또는 상태 기계를 포함한다. 이러한 프로세서는 처리된 하드웨어 설명 언어(HDL) 명령(컴퓨터 판독가능한 매체에 저장될 수 있는 명령)의 결과를 사용하여 제조 공정을 구성하는 것에 의해 제조될 수 있다. 이러한 처리의 결과는 본 발명의 측면을 구현하는 프로세서를 제조하기 위해 반도체 제조 공정에서 사용되는 마스크작업일 수 있다.

Claims (18)

  1. 방법으로서,
    프로세서의 노드 간 희생 트래픽(victim traffic) 및 비희생 트래픽을 모니터링하는 단계;
    상기 노드 간 높은 대역폭 링크를 이용하는 상기 희생 트래픽에 대한 라우팅 구조(routing scheme)와, 상기 노드 간 낮은 대역폭 링크를 이용하는 상기 비희생 트래픽에 대한 라우팅 구조를 선택하는 단계; 및
    상기 라우팅 구조를 인에이블하기 위해 제어 레지스터를 설정하는 단계를 포함하는 방법.
  2. 제1항에 있어서, 상기 제어 레지스터를 설정하는 단계는 프로세서 노드의 특정 쌍에 대해 분배가 인에이블될 때 라우팅 모드 비트를 설정하는 단계를 포함하는 것인 방법.
  3. 제2항에 있어서, 상기 제어 레지스터를 설정하는 단계는,
    상기 분배와 연관된 상기 프로세서 노드 각각에 대해 분배 노드 식별 비트를 설정하는 단계; 및
    목적지 링크 요소를 설정하는 단계를 포함하는 것인 방법.
  4. 제1항에 있어서, 상기 제어 레지스터를 설정하는 단계는 상기 라우팅 구조가 희생 요청을 처리하기 위해 인에이블되는 것을 나타내기 위해 코히런트 요청 분배 인에이블 비트를 설정하는 단계를 포함하는 것인 방법.
  5. 제1항에 있어서, 상기 제어 레지스터를 설정하는 단계는 상기 라우팅 구조가 희생 응답을 처리하도록 인에이블되는 것을 나타내기 위해 코히런트 요청 분배 인에이블 비트를 설정하는 단계를 포함하는 것인 방법.
  6. 제1항에 있어서, 상기 높은 대역폭 링크에서 상기 희생 트래픽은 갱드 2홉 요청(ganged two-hop request)을 포함하고, 상기 낮은 대역폭 링크에서 상기 비희생 트래픽은 언갱드 1홉 요청(unganged one-hop request)을 포함하는 것인 방법.
  7. 제1항에 있어서, 상기 프로세서에서 상기 라우팅 구조를 실행하는 단계를 더 포함하되, 상기 프로세서는 적어도 3개의 노드를 포함하고, 제1 프로세서 노드는 낮은 대역폭 링크에 의해 제2 프로세서 노드에 연결되며, 제3 프로세서 노드는 제1 높은 대역폭 링크에 의해 상기 제1 프로세서 노드에 연결되고, 제2 높은 대역폭 링크에 의해 상기 제2 프로세서 노드에 연결되며,
    희생 트래픽은 상기 제1 및 제2 높은 대역폭 링크를 따라 상기 제1 노드로부터 상기 제2 노드로 라우팅되고, 비희생 트래픽은 상기 낮은 대역폭 링크를 따라 상기 제1 노드로부터 제3 노드로 라우팅되는 것인 방법.
  8. 프로세서로서,
    낮은 대역폭 링크에 의하여 제2 프로세서 노드에 연결된 제1 프로세서 노드; 및
    제1 높은 대역폭 링크에 의하여 상기 제1 프로세서 노드에 연결되고 제2 높은 대역폭 링크에 의해 상기 제2 프로세서 노드에 연결된 제3 프로세서 노드를 포함하되,
    상기 프로세서 노드 각각은,
    크로스바 스위치에 연결된 복수의 연산 유닛으로서, 상기 크로스바 스위치는 상기 연산 유닛으로부터 목적 링크로 송신된 트래픽을 제어하도록 구성된 것인, 복수의 연산 유닛을 포함하고;
    상기 연산 유닛은 상기 라우팅 구조를 실행할 때 상기 크로스바 스위치가 상기 제1 및 제2 높은 대역폭 링크에서 희생 트래픽을 송신하고 상기 낮은 대역폭 링크에서 비희생 트래픽을 송신하도록 제어되도록 상기 목적 링크를 결정하는 한정된 라우팅 구조를 가지는 제어 레지스터를 설정하도록 구성된 것인 프로세서.
  9. 제8항에 있어서, 상기 복수의 연산 유닛 중 적어도 하나는 프로세서 노드의 특정 쌍에 분배가 인에이블될 때 상기 제어 레지스터에 라우팅 모드 비트를 설정하는 것인 프로세서.
  10. 제9항에 있어서, 상기 복수의 연산 유닛 중 적어도 하나는 분배와 연관된 상기 프로세서 노드 각각에 대해 상기 제어 레지스터에 분배 노드 식별 비트를 설정하고 목적지 링크 요소를 설정하는 것인 프로세서.
  11. 제8항에 있어서, 상기 복수의 연산 유닛 중 적어도 하나는 상기 라우팅이 희생 요청을 처리하도록 인에이블된 것을 나타내기 위해 상기 제어 레지스터에 코히런트 요청 분배 인에이블 비트를 설정하는 것인 프로세서.
  12. 제8항에 있어서, 상기 복수의 연산 유닛 중 적어도 하나는 희생 응답을 처리하도록 상기 라우팅이 인에이블된 것을 나타내기 위해 상기 제어 레지스터에 코히런트 요청 분배 인에이블 비트를 설정하는 것인 프로세서.
  13. 제8항에 있어서, 상기 높은 대역폭 링크의 상기 희생 트래픽은 갱드 2홉 요청을 포함하고, 상기 낮은 대역폭 링크에서 상기 비희생 트래픽은 언갱드 1홉 요청을 포함하는 것인 프로세서.
  14. 분할 라우팅 구조를 수행하도록 하나 이상의 프로세서에 의해 실행하기 위한 명령 세트를 저장하는 컴퓨터 판독가능한 저장 매체로서, 상기 명령 세트는,
    프로세서의 노드 간에 희생 트래픽과 비희생 트래픽을 모니터링하는 단계; 및
    상기 노드 간 높은 대역폭 링크를 이용하는 상기 희생 트래픽에 대한 라우팅 구조와, 상기 노드 간 낮은 대역폭 링크를 이용하는 상기 비희생 트래픽에 대한 라우팅 구조를 선택하는 단계를 포함하는 단계를 수행하는 것인 컴퓨터 판독가능한 저장 매체.
  15. 제14항에 있어서, 상기 높은 대역폭 링크에서 상기 희생 트래픽은 갱드 2홉 요청을 포함하고, 상기 낮은 대역폭 링크에서 상기 비희생 트래픽은 언갱드 1홉 요청을 포함하는 것인 컴퓨터 판독가능한 저장 매체.
  16. 제14항에 있어서, 상기 명령 세트는 상기 라우팅 구조에 대해 분배 노드와 목적지 링크를 인에이블하는 단계를 더 포함하는 것인 컴퓨터 판독가능한 저장 매체.
  17. 제14항에 있어서, 상기 명령 세트는 희생 요청을 처리하기 위해 상기 라우팅 구조를 인에이블하는 단계를 더 포함하는 것인 컴퓨터 판독가능한 저장 매체.
  18. 제14항에 있어서, 상기 명령 세트는 희생 요청을 처리하기 위해 상기 라우팅 구조를 인에이블하는 단계를 더 포함하는 것인 컴퓨터 판독가능한 저장 매체.
KR1020137018545A 2010-12-15 2011-12-06 분배 공유 메모리 멀티프로세서에서의 분할 트래픽 라우팅 KR101846485B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/968,857 2010-12-15
US12/968,857 US20120155273A1 (en) 2010-12-15 2010-12-15 Split traffic routing in a processor
PCT/US2011/063463 WO2012082460A1 (en) 2010-12-15 2011-12-06 Split traffic routing in a distributed shared memory multiprocessor

Publications (2)

Publication Number Publication Date
KR20140034130A true KR20140034130A (ko) 2014-03-19
KR101846485B1 KR101846485B1 (ko) 2018-05-18

Family

ID=45406872

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137018545A KR101846485B1 (ko) 2010-12-15 2011-12-06 분배 공유 메모리 멀티프로세서에서의 분할 트래픽 라우팅

Country Status (6)

Country Link
US (1) US20120155273A1 (ko)
EP (1) EP2652636B1 (ko)
JP (1) JP5795385B2 (ko)
KR (1) KR101846485B1 (ko)
CN (1) CN103299291B (ko)
WO (1) WO2012082460A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9152595B2 (en) * 2012-10-18 2015-10-06 Qualcomm Incorporated Processor-based system hybrid ring bus interconnects, and related devices, processor-based systems, and methods
US20150124623A1 (en) * 2013-11-07 2015-05-07 Futurewei Technologies, Inc. System and Method for Traffic Splitting
WO2015109010A1 (en) 2014-01-14 2015-07-23 Huawei Technologies Co., Ltd. System and method for device-to-device communications
CN107306223B (zh) * 2016-04-21 2020-08-14 华为技术有限公司 数据传输系统、方法及装置
CN106526461B (zh) * 2016-12-30 2018-12-28 盛科网络(苏州)有限公司 针对流量控制的嵌入式实时反压验证的方法
US10481915B2 (en) 2017-09-20 2019-11-19 International Business Machines Corporation Split store data queue design for an out-of-order processor
US11064418B2 (en) * 2019-09-09 2021-07-13 Analog Devices International Unlimited Company Two-hop wireless network communication

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5859983A (en) * 1996-07-01 1999-01-12 Sun Microsystems, Inc Non-hypercube interconnection subsystem having a subset of nodes interconnected using polygonal topology and other nodes connect to the nodes in the subset
US5893153A (en) * 1996-08-02 1999-04-06 Sun Microsystems, Inc. Method and apparatus for preventing a race condition and maintaining cache coherency in a processor with integrated cache memory and input/output control
US7103065B1 (en) * 1998-10-30 2006-09-05 Broadcom Corporation Data packet fragmentation in a cable modem system
US20020021745A1 (en) * 2000-04-07 2002-02-21 Negus Kevin J. Multi-channel-bandwidth frequency-hopping system
US6795875B2 (en) * 2000-07-31 2004-09-21 Microsoft Corporation Arbitrating and servicing polychronous data requests in direct memory access
US6738836B1 (en) * 2000-08-31 2004-05-18 Hewlett-Packard Development Company, L.P. Scalable efficient I/O port protocol
US7707305B2 (en) 2000-10-17 2010-04-27 Cisco Technology, Inc. Methods and apparatus for protecting against overload conditions on nodes of a distributed network
US7444404B2 (en) 2001-02-05 2008-10-28 Arbor Networks, Inc. Network traffic regulation including consistency based detection and filtering of packets with spoof source addresses
US20040114536A1 (en) * 2002-10-16 2004-06-17 O'rourke Aidan Method for communicating information on fast and slow paths
US7600023B2 (en) * 2004-11-05 2009-10-06 Hewlett-Packard Development Company, L.P. Systems and methods of balancing crossbar bandwidth
US7395361B2 (en) * 2005-08-19 2008-07-01 Qualcomm Incorporated Apparatus and methods for weighted bus arbitration among a plurality of master devices based on transfer direction and/or consumed bandwidth
CN1988500B (zh) * 2005-12-19 2011-05-11 北京三星通信技术研究有限公司 分布式带宽管理方法
US7590090B1 (en) * 2007-01-17 2009-09-15 Lockhead Martin Corporation Time segmentation sampling for high-efficiency channelizer networks
US20080298246A1 (en) * 2007-06-01 2008-12-04 Hughes William A Multiple Link Traffic Distribution
US20090109969A1 (en) * 2007-10-31 2009-04-30 General Instrument Corporation Dynamic Routing of Wideband and Narrowband Audio Data in a Multimedia Terminal Adapter
US7958314B2 (en) * 2007-12-18 2011-06-07 International Business Machines Corporation Target computer processor unit (CPU) determination during cache injection using input/output I/O) hub/chipset resources
CN101751361B (zh) * 2008-12-16 2012-10-10 联想(北京)有限公司 控制移动终端中数据传输接口的切换方法及终端设备
US8565234B1 (en) * 2009-01-08 2013-10-22 Marvell Israel (M.I.S.L) Ltd. Multicast queueing in a switch
US8103809B1 (en) * 2009-01-16 2012-01-24 F5 Networks, Inc. Network devices with multiple direct memory access channels and methods thereof
US20110161592A1 (en) * 2009-12-31 2011-06-30 Nachimuthu Murugasamy K Dynamic system reconfiguration
US8250253B2 (en) * 2010-06-23 2012-08-21 Intel Corporation Method, apparatus and system for reduced channel starvation in a DMA engine

Also Published As

Publication number Publication date
KR101846485B1 (ko) 2018-05-18
US20120155273A1 (en) 2012-06-21
JP5795385B2 (ja) 2015-10-14
EP2652636B1 (en) 2018-10-03
JP2014506353A (ja) 2014-03-13
EP2652636A1 (en) 2013-10-23
CN103299291B (zh) 2017-02-15
CN103299291A (zh) 2013-09-11
WO2012082460A1 (en) 2012-06-21

Similar Documents

Publication Publication Date Title
KR101846485B1 (ko) 분배 공유 메모리 멀티프로세서에서의 분할 트래픽 라우팅
US9571399B2 (en) Method and apparatus for congestion-aware routing in a computer interconnection network
US8819616B2 (en) Asymmetric mesh NoC topologies
Derradji et al. The BXI interconnect architecture
CN105247821B (zh) 用于利用自适应路由来控制资源利用的机制
JP3996455B2 (ja) 情報処理システムのデータ転送方法及び情報処理システム
JP6093867B2 (ja) インターコネクトにおける不均一なチャネル容量
US9473359B2 (en) Transactional traffic specification for network-on-chip design
US20150186277A1 (en) Cache coherent noc with flexible number of cores, i/o devices, directory structure and coherency points
CN110347626B (zh) 服务器系统
CN114697276A (zh) 片上网络(NoC)中的广播交换机系统
JP2007179200A (ja) コンピュータシステムおよびストレージ仮想化装置
EP3278230A1 (en) Writing data to storage via a pci express fabric having a fully-connected mesh topology
GR20180100189A (el) Δικτυο επεξεργασιας δεδομενων με συμπυκνωση ροης για μεταφορα δεδομενων μεσω streaming
WO2012113224A1 (zh) 多节点计算系统下选择共享内存所在节点的方法和装置
US20150188797A1 (en) Adaptive admission control for on die interconnect
US20160205042A1 (en) Method and system for transceiving data over on-chip network
US11144457B2 (en) Enhanced page locality in network-on-chip (NoC) architectures
Fukushi et al. A degradable NoC router for the improvement of fault-tolerant routing performance
JP5287399B2 (ja) 情報処理装置の処理プログラム、情報処理装置の処理方法、および情報処理装置
US10394726B2 (en) Network of memory modules with logarithmic access
Prasad et al. MWPR: minimal weighted path routing algorithm for network on chip
JP2017079352A (ja) リソース割当管理装置、および、サービスチェイニングシステム
JP2004013324A (ja) 演算装置、データ転送システムおよびデータ転送プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant