KR20190044574A - 멀티-타일 프로세싱 어레이의 동기화 - Google Patents

멀티-타일 프로세싱 어레이의 동기화 Download PDF

Info

Publication number
KR20190044574A
KR20190044574A KR1020180126043A KR20180126043A KR20190044574A KR 20190044574 A KR20190044574 A KR 20190044574A KR 1020180126043 A KR1020180126043 A KR 1020180126043A KR 20180126043 A KR20180126043 A KR 20180126043A KR 20190044574 A KR20190044574 A KR 20190044574A
Authority
KR
South Korea
Prior art keywords
processing unit
tile
data
time
data packet
Prior art date
Application number
KR1020180126043A
Other languages
English (en)
Other versions
KR102167059B1 (ko
Inventor
시몬 크리스티안 노우레스
다니엘 존 펠험 윌킨슨
리차드 루크 사우스웰 오스본
알란 그레이엄 알렉산더
스테판 펠릭스
조나단 맹널
데이비드 레이시
Original Assignee
그래프코어 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 그래프코어 리미티드 filed Critical 그래프코어 리미티드
Publication of KR20190044574A publication Critical patent/KR20190044574A/ko
Application granted granted Critical
Publication of KR102167059B1 publication Critical patent/KR102167059B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/04Generating or distributing clock signals or signals derived directly therefrom
    • G06F1/12Synchronisation of different clock signals provided by a plurality of clock generators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4004Coupling between buses
    • G06F13/4022Coupling between buses using switching circuits, e.g. switching matrix, connection or expansion network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • G06F15/17306Intercommunication techniques
    • G06F15/17325Synchronisation; Hardware support therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0611Improving I/O performance in relation to response time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/30087Synchronisation or serialisation instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • G06F9/522Barrier synchronisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Multi Processors (AREA)
  • Advance Control (AREA)
  • Executing Machine-Instructions (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

본 발명은 컴퓨터에 관한 것으로, 로컬 프로그램을 유지하는 명령 저장부, 로컬 프로그램을 실행하는 실행 유닛 및 데이터를 유지하는 데이터 저장부를 갖는 복수의 프로세싱 유닛; 입력 와이어 세트를 갖는 입력 인터페이스 및 출력 와이어 세트를 갖는 출력 인터페이스; 각 출력 와이어 세트에 의해 각 프로세싱 유닛에 연결되고, 각 프로세싱 유닛에 의해 제어 가능한 스위칭 회로를 통해 각각의 입력 와이어에 의해 프로세싱 유닛들 각각에 연결 가능한 스위칭 패브릭; 컴퓨터가 계산 페이즈와 교환 페이즈 사이를 스위칭하도록 제어하기 위한 동기화 신호를 생성하도록 동작 가능한 동기화 모듈을 포함하며, 상기 프로세싱 유닛들은 공통 클럭에 따라 로컬 프로그램을 실행하도록 구성되고, 상기 로컬 프로그램은 교환 페이즈에서 적어도 하나의 프로세싱 유닛이 자신의 로컬 프로그램으로부터 송신 명령을 실행하여 송신 시간에 데이터 패킷을 출력 연결 와이어 세트로 송신하게 하고, 상기 데이터 패킷은 적어도 하나의 수신 프로세싱 유닛으로 예정되지만 목적지 식별자를 갖지 않으며, 상기 수신 프로세싱 유닛은 사전 결정된 스위치 시간에 스위칭 회로를 제어하여 입력 와이어 세트를 스위칭 패브릭에 연결하여 수신 시간에 데이터 패킷을 수신하도록 로컬 프로그램으로부터 스위치 제어 명령을 실행하고, 상기 송신 시간, 스위치 시간 및 수신 시간은 동기화 신호에 대한 공통 클럭에 의해 결정된다.

Description

멀티-타일 프로세싱 어레이의 동기화{SYNCHRONIZATION ON A MULTI-TILE PROCESSING ARRAY}
본 발명은 각 타일이 로컬 메모리를 갖는 프로세싱 유닛을 포함하는 다수의 타일을 포함하는 프로세서에서 다수의 상이한 타일의 작업 부하를 동기화하는 것에 관한 것이다. 특히, 본 발명은 각 타일 그룹이 그룹내의 임의의 타일들이 교환 페이즈(exchange phase)로 진행하기 전에 계산 페이즈를 완료해야 하는 벌크 동기 병렬(bulk synchronous parallel : BSP) 컴퓨팅 프로토콜에 관한 것이다.
컴퓨팅의 병렬 처리(parallelism)는 다른 형태를 취한다. 프로그램 프래그먼트(Program fragments)는 동시에 상이한 리소스들에서 실행될 때 동시에(시간적으로 중첩되지만 실행 리소스들을 공유할 수 있는) 또는 병렬로 실행되도록 구성될 수 있다. 컴퓨팅의 병렬 처리는 다수의 상호 연결된 프로세서 타일들의 어레이 또는 멀티 스레드 프로세싱 유닛 또는 실제로 각 타일이 멀티 스레드 프로세싱 유닛을 포함하는 멀티타일 어레이와 같은 다수의 방법으로 이루어질 수 있다.
병렬 처리가 동일한 칩(또는 동일한 집적 회로 패키지 내의 칩) 상에서 다수의 타일들의 어레이를 포함하는 프로세서에 의해 이루어질 때, 각 타일은(프로그램 메모리 및 데이터 메모리를 포함하는) 로컬 메모리를 갖는 그 자신의 분리된 각각의 프로세싱 유닛을 포함한다. 따라서, 프로그램 코드의 분리된 부분들(separate portions)은 상이한 타일상에서 동시에 실행될 수 있다. 상기 타일들은, 상이한 타일들에서 실행되는 코드가 타일간에 통신할 수 있게 해주는 온칩 인터커넥트(on-chip interconnect)를 통해 함께 연결된다. 일부 경우, 각 타일상의 프로세싱 유닛은 배럴-스레드(barrel-threaded) 프로세싱 유닛(또는 다른 멀티-스레드 프로세싱 유닛)의 형태를 취할 수 있다. 각 타일은 컨텍스트 세트 및 실행 파이프 라인을 가질 수 있으므로 각 타일은 다수의 인터리빙된 스레드(interleaved threads)를 동시에 실행할 수 있다.
일반적으로, 어레이 내의 상이한 타일에서 실행되는 프로그램의 부분들사이에는 종속성이 존재할 수 있다. 따라서, 하나의 타일에 있는 코드 조각이 다른 타일에 있는 다른 코드 조각에 의해 사용 가능하게 된 데이터 보다 먼저 실행되는 것을 방지하는 기술이 필요하다. 이것을 달성하기 위한 가능한 여러 가지 방법이 있지만, 본 명세서에서 관심있는 방식(scheme)은 "벌크 동기 병렬(BSP)"로 알려져 있다. BSP에 따르면, 각 타일은 계산 페이즈와 교환 페이즈(phase)를 교대로 수행한다. 상기 계산 페이즈 동안 각 타일은 하나 이상의 계산 작업을 로컬로 수행하지만 그 계산 결과를 다른 타일들과 통신하지는 않는다. 상기 교환 페이즈에서, 각 타일은 선행 계산 페이즈로부터의 상기 계산들의 하나 이상의 결과를 상기 그룹 내의 하나 이상의 다른 타일로 및/또는 상기 그룹 내의 하나 이상의 다른 타일과 교환할 수 있지만, 타일이 그의 교환 페이즈를 마칠 때까지 새로운 계산 페이즈를 시작하지 않는다. 또한, BSP 원리의 이러한 형태에 따라, 배리어 동기화(barrier synchronization)는 계산 페이즈에서 교환 페이즈로 전환하는 시점 또는 교환 페이즈에서 계산 페이즈로 전환하는 시점 또는 둘 다에 배치된다. 즉, (a) 모든 타일은 그룹 내의 임의의 타일이 다음 교환 페이즈로 진행하기 전에 각자의 계산 페이즈를 완료해야 하거나, (b) 그룹의 모든 타일은 그룹내의 임의 타일이 다음 계산 페이즈로 진행하기 전에 각자의 교환 페이즈를 완료해야 하거나, (c) 둘 모두를 수행해야 한다. 본 명세서에서 "계산 페이즈와 교환 페이즈 사이"라는 문구는 이러한 모든 옵션을 포함한다.
멀티 스레드 및/또는 멀티 타일 병렬 처리의 사용예가 기계 지능에서 발견된다. 기계 지능 분야의 당업자에게 익숙한 바와 같이, 기계 지능 알고리즘은 "지식 모델을 생성할 수 있고" 상기 지식 모델을 사용하여 학습 및 추론 알고리즘을 실행할 수 있다. 상기 지식 모델 및 알고리즘을 통합하는 기계 지능 모델은 다수의 상호 연결된 노드들의 그래프로 표현될 수 있다. 각 노드는 입력의 함수를 나타낸다. 일부 노드는 그래프에 대한 입력을 수신하고 일부 노드는 하나 이상의 다른 노드로부터 입력을 수신한다. 일부 노드의 출력 활성화는 다른 노드의 입력을 형성하고, 일부 노드의 출력은 그래프의 출력을 제공하고, 그래프의 입력은 일부 노드로 입력을 제공한다. 또한, 각 노드에서의 함수는 하나 이상의 각각의 파라미터, 예를 들어, 가중치에 의해 파라미터화된다. 학습 스테이지에서 목표는 경험적 입력 데이터 세트에 기초하여, 그래프가 전체적으로 가능한 입력 범위에 대해 원하는 출력을 생성할 수 있도록 다양한 파라미터에 대한 값을 찾는 것이다. 확률론적 구배 강하 (gradient descent)에 기초한 역 전파 알고리즘과 같이 이것을 하기 위한 다양한 알고리즘이 당 업계에 공지되어 있다. 여러 번의 반복을 통해 상기 파라미터들은 그들의 오류를 줄이기 위해 점차적으로 조정되므로 그래프는 솔루션쪽으로 수렴된다. 후속 스테이지에서, 그런 다음 상기 학습된 모델을 사용하여 특정 입력 세트가 주어진 출력을 예측하거나 지정된 출력 세트가 주어진 입력(원인)에 대한 추론을 하거나 다른 자기 분석(introspective) 형태의 분석을 수행할 수 있다.
각 노드의 구현은 데이터의 처리를 포함할 것이고, 그래프의 상호 연결은 노드들간에 교환될 데이터에 대응한다. 일반적으로 각 노드의 프로세싱 중 적어도 일부는 그래프의 노드 중 일부 또는 전부와 독립적으로 수행될 수 있으므로 큰 그래프는 방대한 병렬 처리를 위한 기회를 노출한다.
상술한 바와 같이, 지식 모델을 나타내는 기계 지능 모델과 상기 지식 모델이 학습 및 추론을 위해 사용되는 방법에 관한 알고리즘 정보는 일반적으로 다수의 상호 접속된 노드들의 그래프로 표현될 수 있으며, 각 노드는 데이터에 대한 프로세싱 요구 사항을 갖는다. 상기 그래프의 상호 연결은 노드들간에 교환될 데이터를 나타내며, 결과적으로 노드에서 실행되는 프로그램 프래그먼트들간의 의존성을 야기한다. 일반적으로 노드에서의 프로세싱은 다른 노드와 독립적으로 수행될 수 있으므로 큰(large) 그래프는 방대한 병렬 처리를 노출한다. 고도로 분산된 병렬 기계는 그러한 기계 지능 모델을 계산하기에 적합한 기계 구조이다. 이 특징을 사용하면 특정 시간 결정적 보장(time deterministic guarantees)을 하도록 기계를 설계할 수 있다.
본 발명에서 이용되는 지식 모델의 요소(factor)는 일반적으로 그래프의 정적 특성(static nature)이다. 즉, 그래프를 구성하는 노드들 및 그래프의 구조는 일반적으로 기계 지능 알고리즘을 실행하는 동안 변경되지 않는다. 본 발명자들은 기계 지능 모델에 대한 계산을 최적화하기 위해 소정의 시간 결정적 보장을 하는 기계를 제조하였다. 이를 통해 컴파일러는 시간 결정적 방식으로 노드 전체에서 작업을 분할하고 스케쥴할 수 있다. 이 시간 결정성(determinism)이 지식 모델에 기초하여 작업 부하를 처리하도록 최적화된 컴퓨터를 설계할 때 현저한 최적화를 위해 하기의 기술된 실시예에서 이용된다.
본 발명의 일 측면에 따르면, 로컬 프로그램을 유지하는 명령 저장부, 로컬 프로그램을 실행하는 실행 유닛, 데이터를 유지하기 위한 데이터 저장부를 각각 갖는 복수의 프로세싱 유닛을 포함하는 컴퓨터와; 입력 와이어 세트를 갖는 입력 인터페이스 및 출력 와이어 세트를 갖는 출력 인터페이스와; 상기 각각의 출력 와이어 세트에 의해 상기 각 프로세싱 유닛에 연결되고 각 프로세싱 유닛에 의해 제어 가능한 스위칭 회로를 통해 상기 각각의 입력 와이어에 의해 상기 프로세싱 유닛들 각각에 연결 가능한 스위칭 패브릭과; 계산 페이즈와 교환 페이즈사이에서 스위칭하도록 상기 컴퓨터를 제어하기 위해 동기 신호를 생성하도록 동작 가능한 동기화 모듈이 제공되며, 상기 프로세싱 유닛은 공통 클럭에 따라 자신의 로컬 프로그램을 실행하도록 구성되고, 상기 로컬 프로그램은 상기 교환 페이즈에서 적어도 하나의 프로세싱 유닛이 송신 시간에 자신의 출력 연결 와이어 세트상에 데이터 패킷을 전송하기 위해 자신의 로컬 프로그램으로부터 송신 명령을 실행하도록 하고, 상기 데이터 패킷은 적어도 하나의 수신 프로세싱 유닛으로 예정되지만 목적지 식별자를 갖지 않으며, 그리고 사전 결정된 스위치 시간에 상기 수신 프로세싱 유닛은 자신의 로컬 프로그램으로부터 스위치 제어 명령을 실행하여 수신 시간에 데이터 패킷을 수신하기 위해 자신의 입력 와이어 세트를 상기 스위칭 회로에 연결하도록 자신의 스위칭 회로를 제어하고, 상기 송신 시간, 스위치 시간 및 수신 시간은 동기 신호에 대한 공통 클록에 의해 제어(govern)된다.
본 발명의 다른 양태는 컴퓨터에서 함수를 계산하기 위한 방법을 제공하여, 로컬 프로그램을 유지하는 명령 저장부, 로컬 프로그램을 실행하는 실행 유닛, 데이터를 유지하는 데이터 저장부, 입력 와이어 세트를 갖는 입력 인터페이스 및 출력 와이어 세트를 갖는 출력 인터페이스를 각각 갖는 복수의 프로세싱 유닛과; 상기 각각의 출력 와이어 세트에 의해 상기 프로세싱 유닛들 각각에 연결되고 각 프로세싱 유닛에 의해 제어 가능한 스위칭 회로를 통해 각각의 입력 와이어들에 의해 상기 프로세싱 유닛들 각각에 연결 가능한 스위칭 패브릭과; 그리고 계산 페이즈와 교환 페이즈 사이를 스위칭하도록 컴퓨터를 제어하기 위해 동기 신호를 생성하도록 동작 가능한 동기화 모듈을 포함하고, 상기 방법은, 상기 프로세싱 유닛들이, 공통 클럭에 따라 상기 계산 페이즈에서 자신의 로컬 프로그램을 실행하는 단계와, 상기 교환 단계의 사전 결정된 시간에, 적어도 하나의 프로세싱 유닛은 자신의 로컬 프로그램으로부터 송신 명령을 실행하여 송신 시간에 데이터 패킷을 출력 연결 와이어 세트상에 송신하고, 상기 데이터 패킷은 적어도 하나의 수신 프로세싱 유닛으로 예정되지만 목적지 식별자를 갖지 않으며, 그리고 사전 결정된 스위칭 시간에 수신 프로세싱 유닛이, 수신 시간에 상기 데이터 패킷을 수신하기 위해 입력 와이어 세트를 상기 스위칭 패브릭에 연결하도록 상기 스위치 회로를 제어하기 위해 자신의 로컬 프로그램으로부터 스위치 제어 명령을 실행하는 단계를 포함하고, 상기 송신 시간, 스위치 시간 및 수신 시간은 동기 신호에 대한 공통 클록에 의해 제어된다.
원칙적으로, 상기 동기 신호는 스위치를 계산 페이즈에서 교환 페이즈로 또는 교환 페이즈에서 계산 페이즈로 제어하기 위해 생성될 수 있다. 그러나, 본 명세서에서 정의된 시간 결정적 아키텍처에 있어서, 상기 동기 신호는 교환 페이즈를 시작하도록 생성되는 것이 바람직하다. 일 실시예에서, 각 프로세싱 유닛은 자신의 계산 페이즈가 완료되었음을 동기화 모듈에 나타내고, 상기 동기 신호는 모든 프로세싱 유닛이 자신의 계산 단계가 완료되었음을 나타낼 때 동기화 모듈에 의해 생성되어 교환 페이즈를 시작한다.
상기 송신 시간은 시간 결정적 교환이 적절히 완료될 수 있도록 사전 결정되어야 한다. 그것은 상기 송신 명령이 실행되는 시간 이후의 알려진 클럭 사이클 수로 결정될 수 있으며, 상기 송신 명령이 실행되는 시간은 사전 결정된다고 가정한다. 대안적으로, 상기 송신 시간은 송신 명령의 실행으로부터 알려진 시간으로부터 소정의 다른 방식으로 결정된 공지된 지연일 수 있다. 중요한 것은 상기 송신 시간이 예정된 수신 프로세싱 유닛의 수신 시간에 상대적이라는 것이다.
송신 명령의 특징은 송신 명령이 데이터 패킷이 송신될 데이터 저장부 내의 위치를 식별하는 송신 주소를 명시적으로 정의하는 것을 포함할 수 있다. 대안적으로, 어떠한 송신 주소도 송신 명령에 명시적으로 정의되지 않으며, 데이터 패킷은 상기 송신 명령에 의해 암시적으로 정의된 레지스터에 정의된 송신 주소로부터 송신된다. 상기 로컬 프로그램은 암시적 레지스터의 송신 주소를 업데이트하기 위한 송신 주소 업데이트 명령을 포함할 수 있다.
본 명세서에 개시된 실시예들에서, 상기 스위칭 회로는 자신의 프로세싱 유닛에 연결된 출력 와이어들의 exit 세트 및 스위칭 패브릭에 연결된 다수의 입력 와이어 세트를 갖는 멀티플렉서를 포함하고, 상기 다수의 입력 와이어 세트 중 하나는 상기 프로세싱 유닛에 의해 제어되는 것으로 선택된다. 각 세트는 32 비트를 포함할 수 있다. 64 비트 데이텀이 사용될 때, 한 쌍의 멀티플렉스가 프로세싱 유닛에 연결되어 함께 제어될 수 있다.
개시된 실시예에서, 상기 수신 프로세싱 유닛은 데이터 패킷을 수신하여 메모리 포인터에 의해 식별된 메모리 위치에서 상기 데이터 저장부로 로딩하도록 구성된다. 상기 메모리 포인터는 각 데이터 패킷이 데이터 저장부에 로드된 후 자동으로 증가할 수 있다. 대안적으로, 상기 수신 프로세싱 유닛의 로컬 프로그램은 메모리 포인터를 업데이트하는 메모리 포인터 업데이트 명령을 포함할 수 있다.
상기 송신 명령은 송신될 데이터 패킷의 수를 식별하도록 구성될 수 있으며, 각 데이터 패킷은 프로세싱 유닛으로부터 순차적으로 송신되기 때문에 각 데이터 패킷은 상이한 송신 시간과 연관된다.
상기 멀티플렉서의 입력 와이어 세트 중 하나는 널 입력에 연결되도록 제어될 수 있다. 이것은 해당 프로세싱 유닛에 도착한 데이텀을 무시하는데 사용될 수 있다.
특정 데이터 패킷을 수신하도록 예정된 수신 프로세싱 유닛은 더 이른 시간에 송신 명령을 실행한 동일한 프로세싱 유닛일 수 있고, 상기 동일한 프로세싱 유닛은 데이터 패킷을 송신하고 해당 데이터 패킷을 나중에 수신하도록 구성된다. 프로세싱 유닛 '자신에게 전송'의 목적은 다른 프로세싱 유닛들로부터 수신된 데이터로 인터리빙된 인입 데이터의 메모리에 배열을 고수하는 것일 수 있다. 일부 실시 예에서 상기 프로세싱 유닛 중 적어도 2개는 송신 쌍에서 협력할 수 있으며, 여기서 제1 데이터 패킷은 상기 쌍의 제1 프로세싱 유닛으로부터 출력 연결 와이어 세트를 통해 송신되고, 제2 데이터 패킷은 더블 폭 전송(double width transmission)을 수행하기 위해 상기 쌍의 제1 프로세싱 유닛으로부터 상기 쌍의 제2 프로세싱 유닛의 출력 연결 와이어 세트를 통해 전송된다. 일부 실시예에서 상기 프로세싱 유닛들 중 적어도 2개는 수신 쌍으로서 동작할 수 있고, 상기 쌍의 각 프로세싱 유닛은 송신 쌍의 각각의 타일로부터 각각의 데이터 패킷을 수신하기 위해 각각의 입력 와이어 세트를 스위칭 패브릭에 연결하도록 자신의 스위칭 회로를 제어한다.
상기 다수의 프로세싱 유닛은 각각의 데이터 패킷들을 송신하기 위해 각각의 송신 명령을 실행하도록 구성될 수 있으며, 상기 데이터 패킷들 중 적어도 일부는 어떠한 수신 프로세싱 유닛들로 예정되어 있지 않다.
계산되는 함수는 복수의 상호 연결된 노드를 포함하는 정적 그래프의 형태로 제공될 수 있으며, 각 노드는 로컬 프로그램의 코드렛(codelet)에 의해 구현된다. 코드렛은 그래프의 정점(노드)을 정의하며, 기재의 후반에 논의되는 실행의 원자 스레드(atomic thread)로서 간주될 수 있다. 계산 페이즈에서, 각 코드렛은 데이터를 처리하여 결과를 생성할 수 있으며, 결과 중 일부는 후속 계산 페이즈에 필요하지 않으며 임의의 수신 프로세싱 유닛에서 수신하지 않는다. 그들은 효과적으로 폐기되지만, 임의의 긍정적인 폐기 액션을 취할 필요는 없다. 교환 페이즈에서, 상기 데이터 패킷은 스위칭 패브릭 및 스위칭 회로를 통해 프로세싱 유닛들간에 전송된다. 교환 단계에서 일부 명령은 교환 페이즈를 구현하기 위해 상기 로컬 프로그램으로부터 실행된다. 이들 명령은 상기 송신 명령을 포함한다. 상기 계산 페이즈는 계산을 담당하는 반면, 교환 페이즈는 산술 또는 논리 함수를 포함할 수 있지만 이러한 함수에는 로컬 프로그램의 타이밍에 대한 데이터 종속성이 포함되지 않으므로 동기식으로 유지될 수 있다.
본 명세서에 설명된 시간 결정적 아키텍처는 그래프가 기계 지능 함수를 나타내는 상황에서 특히 유용하다. 상기 스위칭 패브릭은 교환 페이즈에서 데이터 패킷들은 일련의 임시 저장소를 통해 파이프라인 방식으로 전송되고, 각 저장소는 공통 클럭의 한 사이클 동안 데이터 패킷을 보유하도록 구성될 수 있다.
본 발명을 더 잘 이해하고 어떻게 동일하게 실시할 수 있는지를 나타내기 위해, 이하의 도면을 참고로 하여 참조가 이루어질 것이다.
도 1은 단일 칩 프로세서의 아키텍처를 개략적으로 도시한다.
도 2는 스위칭 패브릭에 연결된 타일의 개략도이다.
도 3은 BSP 프로토콜을 나타내는 도면이다.
도 4는 시간 결정적 교환에서 2개의 타일을 도시하는 개략도이다.
도 5는 시간 결정적 교환을 나타내는 개략적인 타이밍도이다.
도 6은 기계 지능 그래프의 일 예이다.
도 7은 시간 결정적 프로그램을 생성하기 위한 컴파일러의 동작을 나타내는 개략적인 아키텍처이다.
도 8 내지 도 11은 시간 결정적 아키텍처에서 사용 가능한 상이한 명령들의 명령 포맷들을 도시한다.
도 12는 송신 쌍으로서 동작하는 2개의 타일의 개략도이다.
도 13은 수신 쌍으로서 동작하는 2개의 타일의 개략도이다.
도 1은 단일 칩 프로세서(2)의 아키텍처를 개략적으로 도시한다. 상기 프로세서는 본 명세서에서 기계 지능 애플리케이션에 대한 적응성을 나타내기 위해 IPU (Intelligence Processing Unit)로서 지칭된다. 컴퓨터에서 상기 단일 칩 프로세서는 컴퓨터를 구성하기 위해 후술하는 바와같이 칩의 링크를 사용하여 함께 연결될 수 있다. 본 설명은 단일 칩 프로세서(2)의 아키텍처에 초점을 맞춘다. 상기 프로세서(2)는 타일(tile)들로서 지칭되는 다수의 프로세싱 유닛들을 포함한다. 일 실시예에서, 본 명세서에서 "북쪽(North)" 및 "남쪽(South)"으로 지칭되는 어레이 (6a, 6b)로 조직화된 1216개의 타일이 있다. 기술된 예에서, 각 어레이는 76개의 타일로 된 8개의 컬럼을 갖는다(실제로는 리던던시 목적으로 80개의 타일이 존재할 것이다). 본 명세서에 설명된 개념들은 다수의 상이한 물리적 아키텍처로 확장된다는 것을 이해할 수 있을 것이다. 이해를 돕기 위해 본 명세서에 하나의 예가 제시되어 있다. 상기 칩(2)은 칩(2)의 "서쪽(West)"에지 상에 배치된 2개의 칩 대(to) 호스트 링크(8a, 8b) 및 4개의 칩 대 칩 링크(30a, 30b)를 갖는다. 상기 칩(2)은 칩(2)에 의해 처리될 입력 데이터의 형태로 카드 대 호스트 링크들 중 하나를 통해 상기 칩에 연결된 호스트(미도시)로부터 작업을 수신한다. 상기 칩은 칩의 "동쪽" 측을 따라 배치된 추가의 6개의 칩-대-칩 링크(30a, 30b)에 의해 카드들로 함께 연결될 수 있다. 호스트는 본 명세서에 설명된 바와 같이 단일 칩 프로세서(2) 또는 다수의 상호 접속된 단일 칩 프로세서(2) 그룹으로 구성된 컴퓨터에, 호스트 애플리케이션으로부터의 작업 부하에 따라 액세스할 수 있다.
상기 칩(2)은 칩 액티비티(chip activity)의 타이밍을 제어하는 클럭(3)을 갖는다. 상기 클럭은 칩의 모든 회로와 구성 요소에 연결된다. 상기 칩(2)은 모든 타일들 및 링크들이 연결 와이어 세트에 의해 연결되는 시간 결정적 스위칭 패브릭(34)를 포함하며, 상기 스위칭 패브릭은 상태 비보존형(stateless), 즉 프로그램 가시 상태((program visible state))를 갖지 않는다. 각 연결 와이어 세트는 끝과 끝이 고정되어 있다. 상기 와이어는 파이프 라인 방식이다. 이 실시예에서, 한 세트는 32개의 데이터 와이어 및 제어 와이어, 예를 들어 유효 비트를 포함한다. 각 세트는 32 비트 데이터 패킷을 운반할 수 있지만, 본 명세서에서 "패킷"이라는 워드는 아마 하나 이상의 유효 비트를 갖는 데이텀(datum)(때로는 데이터 아이템으로 언급됨)를 나타내는 비트 세트를 나타낸다. 상기 "패킷"들에는 예정된(intended) 수신자를 고유하게 식별할 수 있는 헤더나 임의 형태의 목적지 식별자도 없고 패킷 끝 정보도 없다. 대신, 그들 각각은 타일에 입력되거나 타일로부터 출력되는 수치 또는 논리 값을 나타낸다. 각 타일은 자체 로컬 메모리를 갖는다(차후 설명). 상기 타일들은 메모리를 공유하지 않는다. 상기 스위칭 패브릭은 후술하는 바와 같이 멀티플렉서들 및 타일들에만 연결된 교차 연결 와이어 세트를 구성하고 임의의 프로그램 가시 상태를 유지하지 않는다. 상기 스위칭 패브릭은 상태 비보존형인 것으로 간주되며 메모리를 사용하지 않는다. 타일 들간의 데이터 교환은 본 명세서에 설명된 바와 같이 시간 결정적 기초로 수행된다. 파이프라인된 연결 와이어는 클럭 싸이클 동안 데이텀을 유지하여 그것을 다음 저장소(store)로 릴리스하는 일련의 임시 저장소(예를 들어, 래치(latch) 또는 플립 플롭(flip flop)를 포함한다. 상기 와이어를 따르는 이동 시간(Time of travel)은 이들 임시 저장소에 의해 결정되며, 각 저장소는 임의의 두 포인트 사이의 경로에서 시간의 클럭 사이클을 사용한다.
도 2는 본 발명의 실시예에 따른 예시적인 타일(4)을 도시한다. 상기 타일에서 멀티 스레드는 단일 실행 파이프 라인을 통해 인터리빙된다. 상기 타일(4)은 각각이 복수의 스레드 중 상이한 각각의 스레드의 상태를 나타내기 위해 배열된 복수의 컨텍스트(26)와, 복수의 스레드에 공통인 공유 명령 메모리(12)와, 상기 복수의 스레드들에 또한 공통인 공유 데이터 메모리(22)와, 상기 복수의 스레드들에 다시 공통인 공유 실행 파이프 라인들(14, 16, 18)과, 인터리빙된 방식으로 상기 공유 파이프 라인을 통한 실행을 위해 복수의 스레드를 스케줄링하는 스레드 스케줄러(24)를 포함한다. 상기 스레드 스케줄러(24)는 타임 슬롯들(S0... S5)의 시퀀스에 의해 도면에 개략적으로 도시되지만, 실제로는 상기 스레드들이 자신의 타임 슬롯과 관련하여 프로그램 카운터들을 관리하는 하드웨어 메커니즘이다. 상기 실행 파이프 라인은 페치(fetch) 스테이지(14), 디코드 스테이지(16) 및 실행 유닛(EXU) 및 로드/저장 유닛(LSU)을 포함하는 실행 스테이지(18)를 포함한다. 각각의 콘텍스트(26)는 상기 각각의 스레드의 프로그램 상태를 나타내기 위한 각각의 레지스터 세트(R0, R1 ...)을 포함한다.
상기 페치 스테이지(14)는 스레드 스케줄러(24)의 제어하에 명령 메모리(12)로부터 실행될 명령들을 페치하도록 연결된다. 상기 스레드 스케줄러(24)는 후술하는 바와 같이, 각 타임 슬롯에서의 실행을 위해 로컬 프로그램으로부터 명령들을 페치하기 위해 페치 스테이지(14)를 제어하도록 구성된다.
상기 페치 스테이지(14)는 타임 슬롯에 현재 할당된 스레드 각각의 프로그램 카운터(PC)에 대한 액세스를 갖는다. 주어진 스레드에 대해, 페치 스테이지(14)는 상기 스레드의 프로그램 카운터에 의해 지시된 바와 같이 명령 메모리(12)의 다음 주소로부터 스레드의 다음 명령을 페치한다. 본 명세서에서 언급되는 명령은 오피코드(opcode) 및 0 이상의 오퍼랜드로 이루어진 기계 코드 명령, 즉 컴퓨터의 명령 세트의 기본 명령들 중 하나의 인스턴스를 의미한다. 각 타일에 로드된 프로그램은 지원되는 기계 지능 모델의 그래프에 기초하여 작업을 할당하기 위한 프로세서 또는 컴파일러에 의해 결정된다.
이어서, 상기 페치 스테이지(14)는 페치된 명령을 디코드되도록 디코드 스테이지(16)로 전달하고, 상기 디코드 스테이지(16)는 디코드된 명령의 표시를, 상기 명령이 실행되도록 하기 위해 상기 명령에서 지정된 현재 컨텍스트의 임의의 오퍼랜드 레지스터의 상기 디코딩된 주소와 함께 실행 스테이지(18)로 전달한다.
본 실시예에서, 상기 스레드 스케줄러(24)는 라운드-로빈 방식에 따라 스레드들을 인터리빙함으로써, 상기 방식의 각 라운드내에서, 상기 스레드는 각각의 스레드를 실행하기 위한 각각의 타임 슬롯(S0, S1, S2, S3)의 시퀀스로 분할된다. 일반적으로 각 슬롯은 하나의 프로세서 사이클 길이이고 상기 상이한 슬롯들은 균등하게(비록 모든 가능한 실시예에서 필수적이지는 않지만) 크기가 정해진다. 이 패턴은 그 후 반복되며, 각 라운드는 각 타임 슬롯의 각각의 인스턴스를 포함한다(가능한 모든 실시예에서 반드시 그런 것은 아니지만 매번 동일한 순서로 실시예에서). 따라서, 본 명세서에서 언급된 타임 슬롯은 시퀀스의 주어진 반복에서의 타임 슬롯의 특정 인스턴스가 아니라, 시퀀스 내의 반복 할당된 위치(place)를 의미한다. 도시된 실시예에서, 8개의 타임 슬롯이 있지만, 다른 갯수도 가능하다. 각 타임 슬롯은 하드웨어 리소스, 예를 들어 실행 스레드의 컨텍스트를 관리하는 레지스터와 관련된다.
SV로 표시된 컨텍스트들(26) 중 하나는 "워커(worker)" 스레드의 실행을 조정하는 "수퍼바이저(supervisor)"(SV)의 상태를 나타내도록 특별한 함수를 위해 예약되어 있다. 상기 수퍼바이저는 동시에 실행될 수 있는 하나 이상의 수퍼바이저 스레드로서 구성된 프로그램으로 구현될 수 있다. 상기 수퍼바이저 스레드는 후술할 배리어 동기화(barrier synchronisations)를 수행할 책임이 있거나 타일 사이의 데이터 교환은 물론 로컬 메모리 안팎으로 데이터 교환을 담당할 수 있으므로 계산들간에 워커 스레드사이에 공유될 수 있다. 상기 스레드 스케줄러(24)는 프로그램 전체가 시작될 때, 수퍼바이저 스레드를 모든 타임 슬롯에 할당함으로써 시작되도록, 즉 수퍼바이저 SV가 모든 타임 슬롯(S0 ... S5)에서 실행을 시작하도록 구성된다. 그러나, 상기 수퍼바이저 스레드에는 어떤 후속 지점에서(즉각적으로 또는 하나 이상의 수퍼바이저 작업을 수행한 후에), 워커 스레드(C0, C1) 각각에 대해 실행중인 각 슬롯을 일시적으로 양도하는(relinquishing) 메커니즘이 제공되어 워커 스레드가 할당된 슬롯을 나타낸다. 이것은 수퍼바이저 스레드가 본 발명의 예로서 "RUN"이라고 불리는 양도 명령을 실행함으로써 달성된다. 실시예에서, 이 명령은 2개의 오퍼랜드, 즉 명령 메모리(12) 내의 워커 스레드의 주소 및 데이터 메모리(22)의 해당 스레드에 대한 일부 데이터의 주소를 취한다.
RUN task_addr, data_addr
각 워커 스레드는 그래프의 정점을 나타내고 원자적으로 실행되도록 의도된 코드렛(codelet)이다. 이것이 소비자가 출시할 때 사용할 수 있는 모든 데이터이며 생성된 모든 데이터는 종료될 때까지 다른 스레드에서 볼 수 없다. 이것은 완료될 때까지 실행된다(오류 조건 제외). 데이터 주소는 코드렛에 의해 처리될 일부 데이터를 지정할 수 있다. 대안적으로, 상기 양도 명령(relinquish instruction)은 코드렛의 주소를 지정하는 단 하나의 오퍼랜드만을 취할 수 있으며, 데이터 주소는 코드렛의 코드에 포함될 수 있다; 또는 단일 오퍼랜드가 코드렛 및 데이터의 주소를 지정하는 데이터 구조를 가리킬 수 있다. 코드렛들은 서로 동시에 독립적으로 실행될 수 있다.
어느 쪽이든, 이 양도 명령("RUN")은 현재의 타임 슬롯, 즉 이 명령이 실행되는 타임 슬롯을 상기 오퍼랜드에 의해 지정된 워커 스레드로 양도하기 위해 상기 스레드 스케줄러(24)에서 작용한다. 그것은 양도 명령에서 양도되고 있는 명령이 실행되는 타임 슬롯임을 암시함에 유의한다(기계 코드 명령의 컨텍스트에서 암시적인 것(implicit)은 이것을 지정하기 위해 오퍼랜드가 필요 없다는 것을 의미함-이는 오퍼랜드 자체로부터 암시적으로 이해된다). 따라서, 주어진(given away) 슬롯은 수퍼바이저가 양도 명령을 실행하는 슬롯이다. 또는 다른 말로 하면, 수퍼바이저는 그것이 주어지는 동일 위치(space)에서 실행 중이다. 상기 수퍼바이저가 "이 코드렛을 이 타임 슬롯에서 실행하십시오"라고 말하면 그 시점부터 관련 워커 스레드가 해당 슬롯을 (일시적으로) 소유한다. 수퍼바이저가 슬롯을 사용하는 경우 수퍼바이저는 해당 슬롯과 관련된 컨텍스트를 사용하지 않고 자체 컨텍스트 SV를 사용한다는 점에 유의한다.
상기 수퍼바이저 스레드(SV)는 각각의 타임 슬롯에서 유사한 동작을 수행하여 모든 그의 슬롯(C0, C1)을 워커 스레드의 상이한 각각에 제공한다. 마지막 슬롯에 대해 이렇게 하면, 상기 슈퍼바이저는 실행할 슬롯이 없으므로 실행을 일시 중지한다. 수퍼바이저는 그의 모든 슬롯을 줄 수는 없으며 자체 실행을 위해 일부를 유지할 수 있다.
상기 수퍼바이저 스레드가 코드렛을 실행할 시간이라고 결정하면, 양도 명령(RUN)을 사용하여 이 코드렛을 'RUN' 명령을 실행하는 슬롯에 할당한다.
슬롯(C0, C1)의 워커 스레드 각각은 하나 이상의 계산 작업을 수행한다. 작업이 끝나면, 워커 스레드는 실행중인 타임 슬롯을 수퍼바이저 스레드로 다시 전달한다.
이것은 종료(exit) 명령("EXIT")를 실행하는 워커 스레드에 의해 이루어진다. 일 실시예에서, 상기 EXIT 명령은 종료시 각각의 코드렛의 상태를 나타내기 위해 프로그래머가 원하는 임의의 목적을 위해 사용되는 적어도 하나의 오퍼랜드 및 바람직하게는 단지 단일 오퍼랜드, 즉 exit 상태(예를 들어, 2진 값)를 취한다.
EXIT exit_state
일 실시예에서, EXIT 명령은 스케줄러(24)에서 작용하여, 실행된 타임 슬롯이 수퍼바이저 스레드로 다시 리턴되도록 한다. 이어서 수퍼바이저 스레드는 하나 이상의 후속 수퍼바이저 작업(예컨대, 워커 스레드들 간의 데이터 교환을 용이하게 하기 위해 배리어 동기화 및/또는 메모리의 데이터 이동)을 수행하고 및/또는 문제의 슬롯에 새로운 워커 스레드(W4 등)를 할당하기 위해 다른 양도 명령을 계속 실행할 수 있다. 따라서, 명령 메모리(12) 내의 총 스레드 수는 배럴-스레드 프로세싱 유닛(10)이 임의의 한 번에 인터리빙할 수 있는 수보다 클 수 있다. 슈퍼바이저 스레드(SV)의 역할은 전체 프로그램의 어느 스테이지에서 명령 메모리(12)로부터 워커 스레드(W0 ... Wj)가 실행될 것인지를 스케줄링하는 것이다.
다른 실시예에서, 상기 EXIT 명령은 exit 상태를 정의할 필요가 없다.
이 명령은 스레드 스케줄러(24)에서 작용하여, 스레드 스케줄러(24)가 실행되는 타임 슬롯이 수퍼바이저 스레드로 다시 리턴되도록 한다. 수퍼바이저 스레드는 하나 이상의 수퍼바이저 후속 작업(예를 들어, 배리어 동기화 및/또는 데이터 교환)을 수행할 수 있고 및/또는 다른 양도 명령을 계속 수행할 수 있다.
위에서 간단히 언급했듯이, 데이터는 칩의 타일들간에 교환된다. 각 칩은 계산 페이즈(compute phase)와 교환 페이즈(exchange phase)로 구성된 벌크 동기 병렬 프로토콜을 운영한다. 상기 프로토콜은 예를 들어 도 3에 개시되어 있다. 도 3의 왼쪽 다이어그램은 각 타일(4)이, 상태 기반 코드렛(stateful codelets)이 로컬 메모리(12, 22)상에서 실행되는 페이즈(phase)에 있는 계산 페이즈를 나타낸다. 도 3에서 타일(4)은 원으로 배열되어 도시되어 있지만, 이것은 단지 설명을 위한 것이며 실제 아키텍처를 반영하지는 않는다.
상기 계산 페이즈 이후에는 화살표(30)로 표시된 동기화가 있다. 이것을 달성하기 위해, SYNC(동기화) 명령이 프로세서의 명령 세트에 제공된다. 상기 SYNC 명령은 현재 실행중인 워커들(W)이 EXIT 명령에 의해 종료할 때까지 수퍼바이저 스레드(SV)를 대기하게 하는 효과가 있다. 실시예에서, 상기 SYNC 명령은 모드를 오퍼랜드로서 취하는데, 상기 모드는 SYNC가 동일한 프로세서 모듈(4)상에서 국부적으로 실행중인 워커 스레드들에 대해서만 국부적으로 동작하는지 여부, 즉 동일한 타일을 사용할지 아니면 다수의 타일이나 다수의 칩에 적용할지를 지정한다.
SYNC mode // mode ∈ {tile, chip, zone_1, zone_2}
BSP 그 자체는 당 업계에 공지되어 있다. BSP에 따르면, 각 타일(4)은 교호 사이클(alternating cycle)에서 계산 페이즈(52) 및 교환(종종 통신 또는 메시지-전달(passing)로 불리는) 페이즈(50)를 수행한다. 계산 페이즈 및 교환 페이즈는 타일 실행 명령에 의해 수행된다. 계산 페이즈(52) 동안, 각 타일(4)은 타일상에서 국부적으로 하나 이상의 계산 작업을 수행하지만, 이들 연산의 결과를 타일들(4)의 임의의 다른 것과 통신하지 않는다. 교환 페이즈(50)에서, 각 타일(4)은 그룹 내의 타일들 중 하나 이상의 다른 타일들로 및/또는 이전 계산 페이즈로부터의 계산들의 하나 이상의 결과를 교환(통신)하도록 허용되지만, 다른 타일(4)상에서 수행된 작업에 대한 잠재적인 의존성을 가지거나 다른 타일(4)상의 작업이 잠재적으로 종속성을 가질 수 있는 임의의 새로운 계산을 수행하지는 않는다(내부 제어 관련 연산과 같은 다른 연산이 교환 페이즈에서 수행될 수 있는 것은 배제되지 않는다). 또한, BSP 원리에 따르면, 배리어 동기화는 계산 페이즈들(52)로부터 교환 페이즈(50)로 또는 교환 페이즈(50)로부터 계산 페이즈들(52)로 또는 양쪽으로 전환하는(transitioning) 시점(juncture)에 위치된다. 즉, (a) 모든 타일(4)은 그룹 내의 임의의 그룹이 다음 교환 페이즈(50)로 진행하기 전에 그들의 각각의 계산 페이즈(52)를 완료하거나, (b) 그룹 내의 모든 타일(4)은 그룹 내의 임의의 타일이 다음 계산 페이즈(52)로 진행하기 전에 그들의 각각의 교환 페이즈(50)를 완료하거나, (c) 이들 조건 모두가 시행된다. 이러한 교환 및 계산 페이즈의 시퀀스는 여러 번에 걸쳐 반복될 수 있다. BSP 용어에서, 교환 페이즈 및 계산 페이즈의 각각의 반복은 본 명세서에서 BSP의 몇몇 이전 설명에서의 사용과 일치하는 "슈퍼스텝 (superstep)"으로 지칭된다. 본 명세서에서 "슈퍼스텝"이라는 용어는 때때로 교환 페이즈 및 계산 페이즈 각각을 나타내기 위해 본 기술 분야에서 사용된다는 것에 유의한다.
실행 스테이지(18)의 실행 유닛(EXU)은, 온-칩(타일 간) 오퍼랜드에 의해 규정될 때, 상기 SYNC 명령의 오피코드에 응답하여, 어레이(6)의 모든 타일들(4)이 실행중인 워커를 종결할 때까지 상기 "SYNC 칩"이 실행된 수퍼바이저 스레드가 일시 정지되게 하도록 구성된다. 이것은 다음 BSP 슈퍼스텝에 대한 배리어를 구현하는데 사용될 수 있는데, 즉 칩(2)상의 모든 타일(4)이 상기 배리어를 통과한 후에 전체적으로 교차-타일 프로그램은 다음 교환 페이즈(50)로 진행할 수 있다.
각각의 타일은 그 동기화 상태를 동기 모듈(36)에 표시한다. 일단 각 타일이 데이터를 송신할 준비가 되면, 상기 동기화 프로세스(30)는 시스템으로 하여금 도 3의 우측에 도시된 교환 페이즈로 진입하게 한다. 이 교환 페이즈에서, 데이터 값은 타일들 간에 이동한다(실제로 메모리-대-메모리 데이터 이동에서 타일들의 메모리들 사이에). 교환 페이즈에는 타일 프로그램들간에 동시성 위험을 유발할 수 있는 계산들이 없다. 교환 페이즈에서, 각 데이텀(datum)은 송신 타일로부터 하나 이상의 수신 타일(recipient tile)(들)로 타일이 빠져 나가는(exits) 연결 와이어를 따라 이동한다. 각 클럭 사이클마다, 데이텀은 파이프 라인 방식으로 경로(저장소로 저장)를 따라 특정 거리를 이동한다. 데이텀이 타일로부터 발행될 때 수신 타일을 식별하는 헤더가 발행되지 않는다. 대신에, 수신 타일은 특정 시간에 특정 송신 타일로부터의 데이텀을 기대하고 있음을 알고 있다. 따라서, 본 명세서에 설명된 컴퓨터는 시간 결정적이다. 각각의 타일은 프로그래머나 컴파일러에 의해 할당된 프로그램을 운영하는데, 상기 프로그래머나 컴파일러 함수는 특정 시간에 특정 타일에 의해 전송될 내용과 특정 시간에 수신 타일에 의해 수신될 필요가 있는 것을 알고 있다. 이를 달성하기 위해, SEND 명령은 각 타일상의 프로세서에 의해 실행되는 로컬 프로그램에 포함되며, 여기서 상기 SEND 명령의 실행 시간은 컴퓨터의 다른 타일들상에서 실행되는 다른 명령들의 타이밍에 비해 사전 결정된다. 이것은 차후에 보다 상세하게 설명되지만, 먼저 수신 타일이 사전 결정된 시간에 데이텀을 수신할 수 있는 메커니즘이 기술될 것이다. 각 타일(4)은 자신의 멀티플렉서(210)와 관련되며, 그에 따라 칩은 1216개의 멀티플렉서를 갖는다. 각 멀티플렉서는 1216개의 입력을 가지며, 각 입력은 32 비트 폭(선택적으로 일부 제어 비트 포함)이다. 각 입력은 스위칭 패브릭(34) 내의 각각의 연결 와이어 세트(140x in)에 연결된다. 상기 스위칭 패브릭의 연결 와이어들은 또한 각 타일(후술하는 브로드캐스트 교환 버스)로부터의 데이터 출력 세트의 연결 와이어(218)에 접속되며, 따라서 이 실시예에서는 칩을 가로지르는 방향으로 연장하는 1216세트의 연결 와이어가 있다.
설명을 용이하게 하기 위해, 도 2에 도시되지 않은 타일로부터 오는, 남쪽 어레이(6b)에 있는 데이터 출력 와이어(data out wires)(218s)에 연결된 단일의 굵은 와이어 세트(140sc)가 도시되어 있다. 이 와이어 세트는 다수의 교차 와이어(1400-1401215)의 세트들 중의 하나임을 나타내기 위해 140x로 표시되어 있다. 도 2에서 알 수 있는 바와 같이, 멀티플렉서(210)가 220x로 표시된 입력으로 스위칭될 때, 이는 교차 와이어들(140x)에 연결될 것이고, 따라서 남쪽 어레이(6b)로부터의 타일(도 2에 미도시)의 데이터 출력 와이어들(218s)에 연결될 것이다. 만약 멀티플렉서가 특정 시간에 그 입력(220sc)으로 스위칭하도록 제어되면, 상기 연결 와이어(140x)의 세트에 연결된 상기 데이터 출력 와이어상에서 수신된 데이텀은 특정 시간에서 멀티플렉서(210)의 출력(230)에 나타날 것이다. 그것은 일정한 지연 후에 타일(4)에 도착할 것이고, 상기 지연은 타일로부터 멀티플렉서의 거리에 의존한다. 상기 멀티플렉서가 스위칭 패브릭의 일부를 형성하기 때문에, 상기 타일에서 멀티플렉서까지의 지연은 타일의 위치에 따라 달라질 수 있다. 상기 스위칭을 구현하기 위해, 타일들 상에 실행되는 로컬 프로그램은 스위치 제어 명령(PUTi)을 포함하는데, 이 스위치 제어 명령은 멀티플렉서 제어 신호(214)가 특정 데이텀이 타일에서 수신될 것으로 예상되는 시간보다 앞서 특정 시간에 그 입력을 스위칭하기 위해 해당 타일과 연관된 멀티플렉서를 제어하도록 발행되게 한다. 교환 페이즈에서, 멀티플렉서들이 스위칭되고 패킷들(데이터)이 스위칭 패브릭을 사용하여 타일들간에 교환된다. 이 설명으로부터 스위칭 패브릭에는 상태(state)가 없음이 자명하며, 각 데이텀의 이동은 각 멀티플렉서의 입력이 스위칭되는 특정 와이어 세트에 의해 사전 결정된다.
상기 교환 페이즈에서, 모든 타일을 모든 타일 통신에 사용할 수 있다. 교환 페이즈는 다수의 사이클을 가질 수 있다. 각 타일(4)은 그 자신의 고유한 입력 멀티플렉서(210)의 제어를 갖는다. 상기 칩의 임의의 다른 타일 또는 연결 링크들 중 하나에서 유입하는 트래픽은 선택될 수 있다. 멀티플렉서가 '널(null)' 입력(즉, 해당 특정 교환 페이즈에서 임의의 다른 타일로부터의 입력이 없음)을 수신하도록 설정될 수 있다. 선택은 교환 페이즈 내에서 주기별로 변경될 수 있으며, 그것은 전반적으로 일정하지 않아도 된다. 데이터는 선택한 링크에 따라 칩상에서, 칩에서 칩으로 또는 칩에서 호스트로 교환될 수 있다. 본 출원은 주로 칩상의 타일 간 (inter-tile) 통신에 관한 것이다. 칩상에서 동기화를 수행하기 위해, 소수의 파이프 라인 신호가 모든 타일로부터 칩상의 동기화 제어기(36)로 제공되고, 파이프 라인된 동기 확인(ack) 신호가 동기화 제어기로부터 모든 타일로 다시 브로드캐스트된다. 일 실시예에서, 파이프 라인된 신호는 1 비트 폭의 데이지 체인된(daisy chained) AND/OR 신호이다. 타일들 간의 동기화가 이루어지는 하나의 메커니즘은 위에서 언급한 SYNC 명령 또는 다음에서 설명된다. 다른 메커니즘이 활용될 수 있는데, 중요한 것은 모든 타일이 칩의 계산 페이즈와 칩의 교환 페이즈 사이에서 동기화될 수 있다는 것이다(도 3). 상기 SYNC 명령은 타일(4) 및 동기화 제어기(36)의 전용 동기화 로직에서 트리거되도록 다음의 기능을 트리거한다. 동기화 제어기(36)는 하드웨어 상호 접속부(34)에 또는 도시된 바와 같이 별도의 온칩 모듈에 구현될 수 있다. 온-타일 동기 로직 및 동기화 제어기(36)의 이러한 기능은 전용 하드웨어 회로에 구현되어, SYNC 칩이 실행되면, 나머지 기능은 실행하기 위한 추가 명령 없이 진행된다.
먼저, 온-타일 동기 로직은 문제의 타일(4)상의 수퍼바이저에 대한 명령 발행이 자동적으로 중단되도록 한다(페치 스테이지(14) 및 스케줄러(24)로 하여금 수퍼바이저의 명령 발행을 중지하게 함). 일단 로컬 타일(4)상의 모든 워커 스레드가 EXIT를 수행하면, 동기 로직은 자동으로 동기 요청(sync_req)을 동기화 제어기(36)로 전송한다. 이어서 로컬 타일(4)은 수퍼바이저 명령 발행이 일시 정지된 상태로 계속 대기한다. 유사한 프로세스가 어레이(6) 내의 다른 타일들(4) 각각에도 구현된다(각각은 동기 논리의 자체 인스턴스를 포함함). 따라서, 어느 시점에서, 현재 계산 페이즈(52)의 모든 최종 워커가 어레이(6)의 모든 타일(4)에서 이탈(EXITed)하면, 동기화 제어기(36)는 어레이(6)의 모든 타일(4)로부터 각각의 동기 요청 (sync_req)을 수신할 것이다. 그런 때만, 동일한 칩(2)상의 어레이(6) 내의 모든 타일(4)로부터 sync_req를 수신하는 것에 응답하여, 동기화 제어기(36)는 동기 확인 신호("sync_ack")를 각 타일(4)상의 동기 로직으로 되돌려 보낸다. 이 시점까지, 각각의 타일(4)은 그 수퍼바이저 명령 발행이 상기 동기 확인 신호 (sync_ack)를 기다리는 동안 일시 정지되었다. 상기 sync_ack 신호를 수신하면, 타일(4) 내의 동기 로직은 그 타일(4)상의 각각의 수퍼바이저 스레드에 대한 상기 수퍼바이저 명령 발행의 일시 정지를 자동으로 해제한다. 수퍼바이저는 후속 교환 페이즈(50)에서 상호 접속부(34)를 통해 다른 타일들(4)과의 데이터 교환을 진행할 수 있다.
바람직하게는, 상기 sycn_req 및 sync_ack 신호는 각각의 타일(4)을 상호 접속(34)의 동기화 제어기(36)에 연결하는 하나 이상의 전용 동기 와이어를 통해 각각 동기화 제어기로 전송되고 동기화 제어기로부터 수신된다.
상기 타일의 연결 구조가 이하 더 상세히 설명될 것이다.
각 타일은 3 개의 인터페이스인,
스위칭 패브릭(34)으로부터 타일(4)로 데이터를 전달하는 exin 인터페이스(224);
브로드 캐스트 교환 버스(218)를 통해 타일로부터 스위치 패브릭으로 데이터를 전달하는 exout 인터페이스(226); 및
타일로부터 그의 멀티플렉서(210)로 제어 mux 신호(214)(mux-select)를 전달하는 exmux 인터페이스(228)를 갖는다.
각각의 개별 타일이 SEND 명령을 실행하고 올바른 데이터를 전송하고 수신하기 위해 적절한 시간에 제어 명령을 스위칭하는 것을 보장하기 위해서는, 교환 스케줄링 요구사항이 개별 프로그램을 컴퓨터의 개별 타일에 할당하는 프로그래머 또는 컴파일러에 의해 충족되어야 한다. 이 함수는 다음 교환 타이밍(BNET) 파라미터를 알아야 하는 교환 스케줄러에 의해 수행된다. 상기 파라미터를 이해하기 위해,도 2의 단순화된 버전이 도 4에 도시되어 있다. 도 4는 또한 수신 타일 및 송신 타일을 도시한다.
I. 각 타일의 SYNC 확인응답 지연(BNET_RSAK)(TID). TID는 후술하는 TILE_ID 레지스터에 유지된 타일 식별자이다. 이것은 각 타일이 가장 빠른 수신 타일에 대해 동기화 제어기(36)로부터 ack 신호를 수신할 때를 나타내는 항상 0보다 크거나 동일한 사이클 수이다. 이것은 상기 타일 ID가 그 타일의 칩상의 특정 위치를 나타내고 따라서 물리적 거리를 반영한다는 점에서 타일 ID로부터 계산될 수 있다. 도 4는 하나의 송신 타일(4T) 및 하나의 수신 타일(4R)을 도시한다. 개략적으로만 도시되고 스케일링되지는 않지만, 상기 타일(4T)은 동기화 제어기에 더 가깝게 표시되고, 상기 타일(4R)은 멀리 떨어져있는 것으로 표시되며, 그 결과 동기 확인응답 지연은 타일(4T) 보다 타일(4T)에 더 짧을 것이다. 특정 값은 동기 확인응답 지연을 위해 각 타일과 관련될 것이다. 이 값들은 예를 들어 지연 테이블에 보관하거나 타일 ID에 기초하여 매번 계산할 수 있다.
II. 교환 멀티플렉서(mux) 제어 루프 지연(BNET_MXP)(수신 타일의 TID). 이것은 타일의 입력 멀티플렉서 선택을 변경하는 명령(PUTi-MUXptr)을 발행하는 것과 동일한 타일이 새로운 멀티플렉서 선택의 결과로서 메모리에 저장된 교환 데이터에 대한 (가상의) 로드 명령을 발행할 수 있는 가장 빠른 시점(point) 사이의 사이클 수이다. 도 4를 보면, 이러한 지연은 수신 타일(4R)의 exmux 인터페이스 (228R)로부터 그의 멀티플렉서(210R)에 도달하는 제어 신호의 지연 및 상기 멀티플렉서의 출력으로부터 데이터 입력 exin 인터페이스(224)까지의 라인의 길이를 포함한다.
III. 타일 교환 지연(BNET_TT)(송신 타일의 TID, 수신 타일의 TID). 이것은 하나의 타일에서 발행되는 SEND 명령과 상기 수신 타일이 자체 메모리에서 전송된 값을 가리키는 (가상의) 로드 명령을 발행할 수 있는 가장 빠른 시점 사이의 사이클 수이다. 이것은 이미 논의된 것과 같은 테이블을 액세스하거나 계산에 의해 상기 송신 및 수신 타일들의 타일 ID로부터 결정된다. 도 4를 다시 보면, 이 지연은 데이터가 송신 타일(4T)로부터 그의 교환 버스(218T)를 따라 그의 ex_out 인터페이스(226T)에서 스위칭 패브릭(14)으로 이동하고 그런 다음 수신 타일(4R)에서 입력 mux(210R)를 통해 수신 타일의 ex_in 인터페이스(224R)로 이동하는데 소요되는 시간이다.
IV. 교환 트래픽 메모리 포인터 업데이트 지연(BNET_MMP()). 이것은 타일의 교환 입력 트래픽 메모리 포인터를 변경하는 명령(PUTi-MEMptr)을 발행하는 것과 동일한 타일이 새로운 포인터의 결과로 메모리에 저장된 교환 데이터에 대한 (가상의) 로드 명령을 발행할 수 있는 가장 빠른 시점 사이의 사이클 수이다. 이는 작고 고정된 사이클 수이다. 상기 메모리 포인터는 아직 논의되지 않았지만 도 2의 232에 도시되어 있다. 이는 데이터 메모리(202)로의 포인터로서 작용하고, ex_in 인터페이스(224)로부터의 인입(incomming) 데이터가 저장될 곳을 지시한다. 자세한 내용은 차후에 설명한다.
도 5는 교환 타이밍을 좀 더 자세히 보여준다. 도 4의 왼쪽에는 0~30에서 실행되는 IPU 클럭 사이클이 도시되어 있다. 송신 타일(4T)에 대한 동작은 송신 명령(SEND F3)의 발행으로 시작하여 IPU 클럭 사이클 0과 9 사이에서 일어난다. IPU 클럭 사이클 10 내지 24에서, 데이텀은 스위칭 패브릭(34)을 통해 그 파이프 라인을 통과한다.
IPU 클럭 사이클(11)에서 수신 타일(4R)을 보면, 타일 입력 멀티플렉서 선택: PUTi-MXptr(F3)을 변경하는 PUTi 명령이 실행된다. 도 5에서, 이 PUTi 명령은"PUTi INCOMING MUX(F3)"로 표시된다.
사이클 18에서, ITU 클럭 사이클 25에서 로드 명령을 허용하는 메모리 포인터 명령(PUTi-MEMptr(F3))이 실행된다. 도 5에서, 이 PUTi 명령은 "PUTi INCOMING ADR(F3)"로 표시된다.
송신 타일(4t)에서, IPU 클럭 사이클 1, 3 및 5는 "Transport( )"로 표시된다. 이것은 SEND 명령의 발행과 exout 인터페이스(F4, E1, E3 등)의 SEND 명령의 데이터 표현(manifestation) 사이의 내부 타일 지연이며 exout 인터페이스로 전송할 때 이전 SEND 명령으로부터의 데이텀을 나타낸다. IPU 클럭 사이클 2는 SEND 명령에 대한 주소 EO를 형성하도록 할당된다. 이것은 목적지 주소가 아닌 EO가 페치되는 위치이다. IPU 클럭 사이클 4에서, 메모리로부터 E2를 페치하기 위해 메모리 매크로가 실행된다. IPU 클럭 사이클 6에서, 패리티 체크가 E4에서 수행된다. IPU 클럭 사이클 7에서, MUX 출력 명령이 E5를 전송하기 위해 실행된다. IPU 클럭 사이클 8에서 E6가 인코딩되고 IPU 클럭 사이클 E7에서 출력된다.
교환 패브릭(34)에서, IPU 클럭 사이클 10 내지 24는 "교환 파이프 스테이지"로 표시된다. 각 사이클에서, 데이텀은 상기 파이프 라인을 따라(임시 저장소 사이) "한 단계(one step)" 이동한다.
사이클 25~28은 exin 인터페이스(Exc에 대한 Mem Macro(E2) 참조)에서 데이텀을 수신하는 사이의 수신 타일(4R)상의 지연을 나타내고, 사이클 25~29는 exin 인터페이스에서 데이텀을 수신하고 그것을 LD에 대한 메모리에 로드하는(Mem Macro(E2) 참조) 사이의 지연을 나타낸다. 해당 지연에서 다른 함수들이 수행될 수 있다(Earliest LD (F3), Reg file rd(F4), form adds(EO), Transport(E1) 참조).
간단히 말해서, 수신 타일(4R)의 프로세서가 송신 타일(4T)상의 프로세스 출력인 데이텀(예를 들어, F3)에 작용하기를 원한다면, 송신 타일(4T)은 특정 시간(예컨대, 도 5의 IPU 클럭 사이클 0)에 SEND 명령 [SEND(F3)]를 실행해야 하고, 수신 타일은 상기 송신 타일상의 SEND 명령 [SEND(F3)]의 실행에 대한 특정 시간만큼 (IPU 클럭 사이클 11에서와 같이) 스위치 제어 명령(PUTi EXCH MXptr)을 실행해야 한다. 이것은 데이터가 수신 타일에서 실행되는 코드렛에서 사용하기 위해 IPU 사이클 25에 로드되는 [earliest LD(F3)] 시간에 수신자 타일에 도착하는 것을 보장할 것이다.
수신 타일의 각각의 수신 프로세스는 PUTiMEMptr 명령과 같이 메모리 포인터를 설정할 필요가 없다는 점에 유의한다. 그 대신, 메모리 포인터(232)(도 2)는 각 데이텀이 상기 exin 인터페이스(224)에서 수신된 후에 자동으로 증가한다. 수신된 데이터는 다음의 사용 가능한 메모리 위치로 로드된다. 그러나, 메모리 포인터를 변경하는 기능은 상기 수신자 타일이 데이텀이 기록된 메모리 위치를 변경할 수 있도록 한다. 이 모든 것은 개별 프로그램을 개별 타일에 기록하는 컴파일러 또는 프로그래머가 적절하게 통신할 수 있도록 결정할 수 있다. 그 결과 내부 교환(칩상의 내부 교환)의 타이밍이 완전히 시간 결정적이게 된다. 이 시간 결정성은 교환 스케줄러에 의해 교환 시퀀스들을 고도로 최적화하는데 사용될 수 있다.
도 6은 본 명세서에 개시된 프로세서 아키텍처의 예시적인 애플리케이션, 즉 기계 지능에 대한 애플리케이션을 도시한다.
전술한 바와 같이 그리고 기계 지능 분야의 당업자에게 익숙한 바와 같이, 기계 지능은 기계 지능 알고리즘이 지식 모델을 학습하는 학습 스테이지부터 시작한다. 상기 모델은 상호 연결된 노드들(102) 및 링크들(104)의 그래프(60)로 표현될 수 있다. 노드들 및 링크들은 정점 및 에지로 지칭될 수 있다. 그래프의 각 노드(102)는 하나 이상의 입력 에지 및 하나 이상의 출력 에지를 가지며, 여기서 일부 노드들(102)의 일부 입력 에지들은 일부 다른 노드들의 출력 에지이므로 상기 노드들을 연결하여 그래프를 형성한다. 또한, 하나 이상의 노드(102)의 하나 이상의 입력 에지는 전체적으로 그래프에 대한 입력을 형성하고, 하나 이상의 노드(102)의 하나 이상의 출력 에지는 전체넉으로 그래프의 출력을 형성한다. 각 에지(104)는 텐서(n 차원 매트릭스)의 형태로 공통적으로 값을 전달하며, 이들은 입력 및 출력 에지상에서 각각 노드들(102)로/로부터 제공되는 입력 및 출력을 형성한다.
각 노드(102)는 그의 입력 에지 또는 에지들 상에 수신되는 그의 하나 이상의 입력의 함수를 나타내며, 이 함수의 결과는 출력 에지 또는 에지들 상에 제공된 출력(들)이다. 이들 결과는 때로 활성화(activations)로 지칭된다. 각 함수는 하나 이상의 파라미터(종종 곱셈 가중치일 필요는 없지만 가중치로 지칭됨)로 파라미터화된다. 일반적으로 상이한 노드들(102)에 의해 표현되는 상기 함수들은 상이한 형태의 함수일 수 있고 및/또는 상이한 파라미터들에 의해 파라미터화될 수 있다.
또한, 각 노드의 함수의 하나 이상의 파라미터 각각은 각각의 오류 값에 의해 특징지어 진다. 또한, 각각의 오류 조건은 각 노드(102)의 파라미터(들) 내의 오류(들)와 관련될 수 있다. 단일 오류 파라미터에 의해 파라미터화된 함수를 나타내는 노드(102)에 대해, 상기 오류 조건은 단순한 임계값일 수 있다. 즉, 오류가 특정 임계값 내에 있으면 오류 조건이 충족되지만 상기 오류가 임계값을 초과하면 충족되지 않을 수 있다. 하나 이상의 각각의 파라미터에 의해 파라미터화된 노드 (102)에 대해, 해당 노드(102)에 대한 오류 조건은 보다 복잡할 수 있다. 예를 들어, 상기 오류 조건은 해당 노드(102)의 각 파라미터가 각각의 임계치 내에 있는 경우에만 충족될 수 있다. 또 다른 예로서, 결합 메트릭(combined metric)은 동일 노드(102)에 대한 상이한 파라미터들의 오류를 결합하여 정의될 수 있고, 상기 오류 조건은 결합 메트릭의 값이 특정 임계값 내에 있다는 조건에서 충족될 수 있지만, 그렇지 않은 경우 상기 결합 메트릭의 값이 임계값을 초과하면 오류 조건은 충족되지 않는다(또는 메트릭의 정의에 따라 그 반대의 경우도 마찬가지임). 상기 오류 조건이 무엇이든간에, 이것은 노드의 파라미터(들)의 오류가 일정 수준 또는 허용 수준 아래로 떨어지는지의 척도를 제공한다.
학습 단계에서, 알고리즘은 경험 데이터, 즉 그래프에 대한 상이한 가능 입력 조합을 나타내는 다수의 데이터 포인트를 수신한다. 점점 더 많은 경험 데이터가 수신됨에 따라, 상기 알고리즘은 경험 데이터에 기초하여 그래프에서 다양한 노드(102)의 파라미터를 점차적으로 조정(tune)하여 파라미터의 오류를 최소화하려고 시도한다. 목표는 그래프의 출력이 원하는 결과에 최대한 가깝도록 하는 파라미터 값을 찾는 것이다. 상기 그래프가 전체적으로 이러한 상태에 가까워지면 계산이 수렴한다고 한다.
예를 들어, 지도(supervised) 접근법에서, 입력 경험 데이터는 트레이닝 데이터, 즉 알려진 출력에 대응하는 입력의 형태를 취한다. 각 데이터 포인트에서 상기 알고리즘은 상기 출력이 주어진 입력에 대해 알려진 출력과 더 가깝게 매칭하도록 파라미터를 조정할 수 있다. 후속 예측 단계에서, 상기 그래프는 입력 쿼리를 근사 예측 출력에 매핑하는데 사용될 수 있다(또는 추론을 하는 경우 반대의 경우도 마찬가지임). 다른 방법도 가능한다. 예를 들어 비지도(unsupervised) 접근법에서는, 입력 데이터마다 참조 결과 개념이 없고, 대신 기계 지능 알고리즘이 출력 데이터에서 자체 구조를 식별하도록 남겨둔다. 또는 보강 접근법에서, 알고리즘은 입력 경험 데이터의 각 데이터 포인트에 대해 적어도 하나의 가능한 출력을 시도하고, 이 출력이 양 또는 음(및 잠재적으로 그것이 양 또는 음인 정도)인지 여부, 예를 들어 승패 또는 보상 또는 처벌 등을 알려준다. 많은 시도에서 상기 알고리즘은 긍정적인 결과를 가져올 입력을 예측할 수 있도록 그래프의 파라미터들을 점차적으로 조정할 수 있다. 그래프를 학습하기 위한 다양한 접근법 및 알고리즘은 기계 학습 분야의 당업자에게 공지될 것이다.
본 명세서에 개시된 기술들의 예시적인 응용에 따르면, 각 워커 스레드는 기계 지능 그래프에서 노드들(102) 중 개별적인 하나와 관련된 계산을 수행하도록 프로그래밍된다. 이 경우, 노드들(102) 사이의 에지들(104)은 스레드들 간의 데이터 교환에 대응하고, 적어도 일부는 타일들간의 교환을 수반할 수 있다.
도 7은 컴파일러(70)의 함수를 나타내는 개략도이다. 상기 컴파일러는 그래프(60)를 수신하여 그래프 내의 함수를 도 7에서 72로 표시된 로컬 프로그램에 포함된 다수의 코드렛으로 컴파일한다. 각 로컬 프로그램은 컴퓨터의 특정 타일에 로드되도록 설계되었다. 각 프로그램은 각각은 일련의 명령들로 형성된 하나 이상의 코드렛(72a, 72b ...) 및 수퍼바이저 서브 프로그램(73)을 포함한다. 상기 컴파일러는 프로그램이 시간상으로 서로 링크되어 시간 결정성을 갖도록 프로그램을 생성한다. 이를 수행하기 위해, 컴파일러는 타일들의 위치를 나타내는 타일 식별자들을 포함하는 타일 데이터(74)에 액세스하고, 따라서 로컬 프로그램을 생성하기 위해 컴파일러가 이해할 필요가 있는 지연들을 액세스한다. 상기 지연들은 이미 위에서 언급한 바 있으며 타일 데이터에 기초하여 계산될 수 있다. 대안적으로, 타일 데이터는 이들 지연이 룩업 테이블을 통해 이용 가능한 데이터 구조를 통합할 수 있다.
이제 본 명세서에 정의된 컴퓨터 아키텍처에 대한 명령 세트의 일부로서 개발된 새로운 명령들에 대한 설명이 이어진다. 도 8은 32 비트의 SEND 명령을 나타낸다. SEND 명령은 타일 메모리로부터의 데이터 전송을 나타낸다. 이는 타일의 로컬 메모리(22) 내의 특정 주소에 저장된 하나 이상의 데이터가 타일의 exout인터페이스에서 전송되도록 한다. 각 데이텀(명령의 "아이템"으로 칭하는)은 하나 이상의 워드 길이가 될 수 있다. SEND 명령은 한 워드 또는 여러 워드에 대해 작동하여 송신 함수(send function)를 구현한다. 상기 SEND 명령은 오피코드(80), 메시지 카운트를 나타내는 필드(82), 주소 필드(84)에 표시된 SEND 주소로부터 하나 이상의 패킷의 형태로 전송될 아이템의 수를 갖는다. 상기 필드(84)는 아이템들이 기본 (base) 주소 레지스터에 저장된 기본값(base value)에 부가되는 즉시값(immediate value)의 형태로 전송되는 로컬 메모리의 주소를 정의한다. 상기 SEND 명령은 또한 4 및 8 바이트 중 하나로 선택된 워드 크기를 나타내는 전송 제어 필드(SCTL)(86)를 갖는다. 상기 패킷에는 목적지 식별자가 없다. 즉, 아이템들을 수신할 수신 타일이 명령에서 고유하게 식별되지 않는다. 상기 송신 함수은 송신 주소의 지정된 수의 데이터 아이템이 로컬 메모리로부터 액세스되어 타일의 ex_out 인터페이스에 위치하여 다음 클럭 사이클에 전송되도록 한다. 상기 SEND 명령의 다른 변형에서, 아이템들이 전송되는 주소는 암시적일 수 있고, 기본 주소 레지스터의 기본값과 인출(outgoing) 델타 레지스터의 델타값에서 가져온 값이다. 상기 델타값은 이전 SEND 명령의 정보에 기초하여 설정될 수 있다. 예정된(intended) 수신 타일의 고유 식별자 대신에, 컴파일러는 정확한 수신 타일이 본 명세서에서 이미 설명된 바와 같이 데이텀(데이터 아이템들)를 수신하기 위한 정확한 시간에 자신의 로컬 멀티플렉서(들)를 스위칭할 것을 결정한다. 어떤 경우에는 예정된 수신 타일이 송신 타일 자체일 수 있다.
이를 위해, 전술한 바와 같이 스위치 제어 함수가 제공된다. 도 9는 이 함수를 수행하는 PUT-i-MUX 명령을 나타낸다. 오피코드 필드(90)는 상기 명령을 PUT-i-MUX 명령으로 정의한다. 지연 시간은 지연 즉시값(92)에 의해 특정될 수 있다. 이 지연값은 'no op' 명령을 대체하는데 사용할 수 있으며 코드 압축을 최적화하기 위한 방법이다. 실행될 때, 이 명령은 멀티플렉서(210)의 입력이 다른 타일로부터 전송된 아이템들을 '청취(listen)'하도록 설정될 incoming_mux 필드(98)를 정의한다. 간결함을 위해, 이 mux 제어 함수는 위에서 정의된 송신 함수를 사용하여 단일 명령에 결합될 수 있다(도 10 참조). 상기 타일을 송신 타일로 작용하게 하는 송신 함수와 동일한 타일에서 단일 실행 사이클로 타일을 수행할 수 있다는 것을 제외하고 상기 타일이 수신 타일로 작용할 때의 함수인 스위치 제어 함수 간에는 연결이 없다는 점에 유의한다.
도 10은 "병합(merge)" 명령의 예이다. 이러한 맥락에서, "병합" 명령은 하나의 타일에서 동시에(하나의 실행 사이클에서) 수행될 수 있는 둘 이상의 함수를 정의하는 명령을 의미한다.
도 10은 '병합' 송신 명령의 형태를 도시하며, 여기서 송신 함수은 타일에서 레지스터에 유지되는 상태를 수정할 수 있는 제2 함수와 결합된다. 하나의 함수는 해당 타일에서 수신된 데이터에 대한 메모리 포인터를 변경하는 것이다. 다른 함수는 인입(incomming) MUX를 설정하는 것이다. 상기 PUTi_MEMptr 함수는 타일에 의해 수신된 다음 데이텀이 로드될 로컬 메모리의 메모리 위치를 식별할 수 있게 한다. 이 함수는 전용 '수신(receive)' 명령에 의해 수행될 수 있지만, 그 함수는 데이텀의 수신을 인에이블하지 않고 메모리 포인터를 수정하는 것이다. 실제로 타일에서 데이터를 수신하기 위해 특정 명령을 실행할 필요가 없다. 상기 exin 인터페이스에 도달하는 데이터는 exin 인터페이스의 제어하에 상기 메모리 포인터에 의해 식별된 다음의 메모리 위치로 로드될 것이다. 도 10의 명령은 오피코드 필드(100) 및 송신될 다수의 아이템 필드(102)를 갖는다. 인입 상태 변경 필드(state midification field)(106)내의 즉시값은 필드(104)에 의해 지정된 교환 구성 상태 레지스터에 기록된다. 일 형태에서, 상태 변경 필드(106)는 메모리 포인터가 설정될 상기 수신 주소를 계산하기 위한 인입 델타를 기록할 수 있다. 다른 형태에서, 상기 교환 구성 상태는 멀티플렉서 입력을 설정하는 인입 MUX 값으로 기록된다.
이러한 형태의 "병합" 명령에 대해, 상기 송신 함수은 명령에 함축되어 있는 하나 이상의 레지스터에 저장된 값들로부터 결정된 송신 주소를 사용한다. 예를 들어, 상기 송신 주소는 기본 레지스터 및 델타 레지스터로부터 결정될 수 있다.
도 11은 교환 명령(EXCH)이라고 불리는 "더블 폭(double width)" 명령을 나타낸다 이 명령은 타일 메모리의 지정된 주소로부터 데이터 전송을 시작하고 상기 인입 교환 구성 상태(데이터를 수신하기 위한 멀티플렉서 및/또는 메모리 포인터)를 설정한다. 상기 EXCH 명령은 명령 바로 다음의 메모리 위치에 있는 인라인 (inline) 32 비트 페이로드가 바로 뒤 따르는 점에서 고유하다. 상기 EXCH 명령은 교환 명령 EXCH를 나타내는 오피코드 필드(110)를 갖는다. 상기 페이로드에는 '코이슈(coissue)' 플래그(119)가 있다.
상기 EXCH 명령은 인입 포맷 데이텀 폭(32 비트 또는 64 비트)을 지정하는 단일 비트를 갖는 포맷 필드(112)를 포함한다. 상기 데이텀 폭은 나중에 설명하는 멀티플렉서 라인들의 설정에 영향을 미칠 수 있다. 아이템 필드(114)는 상기 교환 명령에 의해 전송되게 된 아이템들의 수를 정의한다. 이들 아이템은 도 9의 송신 명령에서 처럼, 필드(116)의 즉시값을 사용하여 계산된 송신 주소로부터 송신된다. 이 필드의 값은 기본 레지스터의 값에 추가된다.
참조 번호(118)는 송신 데이텀에 대한 워드 크기를 정의하는 제어 필드를 나타낸다. 상기 페이로드는 도 9와 관련하여 전술한 바와 같이, 인입 멀티플렉서에 대한 스위치 제어를 수행하는 스위치 제어 필드(120)를 포함한다. 도면 부호(122)는 도 10의 명령과 관련하여 전술한 바와 같이, 인입 데이터가 저장될 주소를 계산하기 위한 인입 델타를 정의하는 페이로드의 필드를 나타낸다. 도 11의 64 비트 와이드 교환 명령(EXCH)은 매 클럭 사이클마다 실행될 수 있으므로, 동시에 다음을 수행한다.
- 특정 주소에서 전송
- 인입 멀티플렉서의 업데이트
- 인입 주소 업데이트
따라서, 임의의 교환 스케줄은 단일 명령으로 인코딩될 수 있다. 도 8, 도 9 및 도 10의 명령들은 유사한 함수들을 수행하지만, 길이가 32 비트 밖에 되지 않으므로 각 타일의 로컬 메모리에서 교환 코드의 크기를 최소화할 수 있다. 임의의 특정 컨텍스트에서 어떤 명령을 사용할지에 대한 결정은 로컬 프로그램(72)에 대한 코드렛을 구성할 때 컴파일러(70)에서 이루어진다.
위의 명령들을 지원하기 위해 주요 레지스터 및 그 의미에 대한 목록이 있다. 이들 레지스터는 각 타일에 있는 레지스터 파일의 일부로부터의 레지스터이다.
Figure pat00001
상업할 수 있는 기능(feature)인 타일 페어링(tile pairing)을 설명할 것이다. 타일 페어링은 이웃의 전송 버스를 빌림으로써 단일 타일의 전송 대역폭을 더블(double)로 하거나, 이웃의 수신된 버스 및 관련된 인입 멀티플렉서를 공유함으로써 타일 쌍내의 두 타일 모두에 대해 수신된 대역폭을 두 배로 하는데 사용될 수 있다.
도 12는 더블 폭 전송을 수행하기 위한 타일 쌍 내의 타일들과 관련된 로직을 나타낸다. 더블 폭 전송은 SEND 지속 시간 동안 이웃의 인출 교환 리소스를 빌림으로써 수행된다. 상기 이웃 타일은 이 시간 동안 자신의 데이터 전송을 수행할 수 없다. SEND 명령은 레지스터 또는 즉시 필드(immediate field)에 유지된 값에 의해 지정된 전송 폭으로 단일 또는 더블 폭 데이터 전송을 수행할 수 있다. 상기 폭은 상기 필드가 0의 값을 갖는 경우 32 비트(한 워드) 또는 상기 필드가 1의 값을 갖는 경우 64 비트(2 워드)로 표시될 수 있다. 다른 논리적 정의도 가능하다. 상기 지정된 폭은 칩(4)상의 레지스터로부터 타일의 Ex Out 인터페이스(226) 내의 제어 저장소(1200)로 전달된다. 도 12는 이러한 페어링된 2개의 타일(TID00 및 TID01)을 나타낸다. 상기 Ex Out 인터페이스(226)는 최하위 워드(LSW) 및 최상위 워드(MSW)를 수용하기 위한 버퍼를 갖는다. 이 문맥에서, 각 워드는 32 비트이다. 상기 최하위 워드는 폭 제어 멀티플렉서(1202)의 입력에 직접 연결된다. 상기 멀티플렉서의 출력은 교환 버스(34)의 대응하는 교차-와이어에 연결되고, 상기 교차-와이어는 특정 타일에 대한 출력 와이어에 해당한다. 만약, 상기 전송 폭이 32 비트로 설정되면, 폭 제어 멀티플렉서들(1202)은 상기 페어링된 타일들의 각각의 LSW로부터 입력을 수신하도록 설정되어, 상기 쌍의 타일들이 각각의 32 비트 워드를 동시에 전송할 수 있게 한다
상기 쌍 중 하나의 멤버가 64 비트 워드를 전송하기를 원하면, 상기 이웃 타일의 폭 제어 멀티플렉서(1202)는 송신 타일로부터 최상위 워드 출력을 수신하고 이를 상기 멀티플렉서의 출력으로 전달하도록 설정된다. 이것은 송신 타일로부터의 64 비트 출력의 촤상위 워드가 이웃 타일들과 관련된 교환 버스의 교차 와이어 상에 놓이게 할 것이다(이 시점에서 어떤 것도 송신하는 것이 금지된다). 명확성을 위해, 송신 타일(TID00)의 저장소(1200) 내의 폭 제어 플래그로부터의 MUX 제어 라인은 이웃(비 송신) 타일(TID01)의 멀티플렉서(1202)의 제어 입력에 접속된 것으로 도시되어 있다. 유사하게, 이웃 타일(TID01)은 명료함을 위해 도 12에는 도시되지 않았지만, 그의 제어 저장소(1200)로부터 그의 페어링된 타일의 폭 제어 멀티플렉서(1202)의 입력에 연결된 MUX 제어 라인을 갖는다.
페어링된 타일들 사용하는 더블 폭 수신을 설명하기 위해 도 13을 참조할 것이다. 도 13의 페어링된 타일들은 TID03 및 TID04로 표시되지만, 이 기능은 TID00와 같은 타일이 예를 들어 TID03에 도시된 기능을 또한 가질 수 있도록 더블 폭 전송 기능과 함께 사용될 수 있음을 쉽게 이해할 것이다. 더블 폭 수신은 전송 지속 시간 동안 이웃의 인입 교환 리소스를 공유함으로써 이루어진다. 더블 폭 수신을 위해 구성된 경우, 타일 쌍 내의 각 타일은 인입 데이터를 샘플링하거나 무시하도록 선택할 수 있다. 만약 둘 다 샘플링할 것을 선택하면, 동일한 인입 데이터를 볼 것이다. 더블 폭 수신은 인입 데이터가 32 비트인지 64 비트인지를 식별하는 앞에서 설명한 인입 포멧(INCOMING_FORMAT) 값을 통해 이웃 타일과 협업(협력)하여 인에이블된다. 상기 타일 쌍의 1차 타일의 인입 멀티플렉서(210)의 값은 송신 타일의 타일 ID로 설정되어야 한다. 상기 타일 쌍 내의 2차 타일의 인입 멀티플렉서(210)의 '청취 입력'은 상기 송신 쌍 내의 다른 타일의 타일 ID로 설정되어야 한다. 이 경우 엄밀히 말하면, 송신 타일 쌍(예컨대, TID01)의 "송신"타일은 실제로 송신하는 것이 아니라 타일(TID00)의 교환 리소스들을 사용하기 위해 그의 최상위 워드를 제공한다. 따라서, 상기 수신 타일 쌍의 타일들의 인입 멀티플렉서들(210)은 송신 쌍의 더블 폭 송신 출력의 개별 워드들이 위치하는 교차 와이어들에 각각 연결되어야 한다.
일부 실시예들에서, 상기 인입 멀티플렉서들(210)이 교환기의 그들 각각의 교차 와이어들을 청취하기 위해 스위칭 되더라도, 이는 교환기와 개별 타일간의 이동 지연 시간이 다르기 때문에 상기 인입 값들이 수신 타일 쌍의 타일들에서 동시에 수신될 것이라는 것을 반드시 의미하지는 않는다. 따라서, 수신 타일 쌍에서 고려해야 할 3가지 가능성이 있다.
첫 번째 가능성에서, Exin 인터페이스인 2 개의 인입 버스는 독립적으로 처리된다(타일 쌍의 어느 것도 더블 폭 수신에 참여하지 않음).
두 번째 가능성에 따르면, 로컬 착신 교환 버스는 더블 폭 아이템의 초기 구성 요소를 전송하는데 사용된다(그리고 해당 구성 요소는 이제 지연되어야 함). 이것은 이웃 버스가 동일한 더블 폭 항목의 비-초기(non-early) 구성 요소를 전송하는데 사용될 것임을 의미한다.
세 번째 가능성에 따르면, 상기 로컬 착신 교환 버스는 더블 폭 아이템의 비- 초기 구성 요소를 전달하는데 사용된다. 이것은 이웃 버스가 동일한 더블 폭 아이템의 초기 구성 요소를 전송하는데 사용되었다는 것을 의미한다(따라서 이웃 버스상의 초기 데이터 구성 요소가 지연되었을 것임).
도 13은 멀티플렉서(1302 및 1304)를 사용하여 이들 시나리오를 처리하는 회로(1300)를 도시한다. 상기 회로(1300)는 수신 타일 쌍의 각 타일의 입력에 복제되지만, 명료함을 위해 TID03의 입력에만 도시된다.
상기 멀티플렉서의 제어는 레지스터로부터 Exin 인터페이스(224)로 공급되는 착신 포맷 제어로부터 온다. 만약, 타일(TID03)이 32 비트 모드로 동작하는 경우, 멀티플렉서(1302)는 파이프 라인 스테이지(1306) 및 제어 버퍼(1308)를 통해 도 13의 멀티플렉서의 상부 입력에서 32 비트 워드를 통과하도록 제어한다.
수신 타일이 쌍으로 작동하는 경우, 멀티플렉서 (1302)는 상위 입력을 차단하고 하위 입력으로부터의 최하위 워드가 파이프 라인 스테이지 (1306)로 통과 할 수 있도록 제어된다. 다음 사이클에서, 최상위 워드는 파이프 라인 스테이지 (1306)를 통해 클럭 킹 된 최하위 워드와 함께 멀티플렉서 (1304)를 통해 제어 버퍼 (1308)로 전달되도록 선택된다. 제어 버퍼 (1308)는 64 비트 워드를 수신할지 여부를 결정할 수있다. 논리에 따르면, 64 비트 워드는 인접 타일 (TID04)에서 동시에 수신 될 것이다. 경우에 따라 두 타일이 동일한 64 비트 값을 읽길 원할 수도 있지만 다른 상황에서는 타일 중 하나가이를 무시하기를 원할 수 있습니다.
64 비트 전송의 LSW 및 MSW가 그들의 페어링된 수신 타일에서 동시에 수신 될 수 있는 실시예가 있을 수 있으며, 이 경우 파이프라인 스테이지(1306)의 상대적인 지연은 요구되지 않을 것이다.
본 명세서에서는 기계 학습을 위한 지식 모델의 맥락에서 특히 효과적인 새로운 컴퓨터 패러다임을 기술하였다. 방대한 양의 데이터를 효율적으로 처리하기 위해 BSP 패러다임의 교환 페이즈에서처럼 시간 결정론을 이용하는 아키텍처가 제공된다. 특정 실시예들이 개시되었지만, 상기 개시된 기술의 다른 응용 및 변형은 본 발명의 청문회가 주어진다면 당업자에게 명백해질 수있다. 본 발명의 범위는 설명된 실시예에 의해 제한되지 않고 첨부된 청구 범위에 의해서만 제한된다.

Claims (22)

  1. 컴퓨터에 있어서,
    로컬 프로그램을 유지하는 명령 저장부, 상기 로컬 프로그램을 실행하는 실행 유닛 및 데이터를 유지하는 데이터 저장부를 각각 갖는 복수의 프로세싱 유닛;
    입력 와이어 세트를 갖는 입력 인터페이스 및 출력 와이어 세트를 갖는 출력 인터페이스와;
    상기 각각의 출력 와이어 세트에 의해 상기 프로세싱 유닛들 각각에 연결되고, 각 프로세싱 유닛에 의해 제어 가능한 스위칭 회로를 통해 상기 각각의 입력 와이어에 의해 상기 프로세싱 유닛들 각각에 연결 가능한 스위칭 패브릭과;
    상기 컴퓨터가 계산 페이즈(compute phase)와 교환 페이즈(exchange phase) 사이를 스위칭하도록 제어하기 위한 동기 신호를 생성하도록 동작 가능한 동기화 모듈을 포함하고,
    상기 프로세싱 유닛들은 공통 클럭에 따라 로컬 프로그램을 실행하도록 구성되고, 상기 로컬 프로그램은 교환 페이즈에서 적어도 하나의 프로세싱 유닛이 자신의 로컬 프로그램으로부터의 송신 명령을 실행하여 송신 시간에 자신의 데이터 패킷을 출력 연결 와이어 세트로 송신하도록 하고, 상기 데이터 패킷은 적어도 하나의 수신 프로세싱 유닛으로 예정(destined)되지만 목적지 식별자를 갖지 않으며, 사전 결정된 스위치 시간에 상기 수신 프로세싱 유닛은 자싱의 로컬 프로그램으로부터의 스위치 제어 명령을 실행하여 수신 시간에 데이터 패킷을 수신하기 위해 자신의 입력 와이어 세트를 상기 스위칭 패브릭에 연결하도록 자신의 스위칭 회로를 제어하고, 상기 송신 시간, 스위치 시간 및 수신 시간은 동기화 신호에 대한 공통 클럭에 의해 제어되는(governed) 것을 특징으로 하는 컴퓨터.
  2. 제1항에 있어서,
    상기 송신 명령은
    상기 데이터 패킷이 송신될 상기 데이터 저장부 내의 위치를 식별하는 송신 주소를 명시적으로 정의하는 것을 특징으로 하는 컴퓨터.
  3. 제1항에 있어서,
    상기 송신 명령에는 명시적으로 송신 주소가 정의되지 않으며, 상기 데이터 패킷은 송신 명령에 의해 암시적으로 정의된 레지스터에 정의된 송신 주소로부터 전송되는 것을 특징으로 하는 컴퓨터.
  4. 제3항에 있어서,
    상기 로컬 프로그램은
    상기 암시적 레지스터의 상기 송신 어드레스를 업데이트하기 위한 송신 주소 업데이트 명령을 포함하는 것을 특징으로 하는 컴퓨터.
  5. 선행하는 청구항들 중 어느 한 항에 있어서,
    상기 송신 시간은 상기 명령이 실행되는 상기 송신 시간 이후의 알려진 클럭 사이클 수인 것을 특징으로 하는 컴퓨터.
  6. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 스위칭 회로는
    자신의 프로세싱 유닛에 연결된 출력 와이어 exit 세트 및 상기 스위칭 패브릭에 연결된 다수의 입력 와이어 세트를 갖는 멀티플렉서를 포함하고, 상기 다수의 입력 와이어 세트 중 하나는 상기 프로세싱 유닛에 의해 제어되는 것으로 선택되는 것을 특징으로 하는 컴퓨터.
  7. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 수신 프로세싱 유닛은
    상기 데이터 패킷을 수신하여 이를 메모리 포인터에 의해 식별된 메모리 위치에서 상기 데이터 저장부로 로딩하도록 구성되는 것을 특징으로 하는 컴퓨터.
  8. 제7항에 있어서,
    상기 메모리 포인터는
    각 데이터 패킷이 상기 데이터 저장부로 로딩된 후에 자동으로 증가되는 것을 특징으로 하는 컴퓨터.
  9. 제7항에 있어서,
    상기 수신 프로세싱 유닛에서의 상기 로컬 프로그램은
    상기 메모리 포인터를 업데이트하는 메모리 포인터 업데이트 명령을 포함하는 것을 특징으로 하는 컴퓨터.
  10. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 송신 명령은
    송신될 데이터 패킷의 수를 식별하고, 각 데이터 패킷은 상이한 송신 시간과 연관되는 것을 특징으로 하는 컴퓨터.
  11. 제6항에 있어서,
    상기 입력 와이어 세트 중 하나는 널 입력(null input)에 연결되는 것을 특징으로 하는 컴퓨터.
  12. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 수신 프로세싱 유닛은
    이전 시간(earlier time)에 송신 명령을 실행한 프로세싱 유닛과 동일한 프로세싱 유닛이고, 상기 동일한 프로세싱 유닛는 데이터 패킷을 송신하고 나중에 해당 데이터 패킷을 수신하도록 구성되는 것을 특징으로 하는 컴퓨터.
  13. 제1항 내지 제4항 중 어느 한 항에 있어서,
    다수의 프로세싱 유닛은
    각각의 데이터 패킷을 송신하기 위해 각각의 송신 명령을 실행하도록 구성되고, 상기 데이터 패킷 중 적어도 일부는 어떠한 수신 프로세싱 유닛도 예정되어 있지 않은 것을 특징으로 하는 컴퓨터.
  14. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 프로세싱 유닛들 중 적어도 2개는 송신 쌍에서 동작(co-operate)하며,제1 데이터 패킷은 상기 쌍의 제1 프로세싱 유닛으로부터 연결 와이어들의 출력 세트를 통해 송신되고, 제2 데이터 패킷은 더블 폭(double width) 전송을 수행하도록 상기 쌍의 제1 프로세싱 유닛으로부터 상기 쌍의 제2 프로세싱 유닛의 연결 와이어들의 세트를 통해 전송되는 것을 특징으로 하는 컴퓨터.
  15. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 프로세싱 유닛들 중 적어도 2개는 수신 쌍으로서 동작(operate)하며, 상기 쌍의 각 프로세싱 유닛은 송신 쌍의 각각의 타일로부터 각각의 데이터 패킷을 수신하기 위해 자신의 각각의 입력 와이어 세트를 상기 스위칭 패브릭에 연결하도록 자신의 스위칭 회로를 제어하는 것을 특징으로 하는 컴퓨터.
  16. 각각이 로컬 프로그램을 유지하는 명령 저장부, 상기 로컬 프로그램을 실행하는 실행 유닛, 데이터를 유지하는 데이터 저장부, 입력 와이어 세트를 갖는 입력 인터페이스 및 출력 와이어 세트를 출력 인터페이스를 갖는 복수의 프로세싱 유닛과; 상기 각각의 출력 와이어 세트에 의해 상기 프로세싱 유닛들 각각에 연결되고, 각 프로세싱 유닛에 의해 제어 가능한 스위칭 회로를 통해 상기 각각의 입력 와이어에 의해 상기 프로세싱 유닛들 각각에 연결 가능한 스위칭 패브릭과; 그리고 컴퓨터가 계산 페이즈와 교환 페이즈 사이를 스위칭하도록 제어하기 위한 동기 신호를 생성하도록 동작 가능한 동기화 모듈을 포함하는 컴퓨터에서의 함수 계산 방법으로서, 상기 방법은,
    상기 프로세싱 유닛들이, 공통 클럭에 따라 상기 계산 페이즈에서 자신의 로컬 프로그램을 실행하는 단계와, 상기 교환 페이즈에서 적어도 하나의 프로세싱 유닛은 자신의 로컬 프로그램으로부터의 송신 명령을 실행하여 송신 시간에 데이터 패킷을 자신의 연결 와이어들의 출력 세트상에 전송하고, 상기 데이터 패킷은 적어도 하나의 수신 프로세싱 유닛으로 예정(destined)되지만 목적지 식별자를 갖지 않으며, 그리고
    사전 결정된 스위치 시간에 수신 프로세싱 유닛이, 자신의 로컬 프로그램으로부터 스위치 제어 명령을 실행하여 수신 시간에 데이터 패킷을 수신하기 위해 자신의 입력 와이어 세트를 상기 스위칭 패브릭에 연결하도록 상기 스위칭 회로를 제어하는 단계를 포함하고, 상기 송신 시간, 스위치 시간 및 수신 시간은 동기화 신호에 대한 공통 클럭에 의해 제어되는(governed) 것을 특징으로 하는 컴퓨터에서의 함수 계산 방법.
  17. 제16항에 있어서,
    상기 함수는
    복수의 상호 접속된 노드를 포함하는 정적 그래프의 형태로 제공되며, 각 노드는 상기 로컬 프로그램의 코드렛(codelet)에 의해 구현되는 것을 특징으로 하는 컴퓨터에서의 함수 계산 방법.
  18. 제17항에 있어서,
    상기 계산 페이즈에서, 각 코드렛은 데이터를 처리하여 결과를 생성하며, 상기 결과 중 일부는 후속 계산 페이즈에 필요하지 않으며 임의의 수신 프로세싱 유닛에 의해 수신되지 않는 것을 특징으로 하는 컴퓨터에서의 함수 계산 방법.
  19. 제16항 내지 제18항 중 어느 한 항에 있어서,
    상기 교환 페이즈에서, 상기 데이터 패킷들은
    상기 스위칭 패브릭 및 스위칭 회로를 통해 프로세싱 유닛들간에 전송되는 것을 특징으로 하는 컴퓨터에서의 함수 계산 방법.
  20. 제16항 내지 제18항 중 어느 한 항에 있어서,
    각 프로세싱 유닛은 자신의 계산 페이즈가 완료되었음을 상기 동기화 모듈로 표시하고(indicate), 상기 동기 신호는 상기 교환 페이즈를 개시(commence)하기 위해, 모든 프로세싱 유닛이 자신의 계산 페이즈가 완료되었음을 표시하였을 때 상기 동기화 모듈에 의해 생성되는 것을 특징으로 하는 컴퓨터에서의 함수 계산 방법.
  21. 제17항에 있어서,
    상기 그래프는 기계 학습 함수를 나타내는 것을 특징으로 하는 컴퓨터에서의 함수 계산 방법.
  22. 제16항 내지 제18항 중 어느 한 항에 있어서,
    상기 교환 페이즈에서, 데이터 패킷들은 일련의 임시 저장소를 통해 파이프라인 방식으로 상기 스위칭 패브릭을 통해 전송되며, 각 저장소는 공통 클럭의 한 사이클 동안 데이터 패킷을 유지하는 것을 특징으로 하는 컴퓨터에서의 함수 계산 방법.
KR1020180126043A 2017-10-20 2018-10-22 멀티-타일 프로세싱 어레이의 동기화 KR102167059B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GBGB1717295.8A GB201717295D0 (en) 2017-10-20 2017-10-20 Synchronization in a multi-tile processing array
GB1717295.8 2017-10-20
GB1816892.2A GB2569430B (en) 2017-10-20 2018-10-17 Synchronization in a multi-tile processing array
GB1816892.2 2018-10-17

Publications (2)

Publication Number Publication Date
KR20190044574A true KR20190044574A (ko) 2019-04-30
KR102167059B1 KR102167059B1 (ko) 2020-10-16

Family

ID=60481682

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180126043A KR102167059B1 (ko) 2017-10-20 2018-10-22 멀티-타일 프로세싱 어레이의 동기화

Country Status (9)

Country Link
US (1) US10936008B2 (ko)
JP (1) JP6722251B2 (ko)
KR (1) KR102167059B1 (ko)
CN (1) CN109697185B (ko)
CA (1) CA3021450C (ko)
DE (1) DE102018126001A1 (ko)
FR (1) FR3072801B1 (ko)
GB (2) GB201717295D0 (ko)
TW (1) TWI708186B (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11455190B2 (en) 2016-02-05 2022-09-27 Sas Institute Inc. Implicit status in many task computing
GB2569275B (en) * 2017-10-20 2020-06-03 Graphcore Ltd Time deterministic exchange
GB2580165B (en) 2018-12-21 2021-02-24 Graphcore Ltd Data exchange in a computer with predetermined delay
GB201904267D0 (en) 2019-03-27 2019-05-08 Graphcore Ltd A networked computer with multiple embedded rings
US11704270B2 (en) 2019-03-27 2023-07-18 Graphcore Limited Networked computer with multiple embedded rings
GB201904263D0 (en) 2019-03-27 2019-05-08 Graphcore Ltd A networked computer
GB201904265D0 (en) 2019-03-27 2019-05-08 Graphcore Ltd A partitionable networked computer
GB201904266D0 (en) 2019-03-27 2019-05-08 Graphcore Ltd A networked computer with embedded rings
JP7338354B2 (ja) * 2019-09-20 2023-09-05 富士通株式会社 情報処理装置,情報処理システム及び通信管理プログラム
CN113222126B (zh) * 2020-01-21 2022-01-28 上海商汤智能科技有限公司 数据处理装置、人工智能芯片
US11531637B2 (en) 2020-03-26 2022-12-20 Graphcore Limited Embedding rings on a toroid computer network
US11336383B2 (en) * 2020-06-24 2022-05-17 Mellanox Technologies, Ltd. Packet scheduling system with desired physical transmission time for packets
GB2608180B (en) * 2021-06-25 2024-06-26 Graphcore Ltd Control of data send from a multi-processor device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8127111B1 (en) * 2006-04-14 2012-02-28 Tilera Corporation Managing data provided to switches in a parallel processing environment
JP2017138780A (ja) * 2016-02-03 2017-08-10 日本電信電話株式会社 並列計算処理装置および並列計算処理方法

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434861A (en) 1989-02-02 1995-07-18 Pritty; David Deterministic timed bus access method
EP0429733B1 (en) * 1989-11-17 1999-04-28 Texas Instruments Incorporated Multiprocessor with crossbar between processors and memories
US5734826A (en) 1991-03-29 1998-03-31 International Business Machines Corporation Variable cyclic redundancy coding method and apparatus for use in a multistage network
US5408646A (en) 1991-03-29 1995-04-18 International Business Machines Corp. Multipath torus switching apparatus
KR100304063B1 (ko) 1993-08-04 2001-11-22 썬 마이크로시스템즈, 인코포레이티드 2지점간상호접속통신유틸리티
US5541921A (en) * 1994-12-06 1996-07-30 National Semiconductor Corporation Isochronous serial time division multiplexer
GB2303274B (en) * 1995-07-11 1999-09-08 Fujitsu Ltd Switching apparatus
CN101510840A (zh) * 1999-07-09 2009-08-19 马利布网络有限公司 Tcp/ip以分组为中心的无线传输系统结构
US6876652B1 (en) 2000-05-20 2005-04-05 Ciena Corporation Network device with a distributed switch fabric timing system
US20020165947A1 (en) * 2000-09-25 2002-11-07 Crossbeam Systems, Inc. Network application apparatus
US20040172631A1 (en) 2001-06-20 2004-09-02 Howard James E Concurrent-multitasking processor
US7100021B1 (en) 2001-10-16 2006-08-29 Cisco Technology, Inc. Barrier synchronization mechanism for processors of a systolic array
JP2005032018A (ja) 2003-07-04 2005-02-03 Semiconductor Energy Lab Co Ltd 遺伝的アルゴリズムを用いたマイクロプロセッサ
JP2005167965A (ja) * 2003-11-12 2005-06-23 Matsushita Electric Ind Co Ltd パケット処理方法および装置
US7904905B2 (en) 2003-11-14 2011-03-08 Stmicroelectronics, Inc. System and method for efficiently executing single program multiple data (SPMD) programs
US7804504B1 (en) 2004-12-13 2010-09-28 Massachusetts Institute Of Technology Managing yield for a parallel processing integrated circuit
US7814242B1 (en) * 2005-03-25 2010-10-12 Tilera Corporation Managing data flows in a parallel processing environment
US7818725B1 (en) 2005-04-28 2010-10-19 Massachusetts Institute Of Technology Mapping communication in a parallel processing environment
US8194690B1 (en) * 2006-05-24 2012-06-05 Tilera Corporation Packet processing in a parallel processing environment
JP5055942B2 (ja) 2006-10-16 2012-10-24 富士通株式会社 計算機クラスタ
US8181003B2 (en) * 2008-05-29 2012-05-15 Axis Semiconductor, Inc. Instruction set design, control and communication in programmable microprocessor cores and the like
JP5304194B2 (ja) * 2008-11-19 2013-10-02 富士通株式会社 バリア同期装置、バリア同期システム及びバリア同期装置の制御方法
US8571021B2 (en) * 2009-06-10 2013-10-29 Microchip Technology Incorporated Packet based data transmission with reduced data size
GB2471067B (en) 2009-06-12 2011-11-30 Graeme Roy Smith Shared resource multi-thread array processor
GB201001621D0 (en) 2010-02-01 2010-03-17 Univ Catholique Louvain A tile-based processor architecture model for high efficiency embedded homogenous multicore platforms
JP5568048B2 (ja) 2011-04-04 2014-08-06 株式会社日立製作所 並列計算機システム、およびプログラム
JP2013069189A (ja) 2011-09-26 2013-04-18 Hitachi Ltd 並列分散処理方法および並列分散処理システム
US8990497B2 (en) * 2012-07-02 2015-03-24 Grayskytech, LLC Efficient memory management for parallel synchronous computing systems
US9116738B2 (en) 2012-11-13 2015-08-25 International Business Machines Corporation Method and apparatus for efficient execution of concurrent processes on a multithreaded message passing system
WO2014088698A2 (en) * 2012-12-06 2014-06-12 Coherent Logix, Incorporated Processing system with synchronization instruction
US9733847B2 (en) 2014-06-02 2017-08-15 Micron Technology, Inc. Systems and methods for transmitting packets in a scalable memory system protocol
US20160164943A1 (en) 2014-12-05 2016-06-09 Qualcomm Incorporated Transport interface for multimedia and file transport
TWI580199B (zh) 2015-12-18 2017-04-21 瑞昱半導體股份有限公司 接收裝置及其封包處理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8127111B1 (en) * 2006-04-14 2012-02-28 Tilera Corporation Managing data provided to switches in a parallel processing environment
JP2017138780A (ja) * 2016-02-03 2017-08-10 日本電信電話株式会社 並列計算処理装置および並列計算処理方法

Also Published As

Publication number Publication date
US20190121387A1 (en) 2019-04-25
GB201816892D0 (en) 2018-11-28
TWI708186B (zh) 2020-10-21
JP6722251B2 (ja) 2020-07-15
GB2569430B (en) 2021-03-24
CA3021450A1 (en) 2019-04-20
FR3072801B1 (fr) 2024-01-05
GB201717295D0 (en) 2017-12-06
US10936008B2 (en) 2021-03-02
GB2569430A (en) 2019-06-19
KR102167059B1 (ko) 2020-10-16
CA3021450C (en) 2021-11-02
CN109697185A (zh) 2019-04-30
FR3072801A1 (fr) 2019-04-26
DE102018126001A1 (de) 2019-04-25
TW201928666A (zh) 2019-07-16
JP2019079529A (ja) 2019-05-23
CN109697185B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
KR102167059B1 (ko) 멀티-타일 프로세싱 어레이의 동기화
EP3474141B1 (en) Compiler method
KR102178190B1 (ko) 명령 세트
US10963003B2 (en) Synchronization in a multi-tile processing array
US11416440B2 (en) Controlling timing in computer processing
US10817459B2 (en) Direction indicator
US11176066B2 (en) Scheduling messages

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant