KR102183118B1

KR102183118B1 - 복수-타일 프로세싱 구성에서의 동기화

Info

Publication number: KR102183118B1
Application number: KR1020180126031A
Authority: KR
Inventors: 다니엘 존 펠험 윌킨슨; 리차드 루크 사우스웰 오스본; 매튜 데이비드 필리스; 알란 그레이엄 알렉산더; 스테판 펠릭스
Original assignee: 그래프코어 리미티드
Priority date: 2017-10-20
Filing date: 2018-10-22
Publication date: 2020-11-25
Also published as: GB2569273B; GB2569273A; KR20190044566A; US10628377B2; GB201717297D0; TW201923557A; TWI685788B; US20190121785A1

Abstract

프로세싱 시스템이 개시되며, 이러한 프로세싱 시스템은 타일들의 구성과, 그리고 상기 타일들 중 일부 혹은 모든 타일들로 이루어진 그룹의 타일들 간의 조정을 행하기 위한 하드웨어 로직 형태의 동기화 로직을 포함한다. 명령 세트는 동기화 명령을 포함하고, 여기서 동기화 명령은 동기화 요청의 인스턴스가 각각의 타일로부터 동기화 로직으로 전송되도록 하며, 그리고 동기화 확인응답을 기다리는 동안 각각의 타일 상에서의 명령 발행을 보류한다. 그룹의 모든 타일들로부터 동기화 요청의 인스턴스를 수신함에 응답하여, 동기화 로직은 명령 발행이 재개될 수 있도록 역으로 그룹 내의 타일들 각각에게 동기화 확인응답을 반환한다. 명령 세트는 또한 기권 명령을 포함하고, 기권 명령은 동기화 요청의 인스턴스는 보내지만 동기화 확인응답을 기다리는 동안 각각의 타일 상에서 명령 발행을 보류하지 않고, 대신 각각의 타일 상에서의 명령 발행이 계속될 수 있도록 한다.

Description

복수-타일 프로세싱 구성에서의 동기화{SYNCHRONIZATION IN A MULTI-TILE PROCESSING ARRANGEMENT}

본 개시내용은 복수-타일 프로세싱 구성(multi-tile processing arrangement)에서 복수의 상이한 타일들의 작업부하(workload)들을 동기화(synchronizing)시키는 것에 관한 것이고, 여기서 각각의 타일은 자기 자신의 프로세싱 유닛(processing unit) 및 메모리(memory)를 포함한다. 예를 들어, 이것은 타일들로 이루어진 그룹(group)의 타일들 각각이 그 그룹 내의 타일들 중 임의의 타일이 교환 국면(exchange phase)으로 진행할 수 있기 전에 계산 국면(compute phase)을 완료해야만 하는 벌크 동기 병렬(Bulk Synchronous Parallel, BSP) 통신 방식(communication scheme)들에서 사용될 수 있다.

멀티-쓰레드 프로세서(multi-threaded processor)는 서로 나란히 복수의 프로그램 쓰레드(program thread)들을 실행할 수 있는 프로세서이다. 프로세서는 복수의 상이한 쓰레드들에 공통인 일부 하드웨어를 포함할 수 있고(예를 들어, 공통 명령 메모리, 데이터 메모리 및/또는 실행 유닛), 하지만, 복수-쓰레딩(multi-threading)을 지원하기 위해, 프로세서는 또한 각각의 쓰레드에 특정된 일부 전용 하드웨어를 포함한다.

전용 하드웨어는 한번에 실행될 수 있는 복수의 쓰레드들 각각에 대한 각각의 콘텍스트 레지스터 파일(context register file)을 적어도 포함한다. "콘텍스트(context)"는, 복수-쓰레드 프로세서들에 대해 말할 때, 서로 나란히 실행되는 쓰레드들 중 각각의 쓰레드의 프로그램 상태(program state)를 지칭한다(예를 들어, 프로그램 카운터 값(program counter value), 상태(status) 및 현재 피연산자 값(current operand value)들). 콘텍스트 레지스터 파일은 각각의 쓰레드의 이러한 프로그램 상태를 나타내기 위한 레지스터들의 각각의 수집체(collection)를 지칭한다. 레지스터 파일 내의 레지스터들과 범용 메모리(general purpose memory)는, 레지스터 어드레스(register address)들은 명령 워드(instruction word)들에서 비트(bit)들로서 고정되는 반면 메모리 어드레스(memory address)들은 명령들을 실행함으로써 계산될 수 있다는 점에서, 서로 다른 것이다. 주어진 콘텍스트의 레지스터들은 전형적으로, 각각의 쓰레드에 대한 각각의 프로그램 카운터를 포함하고, 그리고 각각의 쓰레드에 의해 (해당 쓰레드에 의해 수행되는 계산(computation)들 동안) 동작이 행해져 출력된 데이터를 일시적으로 보유(holding)하기 위한 피연산자 레지스터들의 각각의 세트(set)를 포함한다. 각각의 콘텍스트는 또한 각각의 쓰레드의 상태(예를 들어, 쓰레드가 중지(pause)되었는지 아니면 실행되고 있는지)를 저장하기 위한 각각의 상태 레지스터(status register)를 가질 수 있다. 따라서, 현재 실행 중인 쓰레드들 각각은 자기 자신의 별개의 프로그램 카운터들을 갖고, 선택에 따라서는 피연산자 레지스터들 및 상태 레지스터(들)를 갖는다.

복수-쓰레딩의 한 가지 가능한 형태는 병렬화(parallelism)이다. 다시 말해, 복수의 콘텍스트들뿐만 아니라, 복수의 실행 파이프라인(execution pipeline)들이 제공되는데, 즉 병렬로 실행될 명령들의 각각의 스트림(stream)에 대한 별개의 실행 파이프라인이 제공된다. 하지만, 이것은 하드웨어 측면에서 다량의 중복(duplication)을 요구한다.

따라서 대신, 복수-쓰레드 프로세서의 또 하나의 다른 형태는 병렬화가 아닌 동시성(concurrency)을 이용하는데, 그럼으로써 쓰레드들은 공통 실행 파이프라인(common execution pipeline)(또는 적어도 파이프라인의 공통 부분)을 공유하고, 상이한 쓰레드들이 이러한 동일한 공유된 실행 파이프라인을 통해 인터리빙(interleaving)된다. 복수-쓰레드 프로세서의 성능은 또한, 파이프라인 대기시간(pipeline latency)을 숨기는 기회들을 증가시키기 때문에 동시성 혹은 병렬화가 없는 것과 비교해 향상될 수 있다. 또한, 이러한 접근법은 복수의 실행 파이프라인들을 갖는 완전 병렬 프로세서만큼 각각의 쓰레드에 전용으로 사용되는 많은 추가 하드웨어를 요구하지 않고, 따라서 그만큼의 추가 실리콘(silicon)을 요구하지 않는다.

병렬화의 한 가지 형태는 동일한 칩(chip)(즉, 동일한 다이(die)) 상에 복수의 타일들의 구성을 포함하는 프로세서에 의해 달성될 수 있는데, 여기서 각각의 타일은 자기 자신의 별개의 각각의 프로세싱 유닛 및 (프로그램 메모리 및 데이터 메모리를 포함하는) 메모리를 포함한다. 따라서, 프로그램 코드(program code)의 별개의 부분들은 타일들 중 상이한 타일들 상에서 병렬로 실행될 수 있다. 타일들은 칩-상 상호연결(on-chip interconnect)을 통해 함께 연결되며, 이러한 칩-상 상호연결은 상이한 타일들 상에서 실행되는 코드가 타일들 간에 통신을 행할 수 있게 한다. 일부 경우들에서, 각각의 타일 상의 프로세싱 유닛은 자체적으로 타일 상에서의 복수의 동시 쓰레드들을 실행할 수 있고, 각각의 타일은 동일한 파이프라인을 통한 동일한 타일 상에서의 복수의 쓰레드들의 인터리빙을 지원하기 위해 앞서 설명된 바와 같은 콘텍스트들의 자기 자신의 각각의 세트 및 대응하는 파이프라인을 갖는다.

일반적으로, 상이한 타일들 상에서 실행되는 프로그램의 부분들 간에는 종속성들(dependencies)이 존재할 수 있다. 따라서 하나의 타일 상에서의 코드의 단편(piece)이 의존하는 데이터로서 해당 데이터가 또 하나의 다른 타일 상에서의 코드의 또 하나의 다른 단편에 의해 이용가능하게 되는 그러한 데이터에 앞서 상기 하나의 타일 상에서의 코드의 단편이 실행되는 것을 방지하기 위한 기법이 요구된다. 이러한 것을 달성하기 위한 다수의 가능한 방식들이 존재하지만 본 명세서에서 관심이 있는 방식은 "벌크 동기 병렬(Bulk Synchronous Parallel)"(BSP)로서 알려져 있다. BSP에 따르면, 각각의 타일은 교번하는 싸이클(alternating cycle)에서 계산 국면(compute phase)과 교환 국면(exchange phase)을 수행한다. 계산 국면 동안, 각각의 타일은 타일 상에서 로컬로(locally) 하나 이상의 계산 태스크(computation task)들을 수행하지만, 그 계산(computation)들의 임의의 결과들을 타일들 중 임의의 다른 타일들과 서로 주고받는 통신을 수행하지 않는다. 교환 국면에서, 각각의 타일은 이전의 계산 국면으로부터의 계산들의 하나 이상의 결과들을 그룹 내의 타일들 중 하나 이상의 다른 타일들과 서로 주고받는 교환을 수행할 수 있도록 되어 있지만, 아직 다음 계산 국면으로 진행하지는 않는다. 더욱이, BSP 원리에 따르면, 배리어 동기화(barrier synchronization)가 계산 국면으로부터 교환 국면으로 전이(transitioning)하는 접합점(juncture)에 놓이거나, 교환 국면으로부터 계산 국면으로 전이하는 접합점에 놓이거나, 또는 이러한 접합점들 모두에 놓인다. 즉, (a) 모든 타일들은 그룹 내의 임의의 타일이 다음 교환 국면으로 진행할 수 있도록 되기 전에 자신들의 각각의 계산 국면들을 완료하도록 요구받고, 또는 (b) 그룹 내의 모든 타일들은 그룹 내의 임의의 타일이 다음 계산 국면으로 진행할 수 있도록 되기 전에 자신들의 각각의 교환 국면들을 완료하도록 요구받고, 또는 (c) 이러한 것들을 모두 하도록 요구받는다. 일부 시나리오(scenario)들에서, 계산을 수행하는 타일은, 그룹 내의 다른 타일들과의 어떠한 통신도 관여되어 있지 있는 동안, 네트워크 카드(network card) 혹은 저장 디스크(storage disk)와 같은 다른 시스템 리소스(system resource)들과 통신할 수 있도록 되어 있을 수 있다.

복수-쓰레드 및/또는 복수-타일 프로세싱(multi-threaded and/or multi-tiled processing)의 예시적 사용이 머신 지능(Machine Intelligence)에서 발견된다. 머신 지능에 관한 기술분야에서 통상의 기술을 가진 자들에게 익숙할 것으로 보이는 바와 같이, 머신 지능 알고리즘은 "지식 모델(knowledge model)"에 대한 반복적 업데이트(iterative update)들을 수행하는 것에 기반을 두고 있으며, 여기서 "지식 모델"은 복수의 상호연결된 노드(node)들의 그래프(graph)에 의해 나타내어질 수 있다. 각각의 노드는 자신의 입력들의 함수(function)를 나타낸다. 일부 노드들은 그래프에 대한 입력들을 수신하고, 일부는 하나 이상의 다른 노드들로부터 입력들을 수신하고, 반면 일부 노드들의 출력은 다른 노드들의 입력들을 형성하고, 일부 노드들의 출력은 그래프의 출력을 제공한다(그리고 일부 경우들에서, 주어진 노드는 심지어 이러한 것들(그래프에 대한 입력들, 그래프로부터의 출력들, 그리고 다른 노드들에 대한 연결들)을 모두 가질 수 있다). 더욱이, 각각의 노드에서의 함수는 하나 이상의 각각의 파라미터(parameter)들, 예를 들어, 가중치(weight)들에 의해 파라미터화(parameterize)된다. 학습 스테이지(learning stage) 동안, 목표(aim)는, 경험적 입력 데이터(experiential input data)의 세트에 근거하여, 그래프가 전체적으로 임의 범위의 가능한 입력들에 대해 원하는 출력을 발생시키게 될 그러한 다양한 파라미터들에 대한 값들을 찾는 것이다. 이러한 것을 하기 위한 다양한 알고리즘들이 관련 기술분야에서 알려져 있는데, 예컨대, 확률적 기울기 강하(stochastic gradient descent)에 기반을 둔 역전파 알고리즘(back propagation algorithm)이 있다. 입력 데이터에 기반을 둔 복수의 반복들에 걸쳐, 파라미터들은 자신들의 에러들을 감소시키도록 점진적으로 튜닝(tunning)되고, 이에 따라 그래프는 해(solution)를 향해 수렴(converge)한다. 그 다음에 후속 스테이지에서, 학습된 모델은 입력들의 특정된 세트가 주어지는 경우 출력들의 예측(prediction)들을 행하는 데 사용될 수 있고, 또는 출력들의 특정된 세트가 주어지는 경우 입력들(원인(cause)들)에 관한 추론(inference)들을 행하는 데 사용될 수 있다.

각각의 노드의 구현은 데이터의 프로세싱을 수반할 것이고, 그래프의 상호연결들은 노드들 간 교환될 데이터에 대응한다. 전형적으로, 각각의 노드의 프로세싱 중 적어도 일부는 그래프 내의 노드들 중 일부 혹은 모든 다른 노드들과는 독립적으로 수행될 수 있고, 따라서 커다란 그래프들은 동시성 및/또는 병렬화에 대한 큰 기회들을 노출시킨다.

다음은 머신 지능 애플리케이션(machine intelligence application)들에 관여된 계산들에서 일어나는 문제들에 대처하기 위해 개발되었던 아키텍처(architecture)를 갖는 프로세서의 컴포넌트(component)들을 설명한다. 본 명세서에서 설명되는 프로세서는 작업 가속기로서 사용될 수 있는바, 즉, 호스트 컴퓨터 상에서 실행되는 애플리케이션으로부터 작업부하를 수신하는데, 여기서 작업부하는 일반적으로 프로세싱될 매우 큰 데이터 세트들의 형태를 갖는다(예컨대, 지식 모델을 학습하기 위해 머신 지능 알고리즘에 의해 사용되는 커다란 경험 데이터 세트들, 또는 이전에 학습된 지식 모델을 사용하여 예측(prediction) 혹은 추론(inference)을 수행하기 위한 데이터). 본 명세서에서 제시되는 아키텍처의 목표는 이러한 매우 큰 양들의 데이터를 매우 효율적으로 프로세싱하는 것이다. 이러한 프로세서 아키텍처는 머신 지능에 관여된 작업부하들을 프로세싱하기 위해 개발되었다. 그럼에도 불구하고, 본 명세서에서 개시되는 아키텍처가 또한 유사한 특성들을 공유하는 다른 작업부하들에 대해서도 적합할 수 있음은 명백할 것이다.

복수의 타일들을 통해 프로그램의 상이한 부분들을 실행시킬 때, 복수의 타들을 공통 실행 포인트(point of execution)에 이르게 하기 위해서 배리어 동기화를 수행할 것이 요구될 수 있다. 머신 학습(machine learning)과 같은 대규모-스케일의 복수-쓰레드가능 애플리케이션(multi-threadable application)들에 맞게 프로세서의 명령 세트를 조정하는 것이 바람직하게 됨이 본 명세서에서 인식된다. 특히, 이것은 일 그룹의 모든 요소들이 동기화 포인트(synchronization point)에 모두 도달했을 때까지 타일을 보류(suspending)시키기 위한 전용 머신 코드 명령(dedicated machine code instruction)을 제공함으로써 달성된다. 하지만, 또한, 그룹 내의 모든 타일들이 그 진행 전에 동기화를 언제나 기다려야만 하는 것이 반드시 바람직한 것은 아닐 수 있음이 인식된다. 따라서, 본 발명에 따르면 또한, 타일이 배리어 동기화로부터 "탈퇴(opt out)"할 수 있게 하는 전용 명령이 프로세서 명령 세트 내에 제공된다.

본 명세서에서 개시되는 일 실시형태에 따르면, 여기에서 제공되는 것은 프로세싱 시스템(processing system)이며,

이러한 프로세싱 시스템은 타일(tile)들의 구성(arrangement)과, 그리고 타일들 간의 통신을 위한 상호연결(interconnect)을 포함하고,

각각의 타일은 머신 코드 명령(machine code instruction)들을 실행하기 위한 각각의 실행 유닛(execution unit)을 포함하고, 머신 코드 명령들 각각은 프로세서(processor)의 명령 세트(instruction set) 내에서 명령 타입(instruction type)들의 미리정의된 세트(set)의 인스턴스(instance)이고, 명령 세트 내의 각각의 명령 타입은 대응하는 연산코드(opcode) 및 0개 혹은 1개 이상의 피연산자(operand)들을 취하기 위한 0개 혹은 1개 이상의 피연산자 필드(operand field)들에 의해 정의되며,

상호연결은 상기 타일들 중 일부 혹은 모든 타일들로 이루어진 그룹(group)의 타일들 간의 조정(coordinate)을 행하기 위한 하드웨어 로직(hardware logic) 형태의 동기화 로직(synchronization logic)을 포함하며,

명령 세트는 동기화 명령(synchronization instruction)을 포함하고, 각각의 타일 상의 각각의 실행 유닛은, 만약 동기화 명령의 인스턴스가 각각의 실행 유닛을 통해 실행된다면, 동기화 명령의 연산코드에 응답하여, 동기화 요청(synchronization request)의 인스턴스가 각각의 타일로부터 상호연결 내의 동기화 로직으로 전송되게 하도록 되어 있음과 아울러 동기화 로직으로부터 역으로 수신되는 동기화 확인응답(synchronization acknowledgement)을 기다리는 동안 각각의 타일 상에서의 명령 발행(instruction issue)을 보류(suspend)하도록 되어 있고,

동기화 로직은, 동기화 포인트(synchronization point)에 도달하여 동기화 요청의 인스턴스가 상기 그룹의 모든 타일들로부터 수신되게 됨에 응답하여, 그룹 내의 타일들 각각에게 역으로 동기화 확인응답을 반환(return)하여 명령 발행이 재개(resume)될 수 있게 하도록 되어 있고,

명령 세트는 또한 기권 명령(abstain instruction)을 포함하고, 각각의 타일 상의 실행 유닛은, 만약 기권 명령의 인스턴스가 각각의 실행 유닛을 통해 실행된다면, 기권 명령의 연산코드에 응답하여, 동기화 요청의 인스턴스가 각각의 타일로부터 상호연결 내의 동기화 로직으로 전송되게 하도록 되어 있지만 동기화 확인응답을 기다리는 동안 각각의 타일 상에서의 명령 발행을 보류하지 않고 대신 각각의 타일 상에서의 명령 발행이 계속될 수 있게 하도록 되어 있다.

따라서, "기권(abstain)" 명령을 실행한 타일은 동기화 배리어를 스킵(skip)할 수 있다. 그러나, 이와 동시에, 싱크 요청(sync request)을 전송함으로써 싱크 명령(sync instruction)을 실행하는 타일의 행동(behaviour)을 모방(mimicking)하는데, 이것은 동기화를 기다리는 나머지 타일들이 교착(stall) 상태에 있을 필요가 없게 한다.

실시예들에서, 기권 명령은 각각의 타일 상에서의 명령 발행을 보류함이 없이 통과(pass)할 수 있는 동기화 포인트의 발생(occurrence)들의 개수를 특정하는 적어도 하나의 피연산자를 취할 수 있고, 프로세싱 시스템은 상기 개수의 발생들에 대해 각각의 타일을 위해서 동기화 요청을 자동으로 어써트(assert)하기 위한 자동 동기화 메커니즘(automatic synchronization mechanism)을 포함할 수 있다.

실시예들에서, 각각의 타일은,

복수의 콘텍스트 레지스터 세트(context register set)들과, 그리고

스케줄러(scheduler)를 포함할 수 있고,

각각의 콘텍스트 레지스터 세트는 복수의 쓰레드(thread)들 중 각각의 쓰레드의 프로그램 상태(program state)를 저장하도록 되어 있고,

스케줄러는 인터리빙된 시간 슬롯(interleaved time slot)들의 되풀이되는 시퀀스(repeating sequence)에서의 복수의 시간 슬롯들 각각에서 실행할 복수의 작업자 쓰레드(worker thread)들 중 하나를 스케줄링(scheduling)하도록 되어 있고, 작업자 쓰레드들 각각의 프로그램 상태는 상기 콘텍스트 레지스터 세트들 중 상이한 콘텍스트 레지스터 세트 내에 저장되며,

명령 세트는 퇴장 명령(exit instruction)을 포함할 수 있고, 실행 유닛은, 실행 유닛을 통해 실행되는 작업자 쓰레드를, 퇴장 명령이 작업자 쓰레드 내에 포함될 때 퇴장 명령의 연산코드에 응답하여, 종료(terminate)시키도록 되어 있을 수 있고, 그리고 상기 복수의 작업자 쓰레드들 각각이 퇴장 명령의 인스턴스를 실행했을 때 동기화 요청이 동기화 로직으로 전송되게 하도록 되어 있을 수 있다.

실시예들에서,

타일들은, 적어도 기권 명령이 아닌 동기화 명령을 실행한 타일들로 이루어진 그룹의 서브그룹(subgroup) 상에서, 각각의 로컬 퇴장 상태(local exit state)를 생성하도록 되어 있을 수 있고, 각각의 로컬 퇴장 상태는 퇴장 명령의 실행시 각각의 타일 상에서 작업자 쓰레드들 각각에 의해 출력된 개별 퇴장 상태들의 집합체(aggregate)이며,

상호연결 내의 동기화 로직은, 적어도 상기 서브그룹의 타일들의 로컬 퇴장 상태들을 집합(aggregate)하여 글로벌 퇴장 상태(global exit state)를 생성하도록 되어 있을 수 있고, 그리고 그룹 내의 모든 타일들로부터 동기화 요청을 수신함에 응답하여, 글로벌 퇴장 상태를 적어도 상기 서브그룹 내의 타일들 각각 상의 글로벌 퇴장 상태 레지스터(global exit state register) 내에 저장하도록 되어 있을 수 있어, 글로벌 퇴장 상태가 적어도 서브그룹 내의 타일들 각각 상에서 실행되는 코드 부분에 의해 액세스가능(accessible)하게 한다.

실시예들에서, 개별 퇴장 상태는 퇴장 명령의 피연산자이다.

실시예들에서,

타일들은, 그룹 내의 모든 타일들인 동기화 명령을 실행한 타일들 및 기권 명령을 실행한 타일들 모두 상에서, 각각의 로컬 퇴장 상태를 생성하도록 되어 있을 수 있고, 각각의 로컬 퇴장 상태는 퇴장 명령의 실행시 각각의 타일 상에서 작업자 쓰레드들 각각에 의해 출력된 개별 퇴장 상태들의 집합체이며,

상호연결 내의 동기화 로직은, 상기 그룹의 모든 타일들의 로컬 퇴장 상태들을 집합하여 글로벌 퇴장 상태를 생성하도록 되어 있을 수 있다.

대안적 실시예들에서,

타일들은 기권 명령을 실행한 타일들이 디폴트 로컬 퇴장 상태(default local exit state)를 출력하도록 되어 있을 수 있고,

상호연결 내의 동기화 로직은 디폴트 퇴장 상태들을 포함하는 상기 그룹의 모든 타일들의 로컬 퇴장 상태들을 집합함으로써 글로벌 퇴장 상태를 생성하도록 되어 있을 수 있다.

또 하나의 다른 대안적 실시예들에서, 상호연결 내의 동기화 로직은 상기 서브그룹의 타일들만의 로컬 퇴장 상태들을 집합함으로써 상기 글로벌 퇴장 상태를 생성하도록 되어 있을 수 있다.

실시예들에서, 상호연결 내의 동기화 로직은, 그룹 내의 모든 타일들로부터 동기화 요청을 수신함에 응답하여, 글로벌 퇴장 상태를 상기 그룹 내의 타일들 각각 상의 글로벌 퇴장 상태 레지스터 내에 저장하도록 되어 있을 수 있어, 글로벌 퇴장 상태가 동기화 명령을 실행한 타일들 및 기권 명령을 실행한 타일들 모두 상에서 실행되는 코드 부분인 그룹 내의 타일들 각각 상에서 실행되는 코드의 부분에 의해 액세스가능하게 한다.

대안적 실시예들에서, 상호연결 내의 동기화 로직은, 그룹 내의 모든 타일들로부터 동기화 요청을 수신함에 응답하여, 글로벌 퇴장 상태를 기권 명령을 실행한 타일들이 아닌 동기화 명령을 실행한 서브그룹 내의 타일들 상의 글로벌 퇴장 상태 레지스터 내에만 저장하도록 되어 있을 수 있다.

실시예들에서, 글로벌 퇴장 상태의 디폴트 값(default value)이 기권 명령을 실행한 타일들 각각 상의 글로벌 퇴장 상태 레지스터 내에 저장될 수 있다.

실시예들에서, 상기 그룹은 동기화 명령들의 피연산자에 의해 특정될 수 있다.

실시예들에서, 특정된 그룹은 복수의 계층적으로 내포된 구역(hierarchically nested zone)들 중에서 특정될 수 있다.

실시예들에서, 동기화 명령의 피연산자는 상기 그룹이 동일한 칩(chip) 상의 타일들만으로 이루어지는지 아니면 상이한 칩들 상의 타일들을 포함하는지를 선택할 수 있다.

실시예들에서, 시스템은, 벌크 동기 병렬 방식(bulk synchronous parallel scheme)에 따라 그룹에서의 통신들을 수행하도록 프로그래밍되어 있을 수 있어, 상기 그룹 내의 타일들 각각은 타일-상 계산 국면(on-tile compute phase)을 수행하게 되고, 후속하여 타일-간 교환 국면(inter-tile exchange phase)을 수행하게 되며, 교환 국면은 상기 그룹 내의 모든 타일들이 계산 국면을 완료했을 때까지 저지(hold back)되고, 타일-상 계산 국면의 완료시 로컬 퇴장 상태가 생성된다.

실시예들에서, 교환 국면은 작업자 쓰레드들과는 별개인 감독자 쓰레드(supervisor thread)에 의해 수행되도록 되어 있을 수 있고, 코드의 상기 부분은 감독자 쓰레드에 의해 포함될 수 있다.

실시예들에서, 명령 발행을 보류하는 것은 동기화 확인응답을 기다리는 동안 감독자 쓰레드로부터의 명령들의 발행을 적어도 중지(pausing)하는 것을 포함할 수 있다.

실시예들에서, 각각의 타일 상의 콘텍스트 레지스터 세트들은, 상기 복수의 작업자 쓰레드들 각각의 프로그램 상태를 나타내도록 되어 있는 복수의 작업자 콘텍스트 레지스터 세트(worker context register set)들과, 그리고 감독자 쓰레드의 프로그램 상태를 나타내도록 되어 있는 레지스터들의 추가적인 세트를 포함하는 추가적인 감독자 콘텍스트 레지스터 세트(supervisor context register set)를 포함할 수 있다.

실시예들에서, 프로세싱 시스템은 머신 지능 알고리즘(machine intelligence algorithm)을 수행하도록 프로그래밍될 수 있고, 머신 지능 알고리즘에서 그래프(graph) 내의 각각의 노드(node)는 하나 이상의 각각의 입력 에지(input edge)들 및 하나 이상의 각각의 출력 에지(output edge)들을 갖고, 노드들 중 적어도 일부 노드들의 입력 에지들은 노드들 중 적어도 일부 다른 노드들의 출력 에지들이며, 각각의 노드는 자신의 출력 에지들을 자신의 입력 에지들과 관련시키는 각각의 함수(function)를 포함하고, 각각의 함수는 하나 이상의 각각의 파라미터(parameter)들에 의해 파라미터화(parameterize)되고, 각각의 파라미터들 각각은 관련된 에러(associated error)를 가져, 파라미터들 중 일부 혹은 모든 파라미터들에서의 에러들이 감소함에 따라 그래프는 해(solution)를 향해 수렴(converge)하게 되고, 타일들 각각은 그래프 내의 노드들의 서브세트(subset)를 포함하는 각각의 서브그래프(subgraph)를 모델링(modeling)할 수 있다.

실시예들에서, 로컬 퇴장 상태들 각각은 노드들의 각각의 서브세트의 하나 이상의 파라미터들에서의 에러들이 미리결정된 조건을 만족시켰는지 여부를 표시하기 위해 이용될 수 있다.

본 명세서에서 개시되는 또 하나의 다른 실시형태에 따르면, 여기에서 제공되는 것은 프로세싱 시스템을 동작시키는 방법이며, 프로세싱 시스템은 타일들의 구성과, 그리고 타일들 간의 통신을 위한 상호연결을 포함하고, 각각의 타일은 머신 코드 명령들을 실행하기 위한 각각의 실행 유닛을 포함하고, 머신 코드 명령들 각각은 프로세서의 명령 세트 내에서 명령 타입들의 미리정의된 세트의 인스턴스이고, 명령 세트 내의 각각의 명령 타입은 대응하는 연산코드 및 0개 혹은 1개 이상의 피연산자들을 취하기 위한 0개 혹은 1개 이상의 피연산자 필드들에 의해 정의되며, 방법은,

상기 타일들 중 일부 혹은 모든 타일들로 이루어진 그룹의 타일들 간의 조정을 행하기 위해 상호연결 내의 하드웨어 로직 형태의 동기화 로직을 이용하는 것과;

만약 상기 명령 세트의 동기화 명령의 인스턴스가 각각의 실행 유닛을 통해 실행된다면, 동기화 명령의 연산코드에 응답하여, 동기화 요청의 인스턴스가 각각의 타일로부터 상호연결 내의 동기화 로직으로 전송되도록 함과 아울러 동기화 로직으로부터 역으로 수신되는 동기화 확인응답을 기다리는 동안 각각의 타일 상에서의 명령 발행을 보류하는 것과; 그리고

동기화 포인트에 도달하여 동기화 요청의 인스턴스가 상기 그룹의 모든 타일들로부터 수신되게 됨에 응답하여, 동기화 로직으로 하여금 그룹 내의 타일들 각각에게 역으로 동기화 확인응답을 반환하도록 하여 명령 발행이 재개될 수 있도록 하는 것을 포함하며,

명령 세트는 또한 기권 명령을 포함하고,

방법은 또한, 만약 기권 명령의 인스턴스가 각각의 실행 유닛을 통해 실행된다면, 기권 명령의 연산코드에 응답하여, 동기화 요청의 인스턴스가 각각의 타일로부터 상호연결 내의 동기화 로직으로 전송되도록 하지만 동기화 확인응답을 기다리는 동안 각각의 타일 상에서의 명령 발행을 보류하지 않고 대신 각각의 타일 상에서의 명령 발행이 계속될 수 있게 하는 것을 포함한다.

본 명세서에서 개시되는 또 하나의 다른 실시형태에 따르면, 여기에서 제공되는 것은 컴퓨터 판독가능 저장소(computer readable storage) 상에 구현된 코드를 포함하는 컴퓨터 프로그램 제품(computer program product)이며, 여기서 코드는 본 명세서에서 개시되는 임의의 실시예의 프로세싱 시스템 상에서 실행되도록 되어 있고, 코드는 그룹 내의 각각의 타일 상에서의 실행을 위한 부분을 포함하고, 부분들 중 적어도 일부에는 동기화 명령의 인스턴스들이 포함되고 부분들 중 적어도 하나에는 기권 명령의 인스턴스가 포함된다.

본 개시내용의 이해를 보조하기 위해, 그리고 실시예들이 어떻게 실시될 수 있는지를 보여주기 위해, 첨부 도면들이 예시적으로 참조되며, 이러한 첨부 도면들에서,
도 1은 복수-쓰레드 프로세싱 유닛의 개략적 블록도이고,
도 2는 복수의 쓰레드 콘텍스트들의 개략적 블록도이고,
도 3은 인터리빙된 실행 시간 슬롯들의 체계(scheme)를 개략적으로 예시하고,
도 4는 감독자 쓰레드 및 복수의 작업자 쓰레드들을 개략적으로 예시하고,
도 5는 복수의 쓰레드들의 퇴장 상태들을 집합하기 위한 로직의 개략도이고,
도 6은 동일한 타일 상의 작업자 쓰레드들 간의 동기화를 개략적으로 예시하고,
도 7은 복수의 타일들을 포함하는 프로세서 칩의 개략적 블록도이고,
도 8은 벌크 동기 병렬(BSP) 컴퓨팅 모델(computing model)의 개략적 예시이고,
도 9는 BSP 모델의 또 하나의 다른 개략적 예시이고,
도 10은 복수-쓰레드 프로세싱 유닛들 간의 BSP의 개략적 예시이고,
도 11은 상호연결 시스템의 개략적 블록도이고,
도 12는 복수의 상호연결된 프로세서 칩들의 시스템의 개략적 예시이고,
도 13은 복수-티어 BSP 방식(multi-tier BSP scheme)의 개략적 예시이고,
도 14는 복수의 프로세서 칩들의 시스템의 또 하나의 다른 개략적 예시이고,
도 15는 머신 지능 알고리즘에서 사용되는 그래프의 개략적 예시이고, 그리고
도 16은 칩들 간의 동기화를 위한 예시적인 배선(wiring)을 나타낸다.

다음은 프로세서 아키텍처(processor architecture)를 설명하는데, 이러한 프로세서 아키텍처는 그 명령 세트 내에 배리어 동기화를 수행하기 위한 전용 명령을 포함시키고, 아울러 실시예들에서, 이와 동시에 복수의 타일들에 걸쳐 복수의 쓰레드들의 퇴장 상태들을 집합하여 퇴장 상태 레지스터(exit state register) 내에 단일의 집합된 상태(single aggregated state)를 생성하기 위한 전용 명령을 포함시키며, 여기서 이러한 집합된 퇴장 상태 레지스터는 모든 타일 내에 존재하고 모든 타일에 대해 동일한 (집합되었던) 결과를 포함한다. 하지만, 먼저, 이것이 통합될 수 있는 예시적인 프로세서가 도 1 내지 도 4를 참조하여 설명된다.

도 1은 본 개시내용의 실시예들에 따른 프로세서 모듈(processor module)(4)의 예를 나타낸다. 예컨대, 프로세서 모듈(4)은 동일한 칩 상의 유사한 프로세서 타일들의 어레이의 하나의 타일일 수 있고, 또는 자기 자신의 칩 상의 독립형 프로세서로서 구현될 수 있다. 프로세서 모듈(4)은, 배럴-쓰레드 프로세싱 유닛(barrel-threaded processing unit) 형태의 복수-쓰레드 프로세싱 유닛(10)과, 그리고 로컬 메모리(local memory)(11)를 포함한다(즉, 복수-타일 어레이의 경우 동일한 타일 상에 있는 메모리, 혹은 단일-프로세서 칩의 경우 동일한 칩 상에 있는 메모리). 배럴-쓰레드 프로세싱 유닛은 복수-쓰레드 프로세싱 유닛의 하나의 타입(type)인데, 여기서 파이프라인의 실행 시간은 인터리빙된 시간 슬롯들의 되풀이되는 시퀀스로 분할되고, 인터리빙된 시간 슬롯들 각각은 주어진 쓰레드에 의해 소유될 수 있다. 이것은 곧 더 상세히 논의될 것이다. 메모리(11)는 (상이한 어드레싱가능(addressable) 메모리 유닛에서 구현될 수 있거나, 또는 동일한 어드레싱가능 메모리 유닛의 상이한 영역들에서 구현될 수 있는) 명령 메모리(instruction memory)(12) 및 데이터 메모리(data memory)(22)를 포함한다. 명령 메모리(12)는 프로세싱 유닛(10)에 의해 실행될 머신 코드를 저장하고, 반면 데이터 메모리(22)는 실행된 코드가 동작을 행할 데이터 및 실행된 코드에 의해 (예를 들어, 이러한 동작들의 결과로서) 출력된 데이터를 모두 저장한다.

메모리(12)는 프로그램의 복수의 상이한 쓰레드들을 저장하고, 각각의 쓰레드는 특정 태스크 혹은 태스크들을 수행하기 위한 명령들의 각각의 시퀀스를 포함한다. 본 명세서에서 지칭되는 바와 같이 명령은 머신 코드 명령(machine code instruction)을 의미하는데, 즉, 단일 연산코드(opcode) 및 0개 혹은 1개 이상의 피연산자(operand)들로 이루어진 프로세서의 명령 세트의 기본적인 명령(fundamental instruction)들 중 하나의 명령의 인스턴스(instance)를 의미함에 유의해야 한다.

본 명세서에서 설명되는 프로그램은 복수의 작업자 쓰레드(worker thread)들을 포함하고, 그리고 하나 이상의 감독자 쓰레드들로서 구조화(structure)될 수 있는 감독자 서브프로그램(supervisor subprogram)을 포함한다. 이것은 곧 더 상세하게 논의될 것이다. 실시예들에서, 작업자 쓰레드들 중 일부 혹은 모든 작업자 쓰레드들 각각은 각각의 "코드렛(codelet)"의 형태를 갖는다. 코드렛은 특정 타입의 쓰레드이고, 코드렛은 또한 때때로 "원자(atomic)" 쓰레드로서 지칭된다. 코드렛은 쓰레드의 시작부터(론칭(launching)되는 시간부터) 실행에 필요한 모든 입력 정보를 갖고 있는데, 즉, 코드렛은 론칭된 이후 메모리로부터 혹은 프로그램의 임의의 다른 부분으로부터 어떠한 입력도 취하지 않는다. 더욱이, 프로그램의 다른 어떤 부분도 쓰레드의 임의의 출력들(결과들)을 해당 쓰레드가 종료되었을 때까지(끝나 버렸을 때까지) 사용하지 않을 것이다. 에러와 마주치지 않는다면 끝나는 것은 보장된다. 주의할 것으로, 일부 문헌은 또한 코드렛을 무상태(stateless)인 것으로서 정의하는데, 즉, 만약 두 번 실행된다면 그 첫 번째 실행으로부터 어떠한 정보도 상속(inherit)받을 수 없는데, 하지만 그러한 추가적인 정의는 본 명세서에서 채택(adopt)되지 않는다. 모든 작업자 쓰레드들이 코드렛들(원자 쓰레드들)일 필요는 없음, 그리고 실시예들에서 작업자들 중 일부 혹은 모두는 대신 서로 통신할 수 있음에 또한 유의해야 한다.

프로세싱 유닛(10) 내에서, 명령 메모리(12)로부터의 쓰레드들 중 복수의 상이한 쓰레드들은 단일 실행 파이프라인(execution pipeline)(13)을 통해 인터리빙될 수 있다(하지만, 전형적으로 명령 메모리 내에 저장된 전체 쓰레드들의 서브세트만이 전체 프로그램에서의 임의의 주어진 포인트에서 인터리빙될 수 있음). 복수-쓰레드 프로세싱 유닛(10)은, 복수의 콘텍스트 레지스터 파일(context register file)들(26)(각각의 콘텍스트 레지스터 파일은, 동시에 실행될 쓰레드들 중 상이한 각각의 쓰레드의 상태(콘텍스트)를 나타냄); 동시에 실행되는 쓰레드들에 공통인 공유된 실행 파이프라인(13); 그리고 공유된 파이프라인을 통해, 인터리빙된 방식(interleaved manner)으로, 바람직하게는, 라운드 로빈 방식(round robin manner)으로, 실행시키기 위해 동시에 발생하는 쓰레드들을 스케줄링(scheduling)하기 위한 스케줄러(scheduler)(24)를 포함한다. 프로세싱 유닛(10)은 복수의 쓰레드들에 공통인 공유된 명령 메모리(12)에 연결되고, 그리고 다시 복수의 쓰레드들에 공통인 공유된 데이터 메모리(22)에 연결된다.

실행 파이프라인(13)은 페치 스테이지(fetch stage)(14)를 포함하고, 디코드 스테이지(decode stage)(16)를 포함하고, 그리고 실행 스테이지(execution stage)(18)를 포함하는데, 실행 스테이지(18)는 실행 유닛을 포함하고, 실행 유닛은 명령 세트 아키텍처에 의해 정의되는 바와 같은 산술 및 로직 동작들(arithmetic and logical operations), 어드레스 계산들(address calculations), 로드 및 스토어 동작들(load and store operations), 및 다른 동작들을 수행할 수 있다. 콘텍스트 레지스터 파일들(26) 각각은 각각의 쓰레드의 프로그램 상태를 나타내기 위한 레지스터들의 각각의 세트를 포함한다.

콘텍스트 레지스터 파일들(26) 각각을 구성하는 레지스터들의 예가 도 2에서 개략적으로 예시된다. 콘텍스트 레지스터 파일들(26) 각각은 각각의 하나 이상의 제어 레지스터(control register)들(28)을 포함하는데, 여기서 각각의 하나 이상의 제어 레지스터들(28)은 (쓰레드가 현재 실행되고 있는 명령 어드레스를 추적하기 위해) 각각의 쓰레드에 대한 프로그램 카운터(Program Counter, PC)를 적어도 포함하고, 실시예들에서는 또한, 각각의 쓰레드의 현재 상태(예컨대, 각각의 쓰레드가 현재 실행중인지 아니면 예를 들어, 에러와 마주쳤기 때문에 중지되어 있는지 여부)를 기록(recording)하는 하나 이상의 상태 레지스터(Status Register, SR)들의 세트를 포함한다. 콘텍스트 레지스터 파일들(26) 각각은 또한, 각각의 쓰레드에 의해 실행된 명령들의 피연산자들(즉, 실행될 때 각각의 쓰레드의 명령들의 연산코드들에 의해 정의된 동작들로부터 발생하는 값들 혹은 실행될 때 각각의 쓰레드의 명령들의 연산코드들이 동작을 행한 값들)을 일시적으로 보유(holding)하기 위한 피연산자 레지스터(OPerand register, OP)들(32)의 각각의 세트를 포함한다. 콘텍스트 레지스터 파일들(26) 각각은 선택에 따라서는 각각의 하나 이상의 다른 타입들의 레지스터(미도시)를 포함할 수 있음이 이해될 것이다. 용어 "레지스터 파일(register file)"이 공통 어드레스 공간(common address space) 내에서 레지스터들의 그룹을 지칭하기 위해 때때로 사용되고 있지만, 용어 "레지스터 파일"이 본 개시내용에서 반드시 그러한 경우이어야 할 필요는 없다는 것, 그리고 하드웨어 콘텍스트(hardware context)들(26) 각각(각각의 콘텍스트를 나타내는 레지스터 세트들(26) 각각)은 더 일반적으로 하나 혹은 복수의 이러한 레지스터 파일들을 포함할 수 있다는 것에 또한 유의해야 한다.

이후 더 상세하게 논의될 것인 바와 같이, 본 명세서에서 개시되는 구성은 동시에 실행될 수 있는 M개의 쓰레드들 각각에 대해 하나의 작업자 콘텍스트 레지스터 파일 CX0 ... CX(M-1)을 갖고(예시된 사례에서 M=3이지만, 이것은 한정적이지 않음), 그리고 하나의 추가적인 감독자 콘텍스트 레지스터 파일 CXS를 갖는다. 작업자 콘텍스트 레지스터 파일들은 작업자 쓰레드들의 콘텍스트들을 저장하기 위해 예약(reserve)되어 있고, 그리고 감독자 콘텍스트 레지스터 파일은 감독자 쓰레드의 콘텍스트를 저장하기 위해 예약되어 있다. 실시예들에서, 감독자 콘텍스트는 작업자들 각각과는 상이한 개수의 레지스터들을 갖는다는 점에서 특별한 것임에 유의해야 한다. 작업자 콘텍스트들 각각은 바람직하게는 서로 동일한 개수의 상태 레지스터들 및 피연산자 레지스터들을 갖는다. 실시예들에서, 감독자 콘텍스트는 작업자들 각각보다 더 적은 수의 피연산자 레지스터들을 가질 수 있다. 작업자 콘텍스트가 가질 수 있는 (감독자가 포함하지 않는) 피연산자 레지스터들의 예들은, 부동 소수점 레지스터(floating point register)들, 누산 레지스터(accumulate register)들, 그리고/또는 (뉴럴 네트워크(neural network)의 가중치들을 보유하기 위한) 전용 가중치 레지스터(dedicated weight register)들이 있다. 실시예들에서, 감독자는 또한 상이한 개수의 상태 레지스터들을 가질 수 있다. 더욱이, 실시예들에서, 프로세서 모듈(4)의 명령 세트 아키텍처는 작업자 쓰레드들 및 감독자 쓰레드(들)가 일부 상이한 타입들의 명령을 실행하지만 또한 일부 명령 타입들을 공유하도록 구성될 수 있다.

페치 스테이지(14)는 실행될 명령들을 스케줄러(24)의 제어 하에 명령 메모리(12)로부터 페치하도록 연결된다. 스케줄러(24)는 일 세트의 동시에 실행되는 쓰레드들 각각으로부터 명령을 시간 슬롯들의 되풀이되는 시퀀스에서 차례로(in turn) 페치하도록 페치 스테이지(14)를 제어하게 되어 있는데, 이에 따라 파이프라인(13)의 리소스들은 복수의 시간적으로 인터리빙된 시간 슬롯들로 분할되며, 이것은 곧 더 상세하게 논의될 것이다. 예를 들어, 스케줄링 방식은 라운드-로빈 방식 혹은 가중된 라운드-로빈 방식일 수 있다. 이러한 방식으로 동작하는 프로세서에 대한 또 하나의 다른 용어는 배럴 쓰레드 프로세서이다.

일부 실시예들에서, 스케줄러(24)는 쓰레드가 중지되어 있는지 여부를 표시하는 각각의 쓰레드의 상태 레지스터들(SR) 중 하나에 액세스(access)할 수 있고, 이에 따라 스케줄러(24)는 사실상 현재 활성(active) 상태인 쓰레드들 중 오로지 해당 쓰레드들의 명령들만을 페치하도록 페치 스테이지(14)를 제어하게 된다. 실시예들에서, 바람직하게는 각각의 시간 슬롯(및 대응하는 콘텍스트 레지스터 파일)은 언제나 하나의 쓰레드 혹은 또 하나의 다른 쓰레드에 의해 소유되는바, 즉 각각의 슬롯은 언제나 어떤 쓰레드에 의해 점유되고, 그리고 각각의 슬롯은 언제나 스케줄러(24)의 시퀀스 내에 포함되는데, 하지만 임의의 주어진 슬롯을 점유하는 쓰레드가 특정 시간에 정지되는 것이 일어날 수 있는데, 그러한 경우 시퀀스가 해당 슬롯으로 되돌아 올 때 각각의 쓰레드에 대한 명령 페치가 전달된다. 대안적으로, 예를 들어, 대안적인 덜 바람직한 구현예들에서 일부 슬롯들이 시간적으로 비어있을 수 있는 것 그리고 스케줄링된 시퀀스로부터 배제될 수 있는 것이 배제되지 않는다. 실행 유닛이 인터리빙 혹은 이와 유사한 것을 행하도록 동작가능한 시간 슬롯들의 개수가 지칭되는 경우, 이것은 실행 유닛이 동시에 실행할 수 있는 슬롯들의 최대 개수를 지칭하는데, 즉 실행 유닛의 하드웨어가 지원하는 동시에 일어나는 슬롯들의 개수를 지칭한다.

페치 스테이지(14)는 콘텍스트들 각각의 프로그램 카운터(PC)에 액세스한다. 각각의 쓰레드에 대해, 페치 스테이지(14)는 프로그램 카운터(PC)에 의해 표시된 바와 같이 프로그램 메모리(12) 내에서의 다음 어드레스로부터 해당 쓰레드의 다음 명령을 페치한다. 프로그램 카운터는 분기 명령(branch instruction)에 의해 분기되지 않는다면 각각의 실행 싸이클(xecution cycle)을 증가(increment)시킨다. 그 다음에 페치 스테이지(14)는 페치된 명령을 디코드 스테이지(16)로 전달하여 디코딩(decoding)되도록 하며, 그 다음에 디코드 스테이지(16)는 디코딩된 명령의 표시를 명령 내에서 특정된 임의의 피연산자 레지스터들(32)의 디코딩된 어드레스들과 함께 실행 유닛(18)으로 전달하여 명령이 실행되게 한다. 실행 유닛(18)은 피연산자 레지스터들(32) 및 제어 레지스터들(28)에 액세스하고, 디코딩된 레지스터 어드레스들에 근거하여 명령을 실행할 때 예컨대, 산술 명령(arithmetic instruction)의 경우에 이들을 (예를 들어, 두 개의 피연산자 레지스터들 내의 값들을 합하거나, 곱하거나, 빼거나 혹은 나눔으로써, 그리고 그 결과를 각각의 쓰레드의 또 하나의 다른 피연산자 레지스터에 출력함으로써) 이용할 수 있다. 또는 만약 명령이 메모리 액세스(로드 혹은 스토어)를 정의한다면, 실행 유닛(18)의 로드/스토어 로직(load/store logic)은, 명령에 따라, 데이터 메모리로부터의 값을 각각의 쓰레드의 피연산자 레지스터로 로딩하거나, 또는 각각의 쓰레드의 피연산자 레지스터로부터의 값을 데이터 메모리(22)에 저장한다. 또는 만약 명령이 분기 혹은 상태 변경을 정의한다면, 실행 유닛은 이에 따라 프로그램 카운터(PC) 내의 값을 변경하거나, 또는 상태 레지스터들(SR) 중 하나 내의 값을 변경한다. 유의해야 하는 것으로, 하나의 쓰레드의 명령이 실행 유닛(18)에 의해 실행되고 있는 동안, 인터리빙된 시퀀스에서의 다음 시간 슬롯 내의 쓰레드로부터의 명령은 디코드 스테이지(16)에 의해 디코딩되고 있을 수 있고, 그리고/또는 하나의 명령이 디코드 스테이지(16)에 의해 디코딩되고 있는 동안, 그 이후 다음 시간 슬롯 내의 쓰레드로부터의 명령은 페치 스테이지(14)에 의해 페치되고 있을 수 있다(하지만, 일반적으로 본 개시내용의 범위는 시간 슬롯당 하나의 명령으로만 한정되지 않으며, 예를 들어, 대안적인 시나리오들에서 둘 이상의 명령들의 배치(batch)가 시간 슬롯당 소정의 쓰레드로부터 발행될 수 있음). 따라서, 인터리빙은 알려진 배럴 쓰레드 프로세싱 기법들에 따라 파이프라인(13)에서의 대기시간을 유리하게 숨긴다.

스케줄러(24)에 의해 구현되는 인터리빙 방식의 예가 도 3에서 예시된다. 여기서, 동시에 발생하는 쓰레드들은 라운드-로빈 방식에 따라 인터리빙되어, 이러한 방식의 각각의 라운드 내에서, 라운드는 일련의 시간 슬롯들(S0, S1, S2...)로 분할되고, 각각의 시간 슬롯은 각각의 쓰레드를 실행하기 위한 것이다. 전형적으로 각각의 슬롯은 하나의 프로세서 싸이클 길이이고, 상이한 슬롯들은 균등한 크기를 가지며, 하지만 모든 가능한 실시예들에서 반드시 그럴 필요는 없는데, 예를 들어, 가중된 라운드-로빈 방식(weighted round-robin scheme)이 또한 가능하여 일부 쓰레드들은 실행 라운드당 다른 쓰레드들보다 더 많은 싸이클들을 얻는다. 일반적으로, 배럴-쓰레딩은 균등한 라운드-로빈 스케줄을 이용할 수 있거나 혹은 가중된 라운드-로빈 스케줄을 이용할 수 있으며, 후자의 경우 가중치 부여는 고정될 수 있거나 적응형(adaptive)일 수 있다.

실행 라운드당 시퀀스가 무엇이든지 간에, 이러한 패턴은 되풀이되고, 각각의 라운드는 시간 슬롯들 각각의 각각의 인스턴스를 포함한다. 따라서, 본 명세서에서 지칭되는 바와 같은 시간 슬롯은, 시퀀스의 주어진 반복 내에서의 시간 슬롯의 특정 인스턴스가 아니라, 시퀀스에서의 되풀이되는 할당된 위치를 의미함에 유의해야 한다. 또 하나의 다른 방식으로 말하면, 스케줄러(24)는 파이프라인(13)의 실행 싸이클들을 복수의 시간적으로 인터리빙된(시-분할 멀티플렉싱된(time-division multiplexed)) 실행 채널들에 배분하고, 복수의 시간적으로 인터리빙된 실행 채널들 각각은 시간 슬롯들의 되풀이되는 시퀀스에서 각각의 시간 슬롯의 재현(recurrence)을 포함한다. 예시된 실시예들에서, 네 개의 시간 슬롯들이 존재하지만, 이것은 단지 예시적 목적들을 위한 것이고 다른 개수들이 가능하다. 예를 들어, 하나의 바람직한 실시예에서, 사실 여섯 개의 시간 슬롯들이 존재한다.

라우딩-로빈 방식에서 분할되는 시간 슬롯들의 개수가 무엇이든지 간에, 본 개시내용에 따르면, 프로세싱 유닛(10)은 존재하는 시간 슬롯들보다 하나 더 많은 콘텍스트 레지스터 파일(26)을 포함하는데, 즉, 프로세싱 유닛(10)은 배럴-쓰레딩(barrel-threading)이 가능한 인터리빙된 시간 슬롯들의 개수보다 하나 더 많은 콘텍스트를 지원한다.

이것이 도 2에서 예로서 예시되어 있는데, 만약 도 3에서 보여지는 바와 같이 네 개의 시간 슬롯들(S0...S3)이 존재한다면, 다섯 개의 콘텍스트 레지스터 파일들이 존재하고, 이들은 여기서 CX0, CX1, CX2, CX3 및 CXS로 라벨링(labelling)되어 있다. 즉, 배럴-쓰레드 방식(barrel-threaded scheme)에서 단지 네 개의 실행 시간 슬롯들(S0...S3)만이 존재하고, 이에 따라 단지 네 개의 쓰레드들만이 동시에 실행될 수 있을지라도, 본 명세서에서는 다섯 번째 콘텍스트 레지스터 파일(CXS)을 추가하는 것이 개시되며, 여기서 다섯 번째 콘텍스트 레지스터 파일(CXS)은 다섯 번째 프로그램 카운터(PC)를 포함하고, 그리고 피연산자 레지스터들(32)의 다섯 번째 세트를 포함하고, 그리고 실시예들에서, 또한 하나 이상의 상태 레지스터들(SR)의 다섯 번째 세트를 포함한다. 하지만, 언급된 바와 같이, 실시예들에서, 감독자 콘텍스트는 다른 콘텍스트들(CX0...3)과는 다를 수 있고 감독자 쓰레드는 실행 파이프라인(13)을 동작시키기 위한 상이한 세트의 명령들을 지원할 수 있음에 유의해야 한다.

처음 네 개의 콘텍스트들(CX0...CX3) 각각은, 어떤 애플리케이션-특정 계산 태스크(application-specific computation task)들이 프로그래머에 의해 요구되어도 그 애플리케이션-특정 계산 태스크들을 수행하기 위해, 네 개의 실행 시간 슬롯들(S0...S3) 중 하나에 현재 할당된 복수의 "작업자 쓰레드들" 중 각각의 작업자 쓰레드의 상태를 나타내기 위해 사용된다(이것은 오로지 명령 메모리(12) 내에 저장된 바와 같은 프로그램의 전체 개수의 작업자 쓰레드들의 서브세트만일 수 있음에 다시 유의해야함). 하지만, 다섯 번째 콘텍스트(CXS)는 "감독자 쓰레드"(SV)의 상태를 나타내기 위해서, 특별한 기능을 위해 예약되어 있고, 감독자 쓰레드(SV)의 역할은 작업자 쓰레드들의 실행을 조정(coordinate)하는 것인데, 적어도 작업자 쓰레드들(W) 중 어떤 작업자 쓰레드가 시간 슬롯들(S0, S1, S2...) 중 어느 시간 슬롯에서 전체 프로그램에서의 어떤 포인트에서 실행될 것인지를 할당한다는 의미에서 그러하다. 선택에 따라서, 감독자 쓰레드는 다른 "감독관(overseer)" 혹은 조정을 행하는 책임들을 가질 수 있다. 예를 들어, 감독자 쓰레드는 실행의 특정 순서를 보장하기 위해서 배리어 동기화들을 수행할 책임을 가질 수 있다. 예를 들어, 하나 이상의 제 2 쓰레드들이, 동일한 프로세서 모듈(4) 상에서 실행되는 하나 이상의 제 1 쓰레드들에 의해 출력될 데이터에 의존하고 있는 경우, 감독자는 제 1 쓰레드들이 끝났을 때까지 제 2 쓰레드들 중 어떤 것도 시작하지 않도록 보장하기 위해 배리어 동기화를 수행할 수 있다. 그리고/또는, 프로세서 모듈(4) 상에서의 하나 이상의 쓰레드들이, 또 하나의 다른 타일 혹은 프로세서 칩과 같은 데이터의 특정 외부 소스가 해당 데이터가 이용가능하게 하도록 요구되는 프로세싱을 완료했을 때까지, 시작하지 않도록 보장하기 위해 감독자는 배리어 동기화를 수행할 수 있다. 감독자 쓰레드는 또한 복수의 작업자 쓰레드들과 관련된 다른 기능을 수행하기 위해 사용될 수 있다. 예를 들어, 감독자 쓰레드는 (쓰레드들 중 하나 이상이 동작을 행할 외부 데이터를 수신하기 위해 그리고/또는 작업자 쓰레드들 중 하나 이상에 의해 출력된 데이터를 전송하기 위해) 프로세서 모듈(4)에 대해 외부적으로 데이터 통신을 행할 책임을 가질 수 있다. 일반적으로, 감독자 쓰레드는 프로그래머가 원하는 임의 종류의 감독 혹은 조정 기능을 제공하기 위해 사용될 수 있다. 예컨대 또 하나의 다른 예로서, 감독자는 저장 디스크(storage disk) 혹은 네트워크 카드(network card)와 같은 (어레이(6) 외부에 있는) 더 광범위한 시스템 내의 하나 이상의 리소스들과 타일 로컬 메모리(tile local memory)(12) 간의 전송(transfer)을 감독할 수 있다.

유의해야 하는 것으로, 당연히, 네 개의 시간 슬롯들은 단지 예시적인 것이며, 일반적으로 다른 실시예들에서는, 다른 개수들이 존재할 수 있고, 이에 따라 만약 라운드당 최대 M개의 시간 슬롯들(0 ... M-1)이 존재한다면, 프로세서 모듈(4)은 M+1개의 콘텍스트들(CX...CX(M-1) & CXS)을 포함하는데, 즉 임의의 주어진 시간에서 인터리빙될 수 있는 각각의 작업자 쓰레드에 대한 것과, 감독자에 대한 추가 콘텍스트를 포함한다. 예를 들어, 하나의 예시적 구현에서, 여섯 개의 시간 슬롯들과 일곱 개의 콘텍스트들이 존재한다.

도 4를 참조하면, 감독자 쓰레드(SV)는 인터리빙된 시간 슬롯들의 체계에서 자기 자신의 시간 슬롯 자체를 갖지 않는다. 슬롯들을 작업자 쓰레드들에 할당하는 것이 유연하게 정의되기 때문에 작업자들도 또한 자기 자신의 시간 슬롯 자체를 갖지 않는다. 오히려 각각의 시간 슬롯은 작업자 콘텍스트를 저장하기 위한 자기 자신의 전용 콘텍스트 레지스터 파일(CX0...CXM-1)을 갖는데, 이러한 작업자 콘텍스트는 슬롯이 작업자에게 할당될 때 작업자에게 사용되지만 슬롯이 감독자에게 할당될 때는 사용되지 않는다. 주어진 슬롯이 감독자에게 할당될 때, 해당 슬롯은 대신 감독자의 콘텍스트 레지스터 파일(CXS)을 사용한다. 감독자는 언제나 자기 자신의 콘텍스트에 액세스하지만 어떠한 작업자들도 감독자 콘텍스트 레지스터 파일(CXS)을 점유할 수 없음에 유의해야 한다.

감독자 쓰레드(SV)는 시간 슬롯들(S0....S3)(혹은 더 일반적으로는 S0...SM-1) 중 임의의 시간 슬롯 및 모든 시간 슬롯에서 실행될 능력을 갖는다. 스케줄러(24)는 전체적으로 프로그램이 시작할 때 감독자 쓰레드를 모든 시간 슬롯들에 할당함으로써 시작하도록 되어 있는데, 즉, 이에 따라 감독자(SV)는 SO...S3 모두에서의 실행을 시작하게 된다. 하지만, 감독자 쓰레드에게는, 일부 후속 포인트에서(지체 없이, 혹은 하나 이상의 감독자 태스크들을 수행한 이후에) 자신이 실행되고 있는 슬롯들 각각을 작업자 쓰레드들 중 각각의 작업자 쓰레드(예를 들어, 도 4에 제시된 예에서 초기에 있는 작업자들(W0...W3))에게 일시적으로 양도(relinquishing)하기 위한 메커니즘이 제공된다. 이것은 감독자 쓰레드가 본 명세서에서 예시적으로 "RUN(실행)"으로 지칭되는 양도 명령(relinquish instruction)을 실행함으로써 달성된다. 실시예들에서, 이러한 명령은 두 개의 피연산자들을 취하는데, 하나는 명령 메모리(12) 내의 작업자 쓰레드의 어드레스이고, 다른 하나는 데이터 메모리(22) 내의 해당 작업자 쓰레드에 대한 일부 데이터의 어드레스이다.

RUN task_addr, data_addr

작업자 쓰레드들은 서로 동시에 실행될 수 있는 코드의 부분들이고, 그 각각은 수행될 하나 이상의 각각의 계산 태스크들을 나타낸다. 데이터 어드레스는 작업자 쓰레드가 동작을 행할 일부 데이터를 특정할 수 있다. 대안적으로, 양도 명령은 단지 작업자 쓰레드의 어드레스를 특정하는 단일의 피연산자만을 취할 수 있고, 그리고 데이터 어드레스는 작업자 쓰레드의 코드 내에 포함될 수 있으며, 또는 또 하나의 다른 예에서, 단일의 피연산자는 작업자 쓰레드 및 데이터의 어드레스들을 특정하는 데이터 구조를 가리킬 수 있다. 언급된 바와 같이, 실시예들에서, 작업자들 중 적어도 일부는 코드렛들의 형태를 가질 수 있는데, 즉 동시에 실행가능한 코드의 원자 유닛(atomic unit)들의 형태를 가질 수 있다. 대안적으로 혹은 추가적으로, 작업자들 중 일부는 코드렛들일 필요가 없으며 대신 서로 통신할 수 있다.

양도 명령("RUN(실행)")은 이러한 명령 자체가 실행되는 현재 시간 슬롯을 피연산자에 의해 특정된 작업자 쓰레드에게 양도하도록 스케줄러(24)에 동작을 행한다. 양도 명령에 암시되어 있는 것은 양도되고 있는 것이 이러한 명령이 실행되는 시간 슬롯이라는 것임에 유의해야 한다(머신 코드 명령들의 콘텍스트에서 암시되어 있는 것은 이러한 것을 특정하기 위한 피연산자가 필요하지 않다는 것을 의미하며, 이것은 연산코드 자체로부터 암시적으로 이해된다). 따라서, 건네지는 시간 슬롯은 감독자가 양도 명령을 실행한 시간 슬롯이다. 혹은 또 하나의 다른 방식으로 말하면, 감독자는 자신이 건네는 공간과 동일한 공간에서 실행되고 있다. 감독자는 "이 위치에서 코드의 해당 단편(piece)을 실행하라"고 말하고, 그러한 포인트로부터 계속해서 재현되는 슬롯은 관련 작업자 쓰레드에 의해 (일시적으로) 소유된다.

감독자 쓰레드(SV)는 (명령 메모리(12) 내의 더 큰 세트 W0...wj로부터 선택된) 작업자 쓰레드들(W0...W3) 중 상이한 각각의 작업자 쓰레드들에게 자신의 시간 슬롯들 중 일부 혹은 모두를 건네주기 위해 시간 슬롯들 중 하나 이상의 다른 시간 슬롯들 각각에서 유사한 동작을 수행한다. 마지막 슬롯에 대해 이러한 것이 행해진 경우, 감독자는 보류된다(그 다음에 이후 슬롯들 중 하나가 작업자(W)에 의해 되돌려 주어질 때 감독자는 벗어나게 되고 재개될 것이다).

따라서 감독자 쓰레드(SV)는 하나 이상의 태스크들을 각각 수행하는 상이한 작업자 쓰레드들을 인터리빙된 실행 시간 슬롯들(S0...S3) 중 상이한 것들에 할당할 수 있다. 작업자 쓰레드를 실행할 시간이라고 감독자 쓰레드가 결정한 경우, 감독자 쓰레드는 양도 명령("RUN(실행)")을 사용하여 이러한 작업자를 RUN(실행) 명령이 실행된 시간 슬롯에 할당한다.

일부 실시예들에서, 명령 세트는 또한 실행 명령(run instruction)의 변종형(variant), RUNALL("모두 실행(run all)")을 포함한다. 이러한 명령은 하나의 작업자보다 많은 작업자들의 세트를 함께 론칭시키기 위해 사용되며, 여기서 모든 작업자들은 동일한 코드를 실행한다. 실시예들에서, 이것은 프로세싱 유닛의 슬롯들(S0...S3)(혹은 더 일반적으로는 S0....S(M-1)) 모두에서 작업자를 론칭시킨다.

더욱이, 일부 실시예들에서, RUN(실행) 및/또는 RUNALL(모두실행) 명령은 또한, 실행될 때, 감독자 상태 레지스터들 CXS(SR) 중 하나 이상으로부터의 일부 상태를 RUN(실행) 또는 RUNALL(모두실행)에 의해 론칭된 작업자 쓰레드(들)의 대응하는 하나 이상의 상태 레지스터들로 자동적으로 복사(copy)한다. 예컨대, 복사된 상태는 하나 이상의 모드들을 포함할 수 있는데, 예를 들어, 부동 소수점 라운딩 모드(floating point rounding mode)(예를 들어, 가장 가까운 쪽으로 라운드(round to nearest) 또는 제로로 라운드(round to zero)) 그리고/또는 오버플로우 모드(overflow mode)(예를 들어, 포화(saturate) 혹은 무한대를 나타내는 별개의 값을 사용)와 같은 것을 포함할 수 있다. 그 다음에 복사된 상태 혹은 모드는 복사된 상태 혹은 모드에 따라 동작하도록 해당 작업자를 제어한다. 실시예들에서, 작업자는 이후 자기 자신의 상태 레지스터 내에 이것을 오버라이트(overwrite)할 수 있다(하지만 감독자의 상태를 변경할 수는 없다). 다른 대안적 혹은 추가적 실시예들에서, 작업자들은 감독자의 하나 이상의 상태 레지스터들로부터 일부 상태를 판독할 것을 선택할 수 있다(그리고 다시 자기 자신의 상태를 이후 변경할 수 있다). 예를 들어, 다시 이것은 감독자 상태 레지스터로부터 부동 소수점 모드 혹은 라우딩 모드와 같은 모드를 채택하는 것 일 수 있다. 하지만, 실시예들에서, 감독자는 작업자들의 콘텍스트 레지스터들(CX0...) 중 임의의 콘텍스트 레지스터를 판독할 수 없다.

론칭되면, 현재 할당된 작업자 쓰레드들(W0...W3) 각각은 각각의 양도 명령에 의해 특정된 코드 내에서 정의된 하나 이상의 계산 태스크들을 수행하기 위해 진행한다. 그 다음에 이러한 것의 끝에서, 각각의 작업자 쓰레드는 자신이 실행되고 있는 시간 슬롯을 감독자 쓰레드에게 다시 되돌려 준다. 이것은 퇴장 명령(exit instruction)("EXIT(퇴장)")을 실행시킴으로써 달성된다.

EXIT(퇴장) 명령은 끝나는 경우 각각의 코드렛의 상태를 표시하기 위해(예를 들어, 특정 조건이 만족되었는지 여부를 표시하기 위해) 프로그래머가 원하는 임의의 목적을 위해 사용될 적어도 하나의 피연산자를 취하고, 바람직하게는 단지 단일 피연산자, exit_state(예를 들어, 바이너리 값(binary value))만을 취한다.

EXIT exit_state

EXIT(퇴장) 명령은 스케줄러(24)에 동작을 행하여 자신이 실행되는 시간 슬롯이 감독자 쓰레드에게 다시 반환되게 한다. 그 다음에 감독자 쓰레드는 하나 이상의 후속 감독자 태스크들(예를 들어, 배리어 동기화 그리고/또는 다른 타일들과 같은 외부 리소스들과의 데이터의 교환)을 수행할 수 있고, 그리고/또는 새로운 작업자 쓰레드(W4, 등)를 해당 슬롯에 할당하기 위해 또 하나의 다른 양도 명령을 계속해서 실행할 수 있다. 따라서, 다시 유의해야 하는 것으로, 명령 메모리(12) 내의 쓰레드들의 전체 개수는 배럴-쓰레드 프로세싱 유닛(10)이 어느 한번에 인터리빙할 수 있는 개수보다 더 클 수 있다. 전체 프로그램에서의 어떤 스테이지에서 명령 메모리(12)로부터의 작업자 쓰레드들(W0...Wj) 중 어느 것이 스케줄러(24)의 라운드 로빈 스케줄에서의 인터리빙된 시간 슬롯들(S0...SM) 중 어느 것에 할당될 것인지를 스케줄링하는 것이 감독자 쓰레드(SV)의 역할이다.

더욱이, EXIT(퇴장) 명령에는 추가의 특별한 기능이 주어지는데, 즉, EXIT(퇴장) 명령의 피연산자에서 특정된 퇴장 상태가 동일한 프로세서 모듈(4)(예를 들어, 동일한 타일)의 동일한 파이프라인(13)을 통해 실행되는 복수의 다른 작업자 쓰레드들의 퇴장 상태들과 함께 (전용 하드웨어 로직에 의해) 자동적으로 집합되도록 하는 기능이 주어진다. 따라서, 추가적인 암시적 기능이 작업자 쓰레드를 종료하기 위한 명령 내에 포함된다.

이러한 것을 달성하기 위한 예시적 회로가 도 5에서 제시된다. 이러한 예에서, 개별 쓰레드들의 퇴장 상태들 및 집합된 퇴장 상태 각각은 단일 비트, 즉, 0 또는 1의 형태를 갖는다. 프로세서 모듈(4)은 해당 프로세서 모듈(4)의 집합된 퇴장를 저장하기 위한 레지스터(38)를 포함한다. 이러한 레지스터는 본 명세서에서 (곧 더 상세하게 논의될, 프로세서 모듈(4)이 유사한 프로세서 타일들의 어레이의 하나로서 포함될 때의 글로벌 컨센서스(global consensus)와는 대조적으로) "로컬 컨센서스(local consensus)" 레지스터($LC)로서 지칭될 수 있다. 실시예들에서, 이러한 로컬 컨센서스 레지스터($LC)(38)는 감독자의 콘텍스트 레지스터 파일(CXS) 내의 감독자의 상태 레지스터들 중 하나이다. 이러한 집합을 수행하기 위한 로직은 AND 게이트(gate)(37)를 포함하고, 여기서 AND 게이트(37)는, (A) EXIT(퇴장) 명령들의 피연산자에서 특정된 퇴장 상태와 (B) 로컬 컨센서스 레지스터($LC)(38) 내의 현재 값의 논리적 AND를 수행하도록 되어 있고, 그리고 그 결과(Q)를 로컬 집합체(local aggregate)의 새로운 값으로서 로컬 컨센서스 레지스터($LC)(38)에 다시 출력하도록 되어 있다.

프로그램에서의 적절한 동기화 포인트에서, 로컬 컨센서스 레지스터($LC)(38) 내에 저장된 값은 초기에 1의 값으로 재설정된다. 즉, 이러한 포인트 이후에 존재하는 임의의 쓰레드는 다음 재설정까지 로컬로 집합된 퇴장 상태($LC)에 기여(contribute)할 것이다. AND 게이트(37)의 출력(Q)은 만약 입력들(A, B)이 모두 1이라면 1이지만, 이와는 달리 입력들(A, B) 중 임의의 입력이 0이라면 출력(Q)은 0이 된다. EXIT(퇴장) 명령이 실행될 때마다 그 퇴장 상태는 (마지막 재설정 이후) 이전에 행해졌던 것들과 함께 집합된다. 따라서, 도 5에서 제시된 구성을 이용함으로써, 로직은, 로컬 컨센서스 레지스터($LC)(38)가 재설정된 마지막 시간 이후, EXIT(퇴장) 명령에 의해 종료되었던 임의의 작업자 쓰레드들의 퇴장 상태들의 현행 집합체(running aggregate)를 유지한다. 이러한 예에서, 현행 집합체는 지금까지의 모든 쓰레드들이 진정으로 퇴장되었는지 혹은 그렇지 않은지 여부를 나타내는바, 작업자 쓰레드들 중 임의의 작업자 쓰레드로부터의 0의 임의의 퇴장 상태는 레지스터(38) 내의 집합체가 다음 재설정까지 0으로 래치(latch)되게 됨을 의미할 것이다. 실시예들에서, 감독자(SV)는 로컬 컨센서스 레지스터($LC)(38)로부터 현재 값을 얻음으로써 임의의 시간에 현행 집합체를 판독할 수 있다(이렇게 하기 위해 타일-상 동기화를 기다릴 필요가 없다).

로컬 컨센서스 레지스터($LC)(38) 내의 집합체의 재설정은, 하나 이상의 범용 명령들을 사용하여, 본 예에서는 레지스터(38)에 1의 값을 투입(put)하기 위해, 로컬 컨센서스 레지스터($LC)(38)의 레지스터 어드레스에 대해 PUT(투입)을 수행하는 감독자(SV)에 의해 수행될 수 있다. 대안적으로, 이러한 재설정이 임의의 자동화된 메커니즘(automated mechanism)에 의해 수행될 수 있는 것, 예를 들어, 본 명세서에서 이후 설명되는 SYNC(동기화) 명령을 실행함으로써 트리거(trigger)될 수 있는 것이 배제되지 않는다.

집합 회로(aggregation circuitry)(37), 본 경우에서는 AND 게이트는, 불린 AND(Boolean AND)의 기능을 형성하기 위한 전자 컴포넌트(electronic component)들의 임의의 적절한 조합을 사용하여, 실행 스테이지(18)의 실행 유닛 내에 전용 하드웨어 회로로 구현된다. 전용 회로 혹은 하드웨어는, 범용 코드를 사용하여 소프트웨어로 프로그래밍되는 것과는 대조적으로 고정-배선으로 연결된 기능(hard-wired function)을 갖는 회로를 의미한다. 로컬 퇴장 상태의 업데이트(updating)는 특별한 EXIT(퇴장) 명령의 실행에 의해 트리거되는데, 이러한 EXIT(퇴장) 명령은 프로세서 모듈(4)의 명령 세트 내의 기본적인 머신 코드 명령들 중 하나이고, 퇴장 상태들을 집합하는 내재된 기능(inherent functionality)을 갖는다. 또한, 로컬 집합체는 제어 레지스터(38) 내에 저장되는데, 이것은 저장소의 전용 단편(실시예들에서는, 저장소의 단일 비트)를 의미하고, 이러한 단편의 값은 파이프라인 상에서 실행되는 코드에 의해 액세스될 수 있으며, 하지만 이러한 단편은 임의의 범용 데이터를 저장하기 위해 로드-스토어 유닛(Load-Store Unit, LSU)에 의해 사용가능하지 않다. 대신, 제어 레지스터 내에 보유되는 데이터의 기능은 고정되는데, 본 경우에서는 로컬로 집합된 퇴장 상태를 저장하는 기능에 고정된다. 바람직하게는, 로컬 컨센서스 레지스터($LC)(38)는 프로세서 모듈(4) 상의(예를 들어, 타일 상의) 제어 레지스터들 중 하나를 형성하는데, 감독자는 GET(획득) 명령을 실행함으로써 그 값에 액세스할 수 있고, 이러한 값은 PUT(투입) 명령을 실행함으로써 설정될 수 있다.

도 5에 제시된 회로는 단지 하나의 예임에 유의해야 한다. 등가 회로는 AND 게이트(37)를 OR 게이트로 대체하는 것, 그리고 소프트웨어적으로 퇴장 상태들 0 및 1의 해석을 반전(invert)시키는 것일 수 있는데, 즉, 0 → 참(true), 1 → 거짓(false)으로 하는 것이다(이 경우, 레지스터(38)는 각각의 동기화 포인트에서 1이 아닌 0으로 재설정된다). 등가적으로, 만약 AND 게이트가 OR 게이트로 대체되지만 퇴장 상태들의 해석이 반전되지 않는다면 그리고 재설정 값도 바뀌지 않는다면, $LC 내의 집합된 상태는 작업자 상태들 중 (모두가 아닌) 임의의 상태가 상태 1을 갖고 퇴장했는지 여부를 기록(record)할 것이다. 다른 실시예들에서, 퇴장 상태들은 단일 비트들일 필요가 없다. 예를 들어, 각각의 개별 작업자의 퇴장 상태는 단일 비트일 수 있지만, 집합된 퇴장 상태($LC)는 삼중 상태(trinary state)를 나타내는 두 개의 비트들을 포함할 수 있는데, 여기서 삼중 상태는, 모든 작업자들이 상태 1을 갖고 퇴장했음, 모든 작업자들이 상태 0을 갖고 퇴장했음, 또는 작업자들의 퇴장 상태들이 혼합되었음이다. 이러한 것을 구현하기 위한 로직의 예로서, 삼중 값을 인코딩하는 두 개의 비트들 중 하나는 개별 퇴장 상태들의 불린 AND(혹은 OR)일 수 있고, 삼중 값의 다른 비트는 개별 퇴장 상태들의 불린 OR일 수 있다. 그 다음에, 작업자의 퇴장 상태들이 혼합되었음을 표시하는 세 번째의 인코딩되는 경우는 이러한 두 개의 비트들의 XOR로서 형성될 수 있다.

퇴장 상태들은 프로그래머가 무엇을 원하든 그 원하는 것을 나타내기 위해 사용될 수 있는데, 하지만 하나의 특정적으로 상정되는 예는, 각각의 작업자 쓰레드가 "성공적(successful)" 혹은 "참(true)" 상태에서 퇴장했음을 표시하기 위해 1의 퇴장 상태를 사용하는 것이고, 반면 0의 퇴장 상태는 각각의 작업자 쓰레드가 "비성공적(unsuccessful)" 혹은 "거짓(false)" 상태에서 퇴장했음을 표시한다(또는 만약 집합 회로(37)가 AND 대신 OR을 수행하고 레지스터($LC)(38)가 초기에 0으로 재설정된다면 그 반대가 된다). 예컨대, 각각의 작업자 쓰레드가 계산을 수행하되, 관련된 조건을 갖는 계산을 수행하는 애플리케이션을 고려하는데, 여기서 관련된 조건은 예를 들어, 머신 지능 알고리즘의 그래프 내의 각각의 노드의 하나 이상의 파라미터들에서의 에러(들)가, 임의의 미리정의된 메트릭(metric)에 따라, 허용가능한 레벨 내에 있게 되었는지 여부를 표시하는 조건과 같은 것이다. 이러한 경우에, 하나의 로직 레벨(예를 들어, 1)의 개별 퇴장 상태는 조건이 만족되었음(예를 들어, 노드의 하나 이상의 파라미터들에서의 에러 혹은 에러들이 어떤 메트릭에 따라 허용가능한 레벨 내에 있는 것)을 표시하기 위해 사용될 수 있고, 반면 반대 로직 레벨(예를 들어, 0)의 개별 퇴장 상태는 조건이 만족되지 않았음(예를 들어, 에러 혹은 에러들이 해당 메트릭에 따라 허용가능한 레벨 내에 있지 않은 것)을 표시하기 위해 사용될 수 있다. 이러한 조건은 예를 들어, 단일 파라미터 혹은 각각의 파라미터 상에 놓이는 에러 임계치(error threshold)일 수 있으며, 또는 작업자 쓰레드에 의해 수행되는 각각의 계산과 관련된 복수의 파라미터들의 더 복잡한 함수일 수 있다.

또 하나의 다른 더 복잡한 예로서, 작업자들의 개별 퇴장 상태들 및 집합된 퇴장 상태는 각각 둘 이상의 비트들을 포함할 수 있고, 이것은 예를 들어, 작업자 쓰레드들의 결과들에서의 신뢰도(degree of confidence)를 나타내기 위해 사용될 수 있다. 예를 들어, 각각의 개별 작업자 쓰레드의 퇴장 상태는 각각의 작업자 쓰레드의 결과에서의 신뢰도의 확률적 척도(probabilistic measure)를 나타낼 수 있고, 그리고 집합 회로(37)는 개별 신뢰도 레벨들의 확률적 집합을 하드웨어로 수행하기 위한 더 복잡한 회로로 대체될 수 있다.

프로그래머에 의해 퇴장 상태들에 어떤 의미가 주어지든 간에, 감독자 쓰레드(SV)는, 마지막으로(예를 들어, 마지막 동기화 포인트에서) 재설정된 이후, 퇴장했던 모든 작업자 쓰레드들의 집합된 퇴장 상태를 결정하기 위해, 예를 들어, 모든 작업자들이 성공적 상태 혹은 참 상태에서 퇴장했는지 여부를 결정하기 위해, 로컬 컨센서스 레지스터($LC)(38)로부터, 집합된 값을 획득할 수 있다. 이러한 집합된 값에 의존하여, 그 다음에 감독자 쓰레드는 프로그래머의 설계에 따라 결정을 행할 수 있다. 프로그래머는 자신이 원하는 로컬로 집합된 퇴장 상태의 사용이 무엇이든지 간에 그 사용을 행할 것을 선택할 수 있다. 예를 들어, 감독자 쓰레드는 작업자 쓰레드들의 특정 서브세트로 이루어진 프로그램의 특정 부분이 예측된 대로 혹은 원하는 대로 완료되었는지 여부를 결정하기 위해, 로컬로 집합된 퇴장 상태를 참고(consult)할 수 있다. 만약 그렇지 않다면(예를 들어, 작업자 쓰레드들 중 적어도 하나가 비성공적 상태 혹은 거짓 상태에서 퇴장했다면), 감독자 쓰레드는 호스트 프로세서에게 보고(report)할 수 있고, 또는 동일한 작업자 쓰레드들을 포함하는 프로그램의 부분의 또 하나의 다른 반복을 수행할 수 있으며, 하지만 만약 그렇다면(예를 들어, 모든 작업자 쓰레드들이 성공적 상태 혹은 참 상태에서 퇴장했다면), 감독자 쓰레드는 대신 하나 이상의 새로운 작업자들을 포함하는 프로그램의 또 하나의 다른 부분으로 분기할 수 있다.

바람직하게는 감독자 쓰레드는 해당하는 모든 작업자 쓰레드들이 퇴장했을 때까지 로컬 컨센서스 레지스터($LC)(38) 내의 값에 액세스하면 안 되며, 이에 따라 그 안에 저장된 값은 모든 원하는 쓰레드들의 올바른 최신의 집합 상태를 나타내게 된다. 이러한 것을 기다리는 것은 모든 현재-실행되는 로컬 작업자 쓰레드들(즉, 동일한 프로세서 모듈(4) 상에 있으며 동일한 파이프라인(13)을 통해 실행되는 것들)이 퇴장하는 것을 기다리기 위해 감독자 쓰레드에 의해 수행되는 배리어 동기화에 의해 실시(enforce)될 수 있다. 즉, 감독자 쓰레드는, 로컬 컨센서스 레지스터($LC)(38)를 재설정하고, 그리고 복수의 작업자 쓰레드들을 론칭시키고, 그 다음에 감독자가 로컬 컨센서스 레지스터($LC)(38)로부터, 집합된 퇴장 상태를 얻기 위해 진행할 수 있기 전에, 모든 미해결 작업자 쓰레드들이 퇴장하는 것을 기다리기 위해서, (프로세싱 모듈(4)에 로컬인, 하나의 타일에 로컬인) 로컬 배리어 동기화를 개시한다.

도 6을 참조하면, 실시예들에서, SYNC(동기화(synchronization)) 명령이 프로세서의 명령 세트 내에 제공된다. SYNC(동기화) 명령은 감독자 쓰레드(SV)로 하여금 모든 현재 실행되는 작업자들(W)이 EXIT(퇴장) 명령에 의해 퇴장했을 때까지 기다리도록 하는 효과를 가진다. 실시예들에서, SYNC(동기화) 명령은 모드를 피연산자로서 취하는데(실시예들에서는, 오로지 피연산자만으로서 취함), 여기서 모드는, SYNC(동기화)가 실행되는 해당 부분으로서 오로지 감독자와 동일한 프로세서 모듈(4), 예를 들어, 동일한 타일 상에서 로컬로 실행되는 그러한 작업자 쓰레드들(즉, 오로지 동일한 배럴-쓰레드 프로세싱 유닛(10)의 동일한 파이프라인(13)을 통한 쓰레드들)에만 관련하여 SYNC(동기화)가 오로지 로컬로만 동작해야 하는지 여부를 특정하고, 또는 대신에 SYNC(동기화)가 복수의 타일들에 걸쳐 적용돼야 하는지 혹은 심지어 복수의 칩들에 걸쳐 적용돼야 하는지 여부를 특정한다.

SYNC mode // mode ∈ {tile, chip, zone_1, zone_2}

이것은 이후 더 상세하게 논의될 것이지만, 도 6의 설명 목적으로, 로컬 SYNC("SYNC tile(타일)", 즉, 단일 타일 내에서의 동기화)가 가정될 것이다.

작업자들이 SYNC(동기화) 명령의 피연산자들로서 식별될 필요는 없는데, 왜냐하면 감독자(SV)는 배럴-쓰레드 프로세싱 유닛(10)의 시간 슬롯들(S0, S1, ...) 중 어느 것도 작업자에게 점유되지 않을 때까지 자동적으로 기다리도록 되어 있음이 암시되어 있기 때문이다. 도 6에서 보여지는 바와 같이, 작업자들(WLn)로 이루어진 현재 배치(batch)의 작업자들 각각이 모두 감독자에 의해 론칭되었다면, 감독자는 SYNC(동기화) 명령을 실행한다. 만약 감독자(SV)가 배럴-쓰레드 프로세싱 유닛(10)의 모든 슬롯들(S0...3)(예시된 본 예에서는 모두 네 개이지만, 이것은 단지 하나의 예시적 구현임)에서 작업자들(W)을 론칭시킨다면, SYNC(동기화)는, 작업자 쓰레드들(WLn)로 이루어진 현재 배치의 작업자 쓰레드들 중 첫 번째가 퇴장했고, 이에 따라 적어도 하나의 슬롯의 제어를 감독자(SV)에게 되돌려 준 경우, 감독자에 의해 실행될 것이다. 그렇지 않고 만약 작업자들이 모든 슬롯들을 차지하지 않는다면, SYNC(동기화)는 현재 배치의 마지막 쓰레드(Wn)가 론칭되었던 직후에 간단히 실행될 것이다. 어떤 경우에서든, SYNC(동기화)는 감독자(SV)로 하여금 작업자들로 이루어진 현재 배치의 다른 모든 작업자들(WLn-1)이, 감독자가 진행할 수 있기 전에, EXIT(퇴장)를 실행하는 것을 기다리도록 한다. 이러한 것 이후에만, 감독자는 로컬 컨센서스 레지스터($LC)(38)의 콘텐츠를 획득하기 위해 GET(획득) 명령을 실행한다. 감독자 쓰레드에 의한 이러한 기다림은 SYNC(동기화)가 실행되었던 경우 하드웨어로 부과(impose)된다. 즉, SYNC(동기화) 명령의 연산코드에 응답하여, 실행 스테이지(18)의 실행 유닛(EXecution Unit, EXU) 내의 로직은 페치 스테이지(14) 및 스케줄러(24)로 하여금 모든 미해결 작업자 쓰레드들이 EXIT(퇴장) 명령을 실행했을 때까지 감독자 쓰레드의 명령들의 발행으로부터 중지를 행하도록 한다. 로컬 컨센서스 레지스터($LC)(38)의 값을 획득한 이후 어떤 포인트에서(선택에 따라서는 그 사이에 어떤 다른 감독자 코드가 있음), 감독자는 로컬 컨센서스 레지스터($LC)(38)를 (예시된 사례에서는 1로) 재설정하기 위해 PUT(투입) 명령을 실행한다.

도 6에서 또한 예시되는 바와 같이, SYNC(동기화) 명령은 또한 작업자 쓰레드들의 상이한 상호의존성 계층들(WL1, WL2, WL3, ...) 사이에 동기화 장벽(synchronization barrier)들을 놓기 위해 사용될 수 있는데, 여기서 각각의 연속적인 계층 내의 하나 이상의 쓰레드들은 그 선행하는 계층 내의 하나 이상의 작업자 쓰레드들에 의해 출력된 데이터에 의존한다. 감독자 쓰레드에 의해 실행되는 로컬 SYNC(동기화)는, 다음 계층 내의 작업자 쓰레드들(WLn+1) 중 어느 것도 직전 계층 내의 모든 작업자 쓰레드들(WLn)이 (EXIT(퇴장) 명령을 실행함으로써) 퇴장되었을 때까지 실행되지 않도록 보장한다.

언급된 바와 같이, 실시예들에서, 프로세서 모듈(4)은 복수-타일 프로세서를 형성하는 상호연결된 타일들로 이루어진 어레이의 타일들 중 하나로서 구현될 수 있고, 여기서 타일 각각은 도 내지 도 6과 관련하여 앞서 설명된 바와 같이 구성될 수 있다.

이것이 도 7에서 더 예시되는데, 도 7은 단일 칩 프로세서(2), 즉, 단일 다이(die)를 보여주고 있으며, 여기서 단일 칩 프로세서(2)는 복수의 프로세서 타일들(4)의 어레이(6), 그리고 타일들(4) 간을 연결하는 칩-상 상호연결(on-chip interconnect)(34)을 포함한다. 칩(2)은 자기 자신의 단일-칩 집적 회로 패키지 상에 단독으로 구현될 수 있고, 또는 동일한 IC 패키지 내에 패키징되는 복수의 다이들 중 하나로서 구현될 수 있다. 칩-상 상호연결은 또한 본 명세서에서 "교환 패브릭(exchange fabric)"(34)으로서 지칭될 수 있는데, 왜냐하면 이것은 타일들(4)이 서로 데이터를 교환할 수 있게 하기 때문이다. 각각의 타일(4)은 메모리(11) 및 배럴-쓰레드 프로세싱 유닛(10)의 각각의 인스턴스를 포함하고, 그 각각은 도 1 내지 도 6과 관련하여 앞서 설명된 바와 같이 구성된다. 예컨대, 예시적으로, 칩(2)은 대략 수백 개의 타일들(4)로 이루어질 수 있고, 혹은 심지어 천 개 이상의 타일들(4)로 이루어질 수 있다. 완벽한 설명을 위해, 또한 유의해야 하는 것으로, 본 명세서에서 지칭되는 "어레이(array)"는 타일들(4)의 특정 수의 차원들 혹은 물리적 레이아웃을 반드시 암시하는 것이 아니다.

실시예들에서, 각각의 칩(2)은 또한 하나 이상의 외부 링크(external link)들(8)을 포함하고, 이러한 외부 링크들(8)은 칩(2)이 상이한 칩들 상의 하나 이상의 다른 외부 프로세서들에 연결될 수 있게 한다(예컨대, 동일한 칩(2)의 하나 이상의 다른 인스턴스들에 연결될 수 있게 함). 이러한 외부 링크들(8)은, 칩(2)을 호스트 프로세서에 연결하기 위한 하나 이상의 칩-대-호스트 링크(chip-to-host link)들, 그리고/또는 상이한 카드들 상에 있는 또는 동일한 IC 패키지 혹은 카드 상에 있는 칩(2)의 하나 이상의 다른 인스턴스들과 함께 연결시키기 위한 하나 이상의 칩-대-칩 링크(chip-to-chip link)들 중 임의의 하나 이상의 것을 포함할 수 있다. 하나의 예시적 구성에서, 칩(2)은, (칩-대-호스트 링크들 중 하나를 통해 칩에 연결되는) 호스트 프로세서(미도시)로부터, 칩(2)에 의해 프로세싱될 입력 데이터의 형태로 작업을 수신한다. 칩(2)의 복수의 인스턴스들이 칩-대-칩 링크들에 의해 카드들에 함께 연결될 수 있다. 따라서, 호스트는, 호스트 애플리케이션에 대해 요구되는 작업부하에 따라, 단일 칩 프로세서(2)로서 구축되는 컴퓨터에 액세스할 수 있거나, 또는 (가능하게는 복수의 상호연결된 카드들 상에 구성되는) 복수의 단일 칩 프로세서들(2)로서 구축되는 컴퓨터에 액세스할 수 있다.

상호연결(34)은 어레이(6) 내의 상이한 프로세서 타일들(4)이 칩(2) 상에서 서로 통신할 수 있게 하도록 되어 있다. 하지만, 동일한 타일(4) 상에서의 쓰레드들 간에 종속성들이 잠재적으로 존재할 뿐만 아니라, 어레이(6) 내의 상이한 타일들(4) 상에서 실행되는 프로그램의 부분들 간에도 또한 종속성들이 존재할 수 있다. 따라서, 하나의 타일(4) 상에서의 코드의 단편이 의존하는 데이터로서 해당 데이터가 또 하나의 다른 타일(4) 상에서의 코드의 또 하나의 다른 단편에 의해 이용가능하게 되는 그러한 데이터에 앞서 상기 하나의 타일(4) 상에서의 코드의 단편이 실행되는 것을 방지하기 위한 기법이 요구된다.

실시예들에서, 이것은, 도 8 및 도 9에서 개략적으로 예시되는 바와 같이, 벌크 동기 병렬(BSP) 교환 방식을 구현함으로써 달성된다.

BSP의 하나의 버전(version)에 따르면, 각각의 타일(4)은 교번하는 싸이클에서 계산 국면(52)과 교환 국면(50)을 수행하고, 이것은 타일들 간의 배리어 동기화(30)에 의해 서로 분리되어 있다. 예시된 경우에서, 배리어 동기화는 각각의 계산 국면(52)과 후속하는 교환 국면(50) 사이에 놓인다. 계산 국면(52) 동안 각각의 타일(4)은 타일 상에서 하나 이상의 계산 태스크들을 로컬로 수행하지만, 이러한 계산들의 임의의 결과들을 타일들(4) 중 임의의 다른 타일들과 서로 주고받지는 않는다. 교환 국면(50)에서, 각각의 타일(4)은 선행하는 계산 국면으로부터의 계산들의 하나 이상의 결과들을 그룹 내의 타일들 중 하나 이상의 다른 타일들과 서로 주고받는 교환을 수행할 수 있지만, 태스크(들)가 의존하고 있는 임의의 데이터가 다른 타일들(4)로부터 수신되었을 때까지는 임의의 새로운 계산들을 수행하지 않는다. 선행하는 계산 국면에서 계산된 것을 제외한 그 어떤 데이터도 임의의 다른 타일로 전송되지 않는다. 내부 제어-관련 동작들과 같은 다른 동작들이 교환 국면에서 수행될 수 있는 것이 배제되지 않는다. 실시예들에서, 교환 국면(50)은 임의의 비-시간-결정적 계산(non-time-deterministic computation)들을 포함하지 않지만, 작은 수의 시간-결정적 계산(time-deterministic computation)들이 선택에 따라서는 교환 국면(50) 동안 허용될 수 있다. 또한 유의해야 하는 것으로, 계산을 수행하는 타일(4)은, 계산 국면(52) 동안, 동기화되는 타일들(4)의 어레이 외부에 있는 다른 외부 시스템 리소스들(예를 들어, 네트워크 카드, 디스크 드라이브(disk drive), 또는 현장 프로그래밍가능 게이트 어레이(Field Programmable Gate Array, FPGA))과 통신할 수 있는데, 이것은 이러한 통신이, 동기화되는 그룹 내의 다른 타일들(4)과의 통신을 수반하지 않는 한 그러하다. 타일 그룹 외부와의 통신은 선택에 따라서 BSP 메커니즘을 이용할 수 있고, 하지만 대안적으로 BSP를 이용하지 않을 수 있고 대신 자기 자신의 어떤 다른 동기화 메커니즘을 사용할 수 있다.

BSP 원리에 따르면, 배리어 동기화(30)는 계산 국면들(52)로부터 교환 국면(50)으로 전이하는 접합점에서 놓이거나, 또는 교환 국면들(50)로부터 계산 국면(52)으로 전이하는 접합점에서 놓이거나, 또는 이러한 접합점들 모두에 놓인다. 즉, (a) 모든 타일들(4)은 그룹 내의 임의의 타일이 다음 교환 국면(50)으로 진행할 수 있도록 되기 전에 자신들의 각각의 계산 국면들(52)을 완료하도록 요구받고, 또는 (b) 그룹 내의 모든 타일들(4)은 그룹 내의 임의의 타일이 다음 계산 국면(52)으로 진행할 수 있도록 되기 전에 자신들의 각각의 교환 국면들(50)을 완료하도록 요구받고, 또는 (c) 이러한 조건들이 모두 실시된다. 세 가지 변형들 모두에서, 국면들 간에 교번 동작하는 것은 개별 프로세서들이고, 동기화되는 것은 전체 조합체(assembly)이다. 그 다음에 교환 국면과 계산 국면의 시퀀스가 복수의 반복들에 걸쳐 되풀이될 수 있다. BSP 용어에 있어서, 교환 국면 및 계산 국면의 각각의 반복은 때때로 "수퍼스텝(superstep)"으로서 지칭된다(하지만, 유의해야 하는 것으로, 문헌에서 이러한 용어는 언제나 일관적으로 사용되지 않으며, 때때로 각각의 개별 교환 국면 및 계산 국면이 개별적으로 수퍼스텝으로 지칭되고, 반면 다른 문헌에서는 본 명세서에서 채택된 용어에서와 같이, 교환 및 계산 국면들이 함께 수퍼스텝으로서 지칭된다).

또한 유의해야 하는 것으로, 동일한 칩(2) 혹은 상이한 칩들 상의 타일들(4)의 복수의 상이한 독립된 그룹들이 각각 서로에 대해 비동기적으로 동작하는 별개의 각각의 BSP 그룹을 형성할 수 있는 것이 배제되지 않으며, 이 경우 계산, 동기화, 및 교환의 BSP 싸이클은 오로지 각각의 주어진 그룹 내에서만 부과되며, 하지만 각각의 그룹은 다른 그룹들과는 독립적으로 그러한 것을 수행한다. 즉, 복수-타일 어레이(6)는 복수의 내부적으로 동기화된 그룹들을 포함할 수 있고, 이러한 그룹들 각각은 다른 이러한 그룹들과 독립적으로 그리고 비동기적으로 동작한다(이후 더 상세하게 논의됨). 일부 실시예들에서, 이후 더 상세하게 논의될 것인 바와 같이, 싱크 및 교환의 계층적 그룹화(hierarchical grouping)가 존재한다.

도 9는 어레이(6) 내의 타일들 중 일부 혹은 모두로 이루어진 그룹의 타일들(4i, 4ii, 4iii) 간에 구현되는 바와 같은 BSP 원리를 예시하며, 이 경우 (a) 계산 국면(52)으로부터 교환 국면(50)으로의 배리어 동기화(앞서의 설명 참조)가 부과된다. 이러한 구성에서 일부 타일들(4)은 계산(52)을 시작할 수 있게 되어 있고, 반면 일부 다른 것들은 여전히 교환을 수행하고 있음에 유의해야 한다.

본 명세서에서 개시되는 실시예들에 따르면, 이러한 타입의 BSP는 배리어 동기화를 수행하기 위한 머신 코드 명령, 즉 SYNC(동기화) 명령에 추가적인 특별한 전용 기능을 통합함으로써 용이하게 될 수 있다.

실시예들에서, SYNC(동기화) 함수는 피연산자로서 타일-간 모드(inter-tile mode)에 의해 자격을 갖출 때 이러한 기능을 취한다(예를 들어, 칩-상 모드(on-chip mode): SYNC chip(칩)).

이것이 도 10에서 개략적으로 예시된다. 각각의 타일(4)이 복수-쓰레드 프로세싱 유닛(10)을 포함하는 경우에, 각각의 타일의 계산 국면(52)은 사실 동일한 타일(4) 상의 복수의 작업자 쓰레드들(W)에 의해 수행된 태스크들을 포함할 수 있다(그리고 주어진 타일(4) 상에서의 주어진 계산 국면(52)은 작업자 쓰레드들의 하나 이상의 계층들(WL)을 포함할 수 있고, 이러한 계층들(WL)은 복수 계층들의 경우에, 이전에 설명된 바와 같이, 피연산자로서 로컬 타일-상 모드를 갖는 SYNC(동기화) 명령을 사용하여 내부 배리어 동기화들에 의해 분리될 수 있다). 주어진 타일(4) 상에서의 감독자 쓰레드(SV)가 현재 BSP 수퍼스텝에서 마지막 작업자 쓰레드를 론칭시켰던 경우, 해당 타일(4) 상의 감독자는 피연산자로서 설정된 타일-간 모드를 갖는 SYNC(동기화) 명령을 실행한다. 만약 감독자가 그 각각의 프로세싱 유닛(10)의 모든 슬롯들 내에서 작업자 쓰레드들을 론칭(RUN(실행))시켜야 한다면, 현재 BSP 수퍼스텝에서 더 이상의 작업자들을 실행(RUN)시킬 필요가 없는 첫 번째 슬롯이 감독자에게 되돌려 주어지자마자 "SYNC chip(칩)"이 실행된다. 예를 들어, 이것은 마지막 계층(WL)에서 퇴장(EXIT)하는 첫 번째 쓰레드 이후에 일어날 수 있거나, 혹은 단순히 만약 단일 계층만이 존재한다면 퇴장(EXIT)하는 첫 번째 쓰레드 이후에 일어날 수 있다. 그렇지 않고, 만약 모든 슬롯들이 현재 BSP 수퍼스텝에서 작업자들을 실행시키는데 사용돼야하는 것이 아니라면, 현재 BSP 수퍼스텝에서 실행(RUN)될 필요가 있는 마지막 작업자가 론칭되어 버리자마자 "SYNC chip(칩)"이 실행될 수 있다. 이것은 마지막 계층 내의 모든 작업자들이 실행(RUN)되어 버린 경우 일어날 수 있고, 혹은 단순히 만약 하나의 계층만이 존재한다면 모든 작업자 쓰레드들이 실행(RUN)되어 버린 경우 일어날 수 있다.

실행 스테이지(18)의 실행 유닛(EXU)은, SYNC(동기화) 명령의 연산코드에 응답하여, 칩-상(타일-간) 피연산자에 의해 자격을 갖출 때, "SYNC chip(칩)"이 실행된 감독자 쓰레드로 하여금 어레이(6) 내의 모든 타일들(4)이 작업자들을 실행시키는 것을 끝냈을 때까지 중지되게 하도록 되어 있다. 이것은 다음 BSP 수퍼스텝에 대한 배리어를 구현하는데 사용될 수 있다. 즉, 칩(2) 상의 모든 타일들(4)이 배리어를 통과해 버린 이후, 전체적으로 교차-타일 프로그램(cross-tile program)이 다음 교환 국면(50)으로 진행할 수 있다.

도 11은 본 명세서에서 개시되는 실시예들에 따른 "SYNC chip(칩)"에 의해 트리거되는 로직을 예시하는 개략도를 제공한다.

감독자가 현재 계산 싸이클(52)에서 의도하고 있는 모든 쓰레드들을 론칭(RUN)시켜 버린 경우, 감독자는 칩-상, 타일-간 피연산자를 갖는 SYNC(동기화) 명령(SYNC chip(칩))을 실행한다. 이것은 타일(4) 상의 전용 동기화 로직(39)에서 트리거될 그리고 하드웨어 상호연결(34) 내에서 구현된 동기화 제어기(synchronization controller)(36)에서 트리거될 다음의 기능을 트리거한다. 타일-상 싱크 로직(on-tile sync logic)(39) 및 상호연결(34) 내의 동기화 제어기(36) 양쪽 모두의 이러한 기능은, SYNC chip(칩)이 실행된 경우 기능의 나머지가 그렇게 하도록 실행되는 후속 명령들 없이 진행하도록, 전용 하드웨어 회로로 구현된다.

먼저, 타일-상 싱크 로직(39)은 해당 타일(4) 상에서의 감독자에 대한 명령 발행이 자동적으로 중지되도록 한다(페치 스테이지(14) 및 스케줄러(24)로 하여금 감독자의 명령들의 발행을 보류하도록 함). 로컬 타일(4) 상의 모든 미해결 작업자 쓰레드들이 퇴장(EXIT)을 수행해 버린 경우, 싱크 로직(39)은 동기화 요청("sync_req")을 상호연결(34) 내의 동기화 제어기(36)로 자동적으로 전송한다. 그 다음에 로컬 타일(4)은 감독자 명령 발행이 중지된 상태에서 계속 기다린다. 유사한 프로세스가 또한 어레이(6) 내의 다른 타일들(4) 각각 상에서 구현된다(여기서 타일들(4) 각각은 싱크 로직(39)의 자기 자신의 인스턴스를 포함함). 따라서, 어떤 포인트에서, 현재 계산 국면(52)에서의 모든 최종 작업자들이 어레이(6) 내의 모든 타일들(4) 상에서 퇴장(EXIT)해 버린 경우, 동기화 제어기(36)는 어레이(6) 내의 모든 타일들(4)로부터 각각의 동기화 요청(sync_req)을 수신했을 것이다. 오로지 이 경우에만, 동일한 칩(2) 상의 어레이(6) 내의 모든 타일(4)로부터 sync_req을 수신함에 응답하여, 동기화 제어기(36)는 타일들(4) 각각 상의 싱크 로직(39)으로 동기화 확인응답 신호("sync_ack")를 역으로 전송한다. 이러한 포인트까지 타일들(4) 각각은 동기화 확인응답 신호(sync_ack)를 기다리면서 자신의 감독자 명령 발행이 중지되게 하고 있다. sync_ack 신호를 수신한 경우, 타일(4) 내의 싱크 로직(39)은 해당 타일(4) 상에서의 각각의 감독자 쓰레드에 대한 감독자 명령 발행의 중지를 자동적으로 해제한다. 그 다음에 감독자는 후속 교환 국면(50)에서 상호연결(34)을 통해 다른 타일들(4)과 데이터를 교환하는 것을 자유롭게 진행한다.

바람직하게는, sync_req 신호 그리고 sync_ack 신호는 각각의 타일(4)을 상호연결(34) 내의 동기화 제어기(36)에 연결시키는 하나 이상의 전용 싱크 배선(sync wire)들을 통해 각각 동기화 제어기로 전송되고 그리고 동기화 제어기로부터 수신된다.

더욱이, 본 명세서에서 개시된 실시예들에 따르면, 추가적인 기능이 SYNC(동기화) 명령에 포함된다. 즉, 적어도 타일-간 모드에서 실행될 때(예를 들어, SYNC chip(칩)), SYNC(동기화) 명령은 또한 동기화된 타일들(4) 각각의 로컬 퇴장 상태들($LC)이 상호연결(34) 내의 다른 전용 하드웨어(40)에서 자동적으로 집합되도록 한다. 제시된 실시예들에서, 이러한 로직은, 도 11에서 예시적으로 제시되는 바와 같이, 예컨대 2-입력 AND 게이트들(40i, 40ii, ...)의 스트링(string)으로부터 형성되는 복수-입력 AND 게이트(하나의 입력은 어레이(6) 내의 각각의 타일(4)에 대한 것임)의 형태를 갖는다. 이러한 타일-간 집합 로직(inter-tile aggregation logic)(40)은 어레이 내의 각각의 타일(4)로부터 로컬 퇴장 상태 레지스터(로컬 컨센서스 레지스터)($LC)(38) 내의 값(실시예들에서 각각은 단일 비트임)을 수신하고, 그리고 이들을 집합하여 단일 값을 생성한다(예를 들어, 모든 로컬로 집합된 퇴장 상태들의 AND). 따라서, 이러한 로직은 어레이(6) 내의 모든 타일들(4) 상에서의 모든 쓰레드들에 걸쳐 글로벌하게 집합된 퇴장 상태(globally aggregated exit state)를 형성한다.

타일들(4) 각각은 상호연결(34) 내의 글로벌 집합 로직(global aggregation logic)(40)으로부터 글로벌 퇴장 상태를 수신 및 저장하도록 되어 있는 글로벌 컨센서스 레지스터($GC)(42)의 각각의 인스턴스를 포함한다. 실시예들에서, 이것은 감독자의 콘텍스트 레지스터 파일(CXS) 내의 상태 레지스터들 중 또 하나의 다른 것이다. 어레이(6) 내의 모든 타일들(4)로부터 동기화 요청(sync_req)이 수신됨에 응답하여, 동기화 제어기(36)는 집합 로직(40)의 출력(예를 들어, AND의 출력)이 각각의 타일(4) 상의 글로벌 컨센서스 레지스터($GC)(42) 내에 저장되도록 한다(이해해야 할 것으로, 도 11에 제시된 "스위치(switch)"는 기능의 도식적 표현이며 사실 업데이트는 임의의 적절한 디지털 로직(digital logic)에 의해 구현될 수 있다). 이러한 레지스터($GC)(42)는 감독자 명령 발행이 재개되는 경우 각각의 타일(4) 상에서의 감독자 쓰레드(SV)에 의해 액세스가능하다. 실시예들에서, 글로벌 컨센서스 레지스터($GC)는 제어 레지스터 파일 내의 제어 레지스터로서 구현되고, 이에 따라 감독자 쓰레드는 GET(획득) 명령에 의해 글로벌 컨센서스 레지스터($GC)(42) 내의 값을 얻을 수 있다. 유의해야 하는 것으로, 동기화 로직(36)은 글로벌 컨센서스 레지스터들($GC)(42) 중 임의의 글로벌 컨센서스 레지스터 내의 값을 업데이트하기 전에 모든 타일들(4)로부터 sync_req이 수신되기까지 기다리고, 그렇지 않으면 계산 국면(52)의 자신의 부분을 아직 완료하지 않았고 이에 따라 여전히 실행되고 있는 타일 상에서 감독자 쓰레드에게 올바르지 않은 값이 액세스가능하게 될 수 있다.

글로벌하게 집합된 퇴장 상태($GC)는 프로그램으로 하여금 각각의 개별 타일 상에서의 각각의 개별 작업자 쓰레드의 상태를 개별적으로 조사(examine)해야 함이 없이 복수의 상이한 타일들(4) 상에서 실행되는 프로그램의 부분들의 전체 출력물(outcome)을 결정할 수 있게 한다. 이것은 프로그래머가 원하는 임의의 목적을 위해 사용될 수 있다. 예컨대, 글로벌 집합체가 불린 AND인 도 11에 제시된 예에서, 이것이 의미하는 것은, 임의의 입력이 0인 경우 그 결과적 집합체는 0이 된다는 것, 하지만 만약 모든 입력들이 1이라면 집합체는 1이 된다는 것이다. 즉, 만약 1이 참인 혹은 성공적인 출력물을 나타내기 위해 사용된다면, 이것이 의미하는 것은, 만약 타일들(4) 중 임의의 타일의 로컬 퇴장 상태들 중 임의의 로컬 퇴장 상태가 거짓 혹은 비성공적이라면, 글로벌 집합된 상태도 또한 거짓일 것이고, 또는 비성공적인 출력물을 나타낼 것이라는 것이다. 예를 들어, 이것은 모든 타일들 상에서 실행되는 코드의 부분들이 모두, 미리결정된 조건을 만족시켰는지 혹은 그렇지 않은지 여부를 결정하는데 사용될 수 있다. 따라서, 프로그램은, 각각의 개별 타일 상에서의 개별 작업자 쓰레드들의 개별 상태들을 조사해야만 하는 것이 아니라, "어떤 것이 잘못되었나요? 예 혹은 아니오?" 또는 "그래프 내의 모든 노드들이 에러의 허용가능한 레벨에 도달했나요? 예 혹은 아니오?"라고 묻기 위해 단일 레지스터(실시예들에서, 단일 비트)에게 질의(query)할 수 있다(그리고, 다시, 실시예들에서, 감독자는 사실 퇴장 상태 레지스터들(38, 42)을 통하는 것을 제외하고는 작업자들의 상태를 질의할 수 없다). 달리 말하면, EXIT(퇴장) 명령 및 SYNC(동기화) 명령은 각각 복수의 개별 퇴장 상태들을 단일의 결합된 상태로 감소시킨다.

하나의 예시적 사용의 경우에, 타일들 중 하나 이상의 타일 상에서의 감독자는 만약 글로벌 집합체가 거짓인 혹은 비성공적인 출력물을 표시했다면 호스트 프로세서에게 보고할 수 있다. 또 하나의 다른 예로서, 프로그램은 글로벌 퇴장 상태에 따라 분기 결정(branch decision)을 수행할 수 있다. 예를 들어, 프로그램은 글로벌 집합 퇴장 상태(global aggregate exit state)($GC)를 조사하고, 이것에 근거하여 계속 루핑(looping)을 수행할지 여부 혹은 그렇지 않으면 분기를 수행할지 여부를 결정한다. 만약 글로벌 퇴장 상태($GC)가 여전히 거짓 혹은 비성공적이라면, 프로그램은 프로그램의 동일한 첫 번째 부분을 계속 반복하고, 하지만 글로벌 퇴장 상태($GC)가 참 혹은 성공적이라면, 프로그램은 프로그램의 두 번째 상이한 부분으로 분기한다. 분기 결정은 각각의 감독자 쓰레드 내에서 개별적으로 구현될 수 있고, 또는 마스터(master)의 역할을 맡은 감독자들 중 하나가 다른 타일들 상에서의 다른 슬레이브 감독자(slave supervisor)들에게 지시함으로써 구현될 수 있다(마스터 역할은 소프트웨어로 구성됨).

도 11에 제시된 집합 로직(40)은 단지 하나의 예임에 유의해야 한다. 또 하나의 다른 등가적 예에서, AND는 OR로 대체될 수 있고, 0 및 1의 해석은 반전될 수 있다((0→참(true), 1→거짓(false)). 등가적으로, 만약 AND 게이트가 OR 게이트로 대체되지만 퇴장 상태들의 해석이 반전되지 않는다면 그리고 재설정 값도 바뀌지 않는다면, $GC 내의 집합된 상태는 타일들 중 (모두가 아닌) 임의의 타일이 로컬로 집합된 상태 1을 갖고 퇴장했는지 여부를 기록할 것이다. 또 하나의 다른 예에서, 글로벌 퇴장 상태($GC)는 삼중 상태를 나타내는 두 개의 비트들을 포함할 수 있는데, 여기서 삼중 상태는, 모든 타일들의 로컬로 집합된 퇴장 상태들($LC)이 상태 1이었음, 모든 타일들의 로컬로 집합된 퇴장 상태들($LC)이 상태 0이었음, 또는 모든 타일들의 로컬로 집합된 퇴장 상태들($LC)이 혼합되었음이다. 또 하나의 다른 더 복잡한 예로서, 타일들(4)의 로컬 퇴장 상태들 및 글로벌하게 집합된 퇴장 상태는 각각 둘 이상의 비트들을 포함할 수 있고, 이것은 예를 들어, 타일들(4)의 결과들에서의 신뢰도를 나타내기 위해 사용될 수 있다. 예를 들어, 각각의 개별 타일의 로컬로 집합된 퇴장 상태($LC)는 각각의 타일(4)의 결과에서의 신뢰도의 통계적 확률적 척도(statistical, probabilistic measure)를 나타낼 수 있고, 그리고 글로벌 집합 로직(40)은 개별 신뢰도 레벨들의 통계적 집합을 하드웨어로 수행하기 위한 더 복잡한 회로로 대체될 수 있다.

이전에 언급된 바와 같이, 실시예들에서, 칩(2)의 복수의 인스턴스들은 복수의 칩들(2)에 걸쳐 타일들(4)의 훨씬 더 큰 어레이를 형성하도록 함께 연결될 수 있다. 이것이 도 12에서 예시된다. 칩들(2) 중 일부 혹은 모두는 동일한 IC 패키지 상에서 구현될 수 있고, 또는 칩들(2) 중 일부 혹은 모두는 상이한 IC 패키지들 상에서 구현될 수 있다. 칩들(2)은 (도 7에서 제시된 외부 링크들(8)을 통해) 외부 상호연결(72)에 의해 함께 연결된다. 상이한 칩들 상의 타일들(4) 간에 데이터를 교환하는 통로(conduit)를 제공하는 것뿐만 아니라, 외부 교환 주변기(external exchange peripheral)(72)는 또한 상이한 칩들(2) 상의 타일들(4) 간에 배리어 동기화를 수행하기 위한 아울러 상이한 칩들(2) 상의 타일들(4)의 로컬 퇴장 상태들을 집합하기 위한 하드웨어 지원(hardware support)을 제공한다.

실시예들에서, SYNC(동기화) 명령은 외부 동기화(external synchronization), 즉 칩-간 동기화(inter-chip synchronization)를 특정하기 위해 자신의 모드 피연산자(mode operand)의 적어도 하나의 다른 가능한 값을 취할 수 있다(SYNC zone_n, 여기서 zone_n은 외부 싱크 구역(external sync zone)을 나타냄). 외부 상호연결(72)은 도 11과 관련하여 설명된 것과 유사한 하드웨어 로직을 포함하는데, 하지만 외부 칩-간 스케일(external, inter-chip scale)을 갖는 하드웨어 로직을 포함한다. SYNC(동기화) 명령이 그 피연산자에서 특정된 둘 이상의 칩들(2)의 외부 싱크 구역을 갖고 실행될 때, 이것은 외부 상호연결(72) 내의 로직으로 하여금 내부 상호연결(34)과 관련하여 설명된 것과 유사한 방식으로 동작하도록 하지만, 그 특정된 싱크 구역 내의 복수의 상이한 칩들(2) 상의 타일들(4)에 걸쳐 동작하도록 한다.

즉, 외부 SYNC(동기화)에 응답하여, 감독자 명령 발행은 외부 싱크 구역 내의 모든 칩들(2) 상의 모든 타일들(4)이 자신들의 계산 국면(52)을 완료했고 싱크 요청을 제출했을 때까지 중지된다. 더욱이, 외부 상호연결(72) 내의 로직은 해당 구역 내의 복수의 칩들(2)에 걸쳐 모든 이러한 타일들(4)의 로컬 퇴장 상태들을 집합한다. 외부 싱크 구역 내의 모든 타일들(4)이 싱크 요청을 했었던 경우, 외부 상호연결(72)은 타일들(4)에게 역으로 싱크 확인응답을 시그널링하고, 칩-교차 글로벌 집합 퇴장 상태(cross-chip global aggregate exit state)를 해당하는 모든 타일들(4)의 글로벌 컨센서스 레지스터들($GC)(42)에 저장한다. 싱크 확인응답에 응답하여, 구역 내의 모든 칩들(2) 상의 타일들(4)은 감독자에 대한 명령 발행을 재개한다.

실시예들에서, 상호연결(72)의 기능은 칩들(2) 내에 구현될 수 있는데, 즉, 이러한 로직은 칩들 간에 오로지 배선된 상호연결들이 요구되도록 칩들(2) 간에 분배(distribute)될 수 있다(도 11 및 도 12는 개략적인 것임).

언급된 싱크 구역 내의 모든 타일들(4)은 이들 각각의 SYNC(동기화) 명령들의 모드 피연산자를 통해 동일한 싱크 구역을 표시하도록 프로그래밍된다. 실시예들에서, 외부 상호연결(72) 주변기(peripheral) 내의 싱크 로직은, 만약 프로그래밍 에러 혹은 다른 에러(예컨대, 메모리 패리티 에러(memory parity error))로 인해 해당 경우가 일어나지 않는다면 일부 혹은 모든 타일들(4)은 확인응답을 수신하지 않을 것이고, 따라서 시스템은 다음 외부 배리어(external barrier)에서 정지하게 될 것이며, 이에 따라 관리하는 외부 CPU(예를 들어, 호스트)로 하여금 디버그(debug) 혹은 시스템 복원(system recovery)을 위해 개입(intervene)할 수 있게 하도록 구성된다. 다른 실시예들에서, 에러는 싱크 구역들이 일치하지 않는 경우에 일어난다. 하지만, 바람직하게는, 컴파일러(compiler)는 동일한 구역 내의 타일들이 모두 그 관련된 시간에서 동일한 올바른 싱크 구역을 표시하는 것을 보장하도록 구성된다.

도 13은 내부(칩-상) 및 외부(칩-간) 동기화들을 모두 수반하는 예시적인 BSP 프로그램 흐름을 나타낸다. 보여지는 바와 같이, (동일한 칩(2) 상의 타일들(4) 간의 데이터의) 내부 교환들(50)을 (상이한 칩들(2) 상의 타일들(4) 간의 데이터의) 외부 교환들(50')로부터 분리된 상태로 유지시키는 것이 바람직하다. 이렇게 하는 한 가지 이유는, 글로벌 싱크(global sync)에 의해 구분(demarcate)되어 지는 복수의 칩들에 걸친 글로벌 교환(global exchange)은 단지 칩-상 동기화 및 교환만이 수행되는 경우보다 대기시간 및 부하-균등화 복잡도(load-balancing complexity) 측면에서 더 "고비용(expensive)"일 수 있다는 것이다. 또 하나의 다른 가능한 이유는, 내부(칩-상) 상호연결(34)을 통한 데이터의 교환은 시간 결정적(time deterministic)으로 수행될 수 있는 반면, 실시예들에서 외부 상호연결(72)을 통한 데이터의 교환은 비-시간-결정적(non-time-deterministic)일 수 있다는 것이다. 이러한 시나리오들에서, 외부 싱크 & 교환 프로세스가 내부 싱크 & 교환을 "오염(contaminate)"시키지 않도록 내부 교환과 외부 교환을 분리시키는 것이 유용할 수 있다.

이에 따라, 이러한 분리를 달성하기 위해, 실시예들에서, 프로그램은, 동기화들, 교환 국면들, 및 계산 국면들의 시퀀스를 수행하도록 되어 있고, 이러한 동기화들, 교환 국면들, 및 계산 국면들의 시퀀스는, 다음과 같은 순서에서, (i) 제 1 계산 국면, 그 다음에 (ii) 내부 배리어 동기화(30), 그 다음에 (iii) 내부 교환 국면(50), 그 다음에 (iv) 외부 배리어 동기화(80), 그 다음에 (v) 외부 교환 국면(50')을 포함한다. 도 13에서 칩(2II)을 참조하기 바란다. 외부 배리어(80)는 내부 교환 국면(50) 이후 부과되고, 이에 따라 프로그램은 단지 내부 교환(50) 이후에만 외부 교환(50')으로 진행하게 된다. 또한 유의해야 하는 것으로, 도 12에서의 칩(2I)에 관하여 보여지는 바와 같이, 선택에 따라서, 계산 국면은 내부 교환(iii)과 외부 배리어(iv) 사이에 포함될 수 있다. 전체 시퀀스는 (예를 들어, 컴파일러에 의해 그렇게 생성되는) 프로그램에 의해 실시되고, 내부 동기화 및 교환은 또 하나의 다른 칩(2) 상의 임의의 타일들 혹은 다른 엔티티(entity)들로 확장되지 않는다. (앞서 언급된 iii과 iv 사이에 선택적인 계산 국면을 갖는) 시퀀스 (i)-(v)는 일련의 전체 반복에서 되풀이될 수 있다. 반복마다, 외부 싱크 & 교환 전에 내부 계산, 싱크 및 교환 (i)-(iii)의 복수의 인스턴스들이 존재할 수 있다.

유의해야 하는 것으로, 외부 교환(50) 동안, 통신들은 오로지 외부로만 한정되지 않는데, 일부 타일들은 단지 내부 교환들을 수행할 수 있고, 일부는 단지 외부 교환들을 수행할 수 있으며, 일부는 혼합된 형태를 수행할 수 있다. 또한 유의해야 하는 것으로, 도 13에서 보여지는 바와 같이, 임의의 주어진 BSP 수퍼스텝에서 널 계산 국면(null compute phase)(52) 혹은 널 교환 국면(null exchange phase)(50)을 갖는 것이 일반적으로 가능하다.

일부 실시예들에서, 도 13에서 또한 보여지는 바와 같이, 일부 타일들(4)은 계산 국면 동안 로컬 입력/출력을 수행할 수 있는데, 예를 들어, 이들은 호스트와 데이터를 교환할 수 있다.

도 14에서 예시되는 바와 같이, 실시예들에서, SYNC(동기화) 명령의 모드는 복수의 서로 다른 가능한 외부 싱크 구역들 중 하나(예를 들어, zone_1 혹은 zone_2)를 특정하기 위해 사용될 수 있다. 실시예들에서, 이러한 것들은 상이한 계층적 레벨들에 대응한다. 즉, 각각의 상위 계층적 레벨(92)(예를 들어, 구역 2)은 적어도 하나의 하위 계층적 레벨의 둘 이상의 구역들(91A, 91B)을 포괄(encompass)한다. 실시예들에서는, 단지 두 개의 계층적 레벨들이 존재하지만, 더 많은 수의 내포된 레벨(nested level)들이 배제되지 않는다. 만약 SYNC(동기화) 명령의 피연산자가 외부 싱크 구역의 하위 계층적 레벨로 설정된다면(SYNC zone_1), 앞서-설명된 싱크 및 집합 동작들은, 단지 SYNC(동기화)가 실행된 타일들과 동일한 하위-레벨 외부 싱크 구역 내의 칩들(2) 상의 타일들(4)과 관련하여서만 수행된다. 반면, 만약 SYNC(동기화) 명령의 피연산자가 외부 싱크 구역의 상위 계층적 레벨로 설정된다면(SYNC zone_2), 앞서-설명된 싱크 및 집합 동작들은, SYNC(동기화)가 실행된 타일들과 동일한 상위-레벨 외부 싱크 구역 내의 모든 칩들(2) 상의 모든 타일들과 관련하여서 자동적으로 수행된다. 실시예들에서, 싱크 구역의 최상위 계층적 레벨은 모든 칩들을 포괄하는데, 즉 이것은 글로벌 싱크를 수행하는데 사용된다. 복수의 하위-레벨 구역들이 사용될 때, BSP는 각각의 구역 내의 칩(들)(2) 상의 해당 그룹의 타일들(4) 간에 내부적으로 부과될 수 있지만, 각각의 구역은 글로벌 싱크가 수행될 때까지 서로에 대해 비동기적으로 동작할 수 있다.

유의해야 하는 것으로, 다른 실시예들에서, SYNC(동기화) 명령의 모드에 의해 특정될 수 있는 싱크 구역들은 본질적으로 계층적인 것에 한정되지 않는다. 일반적으로, SYNC(동기화) 명령에는 임의 종류의 그룹화에 대응하는 모드들이 제공될 수 있다. 예컨대, 모드들은 단지 비-계층적 그룹들 중에서 선택을 행하게 할 수 있고, 또는 계층적 그룹화들과 하나 이상의 비-계층적 그룹들의 혼합(여기서 적어도 하나의 그룹은 또 하나의 다른 것에 전체적으로 내포되지 않음) 중에서 선택을 행하게 할 수 있다. 유리한 것으로, 이것은 프로그래머 혹은 컴파일러가 최소의 코드 밀도(code density)로 서로에 대해 비동기적인 내부적으로-동기화된 그룹들의 상이한 레이아웃들 중에서 선택을 하는 유연성(flexibility)을 가능하게 한다.

선택된 싱크 그룹(91, 92) 간의 동기화를 구현하기 위한 예시적 메커니즘이 도 16에서 예시된다. 예시된 바와 같이, 외부 상호연결(72) 내의 외부 싱크 로직(76)은 각각의 칩(2)과 관련된 각각의 싱크 블록(sync block)(95)을 포함한다. 각각의 싱크 블록(95)은 각각의 게이팅 로직(gating logic) 및 각각의 싱크 집합기(sync aggregator)를 포함한다. 게이팅 로직은, 동기화 및 퇴장 상태 집합을 목적으로 데이지 체인 토폴로지(daisy chain topology)로 칩들(2)을 함께 연결함과 아울러 다음에 설명되는 것에 따라 싱크 및 퇴장 상태 정보를 전파(propagates)하는 하드웨어 회로를 포함한다. 싱크 집합기는, 다음에 설명되는 것에 따라 동기화 요청들(sync_req) 및 퇴장 상태들을 집합하도록 되어 있는 하드웨어 회로를 포함한다.

각각의 칩(2)과 관련된 각각의 싱크 블록(95)은 그 각각의 칩(2)에 연결되어, 해당 칩(2)에 의해 일어난 싱크 요청(Sync_req) 및 해당 칩(2)의 퇴장 상태를 검출할 수 있게 되고, 그리고 이에 따라 싱크 확인응답(Sync_ack) 및 글로벌 퇴장 상태를 각각의 칩(2)에게 반환할 수 있게 된다. 각각의 칩(2)과 관련된 각각의 싱크 블록(95)은 또한, 한 묶음(bundle)의 네 개의 싱크 배선(sync wire)들(96)을 포함하는 외부 싱크 인터페이스(external sync interface)를 통해, 칩들(2) 중 적어도 하나의 다른 칩(2)의 싱크 블록(95)에 연결되는데, 이에 관한 세부설명은 곧 더 상세하게 논의될 것이다. 이것은 칩-대-칩 링크(chip-to-chip link)들(8) 중 하나의 링크의 일부일 수 있다. 상이한 카드들 상의 칩들(2) 간의 링크인 경우, 인터페이스(8)는 예를 들어, PCI 인터페이스를 포함할 수 있고, 네 개의 싱크 배선들(96)은 PCI 인터페이스의 네 개의 배선들을 재-사용함으로써 구현될 수 있다. 칩들의 싱크 블록들(95) 중 일부는 두 개의 인접하는 칩들(2)의 싱크 블록에 연결되고, 각각의 연결은 네 개의 싱크 배선들(96)의 각각의 인스턴스를 통해 이루어진다. 이러한 방식으로, 칩들(2)은 자신들의 싱크 블록들(95)을 통해 하나 이상의 데이지 체인들로 연결될 수 있다. 이것은 싱크 요청들, 싱크 확인응답들, 퇴장 상태들의 현행 집합체들, 및 글로벌 퇴장 상태들이 체인 위로 그리고 아래로 전파될 수 있게 한다.

동작시, 각각의 싱크 그룹(91, 92)에 대해, 해당 그룹 내의 칩들(2) 중 하나와 관련된 싱크 블록(95)은 동기화 및 퇴장 상태 집합 목적들을 위해 마스터로서 설정되고, 그룹 내의 나머지는 이러한 목적을 위해 슬레이브들이 된다. 슬레이브 싱크 블록들(95) 각각은 각각의 싱크 그룹(91, 92)에 대해 싱크 요청들, 싱크 확인응답들, 및 퇴장 상태들을 전파할 필요가 있는 방향(예를 들어, 좌측 혹은 우측)(즉, 마스터를 향하는 방향)으로 구성된다. 실시예들에서, 이러한 설정(setting)들은 소프트웨어에 의해 구성가능한데, 예를 들어, 초기 구성 국면(configuration phase)에서 구성가능하고, 이후 해당 구성은 시스템의 후속 동작 동안 설정된 상태로 유지된다. 예컨대, 이것은 호스트 프로세서에 의해 구성될 수 있다. 대안적으로, 이러한 구성이 고정-배선으로 연결될 수 있는 것이 배제되지 않는다. 어느 경우에서건, 상이한 싱크 그룹들(91, 92)은 상이한 마스터들을 가질 수 있고, 그리고 일반적으로, 주어진 칩(2)(혹은 오히려 그 싱크 블록(95))이 하나의 그룹의 마스터가 되는 것(멤버(member)가 되는 또 하나의 다른 그룹은 안됨), 또는 복수의 그룹들의 마스터가 되는 것이 가능하다.

예컨대, 예시적으로, 도 16의 예시적 시나리오를 고려한다. 예시적으로 말하면, 칩(2IV)의 싱크 블록(95)은 주어진 싱크 그룹(91A)의 마스터로서 설정된다. 이제, 칩들(2)의 체인 내에서 첫 번째 칩(2I)이 이들의 싱크 블록들(95) 및 배선들(96)을 통해 궁극적으로 칩(2IV)에 연결된다고 고려한다. 첫 번째 칩(2I) 상에서의 현재 계산 국면의 모든 작업자 쓰레드들이 EXIT(퇴장) 명령을 실행했던 경우, 그리고 모든 (참여) 타일들(4) 상에서의 감독자들이 모두 싱크 그룹(91A)을 특정하는 SYNC(동기화) 명령을 실행했던 경우, 첫 번째 칩(2I)은 자신의 싱크 준비(sync readiness)를 그 각각의 관련된 싱크 블록(95)에 시그널링한다. 칩(2I)은 또한 그 각각의 싱크 블록(95)에게 자신의 칩-레벨 집합된 퇴장 상태(각각의 칩(2I) 상의 모든 참여 타일들 상에서의 모든 퇴장한 작업자들의 집합체)를 출력한다. 이에 응답하여, 첫 번째 칩(2I)의 싱크 블록(95)은 싱크 요청(Sync_req)을 체인 내의 다음 칩(2II)의 싱크 블록(95)으로 전파한다. 첫 번째 칩(2I)의 싱크 블록(95)은 또한, 첫 번째 칩(2I)의 퇴장 상태를 이러한 다음 칩(2II)의 싱크 블록(95)으로 전파한다. 이러한 두 번째 칩(2II)의 싱크 블록(95)은 자기 자신의 (참여) 타일들(4)의 감독자들이 모두 싱크 그룹(91A)을 특정하는 SYNC(동기화) 명령을 실행했을 때(이것은 두 번째 칩(2II)이 싱크 준비를 시그널링하도록 함)까지 기다린다. 오로지 그런 다음에만, 두 번째 칩의 싱크 블록(95)은 싱크 요청을 체인 내의 다음 (세 번째) 칩(2III)의 싱크 블록(95)으로 전파하고, 그리고 또한 첫 번째 칩(2I)의 퇴장 상태와 두 번째 칩(2II)의 퇴장 상태의 현행 집합체를 전파한다. 만약 두 번째 칩(2II)이 첫 번째 칩(2I) 이전에 싱크 준비가 되었다면, 두 번째 칩(2II)의 싱크 블록(95)은, 세 번째 칩(2III)의 싱크 블록(95)으로 싱크 요청을 전파하기 전에, 첫 번째 칩(2I)이 싱크 요청을 시그널링하는 것을 기다리게 될 것이다. 세 번째 칩(2III)의 싱크 블록(95)은 유사한 방식으로 행동하며, 이번에는 두 번째 칩(2II)으로부터의 현행 집합 퇴장 상태를 집합하여 계속해서 전달할 다음 현행 집합체를 획득하는 것 등을 수행한다. 이것은 마스터 싱크 블록(본 예에서는 칩(2IV)의 싱크 블록)을 향해 계속된다.

그 다음에 마스터의 싱크 블록(95)은 자신이 수신한 현행 집합체 및 자기 자신의 칩(2IV)의 퇴장 상태에 근거하여 모든 퇴장 상태들의 글로벌 집합체를 결정한다. 마스터의 싱크 블록(95)은 이러한 글로벌 집합체를 싱크 확인응답(Sync_ack)과 함께 모든 칩들(2)에게 체인을 따라 역으로 전파한다.

만약 마스터가 앞서의 예에서와 같이 하나의 말단에 있는 것과는 상반되게 체인을 따라 그 중간에 있다면, 싱크 및 퇴장 상태 정보는 마스터의 양쪽 측면에서 반대 방향을 전파되는데, 그 양쪽은 모두 마스터를 향하고 있다. 이러한 경우에, 마스터는 단지 양쪽 모두로부터의 싱크 요청이 수신되었을 경우에 싱크 확인응답 및 글로벌 퇴장 상태를 발행한다. 예를 들어, 칩(2III)이 그룹(92)의 마스터인 경우를 고려한다. 더욱이, 실시예들에서, 칩들(2) 중 일부의 싱크 블록(95)은 셋 이상의 다른 칩들(2)의 싱크 블록(95)에 연결될 수 있고, 따라서 마스터를 향하는 체인들의 복수의 분기들을 생성할 수 있다. 그 다음에 각각의 체인은 앞서 설명된 바와 같이 행동하고, 마스터는 단지 모든 체인들로부터의 싱크 요청이 수신되었을 경우에 싱크 확인응답 및 글로벌 퇴장 상태를 발행한다. 그리고/또는, 칩들(2) 중 하나 이상은 호스트 프로세서, 네트워크 카드, 저장 디바이스 혹은 FPGA와 같은 외부 리소스에 연결될 수 있다.

실시예들에서, 싱크 및 퇴장 상태 정보의 시그널링은 다음과 같이 구현된다. 칩들(2)로 이루어진 각각의 쌍(pair)의 칩들 간의 한 묶음의 네 개의 싱크 배선들(96)은 두 쌍의 배선들을 포함하는데, 첫 번째 쌍(96_0) 및 두 번째 쌍(96_1)을 포함한다. 각각의 쌍은 싱크 요청 배선의 인스턴스 및 싱크 확인응답 배선의 인스턴스를 포함한다. 값이 0인 현행 집합 퇴장 상태를 시그널링하기 위해, 송신 칩(sending chip)(2)의 싱크 블록(95)은 싱크 요청(sync_req)을 시그널링할 때 첫 번째 배선 쌍(96_0)의 싱크 요청 배선을 사용하고, 또는 값이 1인 현행 집합체를 시그널링하기 위해, 싱크 블록(95)은 싱크 요청을 시그널링할 때 두 번째 배선 쌍(96_1)의 싱크 요청 배선을 사용한다. 값이 0인 글로벌 집합 퇴장 상태를 시그널링하기 위해, 송신 칩(2)의 싱크 블록(95)은 싱크 확인응답(sync_ack)을 시그널링할 때 첫 번째 배선 쌍(96_0)의 싱크 확인응답 배선을 사용하고, 또는 값이 1인 글로벌 집합체를 시그널링하기 위해, 싱크 블록(95)은 싱크 확인응답을 시그널링할 때 두 번째 배선 쌍(96_1)의 싱크 요청 배선을 사용한다.

앞서의 설명은 단지 싱크 및 퇴장 상태 정보를 전파하기 위한 메커니즘이라는 것에 유의해야 한다. 실제 데이터(콘텐츠)는 예를 들어, 도 16을 참조하여 이후 논의되는 바와 같이, 또 하나의 다른 채널(channel)에 의해 전송된다. 더욱이, 이것은 단지 하나의 예시적 구현이고 숙련된 사람은 개시된 동기화 및 집합 기능을 구현하기 위한 다른 회로들을, 본 명세서에서 개시되는 해당 기능의 사양이 주어지면, 구축할 수 있을 것임이 이해될 것이다. 예컨대, 동기화 로직(도 18에서 도면번호 95)은 대신, 전용 배선에 대한 대안으로서 상호연결(34, 72)을 통해 운반(carry)되는 패킷(packet)들을 사용할 수 있다. 예를 들어, sync_req 및/또는 sync_ack은 각각 하나 이상의 패킷들의 형태로 전송될 수 있다.

서로 다른 가능한 모드들에서의 SYNC(동기화) 명령의 기능은 아래와 같이 요약(summarize)된다.

SYNC tile(타일)(로컬 타일-상 배리어 동기화를 수행함)

감독자 실행 모드는 실행하는 것으로부터 작업자들이 퇴장하는 것을 기다리는 것으로 전이함

모든 작업자 쓰레드들이 비활성화 상태가 될 때까지 감독자 쓰레드에 대한 명령 발행을 보류함

모든 작업자 쓰레드들이 비활성화 상태가 될 때, 집합된 작업자 퇴장 상태는 로컬 컨센서스 레지스터($LC)(38)를 통해 이용가능하게 됨.

SYNC chip(칩)(내부 칩-상 배리어 동기화를 수행함)

모든 작업자 쓰레드들이 비활성화 상태가 될 때,

- 집합된 로컬 작업자 퇴장 상태는 로컬 컨센서스 레지스터($LC)(38)를 통해 이용가능하게 됨

- 내부 싱크 참여가 교환 패브릭(34)으로 시그널링됨

- 타일(4)이 교환 패브릭(34)으로부터 내부 싱크 확인응답을 수신할 때까지 감독자는 비활성화 상태로 유지됨

- 글로벌 컨센서스 레지스터($GC)(42) 내에서 시스템-전체 퇴장 상태(system-wide exit status)가 업데이트됨.

SYNC zone_n(구역 n에 걸쳐 외부 배리어 동기화를 수행함)

모든 작업자 쓰레드들이 비활성화 상태가 될 때,

- 외부 싱크 참여가 외부 시스템, 예를 들어, 앞서 언급된 외부 상호연결(72) 내의 싱크 로직으로 시그널링됨

- 타일(4)이 외부 시스템(72)으로부터 외부 싱크 확인응답을 수신할 때까지 감독자는 보류된 상태로 유지됨

- 글로벌 컨센서스 레지스터($GC)(42) 내에서 시스템-전체 퇴장 상태가 업데이트됨.

이전에 언급된 바와 같이, 모든 타일들(4)이 동기화에 반드시 참여할 필요는 없다. 실시예들에서, 논의된 바와 같이, 참여 타일들의 그룹이 싱크 명령의 모드 피연산자에 의해 설정될 수 있다. 하지만, 이것은 단지 타일들의 미리정의된 그룹들의 선택만을 가능하게 한다. 타일에 기반하여 타일별로 싱크 참여를 선택할 수 있는 것이 또한 바람직함이 본 명세서에서 인식된다. 따라서, 본 개시내용에 따르면, 어떤 개별 타일들(4)이 배리어 동기화에 참여할 것인지를 선택하기 위한 대안적인 혹은 추가적인 메커니즘이 제공된다.

특히, 이것은 SYNC(동기화) 명령 대신에 하나 혹은 일부 타일들(4)에 의해 실행될, 프로세서 명령 세트 내의 명령의 추가적인 타입을 제공함으로써 달성된다. 이러한 명령은 "기권(abstain)" 명령으로서 지칭될 수 있거나, 혹은 "SANS(Start Automatic Non-participatory Sync; 자동적 비-참여 동기화 시작)" 명령으로서 지칭될 수 있다. 실시예들에서, SANS(자동적 비-참여 동기화 시작)는 감독자 쓰레드에 의한 사용을 위해 예약된다. 실시예들에서, 이것은 단일의 즉시 피연산자(immediate operand)를 취한다.

SANS n_barriers

SANS(자동적 비-참여 동기화 시작) 명령의 행동은 자신이 실행되는 타일이 현재 배리어 동기화로부터 기권하도록 하는 것인데, 하지만 특정된 싱크 그룹 내의 모든 타일들이 SYNC(동기화)를 행할 것을 기다리고 있는 다른 타일들을 지체(holding up)시킴 없이 기권하도록 하는 것이다. 사실상, 이것은 "나 없이 계속 해라(go on without me)"를 말한다. SANS(자동적 비-참여 동기화 시작) 명령이 실행될 때, SANS(자동적 비-참여 동기화 시작) 명령의 연산코드는 실행 스테이지(18)의 실행 유닛 내의 로직을 트리거하여 (모드에 따라) 내부 및/또는 외부 싱크 제어기(36, 76)로 동기화 요청 신호(Sync_req)의 인스턴스를 전송하도록 한다. 실시예들에서, SANS(자동적 비-참여 동기화 시작)에 의해 발생된 싱크 요청은 SANS(자동적 비-참여 동기화 시작)를 실행한 타일(4)을 포괄하는 임의의 싱크 그룹(91, 92)에 적용된다. 즉, 이러한 로컬 칩 혹은 칩들 내의 타일들(4)이 다음에 어떤 싱크 그룹을 사용하고 있든 그 싱크 그룹에 대해(이들은 싱크 그룹에 동의해야만 함), SANS(자동적 비-참여 동기화 시작)를 실행했던 것들로부터의 sync_req은 언제나 유효(valid)할 것이다.

따라서, 싱크 제어기 로직(36, 76) 및 싱크 그룹 내의 다른 타일들(4)의 관점에서 보면, SANS(자동적 비-참여 동기화 시작) 명령을 실행하는 타일(4)은 SYNC(동기화) 명령을 실행한 타일(4)로서 정확히 나타나지만 싱크 배리어를 지체시키지 않으며 싱크 로직(36, 76)으로부터의 싱크 확인응답 신호(Sync_ack)의 전송을 지체시키지 않는다. 즉, SYNC(동기화) 대신 SANS(자동적 비-참여 동기화 시작)를 실행하는 타일들(4)은, 만약 그렇지 않았다면 해당하는 타일을 멤버로 갖게 되는 임의의 싱크 그룹에 포함된 다른 타일들(4) 중 어느 것도 지체시키지 않으며 또는 교착 상태에 있게 하지 않는다. SANS(자동적 비-참여 동기화 시작)에 의해 수행되는 임의의 핸드쉐이크(handshake)는 모든 싱크 그룹들(91, 92)에 대해 유효하다.

하지만, SYNC(동기화) 명령과는 달리, SANS(자동적 비-참여 동기화 시작) 명령은 감독자 명령 발행이 싱크 로직(36, 72)으로부터 싱크 확인응답 신호(Sync_ack)를 기다리면서 중지되도록 하지 않는다. 대신, 각각의 타일은 SYNC(동기화) 명령들을 실행한 다른 타일들(4) 간에 수행되고 있는 현재 배리어 동기화에 의해 제약을 받지 않은 채 단순히 계속 진행할 수 있다. 따라서, 싱크를 모방(mimicking)하지만 기다리지는 않음으로써, SANS(자동적 비-참여 동기화 시작) 명령은 해당 타일(4)이 하나 이상의 태스크들을 프로세싱하는 것을 강행할 수 있게 하고, 반면 다른 타일들(4)은 여전히 동기화를 수행할 수 있게 한다.

피연산자 n_barriers는 "포스팅된(posted)" 싱크들의 수를 특정하는데, 즉, 타일이 참여하지 않을 장래 싱크 포인트들(배리어들)의 수를 특정한다. 대안적으로, 다른 실시예들에서, SANS(자동적 비-참여 동기화 시작) 명령이 이러한 피연산자를 취하지는 않고 대신 SANS(자동적 비-참여 동기화 시작) 명령의 각각의 실행이 단지 일회성 기권(one-off abstention)을 유발시키는 것이 배제되지 않는다.

SANS(자동적 비-참여 동기화 시작) 명령에 의해, 특정 타일들(4)은 BSP 동작 스케줄의 직접적인 범위 밖에서 태스크들을 수행할 책임을 가질 수 있다. 예를 들어, 칩(2) 내의 작은 개수의 타일들(4)을 호스트 메모리로의 데이터 전송들 및/또는 호스트 메모리로부터의 데이터 전송들을 개시(및 프로세싱)하도록 할당하고 반면 대다수의 타일들(4)은 일차 계산 태스크(primary computation task)(들)로 점유되어 있게 하는 것이 바람직할 수 있다. 이러한 시나리오들에서, 일차 계산과 직접적으로 관련되어 있지 않은 그러한 타일들(4)은 자동적 비-참여 동기화 특징(SANS)을 사용하여 임의 기간 동안 동기화 메커니즘으로부터 효과적으로 분리되어 있는 것으로서 자신들을 선언할 수 있다. 이러한 특징을 사용할 때, 타일(4)은 능동적으로(즉, SYNC(동기화) 명령의 실행을 통해) 동기화(동기화 구역들 중 임의의 동기화 구역에 대한 동기화)를 위한 자신의 준비를 시그널링할 것을 요구받지 않고, 그리고 실시예들에서, 이러한 타일(4)은 집합된 퇴장 상태에 아무런 기여도 하지 않는다.

SANS(자동적 비-참여 동기화 시작) 명령은 자신이 실행된 타일(4)이 타일-간 동기화(혹은 만약 다른 외부 리소스들이 또한 동기화에 관여되어 있다면 그 다른 외부 리소스들과의 동기화)에 능동적으로 참여하는 것으로부터 기권할 기간(period)을 시작하거나 혹은 연장한다. 이러한 기간 동안, 이러한 타일(4)은, 모든 구역들 내에서, 동기화를 위한 자신의 준비를 자동적으로 시그널링할 것이고, 그리고 실시예들에서, 이러한 타일(4)은 또한 글로벌 집합된 컨센서스($GC)에 아무런 기여도 하지 않는다. 이러한 시간 기간은 얼마나 많은 추가적 장래 동기화 포인트들이 이러한 타일(4)에 의해 자동적으로 시그널링될 것인지를 표시하는 무부호 즉시 피연산자(unsigned immediate operand)(n_barriers)로서 표현될 수 있다. SANS(자동적 비-참여 동기화 시작)의 실행시, 이것의 피연산자에 의해 특정된 값 n_barriers는 각각의 타일(4) 상에서 카운트다운 레지스터(countdown register)($ANS_DCOUNT) 내에 놓인다. 이것은 얼마나 많은 추가적인 장래 sync_req들이 생성돼야만 하는지를 추적하기 위해 사용되는 아키텍처 상태(architectural state)의 단편이다. 만약 자동적 비-참여 싱크 메커니즘이 현재 비활성(inactive) 상태라면, 준비의 첫 번째 어써션(assertion)(sync request, sync_req)이 즉시 수행될 것이다. 이전의 동기화가 완료되었을 경우(즉, 싱크 확인응답(sync_ack)의 어써션 이후에 이전의 동기화가 완료되었을 경우), 후속 어써션들이 배경에서 일어날 것이다. 만약 자동적 비-참여 싱크 메커니즘이 현재 활성(active) 상태라면, 카운트다운 카운터 레지스터($ANS_DCOUNT)는 자동화된 방식으로 업데이트될 것이고, 이에 따라 어떠한 싱크 확인응답 신호도 해명되지 않은 채 남지 않게 된다. 자동적 비-참여 싱크 메커니즘은 전용 하드웨어 로직으로 구현되는데, 바람직하게는 각각의 타일(4) 내에서 그 인스턴스로 구현되며, 하지만 다른 실시예들에서, 이것은 대신 타일들 혹은 모드 타일들의 그룹에 대해 중심적으로(centrally) 구현될 수 있음이 배제되지 않는다.

퇴장 상태 행동에 관하여, 구현에 따라 실제로 다수의 가능예들이 존재한다. 실시예들에서, 글로벌하게 집합된 퇴장 상태를 획득하기 위해, 싱크 로직(36, 76)은 SYNC(동기화) 명령을 실행한 특정된 싱크 그룹 내의 그러한 타일들(4)로부터의 로컬 퇴장 상태들만을 집합하고, SANS(자동적 비-참여 동기화 시작) 명령을 실행한 그러한 것/것들(기권 타일 혹은 타일들)로부터는 집합을 수행하지 않는다. 대안적으로, 글로벌하게 집합된 퇴장 상태는 SYNC(동기화)을 실행한 싱크 그룹 내의 모든 타일들(4) 및 SANS(자동적 비-참여 동기화 시작)를 실행한 것들(참여 및 기권 타일들(4) 양쪽 모두)로부터의 로컬 퇴장 상태들을 집합함으로써 획득된다. 후자의 경우에, 글로벌 집합체에 대해 기권 타일(들)(4)에 의해 출력된 로컬 퇴장 상태는, 단지 SYNC(동기화) 명령과 같이, SANS(자동적 비-참여 동기화 시작)를 실행한 시간에 해당 타일의 작업자들의 실제 로컬로 집합된 퇴장 상태일 수 있다(로컬 컨센서스 레지스터($LC)(38)의 설명 참조). 대안적으로, 기권 타일(4)에 의해 출력된 로컬 "퇴장 상태"는 디폴트 값(default value)일 수 있는데, 예컨대, 퇴장 상태가 바이너리인 실시예들에서, 참인 값(예를 들어, 로직 1)일 수 있다. 이것은, 임의의 거짓 로컬 퇴장 상태가 글로벌 퇴장 상태로 하여금 거짓이 되도록 하는 실시예들에서, 기권 타일(4)이 글로벌 퇴장 상태를 간섭하는 것을 방지한다.

글로벌 퇴장 상태의 반환에 관하여, 이에 대한 두 개의 가능예들이 존재하는데, 기권 타일이 글로벌 집합체를 생성하기 위해 로컬 퇴장 상태를 제출하는지 혹은 제출하지 않은지 여부에 상관없이, 그리고 해당 값이 실제 값인지 혹은 디폴트 값인지 여부에 상관없이, 두 개의 가능예들이 존재한다. 즉, 하나의 구현에서, 상호연결(34, 72) 내의 싱크 로직(36, 76)에 의해 생성된 글로벌 집합 퇴장 상태는 SYNC(동기화) 명령을 실행한 참여 타일들(4)의 글로벌 컨센서스 레지스터($GC)(42) 내에만 저장되고, 대신에 SANS(자동적 비-참여 동기화 시작) 명령을 실행한 기권 타일들(4)의 글로벌 컨센서스 레지스터($GC)(42) 내에는 저장되지 않는다. 실시예들에서, 대신, 디폴트 값은 SANS(자동적 비-참여 동기화 시작)를 실행한 타일(들)(4)(기권 타일들)의 글로벌 컨센서스 레지스터($GC)(42) 내에 저장된다. 예컨대, 이러한 디폴트 값은, 바이너리 글로벌 퇴장 상태의 경우에, 참일 수 있는데, 예를 들어, 로직 1일 수 있다. 하지만, 대안적 구현에서, 싱크 로직(36, 76)에 의해 생성된 실제 글로벌 집합체는 SYNC(동기화) 명령들을 실행한 참여 타일들(4) 및 대신 SANS(자동적 비-참여 동기화 시작) 명령을 실행한 기권 타일들(4) 양쪽 모두의 글로벌 컨센서스 레지스터들($GC)(42) 내에 저장된다. 따라서, 그룹 내의 모든 타일들은 여전히 글로벌하게 집합된 퇴장 상태에 액세스할 수 있다.

도 15는 본 명세서에서 개시되는 프로세서 아키텍처의 예시적 애플리케이션을 예시하는바, 즉, 머신 지능에 대한 애플리케이션을 예시한다.

본 발명의 머신 지능의 기술분야에서 숙련된 사람에게 친숙할 것인 바와 같이, 머신 지능은 머신 지능 알고리즘이 지식 모델을 학습하는 학습 스테이지로 시작한다. 이러한 모델은 상호연결된 노드(node)들(즉, 버텍스(vertex)들)(102) 및 에지(edge)들(즉, 링크(link)들)(104)의 그래프를 포함한다. 그래프 내의 각각의 노드(102)는 하나 이상의 입력 에지들 및 하나 이상의 출력 에지들을 갖는다. 노드들(102) 중 일부 노드들의 입력 에지들 중 일부는 노드들의 일부 다른 노드들의 출력 에지들이고, 그럼으로써 노드들이 함께 연결되어 그래프가 형성되게 된다. 더욱이, 노드들(102) 중 하나 이상의 노드들의 입력 에지들 중 하나 이상의 입력 에지들은 전체적으로 그래프에 대한 입력들을 형성하고, 노드들(102) 중 하나 이상의 노드들의 출력 에지들 중 하나 이상의 출력 에지들은 전체적으로 그래프의 출력들을 형성한다. 때때로 임의의 주어진 노드는 심지어 이러한 것들(그래프에 대한 입력들, 그래프로부터의 출력들, 및 다른 노드들에 대한 연결들)을 모두 가질 수 있다. 각각의 에지(104)는 임의의 값, 혹은 더 빈번하게 사용되는 용어로는, 텐서(tensor)(n-차원 매트릭스(n-dimensional matrix))를 전달하는데, 이러한 것들은 노드들(102)의 입력 및 출력 에지들 각각에서 노드들(102)에 제공되는 입력들 및 노드들(102)로부터 제공되는 출력들을 형성한다.

각각의 노드(102)는 자신의 입력 에지 혹은 에지들 상에서 입력되는 바와 같은 자신의 하나 이상의 입력들의 함수(function)를 나타내고, 이러한 함수의 결과는 출력 에지 혹은 에지들 상에서 제공되는 출력(들)이다. 각각의 함수는 하나 이상의 각각의 파라미터들(이것은 때때로 가중치(weight)들로서 지칭되는데, 하지만 이들이 반드시 증식적 가중치(multiplicative weight)들일 필요는 없음)에 의해 파라미터화된다. 일반적으로, 상이한 노드들(102)에 의해 나타내어지는 함수들은 함수의 상이한 형태들일 수 있고, 그리고/또는 상이한 파라미터들에 의해 파라미터화될 수 있다.

더욱이, 각각의 노드의 함수의 하나 이상의 파라미터들 각각은 각각의 에러 값(error value)에 의해 특징지어진다. 더욱이, 각각의 조건은 각각의 노드(102)의 파라미터(들)에서의 에러(들)와 관련될 수 있다. 단일의 파라미터에 의해 파라미터화된 함수를 나타내는 노드(102)에 대해, 조건은 단순히 임계치(threshold)일 수 있는데, 즉, 특정된 임계치 내에 에러가 있다면 조건은 충족되는 것이지만, 에러가 임계치를 넘어서면 조건은 충족되지 않는다. 하나보다 많은 각각의 파라미터에 의해 파라미터화된 노드(102)에 대해, 에러의 허용가능한 레벨에 도달했던 해당 노드(102)에 대한 조건은 더 복잡할 수 있다. 예를 들어, 해당 노드(102)의 파라미터들 각각이 각각의 임계치 내에 있는 경우에만 조건이 충족될 수 있다. 또 하나의 다른 예로서, 동일한 노드(102)에 대한 상이한 파라미터들에서의 에러들을 결합한 결합된 메트릭(combined metric)이 정의될 수 있고, 그 결합된 메트릭의 값이 임의의 특정된 임계치 내에 있는 조건이라면, 조건은 충족될 수 있고, 하지만 그렇지 않고 만약 그 결합된 메트릭의 값이 임계치를 넘어선다면, 조건은 충족되지 않는다(또는 메트릭의 정의에 따라 그 반대의 경우도 가능함). 조건이 무엇이든 간에, 이것은 노드의 파라미터(들)에서의 에러가 허용가능성(acceptability)의 특정 레벨 혹은 정도 아래로 떨어지는지 여부의 척도를 제공한다. 일반적으로, 임의의 적절한 메트릭이 사용될 수 있다. 조건 혹은 메트릭은 모든 노드들에 대해 동일할 수 있거나, 혹은 노드들 중 상이한 각각의 노드들에 대해 서로 다를 수 있다.

학습 스테이지에서, 알고리즘은 경험 데이터를 수신하는데, 즉, 그래프에 대한 입력들의 서로 다른 가능한 조합들을 나타내는 복수의 데이터 포인트들을 수신한다. 더욱더 많은 경험 데이터가 수신됨에 따라, 알고리즘은, 파라미터들에서의 에러들을 최소화시키기 위한 시도를 행하도록 경험 데이터에 근거하여 그래프 내의 다양한 노드들(102)의 파라미터들을 점진적으로 튜닝(tunning)한다. 목표는, 그래프의 출력이 임의의 주어진 입력에 대해 원하는 출력에 가능한 한 가깝도록 하는 파라미터들의 값들을 찾는 것이다. 전체적으로 그래프가 그러한 상태를 향하는 경향이 있는 경우, 해당 그래프는 수렴(converge)하는 것으로 지칭된다. 적절한 정도의 수렴 이후, 그래프는 예측들 혹은 추론들을 수행하는데 사용될 수 있는바, 즉 어떤 주어진 입력에 대해 출력물을 예측하는데 사용될 수 있거나 혹은 어떤 주어진 출력에 대해 원인을 추론하는데 사용될 수 있다.

학습 스테이지는 다수의 서로 다른 가능한 형태들을 가질 수 있다. 예컨대, 피감독 방식(supervised approach)에서, 입력 경험 데이터는 훈련 데이터(training data)의 형태를 갖는데, 즉 알려진 출력들에 대응하는 입력들의 형태를 갖는다. 각각의 데이터 포인트를 이용해, 알고리즘은 출력이 그 주어진 입력에 대한 알려진 출력에 더 가깝게 일치하도록 파라미터들을 튜닝할 수 있다. 후속 예측 스테이지에서, 이 경우 그래프는 입력 질의(input query)를 근사적인 예측된 출력(approximate predicted output)에 맵핑(mapping)시키는데 사용될 수 있다(혹은 만약 추론을 행한다면 그 반대의 경우도 가능함). 다른 접근법들이 또한 가능하다. 예컨대, 비피감독 접근법(unsupervised approach)에서는, 입력 데이텀마다 추론 결과의 개념이 존재하지 않고, 대신, 머신 지능 알고리즘은 출력 데이터에서 자기 자신의 구조를 식별시키게 되어 있다. 또는 강화 접근법(reinforcement approach)에서, 알고리즘은 입력 경험 데이터 내의 각각의 데이터 포인트에 대해 적어도 하나의 가능한 출력을 시도하고, 이러한 출력이 긍정적(positive)인지 혹은 부정적(negative)인지 여부(그리고 가능하게는, 긍정적인 혹은 부정적인 정도)가 알려지는데, 예를 들어, 승리 혹은 패배, 또는 보상 혹은 벌칙, 등과 같은 것이 알려진다. 많은 시도들을 통해, 알고리즘은 그 결과가 긍정적인 출력물이 될 입력들을 예측할 수 있도록 그래프의 파라미터들을 점진적으로 튜닝할 수 있다. 그래프를 학습시키기 위한 다양한 접근법들 및 알고리즘들이 머신 학습의 기술분야에서 숙련된 사람에게 알려져 있을 것이다.

본 명세서에서 개시되는 기법들의 예시적인 애플리케이션에 따르면, 각각의 작업자 쓰레드는 머신 지능 그래프 내의 노드들(102) 중 각각의 개별 노드와 관련된 계산들을 수행하도록 프로그래밍된다. 이러한 경우에, 노드들(102) 사이에 있는 에지들(104) 중 적어도 일부는 쓰레드들 간의 데이터의 교환에 대응하고, 일부는 타일들 간의 교환들을 수반할 수 있다. 더욱이, 작업자 쓰레드들의 개별 퇴장들은, 각각의 노드(102)가 해당 노드의 파라미터(들)의 수렴을 위한 그 각각의 조건을 만족시켰었는지 혹은 그렇지 않은지 여부를 나타내기 위해 프로그래머에 의해 사용될 수 있는데, 즉, 파라미터 혹은 파라미터들에서의 에러가 에러 공간 내의 허용가능한 레벨 혹은 영역 내에 있는 그러한 에러를 각각의 노드(102)가 갖는지 여부를 나타내기 위해 프로그래머에 의해 사용될 수 있다. 예컨대, 이것은, 개별 퇴장들 각각이 개별 비트이고, 그 집합된 퇴장 상태가 개별 퇴장 상태들의 AND(또는 등가적으로 만약 0이 긍정적인 것으로 취해진다면 OR)인 실시예들의 하나의 예시적 사용이거나, 또는 집합된 퇴장 상태가, 개별 퇴장 상태들이 모든 참이었음, 혹은 모두 거짓이었음, 혹은 혼합되었음을 나타내는 삼중 값(trinary value)인 실시예들의 하나의 예시적 사용이다. 따라서, 퇴장 상태 레지스터(38) 내의 단일 레지스터 값을 조사함으로써, 프로그램은 그래프가 전체적으로, 혹은 그래프의 적어도 하위-영역(sub-region)이 임의의 허용가능한 정도로 수렴했었는지 여부를 결정할 수 있다.

이것의 또 하나의 다른 변형예로서, 집합체가 개별 신뢰도 값들의 통계적 집합체의 형태를 갖는 실시예들이 사용될 수 있다. 이러한 경우에, 각각의 개별 퇴장 상태는 각각의 쓰레드에 의해 나타내어진 노드의 파라미터들이 에러의 허용가능한 정도에 도달했었다는 (예를 들어, 퍼센티지(percentage)로서의) 신뢰도를 나타낸다. 이 경우, 집합된 퇴장 상태는 그래프 혹은 그래프의 하위영역이 임의의 허용가능한 정도로 수렴했었는지 여부에 관한 신뢰도의 전체 정도를 결정하는데 사용될 수 있다.

복수-타일 구성(6)의 경우에, 각각의 타일은 그래프의 서브그래프(subgraph)를 실행한다. 각각의 서브그래프는 하나 이상의 감독자 쓰레드들을 포함하는 감독자 서브프로그램(supervisor subprogram)을 포함하고, 아울러 작업자들 중 일부 혹은 모두가 코드렛들의 형태를 가질 수 있는 작업자 쓰레드들의 세트를 포함한다.

이러한 애플리케이션들에서, 혹은 실제로 각각의 작업자 쓰레드가 그래프 내의 각각의 노드를 나타내는데 사용되는 임의의 그래프-기반 애플리케이션에서, 각각의 작업자에 의해 포함된 "코드렛(codelet)"은, 하나의 버텍스의 입력들 및 출력들 그리고 지속적인 상태(persistent state) 상에서 동작하는 소프트웨어 절차(software procedure)로서 정의될 수 있고, 여기서 코드렛은,

"실행(run)" 명령을 실행하는 감독자 쓰레드에 의해 하나의 배럴 슬롯에서 실행되기 위해 하나의 작업자 쓰레드 레지스터 콘텍스트 상에서 론칭됨,

(코드렛이 퇴장할 때 감독자에 대한 반환을 제외하고) 다른 코드렛들 혹은 감독자와의 통신 없이 완료를 위해 실행됨,

"실행(run)" 명령에 의해 제공된 메모리 포인터를 통해 버텍스의 지속적인 상태에 액세스하고, 그리고 해당 배럴 슬롯에 전용인 메모리 내의 비-지속적인 작업 영역에 액세스함, 그리고

"EXIT(퇴장)"을 그 마지막 명령으로서 실행함, 그리고 그 실행시 자신이 사용하고 있었던 배럴 슬롯은 감독자에게 반환되며, 퇴장 명령에 의해 특정된 퇴장 상태는 감독자에게 보일 수 있는 타일의 로컬 퇴장 상태와 함께 집합됨.

그래프(혹은 서브-그래프(sub-graph))를 업데이트하는 것은 에지들에 의해 정의된 인과관계(causality)와 일치하는 임의의 순서로 각각의 구성 버텍스를 한번 업데이트하는 것을 의미한다. 버텍스를 업데이트하는 것은 버텍스 상태 상에서 코드렛을 실행하는 것을 의미한다. 코드렛은 버텍스들에 대한 업데이트 절차이다(하나의 코드렛은 대게 많은 버텍스들과 관련됨). 감독자는 버텍스마다 하나의 RUN(실행) 명령을 실행하고, 각각의 이러한 명령은 버텍스 상태 어드레스 및 코드렛 어드레스를 특정한다.

앞서의 실시예들이 단지 예시적으로 설명되었음이 이해될 것이다.

예컨대, 퇴장 상태 집합 메커니즘의 응용가능성은, 감독자 쓰레드에 대해 별개의 콘텍스트가 제공되는 앞서-설명된 아키텍처로만 한정되지 않고, 혹은 감독자 쓰레드가 임의의 슬롯에서 실행된 다음에 그 슬롯을 작업자에게 양도하는 앞서-설명된 아키텍처로만 한정되지 않는다. 예를 들어, 또 하나의 다른 구성에서, 감독자는 자기 자신의 전용 슬롯에서 실행될 수 있다.

더욱이, 용어 "감독자(supervisor)" 및 "작업자(worker)"는 달리 명시적으로 기재되는 경우를 제외하고 임의의 특정 책임들을 암시하는 것은 아니며, 특히 감독자 쓰레드가 자신의 시간 슬롯을 작업자에게 양도하는 등 앞서-설명된 방식으로 반드시 그 자체가 한정되지 않는다. 일반적으로, 작업자 쓰레드는 어떤 계산 태스크가 할당되는 임의의 쓰레드를 지칭할 수 있다. 감독자는 작업자들을 배럴 슬롯들에 할당하는 것, 그리고/또는 복수의 쓰레드들 간에 배리어 동기화들을 수행하는 것, 그리고/또는 하나보다 많은 쓰레드의 출력물에 따라 임의의 제어-흐름 동작(예컨대, 분기)을 수행하는 것과 같은 동작들에 대해 책임이 있는 임의 종류의 감독 혹은 조정 쓰레드를 나타낼 수 있다.

인터리빙된 시간 슬롯들의 시퀀스 등이 참조되는 경우, 이것은 반드시 그 참조되는 시퀀스가 모든 가능한 혹은 이용가능한 슬롯들을 구성한다는 것을 시사하는 것이 아니다. 예컨대, 해당 시퀀스는 모든 가능한 슬롯들일 수 있거나, 혹은 오로지 현재 활성 상태에 있는 것들만일 수 있다. 스케줄링된 시퀀스 내에 현재 포함되지 않은 다른 잠재적 슬롯들이 존재할 수 있는 것이 반드시 제외되는 것이 아니다.

본 명세서에서 사용되는 바와 같은 용어 "타일(tile)"은 반드시 임의의 특정 토폴로지 혹은 이와 유사한 것으로 한정되는 것은 아니며, 일반적으로 유사한 모듈들의 어레이 내에서 프로세싱 유닛(10) 및 대응하는 메모리(11)를 포함하는 프로세싱 리소스의 모듈식 유닛(modular unit)을 지칭할 수 있다(전형적으로 이들 중 적어도 일부는 동일한 칩 상에(즉, 동일한 다이 상에) 있음).

더욱이, 본 개시내용의 범위는 시간-결정적 내부 상호연결 혹은 비-시간-결정적 외부 상호연결로만 한정되지 않는다. 본 명세서에서 개시되는 동기화 및 집합 메커니즘들은 또한 완전히 시간-결정적인 구성에서 사용될 수 있고, 또는 완전히 비-시간-결정적인 구성에서 사용될 수 있다.

더욱이, 일 그룹의 타일들 간에, 혹은 복수의 타일들 간에, 등등에 대해 동기화 혹은 집합을 수행하는 것이 본 명세서에서 언급되는 경우, 이것은 명시적으로 기재되지 않는 한 반드시 칩 상의 모든 타일 혹은 시스템 내의 모든 타일들을 지칭해야만 하는 것이 아니다. 예를 들어, SYNC(동기화) 명령 및 EXIT(퇴장) 명령은 주어진 칩 상의 타일들(4)의 특정 서브세트 및/또는 주어진 시스템 내의 칩들(2)의 단지 서브세트 상에만 있는 타일들(4)의 특정 서브세트와 관련하여서만 동기화 및 집합을 수행하도록 되어 있을 수 있고, 반면 주어진 칩 상의 일부 다른 타일들(4) 및/또는 주어진 시스템 내의 일부 다른 칩들 상의 일부 다른 타일들(4)은 주어진 BSP 그룹에 포함되지 않을 수 있고, 심지어 가까이 있는 그룹에 의해 수행되고 있는 계산과 관련없는 태스크들의 일부 완전히 별개의 세트에 대해 사용되고 있을 수도 있다.

또한, SYNC(동기화) 명령의 특정 모드들이 앞에서 설명되었지만, 더 일반적으로 본 개시내용의 범위는 이러한 모드들로만 한정되지 않는다. 예컨대, 앞에서 주어진 모드들의 나열(list)은 반드시 모든 모드들을 나열한 것이 아니다. 또는, 다른 실시예들에서, SYNC(동기화) 명령은 더 적은 수의 모드들을 가질 수 있는데, 예를 들어, SYNC(동기화)는 외부 싱크의 상이한 계층적 레벨들을 지원할 필요가 없고, 또는 칩-상 싱크와 칩-간 싱크 간을 구분할 필요가 없다(즉, 타일-간 모드에서, 칩 상이든 혹은 칩 외부이든 상관없이 언제나 모든 타일들과 관련하여 동작함). 또 하나의 다른 대안적 실시예들에서, SYNC(동기화) 명령은 모드를 피연산자로서 전혀 취할 필요가 없다. 예를 들어, 실시예들에서, 상이한 레벨들의 동기화 및 퇴장 상태 집합에 대해 SYNC(동기화) 명령의 별개의 버전(version)들(상이한 연산코드들)이 제공될 수 있다(예컨대, 타일-상 동기화 및 타일-간 칩-상 동기화에 대해 상이한 SYNC(동기화) 명령들이 제공될 수 있음). 또는, 다른 실시예들에서, 오로지 타일-간 동기화들에 대해서만 전용 SYNC(동기화) 명령이 제공될 수 있다(만약 요구된다면 쓰레드들 간의 타일-상 동기화는 범용 소프트웨어에서 수행되도록 함).

더욱이, 싱크 구역들은 계층적인 것(즉, 하나가 또 하나의 다른 것에 내포(nest)되는 것)으로만 한정되지 않으며, 다른 실시예들에서, 선택가능한 싱크 구역들은 하나 이상의 비-계층적 그룹들(해당 그룹의 모든 타일들은 단일의 다른 선택가능한 그룹 내에 내포되지 않음)로 이루어질 수 있거나 하나 이상의 비-계층적 그룹들을 포함할 수 있다.

더욱이, 앞서-설명된 동기화 방식들은, 실시예들에서, 복수-타일 프로세서들과는 다른 외부 리소스들의 관여를 배제하지 않는데, 예를 들어, 호스트 프로세서와 같은 CPU 프로세서의 관여를 배제하지 않으며, 혹은 심지어 하나 이상의 네트워크 카드들, 저장 디바이스들, 및/또는 FPGA들과 같은 프로세서들이 아닌 하나 이상의 컴포넌트들의 관여를 배제하지 않는다. 예컨대, 일부 타일들은 외부 시스템과의 데이터 전송들에 참여할 것을 선택할 수 있고, 이러한 전송들은 해당 타일의 계산 부담(computational burden)을 형성한다. 이러한 경우에, 그 전송들은 다음 배리어 전에 완료돼야만 한다. 일부 경우들에서, 타일의 퇴장 상태는 외부 리소스와의 통신의 결과에 따라 달라질 수 있고, 그리고 이러한 리소스는 퇴장 상태에 간접적으로(vicariously) 영향을 미칠 수 있다. 대안적으로 혹은 추가적으로, 복수-타일 프로세서들과는 다른 리소스들, 예를 들어, 호스트 혹은 하나 이상의 FPGA들은 동기화 네트워크 자체에 통합될 수 있다. 즉, Sync_req와 같은 싱크 신호는 배리어 동기화가 충족되도록 하기 위해 그리고 타일들이 다음 교환 국면으로 진행하도록 하기 위해 이러한 추가적인 리소스들로부터 요구된다. 더욱이, 실시예들에서, 집합된 글로벌 퇴장 상태는 집합체 내에 예를 들어, FPGA로부터, 외부 리소스의 퇴장 상태를 포함할 수 있다.

본 명세서에서 개시되는 기법들의 다른 응용들 및 변형들은 본 명세서의 개시내용이 주어지는 경우 본 발명의 기술분야에서 숙련된 사람에게 명백하게 될 수 있다. 본 개시내용의 범위는 본 명세서에서 설명된 실시예들에 의해 한정되는 것이 아니라 수반되는 청구항들에 의해서만 정의된다.

Claims

프로세싱 시스템(processing system)으로서,
상기 프로세싱 시스템은 타일(tile)들의 구성(arrangement)과, 그리고 상기 타일들 간의 통신을 위한 상호연결(interconnect)을 포함하고,
각각의 타일은 머신 코드 명령(machine code instruction)들을 실행하기 위한 각각의 실행 유닛(execution unit)을 포함하고, 상기 머신 코드 명령들 각각은 상기 타일들의 명령 세트(instruction set) 내에서 명령 타입(instruction type)들의 미리정의된 세트(set)의 인스턴스(instance)이고, 상기 명령 세트 내의 각각의 명령 타입은 대응하는 연산코드(opcode) 및 0개 혹은 1개 이상의 피연산자(operand)들을 취하기 위한 0개 혹은 1개 이상의 피연산자 필드(operand field)들에 의해 정의되며,
상기 상호연결은 상기 타일들 중 일부 혹은 모든 타일들로 이루어진 그룹(group)의 타일들 간의 조정(coordinate)을 행하기 위한 하드웨어 로직(hardware logic) 형태의 동기화 로직(synchronization logic)을 포함하며,
상기 명령 세트는 동기화 명령(synchronization instruction)을 포함하고, 각각의 타일 상의 상기 각각의 실행 유닛은, 만약 상기 동기화 명령의 인스턴스가 상기 각각의 실행 유닛을 통해 실행된다면, 상기 동기화 명령의 연산코드에 응답하여, 동기화 요청(synchronization request)의 인스턴스가 상기 각각의 타일로부터 상기 상호연결 내의 상기 동기화 로직으로 전송되게 하도록 되어 있음과 아울러 상기 동기화 로직으로부터 역으로 수신되는 동기화 확인응답(synchronization acknowledgement)을 기다리는 동안 상기 각각의 타일 상에서의 명령 발행(instruction issue)을 보류(suspend)하도록 되어 있고,
상기 동기화 로직은, 동기화 포인트(synchronization point)에 도달하여 상기 동기화 요청의 인스턴스가 상기 그룹의 모든 타일들로부터 수신되게 됨에 응답하여, 상기 그룹 내의 타일들 각각에게 역으로 상기 동기화 확인응답을 반환(return)하여 상기 명령 발행이 재개(resume)될 수 있게 하도록 되어 있고,
상기 명령 세트는 또한 기권 명령(abstain instruction)을 포함하고, 각각의 타일 상의 상기 실행 유닛은, 만약 상기 기권 명령의 인스턴스가 상기 각각의 실행 유닛을 통해 실행된다면, 상기 기권 명령의 연산코드에 응답하여, 상기 동기화 요청의 인스턴스가 상기 각각의 타일로부터 상기 상호연결 내의 상기 동기화 로직으로 전송되게 하도록 되어 있지만 상기 동기화 확인응답을 기다리는 동안 상기 각각의 타일 상에서의 명령 발행을 보류하지 않고 대신 상기 각각의 타일 상에서의 상기 명령 발행이 계속될 수 있게 하도록 되어 있고,
상기 기권 명령은 상기 각각의 타일 상에서의 상기 명령 발행을 보류함이 없이 통과(pass)할 수 있는 상기 동기화 포인트의 발생(occurrence)들의 개수를 특정하는 적어도 하나의 피연산자를 취하고,
상기 프로세싱 시스템은 상기 개수의 발생들에 대해 상기 각각의 타일을 위해서 상기 동기화 요청을 자동으로 어써트(assert)하기 위한 자동 동기화 메커니즘(automatic synchronization mechanism)을 포함하는 것을 특징으로 하는 프로세싱 시스템.
제1항에 있어서,
각각의 타일은,
복수의 콘텍스트 레지스터 세트(context register set)들과, 그리고
스케줄러(scheduler)를 포함하고,
각각의 콘텍스트 레지스터 세트는 복수의 쓰레드(thread)들 중 각각의 쓰레드의 프로그램 상태(program state)를 저장하도록 되어 있고,
상기 스케줄러는 인터리빙된 시간 슬롯(interleaved time slot)들의 되풀이되는 시퀀스(repeating sequence)에서의 복수의 시간 슬롯들 각각에서 실행할 복수의 작업자 쓰레드(worker thread)들 중 하나를 스케줄링(scheduling)하도록 되어 있고, 상기 작업자 쓰레드들 각각의 상기 프로그램 상태는 상기 콘텍스트 레지스터 세트들 중 상이한 콘텍스트 레지스터 세트 내에 저장되며,
상기 명령 세트는 퇴장 명령(exit instruction)을 포함하고,
상기 실행 유닛은,
상기 실행 유닛을 통해 실행되는 작업자 쓰레드를, 상기 퇴장 명령이 상기 작업자 쓰레드 내에 포함될 때 상기 퇴장 명령의 연산코드에 응답하여, 종료(terminate)시키도록 되어 있고, 그리고
상기 복수의 작업자 쓰레드들 각각이 상기 퇴장 명령의 인스턴스를 실행했을 때 상기 동기화 요청이 상기 동기화 로직으로 전송되게 하도록 되어 있는 것을 특징으로 하는 프로세싱 시스템.
제2항에 있어서,
상기 타일들은, 적어도 상기 기권 명령이 아닌 상기 동기화 명령을 실행한 타일들로 이루어진 상기 그룹의 서브그룹(subgroup) 상에서, 각각의 로컬 퇴장 상태(local exit state)를 생성하도록 되어 있고, 상기 각각의 로컬 퇴장 상태는 상기 퇴장 명령의 실행시 상기 각각의 타일 상에서 상기 작업자 쓰레드들 각각에 의해 출력된 개별 퇴장 상태들의 집합체(aggregate)이며,
상기 상호연결 내의 상기 동기화 로직은, 적어도 상기 서브그룹의 타일들의 상기 로컬 퇴장 상태들을 집합(aggregate)하여 글로벌 퇴장 상태(global exit state)를 생성하도록 되어 있고, 그리고 상기 그룹 내의 모든 타일들로부터 상기 동기화 요청을 수신함에 응답하여, 상기 글로벌 퇴장 상태를 적어도 상기 서브그룹 내의 타일들 각각 상의 글로벌 퇴장 상태 레지스터(global exit state register) 내에 저장하도록 되어 있어, 상기 글로벌 퇴장 상태가 적어도 상기 서브그룹 내의 타일들 각각 상에서 실행되는 코드 부분에 의해 액세스가능(accessible)하게 하는 것을 특징으로 하는 프로세싱 시스템.
제3항에 있어서,
상기 개별 퇴장 상태는 상기 퇴장 명령의 피연산자인 것을 특징으로 하는 프로세싱 시스템.
제3항 또는 제4항에 있어서,
상기 타일들은, 상기 그룹 내의 모든 타일들인 상기 동기화 명령을 실행한 타일들 및 상기 기권 명령을 실행한 타일들 모두 상에서, 각각의 로컬 퇴장 상태를 생성하도록 되어 있고, 상기 각각의 로컬 퇴장 상태는 상기 퇴장 명령의 실행시 상기 각각의 타일 상에서 상기 작업자 쓰레드들 각각에 의해 출력된 개별 퇴장 상태들의 집합체이며,
상기 상호연결 내의 상기 동기화 로직은, 상기 그룹의 모든 타일들의 상기 로컬 퇴장 상태들을 집합하여 상기 글로벌 퇴장 상태를 생성하도록 되어 있는 것을 특징으로 하는 프로세싱 시스템.
제3항 또는 제4항에 있어서,
상기 타일들은 상기 기권 명령을 실행한 타일들이 디폴트 로컬 퇴장 상태(default local exit state)를 출력하도록 되어 있고,
상기 상호연결 내의 동기화 로직은 상기 디폴트 퇴장 상태들을 포함하는 상기 그룹의 모든 타일들의 상기 로컬 퇴장 상태들을 집합함으로써 상기 글로벌 퇴장 상태를 생성하도록 되어 있는 것을 특징으로 하는 프로세싱 시스템.
제3항 또는 제4항에 있어서,
상기 상호연결 내의 상기 동기화 로직은 상기 서브그룹의 타일들만의 상기 로컬 퇴장 상태들을 집합함으로써 상기 글로벌 퇴장 상태를 생성하도록 되어 있는 것을 특징으로 하는 프로세싱 시스템.
제3항에 있어서,
상기 상호연결 내의 상기 동기화 로직은, 상기 그룹 내의 모든 타일들로부터 상기 동기화 요청을 수신함에 응답하여, 상기 글로벌 퇴장 상태를 상기 그룹 내의 타일들 각각 상의 글로벌 퇴장 상태 레지스터 내에 저장하도록 되어 있어, 상기 글로벌 퇴장 상태가 상기 동기화 명령을 실행한 타일들 및 상기 기권 명령을 실행한 타일들 모두 상에서 실행되는 코드 부분인 상기 그룹 내의 타일들 각각 상에서 실행되는 코드의 부분에 의해 액세스가능하게 하는 것을 특징으로 하는 프로세싱 시스템.
제3항에 있어서,
상기 상호연결 내의 상기 동기화 로직은, 상기 그룹 내의 모든 타일들로부터 상기 동기화 요청을 수신함에 응답하여, 상기 글로벌 퇴장 상태를 상기 기권 명령을 실행한 타일들이 아닌 상기 동기화 명령을 실행한 상기 서브그룹 내의 타일들 상의 글로벌 퇴장 상태 레지스터 내에만 저장하도록 되어 있는 것을 특징으로 하는 프로세싱 시스템.
제9항에 있어서,
상기 글로벌 퇴장 상태의 디폴트 값(default value)이 상기 기권 명령을 실행한 타일들 각각 상의 글로벌 퇴장 상태 레지스터 내에 저장되는 것을 특징으로 하는 프로세싱 시스템.
제1항에 있어서,
상기 그룹은 상기 동기화 명령들의 피연산자에 의해 특정되는 것을 특징으로 하는 프로세싱 시스템.
제11항에 있어서,
상기 특정된 그룹은 복수의 계층적으로 내포된 구역(hierarchically nested zone)들 중에서 특정되는 것을 특징으로 하는 프로세싱 시스템.
제11항 또는 제12항에 있어서,
상기 동기화 명령들의 피연산자는 상기 그룹이 동일한 칩(chip) 상의 타일들만으로 이루어지는지 아니면 상이한 칩들 상의 타일들을 포함하는지를 선택하는 것을 특징으로 하는 프로세싱 시스템.
제3항에 있어서,
상기 프로세싱 시스템은, 벌크 동기 병렬 방식(bulk synchronous parallel scheme)에 따라 상기 그룹에서의 통신들을 수행하도록 프로그래밍되어 있어, 상기 그룹 내의 타일들 각각은 타일-상 계산 국면(on-tile compute phase)을 수행하게 되고, 후속하여 타일-간 교환 국면(inter-tile exchange phase)을 수행하게 되며, 상기 교환 국면은 상기 그룹 내의 모든 타일들이 상기 계산 국면을 완료했을 때까지 저지(hold back)되고, 상기 타일-상 계산 국면의 완료시 상기 로컬 퇴장 상태가 생성되는 것을 특징으로 하는 프로세싱 시스템.
제14항에 있어서,
상기 교환 국면은 상기 작업자 쓰레드들과는 별개인 감독자 쓰레드(supervisor thread)에 의해 수행되도록 되어 있고, 코드의 상기 부분은 상기 감독자 쓰레드에 의해 포함되는 것을 특징으로 하는 프로세싱 시스템.
제15항에 있어서,
상기 명령 발행을 보류하는 것은 상기 동기화 확인응답을 기다리는 동안 상기 감독자 쓰레드로부터의 명령들의 발행을 적어도 중지(pausing)하는 것을 포함하는 것을 특징으로 하는 프로세싱 시스템.
제15항 또는 제16항에 있어서,
각각의 타일 상의 상기 콘텍스트 레지스터 세트들은,
상기 복수의 작업자 쓰레드들 각각의 프로그램 상태를 나타내도록 되어 있는 복수의 작업자 콘텍스트 레지스터 세트(worker context register set)들과, 그리고
상기 감독자 쓰레드의 프로그램 상태를 나타내도록 되어 있는 레지스터들의 추가적인 세트를 포함하는 추가적인 감독자 콘텍스트 레지스터 세트(supervisor context register set)를 포함하는 것을 특징으로 하는 프로세싱 시스템.
제1항에 있어서,
상기 프로세싱 시스템은 머신 지능 알고리즘(machine intelligence algorithm)을 수행하도록 프로그래밍되고,
상기 머신 지능 알고리즘에서 그래프(graph) 내의 각각의 노드(node)는 하나 이상의 각각의 입력 에지(input edge)들 및 하나 이상의 각각의 출력 에지(output edge)들을 갖고,
상기 노드들 중 적어도 일부 노드들의 상기 입력 에지들은 상기 노드들 중 적어도 일부 다른 노드들의 상기 출력 에지들이며,
각각의 노드는 자신의 출력 에지들을 자신의 입력 에지들과 관련시키는 각각의 함수(function)를 포함하고,
각각의 함수는 하나 이상의 각각의 파라미터(parameter)들에 의해 파라미터화(parameterize)되고,
상기 각각의 파라미터들 각각은 관련된 에러(associated error)를 가져, 상기 파라미터들 중 일부 혹은 모든 파라미터들에서의 상기 에러들이 감소함에 따라 상기 그래프는 해(solution)를 향해 수렴(converge)하게 되고,
상기 타일들 각각은 상기 그래프 내의 상기 노드들의 서브세트(subset)를 포함하는 각각의 서브그래프(subgraph)를 모델링(modeling)하는 것을 특징으로 하는 프로세싱 시스템.
제3항에 있어서,
상기 프로세싱 시스템은 머신 지능 알고리즘을 수행하도록 프로그래밍되고,
상기 머신 지능 알고리즘에서 그래프 내의 각각의 노드는 하나 이상의 각각의 입력 에지들 및 하나 이상의 각각의 출력 에지들을 갖고,
상기 노드들 중 적어도 일부 노드들의 상기 입력 에지들은 상기 노드들 중 적어도 일부 다른 노드들의 상기 출력 에지들이며,
각각의 노드는 자신의 출력 에지들을 자신의 입력 에지들과 관련시키는 각각의 함수를 포함하고,
각각의 함수는 하나 이상의 각각의 파라미터들에 의해 파라미터화되고,
상기 각각의 파라미터들 각각은 관련된 에러를 가져, 상기 파라미터들 중 일부 혹은 모든 파라미터들에서의 상기 에러들이 감소함에 따라 상기 그래프는 해를 향해 수렴하게 되고,
상기 타일들 각각은 상기 그래프 내의 상기 노드들의 서브세트를 포함하는 각각의 서브그래프를 모델링하고,
상기 로컬 퇴장 상태들 각각은 노드들의 각각의 서브세트의 상기 하나 이상의 파라미터들에서의 상기 에러들이 미리결정된 조건을 만족시켰는지 여부를 표시하기 위해 이용되는 것을 특징으로 하는 프로세싱 시스템.
프로세싱 시스템을 동작시키는 방법으로서,
상기 프로세싱 시스템은 타일들의 구성과, 그리고 상기 타일들 간의 통신을 위한 상호연결을 포함하고, 각각의 타일은 머신 코드 명령들을 실행하기 위한 각각의 실행 유닛을 포함하고, 상기 머신 코드 명령들 각각은 상기 타일들의 명령 세트 내에서 명령 타입들의 미리정의된 세트의 인스턴스이고, 상기 명령 세트 내의 각각의 명령 타입은 대응하는 연산코드 및 0개 혹은 1개 이상의 피연산자들을 취하기 위한 0개 혹은 1개 이상의 피연산자 필드들에 의해 정의되며,
상기 방법은,
상기 타일들 중 일부 혹은 모든 타일들로 이루어진 그룹의 타일들 간의 조정을 행하기 위해 상기 상호연결 내의 하드웨어 로직 형태의 동기화 로직을 이용하는 것과;
만약 상기 명령 세트의 동기화 명령의 인스턴스가 상기 각각의 실행 유닛을 통해 실행된다면, 상기 동기화 명령의 연산코드에 응답하여, 동기화 요청의 인스턴스가 상기 각각의 타일로부터 상기 상호연결 내의 상기 동기화 로직으로 전송되도록 함과 아울러 상기 동기화 로직으로부터 역으로 수신되는 동기화 확인응답을 기다리는 동안 상기 각각의 타일 상에서의 명령 발행을 보류하는 것과; 그리고
동기화 포인트에 도달하여 상기 동기화 요청의 인스턴스가 상기 그룹의 모든 타일들로부터 수신되게 됨에 응답하여, 상기 동기화 로직으로 하여금 상기 그룹 내의 타일들 각각에게 역으로 상기 동기화 확인응답을 반환하도록 하여 상기 명령 발행이 재개될 수 있도록 하는 것을 포함하며,
상기 명령 세트는 또한 기권 명령을 포함하고,
상기 방법은 또한, 만약 상기 기권 명령의 인스턴스가 상기 각각의 실행 유닛을 통해 실행된다면, 상기 기권 명령의 연산코드에 응답하여, 상기 동기화 요청의 인스턴스가 상기 각각의 타일로부터 상기 상호연결 내의 상기 동기화 로직으로 전송되도록 하지만 상기 동기화 확인응답을 기다리는 동안 상기 각각의 타일 상에서의 명령 발행을 보류하지 않고 대신 상기 각각의 타일 상에서의 상기 명령 발행이 계속될 수 있게 하는 것을 포함하고,
상기 기권 명령은 상기 각각의 타일 상에서의 상기 명령 발행을 보류함이 없이 통과할 수 있는 상기 동기화 포인트의 발생들의 개수를 특정하는 적어도 하나의 피연산자를 취하고,
상기 프로세싱 시스템은 상기 개수의 발생들에 대해 상기 각각의 타일을 위해서 상기 동기화 요청을 자동으로 어써트하기 위한 자동 동기화 메커니즘을 포함하는 것을 특징으로 하는 프로세싱 시스템을 동작시키는 방법.
컴퓨터 판독가능 기록매체로서, 상기 컴퓨터 판독가능 기록매체 상에는 코드가 구현되어 있고,
상기 코드는 제1항의 상기 프로세싱 시스템 상에서 실행되도록 되어 있고,
상기 코드는 상기 그룹 내의 각각의 타일 상에서의 실행을 위한 부분을 포함하고,
상기 부분들 중 적어도 일부에는 상기 동기화 명령의 인스턴스들이 포함되고 상기 부분들 중 적어도 하나에는 상기 기권 명령의 인스턴스가 포함되는 것을 특징으로 하는 컴퓨터 판독가능 기록매체.
삭제