KR20230000947A - 희소성 메타데이터를 사용한 시스톨릭 어레이 전력 소비 감소 - Google Patents
희소성 메타데이터를 사용한 시스톨릭 어레이 전력 소비 감소 Download PDFInfo
- Publication number
- KR20230000947A KR20230000947A KR1020220040990A KR20220040990A KR20230000947A KR 20230000947 A KR20230000947 A KR 20230000947A KR 1020220040990 A KR1020220040990 A KR 1020220040990A KR 20220040990 A KR20220040990 A KR 20220040990A KR 20230000947 A KR20230000947 A KR 20230000947A
- Authority
- KR
- South Korea
- Prior art keywords
- processing
- graphics
- memory
- processor
- data
- Prior art date
Links
- 238000012545 processing Methods 0.000 claims abstract description 612
- 239000011159 matrix material Substances 0.000 claims abstract description 212
- 238000000034 method Methods 0.000 claims description 150
- 238000003491 array Methods 0.000 claims description 16
- 230000002829 reductive effect Effects 0.000 claims description 6
- 230000001902 propagating effect Effects 0.000 claims description 3
- 230000015654 memory Effects 0.000 description 444
- 230000006870 function Effects 0.000 description 131
- 108091006146 Channels Proteins 0.000 description 127
- 238000010801 machine learning Methods 0.000 description 104
- 230000008569 process Effects 0.000 description 99
- 238000013528 artificial neural network Methods 0.000 description 93
- 238000012549 training Methods 0.000 description 76
- 230000001133 acceleration Effects 0.000 description 63
- 239000000872 buffer Substances 0.000 description 60
- 238000004891 communication Methods 0.000 description 52
- 235000019587 texture Nutrition 0.000 description 45
- 238000010586 diagram Methods 0.000 description 40
- 239000004744 fabric Substances 0.000 description 39
- 238000007667 floating Methods 0.000 description 38
- 239000012634 fragment Substances 0.000 description 36
- 239000000047 product Substances 0.000 description 34
- 238000005192 partition Methods 0.000 description 33
- 239000013598 vector Substances 0.000 description 33
- 238000004422 calculation algorithm Methods 0.000 description 30
- 239000000758 substrate Substances 0.000 description 30
- 101100058681 Drosophila melanogaster Btk29A gene Proteins 0.000 description 28
- 238000007726 management method Methods 0.000 description 28
- 238000003860 storage Methods 0.000 description 27
- 238000013527 convolutional neural network Methods 0.000 description 25
- 238000013461 design Methods 0.000 description 25
- 210000002569 neuron Anatomy 0.000 description 20
- 230000004913 activation Effects 0.000 description 18
- 238000001994 activation Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 18
- 238000013519 translation Methods 0.000 description 18
- 230000014616 translation Effects 0.000 description 18
- 238000012546 transfer Methods 0.000 description 16
- 238000012360 testing method Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 14
- 238000013135 deep learning Methods 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 12
- 238000007906 compression Methods 0.000 description 11
- 230000006835 compression Effects 0.000 description 11
- 238000011176 pooling Methods 0.000 description 11
- 230000000644 propagated effect Effects 0.000 description 11
- 238000013507 mapping Methods 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 10
- 238000005070 sampling Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 239000003795 chemical substances by application Substances 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 238000009877 rendering Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 239000000523 sample Substances 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000002156 mixing Methods 0.000 description 6
- 239000004065 semiconductor Substances 0.000 description 6
- 229910052710 silicon Inorganic materials 0.000 description 6
- 239000010703 silicon Substances 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 208000019300 CLIPPERS Diseases 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 5
- 208000021930 chronic lymphocytic inflammation with pontine perivascular enhancement responsive to steroids Diseases 0.000 description 5
- 230000010354 integration Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 4
- 238000007792 addition Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 235000019580 granularity Nutrition 0.000 description 4
- 238000012432 intermediate storage Methods 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 238000013178 mathematical model Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 239000004593 Epoxy Substances 0.000 description 2
- 101710092887 Integrator complex subunit 4 Proteins 0.000 description 2
- 102100037075 Proto-oncogene Wnt-3 Human genes 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000011010 flushing procedure Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000001976 improved effect Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000000700 radioactive tracer Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 101100117387 Catharanthus roseus DPAS gene Proteins 0.000 description 1
- 102100028043 Fibroblast growth factor 3 Human genes 0.000 description 1
- 101000912503 Homo sapiens Tyrosine-protein kinase Fgr Proteins 0.000 description 1
- 108050002021 Integrator complex subunit 2 Proteins 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 102100026150 Tyrosine-protein kinase Fgr Human genes 0.000 description 1
- 101100534231 Xenopus laevis src-b gene Proteins 0.000 description 1
- 238000011949 advanced processing technology Methods 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000010624 twisted pair cabling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3885—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/329—Power saving characterised by the action undertaken by task scheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/80—Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
- G06F15/8046—Systolic arrays
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/50—Adding; Subtracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/52—Multiplying; Dividing
- G06F7/523—Multiplying only
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/544—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
- G06F7/5443—Sum of products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3824—Operand accessing
- G06F9/3826—Bypassing or forwarding of data results, e.g. locally between pipeline stages or within a pipeline stage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3867—Concurrent instruction execution, e.g. pipeline or look ahead using instruction pipelines
- G06F9/3869—Implementation aspects, e.g. pipeline latches; pipeline synchronisation and clocking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3885—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
- G06F9/3893—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled in tandem, e.g. multiplier-accumulator
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5094—Allocation of resources, e.g. of the central processing unit [CPU] where the allocation takes into account power or heat criteria
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Image Processing (AREA)
- Image Generation (AREA)
Abstract
처리 장치는 다중-스테이지 시스톨릭 어레이를 포함하는 매트릭스 가속기를 포함하는 범용 병렬 처리 엔진을 포함할 수 있으며, 각각의 스테이지는 다중 처리 채널과 연관된 다중 처리 요소를 포함한다. 다중 처리 요소는 입력 매트릭스 요소의 입력 희소성과는 무관한 출력 희소성 메타데이터를 수신하고, 출력 희소성 메타데이터에 기초해서 입력 매트릭스 요소에 대한 처리 연산을 수행하도록 구성된다.
Description
본 개시는 일반적으로 데이터 처리에 관한 것으로, 보다 구체적으로는 병렬 처리 유닛 혹은 그래픽 처리 유닛의 매트릭스 가속기를 통한 데이터 처리에 관한 것이다.
본 개시의 배경
병렬 그래픽 데이터 처리는, 예를 들어 선형 보간, 테셀레이션, 래스터화, 텍스처 매핑, 깊이 테스트 등과 같은, 그래픽 데이터에 대한 특정 연산을 수행하도록 개발된 시스템 및 방법을 포함한다. 통상적으로, 그래픽 프로세서는 고정된 기능의 컴퓨팅 유닛을 사용하여 그래픽 데이터를 처리했다. 보다 최근에는, 그래픽 프로세서들 중 일부가 프로그래밍 가능하게 되어, 이들 프로세서가 정점(vertex) 및 프래그먼트(fragment) 데이터를 처리하기 위한 광범위한 연산을 지원할 수 있게 되었다. 프로그래밍 가능한 그래픽 프로세서는 HPC(high-performance computing), 딥 러닝(예를 들어, 인공 신경망 및 관련 머신 학습 알고리즘의 연구) 및 DSP(digital signal processing)와 같은, 범용 수치 컴퓨팅 애플리케이션(numerical computing applications)을 수행하도록 구성되어 왔다. 이러한 범용 수치 컴퓨팅 애플리케이션은 매트릭스 승산 계산을 광범위하게 사용한다. 따라서, 병렬 및 그래픽 데이터 처리 유닛의 프로그래밍 가능한 부분은 매트릭스 승산 및 가산 연산 또는 내적 연산을 포함하는 하이-스루풋의 매트릭스 연산을 수행하도록 구성된 처리 리소스 및/또는 기능 유닛을 포함하도록 구성되어 왔다.
첨부된 도면에는 본 발명이 한정이 아닌 예시로서 도시되어 있으며, 도면에서 같은 구성 요소는 같은 참조 번호로 나타내었다.
도 1은 본 명세서에 기술된 실시예들의 하나 이상의 양태를 구현하도록 구성된 컴퓨터 시스템을 도시한 블록도이다.
도 2a 내지 도 2d는 병렬 프로세서 컴포넌트들을 도시한다.
도 3a 내지 도 3c는 그래픽 멀티프로세서 및 멀티프로세서 기반 GPU의 블록도이다.
도 4a 내지 도 4f는 복수의 GPU가 복수의 멀티-코어 프로세서에 통신가능하게 연결되는 예시적인 아키텍처를 도시한다.
도 5는 그래픽 처리 파이프라인을 도시한다.
도 6은 머신 학습 소프트웨어 스택을 도시한다.
도 7은 범용 그래픽 처리 유닛을 도시한다.
도 8은 멀티-GPU 컴퓨팅 시스템을 도시한다.
도 9a 및 도 9b는 예시적인 심층 신경망의 레이어를 도시한다.
도 10은 예시적인 순환 신경망을 도시한다.
도 11은 심층 신경망의 훈련 및 배치를 도시한다.
도 12a는 분산 학습을 도시한 블록도이다.
도 12b는 프로그래밍 가능한 네트워크 인터페이스 및 데이터 처리 유닛을 나타내는 블록도이다.
도 13은 훈련된 모델을 사용하여 추론을 수행하기에 적합한 예시적인 추론 SOC(system on a chip)를 도시한다.
도 14는 처리 시스템의 블록도이다.
도 15a 내지 도 15c는 컴퓨팅 시스템 및 그래픽 프로세서를 도시한다.
도 16a 내지 도 16c는 추가 그래픽 프로세서 및 컴퓨팅 가속기 아키텍처의 블록도를 도시한다.
도 17은 그래픽 프로세서의 그래픽 처리 엔진의 블록도이다.
도 18a 및 도 18b는 그래픽 프로세서 코어에서 사용되는 처리 요소들의 어레이를 포함하는 스레드 실행 로직을 도시한다.
도 19는 추가 실행 유닛을 도시한다.
도 20은 그래픽 프로세서 명령어 포맷을 도시하는 블록도이다.
도 21은 추가적인 그래픽 프로세서 아키텍처의 블록도이다.
도 22a 및 도 22b는 그래픽 프로세서 커맨드 포맷 및 커맨드 시퀀스를 도시한다.
도 23은 처리 시스템을 위한 예시적인 그래픽 소프트웨어 아키텍처를 도시한다.
도 24a는 IP 코어 개발 시스템을 도시한 블록도이다.
도 24b는 집적 회로 패키지 어셈블리의 측단면도를 도시한다.
도 24c는 기판(예를 들어, 베이스 다이)에 접속된 하드웨어 로직 칩렛의 복수의 유닛을 포함하는 패키지 어셈블리를 도시한다.
도 24d는 교환 가능한 칩렛을 포함하는 패키지 어셈블리를 도시한다.
도 25는 예시적인 시스템 온 칩 집적 회로를 도시하는 블록도이다.
도 26a 및 도 26b는 SoC 내에서 사용하기 위한 예시적인 그래픽 프로세서를 나타내는 블록도이다.
도 27은 일 실시예에 따른 데이터 처리 시스템의 블록도이다.
도 28a 및 도 28b는 일 실시예에 따른 명령어 파이프라인에 의해 수행된 매트릭스 연산을 도시한다.
도 29는 파이프라인 방식으로 구성된 승산기 및 가산기 회로를 포함하는 시스톨릭 어레이를 도시한다.
도 30a 및 도 30b는 임의의 시스톨릭 깊이에서 연산을 실행하도록 구성될 수 있는 시스톨릭 어레이의 사용을 나타낸다.
도 31은 각 경로가 4 스테이지의 깊이를 갖는 2-경로 매트릭스 승산 가속기를 도시한다.
도 32는 각 경로가 2 스테이지의 깊이를 갖는 4-경로 매트릭스 승산 가속기를 나타낸다.
도 33은 피드백 입력을 갖는 시스톨릭 어레이를 사용하는 확장 가능 희소 매트릭스 승산 가속기를 도시한다.
도 34는 각 스테이지에서 피드백 입력 및 출력을 갖는 시스톨릭 어레이를 사용하는 확장 가능 희소 매트릭스 승산 가속기를 도시한다.
도 35a 및 도 35b는 출력 희소성 메타데이터를 사용해서 시스톨릭 어레이의 처리 채널을 비활성화하는 것을 나타낸다.
도 36은 절반 정밀도 매트릭스 요소를 포함하는 연산에 대한 매트릭스 승산을 위한 메타데이터를 도시한다.
도 37은 매트릭스 형태로 도시되고 메타데이터 레지스터 내에 저장되는 메타데이터를 도시한다.
도 38은 구조화된 출력 희소성 지원을 갖는 처리 요소를 도시한다.
도 39a 및 도 39b는 출력 희소성이 인에이블될 때 명령 실행의 사이클 0 및 사이클 1에서의 처리 요소의 스냅샷을 도시한다.
도 40은 출력 희소성 메타데이터를 사용해서 전력 소비를 감소시키기 위해 시스톨릭 어레이에 의해 수행되는 방법의 흐름도이다.
도 41은 출력 희소성을 사용해서 머신 학습 모델에 대한 처리 연산을 수행하는 방법을 나타낸다.
도 42는 희소성 백분율에 기초해서 출력 희소성 메타데이터를 생성하는 방법의 흐름도이다.
도 43은 일 실시예에 따른, 그래픽 프로세서를 포함하는 컴퓨팅 디바이스의 블록도이다.
도 1은 본 명세서에 기술된 실시예들의 하나 이상의 양태를 구현하도록 구성된 컴퓨터 시스템을 도시한 블록도이다.
도 2a 내지 도 2d는 병렬 프로세서 컴포넌트들을 도시한다.
도 3a 내지 도 3c는 그래픽 멀티프로세서 및 멀티프로세서 기반 GPU의 블록도이다.
도 4a 내지 도 4f는 복수의 GPU가 복수의 멀티-코어 프로세서에 통신가능하게 연결되는 예시적인 아키텍처를 도시한다.
도 5는 그래픽 처리 파이프라인을 도시한다.
도 6은 머신 학습 소프트웨어 스택을 도시한다.
도 7은 범용 그래픽 처리 유닛을 도시한다.
도 8은 멀티-GPU 컴퓨팅 시스템을 도시한다.
도 9a 및 도 9b는 예시적인 심층 신경망의 레이어를 도시한다.
도 10은 예시적인 순환 신경망을 도시한다.
도 11은 심층 신경망의 훈련 및 배치를 도시한다.
도 12a는 분산 학습을 도시한 블록도이다.
도 12b는 프로그래밍 가능한 네트워크 인터페이스 및 데이터 처리 유닛을 나타내는 블록도이다.
도 13은 훈련된 모델을 사용하여 추론을 수행하기에 적합한 예시적인 추론 SOC(system on a chip)를 도시한다.
도 14는 처리 시스템의 블록도이다.
도 15a 내지 도 15c는 컴퓨팅 시스템 및 그래픽 프로세서를 도시한다.
도 16a 내지 도 16c는 추가 그래픽 프로세서 및 컴퓨팅 가속기 아키텍처의 블록도를 도시한다.
도 17은 그래픽 프로세서의 그래픽 처리 엔진의 블록도이다.
도 18a 및 도 18b는 그래픽 프로세서 코어에서 사용되는 처리 요소들의 어레이를 포함하는 스레드 실행 로직을 도시한다.
도 19는 추가 실행 유닛을 도시한다.
도 20은 그래픽 프로세서 명령어 포맷을 도시하는 블록도이다.
도 21은 추가적인 그래픽 프로세서 아키텍처의 블록도이다.
도 22a 및 도 22b는 그래픽 프로세서 커맨드 포맷 및 커맨드 시퀀스를 도시한다.
도 23은 처리 시스템을 위한 예시적인 그래픽 소프트웨어 아키텍처를 도시한다.
도 24a는 IP 코어 개발 시스템을 도시한 블록도이다.
도 24b는 집적 회로 패키지 어셈블리의 측단면도를 도시한다.
도 24c는 기판(예를 들어, 베이스 다이)에 접속된 하드웨어 로직 칩렛의 복수의 유닛을 포함하는 패키지 어셈블리를 도시한다.
도 24d는 교환 가능한 칩렛을 포함하는 패키지 어셈블리를 도시한다.
도 25는 예시적인 시스템 온 칩 집적 회로를 도시하는 블록도이다.
도 26a 및 도 26b는 SoC 내에서 사용하기 위한 예시적인 그래픽 프로세서를 나타내는 블록도이다.
도 27은 일 실시예에 따른 데이터 처리 시스템의 블록도이다.
도 28a 및 도 28b는 일 실시예에 따른 명령어 파이프라인에 의해 수행된 매트릭스 연산을 도시한다.
도 29는 파이프라인 방식으로 구성된 승산기 및 가산기 회로를 포함하는 시스톨릭 어레이를 도시한다.
도 30a 및 도 30b는 임의의 시스톨릭 깊이에서 연산을 실행하도록 구성될 수 있는 시스톨릭 어레이의 사용을 나타낸다.
도 31은 각 경로가 4 스테이지의 깊이를 갖는 2-경로 매트릭스 승산 가속기를 도시한다.
도 32는 각 경로가 2 스테이지의 깊이를 갖는 4-경로 매트릭스 승산 가속기를 나타낸다.
도 33은 피드백 입력을 갖는 시스톨릭 어레이를 사용하는 확장 가능 희소 매트릭스 승산 가속기를 도시한다.
도 34는 각 스테이지에서 피드백 입력 및 출력을 갖는 시스톨릭 어레이를 사용하는 확장 가능 희소 매트릭스 승산 가속기를 도시한다.
도 35a 및 도 35b는 출력 희소성 메타데이터를 사용해서 시스톨릭 어레이의 처리 채널을 비활성화하는 것을 나타낸다.
도 36은 절반 정밀도 매트릭스 요소를 포함하는 연산에 대한 매트릭스 승산을 위한 메타데이터를 도시한다.
도 37은 매트릭스 형태로 도시되고 메타데이터 레지스터 내에 저장되는 메타데이터를 도시한다.
도 38은 구조화된 출력 희소성 지원을 갖는 처리 요소를 도시한다.
도 39a 및 도 39b는 출력 희소성이 인에이블될 때 명령 실행의 사이클 0 및 사이클 1에서의 처리 요소의 스냅샷을 도시한다.
도 40은 출력 희소성 메타데이터를 사용해서 전력 소비를 감소시키기 위해 시스톨릭 어레이에 의해 수행되는 방법의 흐름도이다.
도 41은 출력 희소성을 사용해서 머신 학습 모델에 대한 처리 연산을 수행하는 방법을 나타낸다.
도 42는 희소성 백분율에 기초해서 출력 희소성 메타데이터를 생성하는 방법의 흐름도이다.
도 43은 일 실시예에 따른, 그래픽 프로세서를 포함하는 컴퓨팅 디바이스의 블록도이다.
그래픽 처리 유닛(GPU)은, 예를 들어, 그래픽 연산, 머신 러닝 연산, 패턴 분석 연산, 및/또는 다양한 범용 GPU(GPGPU) 기능을 가속시키기 위해 호스트/프로세서 코어에 통신가능하게 연결된다. GPU는 버스 또는 다른 상호접속부(예컨대, PCIe 또는 NVLink와 같은 고속 상호접속부)를 통해 호스트 프로세서/코어에 통신가능하게 연결될 수 있다. 다른 방안으로, GPU는 코어와 동일한 패키지 또는 칩 상에 통합될 수도 있고, 내부 프로세서 버스/상호접속부(즉, 패키지 또는 칩의 내부)를 통해 코어에 통신가능하게 연결될 수도 있다. GPU가 접속되는 방식에 관계없이, 프로세서 코어는 작업 기술자(work descriptor)에 포함된 커맨드/명령어의 시퀀스 형태로 GPU에 연산을 할당할 수 있다. 그러면, GPU는 이들 커맨드/명령어를 효율적으로 처리하기 위해 전용 회로/로직을 사용한다.
현재의 병렬 그래픽 데이터 처리는 예를 들어 선형 보간, 테셀레이션, 래스터화, 텍스처 매핑, 깊이 테스트 등과 같은 그래픽 데이터에 대한 특정 연산을 수행하도록 개발된 시스템 및 방법을 포함한다. 전통적으로 그래픽 프로세서는 고정 함수 계산 유닛을 사용했다. 그래픽 데이터를 처리한다. 그러나 최근에는 그래픽 프로세서의 일부가 프로그래밍 가능하게 되어 이러한 프로세서가 정점 및 조각 데이터를 처리하기 위한 보다 다양한 작업을 지원할 수 있다. 통상적으로, 그래픽 프로세서는 고정된 기능의 컴퓨팅 유닛을 사용하여 그래픽 데이터를 처리했다. 그러나, 보다 최근에는, 그래픽 프로세서들 중 일부가 프로그래밍 가능하게 되어, 이들 프로세서가 정점(vertex) 및 프래그먼트(fragment) 데이터를 처리하기 위한 광범위한 연산을 지원할 수 있게 되었다.
성능을 더욱 향상시키기 위해, 그래픽 프로세서는 일반적으로 그래픽 파이프라인의 상이한 부분들에 걸쳐서 가능한 한 많은 그래픽 데이터를 병렬로 처리하는 시도를 하는 파이프라이닝과 같은, 처리 기술을 구현한다. SIMT(single instruction, multiple thread) 아키텍처를 사용하는 병렬 그래픽 프로세서는 그래픽 파이프라인에서 병렬 처리의 양을 최대화하도록 설계된다. SIMT 아키텍처에서, 처리 효율을 높이기 위해서, 병렬 스레드 그룹이 최대한 자주 프로그램 명령어를 동기식으로 실행하는 시도를 한다. SIMT 아키텍처용 소프트웨어 및 하드웨어에 대한 일반적인 개요는 Shane Cook, CUDA 프로그래밍 3장, 37-51페이지(2013)에서 찾을 수 있다.
이하의 설명에서는, 보다 완전한 이해를 위해 다수의 특정 세부사항들이 제시된다. 그러나, 본 명세서에 설명된 실시예들은 이들 특정 세부사항들 중 하나 이상이 없이도 실시될 수 있다는 것이 당업자에게 명백할 것이다. 다른 경우들에서, 본 실시예들의 세부사항들을 모호하게 하는 것을 회피하기 위해 잘 알려진 특징들은 설명하지 않았다.
시스템 개요
도 1은 본 명세서에 기술된 실시예들의 하나 이상의 양태를 구현하도록 구성된 컴퓨터 시스템(100)을 도시한 블록도이다. 컴퓨팅 시스템(100)은 메모리 허브(105)를 포함할 수 있는 상호접속 경로를 통해 통신하는 시스템 메모리(104) 및 하나 이상의 프로세서(들)(102)를 갖는 처리 서브시스템(101)을 포함한다. 메모리 허브(105)는 칩셋 컴포넌트 내의 별개의 컴포넌트일 수도 있고 하나 이상의 프로세서(들)(102) 내에 통합될 수도 있다. 메모리 허브(105)는 통신 링크(106)를 통해 I/O 서브시스템(111)과 연결된다. I/O 서브시스템(111)은 컴퓨팅 시스템(100)이 하나 이상의 입력 장치(들)(108)로부터 입력을 수신하도록 할 수 있는 I/O 허브(107)를 포함한다. 또한, I/O 허브(107)는 하나 이상의 프로세서(들)(102)에 포함될 수 있는 디스플레이 제어기가 하나 이상의 디스플레이 장치(들, 110A)에 출력을 제공하는 것을 가능하게 할 수 있다. 일 실시예에서, I/O 허브(107)와 연결된 하나 이상의 디스플레이 장치(들)(110A)는 로컬, 내부 또는 내장 디스플레이 장치를 포함할 수 있다.
처리 서브시스템(101)은, 예를 들어, 버스 또는 다른 통신 링크(113)를 통해 메모리 허브(105)에 연결된 하나 이상의 병렬 프로세서(들)(112)를 포함한다. 통신 링크(113)는 PCI 익스프레스와 같은(그러나 이에 제한되지 않음) 임의의 수의 표준 기반 통신 링크 기술 또는 프로토콜 중 하나일 수도 있고, 또는 벤더 특정 통신 인터페이스 또는 통신 패브릭일 수도 있다. 하나 이상의 병렬 프로세서(들)(112)는 다중 통합 코어(many integrated core(MIC)) 프로세서와 같은 다수의 처리 코어 및/또는 처리 클러스터를 포함할 수 있는 계산에 중점을 둔(computationally focused) 병렬 또는 벡터 처리 시스템을 형성할 수 있다. 예를 들어, 하나 이상의 병렬 프로세서(들)(112)는 I/O 허브(107)를 통해 연결된 하나 이상의 디스플레이 장치(들)(110A) 중 하나에 픽셀을 출력할 수 있는 그래픽 처리 서브시스템을 형성한다. 하나 이상의 병렬 프로세서(들)(112)는 또한 하나 이상의 디스플레이 장치(들)(110B)로의 직접 접속을 가능하게 하는 디스플레이 제어기 및 디스플레이 인터페이스(도시되지 않음)를 포함할 수 있다.
I/O 서브시스템(111) 내에서, 시스템 저장 유닛(114)은 I/O 허브(107)에 접속해서 컴퓨팅 시스템(100)에 대한 저장 메커니즘을 제공할 수 있다. I/O 스위치(116)는 I/O 허브(107)와, 플랫폼 내에 통합될 수 있는 네트워크 어댑터(118) 및/또는 무선 네트워크 어댑터(119)와 같은 다른 컴포넌트들, 및 하나 이상의 애드-인(add-in) 장치(들)(120)를 통해 추가될 수 있는 다양한 다른 장치들 사이의 접속을 가능하게 하는 인터페이스 메커니즘을 제공하는 데 사용될 수 있다. 애드-인 장치(들)(120)는 또한, 예를 들어, 하나 이상의 외부 그래픽 프로세서 장치, 그래픽 카드 및/또는 컴퓨팅 가속기를 포함할 수 있다. 네트워크 어댑터(118)는 이더넷 어댑터 또는 다른 유선 네트워크 어댑터일 수 있다. 무선 네트워크 어댑터(119)는 Wi-Fi, 블루투스, 근거리 통신(NFC), 또는 하나 이상의 무선 기기를 포함하는 다른 네트워크 장치 중 하나 이상을 포함할 수 있다.
컴퓨팅 시스템(100)은, USB 또는 다른 포트 접속, 광학 저장 드라이브, 비디오 캡처 장치 등을 포함하는, 명시적으로 도시되어 있지 않은 다른 컴포넌트를 포함할 수 있고, 이는 또한 I/O 허브(107)에 접속될 수 있다. 도 1의 다양한 컴포넌트들을 상호접속하는 통신 경로는, PCI(Peripheral Component Interconnect) 기반 프로토콜(예컨대, PCI-Express), 또는 NVLink 고속 상호접속, CXL™(Compute Express Link™)(예컨대, CXL.mem), IF(Infinity Fabric), 이더넷(IEEE 802.3), RDMA(remote direct memory access), InfiniBand, iWARP(Internet Wide Area RDMA Protocol), TCP(Transmission Control Protocol), UDP(User Datagram Protocol), QUIC(quick UDP Internet Connection), RoCE(RDMA over Converged Ethernet), QPI(Intel QuickPath Interconnect), UPI(Intel Ultra Path Interconnect), IOSF(Intel On-Chip System Fabric), Omnipath, HyperTransport, AMBA(Advanced Microcontroller Bus Architecture) 상호 접속부, OpenCAPI, Gen-Z, CCIX(Cache Coherent Interconnect for Accelerator), 3GPP LTE(Long Term Evolution)(4G), 3GPP 5G, 및 이들의 조합과 같은 임의의 다른 버스 또는 포인트-투-포인트 통신 인터페이스 및/또는 프로토콜(들), 또는 당업계에 알려진 상호접속 프로토콜, 또는 유선이나 무선의 당업계에 공지된 상호접속 프로토콜과 같은 임의의 적절한 프로토콜을 사용하여 구현될 수 있다. 일부 예에서, 데이터는 NVMe-oF(NVMe(Non-Volatile Memory Express) over Fabrics) 또는 NVMe와 같은 프로토콜을 사용해서 가상화된 스토리지 노드에 복사되거나 저장될 수 있다.
하나 이상의 병렬 프로세서(들)(112)는, 예를 들어, 비디오 출력 회로를 포함하는, 그래픽 및 비디오 처리를 위해 최적화된 회로를 포함할 수 있고, 그래픽 처리 유닛(GPU)을 구성한다. 이에 더하여 또는 이에 갈음하여, 하나 이상의 병렬 프로세서(들)(112)는 본 명세서에서 더 상세히 설명되는 기본적인 계산 아키텍처를 유지하면서, 범용 처리를 위해 최적화된 회로를 포함할 수 있다. 컴퓨팅 시스템(100)의 컴포넌트들은 단일 집적 회로 상의 하나 이상의 다른 시스템 요소와 통합될 수 있다. 예를 들어, 하나 이상의 병렬 프로세서(112), 메모리 허브(105), 프로세서(102) 및 I/O 허브(107)가 시스템 온 칩(SoC) 집적 회로에 통합될 수 있다. 또는, 컴퓨팅 시스템(100)의 컴포넌트들은 단일 패키지에 통합되어 시스템 인 패키지(SIP) 구성을 형성할 수 있다. 일 실시예에서, 컴퓨팅 시스템(100)의 컴포넌트들 중 적어도 일부는, 다른 멀티-칩 모듈과 상호접속되어 모듈형 컴퓨팅 시스템으로 될 수 있는 다중-칩 모듈(MCM)로 통합될 수 있다.
본 명세서에 도시된 컴퓨팅 시스템(100)은 예시적이며 변형 및 수정이 가능하다는 것을 이해할 수 있을 것이다. 브리지의 수 및 배열, 프로세서(들)(102)의 수, 및 병렬 프로세서(들)(112)의 수를 포함하는 접속 토폴로지는 원하는 대로 수정될 수 있다. 예를 들어, 시스템 메모리(104)는 브리지를 통하지 않고 직접 프로세서(들)(102)에 연결될 수 있는 반면, 다른 장치들은 메모리 허브(105) 및 프로세서(들)(102)를 통해 시스템 메모리(104)와 통신한다. 다른 토폴로지에서, 병렬 프로세서(들)(112)는 I/O 허브(107)에 연결되거나, 메모리 허브(105)보다는 하나 이상의 프로세서(102) 중 하나에 직접 연결된다. 다른 실시예에서, I/O 허브(107) 및 메모리 허브(105)는 단일 칩에 통합될 수 있다. 또한, 둘 이상의 프로세서(들)(102)의 세트가 다수의 소켓을 통해 부착되는 것이 가능하며, 이들 소켓은 병렬 프로세서(들)(112)의 둘 이상의 인스턴스와 연결될 수 있다.
본 명세서에 도시된 특정 컴포넌트들 중 일부는 선택적이며, 컴퓨팅 시스템(100)의 모든 구현들에 포함되지 않을 수도 있다. 예를 들어, 임의의 수의 애드-인 카드 또는 주변기기가 지원될 수도 있고, 일부 컴포넌트는 생략될 수도 있다. 또한, 일부 아키텍처는 도 1에 예시된 것들과 유사한 컴포넌트들에 대해 상이한 용어를 사용할 수도 있다. 예를 들어, 메모리 허브(105)가 일부 아키텍처에서 노스브리지(Northbridge)로 지칭되는 한편, I/O 허브(107)가 사우스브리지로 지칭될 수 있다.
도 2a는 병렬 프로세서(200)를 도시한다. 병렬 프로세서(200)는 본 명세서에 설명된 바와 같은 GPU, GPGPU 등일 수 있다. 병렬 프로세서(200)의 다양한 컴포넌트는 프로그램가능 프로세서, 주문형 집적 회로(ASIC), 또는 필드 프로그램가능 게이트 어레이(FPGA)와 같은 하나 이상의 집적 회로 장치를 사용하여 구현될 수 있다. 도시된 병렬 프로세서(200)는 도 1에 도시된 병렬 프로세서(들)(112) 중 하나일 수 있다.
병렬 프로세서(200)는 병렬 처리 유닛(202)을 포함한다. 병렬 처리 유닛은 병렬 처리 유닛(202)의 다른 인스턴스를 포함하는 다른 장치들과의 통신을 가능하게 하는 I/O 유닛(204)을 포함한다. I/O 유닛(204)은 다른 장치들에 직접 연결될 수 있다. 예를 들어, I/O 유닛(204)은 메모리 허브(105)와 같은 허브 또는 스위치 인터페이스의 사용을 통해 다른 장치들과 접속한다. 메모리 허브(105)와 I/O 유닛(204) 사이의 접속은 통신 링크(113)를 형성한다. 병렬 처리 유닛(202) 내에서, I/O 유닛(204)은 호스트 인터페이스(206) 및 메모리 크로스바(216)와 접속하며, 여기서 호스트 인터페이스(206)는 처리 동작을 수행하도록 지시된 커맨드를 수신하고, 메모리 크로스바(216)는 메모리 동작을 수행하도록 지시된 커맨드를 수신한다.
호스트 인터페이스(206)가 I/O 유닛(204)을 통해 커맨드 버퍼를 수신할 경우, 호스트 인터페이스(206)는 이들 커맨드를 수행하도록 연산 동작을 프론트 엔드(208)에게 지시할 수 있다. 일 실시예에서, 프론트 엔드(208)는 커맨드 또는 다른 작업 아이템을 처리 클러스터 어레이(212)에게 분배하도록 구성되는 스케줄러(210)와 연결된다. 스케줄러(210)는, 처리 태스크들이 처리 클러스터 어레이(212)의 처리 클러스터들에 분배되기 전에 클러스터 어레이(212)가 적절히 구성되고 유효 상태에 있도록 보장한다. 스케줄러(210)는 마이크로컨트롤러 상에서 실행되는 펌웨어 로직을 통해 구현될 수 있다. 마이크로컨트롤러로 구현된 스케줄러(210)는, 처리 클러스터 어레이(212) 상에서 실행되는 스레드들의 신속한 선점 및 컨텍스트 스위칭을 가능하게 하는, 복잡한 스케줄링 및 작업 분배 동작을 대략적으로 그리고 미세하게(at coarse and fine granularity) 수행하도록 구성가능하다. 바람직하게는, 호스트 소프트웨어는 다수의 그래픽 처리 도어벨(graphics processing doorbell) 중 하나를 통해 처리 클러스터 어레이(212) 상에서 스케줄링하기 위한 워크로드를 검사할 수 있다. 다른 예로, 새로운 워크로드 또는 인터럽트에 대한 폴링(polling)을 사용해서, 수행할 작업의 가용성을 식별하거나 혹은 표시할 수 있다. 그 후, 워크로드들은 스케줄러 마이크로컨트롤러 내의 스케줄러(210) 로직에 의해 처리 클러스터 어레이(212)에 걸쳐 자동으로 분배될 수 있다.
처리 클러스터 어레이(212)는 최대 "N"개의 처리 클러스터(예컨대, 클러스터(214A), 클러스터(214B) 내지 클러스터(214N))를 포함할 수 있다. 처리 클러스터 어레이(212)의 각각의 클러스터(214A-214N)는 다수의 동시 스레드를 실행할 수 있다. 스케줄러(210)는 다양한 스케줄링 및/또는 작업 분배 알고리즘들을 사용하여 처리 클러스터 어레이(212)의 클러스터(214A-214N)에 작업을 할당할 수 있으며, 이는 각 타입의 프로그램 또는 계산에 대해 발생하는 워크로드에 따라 변할 수 있다. 스케줄링은 스케줄러(210)에 의해 동적으로 처리될 수 있거나, 또는 처리 클러스터 어레이(212)에 의한 실행을 위해 구성된 프로그램 로직의 컴파일 동안 컴파일러 로직에 의해 부분적으로 지원될 수 있다. 선택적으로, 처리 클러스터 어레이(212)의 상이한 클러스터(214A-214N)는 상이한 타입의 프로그램을 처리하도록 또는 상이한 타입의 계산을 수행하도록 할당될 수 있다.
처리 클러스터 어레이(212)는 다양한 타입의 병렬 처리 동작을 수행하도록 구성될 수 있다. 예를 들어, 처리 클러스터 어레이(212)는 범용 병렬 컴퓨팅 동작을 수행하도록 구성된다. 예를 들어, 처리 클러스터 어레이(212)는, 비디오 및/또는 오디오 데이터의 필터링, 물리 동작을 포함하는 모델링 동작을 수행하는 것, 및 데이터 변환을 수행하는 것을 포함하는 처리 태스크들을 실행하기 위한 로직을 포함할 수 있다.
처리 클러스터 어레이(212)는 병렬 그래픽 처리 동작을 수행하도록 구성된다. 병렬 프로세서(200)가 그래픽 처리 동작을 수행하도록 구성되는 이러한 실시예에서, 처리 클러스터 어레이(212)는, 텍스처 동작들을 수행하기 위한 텍스처 샘플링 로직뿐만 아니라 테셀레이션 로직 및 다른 정점 처리 로직을 포함하지만 이에 제한되지 않는, 이러한 그래픽 처리 동작의 실행을 지원하기 위한 추가적인 로직을 포함할 수 있다. 추가적으로, 처리 클러스터 어레이(212)는, 제한적인 것은 아니지만 정점 셰이더, 테셀레이션 셰이더, 기하 셰이더, 및 픽셀 셰이더와 같은, 그래픽 처리 관련 셰이더 프로그램을 실행하도록 구성될 수 있다. 병렬 처리 유닛(202)은 처리를 위해 시스템 메모리로부터 I/O 장치(204)를 통해 데이터를 전송할 수 있다. 처리 동안, 전송된 데이터는 온칩 메모리(예컨대, 병렬 프로세서 메모리(222))에 저장되고, 그 후 시스템 메모리에 다시 기록될 수 있다.
병렬 처리 유닛(202)이 그래픽 처리를 수행하는데 사용되는 실시예에서, 스케줄러(210)는 처리 워크로드를 대략 동일한 크기의 태스크들로 분할하여, 처리 클러스터 어레이(212)의 다수의 클러스터(214A-214N)로의 그래픽 처리 동작들의 분배를 더 양호하게 할 수 있도록 구성될 수 있다. 이들 실시예들 중 일부에서, 처리 클러스터 어레이(212)의 부분들은 상이한 타입들의 처리를 수행하도록 구성될 수 있다. 예를 들어, 제 1 부분은 정점 셰이딩 및 토폴로지 생성을 수행하도록 구성될 수 있고, 제 2 부분은 테셀레이션 및 기하 쉐이딩을 수행하도록 구성될 수 있으며, 제 3 부분은 디스플레이를 위해 렌더링된 이미지를 생성하기 위해, 픽셀 쉐이딩 또는 다른 스크린 공간 동작들을 수행하도록 구성될 수 있다. 클러스터(214A-214N) 중 하나 이상에 의해 생성된 중간 데이터는 버퍼에 저장되어 중간 데이터가 추가 처리를 위해 클러스터들(214A-214N) 사이에서 전송되게 할 수 있다.
동작 동안, 처리 클러스터 어레이(212)는, 프론트 엔드(208)로부터 처리 태스크를 정의하는 커맨드를 수신하는 스케줄러(210)를 통해, 실행될 처리 태스크를 수신할 수 있다. 그래픽 처리 동작을 위해, 처리 태스크는 처리될 데이터의 인덱스, 예컨대, 서피스(패치) 데이터, 프리미티브 데이터, 정점 데이터, 및/또는 픽셀 데이터뿐만 아니라, 데이터가 어떻게 처리될지(예컨대, 어떤 프로그램이 실행될지)를 정의하는 상태 파라미터 및 커맨드를 포함할 수 있다. 스케줄러(210)는 태스크에 대응하는 인덱스를 페치하도록 구성될 수도 있고, 프론트 엔드(208)로부터 인덱스를 수신할 수도 있다. 프론트 엔드(208)는 인입 커맨드 버퍼(예컨대, 배치 버퍼, 푸시 버퍼 등)에 의해 특정된 워크로드가 개시되기 전에 처리 클러스터 어레이(212)가 유효 상태로 구성되는 것을 보장하도록 구성될 수 있다.
병렬 처리 유닛(202)의 하나 이상의 인스턴스 각각은 병렬 프로세서 메모리(222)와 연결될 수 있다. 병렬 프로세서 메모리(222)는 I/O 유닛(204)뿐만 아니라 처리 클러스터 어레이(212)로부터 메모리 요청을 수신할 수 있는 메모리 크로스바(216)를 통해 액세스될 수 있다. 메모리 크로스바(216)는 메모리 인터페이스(218)를 통해 병렬 프로세서 메모리(222)에 액세스할 수 있다. 메모리 인터페이스(218)는 병렬 프로세서 메모리(222)의 일부(예컨대, 메모리 유닛)에 각각 연결될 수 있는 다수의 파티션 유닛(예컨대, 파티션 유닛(220A) 및 파티션 유닛(220B) 내지 파티션 유닛(220N))을 포함할 수 있다. 파티션 유닛(220A-220N)의 수는 메모리 유닛의 수와 동일하도록 구성될 수도 있으며, 따라서 제 1 파티션 유닛(220A)이 대응하는 제 1 메모리 유닛(224A)을 갖고, 제 2 파티션 유닛(220B)은 대응하는 제 2 메모리 유닛(224B)을 가지며, 제N 파티션 유닛(220N)은 대응하는 제N 메모리 유닛(224N)을 갖는다. 다른 실시예들에서, 파티션 유닛(220A-220N)의 수는 메모리 장치의 수와 동일하지 않을 수 있다.
메모리 유닛(224A-224N)은 동적 랜덤 액세스 메모리(DRAM) 또는그래픽 더블 데이터 레이트(graphics double data rate)(GDDR) 메모리를 포함한 동기식 그래픽 랜덤 액세스 메모리(SGRAM)와 같은 그래픽 랜덤 액세스 메모리를 포함하는 다양한 타입의 메모리 장치를 포함할 수 있다. 선택적으로, 메모리 유닛(224A-224N)은 또한 고 대역폭 메모리(HBM)를 포함하지만 이에 제한되지 않는 3D 적층 메모리를 포함할 수 있다. 당업자는 메모리 유닛(224A-224N)의 특정 구현이 변할 수 있고, 다양한 종래의 설계들 중 하나로부터 선택될 수 있다는 것을 이해할 수 있을 것이다. 프레임 버퍼 또는 텍스처 맵과 같은 렌더링 타겟은 메모리 유닛(224A-224N)에 걸쳐 저장될 수도 있어, 파티션 유닛(220A-220N)이 병렬 프로세서 메모리(222)의 이용가능한 대역폭을 효율적으로 사용하도록 각 렌더 타겟의 부분들을 병렬로 기록할 수 있게 한다. 일부 실시예들에서, 병렬 프로세서 메모리(222)의 로컬 인스턴스는 로컬 캐시 메모리와 함께 시스템 메모리를 이용하는 통합된 메모리 설계를 위해 배제될 수 있다.
선택적으로, 처리 클러스터 어레이(212)의 클러스터들(214A-214N) 중 어느 하나는 병렬 프로세서 메모리(222) 내의 메모리 유닛들(224A-224N) 중 임의의 것에 기록될 데이터를 처리하는 능력을 갖는다. 메모리 크로스바(216)는 각 클러스터(214A-214N)의 출력을 임의의 파티션 유닛(220A-220N) 또는 출력에 대한 추가적인 처리 동작들을 수행할 수 있는 다른 클러스터(214A-214N)로 전달하도록 구성될 수 있다. 각각의 클러스터(214A-214N)는 메모리 크로스바(216)를 통해 메모리 인터페이스(218)와 통신하여 다양한 외부 메모리 장치로부터 판독하거나 그에 기록할 수 있다. 메모리 크로스바(216)를 갖는 실시예들 중 하나에서, 메모리 크로스바(216)는 I/O 유닛(204)과 통신하기 위한 메모리 인터페이스(218)에 대한 연결뿐만 아니라, 병렬 프로세서 메모리(222)의 로컬 인스턴스에 대한 연결을 가져서, 상이한 처리 클러스터(214A-214N) 내의 처리 유닛이 시스템 메모리 또는 병렬 처리 유닛(202)에 대해 로컬이 아닌 다른 메모리와 통신하는 것을 가능하게 한다. 일반적으로, 메모리 크로스바(216)는, 예를 들어, 클러스터(214A-214N)와 파티션 유닛(220A-220N) 사이의 트래픽 스트림을 분리하기 위해 가상 채널을 사용할 수 있다.
병렬 처리 유닛(202)의 단일 인스턴스가 병렬 프로세서(200) 내에 도시되어 있지만, 병렬 처리 유닛(202)의 임의의 수의 인스턴스가 포함될 수 있다. 예를 들어, 병렬 처리 유닛(202)의 다수의 인스턴스가 단일 애드-인 카드에 제공될 수도 있고, 다수의 애드-인 카드가 상호접속될 수도 있다. 예를 들어, 병렬 프로세서(200)는 하나 이상의 GPU를 포함하는 개별 그래픽 카드와 같은 그래픽 카드, 하나 이상의 메모리 장치 및 장치 대 장치 또는 네트워크나 패브릭 인터페이스일 수 있는, 도 1의 애드-인 장치(120)와 같은 애드-인 장치일 수 있다. 병렬 처리 유닛(202)의 상이한 인스턴스들은, 이들 상이한 인스턴스가 상이한 수의 처리 코어, 상이한 양의 로컬 병렬 프로세서 메모리, 및/또는 다른 구성 차이를 갖는다 하더라도, 상호동작하도록 구성될 수 있다. 선택적으로, 병렬 처리 유닛(202)의 일부 인스턴스는 다른 인스턴스들에 비해 더 높은 정밀도의 부동 소수점 유닛들을 포함할 수 있다. 병렬 처리 유닛(202) 또는 병렬 프로세서(200)의 하나 이상의 인스턴스를 포함하는 시스템은 데스크탑, 랩탑, 또는 핸드헬드 퍼스널 컴퓨터, 서버, 워크스테이션, 게임 콘솔, 및/또는 임베디드 시스템을 포함하지만 이에 한정되지 않는 다양한 구성 및 폼 팩터로 구현될 수 있다. 오케스트레이터(orchestrator)는, 분리된 프로세서 리소스, 캐시 리소스, 메모리 리소스, 스토리지 리소스 및 네트워킹 리소스 중 하나 이상을 사용해서 워크로드 성능을 위한 복합 노드를 형성할 수 있다.
도 2b는 파티션 유닛(220)의 블록도이다. 파티션 유닛(220)은 도 2a의 파티션 유닛들(220A-220N) 중 하나의 인스턴스일 수도 있다. 도시된 바와 같이, 파티션 유닛(220)은 L2 캐시(221), 프레임 버퍼 인터페이스(225), 및 ROP(raster operations unit)(226)를 포함한다. L2 캐시(221)는 메모리 크로스바(216) 및 ROP(226)로부터 수신된 로드 및 저장 동작들을 수행하도록 구성되는 판독/기록 캐시이다. 리드 미스(read misses) 및 긴급 라이트백(urgent write-back) 요청이 처리를 위해 L2 캐시(221)에 의해 프레임 버퍼 인터페이스(225)로 출력된다. 업데이트 또한 처리를 위해 프레임 버퍼 인터페이스(225)를 통해 프레임 버퍼로 전송될 수 있다. 일 실시예에서, 프레임 버퍼 인터페이스(225)는(예컨대, 병렬 프로세서 메모리(222) 내) 도 2a의 메모리 유닛(224A-224N)과 같은 병렬 프로세서 메모리의 메모리 유닛들 중 하나와 인터페이싱한다. 이에 더하여 또는 이에 갈음하여 파티션 유닛(220)은 메모리 제어기(도시되어 있지 않음)를 통해 병렬 프로세서 메모리 내의 메모리 유닛들 중 하나와 인터페이싱할 수도 있다.
그래픽 애플리케이션에서, ROP(226)는 스텐실, z 테스트, 블렌딩 등과 같은 래스터 연산을 수행하는 처리 유닛이다. 그 후, ROP(226)는 처리된 그래픽 데이터를 출력하며, 이는 그래픽 메모리에 저장된다. 일부 실시예에서, ROP(226)는 메모리 또는 L2 캐시(221)에 기록된 깊이 데이터 또는 컬러 데이터를 압축하고, 메모리 또는 L2 캐시(221)로부터 판독되는 깊이 데이터 또는 컬러 데이터를 압축 해제하기 위한 압축 로직을 포함하는 CODEC(227)을 포함하거나 이와 결합한다. 압축 로직은 하나 이상의 다중 압축 알고리즘을 사용하는 무손실 압축 로직일 수 있다. CODEC(227)에 의해 수행되는 압축의 타입은 압축될 데이터의 통계적 특성에 기초하여 변할 수 있다. 예를 들어, 일 실시예에서, 델타 컬러 압축은 타일 단위로 깊이 및 컬러 데이터에 대해 수행된다. 일 실시예에서, CODEC(227)은 머신 학습 동작과 연관된 컴퓨트 데이터를 압축 및 압축해제할 수 있는 압축 및 압축해제 로직을 포함한다. CODEC(227)은 예를 들어 희소 머신 학습 작업을 위해 희소 매트릭스 데이터를 압축할 수 있다. CODEC(227)은 또한 희소 매트릭스 형식(예를 들어, COO(coordinate list encoding), CSR(compressed sparse row), CSC(compress sparse column) 등)으로 인코딩된 희소 매트릭스 데이터를 압축해서 압축 및 인코딩된 희소 매트릭스 데이터를 생성할 수 있다. 압축 및 인코딩된 희소 매트릭스 데이터는 처리 요소에 의해 처리되기 전에 압축 해제 및/또는 디코딩될 수도 있고 혹은 처리 요소는 처리를 위해 압축, 인코딩 또는 압축 및 인코딩된 데이터를 소비하도록 구성될 수도 있다.
ROP(226)는 파티션 유닛(220) 대신에 각각의 처리 클러스터(예컨대, 도 2a의 클러스터(214A-214N)) 내에 포함될 수 있다. 이러한 실시예에서, 픽셀 데이터에 대한 판독 및 기록 요청은 픽셀 프래그먼트 데이터 대신에 메모리 크로스바(216)를 통해 전송된다. 처리된 그래픽 데이터는 도 1의 하나 이상의 디스플레이 장치(들)(110A-110B) 중 하나와 같은 디스플레이 장치 상에 디스플레이되거나, 프로세서(들)(102)에 의한 추가 처리를 위해 라우팅되거나, 또는 도 2a의 병렬 프로세서(200) 내의 처리 엔티티들 중 하나에 의한 추가 처리를 위해 라우팅될 수 있다.
도 2c는 병렬 처리 유닛 내의 처리 클러스터(214)의 블록도이다. 예를 들어, 처리 클러스터는 도 2a의 처리 클러스터(214A-214N) 중 하나의 인스턴스이다. 처리 클러스터(214)는 다수의 스레드를 병렬로 실행하도록 구성될 수 있으며, 여기서 "스레드"란 용어는 특정 세트의 입력 데이터에 대해 실행되는 특정 프로그램의 인스턴스를 지칭한다. 선택적으로, SIMD(single-instruction, multiple-data) 명령어 발행 기술은 다수의 독립적인 명령어 유닛을 제공하지 않고 다수의 스레드의 병렬 실행을 지원하기 위해 사용될 수 있다. 또는, SIMT(single-instruction, multiple-thread) 기술은, 처리 클러스터의 각 클러스터 내의 처리 엔진 세트에 명령을 발행하도록 구성된 공통 명령 유닛을 사용하여, 다수의 일반적으로 동기화된 스레드의 병렬 실행을 지원하기 위해 사용될 수 있다. 모든 처리 엔진들이 통상적으로 동일한 명령들을 실행하는 SIMD 실행 체제와 달리, SIMT 실행은 상이한 스레드들이 주어진 스레드 프로그램을 통해 다른 실행 경로들을 보다 쉽게 따를 수 있게 한다. 당업자는 SIMD 처리 체제가 SIMT 처리 체제의 기능적 서브세트를 나타낸다는 것을 이해할 것이다.
처리 클러스터(214)의 동작은 처리 태스크를 SIMT 병렬 프로세서에 분배하는 파이프라인 관리자(232)를 통해 제어될 수 있다. 파이프라인 관리자(232)는 도 2a의 스케줄러(210)로부터 명령어들을 수신하고 그래픽 멀티프로세서(234) 및/또는 텍스처 유닛(236)을 통해 이들 명령어의 실행을 관리한다. 도시된 그래픽 멀티프로세서(234)는 SIMT 병렬 프로세서의 예시적인 인스턴스이다. 그러나, 상이한 아키텍처의 다양한 타입들의 SIMT 병렬 프로세서가 처리 클러스터(214) 내에 포함될 수 있다. 그래픽 멀티프로세서(234)의 하나 이상의 인스턴스는 처리 클러스터(214) 내에 포함될 수 있다. 그래픽 멀티프로세서(234)는 데이터를 처리할 수 있고, 데이터 크로스바(240)는 처리된 데이터를 다른 셰이더 유닛을 포함하는 다수의 가능한 목적지 중 하나에 분배하는데 사용될 수 있다. 파이프라인 관리자(232)는 데이터 크로스바(240)를 통해 분배될 처리된 데이터에 대한 목적지를 지정함으로써 처리된 데이터의 분배를 용이하게 할 수 있다.
처리 클러스터(214) 내의 각각의 그래픽 멀티프로세서(234)는 동일한 세트의 기능적 실행 로직(예컨대, 산술 로직 유닛, 로드 저장 유닛 등)을 포함할 수 있다. 기능적 실행 로직은 이전 명령어들이 완료되기 전에 새로운 명령어들이 발행될 수 있는 파이프라인 방식으로 구성될 수 있다. 기능적 실행 로직은 정수 및 부동 소수점 산술, 비교 연산, 불 연산, 비트 시프팅, 및 다양한 대수 함수의 계산을 포함하는 다양한 연산을 지원한다. 동일한 기능 유닛 하드웨어가 상이한 동작들을 수행하도록 이용될 수 있고, 기능 유닛들의 임의의 조합이 존재할 수도 있다.
처리 클러스터(214)로 전송된 명령은 스레드를 구성한다. 병렬 처리 엔진 세트에 걸쳐 실행되는 스레드 세트는 스레드 그룹이다. 스레드 그룹은 상이한 입력 데이터에 대해 동일한 프로그램을 실행한다. 스레드 그룹 내의 각각의 스레드는 그래픽 멀티프로세서(234) 내의 상이한 처리 엔진에 할당될 수 있다. 스레드 그룹은 그래픽 멀티프로세서(234) 내의 처리 엔진 수보다 더 적은 스레드를 포함할 수 있다. 스레드 그룹이 처리 엔진 수보다 더 적은 스레드를 포함하는 경우, 그 스레드 그룹이 처리되고 있는 사이클 동안 처리 엔진들 중 하나 이상이 유휴 상태일 수 있다. 스레드 그룹은 그래픽 멀티프로세서(234) 내의 처리 엔진 수보다 더 많은 스레드를 포함할 수도 있다. 스레드 그룹이 그래픽 멀티프로세서(234) 내의 처리 엔진 수보다 더 많은 스레드들을 포함하는 경우, 처리는 연속적인 클록 사이클들에 걸쳐 수행될 수 있다. 선택적으로, 다수의 스레드 그룹은 그래픽 멀티프로세서(234) 상에서 동시에 실행될 수 있다.
그래픽 멀티프로세서(234)는 내부 캐시 메모리를 포함하여 로드 및 저장 동작을 수행할 수 있다. 선택적으로, 그래픽 멀티프로세서(234)는 내부 캐시를 포기하고 처리 클러스터(214) 내의 캐시 메모리(예컨대, 레벨 1(L1) 캐시(248))를 사용할 수 있다. 각각의 그래픽 멀티프로세서(234)는 또한 모든 처리 클러스터들(214) 사이에 공유되는 파티션 유닛(예컨대, 도 2a의 파티션 유닛(220A-220N)) 내의 레벨 2(L2) 캐시에 대한 액세스를 가지며 스레드들 사이에서 데이터를 전송하는 데 사용될 수 있다. 그래픽 멀티프로세서(234)는 또한, 로컬 병렬 프로세서 메모리 및/또는 시스템 메모리 중 하나 이상을 포함할 수 있는 오프-칩 글로벌 메모리에 액세스할 수 있다. 병렬 처리 유닛(202) 외부의 임의의 메모리가 글로벌 메모리로 사용될 수도 있다. 처리 클러스터(214)가 그래픽 멀티프로세서(234)의 다수의 인스턴스를 포함하는 실시예는 L1 캐시(248)에 저장될 수 있는 공통 명령어 및 데이터를 공유할 수 있다.
각각의 처리 클러스터(214)는 가상 주소를 물리 주소에 맵핑하도록 구성되는 MMU(245)(메모리 관리 유닛)를 포함할 수 있다. 다른 실시예들에서, MMU(245)의 하나 이상의 인스턴스가 도 2a의 메모리 인터페이스(218) 내에 상주할 수 있다. MMU(245)는 가상 주소를 타일의 물리적 주소와 선택적으로는 캐시 라인 인덱스에 맵핑하는데 사용되는 페이지 테이블 엔트리(PTE) 세트를 포함한다. MMU(245)는 그래픽 멀티프로세서(234) 또는 L1 캐시 또는 처리 클러스터(214) 내에 상주할 수 있는 주소 변환 색인 버퍼(TLB) 또는 캐시를 포함할 수 있다. 물리적 주소는 파티션 유닛들 사이에서 효율적인 요청 인터리빙을 허용하기 위해 서피스 데이터 액세스 지역성(surface data access locality)을 분배하도록 처리된다. 캐시 라인 인덱스는 캐시 라인에 대한 요청이 히트(hit)인지 또는 미스(miss)인지 판단하기 위해 사용될 수 있다.
그래픽 및 컴퓨팅 애플리케이션에서, 처리 클러스터(214)는, 각각의 그래픽 멀티프로세서(234)가 텍스처 맵핑 동작들을 수행하기 위해, 예컨대, 텍스처 샘플 위치를 결정하고, 텍스처 데이터를 판독하며, 텍스처 데이터를 필터링하기 위해, 텍스처 유닛(236)에 연결되도록 구성될 수 있다. 텍스처 데이터는 내부 텍스처 L1 캐시(도시되어 있지 않음)로부터 또는 일부 실시예에서는 그래픽 멀티프로세서(234) 내의 L1 캐시로부터 판독되고, 필요에 따라 L2 캐시, 로컬 병렬 프로세서 메모리, 또는 시스템 메모리로부터 페치된다. 각각의 그래픽 멀티프로세서(234)는 처리된 태스크를 데이터 크로스바(240)에 출력하여 처리된 태스크를 추가 처리를 위해 다른 처리 클러스터(214)에 제공하거나, 처리된 태스크를 메모리 크로스바(216)를 통해 L2 캐시, 로컬 병렬 프로세서 메모리, 또는 시스템 메모리에 저장한다. preROP(pre-raster operations unit)(242)는 그래픽 멀티프로세서(234)로부터 데이터를 수신하고, 본 명세서에 기술된 바와 같은 파티션 유닛(예컨대, 도 2a의 파티션 유닛(220A-220N))과 함께 위치할 수 있는 ROP 유닛으로 데이터를 보내도록 구성된다. preROP(242) 유닛은 컬러 블렌딩을 위한 최적화를 수행하고, 픽셀 컬러 데이터를 조직하며, 주소 변환을 수행할 수 있다.
본 명세서에 설명된 코어 아키텍처는 예시적이며 변형들 및 수정들이 가능하다는 것을 이해할 수 있을 것이다. 임의의 수의 처리 유닛, 예컨대, 그래픽 멀티프로세서(234), 텍스처 유닛(236), preROP(242) 등이 처리 클러스터(214) 내에 포함될 수 있다. 또한, 단지 하나의 처리 클러스터(214)가 도시되어 있지만, 본 명세서에 설명된 바와 같은 병렬 처리 유닛은 처리 클러스터(214)의 임의의 수의 인스턴스를 포함할 수 있다. 선택적으로, 각각의 처리 클러스터(214)는 분리된 별개의 처리 유닛들, L1 캐시, L2 캐시 등을 사용하여 다른 처리 클러스터(214)와 독립적으로 동작하도록 구성될 수 있다.
도 2d는 그래픽 멀티프로세서(234)가 처리 클러스터(214)의 파이프라인 관리자(232)와 연결되는 그래픽 멀티프로세서(234)의 예를 도시한다. 그래픽 멀티프로세서(234)는 명령어 캐시(252), 명령어 유닛(254), 주소 매핑 유닛( 256), 레지스터 파일(258), 하나 이상의 범용 그래픽 처리 유닛(GPGPU) 코어(262), 및 하나 이상의 로드/저장 유닛(266)을 포함하지만 이에 한정되지 않는 실행 파이프라인을 갖는다. GPGPU 코어들(262) 및 로드/저장 유닛(266)은 메모리 및 캐시 상호접속부(268)를 통해 캐시 메모리(272) 및 공유 메모리(270)와 연결된다. 그래픽 멀티프로세서(234)는 매트릭스 및/또는 광선 추적 동작을 촉진시키기 위한 하드웨어 로직을 포함하는 텐서(tensor) 및/또는 광선 추적 코어(ray-tracing core)(263)를 추가로 포함할 수 있다.
명령어 캐시(252)는 파이프라인 관리자(232)로부터 실행할 명령어 스트림을 수신할 수 있다. 명령어는 명령어 캐시(252)에 캐시되고 명령어 유닛(254)에 의한 실행을 위해 디스패치된다. 명령어 유닛(254)은 명령어를 스레드 그룹(예컨대, 와프)으로서 디스패치할 수 있고, 스레드 그룹의 각각의 스레드는 GPGPU 코어(262) 내의 다른 실행 유닛에 할당된다. 명령어는 통합된 주소 공간 내의 주소를 지정함으로써 로컬, 공유 또는 글로벌 주소 공간 중 임의의 공간에 액세스할 수 있다. 주소 매핑 유닛(256)은 통합된 주소 공간의 주소들을 로드/저장 유닛(266)에 의해 액세스될 수 있는 별개의 메모리 주소로 변환하는 데 사용될 수 있다.
레지스터 파일(258)은 그래픽 멀티프로세서(234)의 기능 유닛에 레지스터 세트를 제공한다. 레지스터 파일(258)은 그래픽 멀티프로세서(234)의 기능 유닛(예컨대, GPGPU 코어(262), 로드/저장 유닛(266))의 데이터 경로에 접속된 피연산자에 대한 임시 저장소를 제공한다. 레지스터 파일(258)은, 각각의 기능 유닛에 레지스터 파일(258)의 전용 부분이 할당되도록 각각의 기능 유닛들 사이에서 분할될 수 있다. 예를 들어, 레지스터 파일(258)은 그래픽 멀티프로세서(234)에 의해 실행되는 여러 와프들(warps) 사이에 분할될 수 있을 것이다.
GPGPU 코어들(262) 각각은 그래픽 멀티프로세서(234)의 명령어를 실행하기 위해 사용되는 부동 소수점 유닛(FPU) 및/또는 정수 산술 로직 유닛(ALU)을 포함할 수 있다. 일부 구현예에서, GPGPU 코어(262)는 하드웨어 로직을 포함할 수 있으며, 이 하드웨어 로직은 다른 경우에 텐서 및/또는 광선 추적 코어(263) 내에 상주할 수도 있다. GPGPU 코어들(262)은 그 구조가 유사할 수도 있고 상이할 수도 있다. 예를 들어 일 실시예에서, GPGPU 코어들(262)의 제 1 부분은 단정밀도(single precision) FPU 및 정수 ALU를 포함하는 반면, GPGPU 코어들의 제 2 부분은 배정밀도(double precision) FPU를 포함한다. 선택적으로, FPU는 부동 소수점 산술을 위한 IEEE 754-2008 표준을 구현하거나 또는 가변 정밀도 부동 소수점 산술을 가능하게 할 수 있다. 그래픽 멀티프로세서(234)는 직사각형 복사 또는 픽셀 블렌딩 동작과 같은 특정 기능을 수행하기 위해 하나 이상의 고정 기능 또는 특수 기능 유닛을 추가로 포함할 수 있다. 하나 이상의 GPGPU 코어는 또한 고정 또는 특수 기능 로직을 포함할 수 있다.
GPGPU 코어들(262)은 다수의 데이터 세트에 대해 단일 명령을 수행할 수 있는 SIMD 로직을 포함할 수도 있다. 선택적으로, GPGPU 코어(262)는 SIMD4, SIMD8, 및 SIMD16 명령어를 물리적으로 실행할 수 있고, SIMD1, SIMD2, 및 SIMD32 명령어를 논리적으로 실행할 수 있다. GPGPU 코어에 대한 SIMD 명령어는 셰이더 컴파일러에 의해 컴파일 시간에 생성될 수도 있고, 단일 프로그램 다중 데이터(single program multiple data: SPMD) 또는 SIMT 아키텍처에 대해 기록 및 컴파일된 프로그램을 실행할 때 자동으로 생성될 수 있다. SIMT 실행 모델을 위해 구성된 프로그램의 다수의 스레드는 단일 SIMD 명령어를 통해 실행될 수 있다. 예를 들어 일 실시예에서, 동일하거나 유사한 연산을 수행하는 8개의 SIMT 스레드가 단일 SIMD8 로직 유닛을 통해 병렬로 실행될 수 있다.
메모리 및 캐시 상호접속부(268)는 그래픽 멀티프로세서(234)의 기능 유닛들 각각을 레지스터 파일(258) 및 공유 메모리(270)에 연결하는 상호접속 네트워크이다. 예를 들어, 메모리 및 캐시 상호접속부(268)는 로드/저장 유닛(266)이 공유 메모리(270) 및 레지스터 파일(258) 사이의 로드 및 저장 동작을 구현하도록 허용하는 크로스바 상호접속부이다. 레지스터 파일(258)은 GPGPU 코어(262)와 동일한 주파수에서 동작할 수 있고, 따라서 GPGPU 코어(262)와 레지스터 파일(258) 사이의 데이터 전송은 지연이 매우 낮다. 공유 메모리(270)는 그래픽 멀티프로세서(234) 내의 기능 유닛 상에서 실행되는 스레드들 사이의 통신을 가능하게 하는 데 사용될 수 있다. 캐시 메모리(272)는, 예를 들어, 기능 유닛과 텍스처 유닛(236) 사이에서 통신되는 텍스처 데이터를 캐시하기 위해 데이터 캐시로서 사용될 수 있다. 공유 메모리(270)는 또한 프로그램 관리 캐시로서 사용될 수 있다. 공유 메모리(270) 및 캐시 메모리(272)는 데이터 크로스바(240)와 연결되어서 처리 클러스터의 다른 컴포넌트들과의 통신을 가능하게 할 수 있다. GPGPU 코어(262) 상에서 실행되는 스레드는 캐시 메모리(272) 내에 저장되는 자동으로 캐시된 데이터에 더하여 공유 메모리 내에 데이터를 프로그램 가능하게 저장할 수 있다.
도 3a 내지 도 3c는 실시예들에 따른 추가적인 그래픽 멀티프로세서들을 도시한다. 도 3a 및 도 3b는, 도 2c의 그래픽 멀티프로세서(234)와 관련되며 이들 중 하나 대신에 사용될 수 있는 그래픽 멀티프로세서(325, 350)를 도시한다. 따라서, 본 명세서에서 그래픽 멀티프로세서(234)와 조합된 임의의 특징들의 개시는 또한 그래픽 멀티프로세서(들)(325, 350)와의 대응하는 조합을 나타내지만, 이에 제한되지는 않는다. 도 3c는 그래픽 멀티프로세서(325, 350)에 대응하는 멀티-코어 그룹(365A-365N)으로 배열된 그래픽 처리 리소스들의 전용 세트를 포함하는 그래픽 처리 유닛(GPU)(380)을 도시한다. 도시된 그래픽 멀티프로세서(325, 350) 및 멀티코어 그룹(365A-365N)은 다수의 실행 스레드의 동시 실행이 가능한 스트리밍 멀티프로세서(SM)일 수 있다.
도 3a의 그래픽 멀티프로세서(325)는 도 2d의 그래픽 멀티프로세서(234)에 대한 실행 리소스 유닛의 다수의 추가 인스턴스를 포함한다. 예를 들어, 그래픽 멀티프로세서(325)는 명령어 유닛(332A-332B), 레지스터 파일(334A-334B) 및 텍스처 유닛(들)(344A-344B)의 다수의 인스턴스를 포함할 수 있다. 그래픽 멀티프로세서(325)는 또한 다수의 그래픽 또는 컴퓨트 실행 유닛 세트(예컨대, GPGPU 코어(336A-336B), 텐서 코어(tensor core) 337A-337B, 광선 추적 코어(ray-tracing core, 338A-338B)) 및 다수의 로드/저장 유닛(340A-340B) 세트를 포함한다. 실행 리소스 유닛은 공통 명령어 캐시(330), 텍스처 및/또는 데이터 캐시 메모리(342), 및 공유 메모리(346)를 갖는다.
다양한 컴포넌트들은 상호접속 패브릭(327)을 통해 통신할 수 있다. 상호접속 패브릭(327)은 그래픽 멀티프로세서(325)의 다양한 컴포넌트들 사이의 통신을 가능하게 하는 하나 이상의 크로스바 스위치를 포함할 수 있다. 상호접속 패브릭(327)은 그래픽 멀티프로세서(325)의 각각의 컴포넌트가 적층되는 별도의 고속 네트워크 패브릭 층일 수 있다. 그래픽 멀티프로세서(325)의 컴포넌트는 상호접속 패브릭(327)을 통해 원격 컴포넌트들과 통신한다. 예를 들어, 코어(336A-336B, 337A-337B, 및 338A-338B)는 상호접속 패브릭(327)을 통해 공유 메모리(346)와 각각 통신할 수 있다. 상호접속 패브릭(327)은 컴포넌트들 간의 공정한 대역폭 할당을 보장하기 위해 그래픽 멀티프로세서(325) 내의 통신을 중재할 수 있다.
도 3b의 그래픽 멀티프로세서(350)는 다수의 실행 리소스 세트(356A-356D)를 포함하며, 여기서 각각의 실행 리소스 세트는 도 2d 및 도 3a에 도시된 바와 같은 다수의 명령어 유닛, 레지스터 파일, GPGPU 코어, 및 로드 저장 유닛을 포함한다. 실행 리소스(356A-356D)는 명령어 캐시(354) 및 공유 메모리(353)를 공유하면서 텍스처 연산을 위해 텍스처 유닛(들)(360A-360D)과 협력하여 작동할 수 있다. 예를 들어, 실행 리소스(356A-356D)는 텍스처 및/또는 데이터 캐시 메모리(358A-358B)의 다수의 인스턴스들뿐만 아니라 명령어 캐시(354) 및 공유 메모리(353)를 공유할 수 있다. 다양한 컴포넌트들이 도 3a의 상호접속 패브릭(327)과 유사한 상호접속 패브릭(352)을 통해 통신할 수 있다.
당업자는 도 1, 도 2a 내지 도 2d, 및 도 3a-3b에 설명된 아키텍처가 설명적이고 본 실시예들의 범위에 대해 제한적이지 않다는 것을 이해할 수 있을 것이다. 따라서, 본 명세서에 설명된 기술들은, 본 명세서에 설명된 실시예들의 범위를 벗어나지 않으면서, 하나 이상의 모바일 애플리케이션 프로세서들, 멀티-코어 CPU를 포함하는 하나 이상의 데스크톱 또는 서버 중앙 처리 유닛(CPU), 도 2a의 병렬 처리 유닛(202)과 같은 하나 이상의 병렬 처리 유닛 및 하나 이상의 그래픽 프로세서 또는 특수 목적 처리 유닛을 제한없이 포함하는 임의의 적절히 구성된 처리 유닛에서 구현될 수 있다.
본 명세서에 설명된 바와 같은 병렬 프로세서 또는 GPGPU는 그래픽 동작, 머신-학습 동작, 패턴 분석 동작, 및 다양한 범용 GPU(GPGPU) 기능을 가속화하기 위해 호스트/프로세서 코어에 통신가능하게 연결될 수 있다. GPU는 버스 또는 다른 상호접속부(예컨대, PCIe 또는 NVLink EH는 다른 공지된 프로토콜, 표준화된 프로토콜 또는 독점 프로토콜과 같은 고속 상호접속부)를 통해 호스트 프로세서/코어에 통신가능하게 연결될 수 있다. 다른 실시예에서, GPU는 코어와 동일한 패키지 또는 칩 상에 통합될 수도 있고, 내부 프로세서 버스/상호접속부(즉, 패키지 또는 칩의 내부)를 통해 코어에 통신가능하게 연결될 수도 있다. GPU가 접속되는 방식에 관계없이, 프로세서 코어는 작업 기술자(work descriptor)에 포함된 커맨드/명령어의 시퀀스 형태로 GPU에 작업을 할당할 수 있다. 그러면, GPU는 이들 커맨드/명령어를 효율적으로 처리하기 위해 전용 회로/로직을 사용한다.
도 3c는 멀티-코어 그룹(365A-365N)으로 배열된 그래픽 처리 리소스의 전용 세트를 포함하는 그래픽 처리 유닛(GPU)(380)을 도시한다. 단일 멀티-코어 그룹(365A)의 세부 사항만이 제공되지만, 다른 멀티-코어 그룹(365B-365N)은 동일 또는 유사한 그래픽 처리 리소스의 세트를 구비할 수 있음을 이해할 수 있을 것이다. 멀티-코어 그룹(365A-365N)에 대해 설명된 세부사항들은 또한 본 명세서에 설명된 임의의 그래픽 멀티프로세서(234, 325, 350)에도 적용될 수 있다.
도시된 것과 같이, 멀티-코어 그룹(365A)은 그래픽 코어 세트(370), 텐서(tensor) 코어 세트(371) 및 광선 추적 코어 세트(372)를 포함할 수 있다. 스케줄러/디스패처(368)는 다양한 코어(370, 371, 372) 상에서 실행을 위해 그래픽 스레드를 스케줄링하고 디스패치한다. 레지스터 파일 세트(369)는 그래픽 스레드를 실행할 때 코어(370, 371, 372)에 의해 사용되는 피연산자 값을 저장한다. 이들은, 예를 들어 정수 값을 저장하기 위한 정수 레지스터, 부동 소수점 값을 저장하기 위한 부동 소수점 레지스터, 패킹된 데이터 요소(정수 및/또는 부동 소수점 데이터 요소)를 저장하기 위한 벡터 레지스터 및 텐서/매트릭스 값을 저장하기 위한 타일 레지스터를 포함할 수 있다. 타일 레지스터는 결합된 벡터 레지스터 세트로서 구현된다.
하나 이상의 결합된 레벨 1(L1) 캐시 및 공유 메모리 유닛(373)은 각각의 멀티-코어 그룹(365A) 내에 국부적으로 텍스쳐 데이터, 정점(vertex) 데이터, 픽셀 데이터, 광선 데이터, 경계 볼륨 데이터 등과 같은 그래픽 데이터를 저장한다. 하나 이상의 텍스처 유닛(374)은 또한 텍스처 매핑 및 샘플링과 같은 텍스처링 동작을 수행하기 위해 사용될 수 있다. 멀티-코어 그룹(365A-365N)의 전부 또는 일부에 의해 공유되는 레벨 2(L2) 캐시(375)는 복수의 동시 그래픽 스레드에 대한 그래픽 데이터 및/또는 명령어를 저장한다. 도시된 바와 같이, L2 캐시(375)는 복수의 멀티-코어 그룹(365A-365N)에 걸쳐 공유될 수 있다. 하나 이상의 메모리 제어기(367)는 GPU(380)를 시스템 메모리(예컨대, DRAM) 및/또는 전용 그래픽 메모리(예컨대, GDDR6 메모리)일 수 있는 메모리(366)에 연결한다.
입력/출력(I/O) 회로(363)는 GPU(380)를 디지털 신호 프로세서(DSP), 네트워크 제어기 또는 사용자 입력 장치와 같은 하나 이상의 I/O 장치(362)에 연결한다. 온 칩 상호접속부는 I/O 장치(362)를 GPU(380) 및 메모리(366)에 연결하는데 사용될 수 있다. I/O 회로(363)의 하나 이상의 I/O 메모리 관리 유닛(IOMMU)(364)은 I/O 장치(362)를 시스템 메모리(366)에 직접 연결한다. 선택적으로, IOMMU(364)는 가상 주소를 시스템 메모리(366)의 물리 주소에 매핑하기 위해 복수의 페이지 테이블 세트를 관리한다. 그러면, I/O 장치(362), CPU(들)(361), GPU(들)(380)는 동일한 가상 주소 공간을 공유할 수 있다.
IOMMU(364)의 일 구현예에서, IOMMU(364)는 가상화를 지원한다. 이 경우, 게스트/그래픽 가상 주소를 게스트/그래픽 물리 주소에 매핑하기 위해 페이지 테이블의 제 1 세트를 관리하고, 게스트/그래픽 물리 주소를 (시스템 메모리(366) 내의) 시스템/호스트 물리 주소에 매핑하기 위해 페이지 테이블의 제 2 세트를 관리할 수 있다. 페이지 테이블의 제 1 및 제 2 세트 각각의 기본 주소는 제어 레지스터에 저장될 수 있고 컨텍스트 스위치 상에서 교환(swapped out)될 수 있다(예컨대, 새로운 컨텍스트가 페이지 테이블의 관련된 세트에 대해 액세스할 수 있다). 도 3c에 도시되지 않았지만, 각각의 코어(370, 371, 372 ) 및/또는 멀티-코어 그룹(365A-365N)은 게스트 가상으로부터 게스트 물리로의 변환, 게스트 물리로부터 호스트 물리로의 변환 및 게스트 가상으로부터 호스트 물리로의 변환을 캐싱하기 위한 TLB(translation lookaside buffer)를 포함할 수 있다.
CPU(들)(361), GPU(380) 및 I/O 장치(362)는 단일 반도체 칩 및/또는 칩 패키지 상에 통합될 수 있다. 도시된 메모리(366)는 동일한 칩 상에 통합될 수도 있고 또는 오프 칩 인터페이스를 통해 메모리 제어기(367)에 연결될 수도 있다. 일 구현예에서, 메모리(366)는 다른 물리 시스템-레벨 메모리와 동일한 가상 주소 공간을 공유하는 GDDR6 메모리를 포함하지만, 본 명세서에 기술된 기본 원리는 이러한 특정 구현예로 한정되지 않는다.
텐서 코어(371)는 매트릭스 연산을 수행하도록 특별히 설계된 복수의 실행 유닛을 포함하는데, 이는 심층 학습(deep learning) 동작을 수행하는 데 사용되는 기본 컴퓨팅 동작이다. 예를 들어, 동시 매트릭스 승산 동작은 신경망 훈련 및 추론에 사용될 수 있다. 텐서 코어(371)는 단정밀도 부동 소수점(예컨대, 32 비트), 반정밀도 부동 소수점(예컨대, 16 비트), 정수 워드(16 비트), 바이트(8 비트) 및 반-바이트(4 비트)를 포함하는 다양한 피연산자 정밀도를 사용하여 매트릭스 처리를 수행할 수 있다. 예를 들어, 신경망 구현예는 각각의 렌더링된 장면의 특징을 추출하여, 잠재적으로는 복수의 프레임으로부터 세부 사항을 결합하여, 고품질의 최종 이미지를 구성한다.
심층 학습 구현예에서, 병렬 매트릭스 승산 작업은 텐서 코어(371) 상에서 실행되도록 스케줄링될 수 있다. 특히 신경망의 훈련은 상당한 수의 매트릭스 내적 연산을 요구한다. 텐서 코어(371)는, N×N×N 매트릭스의 내적 공식(formulation)을 처리하기 위해 적어도 N개의 내적 처리 요소를 포함할 수 있다. 매트릭스의 승산을 시작하기 전에 하나의 전체 매트릭스가 타일 레지스터에 로딩되고, 두 번째 매트릭스의 적어도 하나의 열이 N-주기 동안 각 주기마다 로딩된다. 각각의 주기마다 N개의 내적이 처리된다.
매트릭스 요소는 16 비트 워드, 8 비트 바이트(예컨대, INT8) 및 4 비트 반 바이트(예컨대, INT4)를 포함하는, 특정 구현예에 따른 상이한 정밀도로 저장될 수 있다. 텐서 코어(371)에 대해 상이한 정밀도 모드가 특정되어 상이한 워크로드(예컨대, 바이트 및 반-바이트로의 양자화를 허용할 수 있는 추론 워크로드와 같은)에 대해 가장 효율적인 정밀도가 사용되도록 보장할 수 있다. 지원되는 형식은, 64 비트 부동 소수점(FP64) 및 bfloat16 형식 (예를 들어, Brain 부동 소수점)과 같은 비IEEE 부동 소수점 형식, 1개의 부호부(sign) 비트, 8개의 지수부(exponent) 비트 및 8개의 가수부(significand) 비트(그 중 7개가 명시적으로 저장됨)가 있는 16비트 부동 소수점 형식을 더 포함한다. 일 실시예는, 정밀도(precision)가 FP16(10비트)인 FP32(8비트)의 범위를 가진, 감소된 정밀도 텐서 부동 형식(TF32)의 지원을 포함한다. 감소된 정밀도 TF32 연산이 FP32 입력에서 수행되면, FP32에 비해 더 높은 성능으로 그리고 FP16에 비해 증가된 정밀도로 FP32 출력을 생성할 수 있다.
일 실시예에서, 텐서 코어(371)는, 대부분의 값이 0인 매트릭스에 대한 희소 연산 모드를 지원한다. 텐서 코어(371)는, 희소 매트릭스 표현(예를 들어, COO(coordinate list encoding), CSR(compressed sparse row), CSC(compress sparse column) 등)으로 인코딩되는 희소 입력 매트릭스에 대한 지원을 포함한다.
텐서 코어(371)는 또한 희소 매트릭스 표현이 추가로 압축될 수 있는 경우 압축된 희소 매트릭스 표현에 대한 지원을 포함한다. 연관된 압축 및/또는 인코딩 메타데이터와 함께 압축, 인코딩 및/또는 압축 및 인코딩된 매트릭스 데이터는 텐서 코어(371)에 의해 판독될 수 있고 0이 아닌 값이 추출될 수 있다. 텐서 코어(371)는 또한, 희소 매트릭스 표현이 더 압축될 수 있는 경우에 압축된 희소 매트릭스 표현에 대한 지원을 포함한다. 압축된, 인코딩된, 및/또는 압축되고 인코딩된 매트릭스 데이터는, 연관된 압축 및/또는 인코딩 메타데이터와 함께, 텐서 코어(371)에 의해 판독될 수 있고, 제로가 아닌 값들이 추출될 수 있다.
예를 들어, 주어진 입력 매트릭스 A의 경우, 매트릭스 A의 적어도 일부의 압축된 및/또는 인코딩된 표현으로부터 제로가 아닌 값들이 로딩될 수 있다. 제로가 아닌 값들과 연관된 인덱스 또는 좌표 메타데이터로부터 결정될 수 있는 제로가 아닌 값들에 대한 매트릭스 A 내의 위치에 기초하여, 입력 매트릭스 B 내의 대응하는 값이 로딩될 수 있다. 예를 들어, 주어진 입력 매트릭스 A의 경우, 매트릭스 A의 적어도 일부의 압축된 및/또는 인코딩된 표현으로부터 제로가 아닌 값들이 로딩될 수 있다. 제로가 아닌 값들과 연관된 인덱스 또는 좌표 메타데이터로부터 결정될 수 있는 제로가 아닌 값들에 대한 매트릭스 A 내의 위치에 기초하여, 입력 매트릭스 B 내의 대응하는 값이 로딩될 수 있다. 수행될 연산(예를 들어, 승산)에 따라서는, 입력 매트릭스 B로부터의 값의 로드는, 대응하는 값이 제로 값이라면 우회될 수 있다. 일 실시예에서, 승산 연산과 같은 특정 연산에 대한 값의 쌍(pairings)은 스케줄러 로직에 의해 사전-스캐닝될 수 있고, 제로가 아닌 입력 사이의 연산만이 스케줄링된다. 매트릭스 A 및 매트릭스 B의 차원 및 수행될 연산에 따라, 출력 매트릭스 C는 조밀할 수도 있고 혹은 희소할 수도 있다. 출력 매트릭스 C가 희소한 경우, 그리고 텐서 코어(371)의 구성에 따라, 출력 매트릭스 C는 압축된 포맷, 희소 인코딩, 또는 압축된 희소 인코딩으로 출력될 수 있다.
광선 추적 코어(372)는 실시간 광선 추적 및 비실시간 광선 추적 구현예 모두에 대한 광선 추적 동작을 가속화할 수 있다. 특히, 광선 추적 코어(372)는 경계 볼륨 계층 구조(BVH)를 사용하여 광선 탐색을 수행하고 BVH 볼륨 내에 둘러싸인 광선과 프리미티브(primitive) 사이의 교차를 식별하는 광선 탐색/교차 회로를 포함할 수 있다. 광선 추적 코어(372)는 또한 깊이(depth) 테스트 및 (예컨대, Z 버퍼 또는 유사한 배열을 사용하여) 컬링을 수행하는 회로를 포함할 수 있다. 일 구현예에서, 광선 추적 코어(372)는 본 명세서에서 설명된 이미지 노이즈 제거 기술과 협력하여 탐색 및 교차 동작을 수행하며, 그 중 적어도 일부는 텐서 코어(371) 상에서 실행될 수 있다. 예를 들어, 텐서 코어(371)는 심층 학습 신경망을 구현하여 광선 추적 코어(372)에 의해 생성된 프레임의 노이즈 제거를 수행한다. 그러나, CPU(들)(361), 그래픽 코어(370) 및/또는 광선 추적 코어(372)는 또한 노이즈 제거의 전체 또는 일부 및/또는 심층 학습 알고리즘을 구현할 수 있다.
또한, 전술한 바와 같이, 노이즈 제거에 대한 분산 접근법이 이용될 수 있으며, 여기서 GPU(380)는 네트워크 또는 고속 상호 접속부를 통해 다른 컴퓨팅 장치에 연결된 컴퓨팅 장치에 존재한다. 이 분산 접근법에서, 상호 접속된 컴퓨팅 장치들은 신경망 학습/훈련 데이터를 공유하여 전체 시스템이 상이한 타입의 이미지 프레임 및/또는 상이한 그래픽 애플리케이션에 대해 노이즈 제거를 수행하는 것을 학습하는 속도를 향상시킬 수 있다.
광선 추적 코어(372)는 모든 BVH 탐색 및 광선-프리미티브 교차를 처리하여 그래픽 코어(370)가 광선당 수천 개의 명령어로 과부하되는 것을 방지한다. 예를 들어, 각각의 광선 추적 코어(372)는 경계 박스 테스트(예컨대, 탐색 동작)를 수행하는 특수 회로의 제 1 세트와, 광선-삼각형 교차 테스트(예컨대, 탐색된 광선을 교차시킴)를 수행하는 특수 회로의 제 2 세트를 포함한다. 따라서, 예를 들어, 멀티-코어 그룹(365A)은 단순히 광선 프로브를 발사할 수 있고, 광선 추적 코어(372)는 독립적으로 광선 탐색 및 교차를 수행하고 히트(hit) 데이터(예컨대, 히트, 히트 없음, 복수 히트 등)를 스레드 컨텍스트에 반환한다. 광선 추적 코어(372)가 탐색 및 교차 동작을 수행하는 동안 다른 코어(370, 371)는 다른 그래픽을 수행하거나 또는 작업을 컴퓨팅하기 위해 자유로운 상태가 된다.
선택적으로, 각각의 광선 추적 코어(372)는 BVH 테스트 동작을 수행하는 탐색 유닛 및 광선-프리미티브 교차 테스트를 수행하는 교차 유닛을 포함한다. 교차 유닛은 "히트", "히트 없음" 또는 "복수 히트" 응답을 생성하여 적절한 스레드에 제공한다. 탐색 및 교차 동작 동안, 다른 코어(예컨대, 그래픽 코어(370) 및 텐서 코어(371))의 실행 리소스는 다른 형태의 그래픽 작업을 수행하기 위해 자유로운 상태가 된다.
후술되는 하나의 선택적인 실시예에서, 작업이 그래픽 코어(370)와 광선 추적 코어(372) 사이에 분산되는 하이브리드 래스터화/광선 추적 접근법이 사용된다.
광선 추적 코어(372)(및/또는 다른 코어(370, 371))는 광선-생성, 최근접 히트, 임의의 히트 및 비교차(miss) 셰이더뿐만 아니라 DispatchRays 커맨드를 포함하는 Microsoft의 DXR(DirectX Ray Tracing)과 같은 광선 추적 명령어 세트에 대한 하드웨어 지원을 포함할 수 있으며, 이로써 각각의 객체에 대해 셰이더 및 텍스처의 고유 세트를 할당할 수 있다. 광선 추적 코어(372), 그래픽 코어(370) 및 텐서 코어(371)에 의해 지원될 수 있는 다른 광선 추적 플랫폼으로는 Vulkan 1.1.85가 있다. 그러나, 본 명세서에 기술된 기본 원리는 임의의 특정 광선 추적 ISA로 한정되지 않는다는 점에 유의한다.
일반적으로, 다양한 코어(372, 371, 370)는 광선 생성, 최근접 히트, 임의의 히트, 광선-프리미티브 교차, 프리미티브 당 및 계층 구조적 경계 박스 구성, 비교차, 방문 및 예외에 대한 명령어/기능을 포함하는 광선 추적 명령어 세트를 지원할 수 있다. 보다 구체적으로, 바람직한 실시예는 다음 기능 중 하나 이상을 수행하는 광선 추적 명령어를 포함한다:
광선 생성 - 광선 생성 명령어는 각 픽셀, 샘플 또는 다른 사용자 정의 작업 할당에 대해 실행될 수 있다.
최근접 히트 - 최근접 히트 명령어는 장면 내에서 광선과 프리미티브의 최근접 교차점을 찾기 위해 실행될 수 있다.
임의의 히트 - 임의의 히트 명령어는 잠재적으로 새로운 최근접 교차점을 식별하기 위해 장면 내에서 광선과 프리미티브 사이의 복수의 교차를 식별한다.
교차 - 교차 명령어는 광선-프리미티브 교차 테스트를 수행하고 결과를 출력한다.
프리미티브 당 경계 박스 구성 - 이 명령어는 주어진 프리미티브 또는 프리미티브 그룹 주위에 경계 박스를 형성한다(예컨대, 새로운 BVH 또는 다른 가속도 데이터 구조를 형성할 때).
비교차 - 이것은 광선이 장면 내의 모든 기하 또는 장면의 특정 영역과 교차하지 않는 것을 나타낸다.
방문 - 이것은 광선이 탐색할 자식 볼륨(children volume)을 나타낸다.
예외 - 이것은 다양한 타입의 예외 핸들러(예컨대, 다양한 오류 조건에 대해 호출됨)를 포함한다.
일 실시예에서 광선 추적 코어(372)는 광선 교차 테스트과 유사한 계산 기법을 사용해서 가속될 수 있는 범용 계산 연산을 가속하도록 구성될 수 있다. 셰이더 프로그램이 광선 추적 코어을 통해 범용 계산 연산을 수행하는 저레벨 명령어 및/또는 프리미티브로 컴파일될 수 있게 하는 계산 프레임워크가 제공될 수 있다. 광선 추적 코어(372) 상에서 수행되는 계산 연산으로부터 이득을 얻을 수 있는 예시적인 계산 문제는 좌표 공간 내의 빔, 파, 광선, 또는 입자 전파를 수반하는 계산을 포함한다. 그 전파와 연관된 상호작용는 좌표 공간 내의 지오메트리 또는 메시에 대해 계산될 수 있다. 예를 들어, 환경을 통한 전자기 신호 전파와 연관된 계산은 광선 추적 코어를 통해 실행되는 명령어 또는 프리미티브의 사용을 통해 가속될 수 있다. 환경 내의 객체에 의한 신호의 회절 및 반사는 직접 광선-추적 유추(direct ray-tracing analogies)로서 계산될 수 있다.
광선 추적 코어 (372)는 광선 추적과 직접적으로 유사하지 않은 계산을 수행하기 위해 또한 사용될 수 있다. 예를 들어, 메시 투영(mesh projection), 메시 정제(mesh refinement), 및 볼륨 샘플링 계산은 광선 추적 코어(372)를 사용해서 가속될 수 있다. 가장 가까운 이웃 계산(nearest neighbor calculations)과 같은 일 반적인 좌표 공간 계산이 또한 수행될 수 있다. 예를 들어, 주어진 포인트 근처의 포인트의 세트는 그 포인트 주위의 좌표 공간에서 바운딩 박스를 정의함으로써 발견될 수 있다. 이어서, 광선 추적 코어(372) 내의 BVH 및 광선 프로브 로직이 바운딩 박스 내의 포인트 교차의 세트를 결정하는 데 사용될 수 있다. 교차는 원점 및 그 원점에 대한 가장 가까운 이웃을 구성한다. 광선 추적 코어(372)를 사용하여 수행되는 계산은 그래픽 코어(372) 및 텐서 코어(371)에 대해 수행되는 계산과 병렬로 수행될 수 있다. 셰이더 컴파일러는 계산 셰이더 또는 다른 범용 그래픽 처리 프로그램을 그래픽 코어(370), 텐서 코어(371), 및 광선 추적 코어(372)에 걸쳐 병렬화될 수 있는 저레벨 프리미티브로로 컴파일하도록 구성될 수 있다.
GPU-호스트 프로세서의 상호접속 기법
도 4a는, 예를 들어, 도 2a에 도시된 병렬 프로세서(200)와 같은 복수의 GPU(410-413)가 고속 링크(440A-440D)(예컨대, 버스, 포인트-투-포인트 상호접속부 등)를 통해 복수의 멀티-코어 프로세서(405-406)에 통신가능하게 연결되는 예시적인 아키텍처를 도시한다. 고속 링크(440A-440D)는 구현에 따라, 4GB/s, 30GB/s, 80GB/s 또는 그 이상의 통신 스루풋을 지원할 수 있다. PCIe 4.0 또는 5.0 및 NVLink 2.0을 포함하지만 이에 제한되지 않는 다양한 상호접속 프로토콜이 사용될 수 있다. 그러나, 본 명세서에 설명된 기본 원리는 임의의 특정 통신 프로토콜 또는 스루풋에 제한되지 않는다.
GPU들(410-413) 중 둘 이상은 고속 링크들에 걸쳐 상호접속될 수 있으며, 이들 고속 링크는 고속 링크(440A-440D)에 사용된 것과 동일하거나 상이한 프로토콜/링크를 사용하여 구현될 수 있다. 유사하게, 멀티-코어 프로세서들(405-406) 중 둘 이상은 20GB/s, 30GB/s, 120GB/s 또는 그 이하의 속도나 그 이상의 속도에서 동작하는 대칭 멀티-프로세서(SMP) 버스일 수 있는 고속 링크(443)를 통해 접속될 수 있다. 또는, 도 4a에 도시된 다양한 시스템 컴포넌트들 사이의 모든 통신은(예컨대, 공통 상호접속 패브릭을 통해) 동일한 프로토콜들/링크들을 사용하여 달성될 수 있다. 그러나, 언급된 바와 같이, 본 명세서에서 설명하는 기본 원리는 임의의 특정 타입의 상호접속 기술로 제한되지 않는다.
각각의 멀티-코어 프로세서(405-406)는 메모리 상호접속부(430A-430B)를 통해 각각 프로세서 메모리(401-402)에 통신가능하게 연결될 수 있고, 각각의 GPU(410-413)는 GPU 메모리 상호접속부(450A-450D)를 통해 각각 GPU 메모리(420-423)에 통신가능하게 연결된다. 메모리 상호접속부(430A-430B 및 450A-450D)는 동일하거나 상이한 메모리 액세스 기술을 이용할 수 있다. 제한이 아닌 예로서, 프로세서 메모리(401 내지 402) 및 GPU 메모리(420 내지 423)는 (적층된 DRAM을 포함하는) 동적 랜덤 액세스 메모리(DRAM), 그래픽 DDR SDRAM(GDDR)(예컨대, GDDR5, GDDR6), 또는 고대역폭 메모리(HBM)와 같은 휘발성 메모리일 수도 있고/있거나 3D XPoint/Optane 또는 Nano-Ram와 같은 비휘발성 메모리일 수도 있다. 예를 들어, 메모리들 중 일부는 휘발성 메모리일 수 있고, 다른 부분은 (예컨대, 2-레벨 메모리(2LM) 계층을 사용하는)비휘발성 메모리일 수도 있다. 본 명세서에 설명된 바와 같은 메모리 서브시스템은 JEDEC(Joint Electronic Device Engineering Council)에 의해 릴리즈된 더블 데이터 레이트(Double Data Rate) 버전들과 같은 다수의 메모리 기술과 호환될 수 있다.
아래에서 설명되는 바와 같이, 다양한 프로세서(405-406) 및 GPU(410-413)이 각각 특정 메모리(401-402, 420-423)에 물리적으로 연결될 수 있지만, 동일한 가상 시스템 주소 공간("유효 주소" 공간이라고도 함)이 다양한 물리적 메모리들 모두 사이에 분산되는 통합된 메모리 아키텍처가 구현될 수도 있다. 예를 들어, 프로세서 메모리(401 내지 402)는 각각 시스템 메모리 주소 공간의 64GB를 포함할 수 있고, GPU 메모리(420 내지 423)는 각각 시스템 메모리 주소 공간의 32GB를 포함할 수 있다(결국 이 예에서 어드레스블(addressable) 메모리는 총 256GB임).
도 4b는 멀티-코어 프로세서(407)와 그래픽 가속 모듈(446) 사이의 상호접속에 대한 추가적인 선택적 세부사항을 도시한다. 그래픽 가속 모듈(446)은 고속 링크(440)를 통해 프로세서(407)에 연결된 라인 카드에 통합된 하나 이상의 GPU 칩을 포함할 수도 있다. 또는, 그래픽 가속 모듈(446)은 프로세서(407)와 동일한 패키지 또는 칩에 통합될 수도 있다.
도시된 프로세서(407)는 복수의 코어(460A-460D)를 포함하며, 각각의 코어는 변환 색인 버퍼(461A-461D) 및 하나 이상의 캐시(462A-462D)를 갖는다. 이들 코어는 본 명세서에 설명된 컴포넌트들의 기본 원리를 모호하게 하지 않게 하기 위해 도시되지 않은 명령어들을 실행하고 데이터를 처리하기 위한 다양한 다른 컴포넌트(예컨대, 명령 페치 유닛, 분기 예측 유닛, 디코더, 실행 유닛, 재정렬 버퍼 등)를 포함할 수 있다. 캐시들(462A-462D)은 레벨 1(L1) 및 레벨 2(L2) 캐시를 포함할 수 있다. 또한, 하나 이상의 공유 캐시(456)가 캐싱 계층에 포함될 수 있고 코어(460A-460D)의 세트에 의해 공유될 수 있다. 예를 들어, 프로세서(407)의 일 실시예는 24개의 코어를 포함하고, 이들 코어 각각은 자신의 L1 캐시, 12개의 공유 L2 캐시, 및 12개의 공유된 L3 캐시를 갖는다. 이 실시예에서, L2 및 L3 캐시 중 하나는 2개의 인접한 코어에 의해 공유된다. 프로세서(407) 및 그래픽 가속기 통합 모듈(446)은 프로세서 메모리(401-402)를 포함할 수 있는 시스템 메모리(441)와 연결된다.
일관성 버스(464)를 통한 코어간 통신을 통해 다양한 캐시들(462A-462D, 456) 및 시스템 메모리(441)에 저장된 데이터 및 명령어들에 대해 일관성이 유지된다. 예를 들어, 각각의 캐시는 특정 캐시 라인에 대한 검출된 판독 또는 기록에 응답하여 일관성 버스(464)를 통해 통신하기 위해 그와 연관된 캐시 코히런시 로직/회로를 가질 수 있다. 일 구현예에서, 캐시 스누핑 프로토콜은 캐시 액세스를 스누프하기 위한 일관성 버스(464)를 통해 구현된다. 캐시 스누핑/코히어런시 기술들은 당업자들이 잘 이해할 것이므로, 본 명세서에서는, 본 명세서에 설명된 기본 원리들을 모호하게 하는 것을 피하기 위해 상세히 설명하지 않을 것이다.
그래픽 가속 모듈(446)을 일관성 버스(464)에 통신가능하게 연결하여 그래픽 가속 모듈(446)이 코어들의 피어로서 캐시 일관성 프로토콜에 참여할 수 있게 하는 프록시 회로(425)가 제공될 수 있다. 구체적으로, 인터페이스(435)는 고속 링크(440)(예컨대, PCIe 버스, NVLink 등)를 통해 프록시 회로(425)에 접속성을 제공하고 인터페이스(437)는 그래픽 가속 모듈(446)을 고속으로 링크(440)에 접속시킨다.
일 구현예에서, 가속기 통합 회로(436)는 그래픽 가속 모듈(446)의 복수의 그래픽 처리 엔진(431, 432, N)을 대신하여 캐시 관리, 메모리 액세스, 컨텍스트 관리, 및 인터럽트 관리 서비스를 제공한다. 그래픽 처리 엔진(431, 432, N)은 각각 별개의 그래픽 처리 유닛(GPU)을 포함할 수 있다. 또는, 그래픽 처리 엔진(431, 432, N)은 그래픽 실행 유닛들, 미디어 처리 엔진(예컨대, 비디오 인코더/디코더), 샘플러 및 블릿 엔진과 같은 GPU 내의 상이한 타입들의 그래픽 처리 엔진을 포함할 수 있다. 즉, 그래픽 가속 모듈이 복수의 그래픽 처리 엔진(431-432, N)을 갖는 GPU일 수도 있고, 또는 그래픽 처리 엔진(431-432, N)이 공통 패키지, 라인 카드, 또는 칩 상에 통합된 개별 GPU일 수도 있다.
가속기 통합 회로(436)는 가상-물리(virtual-to-physical) 메모리 변환(유효-실제(effective-to-real) 메모리 변환이라고도 함) 및 시스템 메모리(441)에 액세스하기 위한 메모리 액세스 프로토콜과 같은 다양한 메모리 관리 기능을 수행하기 위한 MMU(memory management unit)(439)를 포함할 수 있다. MMU(439)는 또한 가상/유효-물리/실제 주소 변환을 캐싱하기 위한 변환 색인 버퍼(TLB)(도시되어 있지 않음)를 포함할 수도 있다. 일 구현예에서, 캐시(438)는 그래픽 처리 엔진(431-432, N)에 의한 효율적인 액세스를 위해 커맨드 및 데이터를 저장한다. 캐시(438) 및 그래픽 메모리(433-434, M)에 저장된 데이터는 코어 캐시(462A-462D, 456) 및 시스템 메모리(441)와 일관성을 유지할 수 있다. 언급된 바와 같이, 이것은 캐시(438) 및 메모리(433-434, M)을 대신하여 캐시 일관성 메커니즘에 참여하는 프록시 회로(425)(예컨대, 프로세서 캐시(462A-462D, 456) 상의 캐시 라인의 수정/액세스에 관련된 업데이트를 캐시(438)에 전송하고 캐시(438)로부터 업데이트들을 수신함)를 통해 달성될 수 있다.
레지스터 세트(445)는 그래픽 처리 엔진(431-432, N)에 의해 실행되는 스레드에 대한 컨텍스트 데이터를 저장하고, 컨텍스트 관리 회로(448)는 스레드 컨텍스트를 관리한다. 예를 들어, 컨텍스트 관리 회로(448)는 컨텍스트 스위칭 동안 다양한 스레드의 컨텍스트를 저장하고 복원하기 위해 저장 및 복원 동작을 수행할 수 있다(예컨대, 제 1 스레드가 저장되고 제 2 스레드가 복원되어 제 2 스레드가 그래픽 처리 엔진에 의해 실행될 수 있다). 예를 들어, 컨텍스트 스위치 시에, 컨텍스트 관리 회로(448)는 현재 레지스터 값을 (예컨대, 컨텍스트 포인터에 의해 식별된) 메모리 내의 지정된 영역에 저장할 수 있다. 그 후, 컨텍스트 관리 회로는 콘텍스트로 리턴할 때 레지스터 값을 복원할 수 있다. 인터럽트 관리 회로(447)는, 예를 들어, 시스템 장치로부터 수신된 인터럽트를 수신하고 처리할 수 있다.
일 구현예에서, 그래픽 처리 엔진(431)으로부터의 가상/유효 주소는 MMU(439)에 의해 시스템 메모리(441)의 실제/물리적 주소로 변환된다. 선택적으로, 가속기 통합 회로(436)는 다수의(예컨대, 4, 8, 16) 그래픽 가속기 모듈(446) 및/또는 다른 가속기 장치들을 지원한다. 그래픽 가속기 모듈(446)은 프로세서(407) 상에서 실행되는 단일 애플리케이션에 전용되거나 또는 다수의 애플리케이션들 사이에서 공유될 수 있다. 선택적으로, 그래픽 처리 엔진(431-432, N)의 리소스가 다수의 애플리케이션, 가상 머신(VM) 또는 컨테이너와 공유되는 가상화된 그래픽 실행 환경이 제공된다. 리소스는 VM 및/또는 애플리케이션들과 연관된 처리 요건 및 우선순위에 기초하여 상이한 VM 또는 애플리케이션에 할당되는 "슬라이스들"로 세분될 수 있다. VM 및 컨테이너는 본 명세서에서 교환가능하게 사용될 수 있다.
가상 머신(VM)은 운영 체제 및 하나 이상의 애플리케이션을 실행하는 소프트웨어일 수 있다. VM은 사양, 구성 파일, 가상 디스크 파일, 비휘발성 랜덤 액세스 메모리(NVRAM) 설정 파일, 및 로그 파일에 의해 정의될 수 있고, 호스트 컴퓨팅 플랫폼의 물리 자원에 의해 지원된다. VM은 전용 하드웨어를 모방하는 소프트웨어 상에 설치되는 운영 체제(OS) 또는 애플리케이션 환경을 포함할 수 있다. 최종 사용자는 전용 하드웨어 상에서 가질 수 있는 것과 동일한 경험을 가상 머신 상에서 갖는다. 하이퍼바이저라고 불리는 특수화된 소프트웨어는 PC 클라이언트 또는 서버의 CPU, 메모리, 하드 디스크, 네트워크 및 다른 하드웨어 자원을 완전히 에뮬레이트하여, 가상 머신이 자원을 공유할 수 있게 한다. 하이퍼바이저는 서로로부터 격리되는 다수의 가상 하드웨어 플랫폼을 에뮬레이트할 수 있어, 가상 머신들이 Linux® Windows® 서버, VMware ESXi, 및 다른 운영 체제를 동일한 기저 물리 호스트 상에서 실행할 수 있게 한다.
컨테이너는 애플리케이션, 구성 및 종속성의 소프트웨어 패키지일 수 있으므로, 애플리케이션은 하나의 컴퓨팅 환경에서 다른 컴퓨팅 환경으로 신뢰성있게 실행된다. 컨테이너는 서버 플랫폼 상에 설치된 운영 체제를 공유하고 격리된 프로세스로서 실행할 수 있다. 컨테이너는 시스템 도구, 라이브러리 및 설정과 같은 소프트웨어가 실행될 필요가 있는 모든 것을 포함하는 소프트웨어 패키지일 수 있다.
컨테이너는 전통적인 소프트웨어 프로그램과 같이 설치되지는 않으며, 이로써 다른 소프트웨어 및 운영 체제 자체로부터 격리될 수 있게 한다. 컨테이너의 격리되는 특성은 여러가지 이점을 제공한다. 먼저, 컨테이너 내의 소프트웨어는 상 이한 환경들에서 동일하게 실행될 것이다. 예를 들어, PHP 및 MySQL을 포함하는 컨테이너는 Linux® 컴퓨터와 Windows® 머신 둘 다에서 동일하게 실행될 수 있다. 두번째로, 컨테이너는 추가된 보안을 제공하는데, 그 이유는 소프트웨어가 호스트 운영 체제에 영향을 미치지 않을 것이기 때문이다. 설치된 애플리케이션은, 윈도우즈 레지스트리와 같은, 자원을 수정하고 시스템 설정을 변경할 수 있지만, 컨테이너는 컨테이너 내의 설정만을 수정할 수 있다.
따라서, 가속기 통합 회로(436)는 그래픽 가속 모듈(446)용 시스템에 대한 브리지로서 동작하고 주소 변환 및 시스템 메모리 캐시 서비스를 제공한다. 일 실시예에서, 브리징 기능을 용이하게 하기 위해, 가속기 통합 회로(436)는 또한 전압, 클록킹, 성능, 열들 및 보안의 시스템 제어를 가능하게 하는 하드웨어 및 공유 I/O(497)(예컨대, PCIe, USB 등)를 포함할 수 있다. 공유 I/O(497)는 별개의 물리적 접속을 이용할 수도 있고 고속 링크(440)를 횡단할 수도 있다. 또한, 가속기 통합 회로(436)는 호스트 프로세서가 그래픽 처리 엔진의 가상화, 인터럽트 및 메모리 관리를 용이하게 관리하도록 가상화 설비를 제공할 수 있다.
그래픽 처리 엔진(431-432, N)의 하드웨어 리소스는 호스트 프로세서(407)에 의해 보여지는 실제 주소 공간에 명시적으로 맵핑되기 때문에, 임의의 호스트 프로세서가 유효 주소 값을 사용하여 이들 리소스를 직접 어드레싱할 수 있다. 가속기 통합 회로(436)의 하나의 선택적인 기능은 그래픽 처리 엔진(431-432, N)의 물리적 분리이며, 따라서 이들은 독립적인 유닛으로서 시스템에 나타난다.
하나 이상의 그래픽 메모리(433-434, M)가 각각의 그래픽 처리 엔진(431-432, N)에 제각기 연결될 수도 있다. 그래픽 메모리(433-434, M)는 각각의 그래픽 처리 엔진(431-432, N)에 의해 처리되는 명령어 및 데이터를 저장한다. 그래픽 메모리(433-434, M)는 (적층된 DRAM을 포함하는) DRAM, GDDR(예컨대, GDDR5, GDDR6), 또는 HBM과 같은 휘발성 메모리일 수도 있고/있거나 3D XPoint/Optane, 삼성 Z-NAND 또는 Nano-Ram 과 같은 비휘발성 메모리일 수도 있다.
고속 링크(440)를 통한 데이터 트래픽을 감소시키기 위해, 그래픽 메모리(433-434, M)에 저장된 데이터가 바람직하게는 코어(460A-460D)에 의해 사용되지 않고(적어도 빈번하게 사용되지는 않고) 그래픽 처리 엔진(431-432, N)에 의해 가장 빈번하게 사용될 데이터임을 보장하기 위해 바이어싱 기술이 사용될 수 있다. 유사하게, 바이어싱 메커니즘은 코어(및 바람직하게는 그래픽 처리 엔진(431-432, N)이 아님)에 의해 필요한 데이터를 코어의 캐시(462A-462D, 456) 및 시스템 메모리(441) 내에 유지하려고 시도한다.
도 4c에 도시된 변형예에 따르면, 가속기 집적 회로(436)는 프로세서(407) 내에 집적된다. 그래픽 처리 엔진(431-432, N)은 고속 링크(440)를 통해 인터페이스(437) 및 인터페이스(435)(다시, 임의의 형태의 버스 또는 인터페이스 프로토콜을 이용할 수 있음)를 거쳐 가속기 통합 회로(436)와 통신한다. 가속기 통합 회로(436)는 도 4b와 관련하여 설명한 것들과 동일한 동작들을 수행할 수 있지만, 잠재적으로 일관성 버스(464) 및 캐시(462A-462D, 456)에 아주 근접하면 더 높은 스루풋이 높아질 수 있다.
설명된 실시예들은 전용 프로세스 프로그래밍 모델(그래픽 가속 모듈 가상화 없음) 및 공유 프로그래밍 모델(가상화 있음)을 포함하는 상이한 프로그래밍 모델을 지원할 수 있다. 후자는 가속기 통합 회로(436)에 의해 제어되는 프로그래밍 모델 및 그래픽 가속 모듈(446)에 의해 제어되는 프로그래밍 모델을 포함할 수 있다.
전용 프로세스 모델의 실시예에서, 그래픽 처리 엔진(431-432,..., N)은 단일 운영 체제 하에서 단일 애플리케이션 또는 프로세스에 전용될 수 있다. 단일 애플리케이션은 다른 애플리케이션 요청을 그래픽 엔진(431-432,... N)에 퍼널링(funnel)하여, VM/파티션 내 가상화를 제공할 수 있다.
전용 프로세스 프로그래밍 모델에서, 그래픽 처리 엔진들(431-432, N)은 다수의 VM/애플리케이션 파티션에 의해 공유될 수 있다. 공유 모델은 시스템 하이퍼바이저에게 그래픽 처리 엔진(431-432, N)을 가상화하여 각각의 운영 체제가 액세스할 수 있도록 요구한다. 하이퍼바이저가 없는 단일 파티션 시스템의 경우에는, 그래픽 처리 엔진(431-432, N)을 운영 체제가 소유한다. 두 경우 모두, 운영 체제는 그래픽 처리 엔진(431-432, N)을 가상화하여 각각의 프로세스 또는 애플리케이션에 대한 액세스를 제공할 수 있다.
공유된 프로그래밍 모델에 대해, 그래픽 가속 모듈(446) 또는 개별 그래픽 처리 엔진(431-432, N)은 프로세스 핸들을 사용하여 프로세스 요소를 선택한다. 프로세스 요소는 시스템 메모리(441)에 저장될 수 있고, 본 명세서에 설명된 유효 주소 대 실제 주소 변환 기술들을 사용하여 주소 지정 가능할 수 있다. 프로세스 핸들은 자신의 컨텍스트를 그래픽 처리 엔진(431-432, N)에 등록할 때(즉, 프로세스 요소를 프로세스 요소 링크드 리스트에 추가하기 위해 시스템 소프트웨어를 호출할 때) 호스트 프로세스에 제공되는 구현 특정 값일 수 있다. 프로세스 핸들의 하위 16 비트는 프로세스 요소 링크드 리스트 내의 프로세스 요소의 오프셋일 수 있다.
도 4d는 예시적인 가속기 통합 슬라이스(490)를 도시한다. 본 명세서에서 사용되는 바와 같이, "슬라이스"는 가속기 통합 회로(436)의 처리 리소스들의 특정 부분을 포함한다. 시스템 메모리(441) 내의 애플리케이션 유효 주소 공간(482)은 프로세스 요소(483)를 저장한다. 프로세스 요소(483)는 프로세서(407) 상에서 실행되는 애플리케이션(480)으로부터의 GPU 호출(481)에 응답하여 저장될 수 있다. 프로세스 요소(483)는 대응하는 애플리케이션(480)에 대한 프로세스 상태를 포함한다. 프로세스 요소(483)에 포함된 작업 기술자(WD)(484)는 애플리케이션에 의해 요청된 단일 잡(job)일 수도 있고 또는 잡의 큐에 대한 포인터를 포함할 수도 있다. 후자의 경우에, WD(484)는 애플리케이션의 주소 공간(482) 내 잡 요청 큐에 대한 포인터이다.
그래픽 가속 모듈(446) 및/또는 개별 그래픽 처리 엔진(431-432, N)은 시스템 내 프로세스들의 전부 또는 서브세트에 의해 공유될 수 있다. 예를 들어, 본 명세서에 설명된 기술은 프로세스 상태를 설정하고 가상화된 환경에서 잡(job)을 시작하기 위해 WD(484)를 그래픽 가속 모듈(446)에 전송하기 위한 인프라스트럭처를 포함할 수 있다.
일 구현예에서, 전용 프로세스 프로그래밍 모델은 구현 특정적이다. 이 모델에서는, 단일 프로세스가 그래픽 가속 모듈(446) 또는 개별 그래픽 처리 엔진(431)을 소유한다. 그래픽 가속 모듈(446)이 단일 프로세스에 의해 소유되기 때문에, 그래픽 가속 모듈(446)의 할당 시에 하이퍼바이저는 소유 파티션에 대해 가속기 통합 회로(436)를 초기화하고, 운영 체제는 소유 프로세스에 대해 가속기 통합 회로(436)를 초기화한다.
동작시에, 가속기 통합 슬라이스(490) 내의 WD 페치 유닛(491)은, 그래픽 가속 모듈(446)의 그래픽 처리 엔진들 중 하나에 의해 행해질 작업의 표시를 포함하는 다음 WD(484)를 페치한다. WD(484)로부터의 데이터는 레지스터(445)에 저장될 수 있고, 도시된 바와 같이 MMU(439), 인터럽트 관리 회로(447) 및/또는 컨텍스트 관리 회로(448)에 의해 사용될 수 있다. 예를 들어, MMU(439)는 OS 가상 주소 공간(485) 내의 세그먼트/페이지 테이블들(486)에 액세스하기 위한 세그먼트/ 페이지 워크 회로를 포함할 수 있다. 인터럽트 관리 회로(447)는 그래픽 가속 모듈(446)로부터 수신된 인터럽트 이벤트(492)를 처리할 수 있다. 그래픽 동작을 수행할 때, 그래픽 처리 엔진(431-432, N)에 의해 생성된 유효 주소(493)는 MMU(439)에 의해 실제 주소로 변환된다.
동일한 레지스터(445) 세트는 각각의 그래픽 처리 엔진(431-432, N) 및/또는 그래픽 가속 모듈(446)을 위해 복제될 수 있고, 하이퍼바이저 또는 운영 체제에 의해 초기화될 수 있다. 이들 복제된 레지스터 각각은 가속기 통합 슬라이스(490)에 포함될 수 있다. 일 실시예에서, 각각의 그래픽 처리 엔진(431-432, N)은 별개의 그래픽 프로세서 장치로서 하이퍼바이저(496)에 제공될 수 있다. 특정 그래픽 처리 엔진(431-432, N)의 클라이언트에 대해 QoS 설정이 구성될 수 있고, 각 엔진의 클라이언트들 간의 데이터 격리가 활성화될 수 있다. 하이퍼바이저에 의해 초기화될 수 있는 예시적 레지스터가 표 1에 제시된다.
운영 체제에 의해 초기화될 수 있는 예시적인 레지스터들이 표 2에 도시되어 있다.
각각의 WD(484)는 특정 그래픽 가속 모듈(446) 및/또는 그래픽 처리 엔진(431-432, N)에 특유할 수 있다. WD는 그래픽 처리 엔진(431-432, N)이 그 자신의 작업을 행하도록 요구하는 모든 정보를 포함하거나, 또는 WD는 애플리케이션이 완료되어야 할 작업의 커맨드 큐를 설정한 메모리 위치에 대한 포인터일 수 있다.
도 4e는 공유 모델의 추가적인 선택적 세부사항들을 도시한다. 이 도면은 프로세스 요소 리스트(499)가 저장되는 하이퍼바이저 실제 주소 공간(498)을 포함한다. 하이퍼바이저 실제 주소 공간(498)은 운영 체제(495)에 대해 그래픽 가속 모듈 엔진을 가상화하는 하이퍼바이저(496)를 통해 액세스 가능하다.
공유 프로그래밍 모델은 시스템 내의 파티션들의 전부 또는 서브세트로부터의 프로세스들의 전부 또는 서브세트가 그래픽 가속 모듈(446)을 사용하도록 허용한다. 그래픽 가속 모듈(446)이 다수의 프로세스 및 파티션에 의해 공유되는 2개의 프로그래밍 모델, 즉 시간 분할 공유 및 그래픽 지향 공유가 있다.
이 모델에서, 시스템 하이퍼바이저(496)는 그래픽 가속 모듈(446)을 소유하고 그 기능을 모든 운영 체제(495)가 이용할 수 있게 한다. 그래픽 가속 모듈(446)이 시스템 하이퍼바이저(496)에 의한 가상화를 지원하기 위해, 그래픽 가속 모듈은 다음의 요건들을 준수할 수 있다. 1) 애플리케이션의 잡 요청이 자율적이어야 하거나(즉, 상태가 잡들 사이에서 유지될 필요가 없음), 또는 그래픽 가속 모듈(446)이 컨텍스트 저장 및 복원 메커니즘을 제공해야 한다. 2) 애플리케이션(application)의 잡 요청이, 임의의 변환 결함을 포함하여 지정된 시간 내에 완료되도록 그래픽 가속 모듈(446)에 의해 보장되거나, 또는 그래픽 가속 모듈(446)이 잡의 처리를 선점할 수 있는 능력을 제공한다. 3) 그래픽 가속 모듈(446)은 지시된 공유 프로그래밍 모델에서 동작할 때 프로세스들 간의 공정성이 보장되어야 한다.
공유 모델의 경우, 애플리케이션(480)은 그래픽 가속 모듈(446) 타입, 작업 기술자(WD), 권한 마스크 레지스터(AMR) 값, 및 컨텍스트 저장/복원 영역 포인터(CSRP)를 갖는 운영 체제(495)가 시스템 호출을 행하도록 요구될 수 있다. 그래픽 가속 모듈(446) 타입은 시스템 호출에 대한 목표 가속 함수를 기술한다. 그래픽 가속 모듈(446) 타입은 시스템 특정 값일 수도 있다. WD는 그래픽 가속 모듈(446)에 대해 구체적으로 포맷팅되고, 그래픽 가속 모듈(446) 커맨드, 사용자-정의 구조에 대한 유효 주소 포인터, 커맨드들의 큐(queue)에 대한 유효 주소 포인터, 또는 그래픽 가속 모듈(446)에 의해 행해질 작업을 기술하기 위한 임의의 다른 데이터 구조의 형태일 수 있다. 일 실시예에서, AMR 값은 현재 프로세스에 사용할 AMR 상태이다. 운영 체제로 전달되는 값은 AMR을 설정하는 애플리케이션과 유사하다. 가속기 통합 회로(436) 및 그래픽 가속 모듈(446) 구현예들이 UAMOR(User Authority Mask Override Register)를 지원하지 않는 경우, 운영 체제는 하이퍼바이저 호출에서 AMR을 전달하기 전에 현재 UAMOR 값을 AMR 값에 적용할 수 있다. 하이퍼바이저(496)는 AMR을 프로세스 요소(483)에 배치하기 전에 현재 AMOR(Authority Mask Override Register) 값을 선택적으로 적용할 수 있다. CSRP는 그래픽 가속 모듈(446)이 컨텍스트 상태를 저장 및 복원하기 위해 애플리케이션의 주소 공간(482) 내의 영역의 유효 주소를 포함하는 레지스터들(445) 중 하나일 수 있다. 이 포인터는, 어떤 상태도 작업들 사이에 저장될 필요가 없거나 작업이 선점되는 경우에 선택적이다. 컨텍스트 저장/복원 영역은 고정 시스템 메모리일 수 있다.
시스템 호출 시, 운영 체제(495)는 애플리케이션(480)이 그래픽 가속 모듈(446)을 사용할 권한을 등록하고 부여받았는지 검증할 수 있다. 이어서, 운영 체제(495)는 표 3에 도시된 정보로 하이퍼바이저(496)를 호출한다.
하이퍼바이저 호출을 수신하면, 하이퍼바이저(496)는 운영 체제(495)가 그래픽 가속 모듈(446)을 사용할 권한을 등록하고 부여받았는지 검증한다. 그 다음에, 하이퍼바이저(496)는 프로세스 요소(483)를 대응하는 그래픽 가속 모듈(446) 타입에 대한 프로세스 요소 링크드 리스트에 넣는다. 프로세스 요소는 표 4에 도시된 정보를 포함할 수 있다.
하이퍼바이저는 복수의 가속기 통합 슬라이스(490) 레지스터들(445)을 초기화할 수 있다. 도 4f에 도시된 바와 같이, 하나의 선택적인 구현예에서, 물리적 프로세서 메모리(401 내지 402) 및 GPU 메모리(420 내지 423)에 액세스하는데 사용되는 공통 가상 메모리 주소 공간을 통해 어드레스블 통합 메모리가 채용된다. 이 구현예에서, GPU(410-413)에서 실행되는 동작들은 프로세서 메모리(401-402)에 액세스하기 위해 동일한 가상/유효 메모리 주소 공간을 활용하고, 그 역도 마찬가지이며, 이에 의해 프로그래밍을 단순화할 수 있다. 가상/유효 주소 공간의 제 1 부분은 프로세서 메모리(401)에 할당되고, 제 2 부분은 제 2 프로세서 메모리(402)에 할당되며, 제 3 부분은 GPU 메모리(420)에 할당되거나 할 수 있다. 따라서 전체 가상/유효 메모리 공간(때론 유효 주소 공간이라고도 함)이 프로세서 메모리(401 내지 402) 및 GPU 메모리(420 내지 423) 각각에 걸쳐 분산될 수도 있어, 임의의 프로세서 또는 GPU가 그 메모리에 맵핑된 가상 주소를 갖는 임의의 물리적 메모리에 액세스할 수 있다.
MMU(439A-439E) 중 하나 이상의 MMU 내에, 호스트 프로세서(예컨대, 405)의 캐시와 GPU(410-413) 사이의 캐시 일관성을 보장하고, 특정 타입의 데이터가 저장되어야 하는 물리적 메모리를 표시하는 바이어싱 기술을 구현하는 바이어스/일관성 관리 회로(494A-494E)가 제공될 수 있다. 바이어스/일관성 관리 회로(494A-494E)의 다수의 인스턴스가 도 4f에 예시되지만, 바이어스/일관성 회로는 하나 이상의 호스트 프로세서(405)의 MMU 및/또는 가속기 통합 회로(436) 내에 구현될 수 있다.
GPU 첨부 메모리(420-423)는 시스템 메모리의 일부로서 맵핑되고, 공유 가상 메모리(SVM) 기술을 사용하여 액세스될 수 있지만, 풀 시스템 캐시 일관성과 연관된 전형적인 성능 단점을 겪지 않는다. 번거로운 캐시 일관성 오버헤드 없이 시스템 메모리로서 액세스될 수 있는 GPU-부착 메모리(420-423)에 대한 능력은 GPU 오프로드를 위한 유익한 동작 환경을 제공한다. 이 구성은 호스트 프로세서(405) 소프트웨어가 전통 I/O DMA 데이터 카피의 오버헤드 없이 피연산자를 설정하고 계산 결과에 액세스하는 것을 허용한다. 이러한 전통적인 카피는 드라이버 호출, 인터럽트, 및 메모리 매핑된 I/O(MMIO) 액세스를 포함하며, 이들은 모두 단순한 메모리 액세스에 비해 비효율적이다. 동시에, 캐시 일관성 오버헤드 없이 GPU 첨부 메모리(420-423)에 액세스하는 기능은 오프로딩 계산의 실행 시간에 중요할 수 있다. 예를 들어, 상당한 스트리밍 기록 메모리 트래픽을 갖는 경우, 캐시 일관성 오버헤드는 GPU(410-413)에 의해 보여지는 유효 기록 대역폭을 상당히 감소시킬 수 있다. 피연산자 셋업의 효율, 결과 액세스의 효율 및 GPU 계산의 효율은 모두 GPU 오프로드의 유효성을 결정하는 데 역할을 한다.
GPU 바이어스와 호스트 프로세서 바이어스 사이의 선택은 바이어스 트랙커 데이터 구조에 의해 구동될 수 있다. 예를 들어, GPU-첨부 메모리 페이지 당 1 또는 2 비트를 포함하는 페이지 입도 구조(page-granular structure)(즉, 메모리 페이지의 입도로 제어됨)일 수 있는 바이어스 테이블이 사용될 수 있다. 바이어스 테이블은(예컨대, 바이어스 테이블의 자주/최근에 사용된 엔트리를 캐싱하기 위해) GPU(410-413) 에서 바이어스 캐시를 갖거나 갖지 않는 하나 이상의 GPU-부착 메모리(420-423)의 도난 메모리 범위에서 구현될 수 있다. 또는, 전체 바이어스 테이블은 GPU 내에서 유지될 수 있다.
일 구현예에서, GPU-부착 메모리(420-423)에 대한 각각의 액세스와 연관된 바이어스 테이블 엔트리는 GPU 메모리에 대한 실제 액세스 이전에 액세스되어, 다음 동작이 일어난다. 먼저, GPU 바이어스에서 자신의 페이지를 찾는 GPU(410-413)로부터의 로컬 요청이 대응하는 GPU 메모리(420-423)로 직접 포워딩된다. 호스트 바이어스에서 자신의 페이지를 찾는 GPU로부터의 로컬 요청이 (예컨대, 위에서 논의된 고속 링크를 통해) 프로세서(405)로 포워딩된다. 선택적으로, 호스트 프로세서 바이어스에서 요청된 페이지를 찾는 프로세서(405)로부터의 요청이 정상 메모리 판독과 같은 요청을 완료한다. 또는, GPU-바이어싱된 페이지로 지향된 요청들은 GPU(410-413)로 포워딩될 수 있다. GPU는, 그 후에, 페이지를 현재 사용하고 있지 않으면, 그 페이지를 호스트 프로세서 바이어스로 이동시킬 수 있다.
페이지의 바이어스 상태는 소프트웨어 기반 메커니즘, 하드웨어 보조 소프트웨어 기반 메커니즘에 의해, 또는 제한된 일부 경우에서는 순수 하드웨어 기반 메커니즘에 의해 변경될 수 있다.
바이어스 상태를 변경하기 위한 하나의 메커니즘은 API 호출(예컨대, OpenCL)을 이용하는데, 이는 다시 GPU의 장치 드라이버를 호출하고, 장치 드라이버는 바이어스 상태를 변경하도록 지시하는 메시지를 GPU에 전송하며(또는 커맨드 디스크립터를 인큐잉하고), 일부 변형에서는, 호스트에서 캐시 플러싱 동작을 수행한다. 캐시 플러싱 동작은 호스트 프로세서(405) 바이어스로부터 GPU 바이어스로의 전환에 필요하지만, 반대의 전환에는 필요하지 않다.
캐시 일관성은 GPU-바이어싱된 페이지를 호스트 프로세서(405)에 의해 캐시 불가능하게 일시적으로 렌더링함으로써 유지될 수 있다. 이들 페이지에 액세스하기 위해, 프로세서(405)는 구현에 따라 액세스를 바로 허가할 수도 있고 허가하지 않을 수도 있는 GPU(410)로부터의 액세스를 요청할 수 있다. 따라서, 호스트 프로세서(405)와 GPU(410) 사이의 통신을 감소시키기 위해, GPU-바이어싱된 페이지가 호스트 프로세서(405)가 아니라 GPU에 의해 요구되는 페이지이도록 보장하는 것이 유익하며 그 반대의 경우도 마찬가지다.
그래픽 처리 파이프라인
도 5는 그래픽 처리 파이프라인(500)을 도시한다. 도 2d에서와 같은 그래픽 멀티프로세서(234), 도 3a의 그래픽 멀티프로세서(325), 및 도 3b의 그래픽 멀티프로세서(350)와 같은 그래픽 멀티프로세서가 도시된 그래픽 처리 파이프라인(500)을 구현할 수 있다. 그래픽 멀티프로세서는 도 1의 병렬 프로세서(들)(112)와 관련될 수 있고 이들 중 하나 대신에 사용될 수 있는 도 2a의 병렬 프로세서(200)와 같은 본 명세서에 기술된 바와 같은 병렬 처리 서브시스템 내에 포함될 수 있다. 다양한 병렬 처리 시스템은 본 명세서에 설명된 바와 같이 병렬 처리 유닛(예컨대, 도 2a의 병렬 처리 유닛(202))의 하나 이상의 인스턴스를 통해 그래픽 처리 파이프라인(500)을 구현할 수 있다. 예를 들어, 셰이더 유닛(예컨대, 도 2c의 그래픽 멀티프로세서(234))은 정점 처리 유닛(504), 테셀레이션 제어 처리 유닛(508), 테슬레이션 평가 처리 유닛(512), 기하 처리 유닛(516), 및 프래그먼트/픽셀 처리 유닛(524) 중 하나 이상의 기능들을 수행하도록 구성될 수 있다. 데이터 어셈블러(502), 프리미티브 어셈블러(506, 514, 518), 테셀레이션 유닛(510), 래스터라이저(522), 및 래스터 연산 유닛(526)의 기능은 또한 처리 클러스터(예컨대, 도 2a의 처리 클러스터(214)) 및 대응하는 파티션 유닛(도 2a의 파티션 유닛(220A-220N)) 내의 다른 처리 엔진들에 의해 수행될 수도 있다. 그래픽 처리 파이프라인(500)은 또한 하나 이상의 기능을 위한 전용 처리 유닛을 이용하여 구현될 수도 있다. 그래픽 처리 파이프라인(500)의 하나 이상의 부분이 범용 프로세서(예컨대, CPU) 내의 병렬 처리 로직에 의해 수행되는 것이 또한 가능하다. 선택적으로, 그래픽 처리 파이프라인(500)의 하나 이상의 부분은 도 2a의 메모리 인터페이스(218)의 인스턴스일 수 있는 메모리 인터페이스(528)를 통해 온-칩 메모리(예컨대, 도 2a의 병렬 프로세서 메모리(222))에 액세스할 수 있다. 그래픽 프로세서 파이프라인(500)은 또한 도 3c에서와 같이 멀티-코어 그룹(365A)을 통해 구현될 수 있다.
데이터 어셈블러(502)는 서피스 및 프리미티브에 대한 정점 데이터를 수집할 수 있는 처리 유닛이다. 데이터 어셈블러(502)는 정점 속성을 포함하는 정점 데이터를 정점 처리 유닛(504)에 출력한다. 정점 처리 유닛(504)은 정점 셰이더 프로그램에 의해 지정된 정점 데이터를 조명 및 변환하는 정점 셰이더 프로그램을 실행하는 프로그램 가능한 실행 유닛이다. 정점 처리 유닛(504)은, 정점 데이터를 처리하는데 사용하기 위해 캐시, 로컬 또는 시스템 메모리에 저장되고, 정점 데이터를 객체 기반 좌표 표현으로부터 세계 공간 좌표 공간 또는 정규화된 장치 좌표 공간으로 변환하도록 프로그래밍될 수 있는 데이터를 판독한다.
프리미티브 어셈블러(506)의 제 1 인스턴스는 정점 처리 유닛(504)으로부터 정점 속성을 수신한다. 프리미티브 어셈블러(506)는 필요에 따라 저장된 정점 속성을 판독하고 테셀레이션 제어 처리 유닛(508)에 의한 처리를 위해 그래픽스 프리미티브를 구성한다. 그래픽 프리미티브는 다양한 그래픽 처리 애플리케이션 프로그래밍 인터페이스(API)에 의해 지원되는 삼각형, 라인 세그먼트, 포인트, 패치 등을 포함한다.
테셀레이션 제어 처리 유닛(508)은 입력 정점들을 기하학적 패치에 대한 제어 포인트로서 처리한다. 제어 포인트는 패치(예컨대, 패치의 베이스)로부터의 입력 표현으로부터 테셀레이션 평가 처리 유닛(512)에 의한 표면 평가에서 사용하기에 적합한 표현으로 변환된다. 테셀레이션 제어 처리 유닛(508)은 또한 기하학적 패치의 에지에 대한 테슬레이션 팩터를 계산할 수 있다. 테셀레이션 팩터는 단일 에지에 적용되고, 에지와 연관된 상세의 뷰-의존 레벨(view-dependent level)을 정량화한다. 테셀레이션 유닛(510)은 패치의 에지들에 대한 테슬레이션 인자를 수신하고 패치를 라인, 삼각형, 또는 사변형 프리미티브와 같은 다수의 기하학적 프리미티브로 테셀레이팅하도록 구성되며, 이들 프리미티브는 테셀레이션 평가 처리 유닛(512)으로 전송된다. 테셀레이션 평가 처리 유닛(512)은 세분된 패치의 파라미터화된 좌표들에 대해 동작하여 기하학적 프리미티브와 연관된 각각의 정점에 대한 정점 속성 및 표면 표현을 생성한다.
프리미티브 어셈블러(514)의 제 2 인스턴스는 테셀레이션 평가 처리 유닛(512)으로부터 정점 속성을 수신하고, 필요에 따라 저장된 정점 속성들을 판독하며, 기하 처리 유닛(516)에 의한 처리를 위해 그래픽 프리미티브를 구성한다. 기하 처리 유닛(516)은 기하 셰이더 프로그램에 의해 지정된 바와 같이 프리미티브 어셈블러(514)로부터 수신된 그래픽스 프리미티브를 변환하기 위해 기하 셰이더 프로그램을 실행하는 프로그래밍가능 실행 유닛이다. 기하 처리 유닛(516)은 그래픽 프리미티브를 하나 이상의 새로운 그래픽 프리미티브로 세분하고, 새로운 그래픽 프리미티브를 래스터화하기 위해 사용된 파라미터들을 계산하도록 프로그래밍될 수 있다.
기하 처리 유닛(516)은 기하 스트림에서 요소들을 추가 또는 삭제할 수 있다. 기하 처리 유닛(516)은 새로운 그래픽 프리미티브를 특정하는 파라미터 및 정점을 프리미티브 어셈블러(518)에 출력한다. 프리미티브 어셈블러(518)는 기하 처리 유닛(516)으로부터 파라미터 및 정점을 수신하고 뷰포트 스케일, 컬, 및 클립 유닛(520)에 의한 처리를 위해 그래픽 프리미티브를 구성한다. 기하 처리 유닛(516)은 기하 데이터를 처리하는데 사용하기 위해 병렬 프로세서 메모리 또는 시스템 메모리에 저장된 데이터를 판독한다. 뷰포트 스케일, 컬, 및 클립 유닛(520)은 클립핑, 컬링, 및 뷰포트 스케일링을 수행하고, 처리된 그래픽 프리미티브를 래스터라이저(522)로 출력한다.
래스터라이저(522)는 깊이 컬링 및 다른 깊이 기반 최적화를 수행할 수 있다. 래스터라이저(522)는 또한 새로운 그래픽 프리미티브에 대해 스캔 변환을 수행하여 프래그먼트를 생성하고 이들 프래그먼트 및 관련 커버리지 데이터를 프래그먼트/픽셀 처리 유닛(524)에 출력한다. 프래그먼트/픽셀 처리 유닛(524)은 프래그먼트 셰이더 프로그램 또는 픽셀 셰이더 프로그램을 실행하도록 구성되는 프로그래밍가능 실행 유닛이다. 프래그먼트/픽셀 처리 유닛(524)은, 프래그먼트 또는 픽셀 셰이더 프로그램에 의해 특정된 바와 같이, 래스터라이저(522)로부터 수신된 프래그먼트 또는 픽셀을 변환한다. 예를 들어, 프래그먼트/픽셀 처리 유닛(524)은 래스터 동작 유닛(526)에 출력되는 셰이딩된 프래그먼트 또는 픽셀들을 생성하기 위해 텍스처 맵핑, 셰이딩, 블렌딩, 텍스처 정정 및 원근 보정을 포함하지만 이에 제한되지 않는 동작들을 수행하도록 프로그래밍될 수 있다. 프래그먼트/픽셀 처리 유닛(524)은 프래그먼트 데이터를 처리할 때 사용하기 위해 병렬 프로세서 메모리 또는 시스템 메모리에 저장되는 데이터를 판독할 수 있다. 프래그먼트 또는 픽셀 셰이더 프로그램들은 처리 유닛에 대해 구성된 샘플링 레이트에 따라 샘플, 픽셀, 타일, 또는 다른 입도들에서 쉐이딩하도록 구성될 수 있다.
래스터 연산 유닛(526)은, 스텐실, z-테스트, 블렌딩 등을 포함하지만 이에 제한되지 않는 래스터 연산을 수행하고, 픽셀 데이터를, 하나 이상의 디스플레이 장치(들)(110A-110B) 상에 디스플레이되도록 또는 하나 이상의 프로세서(들)(102) 또는 병렬 프로세서(들)(112) 중 하나에 의한 추가적인 처리를 위해, 그래픽 메모리(예컨대, 도 2a의 병렬 프로세서 메모리(222), 및/또는 도 1의 시스템 메모리(104))에 저장될 처리된 그래픽 데이터로서 출력하는 처리 유닛이다. 래스터 연산 유닛(526)은 메모리에 기록되는 z 또는 컬러 데이터를 압축하고 메모리로부터 판독되는 z 또는 색 데이터를 압축해제하도록 구성될 수도 있다.
머신 학습 개요
전술한 아키텍처는 머신 학습 모델을 사용하여 훈련 및 추론 동작을 수행하도록 적용될 수 있다. 기계 학습은 많은 종류의 작업을 해결하는데 성공적이었다. 머신 학습 알고리즘(예컨대, 신경망)을 훈련하고 사용할 때 발생하는 계산은 본래 효율적인 병렬 구현에 적합하다. 따라서, 범용 그래픽 처리 유닛(general-purpose graphics processing unit; GPGPU)과 같은 병렬 프로세서는 심층 신경망의 실제 구현에서 중요한 역할을 한다. 단일 명령어, 다중 스레드(SIMT) 아키텍처를 갖는 병렬 그래픽 프로세서는 그래픽 파이프라인에서의 병렬 처리의 양을 최대화하도록 설계된다. SIMT 아키텍처에서, 병렬 스레드들의 그룹은 처리 효율을 높이기 위해 가능한 한 자주 프로그램 명령어들을 동기적으로 함께 실행하려고 시도한다. 병렬 머신 학습 알고리즘 구현에 의해 제공되는 효율은 고용량 네트워크의 사용을 허용하고, 이들 네트워크가 더 큰 데이터세트에 대해 훈련될 수 있게 한다.
머신 학습 알고리즘은 데이터 세트에 기초하여 학습할 수 있는 알고리즘이다. 예를 들어, 머신 학습 알고리즘은 데이터 세트 내에서 높은 수준의 추상화를 모델링하도록 설계될 수 있다. 예를 들어, 이미지 인식 알고리즘은 주어진 입력이 여러 카테고리 중 어느 카테고리에 속하는 지 판단하기 위해 사용될 수 있고, 회귀 알고리즘은 입력이 주어지면 숫자 값을 출력할 수 있으며, 패턴 인식 알고리즘은 번역된 텍스트를 생성하거나 텍스트에서 음성으로 그리고/또는 음성 인식을 수행하는 데 사용될 수 있다.
머신 학습 알고리즘의 대표적인 타입은 신경망이다. 신경망에는 여러 타입이 있는데, 간단한 타입의 신경망은 피드 포워드 네트워크이다. 피드포워드 네트워크는 노드들이 레이어로 배열된 비순환 그래프로 구현될 수 있다. 일반적으로, 피드포워드(feedforward) 네트워크 토폴로지는 적어도 하나의 은닉 레이어에 의해 분리되는 입력 레이어 및 출력 레이어를 포함한다. 히든 레이어는 입력 레이어에 의해 수신된 입력을 출력 레이어에서 출력을 생성하는 데 유용한 표현으로 변환한다. 네트워크 노드는 에지를 통해 인접 레이어의 노드에 완전 연결되지만, 각 레이어 내의 노드들 사이에는 에지가 없다. 피드포워드 네트워크의 입력 레이어의 노드에서 수신된 데이터는, 레이어들을 연결하는 각 모서리와 제각기 연관된 계수("가중치")에 기초하여 네트워크 내 각 연속 레이어의 노드 상태를 계산하는 활성화 함수를 통해 출력 레이어의 노드로 전파된다(즉, "피드 포워드"된다). 실행중인 알고리즘이 나타내는 특정 모델에 따라 신경망 알고리즘의 출력은 다양한 형태를 취할 수 있다.
머신 학습 알고리즘을 사용하여 특정 문제를 모델링할 수 있기 전에, 훈련 데이터 세트를 사용하여 알고리즘이 훈련된다. 신경망 훈련은 네트워크 토폴로지를 선택하는 것, 네트워크에 의해 모델링되는 문제를 나타내는 훈련 데이터 세트를 사용하는 것, 훈련 데이터 세트의 모든 인스턴스에 대해 네트워크 모델이 최소한의 오류로 수행될 때까지 가중치를 조정하는 것을 포함한다. 예를 들어, 신경망에 대한 지도 학습 훈련 프로세스 동안, 훈련 데이터 세트의 인스턴스를 나타내는 입력에 응답하여 네트워크에서 생성된 출력은 해당 인스턴스에 대한 "타당(correct)"으로 라벨링된 출력과 비교되며, 출력과 라벨링된 출력 사이의 차가 계산되고, 오류 신호가 네트워크 레이어를 통해 역 전파될 때 오류를 최소화하도록 접속과 연관된 가중치가 조정된다. 훈련 데이터 세트의 인스턴스로부터 생성된 출력들 각각에 대한 오류가 최소화될 경우에 네트워크는 "훈련된" 것으로 간주된다.
머신 학습 알고리즘의 정확도는 알고리즘을 훈련하는 데 사용되는 데이터 세트의 품질에 의해 크게 영향을 받을 수 있다. 훈련 과정은 계산 집약적일 수 있고 종래의 범용 프로세서에서 상당한 시간을 필요로할 수 있다. 따라서, 병렬 처리 하드웨어는 많은 타입의 머신 학습 알고리즘을 훈련하는 데 사용된다. 이것은 신경망의 계수를 조정할 때 수행된 계산이 본질적으로 병렬 구현에 적합하므로 신경망 훈련을 최적화하는 데 특히 유용하다. 특히, 많은 머신 학습 알고리즘 및 소프트웨어 애플리케이션은 범용 그래픽 처리 장치 내에서 병렬 처리 하드웨어를 사용하도록 조정되었다.
도 6은 머신 학습 소프트웨어 스택(600)의 일반화된 도면이다. 머신 학습 애플리케이션(602)은 훈련 데이터세트를 사용하여 신경망을 훈련시키거나 또는 훈련된 심층 신경망을 사용하여 머신 지능을 구현하도록 구성될 수 있는 임의의 로직이다. 머신 학습 애플리케이션(602)은 신경망 및/또는 배치 전에 신경망을 훈련시키는 데 사용될 수 있는 특수 소프트웨어를 위한 훈련 및 추론 기능을 포함할 수 있다. 머신 학습 애플리케이션(602)은 이미지 인식, 매핑 및 위치 확인, 자율 네비게이션, 음성 합성, 의료 이미징 또는 언어 번역을 포함하지만 이에 제한되지 않는 임의의 타입의 머신 지능을 구현할 수 있다. 예시적 머신 학습 애플리케이션(602)은 음성 기반 가상 어시스턴트, 이미지 또는 얼굴 인식 알고리즘, 자율 내비게이션, 및 머신 학습 애플리케이션(602)에 의해 사용되는 머신 학습 모델을 훈련시키는 데 사용되는 소프트웨어 툴을 포함하지만 이에 제한되지는 않는다.
머신 학습 애플리케이션(602)에 대한 하드웨어 가속은 머신 학습 체계(604)를 통해 가능해질 수 있다. 머신 학습 체계(604)는 머신 학습 프리미티브의 라이브러리를 제공할 수 있다. 머신 학습 프리미티브는 머신 학습 알고리즘에 의해 일반적으로 수행되는 기본적인 동작이다. 머신 학습 체계(604)가 없다면, 머신 학습 알고리즘의 개발자는 머신 학습 알고리즘과 관련된 주요 계산 로직을 생성 및 최적화한 다음 새로운 병렬 프로세서가 개발됨에 따라 계산 로직을 다시 최적화해야 한다. 대신에, 머신 학습 애플리케이션은 머신 학습 체계(604)에 의해 제공되는 프리미티브를 사용하여 필요한 계산을 수행하도록 구성될 수 있다. 예시적 프리미티브는 텐서 컨벌루션, 활성화 기능 및 풀링을 포함하는데, 이들은 컨벌루션 신경망(CNN)을 훈련하는 동안 수행되는 계산 동작이다. 머신 학습 체계(604)는 또한 매트릭스 및 벡터 연산과 같은 많은 머신 학습 알고리즘에 의해 수행되는 기본 선형 대수 서브프로그램을 구현하는 프리미티브를 제공할 수 있다. 머신 학습 체계(604)의 예는 TensorFlow, TensorRT, PyTorch, MXNet, Caffee 및 다른 고레벨 머신 학습 체계를 포함하지만 이에 제한되지는 않는다.
머신 학습 체계(604)는 머신 학습 애플리케이션(602)으로부터 수신된 입력 데이터를 처리하고 컴퓨팅 체계(606)에 적절한 입력을 생성할 수 있다. 컴퓨팅 체계(606)는, 머신 학습 체계(604)가 GPGPU 하드웨어(610)의 아키텍처에 대한 많은 지식을 가질 것을 요구하지 않고도 머신 학습 체계(604)가 GPGPU 하드웨어(610)를 통한 하드웨어 가속을 이용할 수 있도록 하는 GPGPU 드라이버(608)에 제공되는 기본 명령어를 추상화할 수 있다. 또한, 컴퓨팅 체계(606)는 다양한 타입 및 세대의 GPGPU 하드웨어(610)에 걸쳐 머신 학습 체계(604)에 대한 하드웨어 가속을 가능하게할 수 있다. 예시적 컴퓨팅 체계(606)는 CUDA 컴퓨팅 체계, 및 cuDNN(CUDA Deep Neural Network) 라이브러리와 같은 관련 머신 학습 라이브러리를 포함한다. 머신 학습 소프트웨어 스택(600)은 또한 다중 GPU 및 다중 노드 컴퓨팅을 용이하게 하는 통신 라이브러리 또는 체계를 포함할 수 있다.
GPGPU 머신 학습 가속
도 7은 도 2a의 병렬 프로세서(200) 또는 도 1의 병렬 프로세서(들)(112)일 수 있는 범용 그래픽 처리 유닛(700)을 도시한다. 범용 처리 유닛(GPGPU)(700)은 심층 신경망 네트워크와 관련된 컴퓨팅 워크로드의 타입을 처리하는 것을 가속화하기 위해 머신 학습 체계에 의해 제공된 프리미티브의 하드웨어 가속에 대한 지원을 제공하도록 구성될 수 있다. 또한 GPGPU(700)은 GPGPU의 다른 인스턴스에 직접 링크되어 다수의 GPU 클러스터를 생성함으로써 특히 심층 신경망에 대한 훈련 속도를 향상시킬 수 있다. 프리미티브는 또한 배포된 신경망에 대한 추론 동작을 가속화하기 위해 지원될 수 있다.
GPGPU(700)는 호스트 프로세서와의 접속을 가능하게 하는 호스트 인터페이스(702)를 포함한다. 호스트 인터페이스(702)는 PCI Express 인터페이스일 수 있다. 그러나, 호스트 인터페이스는 공급자 특정 통신 인터페이스 또는 통신 패브릭일 수도 있다. GPGPU(700)는 호스트 프로세서로부터 커맨드를 수신하고, 글로벌 스케줄러(704)를 사용하여 이들 커맨드과 연관된 실행 스레드를 처리 클러스터 세트(706A-706H)에 분배한다. 처리 클러스터(706A-706H)는 캐시 메모리(708)를 공유한다. 캐시 메모리(708)는 처리 클러스터(706A-706H) 내의 캐시 메모리에 대한 상위 레벨 캐시로서 기능할 수 있다. 도시된 처리 클러스터(706A-706H)는 도 2a에서와 같은 처리 클러스터(214A-214N)에 대응할 수 있다.
GPGPU(700)는 메모리 제어기(712A-712B)의 세트를 통해 처리 클러스터(706A-706H)와 연결된 메모리(714A-714B)를 포함한다. 메모리(714A-714B)는 DRAM(dynamic random-access memory) 또는 그래픽 랜덤 액세스 메모리(예컨대, GDDR(graphics double data rate) 메모리를 포함하는 SGRAM(synchronous graphics random access memory))를 포함하는 다양한 타입의 메모리 장치를 포함할 수 있다. 메모리(714A-714B)는 또한 HBM(high bandwidth memory)을 포함하지만 이에 제한되지 않는 3D 스택형 메모리를 포함할 수 있다.
각각의 처리 클러스터(706A-706H)는 도 2d의 그래픽 멀티프로세서(234), 도 3a의 그래픽 멀티프로세서(325), 도 3b의 그래픽 멀티프로세서(350)와 같은 그래픽 멀티프로세서의 세트를 포함할 수 있거나, 도 3c에서와 같은 멀티-코어 그룹(365A-365N)을 포함할 수 있다. 처리 클러스터의 그래픽 멀티프로세서는 머신 학습 계산에 적합한 것을 포함하는 정밀도의 범위에서 계산 동작을 수행할 수 있는 여러 타입의 정수 및 부동 소수점 로직 유닛을 포함한다. 예를 들어, 처리 클러스터(706A-706H) 각각 내의 부동 소수점 유닛의 적어도 한 서브세트는 16 비트 또는 32 비트 부동 소수점 연산을 수행하도록 구성될 수 있는 반면, 부동 소수점 유닛의 다른 서브세트는 64 비트 부동 소수점 연산을 수행하도록 포인트 단위를 구성될 수 있다.
GPGPU(700)의 다수의 인스턴스는 컴퓨팅 클러스터로서 동작하도록 구성될 수 있다. 동기화 및 데이터 교환을 위해 컴퓨팅 클러스터에 의해 사용되는 통신 메커니즘은 실시예에 따라 다르다. 예를 들어, GPGPU(700)의 다수의 인스턴스는 호스트 인터페이스(702)를 통해 통신한다. 일 실시예에서, GPGPU(700)는 GPGPU(700)와 GPU 링크(710)를 연결하는 I/O 허브(709)를 포함하는데, GPU 링크(710)는 GPGPU의 상이한 인스턴스들에 대한 직접 접속을 가능하게 한다. GPU 링크(710)는 GPGPU(700)의 다수의 인스턴스 사이의 통신 및 동기화를 가능하게 하는 전용 GPU-투-GPU 브리지에 연결될 수 있다. 선택적으로, GPU 링크(710)는 데이터를 다른 GPGPU 또는 병렬 프로세서에 전송하고 그로부터 수신하기 위해 고속 상호 접속부와 연결된다. GPGPU(700)의 다수의 인스턴스는 개별 데이터 처리 시스템에 위치할 수 있으며, 호스트 인터페이스(702)를 통해 액세스할 수 있는 네트워크 장치를 통해 통신할 수 있다. GPU 링크(710)는 호스트 인터페이스(702)에 추가하여 또는 대안으로서 호스트 프로세서에 대한 접속을 가능하게 하도록 구성될 수 있다.
GPGPU(700)의 도시된 구성은 신경망을 훈련시키도록 구성될 수 있지만, GPGPU(700)의 대체 구성은 고성능 또는 저전력 추론 플랫폼 내에서 배치되도록 구성될 수 있다. 추론 구성에서, GPGPU(700)는 훈련 구성에 비해 더 적은 수의 처리 클러스터(706A-706H)를 포함한다. 부가적으로, 메모리(714A-714B)와 관련된 메모리 기술은 추론 구성과 훈련 구성 간에 다를 수 있다. 일 실시예에서, GPGPU(700)의 추론 구성은 추론 특정 명령어를 지원할 수 있다. 예를 들어, 추론 구성은 배치된 신경망에 대한 추론 동작 중에 일반적으로 사용되는 하나 이상의 8 비트 정수 내적 명령어에 대한 지원을 제공할 수 있다.
도 8은 멀티-GPU 컴퓨팅 시스템(800)을 도시한다. 멀티-GPU 컴퓨팅 시스템(800)은 호스트 인터페이스 스위치(804)를 통해 복수의 GPGPU(806A-806D)에 연결된 프로세서(802)를 포함할 수 있다. 호스트 인터페이스 스위치(804)는 프로세서(802)를 PCI 익스프레스 버스에 연결하는 PCI 익스프레스 스위치 장치일 수 있으며, 프로세서(802)는 PCI 익스프레스 버스를 거쳐 GPGPU(806A-806D) 세트와 통신할 수 있다. 복수의 GPGPU(806A-806D) 각각은 도 7의 GPGPU의 인스턴스일 수 있다. GPGPU(806A-806D)는 고속 포인트-투-포인트 GPU-투-GPU 링크(816) 세트를 통해 상호 접속될 수 있다. 고속 GPU-투-GPU 링크는 도 7의 GPU 링크(710)와 같은 전용 GPU 링크를 통해 각각의 GPGPU(806A-806D)에 접속될 수 있다. P2P GPU 링크(816)는 프로세서(802)가 접속되는 호스트 인터페이스 버스를 통한 통신을 필요로 하지 않고 각각의 GPGPU(806A-806D) 사이의 직접 통신을 가능하게 한다. P2P GPU 링크로 향하는 GPU-투-GPU 트래픽을 사용하면, 호스트 인터페이스 버스는 시스템 메모리 액세스가 가능하거나 또는 예를 들어 하나 이상의 네트워크 네트워크를 통해 멀티-GPU 컴퓨팅 시스템(800)의 다른 인스턴스와 통신할 수 있는 상태로 유지된다. 도 8에서 GPGPU(806A-806D)는 호스트 인터페이스 스위치(804)를 통해 프로세서(802)에 접속되지만, 대안적으로 프로세서(802)는 P2P GPU 링크(816)에 대한 직접적인 지원을 포함할 수 있고 GPGPU(806A-806D)에 직접 접속할 수 있다. 일 실시예에서, P2P GPU 링크(816)는 멀티-GPU 컴퓨팅 시스템(800)으로 하여금 단일 로직 GPU로서 동작할 수 있게 한다.
머신 학습 신경망 구현
본 명세서에 설명된 컴퓨팅 아키텍처는 머신 학습을 위한 신경망을 훈련 및 배치하는 데 특히 적합한 병렬 처리의 타입을 수행하도록 구성될 수 있다. 신경망은 그래프 관계를 갖는 기능의 네트워크로서 일반화될 수 있다. 이 분야에 잘 알려진 것과 같이, 머신 학습에 사용되는 신경망 구현예는 다양한 타입이 존재한다. 하나의 예시적 타입의 신경망은 전술한 것과 같은 피드포워드 네트워크이다.
두 번째 예시적인 타입의 신경망은 CNN(Convolutional Neural Network)이다. CNN은, 이미지 데이터와 같이, 알려진 격자형 토폴로지를 갖는 데이터를 처리하기 위한 특수 피드포워드 신경망이다. 따라서, CNN은 일반적으로 컴퓨팅 비전 및 이미지 인식 애플리케이션에 사용되지만, 음성 및 언어 처리와 같은 다른 타입의 패턴 인식에도 사용될 수 있다. CNN 입력 레이어의 노드는 일련의 "필터" 세트(망막에서 발견된 리셉티브 필드(receptive fields)에 의해 영향을 받은 특징 검출기)로 구성되고, 각 필터 세트의 출력은 네트워크의 연속 레이어 내의 노드로 전파된다. CNN에 대한 계산은 컨볼루션 수학 연산을 각 필터에 적용하여 해당 필터의 출력을 생성하는 것을 포함한다. 컨볼루션(Convolution)은 두 개의 원래 함수 중 하나의 수정된 버전인 세 번째 함수를 생성하기 위해 두 함수에 의해 수행되는 특수한 종류의 수학적 연산이다. 컨볼루션 네트워크 용어에서, 컨볼루션에 대한 첫 번째 함수는 입력으로 지칭될 수 있고 두 번째 함수는 컨볼루션 커널로 지칭될 수 있다. 출력은 특징 맵(feature map)으로 지칭될 수 있다. 예를 들어, 컨볼루션 레이어에 대한 입력은 입력 이미지의 다양한 색상 구성 요소를 정의하는 데이터의 다차원 배열일 수 있다. 컨볼루션 커널은 파라미터들의 다차원 배열일 수 있으며, 여기서 파라미터들은 신경망에 대한 훈련 프로세스에 의해 조정된다.
RNN(Recurrent Neural Network)은 레이어들 사이의 피드백 접속을 포함하는 피드포워드 신경망 계열이다. RNN은 사용하면 신경망의 여러 부분에 걸쳐 파라미터 데이터를 공유하여 순차적 데이터의 모델링을 가능하게 할 수 있다. RNN의 아키텍처는 주기를 포함한다. RNN의 출력 데이터 중 적어도 일부가 시퀀스의 후속 입력을 처리하기 위한 피드백으로 사용되기 때문에, 주기는 미래에 변수의 현재 값이 자체 값에 미치는 영향을 나타낸다. 이 특징은, 언어 데이터를 구성하는 데 이용될 수 있는 가변 특성으로 인해, RNN을 언어 처리에 특히 유용하게 만든다.
후술하는 도면은 예시적인 피드포워드, CNN 및 RNN 네트워크를 제시할뿐만 아니라, 이들 타입의 네트워크 각각을 훈련하고 배치하기 위한 일반적인 프로세스를 설명한다. 이들 설명은 본 명세서에 설명된 임의의 특정 실시예에 대해 예시적이고 비제한적이며, 예시된 개념은 일반적으로 심층 신경망 및 머신 학습 기술에 일반적으로 적용될 수 있음을 이해할 수 있을 것이다.
전술한 예시적인 신경망은 심층 학습(deep learning)을 수행하는 데 사용될 수 있다. 심층 학습은 심층 신경망을 사용하는 머신 학습이다. 심층 학습에 사용되는 심층 신경망은, 단일의 은닉 레이어만 포함하는 얕은 신경망과 달리, 복수의 은닉 레이어로 구성된 인공 신경망이다. 심층 신경망은 일반적으로 훈련에 대해 더욱 계산 집약적이다. 그러나, 네트워크의 추가적인 은닉 레이어는 다단계 패턴 인식을 가능하게 하여 얕은 머신 학습 기술에 비해 출력 오류를 줄인다.
심층 학습에 사용되는 심층 신경망은 일반적으로, 모델에 제공된 특징에 기초하여 동작(예컨대, 객체 분류, 음성 인식 등)을 수행할 수 있는 수학적 모델을 나타내는, 백엔드 네트워크에 결합된 특징 인식을 수행하는 프런트 엔드 네트워크를 포함한다. 심층 학습은, 모델에 대해 수작업의 특징 엔지니어링(hand crafted feature engineering)을 수행할 필요없이 머신 학습을 수행할 수 있게 한다. 대신에, 심층 신경망은 입력 데이터 내의 통계 구조 또는 상관에 기초하여 특징을 학습할 수 있다. 학습된 특징은 검출된 특징을 출력에 매핑할 수 있는 수학적 모델에 제공될 수 있다. 네트워크에 의해 사용되는 수학적 모델은 일반적으로 수행될 특정 작업에 특화되며, 다른 작업을 수행하기 위해서는 다른 모델이 사용될 것이다.
신경망이 구축되면, 학습 모델이 네트워크에 적용되어 특정 작업을 수행하도록 네트워크를 훈련시킬 수 있다. 학습 모델은 네트워크의 출력 오류를 줄이기 위해 모델 내 가중치를 조정하는 법을 설명한다. 오류의 역전파(Backpropagation)는 신경망에 사용되는 일반적인 방법이다. 처리를 위해 입력 벡터가 네트워크에 제공된다. 네트워크의 출력은 손실 함수를 사용하여 원하는 출력과 비교되고, 출력 레이어 내의 각 뉴런에 대해 오류 값이 계산된다. 그 다음에, 각 뉴런이 원래 출력에 대한 기여도를 대략적으로 나타내는 관련 오류 값을 가질 때까지, 오류 값이 역 전파된다. 그 다음에, 네트워크는 확률적 경사 하강법(stochastic gradient descent) 알고리즘과 같은 알고리즘을 사용하여 이들 오류로부터 학습하여, 신경망의 가중치를 업데이트할 수 있다.
도 9a 및 도 9b는 예시적인 컨볼루션 신경망을 도시한다. 도 9a는 CNN 내의 다양한 층을 도시한다. 도 9a에 도시된 바와 같이, 이미지 처리를 모델링하는 데 사용되는 예시적인 CNN은 레드, 그린, 블루(RGB) 성분을 나타내는 입력(902)을 수신할 수 있다. 입력(902)은 복수의 컨볼루션 레이어(예컨대, 제 1 컨볼루션 레이어(904), 제 2 컨볼루션 레이어(906))에 의해 처리될 수 있다. 복수의 컨볼루션 레이어로부터의 출력은 선택적으로 완전 연결 레이어(908)의 세트에 의해 처리될 수 있다. 완전 연결 레이어 내의 뉴런은, 앞에서 피드포워드 네트워크에 대해 설명한 바와 같이, 이전 레이어 내의 모든 활성화(activation)에 대한 완전 연결을 갖는다. 완전 연결 레이어(908)로부터의 출력은 네트워크로부터 출력 결과를 생성하는 데 사용될 수 있다. 완전 연결 레이어(908) 내의 활성화는 컨볼루션 대신에 매트릭스 곱을 사용하여 계산될 수 있다. 모든 CNN 구현예들이 완전 연결 레이어(908)를 이용하는 것은 아니다. 예를 들어, 일부 구현예에서, 제 2 컨볼루션 레이어(906)는 CNN에 대한 출력을 생성할 수 있다.
컨볼루션 레이어는 희소하게 연결되는데, 이는 완전 연결 레이어(908)에서 발견되는 통상의 신경망 구조와 상이하다. 통상의 신경망 레이어는 완전 연결되며, 따라서 모든 출력 유닛이 모든 입력 유닛과 상호작용한다. 그러나, 컨볼루션 레이어는 희소하게 연결되는데, 그 이유는 도시된 바와 같이 필드의 컨볼루션의 출력이 (필드 내 각 노드의 제각기의 상태 값 대신에) 후속 레이어의 노드에 대한 입력이기 때문이다. 종래의 레이어와 연관된 커널은 컨볼루션 동작을 수행하며, 그 출력은 다음 레이어로 전송된다. 컨볼루션 레이어 내에서 수행된 차원 수 감소는 CNN이 큰 이미지를 처리하도록 확장할 수 있게 하는 하나의 양태이다.
도 9b는 CNN의 컨볼루션 레이어 내에서의 예시적인 계산 스테이지들을 도시한다. CNN의 컨볼루션(912)에 대한 입력은 컨볼루션 레이어(914)의 3개의 스테이지에서 처리될 수 있다. 이들 세 스테이지는 컨볼루션 스테이지(916), 검출기 스테이지(918), 및 풀링 스테이지(920)를 포함할 수 있다. 그 다음에, 컨볼루션 레이어(914)는 후속하는 컨볼루션 레이어에 데이터를 출력할 수 있다. 네트워크의 최종 컨볼루션 레이어는 출력 특징 맵 데이터를 생성하거나 또는 완전 연결 레이어에 입력을 제공하여, 예를 들어 CNN에 입력할 분류 값을 생성할 수 있다.
컨볼루션 스테이지(916)에서 여러 컨볼루션을 병렬로 수행하여 선형 활성화 세트를 생성한다. 컨볼루션 스테이지(916)는 아핀 변환(affine transformation)을 포함할 수 있으며, 이것은 선형 변환과 평행 이동의 합으로 지정될 수 있는 임의의 변환이다. 아핀 변환은, 회전, 평행 이동, 확장, 및 이들 변환의 조합을 포함한다. 컨볼루션 스테이지는 입력의 특정 영역(이는 뉴런과 연관된 로컬 영역으로 결정될 수 있다)에 연결되는 함수(예컨대, 뉴런)의 출력을 계산한다. 뉴런은 뉴런의 가중치와 뉴런이 연결되는 로컬 입력의 영역 사이의 내적을 계산한다. 컨볼루션 스테이지(916)로부터의 출력은 컨볼루션 레이어(914)의 후속 스테이지에 의해 처리되는 선형 활성화 세트를 정의한다.
선형 활성화는 검출기 스테이지(918)에 의해 처리될 수 있다. 검출기 스테이지(918)에서, 각각의 선형 활성화는 비선형 활성화 함수에 의해 처리된다. 비선형 활성화 함수는, 컨볼루션 레이어의 리셉티브 필드에 영향을 주지않고 전체 네트워크의 비선형 특성을 증가시킨다. 여러 타입의 비선형 활성화 함수가 사용될 수 있다. 하나의 특정한 타입은 정류 선형 유닛(rectified linear unit: ReLU)인데, 이는 활성화가 0에서 임계값을 갖도록 f(x)=max(0,x)로 정의된 활성화 함수이다.
풀링 스테이지(920)는 제 2 컨볼루션 레이어(906)의 출력을 주변 출력들의 요약 통계로 대체하는 풀링 함수를 사용한다. 풀링 함수는, 입력에 대한 작은 평행 이동이 풀링된 출력을 변경하지 않도록, 신경망에 평행 이동 불변성을 도입하는 데 사용할 수 있다. 로컬 평행 이동에 대한 불변성은 입력 데이터 내 특징의 존재가 특징부의 정확한 위치보다 더 중요한 시나리오에서 유용할 수 있다. 풀링 스테이지(920) 동안, 최대 풀링, 평균 풀링 및 l2-표준(norm) 풀링을 포함하는 다양한 타입의 풀링 함수가 사용될 수 있다. 또한, 일부 CNN 구현예는 풀링 스테이지를 포함하지 않는다. 대신에, 이들 구현예는 이전 컨볼루션 스테이지에 비해 증가된 스트라이드(stride)를 갖는 추가 컨볼루션 스테이지로 대체한다.
그 다음에 컨볼루션 레이어(914)의 출력은 다음 레이어(922)에 의해 처리될 수 있다. 다음 레이어(922)는 추가 컨볼루션 레이어 또는 완전 연결 레이어(908) 중 하나일 수 있다. 예를 들어, 도 9a의 제 1 컨볼루션 레이어(904)는 제 2 컨볼루션 레이어(906)에 출력할 수 있고, 제 2 컨볼루션 레이어는 완전 연결 레이어(908)의 제 1 레이어에 출력할 수 있다.
도 10은 예시적인 순환 신경망(1000)을 도시한다. 순환 신경망(RNN)에서, 네트워크의 이전 상태는 네트워크의 현재 상태의 출력에 영향을 준다. RNN은 다양한 함수를 사용하여 다양한 방식으로 구축될 수 있다. RNN의 사용은 일반적으로 수학적 모델을 사용하여 이전 입력 시퀀스에 기초하여 미래를 예측하는 것을 주로 다룬다. 예를 들어, RNN은, 이전 단어 시퀀스가 주어질 경우 그 다음 단어를 예측하기 위해 통계적 언어 모델링을 수행하는 데 사용될 수 있다. 도시된 RNN(1000)은 입력 벡터를 수신하는 입력 레이어(1002), 순환 함수를 구현하기 위한 은닉 레이어(1004), 이전 상태의 '메모리'를 인에이블하는 피드백 메커니즘(1005), 및 결과를 출력하는 출력 레이어(1006)를 갖는 것으로 설명될 수 있다. RNN(1000)은 시간 단계에 기초하여 동작한다. 주어진 시간 단계에서 RNN의 상태는 피드백 메커니즘(1005)을 통한 이전 시간 단계에 기초하여 영향을 받는다. 주어진 시간 단계에서, 은닉 레이어(1004)의 상태는 이전 상태 및 현재 시간 단계에서의 입력에 의해 정의된다. 제 1 시간 단계에서의 최초 입력(x1)은 은닉 레이어(1004)에 의해 처리될 수 있다. 제 2 입력(x2)은 최초 입력(x1)의 처리 동안 결정되는 상태 정보를 사용하여 은닉 레이어(1004)에 의해 처리될 수 있다. 주어진 상태는 st=f(Uxt+Wst-1)로 계산될 수 있으며, 여기서 U와 W는 파라미터 매트릭스이다. 함수(f)는 일반적으로 쌍곡선 탄젠트 함수(Tanh) 또는 정류기 함수 f(x)=max(0,x)의 변형과 같은 비선형이다. 그러나, 은닉 레이어(1004)에 사용된 특정 수학 함수는 RNN(1000)의 특정 구현예의 세부사항에 따라 변할 수 있다.
전술한 기본 CNN 및 RNN 네트워크 외에, 이들 네트워크에 대한 변형의 가속이 가능할 수 있다. RNN 변형의 한 예로 LSTM(long short-term memory) RNN이 있다. LSTM RNN은 더 긴 언어 시퀀스를 처리하는 데 필요할 수 있는 장기 의존성을 학습할 수 있다. CNN의 변형은 컨볼루션 심층 신뢰 네트워크(deep belief network: DBN)로, 이는 CNN과 유사한 구조를 가지며 심층 신뢰 네트워크와 유사한 방식으로 훈련된다. 심층 신뢰 네트워크(DBN)는 확률적(무작위) 변수의 복수 레이어로 구성된 생성 신경망이다. DBN은 그리디 비지도 학습(greedy unsupervised learning)을 사용하여 레이어별로 훈련될 수 있다. 그 후, DBN의 학습된 가중치는, 신경망에 대한 최적의 초기 가중치 집합을 결정함으로써 사전 훈련 신경망을 제공하는 데 사용될 수 있다.
도 11은 심층 신경망의 훈련 및 배치를 도시한다. 주어진 네트워크가 태스크를 위해 구조화되면, 신경망은 훈련 데이터세트(1102)를 사용하여 훈련된다. 훈련 과정의 하드웨어 가속이 가능하도록 다양한 훈련 체계(1104)가 개발되었다. 예를 들어, 도 6의 머신 학습 체계(604)는 훈련 체계(604)로서 구성될 수 있다. 훈련 체계(1104)는 훈련되지 않은 신경망(1106)에 연결될 수 있고, 본 명세서에 설명된 병렬 처리 리소스를 사용하여 훈련되지 않은 신경망을 훈련시켜 훈련된 신경망(1108)을 생성할 수 있다.
훈련 과정을 시작하기 위해, 초기 가중치는 랜덤하게 또는 DBN을 사용하는 사전 훈련에 의해 선택될 수 있다. 이 때, 훈련 주기는 지도 또는 비지도 방식으로 수행된다.
지도 학습은, 예컨대, 훈련 데이터세트(1102)가 입력에 대한 원하는 출력과 쌍을 이루는 입력을 포함하는 경우, 또는 훈련 데이터세트가 알려진 출력을 갖는 입력을 포함하고 신경망의 출력이 수동적으로 등급이 정해지는 경우, 중재된 동작으로서 훈련이 수행되는 학습 방법이다. 네트워크는 입력을 처리하고 산출되는 출력을 예상 또는 원하는 출력 세트와 비교한다. 이후, 시스템을 통해 오류가 역전파된다. 훈련 체계(1104)는 훈련되지 않은 신경망(1106)을 제어하는 가중치를 조정하도록 조정할 수 있다. 훈련 체계(1104)는 훈련되지 않은 신경망(1106)이 알려진 입력 데이터에 기초하여 정확한 답변을 생성하기에 적합한 모델을 향해 얼마나 잘 수렴하는지를 모니터하는 도구를 제공할 수 있다. 훈련 과정은 신경망에 의해 생성된 출력을 개선하기 위해 네트워크의 가중치가 조정됨에 따라 반복적으로 발생한다. 훈련 과정은 신경망이 훈련된 신경망(1108)과 관련된 통계적으로 원하는 정확도에 도달할 때까지 계속될 수 있다. 이후, 훈련된 신경망(1108)은 새로운 데이터(1112)의 입력에 기초하여 추론 결과(1114)를 생성하기 위해 임의의 개수의 머신 학습 동작을 구현하도록 배치될 수 있다.
비지도 학습은 네트워크가 표시되지 않은 데이터(unlabeled data)를 사용하여 스스로 학습을 시도하는 학습 방법이다. 따라서, 비지도 학습을 위해, 훈련 데이터세트(1102)는 어떠한 관련된 출력 데이터 없이 입력 데이터를 포함할 것이다. 훈련되지 않은 신경망(1106)은 표시되지 않은 입력 내의 그룹화를 학습할 수 있고, 개별 입력이 전체 데이터세트와 어떻게 관련되는지를 결정할 수 있다. 비지도 훈련은, 데이터의 차원을 감소시키기에 유용한 연산을 수행할 수 있는 훈련된 신경망(1108)의 한 타입인 자체 구성 맵(self-organizing map)을 생성하는 데 사용될 수 있다. 비지도 훈련은 또한 이상 검출을 수행하는 데 사용될 수 있는데, 이상 검출은 입력 데이터세트에서 데이터의 정상적인 패턴에서 벗어난 데이터 포인트의 식별을 허용한다.
지도 및 비지도 훈련에 대한 변형이 또한 사용될 수 있다. 반지도 학습은 훈련 데이터세트(1102)에 동일한 분포의 표시된 데이터와 표시되지 않은 데이터가 혼합된 것이 포함되는 기술이다. 증분 학습은 입력 데이터를 지속적으로 사용하여 모델을 추가 훈련하는 지도 학습의 변형이다. 증분 학습은 훈련된 신경망(1108)이 초기 훈련 동안 네트워크 내에 주입된 지식을 잊지 않고 새로운 데이터(1112)에 적응할 수 있도록 한다.
지도인지 비지도인지에 관계없이, 특히 심층 신경망에 대한 훈련 과정은 단일 컴퓨팅 노드에 대해 너무 계산 집약적일 수 있다. 단일 컴퓨팅 노드를 사용하는 대신 컴퓨팅 노드의 분산 네트워크를 사용하여 훈련 과정을 가속화할 수 있다.
도 12a는 분산 학습을 도시하는 블록도이다. 분산 학습은 복수의 분산 컴퓨팅 노드를 사용하여 신경망의 지도 또는 비지도 훈련을 수행하는 훈련 모델이다. 분산 컴퓨팅 노드는 각각, 도 7의 고도-병렬 범용 그래픽 처리 유닛(700)과 같은 범용 처리 노드들 중 하나 이상과 하나 이상의 호스트 프로세서를 포함할 수 있다. 도시된 것과 같이, 분산 학습은 모델 병렬성(1202), 데이터 병렬성(1204), 또는 모델 및 데이터 병렬성의 조합(1206)을 사용하여 수행될 수 있다.
모델 병렬성(1202)에서, 분산 시스템의 상이한 컴퓨팅 노드는 단일 네트워크의 상이한 부분에 대한 훈련 계산을 수행할 수 있다. 예를 들어, 신경망의 각각의 계층은 분산 시스템의 다른 처리 노드에 의해 학습될 수 있다. 모델 병렬성의 이점은 특히 큰 모델로 스케일링할 수 있는 능력을 포함한다. 신경망의 상이한 계층들과 관련된 계산을 분할하면, 모든 계층의 가중치가 단일 컴퓨팅 노드의 메모리에 맞지 않는 매우 큰 신경망을 훈련할 수 있다. 일부 인스턴스에서, 모델 병렬성은 대규모 신경망의 비지도 훈련을 수행하는 데 특히 유용할 수 있다.
데이터 병렬성(1204)에서, 분산 네트워크의 상이한 노드들은 모델의 완료된 인스턴스를 가지며 각각의 노드는 데이터의 상이한 부분을 수신한다. 이후, 상이한 노드들로부터의 결과가 결합된다. 데이터 병렬성에 대한 다른 접근법이 가능하지만, 모든 데이터 병렬 훈련 접근법은 결과를 결합하고 각각의 노드 사이에서 모델 파라미터를 동기화하는 기술을 필요로 한다. 데이터를 결합하는 예시적 접근법은 파라미터 평균화 및 업데이트 기반 데이터 병렬성을 포함한다. 파라미터 평균화는 훈련 데이터의 서브세트 상에서 각각의 노드를 훈련시키고, 전역 파라미터(예컨대, 가중치, 바이어스)를 각각의 노드로부터의 파라미터의 평균으로 설정한다. 파라미터 평균화는 파라미터 데이터를 관리하는 중앙 파라미터 서버를 사용한다. 업데이트 기반 데이터 병렬성은 노드로부터의 파라미터를 파라미터 서버로 전송하는 대신 모델에 대한 업데이트가 전송된다는 점을 제외하고는 파라미터 평균화와 유사하다. 또한 업데이트 기반 데이터 병렬성은 분산된 방식으로 수행될 수 있는데, 여기서 업데이트는 압축되어 노드들 간에 전송된다.
조합된 모델 및 데이터 병렬성(1206)은, 예를 들어 각각의 컴퓨팅 노드가 복수의 GPU를 포함하는 분산 시스템에서 구현될 수 있다. 각각의 노드는 모델의 완료된 인스턴스를 가질 수 있고, 각각의 노드 내의 분리된 GPU는 모델의 상이한 부분을 훈련시키는 데 사용된다.
분산 훈련은 단일 머신 상에서의 훈련에 비해 오버헤드를 증가시킨다. 그러나, 본 명세서에 설명된 병렬 프로세서 및 GPGPU는 각각, 고대역폭 GPU-투-GPU 데이터 전송 및 가속 원격 데이터 동기화를 가능하게 하는 기술을 포함하여 분산 훈련의 오버헤드를 감소시키는 다양한 기술을 구현할 수 있다.
도 12b는 프로그래밍 가능 네트워크 인터페이스(1210) 및 데이터 처리 유닛을 도시하는 블록도이다. 프로그래밍 가능 네트워크 인터페이스(1210)는 분산 환경 내에서 네트워크 기반 컴퓨팅 작업을 가속화하는 데 사용될 수 있는 프로그래밍 가능 네트워크 엔진이다. 프로그래밍 가능 네트워크 인터페이스(1210)는 호스트 인터페이스(1270)를 통해 호스트 시스템과 연결될 수 있다. 프로그래밍 가능 네트워크 인터페이스(1210)는 호스트 시스템의 CPU 또는 GPU에 대한 네트워크 또는 저장 동작을 가속화하기 위해 사용될 수 있다. 예를 들어, 호스트 시스템은, 예를 들어 도 12a에 도시된 바와 같은 분산 훈련을 수행하기 위해 사용되는 분산 학습 시스템의 노드일 수 있다. 호스트 시스템은 또한 데이터 센터 내의 데이터 센터 노드일 수 있다.
일 실시예에서, 모델 데이터를 포함하는 원격 스토리지에 대한 액세스는 프로그래밍 가능 네트워크 인터페이스(1210)에 의해 가속화될 수 있다. 예를 들어, 프로그래밍 가능 네트워크 인터페이스(1210)는 원격 저장 장치를 로컬 저장 장치로서 호스트 시스템에 제공하도록 구성될 수 있다. 프로그래밍 가능 네트워크 인터페이스(1210)는 또한 원격 시스템의 GPU를 갖는 호스트 시스템의 GPU들 사이에서 수행되는 원격 직접 메모리 액세스(remote direct memory access: RDMA) 동작을 가속화할 수 있다. 일 실시예에서, 프로그래밍 가능 네트워크 인터페이스(1210)는 NVME-oF와 같은(이에 제한되지는 않음) 저장 기능을 가능하게할 수 있다. 프로그래밍 가능 네트워크 인터페이스(1210)는 또한 호스트 시스템을 대신하여 원격 스토리지에 대한 암호화, 데이터 무결성, 압축, 및 다른 동작을 가속화할 수 있으므로, 원격 스토리지는 호스트 시스템에 직접 부착되는 저장 장치의 대기 시간에 접근할 수 있다.
프로그래밍 가능 네트워크 인터페이스(1210)는 또한 호스트 시스템을 대신하여 리소스 할당 및 관리를 수행할 수 있다. 스토리지 보안 동작은 프로그래밍 가능 네트워크 인터페이스(1210)로 오프로딩될 수 있고, 원격 스토리지 리소스의 할당 및 관리와 함께 수행될 수 있다. 호스트 시스템의 프로세서에 의해 수행될 수도 있는 원격 스토리지에 대한 액세스를 관리하기 위한 네트워크 기반 동작은 프로그래밍 가능 네트워크 인터페이스(1210)에 의해 대신 수행될 수 있다.
일 실시예에서, 네트워크 및/또는 데이터 보안 동작은 호스트 시스템에서 프로그래밍 가능 네트워크 인터페이스(1210)로 오프로딩될 수 있다. 데이터 센터 노드에 대한 데이터 센터 보안 정책은 호스트 시스템의 프로세서 대신 프로그래밍 가능 네트워크 인터페이스(1210)에 의해 처리될 수 있다. 예를 들어, 프로그래밍 가능 네트워크 인터페이스(1210)는 호스트 시스템 상에서 시도된 네트워크 기반 공격(예컨대, DDoS)을 검출하고 완화하여, 공격이 호스트 시스템의 가용성을 손상시키는 것을 방지할 수 있다.
프로그래밍 가능 네트워크 인터페이스(1210)는 다수의 프로세서 코어(1222)를 통해 운영 체제를 실행하는 시스템 온 칩(SoC)(1220)을 포함할 수 있다. 프로세서 코어(1222)는 범용 프로세서(예컨대, CPU) 코어를 포함할 수 있다. 일 실시예에서, 프로세서 코어(1222)는 또한 하나 이상의 GPU 코어를 포함할 수 있다. SoC(1220)는 메모리 장치(1240)에 저장된 명령어를 실행할 수 있다. 저장 장치(1250)는 로컬 운영 체제 데이터를 저장할 수 있다. 저장 장치(1250) 및 메모리 장치(1240)는 또한 호스트 시스템에 대한 원격 데이터를 캐시하는 데 사용될 수 있다. 네트워크 포트(1260A-1260B)는 네트워크 또는 패브릭에 대한 접속을 가능하게 하고, SoC(1220)에 대한 네트워크 액세스를 용이하게 하며, 호스트 인터페이스(1270)를 통해 호스트 시스템에 대해 네트워크 액세스를 용이하게 한다. 프로그래밍 가능 네트워크 인터페이스(1210)는 또한 USB 인터페이스와 같은 I/O 인터페이스(1275)를 포함할 수 있다. I/O 인터페이스(1275)는 외부 장치를 프로그래밍 가능한 네트워크 인터페이스(1210)에 연결하는 데 사용될 수 있거나 디버그 인터페이스로서 사용될 수 있다. 프로그래밍 가능 네트워크 인터페이스(1210)는 또한 호스트 장치 상의 소프트웨어로 하여금 프로그래밍 가능 네트워크 인터페이스(1210) 및/또는 SoC(1220)를 관리하고 구성할 수 있게 하는 관리 인터페이스(1230)를 포함한다. 일 실시예에서, 프로그래밍 가능 네트워크 인터페이스(1210)는 또한, SoC(1220), 호스트 시스템, 또는 네트워크 포트(1260A-1260B)를 통해 연결된 원격 시스템으로부터의 병렬 컴퓨팅 작업의 오프로딩을 수락하기 위해 하나 이상의 가속기 또는 GPU(1245)를 포함할 수 있다.
예시적 머신 학습 애플리케이션
머신 학습은, 컴퓨터 비전, 자율 주행 및 내비게이션, 음성 인식, 및 언어 처리를 포함하지만 이에 제한되지 않는 다양한 기술적 문제를 해결하기 위해 적용될 수 있다. 컴퓨터 비전은 전통적으로 머신 학습 애플리케이션에서 가장 활발한 연구 분야 중 하나였다. 컴퓨터 비전의 애플리케이션은 얼굴 인식과 같은 인간의 시각 능력의 재생에서 시각 능력의 새로운 카테고리를 생성하는 것에까지 이른다. 예를 들어, 컴퓨터 비전 애플리케이션은 비디오에서 볼 수 있는 물체에 유도된 진동으로부터 음파를 인식하도록 구성될 수 있다. 병렬 프로세서 가속 머신 학습은 이전에 가능했던 것보다 훨씬 더 많은 훈련 데이터세트를 사용하여 컴퓨터 비전 애플리케이션을 훈련하는 것을 가능하게 하고, 저전력 병렬 프로세서를 사용하여 추론 시스템을 배치하는 것을 가능하게 한다.
병렬 프로세서 가속 머신 학습은, 차선 및 도로 표지판 인식, 장애물 회피, 내비게이션, 및 주행 제어를 포함하는 자율 주행 애플리케이션을 갖는다. 가속 머신 학습 기술은 특정 훈련 입력에 대한 적절한 응답을 정의하는 데이터세트에 기초하여 운전 모델을 훈련하는 데 사용될 수 있다. 본 명세서에 설명된 병렬 프로세서는 자율 주행 솔루션에 사용되는 점점 더 복잡한 신경망의 빠른 훈련을 가능하게 하고, 자율 주행 차량에 통합하기에 적합한 모바일 플랫폼에 저전력 추론 프로세서를 배치하는 것을 가능하게 한다.
병렬 프로세서 가속 심층 신경망은 자동 음성 인식(ASR)에 대한 머신 학습 접근법을 가능하게 하였다. ASR은 입력 음향 시퀀스가 주어지면 가장 가능성 있는 언어 시퀀스를 컴퓨팅하는 기능의 생성을 포함한다. 심층 신경망을 사용하는 가속 머신 학습은, 이전에 ASR에 사용된 HMM(hidden Makov model) 및 GMM(Gaussian mixture model)의 대체를 가능하게 했다.
병렬 프로세서 가속 머신 학습은 또한 자연 언어 처리를 가속화하는 데 사용될 수 있다. 자동 학습 절차는 통계적 추론 알고리즘을 사용하여 잘못되었거나 또는 익숙하지 않은 입력에 대해 강인한 모델을 생성할 수 있다. 예시적 자연 언어 프로세서 애플리케이션은 인간 언어들 간의 자동 기계 번역을 포함한다.
머신 학습에 사용되는 병렬 처리 플랫폼은 훈련 플랫폼 및 배치 플랫폼으로 나뉠 수 있다. 훈련 플랫폼은 일반적으로 고도로 병렬적이며, 멀티-GPU 단일 노드 훈련 및 멀티-노드 멀티-GPU 훈련을 가속화하는 최적화를 포함한다. 훈련에 적합한 예시적 병렬 프로세서는 도 7의 범용 그래픽 처리 유닛(700) 및 도 8의 멀티-GPU 컴퓨팅 시스템(800)을 포함한다. 반대로, 배치된 머신 학습 플랫폼은 일반적으로, 카메라, 자율 로봇 및 자율 주행 차량과 같은 제품에 사용하기에 적합한 저전력 병렬 프로세서를 포함한다.
또한, 그래픽 처리 활동을 가속화하거나 향상시키기 위해 머신 학습 기술이 적용될 수 있다. 예를 들어, 머신 학습 모델은 GPU 가속 애플리케이션에 의해 생성된 출력을 인식하고 해당 출력의 업 스케일된 버전을 생성하도록 훈련될 수 있다. 이러한 기술은 게임 애플리케이션을 위한 고해상도 이미지의 생성을 가속화 하기 위해 적용될 수 있다. 다양한 다른 그래픽 파이프라인 활동은 머신 학습을 사용하여 이점을 얻을 수 있다. 예를 들어, 머신 학습 모델은 기하학적 모델의 복잡성을 높이기 위해 기하 데이터에 대한 테셀레이션 동작을 수행하도록 훈련될 수 있으므로, 상대적으로 낮은 디테일의 기하(geometry)로부터 미세한 디테일의 기하가 자동으로 생성될 수 있다.
도 13은 훈련된 모델을 사용하여 추론을 수행하기에 적합한 예시적 추론 시스템 온 칩(SOC)(1300)을 도시한다. SOC(1300)는, 미디어 프로세서(1302), 비전 프로세서(1304), GPGPU(1306) 및 멀티-코어 프로세서(1308)를 포함하는 처리 컴포넌트들을 통합할 수 있다. GPGPU(1306)는 GPGPU(700)와 같은 본 명세서에 설명된 GPGPU일 수 있고, 멀티-코어 프로세서(1308)는 멀티-코어 프로세서(405-406)와 같은 본 명세서에 설명된 멀티-코어 프로세서일 수 있다. SOC(1300)는 각각의 처리 컴포넌트가 액세스할 수 있는 공유형 온-칩 데이터 풀을 가능하게 하는 온-칩 메모리(1305)를 추가로 포함할 수 있다. 처리 컴포넌트는 저전력 동작에 최적화되어 자율 주행 차량 및 자율 로봇을 포함한 다양한 머신 학습 플랫폼으로의 배치를 가능하게할 수 있다. 예를 들어, SOC(1300)의 일 구현예는 자율 주행 차량을 위한 주 제어 시스템의 일부로서 사용될 수 있다. SOC(1300)가 자율 주행 차량에 사용되도록 구성되는 경우 SOC는 배치 관할 구역의 관련 기능성 안전 표준을 준수하도록 설계 및 구성된다.
동작하는 동안, 미디어 프로세서(1302) 및 비전 프로세서(1304)는 컴퓨터 비전 동작을 가속화하기 위해 함께 작동할 수 있다. 미디어 프로세서(1302)는 복수의 고해상도(예컨대, 4K, 8K) 비디오 스트림의 낮은 대기 시간 디코딩을 가능하게할 수 있다. 디코딩된 비디오 스트림은 온-칩 메모리(1305)의 버퍼에 기록될 수 있다. 이후, 비전 프로세서(1304)는, 디코딩된 비디오를 파싱하고, 훈련된 이미지 인식 모델을 사용하여 프레임을 처리할 준비를 위해, 디코딩된 비디오의 프레임에 대해 예비 처리 동작을 수행할 수 있다. 예를 들어, GPGPU(1306)에 의해 백 엔드 모델 계산이 수행되는 동안, 비전 프로세서(1304)는 고해상도 비디오 데이터에 대한 이미지 인식을 수행하는 데 사용되는 CNN에 대한 컨볼루션 연산을 가속화할 수 있다.
멀티-코어 프로세서(1308)는 미디어 프로세서(1302) 및 비전 프로세서(1304)에 의해 수행되는 데이터 전송 및 공유 메모리 동작의 시퀀싱 및 동기화를 보조하는 제어 로직을 포함할 수 있다. 멀티-코어 프로세서(1308)는 또한 GPGPU(1306)의 추론 컴퓨팅 능력을 사용할 수 있는 소프트웨어 애플리케이션을 실행하는 애플리케이션 프로세서로서 기능할 수 있다. 예를 들어, 내비게이션 및 구동 로직의 적어도 일부는 멀티-코어 프로세서(1308) 상에서 실행되는 소프트웨어로 구현될 수 있다. 이러한 소프트웨어는 계산 워크로드를 GPGPU(1306)로 직접 발행하거나 또는 계산 워크로드가 멀티-코어 프로세서(1308)로 발행될 수 있는데, 멀티-코어 프로세서(1308)는 이러한 동작의 적어도 일부를 GPGPU(1306)로 오프로딩할 수 있다.
GPGPU(1306)는 범용 그래픽 처리 유닛(700) 내의 처리 클러스터(706A-706H)의 저전력 구성과 같은 컴퓨팅 클러스터를 포함할 수 있다. GPGPU(1306) 내의 컴퓨팅 클러스터는 훈련된 신경망에서 추론 계산을 수행하도록 구체적으로 최적화된 명령어를 지원할 수 있다. 예를 들어, GPGPU(1306)는 8 비트 및 4 비트 정수 벡터 연산과 같은 낮은 정밀도 계산을 수행하는 명령어를 지원할 수 있다.
추가 시스템 개요
도 14는 처리 시스템(1400)의 블록도이다. 본원의 임의의 다른 도면의 요소와 동일하거나 유사한 명칭을 갖는 도 14의 요소는 다른 도면에서와 동일한 요소를 설명하고, 그와 유사한 방식으로 동작하거나 기능할 수 있고, 본 명세서의 다른 곳에서 설명된 것과 동일한 컴포넌트를 포함할 수 있으며 다른 엔티티에 링크될 수 있지만, 이에 제한되지는 않는다. 시스템(1400)은 단일 프로세서 데스크탑 시스템, 멀티 프로세서 워크스테이션 시스템, 또는 많은 수의 프로세서(1402) 또는 프로세서 코어(1407)를 갖는 서버 시스템에서 사용될 수 있다. 시스템(1400)은 로컬 또는 광역 네트워크에 유선 또는 무선으로 연결될 수 있는 사물 인터넷(IoT) 내의 장치와 같은 모바일, 휴대형 또는 내장형 장치에 사용되는 시스템 온 칩(SoC) 집적 회로 내에 통합된 처리 플랫폼일 수 있다.
시스템(1400)은 도 1의 컴포넌트에 대응하는 컴포넌트를 갖는 처리 시스템일 수 있다. 예를 들어, 상이한 구성에서, 프로세서(들)(1402) 또는 프로세서 코어(들)(1407)는 도 1의 프로세서(들)(102)에 대응할 수 있다. 그래픽 프로세서 (들)(1408)는 도 1의 병렬 프로세서(들)(112)에 대응할 수 있다. 외부 그래픽 프로세서(1418)는 도 1의 애드인 장치(들)(120) 중 하나일 수 있다.
시스템(1400)은 서버 기반 게이밍 플랫폼, 및 게임 및 미디어 콘솔, 모바일 게이밍 콘솔, 휴대형 게임 콘솔 또는 온라인 게임 콘솔을 포함하는 게임 콘솔을 포함하거나, 이들에 연결되거나, 이들 내에 통합될 수 있다. 시스템(1400)은 휴대 전화, 스마트 폰, 태블릿 컴퓨팅 장치 또는 내부 저장 용량이 작은 랩탑과 같은 모바일 인터넷 연결 장치의 일부일 수 있다. 처리 시스템(1400)은 또한 스마트 와치 웨어러블 장치와 같은 웨어러블 장치; 실제 시각, 오디오 또는 촉각 경험을 보완하기 위한 시각적, 오디오 또는 촉각 출력을 제공하거나 텍스트, 오디오, 그래픽, 비디오, 홀로그램 이미지 또는 비디오 또는 촉각 피드백을 제공하는 증강 현실(AR) 또는 가상 현실(VR) 기능으로 강화된 스마트 아이웨어 또는 의복; 다른 증강 현실(AR) 장치; 또는 다른 가상 현실(VR) 장치를 포함하거나, 이들에 연결되거나, 이들 내에 통합될 수 있다. 처리 시스템(1400)은 텔레비전 또는 셋톱 박스 장치를 포함하거나 그 일부일 수 있다. 시스템(1400)은 버스, 트랙터 트레일러, 자동차, 모터 또는 전동 사이클, 비행기 또는 글라이더(또는 이들의 임의의 조합)와 같은 자율 주행 차량을 포함하거나, 이들에 연결되거나, 이들 내에 통합될 수 있다. 자율 주행 차량은 시스템(1400)을 사용하여 차량 주위에서 감지된 환경을 처리할 수 있다.
하나 이상의 프로세서(1402)는 실행될 때 시스템 또는 사용자 소프트웨어에 대한 동작을 수행하는 명령어를 처리하는 하나 이상의 프로세서 코어(1407)를 포함할 수 있다. 하나 이상의 프로세서 코어(1407) 중 적어도 하나는 특정 명령어 세트(1409)를 처리하도록 구성될 수 있다. 명령어 세트(1409)는 CISC(Complex Instruction Set Computing), RISC(Reduced Instruction Set Computing), 또는 VLIW(Very Long Instruction Word)를 통한 컴퓨팅을 용이하게할 수 있다. 하나 이상의 프로세서 코어(1407)는 다른 명령어 세트의 에뮬레이션을 용이하게 하는 명령어를 포함할 수 있는 다른 명령어 세트(1409)를 처리할 수 있다. 프로세서 코어(1407)는 또한 DSP(Digital Signal Processor)와 같은 다른 처리 장치를 포함할 수 있다.
프로세서(1402)는 캐시 메모리(1404)를 포함할 수 있다. 아키텍처에 따라, 프로세서(1402)는 단일 내부 캐시 또는 내부 캐시의 복수 레벨을 가질 수 있다. 일부 실시예에서, 캐시 메모리는 프로세서(1402)의 다양한 컴포넌트 사이에서 공유된다. 일부 실시예에서, 프로세서(1402)는 또한 외부 캐시(예를 들어, 레벨 3(L3) 캐시 또는 LLC(Last Level Cache))(도시하지 않음)를 사용하고, 이들은 공지의 캐시 일관성 기술(cache coherency techniques)을 사용하여 프로세서 코어(1407) 사이에서 공유될 수 있다. 레지스터 파일(1406)이 프로세서(1402)에 추가로 포함될 수 있으며, 상이한 타입의 데이터를 저장하는 상이한 타입의 레지스터(예를 들어, 정수 레지스터, 부동 소수점 레지스터, 상태 레지스터 및 명령어 포인터 레지스터)를 포함할 수 있다. 일부 레지스터는 범용 레지스터일 수 있지만, 다른 레지스터는 프로세서(1402)의 설계에 특정될 수 있다.
하나 이상의 프로세서(들)(1402)는 하나 이상의 인터페이스 버스(들)(1410)와 연결되어 시스템(1400)의 프로세서(1402)와 다른 컴포넌트 사이에서 주소, 데이터 또는 제어 신호와 같은 통신 신호를 전송할 수 있다. 이런 실시예들 중 하나에서, 인터페이스 버스(1410)는 DMI(Direct Media Interface) 버스의 특정 버전과 같은 프로세서 버스일 수 있다. 그러나, 프로세서 버스는 DMI 버스로 제한되지 않으며, 하나 이상의 PCI(Peripheral Component Interconnect) 버스(예를 들어, PCI, PCI 익스프레스), 메모리 버스 또는 다른 타입의 인터페이스 버스를 포함할 수 있다. 프로세서(들)(1402)는 통합된 메모리 제어기(1416) 및 플랫폼 제어기 허브(1430)를 포함할 수 있다. 메모리 제어기(1416)는 메모리 장치와 시스템(1400)의 다른 컴포넌트 사이의 통신을 용이하게 하고, 플랫폼 제어기 허브(PCH)(1430)는 로컬 I/O 버스를 통해 I/O 장치에 접속을 제공한다.
메모리 장치(1420)는 DRAM(dynamic random-access memory) 장치, SRAM(static random-access memory) 장치, 플래시 메모리 장치, 상-변화 메모리 장치, 또는 프로세스 메모리로서 기능을 하기에 적절한 성능을 갖는 일부 다른 메모리 장치일 수 있다. 예를 들어, 메모리 장치(1420)는 하나 이상의 프로세서(1402)가 애플리케이션 또는 프로세스를 실행할 때 사용하는 데이터(1422) 및 명령어(1421)를 저장하는, 시스템(1400)용 시스템 메모리로서 동작할 수 있다. 메모리 제어기(1416)는 또한 그래픽 및 미디어 동작을 수행하기 위해 프로세서(1402) 내의 하나 이상의 그래픽 프로세서(1408)와 통신할 수 있는 선택적인 외부 그래픽 프로세서(1418)와 연결된다. 일부 실시예에서, 그래픽, 미디어 및/또는 컴퓨팅 동작은 그래픽, 미디어 또는 컴퓨팅 동작의 특수 세트를 수행하도록 구성될 수 있는 보조 프로세서인 가속기(1412)에 의해 지원될 수 있다. 예를 들어, 가속기(1412)는 머신 학습 또는 컴퓨팅 동작을 최적화하는데 사용되는 매트릭스(matrix) 승산 가속기일 수 있다. 가속기(1412)는 그래픽 프로세서(1408)와 협력하여 광선-추적(ray-tracing) 동작을 수행하는데 사용될 수 있는 광선-추적 가속기일 수 있다. 일 실시예에서, 외부 가속기(1419)가 가속기(1412)를 대체하여 또는 가속기(1412)와 함께 사용될 수 있다.
프로세서(들)(1402)에 접속될 수 있는 디스플레이 장치(1411)가 제공될 수 있다. 디스플레이 장치(1411)는 모바일 전자 장치 또는 랩탑 장치에서와 같은 내부 디스플레이 장치 또는 디스플레이 인터페이스(예를 들어, DisplayPort 등)를 통해 부착된 외부 디스플레이 장치 중 하나 이상일 수 있다. 디스플레이 장치(1411)는 가상 현실(VR) 애플리케이션 또는 증강 현실(AR) 애플리케이션에서 사용하는 입체 디스플레이 장치와 같은 헤드 마운트 디스플레이(HMD)일 수 있다.
플랫폼 제어기 허브(1430)는 주변 장치가 고속 I/O 버스를 통해 메모리 장치(1420) 및 프로세서(1402)에 접속될 수 있게 할 수 있다. I/O 주변 장치는 오디오 제어기(1446), 네트워크 제어기(1434), 펌웨어 인터페이스(1428), 무선 송수신기(1426), 터치 센서(1425), 데이터 저장 장치(1424)(예를 들어, 비휘발성 메모리, 휘발성 메모리, 하드 디스크 드라이브, 플래시 메모리, NAND, 3D NAND, 3D XPoint/Optane 등)를 포함하지만, 이에 제한되는 것은 아니다. 데이터 저장 장치(1424)는 저장 인터페이스(예를 들어, SATA)를 통해 또는 PCI 버스(예를 들어, PCI, PCI 익스프레스)와 같은 주변 장치 버스를 통해 연결될 수 있다. 터치 센서(1425)는 터치 스크린 센서, 압력 센서 또는 지문 센서를 포함할 수 있다. 무선 송수신기(1426)는 Wi-Fi 송수신기, 블루투스 송수신기, 또는 3G, 4G, 5G 또는 LTE(Long-Term Evolution) 송수신기와 같은 모바일 네트워크 송수신기일 수 있다. 펌웨어 인터페이스(1428)는 시스템 펌웨어와의 통신을 가능하게 하고, 예를 들어, UEFI(unified extensible firmware interface)일 수 있다. 네트워크 제어기(1434)는 유선 네트워크에 대한 네트워크 접속을 가능하게할 수 있다. 일부 실시예에서, 고성능 네트워크 제어기(도시하지 않음)는 인터페이스 버스(1410)에 연결된다. 오디오 제어기(1446)는 멀티-채널 고선명 오디오 제어기일 수 있다. 이런 실시예들 중 일부에서, 시스템(1400)은 레거시(예를 들어, PS/2(Personal System 2)) 장치를 시스템에 연결하기 위한 선택적인 레거시 I/O 제어기(1440)를 포함한다. 플랫폼 제어기 허브(1430)는 또한 키보드 및 마우스 조합(1443), 카메라(1444) 또는 다른 USB 입력 장치와 같은 하나 이상의 USB(Universal Serial Bus) 제어기(1442) 연결 입력 장치에 접속할 수 있다.
다르게 구성된 다른 타입의 데이터 처리 시스템이 또한 사용될 수 있기 때문에, 도시된 시스템(1400)은 예시적이며 제한적이지 않다는 점이 이해될 것이다. 예를 들어, 메모리 제어기(1416) 및 플랫폼 제어기 허브(1430)의 경우는 외부 그래픽 프로세서(1418)와 같은 별개의 외부 그래픽 프로세서에 통합될 수 있다. 플랫폼 제어기 허브(1430) 및/또는 메모리 제어기(1416)는 하나 이상의 프로세서(들)(1402)의 외부에 있을 수 있다. 예를 들어, 시스템(1400)은 외부 메모리 제어기(1416) 및 플랫폼 제어기 허브(1430)를 포함할 수 있으며, 이는 프로세서(들)(1402)와 통신하는 시스템 칩셋 내의 메모리 제어기 허브 및 주변 장치 제어기 허브로서 구성될 수 있다.
예를 들어, CPU, 메모리 및 다른 컴포넌트와 같은 컴포넌트가 장착된 회로 보드("슬레드(sleds)")가 사용되며 열적 성능을 향상시키도록 설계될 수 있다. 프로세서와 같은 처리 컴포넌트는 슬레드의 위쪽에 위치할 수 있고, DIMM과 같은 니어 메모리(near memory)는 슬레드의 아래쪽에 위치한다. 이 설계에서 제공하는 향상된 공기 흐름으로 인해, 컴포넌트들은 일반적인 시스템에서보다 높은 주파수 및 전력 레벨에서 동작하여 성능이 향상될 수 있다. 또한, 슬레드는 랙(rack)에서 전원 및 데이터 통신 케이블과 임의로 결합하도록 구성되어 있으므로, 신속하게 제거, 업그레이드, 재설치 및/또는 교체될 수 있는 능력을 향상시킬 수 있다. 마찬가지로, 프로세서, 가속기, 메모리 및 데이터 저장 드라이브와 같이 슬레드 상에 위치하는 개별 컴포넌트는 서로의 간격이 넓어짐에 따라 쉽게 업그레이드할 수 있도록 구성된다. 예시적인 실시예에서, 컴포넌트는 진품임을 증명하기 위한 하드웨어 증명 특징을 추가로 포함한다.
데이터 센터는 이더넷 및 옴니 경로(Omni-Path)를 포함하는 복수의 다른 네트워크 아키텍처를 지원하는 단일 네트워크 아키텍처("패브릭(fabric)")를 이용할 수 있다. 슬레드는 광섬유를 통해 스위치에 연결될 수 있으며, 이는 전형적인 트위스트 페어 케이블링(예를 들어, 카테고리 5, 카테고리 5e, 카테고리 6 등)보다 높은 대역폭과 낮은 대기 시간을 제공한다. 높은 대역폭, 낮은 대기 시간 상호 접속 및 네트워크 아키텍처로 인해, 데이터 센터는, 사용 중에, 메모리, 가속기(예를 들어, GPU, 그래픽 가속기, FPGA, ASIC, 신경망 및/또는 인공 지능 가속기 등) 및 물리적으로 분리된 데이터 저장 드라이브와 같은 리소스를 풀링하고(pool), 필요에 기반하여 이들에게 컴퓨팅 리소스(예를 들어, 프로세서)를 제공하여 컴퓨팅 리소스가 로컬인 것처럼 풀링된 리소스에 액세스할 수 있도록 한다.
파워 서플라이 또는 전원은 본 명세서에 설명된 시스템(1400) 또는 임의의 컴포넌트에 전압 및/또는 전류를 제공할 수 있다. 일 예에서, 파워 서플라이는 벽 콘센트에 플러그하기 위한 AC-DC(교류-직류) 어댑터를 포함한다. 이러한 AC 전력은 재생 가능 에너지(예를 들어, 태양광) 전원일 수 있다. 일 예에서, 전원은 외부 AC-DC 변환기와 같은 DC 전원을 포함한다. 전원 또는 파워 서플라이는 또한 충전 필드에 근접함으로써 충전하는 무선 충전 하드웨어를 포함할 수 있다. 전원은 내부 배터리, 교류 전원, 모션 기반 전원, 태양광 전원 또는 연료 전지 전원을 포함할 수 있다.
도 15a 내지 도 15c는 컴퓨팅 시스템 및 그래픽 프로세서를 도시한다. 본원의 임의의 다른 도면의 요소와 동일하거나 유사한 명칭을 갖는 도 15a 내지 도 15c의 요소는 다른 도면에서와 동일한 요소를 설명하고, 그와 유사한 방식으로 동작하거나 기능할 수 있고, 본 명세서의 다른 곳에서 설명된 것과 동일한 컴포넌트를 포함할 수 있으며 다른 엔티티에 링크될 수 있지만, 이에 제한되지는 않는다.
도 15a는, 프로세서들(1402) 중 하나의 변형일 수 있고 이들 중 하나를 대신하여 사용될 수 있는 프로세서(1500)의 블록도이다. 따라서, 본 명세서에서 프로세서(1500)와 조합된 임의의 특징의 개시는 또한 프로세서(들)(1402)와의 대응하는 조합을 개시하지만, 이에 제한되지는 않는다. 프로세서(1500)는 하나 이상의 프로세서 코어(1502A-1502N), 통합된 메모리 제어기(1514) 및 통합된 그래픽 프로세서(1508)를 가질 수 있다. 통합된 그래픽 프로세서(1508)가 제외되는 경우, 프로세서를 포함하는 시스템은 시스템 칩셋 내에 또는 시스템 버스를 통해 연결된 그래픽 프로세서 장치를 포함할 것이다. 프로세서(1500)는 점선 박스로 표시된 추가 코어(1502N)까지 포함하는 추가 코어를 포함할 수 있다. 프로세서 코어(1502A-1502N) 각각은 하나 이상의 내부 캐시 유닛(1504A-1504N)을 포함한다. 일부 실시예에서, 각각의 프로세서 코어(1502A-1502N)는 또한 하나 이상의 공유 캐시 유닛(1506)에 액세스할 수 있다. 내부 캐시 유닛(1504A-1504N) 및 공유 캐시 유닛(1506)은 프로세서(1500) 내의 캐시 메모리 계층 구조를 나타낸다. 캐시 메모리 계층 구조는 각각의 프로세서 코어 내의 명령어 및 데이터 캐시의 적어도 하나의 레벨과, 캐시의 레벨 2(L2), 레벨 3(L3), 레벨 4(L4) 또는 기타 레벨과 같은 공유된 중간-레벨 캐시의 하나 이상의 레벨을 포함할 수 있으며, 외부 메모리 이전의 최고 레벨의 캐시는 LLC로 분류된다. 일부 실시예에서, 캐시 일관성 로직은 다양한 캐시 유닛(1506 및 1504A-1504N) 사이의 일관성을 유지시킨다.
프로세서(1500)는 또한 하나 이상의 버스 제어기 유닛(1516) 및 시스템 에이전트 코어(1510)의 세트를 포함할 수 있다. 하나 이상의 버스 제어기 유닛(1516)은 하나 이상의 PCI 또는 PCI 익스프레스 버스와 같은 주변 장치 버스 세트를 관리한다. 시스템 에이전트 코어(1510)는 다양한 프로세서 컴포넌트에 대한 관리 기능을 제공한다. 시스템 에이전트 코어(1510)는 다양한 외부 메모리 장치(도시하지 않음)에 대한 액세스를 관리하는 하나 이상의 통합된 메모리 제어기(1514)를 포함할 수 있다.
예를 들어, 하나 이상의 프로세서 코어(1502A-1502N)는 동시 멀티-스레딩에 대한 지원을 포함할 수 있다. 시스템 에이전트 코어(1510)는 멀티-스레드 처리 동안 코어(1502A-1502N)를 조정하고 동작시키는 컴포넌트를 포함한다. 시스템 에이전트 코어(1510)는 전력 제어 유닛(PCU)을 추가로 포함할 수 있고, 이 전력 제어 유닛(PCU)은 프로세서 코어(1502A-1502N) 및 그래픽 프로세서(1508)의 전력 상태를 조절하는 로직 및 컴포넌트를 포함한다.
프로세서(1500)는 그래픽 처리 동작을 실행하는 그래픽 프로세서(1508)를 추가로 포함할 수 있다. 이런 실시예들 중 일부에서, 그래픽 프로세서(1508)는 공유 캐시 유닛(1506)의 세트 및 하나 이상의 통합 메모리 제어기(1514)를 포함하는 시스템 에이전트 코어(1510)에 연결된다. 시스템 에이전트 코어(1510)는 또한 그래픽 프로세서 출력을 하나 이상의 연결된 디스플레이로 구동하는 디스플레이 제어기(1511)를 포함할 수 있다. 디스플레이 제어기(1511)는 또한 적어도 하나의 상호 접속부를 통해 그래픽 프로세서에 연결된 별개의 모듈일 수 있거나, 그래픽 프로세서(1508) 내에 통합될 수 있다.
링-기반 상호 접속 유닛(1512)은 프로세서(1500)의 내부 컴포넌트를 연결하는데 사용될 수 있다. 그러나, 포인트-투-포인트(point-to-point) 상호 접속부, 스위칭된 상호 접속부, 또는 이 분야의 공지 기술을 포함한 다른 기술을 포함하는 대안적인 상호 접속 유닛이 사용될 수 있다. 링-기반 상호 접속부(1512)을 갖는 이런 실시예들 중 일부에서, 그래픽 프로세서(1508)는 I/O 링크(1513)를 통해 링-기반 상호 접속부(1512)에 연결된다.
예시적인 I/O 링크(1513)는 다양한 프로세서 컴포넌트와 eDRAM 모듈과 같은 고성능 내장형 메모리 모듈(1518) 사이의 통신을 용이하게 하는 온 패키지 I/O 상호 접속부를 포함하는 복수의 다양한 I/O 상호 접속부 중 적어도 하나를 나타낸다. 선택적으로, 각각의 프로세서 코어(1502A-1502N) 및 그래픽 프로세서(1508)는 공유 LLC로서 내장형 메모리 모듈(1518)을 사용할 수 있다.
예를 들어, 프로세서 코어(1502A-1502N)는 동일한 명령어 세트 아키텍처를 실행하는 균질 코어일 수 있다. 대안적으로, 프로세서 코어(1502A-1502N)는 명령어 세트 아키텍처(ISA)의 관점에서 비균질하며, 이 경우 프로세서 코어(1502A-1502N) 중 하나 이상은 제 1 명령어 세트를 실행하고, 다른 코어의 적어도 하나는 제 1 명령어 세트의 서브세트 또는 다른 명령어 세트를 실행한다. 프로세서 코어(1502A-1502N)는 마이크로 아키텍처의 관점에서 비균질할 수 있고, 이 경우 비교적 많은 전력을 소비하는 하나 이상의 코어는 적은 전력을 소비하는 하나 이상의 전력 코어와 연결된다. 다른 예로서, 프로세서 코어(1502A-1502N)는 컴퓨팅 능력의 관점에서 비균질하다. 부가적으로, 프로세서(1500)는 다른 컴포넌트에 더하여 도시된 컴포넌트를 갖는, 하나 이상의 칩 상에 구현되거나 또는 SoC 집적 회로로서 구현될 수 있다.
도 15b는 본 명세서에서 설명된 일부 실시예에 따른 그래픽 프로세서 코어(1519)의 하드웨어 로직의 블록도이다. 코어 슬라이스로 종종 지칭되는 그래픽 프로세서 코어(1519)는 모듈식 그래픽 프로세서 내의 하나 또는 복수의 그래픽 코어일 수 있다. 그래픽 프로세서 코어(1519)는 하나의 그래픽 코어 슬라이스의 예시이며, 본 명세서에 설명된 그래픽 프로세서는 목표 전력 및 성능 포락선에 따라 복수의 그래픽 코어 슬라이스를 포함할 수 있다. 각각의 그래픽 프로세서 코어(1519)는 범용 및 고정 기능 로직의 모듈식 블록을 포함하는, 서브-슬라이스라고도 지칭되는 복수의 서브-코어(1521A-1521F)와 연결된 고정 기능 블록(1530)을 포함할 수 있다.
고정 기능 블록(1530)은 그래픽 프로세서 코어(1519)의 모든 서브-코어에 의해, 예를 들어 낮은 성능 및/또는 저전력 그래픽 프로세서 구현예에서 공유될 수 있는 기하(geometry)/고정 기능 파이프라인(1531)을 포함할 수 있다. 기하/고정 기능 파이프라인(1531)은 3D 고정 기능 파이프라인(예를 들어, 후술되는 도 16a에서와 같은 3D 파이프라인(1612)), 비디오 프론트-엔드 유닛, 스레드 생성기 및 스레드 디스패처, 및 통합 반환 버퍼(예를 들어, 후술되는 도 17의 통합 반환 버퍼(1718))를 관리하는 통합 반환 버퍼 관리자를 포함할 수 있다.
고정 기능 블록(1530)은 또한 그래픽 SoC 인터페이스(1532), 그래픽 마이크로컨트롤러(1533) 및 미디어 파이프라인(1534)을 포함할 수 있다. 그래픽 SoC 인터페이스(1532)는 그래픽 프로세서 코어(1519)와 시스템 온 칩 집적 회로 내의 다른 프로세서 코어 사이의 인터페이스를 제공한다. 그래픽 마이크로컨트롤러(1533)는 스레드 디스패치, 스케줄링 및 선점(pre-emption)을 포함하는 그래픽 프로세서 코어(1519)의 다양한 기능을 관리하도록 구성될 수 있는 프로그래밍 가능한 서브-프로세서이다. 미디어 파이프라인(1534)(예를 들어, 도 16a 및 도 17의 미디어 파이프라인(1616))은 이미지 및 비디오 데이터를 포함하는 멀티미디어 데이터의 디코딩, 인코딩, 사전 처리 및/또는 사후 처리를 용이하게 하는 로직을 포함한다. 미디어 파이프라인(1534)은 서브-코어(1521A-1521F) 내의 컴퓨팅 또는 샘플링 로직에 대한 요청을 통해 미디어 동작을 구현한다.
SoC 인터페이스(1532)는 그래픽 프로세서 코어(1519)로 하여금 범용 애플리케이션 프로세서 코어(예를 들어, CPU), 및/또는 공유 LLC 메모리, 시스템 RAM 및/또는 내장형 온 칩 또는 온 패키지 DRAM과 같은 메모리 계층 구조 요소를 포함하는 SoC 내의 다른 컴포넌트와 통신할 수 있게 할 수 있다. SoC 인터페이스(1532)는 또한 카메라 이미징 파이프라인과 같은 SoC 내의 고정 기능 장치와의 통신을 가능하게 할 수 있고, 그래픽 프로세서 코어(1519)와 SoC 내의 CPU 사이에서 공유될 수 있는 전역 메모리 원자(global memory atomics)를 사용 및/또는 구현할 수 있게 한다. SoC 인터페이스(1532)는 또한 그래픽 프로세서 코어(1519)에 대한 전력 관리 제어를 구현할 수 있고, 그래픽 프로세서 코어(1519)의 클럭 도메인과 SoC 내의 다른 클럭 도메인 사이의 인터페이스를 가능하게 할 수 있다. 선택적으로, SoC 인터페이스(1532)는 그래픽 프로세서 내의 하나 이상의 그래픽 코어 각각에 커맨드 및 명령어를 제공하도록 구성된 커맨드 스트리머 및 전역 스레드 디스패처로부터 커맨드 버퍼의 수신을 가능하게 한다. 커맨드 및 명령어는 미디어 동작이 수행되어야 할 때 미디어 파이프라인(1534)에 디스패치되거나, 또는 그래픽 처리 동작이 수행되어야 할 때 기하 및 고정 기능 파이프라인(예를 들어, 기하 및 고정 기능 파이프라인(1531), 기하 및 고정 기능 파이프라인(1537))으로 디스패치될 수 있다.
그래픽 마이크로컨트롤러(1533)는 그래픽 프로세서 코어(1519)에 대한 다양한 스케줄링 및 관리 태스크를 수행하도록 구성될 수 있다. 일 구성에서, 예를 들어, 그래픽 마이크로컨트롤러(1533)는 서브-코어(1521A-1521F) 내의 실행 유닛(EU) 어레이(1522A-1522F, 1524A-1524F) 내의 다양한 그래픽 병렬 엔진 상에서 그래픽 수행하고 및/또는 워크로드 스케줄링을 계산할 수 있다. 이 워크로드 스케줄링에서, 그래픽 프로세서 코어(1519)를 포함하는 SoC의 CPU 코어 상에서 실행되는 호스트 소프트웨어는 복수의 그래픽 프로세서 초인종(doorbell) 중 하나에 워크로드를 제출할 수 있으며, 이는 적절한 그래픽 엔진 상에서 스케줄링 동작을 호출한다. 스케줄링 동작은 다음에 실행할 워크로드를 결정하는 것, 커맨드 스트리머에 워크로드를 제출하는 것, 엔진에서 실행중인 기존 워크로드를 선점하는 것, 워크로드의 진행 상황을 모니터링하는 것, 및 워크로드 완료시 호스트 소프트웨어에 통지하는 것을 포함한다. 선택적으로, 그래픽 마이크로컨트롤러(1533)는 또한 그래픽 프로세서 코어(1519)의 저전력 또는 유휴 상태를 용이하게 하여, 저전력 상태 전이에 걸쳐 운영 체제 및/또는 운영 체제의 그래픽 드라이버 소프트웨어와는 독립적으로 그래픽 프로세서 코어(1519)가 그래픽 프로세서 코어(1519) 내의 레지스터를 저장 및 복원하는 능력을 갖도록 한다.
그래픽 프로세서 코어(1519)는 도시된 서브-코어(1521A-1521F)보다 최대 N개까지 더 많거나 적은 모듈식 서브-코어를 가질 수 있다. N개의 서브-코어의 각각의 세트에 있어서, 그래픽 프로세서 코어(1519)는 또한 공유 기능 로직(1535), 공유 및/또는 캐시 메모리(1536), 기하/고정 기능 파이프라인(1537), 및 다양한 그래픽을 가속시키고 처리 동작을 컴퓨팅하는 추가의 고정 기능 로직(1538)을 포함할 수 있다. 공유 기능 로직(1535)은 그래픽 프로세서 코어(1519) 내의 N개의 서브-코어 각각에 의해 공유될 수 있는 도 17의 공유 기능 로직(1720)과 관련된 로직 유닛(예를 들어, 샘플러, 산술 및/또는 스레드 간 통신 로직)을 포함할 수 있다. 공유 및/또는 캐시 메모리(1536)는 그래픽 프로세서 코어(1519) 내의 N개의 서브-코어(1521A-1521F)의 세트에 대한 LLC일 수 있으며, 복수의 서브-코어에 의해 액세스 가능한 공유 메모리로서 동작할 수도 있다. 기하/고정 기능 파이프라인(1537)은 고정 기능 블록(1530) 내의 기하/고정 기능 파이프라인(1531) 대신에 포함될 수 있고 동일하거나 또는 유사한 로직 유닛을 포함할 수 있다.
그래픽 프로세서 코어(1519)는 그래픽 프로세서 코어(1519)에 의해 사용되는 다양한 고정 기능 가속 로직을 포함할 수 있는 추가의 고정 기능 로직(1538)을 포함할 수 있다. 선택적으로, 추가의 고정 기능 로직(1538)은 위치 전용 셰이딩에서만 사용되는 추가의 기하 파이프라인을 포함한다. 위치 전용 셰이딩에는 2개의 기하 파이프라인, 즉, 기하/고정 기능 파이프라인(1538, 1531) 내의 풀(full) 기하 파이프라인 및 추가의 고정 기능 로직(1538) 내에 포함될 수 있는 추가의 기하 파이프라인인 컬(cull) 파이프라인이 존재한다. 예를 들어, 컬 파이프라인은 풀 기하 파이프라인의 축소 버전일 수 있다. 풀 파이프라인과 컬 파이프라인은 동일한 애플리케이션의 다른 인스턴스를 실행할 수 있으며 각 인스턴스는 별개의 컨텍스트를 갖는다. 위치 전용 셰이딩은 폐기된 삼각형의 긴 컬 구간(long cull runs)을 숨길 수 있어서, 일부 인스턴스에서 더 빨리 셰이딩이 완료되도록할 수 있다. 예를 들어, 컬 파이프라인은 정점의 위치 속성만을 페칭(fetch) 및 셰이딩(shade)하고, 프레임 버퍼에 대한 픽셀의 렌더링 및 래스터화를 수행하지 않으므로, 추가의 고정 기능 로직(1538) 내의 컬 파이프라인 로직은 메인 애플리케이션과 병렬로 위치 셰이더를 실행할 수 있고, 일반적으로 풀 파이프라인보다 중요한 결과를 더 빠르게 생성한다. 컬 파이프라인은 생성된 중요한 결과를 사용하여 해당 삼각형이 컬링되는지 여부에 관계없이 모든 삼각형에 대한 가시성 정보를 계산할 수 있다. 풀 파이프라인(이 경우 재생 파이프라인이라고도 불릴 수 있음)은 가시성 정보를 사용하여 컬링된 삼각형을 생략하고 최종적으로 래스터화 단계로 전달된 가시적 삼각형만을 셰이딩할 수 있다.
선택적으로, 추가의 고정 기능 로직(1538)은 머신 학습 훈련 또는 추론을 위한 최적화를 포함하는 구현을 위해 고정 기능 매트릭스 승산 로직과 같은 머신-학습 가속 로직을 포함할 수 있다.
각각의 그래픽 서브-코어(1521A-1521F) 내에는, 그래픽 파이프라인, 미디어 파이프라인, 또는 셰이더 프로그램에 의한 요청에 응답하여 그래픽, 미디어 및 컴퓨팅 동작을 수행하는데 사용될 수 있는 실행 리소스 세트가 포함된다. 그래픽 서브-코어(1521A-1521F)는 복수의 EU 어레이(1522A-1522F, 1524A-1524F), 스레드 디스패치 및 스레드 간 통신(TD/IC) 로직(1523A-1523F), 3D(예를 들어, 텍스처) 샘플러(1525A-1525F), 미디어 샘플러(1526A-1526F), 셰이더 프로세서(1527A-1527F) 및 공유 로컬 메모리(SLM)(1528A-1528F)를 포함한다. EU 어레이(1522A-1522F, 1524A-1524F) 각각은 복수의 실행 유닛을 포함하는데, 이들은 그래픽, 미디어 또는 컴퓨팅 셰이더 프로그램을 포함하는 그래픽, 미디어 또는 컴퓨팅 동작의 제공 중에 부동 소수점 및 정수/고정 소수점 로직 연산을 수행할 수 있는 범용 그래픽 처리 유닛이다. TD/IC 로직(1523A-1523F)은 서브-코어 내의 실행 유닛에 대한 로컬 스레드 디스패치 및 스레드 제어 동작을 수행하고, 서브-코어의 실행 유닛 상에서 실행되는 스레드 사이의 통신을 용이하게 한다. 3D 샘플러(1525A-1525F)는 텍스처 또는 다른 3D 그래픽 관련 데이터를 메모리로 판독할 수 있다. 3D 샘플러는 구성된 샘플 상태 및 주어진 텍스처와 관련된 텍스처 포맷에 따라 텍스처 데이터를 다르게 판독할 수 있다. 미디어 샘플러(1526A-1502F)는 미디어 데이터와 관련된 타입 및 포맷에 따라 유사한 판독 동작을 수행할 수 있다. 예를 들어, 각각의 그래픽 서브-코어(1521A-1521F)는 통합된 3D 및 미디어 샘플러를 교대로 포함할 수 있다. 각각의 서브-코어(1521A-1521F) 내의 실행 유닛 상에서 실행되는 스레드는 각각의 서브-코어 내의 공유 로컬 메모리(1528A-1528F)를 사용하여, 스레드 그룹 내에서 실행되는 스레드가 온 칩 메모리의 공통의 풀(pool)을 사용하여 실행될 수 있도록 한다.
도 15c는 본 명세서에 설명된 실시예에 따른, 그래픽 프로세서(예컨대, 그래픽 프로세서(1508) 및/또는 컴퓨팅 가속기로서 구성될 수 있는 범용 그래픽 처리 유닛(GPGPU)(270)의 블록도이다. GPGPU(1570)는 하나 이상의 시스템 및/또는 메모리 버스를 통해 호스트 프로세서(예를 들어, 하나 이상의 CPU(1546)) 및 메모리(1571, 1572)와 상호 접속될 수 있다. 메모리(1571)는 하나 이상의 CPU(들)(1546)와 공유될 수 있는 시스템 메모리일 수 있는 반면, 메모리(1572)는 GPGPU(1570)에 전용인 장치 메모리이다. 예를 들어, GPGPU(1570) 및 메모리(1572) 내의 컴포넌트는 하나 이상의 CPU(들)(1546)에 액세스할 수 있는 메모리 주소에 매핑될 수 있다. 메모리(1571, 1572)로의 액세스는 메모리 제어기(1568)를 통해 용이해질 수 있다. 메모리 제어기(1568)는 내부 DMA(direct memory access) 제어기(1569)를 포함할 수 있거나, 또는 DMA 제어기에 의해 수행될 동작을 수행하기 위한 로직을 포함할 수 있다.
PGPU(1570)는 L2 캐시(1553), L1 캐시(1554), 명령어 캐시(1555)를 포함하는 복수의 캐시 메모리와, 공유 메모리(1556)를 포함하며, 공유 메모리의 적어도 일부는 또한 캐시 메모리로서 분할될 수 있다. GPGPU(1570)는 또한 복수의 컴퓨팅 유닛(1560A-1560N)을 포함한다. 각각의 컴퓨팅 유닛(1560A-1560N)은 벡터 레지스터(1561), 스칼라 레지스터(1562), 벡터 로직 유닛(1563) 및 스칼라 로직 유닛(1564)의 세트를 포함한다. 컴퓨팅 유닛(1560A-1560N)은 또한 로컬 공유 메모리(1565) 및 프로그램 카운터(1566)를 포함할 수 있다. 컴퓨팅 유닛(1560A-1560N)은 상수 캐시(1567)와 연결될 수 있으며, 상수 캐시는 상수 데이터를 저장하는데 사용될 수 있으며, 상수 데이터는 GPGPU(1570) 상에서 실행되는 커널 또는 셰이더 프로그램의 실행 동안 변경되지 않는 데이터이다. 상수 캐시(1567)는 스칼라 데이터 캐시일 수 있고, 캐싱된 데이터는 스칼라 레지스터(1562)로 직접 페치(fetch)될 수 있다.
동작하는 동안, 하나 이상의 CPU(들)(1546)는 액세스 가능한 주소 공간으로 매핑된 GPGPU(1570)의 레지스터 또는 메모리에 커맨드를 기록할 수 있다. 커맨드 프로세서(1557)는 레지스터 또는 메모리로부터 커맨드를 판독하고 그 커맨드가 GPGPU(1570) 내에서 어떻게 처리될지를 결정할 수 있다. 이후 스레드 디스패처(1558)는 스레드를 컴퓨팅 유닛(1560A-1560N)에 디스패치하여 이들 커맨드를 수행하는데 이용될 수 있다. 각각의 컴퓨팅 유닛(1560A-1560N)은 다른 컴퓨팅 유닛으로부터 독립적으로 스레드를 실행할 수 있다. 또한, 각각의 컴퓨팅 유닛(1560A-1560N)은 조건부 계산이 가능하도록 독립적으로 구성될 수 있고 계산 결과를 조건부로 메모리에 출력할 수 있다. 커맨드 프로세서(1557)는 제출된 커맨드가 완료될 때 하나 이상의 CPU(1546)를 인터럽트할 수 있다.
도 16a 내지 도 16c는 예컨대 도 15a 내지 도 15c에 따른 본 명세서에 설명된 실시예에 의해 제공되는 추가 그래픽 프로세서 및 컴퓨팅 가속기 아키텍처의 블록도를 도시한다. 본원의 임의의 다른 도면의 요소와 동일하거나 유사한 명칭을 갖는 도 16a 내지 도 16c의 요소는 다른 도면에서와 동일한 요소를 설명하고, 그와 유사한 방식으로 동작하거나 기능할 수 있고, 본 명세서의 다른 곳에서 설명된 것과 동일한 컴포넌트를 포함할 수 있으며 다른 엔티티에 링크될 수 있지만, 이에 제한되지는 않는다.
도 16a는, 개별 그래픽 처리 유닛일 수 있거나, 또는 복수의 처리 코어 또는 메모리 장치나 네트워크 인터페이스와 같지만 이에 제한되지 않는 다른 반도체 장치와 통합된 그래픽 프로세서일 수 있는 그래픽 프로세서(1600)의 블록도이다. 그래픽 프로세서(1600)는 그래픽 프로세서(1508)의 변형일 수 있고 그래픽 프로세서(1508)를 대신하여 사용될 수 있다. 따라서, 본 명세서에서 그래픽 프로세서(1508)와 조합된 임의의 특징의 개시는 또한 그래픽 프로세서(1600)와의 대응하는 조합을 개시하지만, 이에 제한되지는 않는다. 그래픽 프로세서는 메모리 매핑된 I/O 인터페이스를 통해 그래픽 프로세서 상의 레지스터와 프로세서 메모리에 위치된 커맨드로 통신할 수 있다. 그래픽 프로세서(1600)는 메모리에 액세스하는 메모리 인터페이스(1614)를 포함할 수 있다. 메모리 인터페이스(1614)는 로컬 메모리, 하나 이상의 내부 캐시, 하나 이상의 공유 외부 캐시 및/또는 시스템 메모리에 대한 인터페이스일 수 있다.
선택적으로, 그래픽 프로세서(1600)는 또한 디스플레이 출력 데이터를 디스플레이 장치(1618)로 구동하는 디스플레이 제어기(1602)를 포함한다. 디스플레이 제어기(1602)는 디스플레이를 위한 하나 이상의 오버레이 평면 및 비디오의 복수 레이어 또는 사용자 인터페이스 요소의 구성을 위한 하드웨어를 포함한다. 디스플레이 장치(1618)는 내부 또는 외부 디스플레이 장치일 수 있다. 일 실시예에서, 디스플레이 장치(1618)는 가상 현실(VR) 디스플레이 장치 또는 증강 현실(AR) 디스플레이 장치와 같은 헤드 마운트 디스플레이 장치이다. 그래픽 프로세서(1600)는 MPEG-2와 같은 MPEG(Moving Picture Experts Group) 포맷, H.264/MPEG-4 AVC, H.265/HEVC, AOMedia(Alliance for Open Media) VP8, VP9 및 SMPTE(Society of Motion Picture & Television Engineers) 421M/VC-1와 같은 AVC(Advanced Video Coding) 포맷 및 JPEG(Joint Photographic Experts Group) 및 MJPEG(Motion JPEG) 포맷과 같은 JPEG 포맷을 포함하지만 이에 제한되지 않는, 하나 이상의 미디어 인코딩 포맷으로, 그 포맷으로부터 또는 그 포맷 사이에서 미디어를 인코딩, 디코딩 또는 트랜스코딩하는 비디오 코덱 엔진(1606)을 포함할 수 있다.
그래픽 프로세서(1600)는, 예를 들어 비트-경계 블록 전송을 포함하는 2차원(2D) 래스터화 동작을 수행하는 블록 이미지 전송(BLIT) 엔진(1603)을 포함할 수 있다. 그러나, 대안적으로, 2D 그래픽 동작은 그래픽 처리 엔진(GPE)(1610)의 하나 이상의 컴포넌트를 사용하여 수행될 수 있다. 일부 실시예에서, GPE(1610)는 3차원(3D) 그래픽 동작 및 미디어 동작을 포함하는 그래픽 동작을 수행하는 컴퓨팅 엔진이다.
GPE(1610)는 3D 프리미티브 형상(예를 들어, 직사각형, 삼각형 등)에 작용하는 처리 기능을 사용하여 3차원 이미지 및 장면을 렌더링하는 것과 같은 3D 동작을 수행하는 3D 파이프라인(1612)을 포함할 수 있다. 3D 파이프라인(1612)은 요소 내에서 다양한 태스크를 수행하고/하거나 3D/미디어 서브시스템(1615)에 실행 스레드를 생성하는, 프로그래밍 가능하고 고정된 기능 요소를 포함한다. 3D 파이프라인(1612)은 미디어 동작을 수행하기 위해 사용될 수 있지만, GPE(1610)의 실시예는 또한, 비디오 사후-처리 및 이미지 향상과 같은 미디어 동작을 수행하는데 특히 사용되는 미디어 파이프라인(1616)을 포함한다.
미디어 파이프라인(1616)은 비디오 코덱 엔진(1606) 대신 또는 비디오 코덱 엔진(1606)을 위해 비디오 디코딩 가속, 비디오 디인터레이싱 및 비디오 인코딩 가속과 같은 하나 이상의 특수 미디어 동작을 수행하는 고정된 기능 또는 프로그래밍 가능한 로직 유닛을 포함할 수 있다. 미디어 파이프라인(1616)은 3D/미디어 서브시스템(1615) 상에서 실행되는 스레드를 생성하는 스레드 생성 유닛을 추가로 포함할 수 있다. 생성된 스레드는 3D/미디어 서브시스템(1615)에 포함된 하나 이상의 그래픽 실행 유닛 상에서 미디어 동작에 대한 계산을 수행한다.
3D/미디어 서브시스템(1615)은 3D 파이프라인(1612) 및 미디어 파이프라인(1616)에 의해 생성된 스레드를 실행하는 로직을 포함할 수 있다. 파이프라인은 스레드 실행 요청을 3D/미디어 서브시스템(1615)에 전송할 수 있는데, 3D/미디어 서브시스템은 사용 가능한 스레드 실행 리소스에 대한 다양한 요청을 중재 및 발송하는 스레드 디스패치 로직을 포함한다. 실행 리소스는 3D 및 미디어 스레드를 처리하는 그래픽 실행 유닛의 어레이를 포함한다. 3D/미디어 서브시스템(1615)은 스레드 명령어 및 데이터를 위한 하나 이상의 내부 캐시를 포함할 수 있다. 부가적으로, 3D/미디어 서브시스템(1615)은 또한 스레드 사이에서 데이터를 공유하고 출력 데이터를 저장하는 레지스터 및 어드레서블(addressable) 메모리를 포함하는 공유 메모리를 포함할 수 있다.
도 16b는 그래픽 프로세서(1620)를 도시하는데, 이는 그래픽 프로세서들(1600)의 변형이고 그래픽 프로세서(1600)를 대신하여 사용될 수 있으며 그 반대의 경우도 가능하다. 따라서, 본원에서 그래픽 프로세서(1600)와 조합된 임의의 특징의 개시는 또한 그래픽 프로세서(1620)와의 대응하는 조합을 개시하지만, 이에 제한되지는 않는다. 그래픽 프로세서(1620)는 본 명세서에서 설명된 실시예에 따라 타일형 아키텍처를 갖는다. 그래픽 프로세서(1620)는 그래픽 엔진 타일(1610A-1610D) 내에 도 16a의 그래픽 처리 엔진(1610)의 복수의 인스턴스를 갖는 그래픽 처리 엔진 클러스터(1622)를 포함할 수 있다. 각각의 그래픽 엔진 타일(1610A-1610D)은 타일 상호 접속부(1623A-1623F) 세트를 통해 상호 접속될 수 있다. 각각의 그래픽 엔진 타일(1610A-1610D)은 또한 메모리 상호 접속부(1625A-1625D)를 통해 메모리 모듈 또는 메모리 장치(1626A-1626D)에 연결될 수 있다. 메모리 장치(1626A-1626D)는 임의의 그래픽 메모리 기술을 사용할 수 있다. 예를 들어, 메모리 장치(1626A-1626D)는 GDDR 메모리일 수 있다. 메모리 장치(1626A-1626D)는 각각의 그래픽 엔진 타일(1610A-1610D)과 함께 온 다이(on-die) 형식일 수 있는 고대역폭 메모리(HBM) 모듈일 수 있다. 메모리 장치(1626A-1626D)는 각각의 그래픽 엔진 타일(1610A-1610D) 위에 적층될 수 있는 스택형 메모리 장치일 수 있다. 각각의 그래픽 엔진 타일(1610A-1610D) 및 관련 메모리(1626A-1626D)는 도 24b 내지 도 24d에서 더 상세히 설명되는 것과 같이, 베이스 다이 또는 베이스 기판에 본딩된 개별 칩렛(chiplet) 상에 위치할 수 있다.
그래픽 프로세서(1620)는 메모리 장치(1626A-1626D)가 관련 그래픽 엔진 타일(1610A-1610D)과 연결되는 NUMA(Non-uniform Memory Access) 시스템으로 구성될 수 있다. 주어진 메모리 장치는 자신이 직접 접속된 타일이 아닌 그래픽 엔진 타일에 의해 액세스될 수 있다. 그러나, 메모리 장치(1626A-1626D)에 대한 액세스 대기 시간은 로컬 타일에 액세스할 때 가장 낮을 수 있다. 일 실시예에서는, 둘 이상의 캐시가 동일한 메모리 위치를 저장할 때 일관된 메모리 이미지를 유지하도록 그래픽 엔진 타일(1610A-1610D) 내의 캐시 제어기들 사이의 통신을 가능하게 하기 위해 타일 상호 접속부(1623A-1623F)를 사용하는 ccNUMA(cache coherent NUMA) 시스템이 활성화된다.
그래픽 처리 엔진 클러스터(1622)는 온-칩 또는 온-패키지 패브릭 상호 접속부(1624)와 접속할 수 있다. 일 실시예에서, 패브릭 상호 접속부(1624)는, 패브릭 상호 접속부(1624)로 하여금 그래픽 프로세서(1620)의 컴포넌트들 사이에서 데이터 패킷을 스위칭하는 패킷 스위칭 패브릭 상호 접속부로서 동작할 수 있게 하는, 네트워크 프로세서, 네트워크 온 칩 (NoC) 또는 다른 스위칭 프로세서를 포함한다. 패브릭 상호 접속부(1624)는 그래픽 엔진 타일(1610A-1610D)과 비디오 코덱 엔진(1606) 및 하나 이상의 카피 엔진(1604)과 같은 컴포넌트 사이의 통신을 가능하게할 수 있다. 카피 엔진(1604)은 메모리 장치(1626A-1626D)와 그래픽 프로세서(1620)의 외부에 있는 메모리(예를 들어, 시스템 메모리)로부터, 이들로, 또는 이들 사이에서 데이터를 이동시키기 위해 사용될 수 있다. 패브릭 상호 접속부(1624)는 또한 그래픽 엔진 타일(1610A-1610D)을 상호 접속하는데 사용될 수 있다. 그래픽 프로세서(1620)는 외부 디스플레이 장치(1618)와의 접속을 가능하게 하는 디스플레이 제어기(1602)를 선택적으로 포함할 수 있다. 그래픽 프로세서는 또한 그래픽 또는 컴퓨팅 가속기로서 구성될 수 있다. 가속기 구성에서, 디스플레이 제어기(1602) 및 디스플레이 장치(1618)는 생략될 수 있다.
그래픽 프로세서(1620)는 호스트 인터페이스(1628)를 통해 호스트 시스템에 접속될 수 있다. 호스트 인터페이스(1628)는 그래픽 프로세서(1620), 시스템 메모리 및/또는 다른 시스템 컴포넌트 사이의 통신을 가능하게할 수 있다. 호스트 인터페이스(1628)는, 예를 들어 PCI 익스프레스 버스 또는 호스트 시스템 인터페이스의 다른 타입일 수 있다. 예를 들어, 호스트 인터페이스(1628)는 NVLink 또는 NVSwitch 인터페이스일 수 있다. 호스트 인터페이스(1628) 및 패브릭 상호 접속부(1624)는 그래픽 프로세서(1620)의 다수의 인스턴스가 단일 로직 장치로서 동작하는 것을 가능하게 하기 위해 협력할 수 있다. 호스트 인터페이스(1628)와 패브릭 상호 접속부(1624) 사이의 협력은 또한 개별 그래픽 엔진 타일(1610A-1610D)이 별개의 로직 그래픽 장치로서 호스트 시스템에 제공되게 할 수 있다.
도 16c는 본 명세서에서 설명된 실시예에 따른 컴퓨팅 가속기(1630)를 도시한다. 컴퓨팅 가속기(1630)는 도 16b의 그래픽 프로세서(1620)와 구조적 유사성을 가질 수 있고 컴퓨팅 가속에 최적화되어 있다. 컴퓨팅 엔진 클러스터(1632)는 병렬 또는 벡터 기반 범용 컴퓨팅 동작에 최적화된 실행 로직을 포함하는 컴퓨팅 엔진 타일(1640A-1640D) 세트를 포함할 수 있다. 일부 실시예에서 하나 이상의 컴퓨팅 엔진 타일(1640A-1640D)은 미디어 가속을 수행하는 로직을 포함할 수 있지만, 컴퓨팅 엔진 타일(1640A-1640D)은 고정 기능 그래픽 처리 로직을 포함하지 않을 수도 있다. 컴퓨팅 엔진 타일(1640A-1640D)은 메모리 상호 접속부(1625A-1625D)를 통해 메모리(1626A-1626D)에 접속할 수 있다. 메모리(1626A-1626D) 및 메모리 상호 접속부(1625A-1625D)는 그래픽 프로세서(1620)에서와 같이 유사한 기술일 수 있거나 또는 상이할 수 있다. 그래픽 컴퓨팅 엔진 타일(1640A-1640D)은 또한 타일 상호 접속부(1623A-1623F) 세트를 통해 상호 접속될 수 있고 패브릭 상호 접속부(1624)에 접속될 수 있고 및/또는 패브릭 상호 접속부(1624)에 의해 상호 접속될 수 있다. 일 실시예에서, 컴퓨팅 가속기(1630)는 장치 전체의 캐시로 구성될 수 있는 큰 L3 캐시(336)를 포함한다. 컴퓨팅 가속기(1630)는 또한 도 16b의 그래픽 프로세서(1620)와 유사한 방식으로 호스트 인터페이스(1628)를 통해 호스트 프로세서 및 메모리에 접속될 수 있다.
컴퓨팅 가속기(1630)는 또한 통합된 네트워크 인터페이스(1642)를 포함할 수 있다. 일 실시예에서, 통합된 네트워크 인터페이스(1642)는, 컴퓨팅 엔진 클러스터(1632)로 하여금 호스트 시스템의 메모리를 탐색하는 데이터를 요구하지 않으면서 물리 계층 상호 접속부(1644)를 통해 통신할 수 있게 하는 네트워크 프로세서 및 제어기 로직을 포함한다. 일 실시예에서, 컴퓨팅 엔진 타일(1640A-1640D) 중 하나는 네트워크 프로세서 로직에 의해 대체되고, 물리 계층 상호 접속부(1644)를 통해 전송 또는 수신될 데이터는 메모리(1626A-1626D)로 또는 그로부터 직접 전송될 수 있다. 컴퓨팅 가속기(1630)의 다수의 인스턴스는 물리 계층 상호 접속부(1644)을 통해 단일 로직 장치로 결합될 수 있다. 대안적으로, 다양한 컴퓨팅 엔진 타일(1640A-1640D)은 별개의 네트워크 액세스 가능 컴퓨팅 가속기 장치로서 제공될 수 있다.
그래픽 처리 엔진
도 17은 일부 실시예에 따른 그래픽 프로세서의 그래픽 처리 엔진(1710)의 블록도이다. 그래픽 처리 엔진(GPE)(1710)은 도 16a에 도시된 GPE(1610)의 한 버전일 수 있고, 또한 도 16b의 그래픽 엔진 타일(1610A-1610D)을 나타낼 수도 있다. 본원의 임의의 다른 도면의 요소와 동일하거나 유사한 명칭을 갖는 도 17의 요소는 다른 도면에서와 동일한 요소를 설명하고, 그와 유사한 방식으로 동작하거나 기능할 수 있고, 본 명세서의 다른 곳에서 설명된 것과 동일한 컴포넌트를 포함할 수 있으며 다른 엔티티에 링크될 수 있지만, 이에 제한되지는 않는다. 예를 들어, 도 16a의 3D 파이프라인(1612) 및 미디어 파이프라인(1616)은 도 17에도 또한 도시되어 있다. 미디어 파이프라인(1616)은 GPE(1710)의 일부 실시예에서 선택적이고, GPE(1710) 내에 명시적으로 포함되지 않을 수 있다. 예를 들어, 적어도 하나의 실시예에서, 별도의 미디어 및/또는 이미지 프로세서가 GPE(1710)에 연결된다.
GPE(1710)는 3D 파이프라인(1612) 및/또는 미디어 파이프라인(1616)에 커맨드 스트림을 제공하는 커맨드 스트리머(1703)에 연결되거나 이를 포함할 수 있다. 대안적으로 또는 부가적으로, 커맨드 스트리머(1703)는 통합 반환 버퍼(1718)에 직접 연결될 수 있다. 통합 반환 버퍼(1718)는 그래픽 코어 어레이(1714)에 통신 가능하게 연결될 수 있다. 선택적으로, 커맨드 스트리머(1703)는 메모리에 연결되는데, 이 메모리는 시스템 메모리 또는 하나 이상의 내부 캐시 메모리 및 공유 캐시 메모리일 수 있다. 커맨드 스트리머(1703)는 메모리로부터 커맨드를 수신할 수 있고 그 커맨드를 3D 파이프라인(1612) 및/또는 미디어 파이프라인(1616)으로 전송한다. 커맨드는 링 버퍼로부터 페치된 지시(directive)이며, 링 버퍼는 3D 파이프라인(1612) 및 미디어 파이프라인(1616)에 대한 커맨드를 저장한다. 링 버퍼는 복수의 커맨드의 배치(batch)를 저장하는 배치 커맨드 버퍼를 추가로 포함할 수 있다. 3D 파이프라인(1612)에 대한 커맨드는 또한, 3D 파이프라인(1612)에 대한 정점 및 기하 데이터 및/또는 미디어 파이프라인(1616)에 대한 이미지 데이터 및 메모리 객체와 같은, 그러나 이에 제한되지는 않는, 메모리에 저장된 데이터에 대한 참조를 포함할 수 있다. 3D 파이프라인(1612)과 미디어 파이프라인(1616)은 각각의 파이프라인 내에서 로직을 통해 동작을 수행하거나 또는 하나 이상의 실행 스레드를 그래픽 코어 어레이(1714)에 디스패치함으로써 커맨드 및 데이터를 처리한다. 그래픽 코어 어레이(1714)는 그래픽 코어(예를 들어, 그래픽 코어(들)(1715A), 그래픽 코어(들)(1715B))의 하나 이상의 블록을 포함할 수 있는데, 각각의 블록은 하나 이상의 그래픽 코어를 포함한다. 각각의 그래픽 코어는 그래픽 및 컴퓨팅 동작을 수행하는 범용 및 그래픽용 실행 로직 뿐 아니라, 고정 기능 텍스처 처리 및/또는 머신 학습 및 인공 지능 가속 로직을 포함하는 그래픽 실행 리소스 세트를 포함한다.
다양한 실시예에서, 3D 파이프라인(1612)은 명령어를 처리하고 그래픽 코어 어레이(1714)에 실행 스레드를 디스패칭함으로써 정점 셰이더, 기하 셰이더, 픽셀 셰이더, 프래그먼트 셰이더, 컴퓨팅 셰이더 또는 다른 셰이더 프로그램과 같은 하나 이상의 셰이더 프로그램을 처리하는 고정 기능 및 프로그래밍 가능한 로직을 포함할 수 있다. 그래픽 코어 어레이(1714)는 이들 셰이더 프로그램을 처리하는데 사용되는 실행 리소스의 통합 블록을 제공한다. 그래픽 코어 어레이(1714)의 그래픽 코어(들)(1715A, 1715B) 내의 다목적 실행 로직(예를 들어, 실행 유닛)은 다양한 3D API 셰이더 언어에 대해 지원하고 복수의 셰이더와 관련된 복수의 동시 실행 스레드를 실행할 수 있다.
그래픽 코어 어레이(1714)는 비디오 및/또는 이미지 처리와 같은 미디어 기능을 수행하는 실행 로직을 포함할 수 있다. 실행 유닛은 그래픽 처리 동작 외에 병렬 범용 계산 동작을 수행하도록 프로그램될 수 있는 범용 로직을 포함할 수 있다. 범용 로직은 도 14의 프로세서 코어(들)(1407) 또는 도 15a에서와 같이 코어(1502A-1502N) 내에서 범용 로직과 병렬로 또는 함께 처리 동작을 수행할 수 있다.
그래픽 코어 어레이(1714) 상에서 실행되는 스레드에 의해 생성된 출력 데이터는 데이터를 통합 반환 버퍼(URB)(1718)의 메모리로 출력할 수 있다. URB(1718)는 복수의 스레드에 대한 데이터를 저장할 수 있다. URB(1718)는 그래픽 코어 어레이(1714) 상에서 실행되는 상이한 스레드 사이에서 데이터를 전송하는데 사용될 수 있다. URB(1718)는 그래픽 코어 어레이(1714) 상의 스레드와 공유 기능 로직(1720) 내의 고정 기능 로직 사이의 동기화를 위해 추가적으로 사용될 수 있다.
선택적으로, 그래픽 코어 어레이(1714)는 확장 가능할 수 있으므로, 어레이는 가변 개수의 그래픽 코어를 포함하고, 각각은 GPE(1710)의 목표 전력 및 성능 레벨에 따라 가변 개수의 실행 유닛을 갖는다. 실행 리소스는 동적으로 확장 가능할 수 있으므로, 실행 리소스는 필요에 따라 활성화 또는 비활성화될 수 있다.
그래픽 코어 어레이(1714)는 그래픽 코어 어레이의 그래픽 코어들 사이에서 공유되는 복수의 리소스를 포함하는 공유 기능 로직(1720)과 연결된다. 공유 기능 로직(1720) 내의 공유 기능은 그래픽 코어 어레이(1714)에 특수 보충 기능을 제공하는 하드웨어 로직 유닛이다. 다양한 실시예에서, 공유 기능 로직(1720)은 샘플러(1721), 산술(1722) 및 스레드 간 통신(ITC)(1723) 로직을 포함하지만 이에 제한되는 것은 아니다. 부가적으로, 공유 기능 로직(1720) 내의 하나 이상의 캐시(들)(1725)가 구현될 수 있다.
공유 기능은 적어도 주어진 특수 기능에 대한 요구가 그래픽 코어 어레이(1714) 내에 포함시키기에 불충분한 경우에 구현된다. 대신에, 그 특수 기능의 단일 인스턴스화는 공유 기능 로직(1720)의 독립된 엔티티로서 구현되고, 그래픽 코어 어레이(1714) 내의 실행 리소스 사이에서 공유된다. 그래픽 코어 어레이(1714) 사이에서 공유되고 그래픽 코어 어레이(1714) 내에 포함되는 기능의 정확한 세트는 실시예에 따라 변한다. 그래픽 코어 어레이(1714)에 의해 광범위하게 사용되는 공유 기능 로직(1720) 내의 특정 공유 기능이 그래픽 코어 어레이(1714) 내의 공유 기능 로직(1716) 내에 포함될 수 있다. 선택적으로, 그래픽 코어 어레이(1714) 내의 공유 기능 로직(1716)은 공유 기능 로직(1720) 내의 일부 또는 모든 로직을 포함할 수 있다. 공유 기능 로직(1720) 내의 모든 로직 요소는 그래픽 코어 어레이(1714)의 공유 기능 로직(1716) 내에서 중복될 수 있다. 대안적으로, 공유 기능 로직(1720)은 그래픽 코어 어레이(1714) 내의 공유 기능 로직(1716)을 위해 배제된다.
실행 유닛
도 18a 및 도 18b는 본 명세서에 설명된 실시예에 따른 그래픽 프로세서 코어에서 사용되는 처리 요소들의 어레이를 포함하는 스레드 실행 로직(1800)을 도시한다. 본원의 임의의 다른 도면의 요소와 동일하거나 유사한 명칭을 갖는 도 18a 및 도 18b의 요소는 다른 도면에서와 동일한 요소를 설명하고, 그와 유사한 방식으로 동작하거나 기능할 수 있고, 본 명세서의 다른 곳에서 설명된 것과 동일한 컴포넌트를 포함할 수 있으며 다른 엔티티에 링크될 수 있지만, 이에 제한되지는 않는다. 도 18a 및 도 18b는 스레드 실행 로직(1800)의 개요를 도시하며, 이는 도 15b의 각각의 서브-코어(1521A-1521F)로 도시된 하드웨어 로직을 나타낼 수 있다. 도 18a는 범용 그래픽 프로세서 내의 실행 유닛을 도시하고, 도 18b는 컴퓨팅 가속기 내에서 사용될 수 있는 실행 유닛을 도시한다.
도 18a에 도시된 것과 같이, 스레드 실행 로직(1800)은 셰이더 프로세서(1802), 스레드 디스패처(1804), 명령어 캐시(1806), 복수의 그래픽 실행 유닛(1808A-1808N)을 포함하는 확장 가능한 실행 유닛 어레이, 샘플러(1810), 공유 로컬 메모리(1811), 데이터 캐시(1812), 및 데이터 포트(1814)를 포함할 수 있다. 선택적으로, 확장 가능한 실행 유닛 어레이는 워크로드의 계산 요구 사항에 따라 하나 이상의 실행 유닛(예를 들어, 임의의 그래픽 실행 유닛(1808A, 1808B, 1808C, 1808D, 내지 1808N-1 및 1808N))을 활성화 또는 비활성화함으로서 동적으로 변경될 수 있다. 포함된 컴포넌트는 각각의 컴포넌트에 연결되는 상호 접속 패브릭을 통해 상호 접속될 수 있다. 스레드 실행 로직(1800)은 명령어 캐시(1806), 데이터 포트(1814), 샘플러(1810) 및 그래픽 실행 유닛(1808A-1808N) 중 하나 이상을 통해 시스템 메모리 또는 캐시 메모리와 같은 메모리로의 하나 이상의 접속을 포함할 수 있다. 각각의 실행 유닛(예를 들어, 1808A)은 각각의 스레드에 대해 복수의 데이터 요소를 병렬로 처리하면서 복수의 동시 하드웨어 스레드를 실행할 수 있는 독립형의 프로그래밍 가능한 범용 계산 유닛일 수 있다. 다양한 실시예에서, 실행 유닛(1808A-1808N)의 어레이는 임의의 개수의 개별 실행 유닛을 포함하도록 확장 가능하다.
일부 실시예에서, 그래픽 실행 유닛(1808A-1808N)은 주로 셰이더 프로그램을 실행하는데 사용될 수 있다. 셰이더 프로세서(1802)는 다양한 셰이더 프로그램을 처리하고 스레드 디스패처(1804)를 통해 셰이더 프로그램과 관련된 실행 스레드를 디스패치할 수 있다. 스레드 디스패처는 그래픽 및 미디어 파이프라인으로부터 스레드 개시 요청을 중재하고 요청된 스레드를 그래픽 실행 유닛(1808A-1808N)의 하나 이상의 실행 유닛 상에서 인스턴스화하는 로직을 포함할 수 있다. 예를 들어, 기하 파이프라인은 처리를 위해 정점, 테셀레이션(tessellation) 또는 기하 셰이더를 스레드 실행 로직으로 디스패치할 수 있다. 선택적으로, 스레드 디스패처(1804)는 또한 실행 셰이더 프로그램으로부터의 런타임 스레드 생성 요청을 처리할 수 있다.
일부 실시예에서, 그래픽 실행 유닛(1808A-1808N)은 그래픽 라이브러리(예를 들어, Direct 3D 및 OpenGL)로부터의 셰이더 프로그램이 최소의 변환으로 실행되도록 많은 표준 3D 그래픽 셰이더 명령어에 대한 기본적인 지원을 포함하는 명령어 세트를 지원할 수 있다. 실행 유닛은 정점 및 기하 처리(예를 들어, 정점 프로그램, 기하 프로그램, 정점 셰이더), 픽셀 처리(예를 들어, 픽셀 셰이더, 프래그먼트 셰이더) 및 범용 처리(예를 들어, 컴퓨팅 및 미디어 셰이더)를 지원한다. 그래픽 실행 유닛(1808A-1808N)의 각각은 복수 발행 단일 명령어 복수 데이터(SIMD) 실행이 가능하고, 멀티-스레드 동작은 더 긴 대기 시간(latency)을 갖는 메모리 액세스에도 불구하고 효율적인 실행 환경을 가능하게 한다. 각각의 실행 유닛 내의 각각의 하드웨어 스레드는 전용 고대역 레지스터 파일과 관련 독립 스레드-상태를 갖는다. 실행은 정수, 단정밀도 및 배정밀도 부동 소수점 연산, SIMD 분기 기능, 로직 연산, 초월 연산 및 다른 기타 연산을 수행할 수 있는 파이프라인에 대해 클럭 당 복수로 발행된다. 메모리로부터 또는 공유 기능 중 하나로부터 데이터를 기다리는 동안, 실행 유닛(1808A-1808N) 내의 의존적인 로직은 요청된 데이터가 반환될 때까지 대기중인 스레드를 휴면 상태로 만든다. 대기중인 스레드가 휴면 상태인 동안, 하드웨어 리소스는 다른 스레드를 처리하는데 사용될 수 있다. 예를 들어, 정점 셰이더 동작과 관련된 지연 시간 동안, 실행 유닛은 픽셀 셰이더, 프래그먼트 셰이더 또는 도 21에 도시된 정점 셰이더(2107)와 같은 다른 정점 셰이더를 포함하는 다른 타입의 셰이더 프로그램에 대한 동작을 수행할 수 있다. 다양한 실시예는 SIMD를 사용하는 대신 또는 SIMD의 사용에 부가적으로 SIMT(Single Instruction Multiple Thread)를 사용함으로써 실행할 수 있다. SIMD 코어 또는 동작에 대한 참조는 또한 SIMT에 적용되거나 또는 SIMT와 함께 SIMD에 적용될 수 있다.
그래픽 실행 유닛(1808A-1808N)의 각각의 실행 유닛은 데이터 요소의 어레이 상에서 동작한다. 데이터 요소의 개수는 "실행 크기" 또는 명령어에 대한 채널의 개수이다. 실행 채널은 명령어 내의 데이터 요소 액세스, 마스킹 및 흐름 제어에 대한 실행의 논리적 유닛이다. 채널의 개수는 특정 그래픽 프로세서에 대한 물리적 산술 로직 유닛(ALU), 부동 소수점 유닛(FPU), 다른 로직 유닛(예컨대, 텐서 코어, 광선 추적 코어 등)의 개수에 독립적일 수 있다. 부가적으로, 그래픽 실행 유닛(1808A-1808N)은 정수 및 부동 소수점 데이터 타입을 지원할 수 있다.
실행 유닛 명령어 세트는 SIMD 명령어를 포함한다. 다양한 데이터 요소는 레지스터에 패킹된 데이터 타입으로서 저장될 수 있고, 실행 유닛은 요소의 데이터 크기에 따라 다양한 요소를 처리할 것이다. 예를 들어, 256 비트 폭의 벡터에 대해 동작하는 경우, 256 비트의 벡터가 레지스터에 저장되고, 실행 유닛은, 4개의개별적인 64 비트 패킹된 데이터 요소(Quad-Word(QW) 크기의 데이터 요소), 8개의 개별적인 32 비트 패킹된 데이터 요소(DW(Double Word) 크기의 데이터 요소), 16개의 개별적인 16 비트 패킹된 데이터 요소(Word(W) 크기의 데이터 요소) 또는 32개의 개별적인 8 비트 패킹된 데이터 요소(byte(B) 크기의 데이터 요소)로서 벡터에 대해 동작한다. 그러나, 다른 벡터 폭과 레지스터 크기도 가능하다.
선택적으로, 하나 이상의 실행 유닛은, 결합된 EU에 공통인 스레드 제어 로직(1807A-1807N)을 갖는 결합된 그래픽 실행 유닛(EU)(1809A-1809N)으로 결합될 수 있다. 복수의 EU가 EU 그룹에 결합될 수 있다. 결합된 EU 그룹의 각각의 EU는 별도의 SIMD 하드웨어 스레드를 실행하도록 구성될 수 있다. 결합된 EU 그룹에서의 EU의 개수는 실시예에 따라 달라질 수 있다. 또한 SIMD8, SIMD16 및 SIMD32를 포함하지만 이에 제한되지 않는 다양한 SIMD 폭이 각각의 EU 별로 수행될 수 있다. 각각의 결합된 그래픽 실행 유닛(1809A-1809N)은 적어도 2개의 실행 유닛을 포함한다. 예를 들어, 결합된 실행 유닛(1809A)은 제 1 EU(1808A), 제 2 EU(1808B), 및 제 1 EU(1808A)와 제 2 EU(1808B)에 공통인 스레드 제어 로직(1807A)을 포함한다. 스레드 제어 로직(1807A)은 결합된 그래픽 실행 유닛(1809A) 상에서 실행되는 스레드를 제어하여, 결합된 실행 유닛(1809A-1809N) 내의 각각의 EU가 공통 명령어 포인터 레지스터를 사용하여 실행될 수 있도록 한다.
하나 이상의 내부 명령어 캐시(예를 들어, 1806)가 스레드 실행 로직(1800)에 포함되어 실행 유닛에 대한 스레드 명령어를 캐싱한다. 스레드를 실행하는 동안 스레드 데이터를 캐싱하기 위해 스레드 실행 로직(1800) 내에 하나 이상의 데이터 캐시(예를 들어, 1812)가 포함될 수 있다. 실행 로직(1800) 상에서 실행되는 스레드는 또한 명시적으로 관리되는 데이터를 공유 로컬 메모리(1811)에 저장할 수 있다. 샘플러(1810)는 3D 동작을 위한 텍스처 샘플링 및 미디어 동작을 위한 미디어 샘플링을 제공하기 위해 포함될 수 있다. 샘플러(1810)는 샘플링된 데이터를 실행 유닛에 제공하기 전에 샘플링 처리 동안 텍스처 또는 미디어 데이터를 처리하는 특수 텍스처 또는 미디어 샘플링 기능을 포함할 수 있다.
실행하는 동안, 그래픽 및 미디어 파이프라인은 스레드 개시 요청을 스레드 생성 및 디스패치 로직을 통해 스레드 실행 로직(1800)으로 전송한다. 일단 기하학적 객체 그룹이 처리되어 픽셀 데이터로 래스터화되면, 셰이더 프로세서(1802) 내의 픽셀 프로세서 로직(예를 들어, 픽셀 셰이더 로직, 프래그먼트 셰이더 로직 등)이 호출되어 출력 정보를 추가로 계산하고 결과를 출력 표면(예를 들어, 컬러 버퍼, 깊이 버퍼, 스텐실 버퍼 등)에 기록되도록 한다. 픽셀 셰이더 또는 프래그먼트 셰이더는 래스터화된 객체에 걸쳐 보간될 다양한 정점 속성의 값을 계산할 수 있다. 그런 다음, 셰이더 프로세서(1802) 내의 픽셀 프로세서 로직은 API(application programming interface) 제공 픽셀 또는 프래그먼트 셰이더 프로그램을 실행할 수 있다. 셰이더 프로그램을 실행하기 위해, 셰이더 프로세서(1802)는 스레드 디스패처(1804)를 통해 스레드를 실행 유닛(예를 들어, 1808A)으로 디스패치한다. 셰이더 프로세서(1802)는 샘플러(1810)의 텍스처 샘플링 로직을 사용하여 메모리에 저장된 텍스처 맵의 텍스처 데이터에 액세스할 수 있다. 텍스처 데이터 및 입력 기하 데이터에 대한 산술 연산은 각각의 기하학적 프래그먼트에 대한 픽셀 컬러 데이터를 계산하거나, 또는 다른 처리에서 하나 이상의 픽셀을 폐기한다.
또한, 데이터 포트(1814)는 그래픽 프로세서 출력 파이프라인 상에서 추가 처리를 위해 처리된 데이터를 메모리로 출력하는 스레드 실행 로직(1800)에 대한 메모리 액세스 메커니즘을 제공할 수 있다. 데이터 포트(1814)는 데이터 포트(1814)를 통한 메모리 액세스를 위해 데이터를 캐싱하는 하나 이상의 캐시 메모리(예를 들어, 데이터 캐시(1812))를 포함하거나 또는 이에 연결될 수 있다.
선택적으로, 실행 로직(1800)은 또한 광선 추적 가속 기능을 제공할 수 있는 광선 추적기(1805)를 포함할 수 있다. 광선 추적기(1805)는 광선 생성을 위한 명령어/기능을 포함하는 광선 추적 명령어 세트를 지원할 수 있다. 광선 추적 명령어 세트는 도 3c의 광선 추적 코어(372)에 의해 지원되는 광선 추적 명령어 세트와 유사하거나 또는 상이할 수 있다.
도 18b는 실행 유닛(1808)의 예시적인 내부 세부 사항을 도시한다. 그래픽 실행 유닛(1808)은 명령어 페치 유닛(1837), GRF(general register file) 어레이(1824), ARF(architecture register file) 어레이(1826), 스레드 중재자(1822), 송신 유닛(1830), 분기 유닛(1832), SIMD FPUs(floating point units)(1834) 세트를 포함할 수 있고, 선택적으로는 전용 정수 SIMD ALU(1835) 세트를 포함할 수 있다. GRF(1824) 및 ARF(1826)는 그래픽 실행 유닛(1808)에서 활성화될 수 있는 각각의 동시 하드웨어 스레드와 관련된 일반 레지스터 파일 및 아키텍처 레지스터 파일의 세트를 포함한다. 스레드 당 구조적 상태는 ARF(1826)에 유지될 수 있고, 스레드를 실행하는 동안 사용된 데이터는 GRF(1824)에 저장된다. 각각의 스레드에 대한 명령어 포인터를 포함하는 각각의 스레드의 실행 상태는 ARF(1826)의 스레드 특정 레지스터에 보유될 수 있다.
그래픽 실행 유닛(1808)은 SMT(Simultaneous Multi-Threading) 및 파인 그레인드(fine-grained) IMT(Interleaved Multi-Threading)의 조합인 아키텍처를 가질 수 있다. 이 아키텍처는 동시 스레드의 대상 개수와 실행 유닛 당 레지스터 개수에 따라 설계 시에 미세 조정이 가능한 모듈식 구성을 가질 수 있는데, 실행 유닛 리소스는 복수의 동시 스레드를 실행하는데 사용되는 로직에 따라 분할된다. 그래픽 실행 유닛(1808)에 의해 실행될 수 있는 로직 스레드의 개수는 하드웨어 스레드의 개수로 제한되지 않으며, 복수의 로직 스레드가 각각의 하드웨어 스레드에 할당될 수 있다.
선택적으로, 그래픽 실행 유닛(1808)은 복수의 명령어를 공동 발행할 수 있으며, 이는 각각 다른 명령어일 수 있다. 그래픽 실행 유닛 스레드(1808)의 스레드 중재자(1822)는 실행을 위해 명령어를 전송 유닛(1830), 분기 유닛(1832) 또는 SIMD FPU(들)(1834) 중 하나에 디스패치할 수 있다. 각각의 실행 스레드는 GRF(1824) 내의 128개의 범용 레지스터에 액세스할 수 있는데, 각각의 레지스터는 32 비트 데이터 요소의 SIMD 8 요소 벡터로서 액세스가능한 32 바이트를 저장할 수 있다. 각각의 실행 유닛 스레드는 GRF(1824) 내에서 4KB에 액세스할 수 있지만, 실시예는 이에 제한되지 않고, 더 많거나 또는 더 적은 레지스터 리소스가 다른 실시예에서 제공될 수 있다. 그래픽 실행 유닛(1808)은 계산 동작을 독립적으로 수행할 수 있는 7개의 하드웨어 스레드로 분할될 수 있지만, 실행 유닛 당 스레드의 개수는 또한 실시예에 따라 변할 수 있는데, 예를 들어, 최대 16개의 하드웨어 스레드가 지원될 수 있다. 7개의 스레드가 4KB에 액세스할 수 있는 예시적 실시예에서, GRF(1824)는 총 28KB를 저장할 수 있다. 16개의 스레드가 4KB에 액세스할 수 있는 다른 예시적 실시예에서, GRF(1824)는 총 64KB를 저장할 수 있다. 그러나, 실행 유닛 당 스레드의 개수는 이런 예들로 제한되지 않으며, 주어진 개수보다 더 많거나 적을 수 있다. 유연한 어드레싱 모드는 레지스터들을 함께 어드레싱하여 효과적으로 더 넓은 레지스터를 구성하거나 또는 스트라이드된(strided) 사각형 블록 데이터 구조를 나타낼 수 있다.
부가적으로 또는 대안적으로, 메모리 동작, 샘플러 동작 및 다른 대기 시간이 긴 시스템 통신은 메시지 전달 송신 유닛(1830)에 의해 실행되는 "송신" 명령어를 통해 디스패치될 수 있다. 분기 명령어는 전용 분기 유닛(1832)으로 디스패치되어 SIMD 발산 및 최종 수렴을 용이하게 할 수 있다.
그래픽 실행 유닛(1808)은 부동 소수점 연산을 수행하는 하나 이상의 SIMD 부동 소수점 유닛(FPU)(1834)을 포함할 수 있다. FPU(들)(1834)는 또한 정수 계산을 지원할 수 있다. 일부 사례에서, FPU(들)(1834)는 M개의 32 비트 부동 소수점(또는 정수) 연산까지 SIMD를 실행할 수 있거나, 또는 최대 2M개의 16 비트 정수 또는 16 비트 부동 소수점 연산까지 SIMD를 실행할 수 있다. 선택적으로, FPU(들) 중 적어도 하나는 고처리량 초월 산술 함수 및 배정밀도 184 비트 부동 소수점을 지원하는 확장된 산술 능력을 제공한다. 8 비트 정수 SIMD ALU(1835) 세트가 또한 존재할 수 있고, 머신 학습 계산과 관련된 동작을 수행하도록 특별히 최적화될 수 있다.
선택적으로, 그래픽 실행 유닛(1808)의 복수 인스턴스의 어레이는 그래픽 서브-코어 그룹(예를 들어, 서브-슬라이스)에서 인스턴스화될 수 있다. 확장성을 위해, 제품 설계자는 서브-코어 그룹 당 실행 유닛의 정확한 개수를 선택할 수 있다. 실행 유닛(1808)은 복수의 실행 채널에 걸쳐 명령어를 실행할 수 있다. 또한, 그래픽 실행 유닛(1808) 상에서 실행된 각각의 스레드는 다른 채널 상에서 실행될 수 있다.
도 19는 추가 예시적 실행 유닛(1900)을 도시한다. 본원의 임의의 다른 도면의 요소와 동일하거나 유사한 명칭을 갖는 도 19의 요소는 다른 도면에서와 동일한 요소를 설명하고, 그와 유사한 방식으로 동작하거나 기능할 수 있고, 본 명세서의 다른 곳에서 설명된 것과 동일한 컴포넌트를 포함할 수 있으며 다른 엔티티에 링크될 수 있지만, 이에 제한되지는 않는다. 실행 유닛(1900)은, 예를 들어 도 16c에서와 같이 컴퓨팅 엔진 타일(1640A-1640D)에 사용하기 위해 컴퓨팅 최적화된 실행 유닛일 수 있지만, 이에 제한되는 것은 아니다. 실행 유닛(1900)이 또한 도 16b에서와 같이 그래픽 엔진 타일(1610A-1610D)에서 사용될 수 있다. 실행 유닛(1900)은 스레드 제어 유닛(1901), 스레드 상태 유닛(1902), 명령어 페치/프리페치 유닛(1903) 및 명령어 디코딩 유닛(1904)을 포함할 수 있다. 실행 유닛(1900)은 실행 유닛 내에서 하드웨어 스레드에 할당될 수 있는 레지스터를 저장하는 레지스터 파일(1906)을 추가로 포함할 수 있다. 실행 유닛(1900)은 송신 유닛(1907) 및 분기 유닛(1908)을 추가로 포함할 수 있다. 송신 유닛(1907) 및 분기 유닛(1908)은 도 18b의 그래픽 실행 유닛(1808)의 송신 유닛(1830) 및 분기 유닛(1832)과 유사하게 동작할 수 있다.
실행 유닛(1900)은 또한 복수의 상이한 타입의 기능 유닛을 포함하는 컴퓨팅 유닛(1910)을 포함할 수 있다. 컴퓨팅 유닛(1910)은 또한, ALU(1911), 시스토릭(systolic) 어레이(1912) 및 산술 유닛(1913)을 포함할 수 있다. ALU(1911)는 산술 로직 유닛의 어레이를 포함한다. ALU(1911)는 다수의 처리 레인 및 데이터 채널에 걸쳐 다수의 하드웨어 및/또는 소프트웨어 스레드에 대해 64 비트, 32 비트 및 16 비트 정수 및 부동 소수점 연산을 수행하도록 구성될 수 있다. ALU(1911)는 정수 및 부동 소수점 연산을 동시에(예컨대, 동일 클록 주기 내에서) 수행할 수 있다.
시스토릭 어레이(1912)는 시스토릭 방식으로 벡터 또는 다른 데이터-병렬 연산을 수행하는데 사용될 수 있는 데이터 처리 유닛으로 이루어진 W(와이드) 및 D(딥) 네트워크를 포함한다. 시스토릭 어레이(1912)는 내적(dot product), 외적(outer product), GEMM(general matrix-matrix multiplication) 연산을 포함하는 다양한 매트릭스 연산을 수행하도록 구성될 수 있다. 시스토릭 어레이(1912)는 16 비트 부동 소수점 연산뿐만 아니라 8 비트, 4 비트, 2 비트, 및 이진 정수 연산을 지원할 수 있다. 시스토릭 어레이(1912)는 머신 학습 동작을 가속화하도록 구성될 수 있다. 시스토릭 어레이(1912)는, IEEE(Institute of Electrical and Electronics Engineers) 754 포맷에 비해 가수 및 지수 비트 수가 다른, bfloat 16 (브레인 부동 소수점) 16 비트 부동 소수점 포맷 또는 TF32(tensor float 32-bit floating point format)을 지원하도록 구성될 수 있다. FP64 포맷이 또한 지원될 수 있다.
일 실시예에서, 시스토릭 어레이(1912)는 희소 매트릭스 연산을 가속화하기위한 하드웨어를 포함한다. 입력 데이터의 희소 영역에 대한 승산 연산은 처리량을 희생하지 않고 우회될 수 있다. 입력 매트릭스 내의 블록 희소성이 검출될 수 있으며, 알려진 출력 값을 갖는 연산은 우회될 수 있다. 일 실시예에서, 시스토릭 어레이(1912)는 압축된 표현을 갖는 희소 데이터에 대한 연산을 가능하게 하는 하드웨어를 포함한다. 희소 매트릭스의 압축 표현은 0이 아닌 값과, 매트릭스 내에서 0이 아닌 값의 위치를 정의하는 메타 데이터를 저장한다. 예시적인 압축 표현은 압축된 희소 행(CSR), 압축된 희소 열(CSC), 압축된 희소 섬유(CSF) 표현과 같은 압축된 텐서 표현을 포함하지만 이에 제한되지는 않는다. 압축된 표현에 대한 지원은 압축된 표현을 압축 해제하거나 디코딩할 필요없이 압축된 텐서 포맷의 입력에 대해 연산을 수행할 수 있게 한다. 이러한 실시예에서, 연산은 0이 아닌 입력 값에 대해서만 수행될 수 있으며, 결과적인 0이 아닌 출력 값은 출력 매트릭스에 매핑될 수 있다. 일부 실시예에서는, 하드웨어 내에서 또는 시스템 버스를 통해 데이터를 전송할 때 사용되는 머신 특정 무손실 데이터 압축 포맷에 대한 하드웨어 지원도 제공된다. 이러한 데이터는 희소 입력 데이터에 대해 압축된 포맷으로 유지될 수 있으며, 시스토릭 어레이(1912)는 압축된 데이터에 대한 압축 메타 데이터를 사용하여 0이 아닌 값에 대해서만 연산을 수행할 수 있도록 하거나, 승산 연산에 대해 0 데이터 입력의 블록이 우회되게 한다.
산술 유닛(1913)은 ALU 유닛(1911)보다 효율적이고 저전력 방식으로 수학적 연산의 특정 서브세트를 수행하도록 구성될 수 있다. 산술 유닛(1913)은 설명된 다른 실시예에 의해 제공된 그래픽 처리 엔진의 공유 기능 로직에서 발견되는 산술 로직(예를 들어, 도 17의 공유 기능 로직(1720)의 산술 로직(1722))을 포함할 수 있다. 산술 유닛(1913)은 32 비트 및 64 비트 부동 소수점 연산을 수행하도록 구성될 수 있다.
스레드 제어 유닛(1901)은 실행 유닛 내에서 스레드의 실행을 제어하는 로직을 포함한다. 스레드 제어 유닛(1901)은 실행 유닛(1900) 내에서 스레드의 실행을 시작, 중지 및 선점하는 스레드 중재 로직을 포함할 수 있다. 스레드 상태 유닛(1902)은 실행 유닛(1900) 상에서 실행되도록 할당된 스레드에 대한 스레드 상태를 저장하는데 사용될 수 있다. 실행 유닛(1900) 내에 스레드 상태를 저장함으로써 이들 스레드가 차단되거나 유휴 상태일 때 스레드를 신속하게 선점할 수 있다. 명령어 페치/프리페치 유닛(1903)은 더 높은 레벨의 실행 로직의 명령어 캐시(예를 들어, 도 18a에서와 같은 명령어 캐시(1806))로부터 명령어를 페치할 수 있다. 명령어 페치/프리페치 유닛(1903)은 또한 현재 실행 중인 스레드의 분석에 기초하여 명령어가 명령어 캐시에 로딩될 수 있도록 프리페치 요청을 발행할 수 있다. 명령어 디코딩 유닛(1904)은 컴퓨팅 유닛에 의해 실행될 명령어를 디코딩하는데 사용될 수 있다. 명령어 디코딩 유닛(1904)은 복잡한 명령어를 구성을 이루는 마이크로-동작으로 디코딩하는 2차 디코더로서 사용될 수 있다.
실행 유닛(1900)은 실행 유닛(1900) 상에서 실행되는 하드웨어 스레드에 의해 사용될 수 있는 레지스터 파일(1906)을 추가로 포함한다. 레지스터 파일(1906)의 레지스터는 실행 유닛(1900)의 컴퓨팅 유닛(1910) 내에서 복수의 동시 스레드를 실행하는데 사용되는 로직에 걸쳐 분할될 수 있다. 그래픽 실행 유닛(1900)에 의해 실행될 수 있는 로직 스레드의 개수는 하드웨어 스레드의 개수로 제한되지 않고, 복수의 로직 스레드가 각각의 하드웨어 스레드에 할당될 수 있다. 레지스터 파일(1906)의 크기는 지원되는 하드웨어 스레드의 개수에 따라 실시예마다 변할 수 있다. 레지스터 명칭 변경은 레지스터를 하드웨어 스레드에 동적으로 할당하기 위해 사용될 수 있다.
도 20은 그래픽 프로세서 명령어 포맷(2000)을 도시한 블록도이다. 그래픽 프로세서 실행 유닛은 복수 포맷의 명령어를 갖는 명령어 세트를 지원한다. 실선 상자는 일반적으로 실행 유닛 명령어에 포함된 컴포넌트를 나타내는 반면, 점선은 선택 사항이거나 또는 명령어의 서브-세트에만 포함된 컴포넌트를 포함한다. 일부 실시예에서, 설명되고 도시된 그래픽 프로세서 명령어 포맷(2000)은, 일단 명령어가 처리되면 디코딩된 명령어로부터 기인하는 마이크로-동작과 달리, 실행 유닛에 제공되는 명령어라는 점에서 매크로-명령어이다. 이와 같이, 단일 명령어는 하드웨어로 하여금 다수의 마이크로-동작을 수행하게 할 수 있다.
본 명세서에 설명된 그래픽 프로세서 실행 유닛은 기본적으로 128 비트 명령어 포맷(2010)의 명령어를 지원한다. 64 비트 압축 명령어 포맷(2030)은 선택된 명령어, 명령어 옵션 및 피연산자의 개수에 따라 일부 명령어에서 이용 가능하다. 기본적인 128 비트 명령어 포맷(2010)은 모든 명령어 옵션에 대한 액세스를 제공하는 반면, 일부 옵션 및 동작은 64 비트 포맷(2030)으로 제한된다. 64 비트 포맷(2030)에서 이용 가능한 기본적인 명령어는 실시예에 따라 다르다. 명령어는 인덱스 필드(2013)의 인덱스 값 세트를 사용하여 부분적으로 압축된다. 실행 유닛 하드웨어는 인덱스 값에 따라 압축 테이블 세트를 참조하고 압축 테이블 출력을 사용하여 128 비트 명령어 포맷(2010)으로 기본적인 명령어를 재구성한다. 다른 크기 및 포맷의 명령어가 사용될 수 있다.
각각의 포맷에 대해, 명령어 연산 코드(opcode)(2012)는 실행 유닛이 수행해야 할 동작을 정의한다. 실행 유닛은 각각의 피연산자의 복수의 데이터 요소에 걸쳐 각각의 명령어를 병렬로 실행한다. 예를 들어, 더하기 명령어(an add instruction)에 응답하여, 실행 유닛은 텍스처 요소 또는 화상 요소를 나타내는 각각의 컬러 채널에 걸쳐 동시적인 더하기 동작을 수행한다. 기본적으로 실행 유닛은 피연산자의 모든 데이터 채널에 걸쳐서 각각의 명령어를 수행한다. 명령어 제어 필드(2014)는 채널 선택(예를 들어, 예측) 및 데이터 채널 순서(예를 들어, 스위즐(swizzle))와 같은 특정 실행 옵션에 대한 제어를 가능하게 할 수 있다. 128 비트 명령어 포맷(2010)의 명령어에 대해, 실행-크기 필드(2016)는 병렬로 실행될 데이터 채널의 개수를 제한한다. 실행-크기 필드(2016)는 64 비트 압축 명령어 포맷(2030)에서 사용 가능하지 않을 수 있다.
일부 실행 유닛 명령어는 2개의 소스 피연산자인 SRC0(2020) 및 SRC1(2022)과 1개의 목적지(2018)를 포함하여 최대 3개의 피연산자를 갖는다. 실행 유닛은 이중 목적지 명령어를 지원할 수 있는데, 이중 하나의 목적지는 암시된다. 데이터 조작 명령어는 제 3 소스 피연산자(예를 들어, SRC2(2024))를 가질 수 있으며, 여기서 명령어 연산 코드(2012)는 소스 피연산자의 개수를 결정한다. 명령어의 마지막 소스 피연산자는 명령어와 함께 전달되는 이미디어트(immediate)(예를 들어, 하드-코딩된) 값일 수 있다.
128 비트 명령어 포맷(2010)은, 예를 들어, 직접 레지스터 어드레싱 모드 또는 간접 레지스터 어드레싱 모드가 사용되는지를 지정하는 액세스/주소 모드 필드(2026)를 포함할 수 있다. 직접 레지스터 어드레싱 모드가 사용될 때, 하나 이상의 피연산자의 레지스터 주소는 명령어의 비트에 의해 직접 제공된다.
128 비트 명령어 포맷(2010)은 또한 명령어에 대한 주소 모드 및/또는 액세스 모드를 지정하는 액세스/주소 모드 필드(2026)를 포함할 수 있다. 액세스 모드는 명령어에 대한 데이터 액세스 정렬을 정의하는데 사용될 수 있다. 16 바이트 정렬 액세스 모드 및 1 바이트 정렬 액세스 모드를 포함하는 액세스 모드가 지원될 수 있는데, 액세스 모드의 바이트 정렬은 명령어 피연산자의 액세스 정렬을 결정한다. 예를 들어, 제 1 모드에 있을 때, 명령어는 소스 및 목적지 피연산자에 대해 1 바이트 정렬된 어드레싱을 사용할 수 있고, 제 2 모드에 있을 때, 명령어는 모든 소스 및 목적지 피연산자에 대해 16 바이트 정렬된 어드레싱을 사용할 수 있다.
액세스/주소 모드 필드(2026)의 주소 모드 부분은 명령어가 직접 또는 간접 어드레싱을 사용해야 하는지 여부를 결정할 수 있다. 직접 레지스터 어드레싱 모드가 사용될 때, 명령어의 비트는 하나 이상의 피연산자의 레지스터 주소를 직접 제공한다. 간접 레지스터 어드레싱 모드가 사용될 때, 하나 이상의 피연산자의 레지스터 주소는 명령어의 주소 레지스터 값 및 주소 이미디어트 필드에 기초하여 계산될 수 있다.
명령어는 연산 코드 디코딩(2040)을 단순화하는 연산 코드(2012) 비트 필드에 따라 그룹화될 수 있다. 8 비트 연산 코드의 경우, 비트 4, 5 및 6은 실행 유닛이 연산 코드의 유형을 결정할 수 있도록 한다. 설명되는 구체적인 연산 코드 그룹은 단지 예시일 뿐이다. 이동 및 로직 연산 코드 그룹(2042)은 데이터 이동 및 로직 명령어(예를 들어, 이동(mov), 비교(cmp))를 포함할 수 있다. 이동 및 로직 그룹(2042)은 5개의 최하위 비트(LSB)를 공유할 수 있으며, 여기서 이동(mov) 명령어는 0000xxxxb의 형태이고 로직 명령어는 0001xxxxb의 형태이다. 흐름 제어 명령어 그룹(2044)(예를 들어, 호출, 점프(jmp))은 0010xxxxb의 형태(예를 들어, 0x20)의 명령어를 포함한다. 기타 명령어 그룹(2046)은 0011xxxxb의 형태(예를 들어, 0x30)의 동기화 명령어(예를 들어, 대기, 송신)를 포함하는 명령어의 혼합을 포함한다. 병렬 산술 명령어 그룹(2048)은 0100xxxxb의 형태(예를 들어, 0x40)의 컴포넌트 별 산술 명령어(예를 들어, 더하기, 곱하기(mul))를 포함한다. 병렬 산술 명령어 그룹(2048)은 데이터 채널에 걸쳐 병렬로 산술 연산을 수행한다. 벡터 산술 그룹(2050)은 0101xxxxb 형태(예를 들어, 0x50)의 산술 명령어(예를 들어, dp4)를 포함한다. 벡터 산술 그룹은 벡터 피연산자에 대한 내적 계산과 같은 산술을 수행한다. 일 실시예에서, 설명된 연산 코드 디코딩(2040)은 실행 유닛의 어느 부분이 디코딩된 명령어를 실행하는데 사용될지를 결정하는데 사용될 수 있다. 예를 들어, 일부 명령어는 시스토릭 어레이에 의해 수행될 시스토릭 명령어로 지정될 수 있다. 광선 추적 명령어(도시하지 않음)와 같은 다른 명령어는 실행 로직의 슬라이스 또는 파티션 내에서 광선 추적 코어 또는 광선 추적 로직으로 라우팅될 수 있다.
그래픽 파이프라인
도 21은 다른 실시예에 따른 그래픽 프로세서(2100)의 블록도이다. 본원의 임의의 다른 도면의 요소와 동일하거나 유사한 명칭을 갖는 도 21의 요소는 다른 도면에서와 동일한 요소를 설명하고, 그와 유사한 방식으로 동작하거나 기능할 수 있고, 본 명세서의 다른 곳에서 설명된 것과 동일한 컴포넌트를 포함할 수 있으며 다른 엔티티에 링크될 수 있지만, 이에 제한되지는 않는다.
그래픽 프로세서(2100)는 기하 파이프라인(2120), 미디어 파이프라인(2130), 디스플레이 엔진(2140), 스레드 실행 로직(2150) 및 렌더링 출력 파이프라인(2170)과 같은 상이한 타입의 그래픽 처리 파이프라인을 포함할 수 있다. 그래픽 프로세서(2100)는 하나 이상의 범용 처리 코어를 포함하는 멀티-코어 처리 시스템 내의 그래픽 프로세서일 수 있다. 그래픽 프로세서는 하나 이상의 제어 레지스터(도시하지 않음)에 대한 레지스터 기록에 의해 또는 링 상호 접속부(2102)를 통해 그래픽 프로세서(2100)에 발행된 커맨드를 통해 제어될 수 있다. 링 상호 접속부(2102)는 그래픽 프로세서(2100)를 다른 그래픽 프로세서 또는 범용 프로세서와 같은 다른 처리 컴포넌트에 연결할 수 있다. 링 상호 접속부(2102)로부터의 커맨드는 커맨드 스트리머(2103)에 의해 해석되고, 이 커맨드 스트리머(2103)는 기하 파이프라인(2120) 또는 미디어 파이프라인(2130)의 개별 컴포넌트에 명령어를 제공한다.
커맨드 스트리머(2103)는 메모리로부터 정점 데이터를 판독하고 커맨드 스트리머(2103)에 의해 제공된 정점-처리 커맨드를 실행하는 정점 페처(2105)의 동작을 지시할 수 있다. 정점 페처(2105)는 정점 데이터를 정점 셰이더(2107)에 제공할 수 있는데, 이 정점 셰이더(2107)는 각 정점에 좌표 공간 변환 및 조명 동작을 수행한다. 정점 페처(2105) 및 정점 셰이더(2107)는 실행 스레드를 스레드 디스패처(2131)를 통해 실행 유닛(2152A, 2152B)에 디스패칭함으로써 정점-처리 명령어를 실행할 수 있다.
실행 유닛(2152A, 2152B)은 그래픽 및 미디어 동작을 수행하는 명령어 세트를 갖는 벡터 프로세서의 어레이일 수 있다. 실행 유닛(2152A, 2152B)은 각각의 어레이에 대해 특정되거나 또는 어레이 사이에서 공유되는 부착된 L1 캐시(2151)를 가질 수 있다. 캐시는 데이터 캐시, 명령어 캐시 또는 서로 다른 파티션에 데이터와 명령어를 포함하도록 분할된 단일 캐시로 구성될 수 있다.
기하 파이프라인(2120)은 3D 객체의 하드웨어 가속 테셀레이션을 수행하는 테셀레이션 컴포넌트를 포함할 수 있다. 프로그래밍 가능한 헐(hull) 셰이더(2111)는 테셀레이션 동작을 구성할 수 있다. 프로그래밍 가능한 도메인 셰이더(2117)는 테셀레이션 출력의 백엔드(back-end) 평가를 제공할 수 있다. 테셀레이터(2113)는 헐 셰이더(2111)의 방향에서 동작할 수 있고, 기하 파이프라인(2120)에 입력으로서 제공되는 대략적인(coarse) 기하학적 모델에 기초하여 상세한 기하학적 객체의 세트를 생성하는 특수 목적 로직을 포함할 수 있다. 또한, 테셀레이션이 사용되지 않으면, 테셀레이션 컴포넌트(예를 들어, 헐 셰이더(2111), 테셀레이터(2113) 및 도메인 셰이더(2117))는 우회될 수 있다. 테셀레이션 컴포넌트는 정점 셰이더(2107)로부터 수신된 데이터에 기초하여 동작할 수 있다.
완전한 기하학적 객체는 실행 유닛(2152A, 2152B)으로 디스패치된 하나 이상의 스레드를 통해 기하 셰이더(2119)에 의해 처리될 수 있거나, 또는 클리퍼(2129)로 직접 진행될 수 있다. 기하 셰이더는 그래픽 파이프라인의 이전 단계에서와 같이 정점 또는 정점의 패치(patch)가 아닌 전체의 기하학적 객체에 대해 동작할 수 있다. 테셀레이션이 비활성화되면, 기하 셰이더(2119)는 정점 셰이더(2107)로부터 입력을 수신한다. 테셀레이션 유닛이 비활성화되면, 기하 셰이더(2119)는 기하 테셀레이션을 수행하는 기하 셰이더 프로그램으로 프로그래밍 가능할 수 있다.
래스터화 이전에, 클리퍼(2129)는 정점 데이터를 처리한다. 클리퍼(2129)는 고정 기능 클리퍼 또는 클리핑 및 기하 셰이더 기능을 갖는 프로그래밍 가능한 클리퍼일 수 있다. 렌더링 출력 파이프라인(2170)의 래스터화기(rasterizer) 및 깊이 테스트 컴포넌트(2173)는 픽셀 셰이더를 디스패치하여 기하학적 객체를 픽셀 당 표현으로 변환할 수 있다. 픽셀 셰이더 로직은 스레드 실행 로직(2150)에 포함될 수 있다. 선택적으로, 애플리케이션은 래스터화기 및 깊이 테스트 컴포넌트(2173)를 우회하고 스트림 아웃 유닛(2123)을 통해 래스터화되지 않은 정점 데이터에 액세스할 수 있다.
그래픽 프로세서(2100)는 상호 접속 버스, 상호 접속 패브릭, 또는 프로세서의 주요 컴포넌트 사이에 데이터 및 메시지 전달을 허용하는 다른 상호 접속 메커니즘을 갖는다. 일부 실시예에서, 실행 유닛(2152A, 2152B) 및 관련 로직 유닛(예를 들어, L1 캐시(2151), 샘플러(2154), 텍스처 캐시(2158) 등)은 메모리 액세스를 수행하고 프로세서의 렌더링 출력 파이프라인 컴포넌트와 통신하는 데이터 포트(2156)를 통해 상호 접속된다. 샘플러(2154), 캐시(2151, 2158) 및 실행 유닛(2152A, 2152B)은 각각 별개의 메모리 액세스 경로를 가질 수 있다. 선택적으로, 텍스처 캐시(2158)는 또한 샘플러 캐시로서 구성될 수 있다.
렌더링 출력 파이프라인(2170)은 정점 기반 객체를 관련 픽셀 기반 표현으로 변환하는 래스터화기 및 깊이 테스트 컴포넌트(2173)를 포함할 수 있다. 래스터화기 로직은 고정 기능 삼각형 및 라인 래스터화를 수행하는 윈도우/마스커 유닛을 포함할 수 있다. 관련된 렌더 캐시(2178) 및 깊이 캐시(2179)는 또한 일부 실시예에서 이용가능할 수 있다. 픽셀 동작 컴포넌트(2177)는 데이터에 대해 픽셀 기반 동작을 수행하지만, 일부 예에서는 2D 동작(예를 들어, 블렌딩을 통한 비트 블록 이미지 전송)과 관련된 픽셀 동작은 2D 엔진(2141)에 의해 수행되거나 또는 디스플레이 시간에 오버레이 디스플레이 평면을 사용하여 디스플레이 제어기(2143)에 의해 대체된다. 공유 L3 캐시(2175)는 모든 그래픽 컴포넌트에 이용 가능할 수 있어서, 주 시스템 메모리를 사용하지 않고 데이터를 공유할 수 있도록 한다.
미디어 파이프라인(2130)은 미디어 엔진(2137) 및 비디오 프론트-엔드(2134)를 포함할 수 있다. 비디오 프론트-엔드(2134)는 커맨드 스트리머(2103)로부터 파이프라인 커맨드를 수신할 수 있다. 미디어 파이프라인(2130)은 별도의 커맨드 스트리머를 포함할 수 있다. 비디오 프론트-엔드(2134)는 미디어 커맨드를 미디어 엔진(2137)에 전송하기 전에 이 커맨드를 처리할 수 있다. 미디어 엔진(2137)은 스레드 디스패처(2131)를 통해 스레드 실행 로직(2150)으로 디스패치하기 위한 스레드를 생성하는 스레드 생성 기능을 포함할 수 있다.
그래픽 프로세서(2100)는 디스플레이 엔진(2140)을 포함할 수 있다. 이 디스플레이 엔진(2140)은 프로세서(2100)의 외부에 있을 수 있고, 링 상호 접속부(2102) 또는 일부 다른 상호 접속 버스 또는 패브릭을 통해 그래픽 프로세서와 연결될 수 있다. 디스플레이 엔진(2140)은 2D 엔진(2141) 및 디스플레이 제어기(2143)를 포함할 수 있다. 디스플레이 엔진(2140)은 3D 파이프라인으로부터 독립적으로 동작할 수 있는 특수 목적 로직을 포함할 수 있다. 디스플레이 제어기(2143)는, 랩탑 컴퓨터에서와 같이 시스템 통합형 디스플레이 장치일 수 있거나 디스플레이 장치 커넥터를 통해 부착된 외부 디스플레이 장치일 수 있는 디스플레이 장치(도시하지 않음)에 연결될 수 있다.
기하 파이프라인(2120) 및 미디어 파이프라인(2130)은 복수의 그래픽 및 미디어 프로그래밍 인터페이스에 따른 동작을 수행하도록 구성될 수 있고 임의의 하나의 애플리케이션 프로그래밍 인터페이스(API)에 제한되지 않는다. 그래픽 프로세서를 위한 드라이버 소프트웨어는 특정 그래픽 또는 미디어 라이브러리에 특정된 API 호출을 그래픽 프로세서에 의해 처리될 수 있는 커맨드로 변환할 수 있다. 모두 크로노스 그룹(Khronos Group)으로부터 발표된, OpenGL(Open Graphics Library), OpenCL(Open Computing Language) 및/또는 Vulkan 그래픽 및 컴퓨팅 API에 대한 지원이 제공될 수 있다. Microsoft Corporation으로부터 발표된 Direct3D 라이브러리에 대한 지원이 또한 제공될 수 있다. 이들 라이브러리의 조합이 지원될 수 있다. OpenCV(Open Source Computer Vision Library)에 대한 지원이 또한 제공될 수 있다. 향후 API의 파이프라인으로부터 그래픽 프로세서의 파이프라인으로 매핑이 가능하게 되면, 호환 가능한 3D 파이프라인을 갖는 향후 API도 지원될 것이다.
그래픽 파이프라인 프로그래밍
도 22a는, 예를 들어 도 16a, 도 17, 도 21과 함께 본 명세서에 설명된 파이프라인과 같은 그래픽 처리 파이프라인을 프로그래밍하는 데 사용된 그래픽 프로세서 커맨드 포맷(2200)을 도시한 블록도이다. 도 22b는 일 실시예에 따른 그래픽 프로세서 커맨드 시퀀스(2210)를 도시한 블록도이다. 도 22a의 실선 상자는 일반적으로 그래픽 커맨드에 포함된 컴포넌트를 도시하고, 점선은 선택 사항이거나 또는 그래픽 커맨드의 서브-세트에만 포함된 컴포넌트를 포함한다. 도 22a의 예시적인 그래픽 프로세서 커맨드 포맷(2200)은 클라이언트(2202), 커맨드 연산 코드(opcode)(2204) 및 커맨드에 대한 데이터(2206)를 식별하는 데이터 필드를 포함한다. 서브-연산 코드(2205) 및 커맨드 크기(2208)는 또한 일부 커맨드에 포함된다.
클라이언트(2202)는 커맨드 데이터를 처리하는 그래픽 장치의 클라이언트 유닛을 특정할 수 있다. 그래픽 프로세서 커맨드 파서(parser)는 커맨드의 추가 처리를 조정하고 커맨드 데이터를 적절한 클라이언트 유닛으로 라우팅하기 위해 각 커맨드의 클라이언트 필드를 검사할 수 있다. 그래픽 프로세서 클라이언트 유닛은 메모리 인터페이스 유닛, 렌더 유닛, 2D 유닛, 3D 유닛 및 미디어 유닛을 포함할 수 있다. 각각의 클라이언트 유닛은 커맨드를 처리하는 대응 처리 파이프라인을 가질 수 있다. 일단 커맨드가 클라이언트 유닛에 의해 수신되면, 클라이언트 유닛은 수행할 동작을 결정하기 위해 연산 코드(2204) 및 존재한다면 서브-연산 코드(2205)를 판독한다. 클라이언트 유닛은 데이터 필드(2206)의 정보를 사용하여 커맨드를 수행한다. 일부 커맨드의 경우, 명시적인 커맨드 크기(2208)는 커맨드의 크기를 특정할 것으로 예상된다. 커맨드 파서는 커맨드 연산 코드에 근거하여 커맨드 중 적어도 일부 커맨드의 크기를 자동으로 결정할 수 있다. 커맨드는 복수의 더블 워드를 통해 정렬될 수 있다다. 다른 커맨드 포맷이 또한 사용될 수 있다.
도 22b의 흐름도는 예시적인 그래픽 프로세서 커맨드 시퀀스(2210)를 도시한다. 예시적 그래픽 프로세서를 특징으로 하는 데이터 처리 시스템의 소프트웨어 또는 펌웨어는 그래픽 동작의 세트를 설정, 실행 및 종료하기 위해 도시된 커맨드 시퀀스의 버전을 사용할 수 있다. 샘플 커맨드 시퀀스는 예시의 목적으로만 도시되고 설명되며, 특정 커맨드 또는 이 커맨드 시퀀스로 제한되지 않는다. 더욱이, 커맨드는 커맨드 시퀀스에서 커맨드의 배치(batch)로서 발행될 수 있으므로, 그래픽 프로세서는 커맨드의 시퀀스를 적어도 부분적으로 동시에 처리할 것이다.
그래픽 프로세서 커맨드 시퀀스(2210)는 임의의 활성 그래픽 파이프라인이 파이프라인에 현재 보류중인 커맨드를 완료하게 하는 파이프라인 플러시(flush) 커맨드(2212)로 시작할 수 있다. 선택적으로, 3D 파이프라인(2222) 및 미디어 파이프라인(2224)은 동시에 동작하지 않을 수 있다. 활성 그래픽 파이프라인이 임의의 진행 중인 커맨드를 완료하도록 파이프라인 플러시가 수행된다. 파이프라인 플러시에 대한 응답으로, 그래픽 프로세서에 대한 커맨드 파서는 활성 드로잉 엔진이 진행 중인 작업을 완료하고 관련된 판독 캐시가 무효화될 때까지 커맨드 처리를 일시 중지할 것이다. 선택에 따라, '더러운'이라고 표시된 렌더 캐시의 모든 데이터는 메모리로 플러시될 수 있다. 파이프라인 플러시 커맨드(2212)는 파이프라인 동기화를 위해 또는 그래픽 프로세서를 저전력 상태로 만들기 전에 사용될 수 있다.
파이프라인 선택 커맨드(2213)는 그래픽 프로세서가 파이프라인 사이에서 명시적으로 전환할 것을 커맨드 시퀀스가 요구할 때 사용될 수 있다. 파이프라인 선택 커맨드(2213)는 실행 컨텍스트가 두 파이프라인 모두에 대한 커맨드를 발행하지 않는다면 파이프라인 커맨드를 발행하기 전에 실행 컨텍스트 내에서 한 번만 필요할 수 있다. 파이프라인 플러시 커맨드(2212)는 파이프라인 선택 커맨드(2213)를 통한 파이프라인의 전환 직전에 요구될 수 있다.
파이프라인 제어 커맨드(2214)는 동작을 위한 그래픽 파이프라인을 구성할 수 있고, 3D 파이프라인(2222) 및 미디어 파이프라인(2224)을 프로그래밍하는데 사용될 수 있다. 파이프라인 제어 커맨드(2214)는 활성 파이프라인에 대한 파이프라인 상태를 구성할 수 있다. 파이프라인 제어 커맨드(2214)는 파이프라인 동기화를 위해, 그리고 커맨드의 배치를 처리하기 전에 활성 파이프라인 내의 하나 이상의 캐시 메모리로부터 데이터를 삭제하는데 사용될 수 있다.
반환 버퍼 상태(2216)에 관련된 커맨드는 데이터를 기록하기 위해 각각의 파이프라인에 대한 반환 버퍼 세트를 구성하는 데 사용될 수 있다. 일부 파이프라인 동작은 처리 중에 그 동작이 중간 데이터(intermediate data)를 기록하는 하나 이상의 반환 버퍼의 할당, 선택 또는 구성을 필요로 한다. 그래픽 프로세서는 또한 출력 데이터를 저장하고 교차 스레드 통신을 수행하기 위해 하나 이상의 반환 버퍼를 사용할 수 있다. 반환 버퍼 상태(2216)는 파이프라인 동작 세트에 사용하는 반환 버퍼의 크기 및 개수를 선택하는 것을 포함할 수 있다.
커맨드 시퀀스에서 나머지 커맨드는 동작을 위한 활성 파이프라인에 따라 상이하다. 파이프라인 결정(2220)에 따라, 커맨드 시퀀스는 3D 파이프라인 상태(2230)에서 시작하는 3D 파이프라인(2222) 또는 미디어 파이프라인 상태(2240)에서 시작하는 미디어 파이프라인(2224)에 맞춰진다(tailored).
3D 파이프라인 상태(2230)를 구성하는 커맨드는 정점 버퍼 상태, 정점 요소 상태, 일정한 컬러 상태, 깊이 버퍼 상태, 및 3D 프리미티브 커맨드가 처리되기 전에 구성될 다른 상태 변수에 대한 3D 상태 설정 커맨드를 포함한다. 이러한 커맨드의 값은 사용중인 특정 3D API에 근거하여 적어도 부분적으로 결정된다. 3D 파이프라인 상태(2230) 커맨드는 또한 특정 파이프라인 요소가 사용되지 않을 경우 이들 요소를 선택적으로 비활성화시키거나 또는 우회할 수 있다.
3D 프리미티브(2232) 커맨드는 3D 파이프라인에 의해 처리될 3D 프리미티브를 제출하는데 사용될 수 있다. 3D 프리미티브(2232) 커맨드를 통해 그래픽 프로세서로 전달되는 커맨드 및 관련 파라미터는 그래픽 파이프라인의 정점 페치 기능으로 전달된다. 정점 페치 기능은 3D 프리미티브(2232) 커맨드 데이터를 사용하여 정점 데이터 구조를 생성한다. 정점 데이터 구조는 하나 이상의 반환 버퍼에 저장된다. 3D 프리미티브(2232) 커맨드는 정점 셰이더를 통해 3D 프리미티브에 대한 정점 연산을 수행하는데 사용될 수 있다. 정점 셰이더를 처리하기 위해, 3D 파이프라인(2222)은 셰이더 실행 스레드를 그래픽 프로세서 실행 유닛으로 디스패치한다.
3D 파이프라인(2222)은 실행(2234) 커맨드 또는 이벤트를 통해 트리거될 수 있다. 레지스터는 트리거 커맨드 실행을 기록할 수 있다. 실행은 커맨드 시퀀스에서 'go' 또는 'kick' 커맨드를 통해 트리거될 수 있다. 커맨드 실행은 그래픽 파이프라인을 통해 커맨드 시퀀스를 플러시하는 파이프라인 동기화 커맨드를 사용하여 트리거될 수 있다. 3D 파이프라인은 3D 프리미티브에 대한 기하 처리를 수행할 것이다. 동작이 완료되면 결과로 생성된 기하학적 객체가 래스터화되고 픽셀 엔진이 결과 픽셀을 채색한다. 픽셀 셰이딩 및 픽셀 백 엔드 동작을 제어하는 추가 커맨드가 또한 이러한 동작에 포함될 수 있다.
그래픽 프로세서 커맨드 시퀀스(2210)는 미디어 동작을 수행할 때 미디어 파이프라인(2224) 경로를 따를 수 있다. 일반적으로, 미디어 파이프라인(2224)에 대한 프로그래밍의 특정 사용 및 방식은 수행될 미디어 또는 컴퓨팅 동작에 의존한다. 미디어를 디코딩하는 동안 특정 미디어 디코딩 동작이 미디어 파이프라인으로 오프로딩될 수 있다. 미디어 파이프라인은 또한 우회될 수 있고 미디어 디코딩은 하나 이상의 범용 처리 코어에 의해 제공되는 리소스를 사용하여 전체적으로 또는 부분적으로 수행될 수 있다. 미디어 파이프라인은 또한 범용 그래픽 프로세서 유닛(GPGPU) 동작을 위한 요소를 포함할 수 있는데, 여기서 그래픽 프로세서는 그래픽 프리미티브의 렌더링에 명시적으로 관련되지 않은 계산 셰이더 프로그램을 사용하여 SIMD 벡터 연산을 수행하는데 사용된다.
미디어 파이프라인(2224)은 3D 파이프라인(2222)과 유사한 방식으로 구성될 수 있다. 미디어 파이프라인 상태(2240)를 구성하는 커맨드 세트는 미디어 객체 커맨드(2242) 이전에 커맨드 큐(queue)에 디스패치 또는 배치된다. 미디어 파이프라인 상태(2240)에 대한 커맨드는 미디어 객체를 처리하는데 사용될 미디어 파이프라인 요소를 구성하는 데이터를 포함할 수 있다. 이는 인코딩 또는 디코딩 포맷과 같은, 미디어 파이프라인 내에서 비디오 디코딩 및 비디오 인코딩 로직을 구성하는 데이터를 포함한다. 미디어 파이프라인 상태(2240)에 대한 커맨드는 또한 상태 설정의 배치를 포함하는 "간접" 상태 요소에 대한 하나 이상의 포인터의 사용을 지원할 수 있다.
미디어 객체 커맨드(2242)는 미디어 파이프라인에 의한 처리를 위해 미디어 객체에 대한 포인터를 제공할 수 있다. 미디어 객체는 처리될 비디오 데이터를 포함하는 메모리 버퍼를 포함한다. 선택적으로, 미디어 객체 커맨드(2242)를 발행하기 전에 모든 미디어 파이프라인 상태는 유효해야 한다. 일단 파이프라인 상태가 구성되고 미디어 객체 커맨드(2242)가 큐잉되면, 미디어 파이프라인(2224)은 실행 커맨드(2244) 또는 동등한 실행 이벤트(예를 들어, 레지스터 기록)를 통해 트리거된다. 이후 미디어 파이프라인(2224)으로부터의 출력은 3D 파이프라인(2222) 또는 미디어 파이프라인(2224)에 의해 제공되는 동작에 의해 사후 처리될 수 있다. GPGPU 동작은 미디어 동작과 유사한 방식으로 구성되고 실행될 수 있다.
그래픽 소프트웨어 아키텍처
도 23은 데이터 처리 시스템(2300)에 대한 예시적인 그래픽 소프트웨어 아키텍처를 도시한다. 이런 소프트웨어 아키텍처는 3D 그래픽 애플리케이션(2310), 운영 체제(2320) 및 적어도 하나의 프로세서(2330)를 포함할 수 있다. 프로세서(2330)는 그래픽 프로세서(2332) 및 하나 이상의 범용 프로세서 코어(들)(2334)를 포함할 수 있다. 프로세서(2330)는 프로세서(1402) 또는 본 명세서에 설명된 프로세서 중 임의의 다른 프로세서의 변형일 수 있다. 프로세서(2330)는 프로세서(1402) 또는 본 명세서에 설명된 임의의 다른 프로세서를 대신하여 사용될 수 있다. 따라서, 프로세서(1402) 또는 본 명세서에 설명된 임의의 다른 프로세서와 조합된 임의의 특징의 개시는 또한 그래픽 프로세서(2330)와의 대응하는 조합을 개시하지만, 이에 제한되지는 않는다. 또한, 본원의 임의의 다른 도면의 요소와 동일하거나 유사한 명칭을 갖는 도 23의 요소는 다른 도면에서와 동일한 요소를 설명하고, 그와 유사한 방식으로 동작하거나 기능할 수 있고, 본 명세서의 다른 곳에서 설명된 것과 동일한 컴포넌트를 포함할 수 있으며 다른 엔티티에 링크될 수 있지만, 이에 제한되지는 않는다. 그래픽 애플리케이션(2310) 및 운영 체제(2320)는 각각 데이터 처리 시스템의 시스템 메모리(2350)에서 실행될 수 있다.
3D 그래픽 애플리케이션(2310)은 셰이더 명령어(2312)를 포함하는 하나 이상의 셰이더 프로그램을 포함할 수 있다. 셰이더 언어 명령어는 Direct3D의 HLSL(High-Level Shader Language), GLSL(OpenGL Shader Language) 등과 같은 고급 셰이더 언어로 작성될 수 있다. 애플리케이션은 또한 범용 프로세서 코어(2334)에 의해 실행하기에 적합한 기계어로 작성된 실행 가능한 명령어(2314)를 포함할 수 있다. 애플리케이션은 또한 정점 데이터에 의해 정의된 그래픽 객체(2316)를 포함할 수 있다.
운영 체제(2320)는 Microsoft Corporation의 Microsoft®Windows® 운영 체제, 사유 UNIX 계열 운영 체제 또는 Linux 커널의 변형을 사용하는 오픈 소스 UNIX 계열 운영 체제일 수 있다. 운영 체제(2320)는 Direct3D API, OpenGL API 또는 Vulkan API와 같은 그래픽 API(2322)를 지원할 수 있다. Direct3D API가 사용 중일 때, 운영 체제(2320)는 프론트-엔드 셰이더 컴파일러(2324)를 사용하여 HLSL로 작성된 모든 셰이더 명령어(2312)를 하위 레벨 셰이더 언어로 컴파일한다. 컴파일은 JIT(Just-In-Time) 컴파일이거나 또는 애플리케이션은 셰이더 사전 컴파일을 수행할 수 있다. 고급 셰이더는 3D 그래픽 애플리케이션(2310)을 컴파일하는 동안 저급 셰이더로 컴파일될 수 있다. 셰이더 명령어(2312)는 Vulkan API에서 사용되는 SPIR(Standard Portable Intermediate Representation)의 버전과 같은 중간 형태로 제공될 수 있다.
사용자 모드 그래픽 드라이버(2326)는 셰이더 명령어(2312)를 하드웨어 특정 표현으로 변환하는 백-엔드 셰이더 컴파일러(2327)를 포함할 수 있다. OpenGL API가 사용중일 때, GLSL 고급 언어로 작성된 셰이더 명령어(2312)는 컴파일을 위해 사용자 모드 그래픽 드라이버(2326)로 전달된다. 사용자 모드 그래픽 드라이버(2326)는 커널 모드 그래픽 드라이버(2329)와 통신하는 운영 체제 커널 모드 기능(2328)을 사용할 수 있다. 커널 모드 그래픽 드라이버(2329)는 커맨드 및 명령어를 디스패치하기 위해 그래픽 프로세서(2332)와 통신할 수 있다.
IP 코어 구현
하나 이상의 양태는, 프로세서와 같은 집적 회로 내의 로직을 나타내고 및/또는 정의하는, 머신 판독가능 매체 상에 저장된 전형적인 코드에 의해 구현될 수 있다. 예를 들어, 머신 판독가능 매체는 프로세서 내의 다양한 로직을 표현하는 명령어를 포함할 수 있다. 머신에 의해 판독될 때, 명령어는 머신으로 하여금 본 명세서에 설명된 기술을 수행하는 로직을 제조하게할 수 있다. "IP 코어"로 알려진 이러한 표현은 집적 회로의 구조를 설명하는 하드웨어 모델로서 유형의 머신 판독가능 매체 상에 저장될 수 있는 집적 회로에 대한 로직의 재사용 가능한 유닛이다. 하드웨어 모델은 다양한 고객 또는 제작 시설에 공급될 수 있으며, 이들은 집적 회로를 제조하는 제조 기계에 하드웨어 모델을 로딩한다. 집적 회로는 본 명세서에 설명된 임의의 실시예와 관련하여 설명된 동작을 수행하도록 제조될 수 있다.
도 24a는 일 실시예에 따른 동작을 수행하기 위해 집적 회로를 제작하는데 사용될 수 있는 IP 코어 개발 시스템(2400)을 도시하는 블록도이다. IP 코어 개발 시스템(2400)은 더 큰 설계에 통합될 수 있거나 또는 전체 집적 회로(예를 들어, SOC 집적 회로)를 구성하는데 사용될 수 있는 모듈식의 재사용 가능한 설계를 생성하는데 사용될 수 있다. 설계 설비(2430)는 고급 프로그래밍 언어(예를 들어, C/C ++)로 IP 코어 설계의 소프트웨어 시뮬레이션(2410)을 생성할 수 있다. 소프트웨어 시뮬레이션(2410)은 시뮬레이션 모델(2412)을 사용하여 IP 코어의 행동을 설계, 테스트 및 검증하는데 사용될 수 있다. 시뮬레이션 모델(2412)은 기능, 행동 및/또는 타이밍 시뮬레이션을 포함할 수 있다. 이후 레지스터 전송 레벨(RTL) 설계(2415)는 시뮬레이션 모델(2412)로부터 생성 또는 합성될 수 있다. RTL 설계(2415)는 모델링된 디지털 신호를 사용하여 수행되는 관련 로직을 포함하는 하드웨어 레지스터들 사이의 디지털 신호의 흐름을 모델링하는 집적 회로의 동작의 추상화를 가리킨다. RTL 설계(2415)에 더하여, 로직 레벨 또는 트랜지스터 레벨에서의 저급 설계가 또한 생성, 설계 또는 합성될 수 있다. 따라서 초기 설계 및 시뮬레이션의 특정 세부 사항은 다를 수 있다.
RTL 설계(2415) 또는 등가물은 설계 설비에 의해 하드웨어 모델(2420)로 추가적으로 합성될 수 있으며, 이 하드웨어 모델(2420)은 하드웨어 기술 언어(HDL)로 작성되거나, 또는 물리적 설계 데이터의 다른 표현일 수 있다. IP 코어 설계를 검증하기 위해 HDL을 추가로 시뮬레이션하거나 또는 테스트할 수 있다. IP 코어 설계는 제 3 자 제조 설비(2465)로 전달하기 위해 비휘발성 메모리(2440)(예를 들어, 하드 디스크, 플래시 메모리 또는 임의의 비휘발성 저장 매체)를 사용하여 저장될 수 있다. 이와 달리, IP 코어 설계는 유선 접속(2450) 또는 무선 접속(2460)을 통해(예를 들어, 인터넷을 통해) 전송될 수 있다. 이후 제조 설비(2465)는 IP 코어 설계에 적어도 부분적으로 기초한 집적 회로를 제조할 수 있다. 제조된 집적 회로는 본 명세서에 설명된 적어도 하나의 실시예에 따른 동작을 수행하도록 구성될 수 있다.
도 24b는 집적 회로 패키지 어셈블리(2470)의 측단면도를 도시한다. 집적 회로 패키지 어셈블리(2470)는 본 명세서에 설명된 것과 같은 하나 이상의 프로세서 또는 가속기 장치의 구현예를 도시한다. 패키지 어셈블리(2470)는 기판(2480)에 접속된 하드웨어 로직(2472, 2474)의 복수의 유닛을 포함한다. 로직(2472, 2474)은 적어도 부분적으로 구성 가능한 로직 또는 고정 기능 로직 하드웨어로 구현될 수 있으며, 본 명세서에 설명된 프로세서 코어(들), 그래픽 프로세서(들) 또는 다른 가속기 장치 중 어느 것의 하나 이상의 부분을 포함할 수 있다. 로직(2472, 2474)의 각각의 유닛은 반도체 다이 내에 구현될 수 있고 상호 접속 구조(2473)를 통해 기판(2480)에 연결될 수 있다. 상호 접속 구조(2473)는 로직(2472, 2474)과 기판(2480) 사이에서 전기적 신호를 라우팅하도록 구성될 수 있으며, 범프 또는 기둥과 같은 상호 접속부를 포함하지만 이에 제한되는 것은 아니다. 상호 접속 구조(2473)는, 예를 들어, 로직(2472, 2474)의 동작과 관련된 입력/출력(I/O) 신호 및/또는 전력 또는 접지 신호와 같은 전기 신호를 라우팅하도록 구성될 수 있다. 기판(2480)은 에폭시계 라미네이트 기판일 수 있다. 기판(2480)은 또한 다른 적합한 타입의 기판을 포함할 수 있다. 패키지 어셈블리(2470)는 패키지 상호 접속부(2483)를 통해 다른 전기 장치에 접속될 수 있다. 패키지 상호 접속부(2483)는 기판(2480)의 표면에 연결되어 전기 신호를 마더보드, 다른 칩셋 또는 멀티-칩 모듈과 같은 다른 전기 장치로 라우팅할 수 있다.
로직(2472, 2474)의 유닛은 로직(2472, 2474) 사이에 전기 신호를 라우팅하도록 구성된 브리지(2482)와 전기적으로 연결될 수 있다. 브리지(2482)는 전기 신호에 대한 경로를 제공하는 밀집된 상호 접속 구조일 수 있다. 브리지(2482)는 유리 또는 적절한 반도체 재료로 구성된 브리지 기판을 포함할 수 있다. 전기적 라우팅 특징부가 로직(2472, 2474) 사이에 칩과 칩의 접속을 제공하기 위해 브리지 기판 상에 형성될 수 있다.
로직(2472, 2474)의 2개의 유닛 및 브리지(2482)가 도시되어 있지만, 본 명세서에 설명된 실시예는 하나 이상의 다이 위에 더 많거나 더 적은 로직 유닛을 포함할 수 있다. 하나 이상의 다이는 로직이 단일 다이 위에 포함될 때 브리지(2482)가 배제될 수 있으므로 0개 이상의 브리지에 의해 접속될 수 있다. 이와 달리, 복수의 다이 또는 로직의 유닛은 하나 이상의 브리지에 의해 접속될 수 있다. 또한 복수의 로직 유닛, 다이 및 브리지는, 3 차원 구성을 포함한 다른 가능한 구성으로 함께 접속될 수 있다.
도 24c는 기판(2480)(예를 들어, 베이스 다이)에 접속된 하드웨어 로직 칩렛의 복수의 유닛을 포함하는 패키지 어셈블리(2490)를 도시한다. 본 명세서에 설명된 그래픽 처리 유닛, 병렬 프로세서 및/또는 컴퓨팅 가속기는 개별적으로 제작된 다양한 실리콘 칩렛으로 구성될 수 있다. 이러한 맥락에서, 칩렛은 다른 칩렛과 함께 더 큰 패키지로 조립될 수 있는 로직의 별개의 유닛을 포함하는 적어도 부분적으로 패키지된 집적 회로이다. 다른 IP 코어 로직을 갖는 칩렛의 다양한 세트가 단일 장치에 조립될 수 있다. 또한 칩렛은 활성 인터포저 기술을 사용하여 베이스 다이 또는 베이스 칩렛에 통합될 수 있다. 본 명세서에 설명된 개념은 GPU 내에서 IP의 상이한 형태 사이의 상호 접속 및 통신을 가능하게 한다. IP 코어는 서로 다른 프로세스 기술을 사용하여 제작될 수 있으며 제작 과정에서 구성될 수 있으므로, 이는, 특히 여러 가지 특징적 IP를 구비한 대형 SoC에서 복수의 IP를 동일한 제작 프로세스로 수렴시키는 복잡성을 회피할 수 있다. 복수의 프로세스 기술을 사용할 수 있으므로, 출시 시간을 단축시키고 또한 복수의 제품 SKU를 생성하는 비용 효율적인 방법이 제공된다. 또한, 분리된 IP는 독립적으로 파워를 켜고 끌 수 있고, 주어진 워크로드 상에서 사용되지 않는 컴포넌트의 전원을 차단할 수 있어 전체 전력 소비를 줄일 수 있다.
다양한 실시예에서, 패키지 어셈블리(2490)는 패브릭(2485) 또는 하나 이상의 브리지(2487)에 의해 상호 접속되는 더 적거나 더 많은 수의 컴포넌트 및 칩렛을 포함할 수 있다. 패키지 어셈블리(2490) 내의 칩렛은, 패키지 상호 접속부(2483)에 대한 전기적 접속을 포함하는 기판(2480)과 칩렛을 연결하기 위해 스루 실리콘 비아(TSV)를 포함하는 실리콘 인터포저 상에 다수의 다이가 나란히 적층되는 칩-온-웨이퍼-온 기판 스택을 사용하는 2.5D 배열을 가질 수 있다.
일 실시예에서, 실리콘 인터포저는 TSV에 추가하여 내장형 로직을 포함하는 활성 인터포저(2489)이다. 이러한 실시예에서, 패키지 어셈블리(2490) 내의 칩렛은 활성 인터포저(2489)의 상부에 3D 면 대 면 다이 적층을 사용하여 배열된다. 활성 인터포저(2489)는 상호접속 패브릭(2485) 및 실리콘 브리지(2487)에 추가하여 I/O(2491)용 하드웨어 로직, 캐시 메모리(2492) 및 다른 하드웨어 로직을 포함할 수 있다. 패브릭(2485)은 활성 인터포저(2489) 내에서 다양한 로직 칩렛(2472, 2474) 및 로직(2491, 2493) 사이의 통신을 가능하게 한다. 패브릭(2485)은 패키지 어셈블리의 컴포넌트들 사이에서 데이터 패킷을 스위칭하는 NoC 상호접속부 또는 다른 형태의 패킷 스위칭형 패브릭일 수 있다. 복잡한 어셈블리의 경우, 패브릭(2485)은 패키지 어셈블리(2490)의 다양한 하드웨어 로직 간의 통신을 가능하게하는 전용 칩 렛일 수 있다.
활성 인터포저(2489) 내의 브리지 구조(2487)는, 예를 들어, 로직 또는 I/O 칩렛(2474)과 메모리 칩렛(2475) 사이의 점 대 점 상호 접속을 용이하게 하기 위해 사용될 수 있다. 일부 구현예에서, 브리지 구조(2487)는 또한 기판(2480) 내에 매립될 수 있다.
하드웨어 로직 칩렛은 특수 목적 하드웨어 로직 칩렛(2472), 로직 또는 I/O 칩렛(2474) 및/또는 메모리 칩렛(2475)을 포함할 수 있다. 하드웨어 로직 칩렛(2472) 및 로직 또는 I/O 칩렛(2474)은 적어도 부분적으로 구성 가능한 로직 또는 고정 기능 로직 하드웨어로 구현될 수 있으며, 프로세서 코어(들), 그래픽 프로세서(들), 병렬 프로세서 또는 본 명세서에 설명된 다른 가속기 장치 중 임의의 것의 하나 이상의 부분을 포함할 수 있다. 메모리 칩렛(2475)은 DRAM(예를 들어, GDDR, HBM) 메모리 또는 캐시(SRAM) 메모리일 수 있다. 활성 인터포저(2489)(또는 기판(2480)) 내의 캐시 메모리(2492)는 패키지 어셈블리(2490)를 위한 전역 캐시(global cache)로서 기능하거나, 분배된 전역 캐시의 일부로서 기능하거나, 패브릭(2485)을 위한 전용 캐시로서 기능할 수 있다.
각각의 칩렛은 개별 반도체 다이로서 제조될 수 있고, 기판(2480) 내에 매립되는 베이스 다이와 연결되거나 기판(2480)과 연결될 수 있다. 기판(2480)과의 연결은 상호 접속 구조(2473)를 통해 수행될 수 있다. 상호 접속 구조(2473)는 다양한 칩렛과 기판(2480) 내의 로직 사이에서 전기 신호를 라우팅하도록 구성될 수 있다. 상호 접속 구조(2473)는 범프 또는 기둥과 같은 상호 접속부를 포함할 수 있지만, 이에 제한되는 것은 아니다. 일부 실시예에서, 상호 접속 구조(2473)는, 예를 들어, 로직, 입력/출력(I/O) 및 메모리 칩렛의 동작과 관련된 I/O 신호 및/또는 전력 또는 접지 신호와 같은 전기 신호를 라우팅하도록 구성될 수 있다. 일 실시예에서는, 추가 상호접속 구조가 활성 인터포저(2489)를 기판(2480)에 연결한다.
기판(2480)은 에폭시계 라미네이트 기판일 수 있다. 그러나, 이에 제한되지 않으며, 기판(2480)은 또한 다른 적합한 타입의 기판을 포함할 수 있다. 패키지 어셈블리(2490)는 패키지 상호 접속부(2483)를 통해 다른 전기 장치에 접속될 수 있다. 패키지 상호 접속부(2483)는 기판(2480)의 표면에 연결되어 전기 신호를 마더보드, 다른 칩셋 또는 멀티-칩 모듈과 같은 다른 전기 장치로 라우팅할 수 있다.
로직 또는 I/O 칩렛(2474) 및 메모리 칩렛(2475)은 로직 또는 I/O 칩렛(2474)과 메모리 칩렛(2475) 사이에서 전기 신호를 라우팅하도록 구성된 브리지(2487)를 통해 전기적으로 연결될 수 있다. 브리지(2487)는 전기 신호에 대한 경로를 제공하는 밀집된 상호 접속 구조일 수 있다. 브리지(2487)는 유리 또는 적절한 반도체 재료로 구성된 브리지 기판을 포함할 수 있다. 전기적 라우팅 특징부가 브리지 기판 상에 형성되어 로직 또는 I/O 칩렛(2474)과 메모리 칩렛(2475) 사이에 칩과 칩의 접속을 제공할 수 있다. 브리지(2487)는 또한 실리콘 브리지 또는 상호 접속 브리지로 지칭될 수 있다. 예를 들어, 브리지(2487)는 EMIB(Embedded Multi-die Interconnect Bridge)이다. 대안적으로, 브리지(2487)는 단순히 하나의 칩렛에서 다른 칩렛으로의 직접 접속일 수 있다.
도 24d는 일 실시예에 따른 교환 가능한 칩렛(2495)을 포함하는 패키지 어셈블리(2494)를 도시한다. 교환 가능한 칩렛(2495)은 하나 이상의 베이스 칩렛(2496, 2498) 상의 표준화된 슬롯에 조립될 수 있다. 베이스 칩렛(2496, 2498)은 본 명세서에 설명된 다른 브리지 상호 접속부와 유사할 수 있는 브리지 상호 접속부(2497)를 통해 연결될 수 있으며, 예를 들어, EMIB일 수 있다. 메모리 칩렛은 또한 브리지 상호 접속부를 통해 로직 또는 I/O 칩렛에 연결될 수 있다. I/O 및 로직 칩렛은 상호 접속 패브릭을 통해 통신할 수 있다. 베이스 칩렛은 각각 로직 또는 I/O 또는 메모리/캐시 중 하나에 대해 표준화된 포맷으로 하나 이상의 슬롯을 지원할 수 있다.
SRAM 및 전력 전달 회로는 하나 이상의 베이스 칩렛(2496, 2498)으로 제조될 수 있으며, 이 베이스 칩렛(2496, 2498)은 베이스 칩렛의 상부에 적층된 교환 가능한 칩렛(2495)과는 상이한 프로세스 기술을 사용하여 제조될 수 있다. 예를 들어, 베이스 칩렛(2496, 2498)은 더 큰 공정 기술을 사용하여 제조될 수 있는 반면, 교환 가능한 칩렛은 더 작은 공정 기술을 사용하여 제조될 수 있다. 하나 이상의 교환 가능한 칩렛(2495)은 메모리(예를 들어, DRAM) 칩렛일 수 있다. 전력 및/또는 패키지 조립체(2494)를 사용하는 제품에 대한 목표 성능에 따라 상이한 메모리 밀도가 패키지 조립체(2494)에 대해 선택될 수 있다. 또한, 상이한 개수의 기능 유닛의 타입을 갖는 로직 칩렛은 전력 및/또는 제품에 대한 목표 성능에 따라 조립시에 선택될 수 있다. 또한, 서로 다른 타입의 IP 로직 코어를 포함하는 칩렛을 교환 가능한 칩렛 슬롯에 삽입하여, 상이한 기술의 IP 블록을 혼합하고 매칭시킬 수 있는 하이브리드 프로세서 설계가 가능하다.
예시적인 시스템 온 칩 집적 회로
도 25 내지 도 26b는 하나 이상의 IP 코어를 사용하여 제조될 수 있는 예시적인 집적 회로 및 관련 그래픽 프로세서를 도시한다. 도시된 것에 더하여, 추가 그래픽 프로세서/코어, 주변 장치 인터페이스 제어기, 또는 범용 프로세서 코어를 포함하는 다른 로직 및 회로가 포함될 수 있다. 본원의 임의의 다른 도면의 요소와 동일하거나 유사한 명칭을 갖는 도 25 내지 도 26b의 요소는 다른 도면에서와 동일한 요소를 설명하고, 그와 유사한 방식으로 동작하거나 기능할 수 있고, 본 명세서의 다른 곳에서 설명된 것과 동일한 컴포넌트를 포함할 수 있으며 다른 엔티티에 링크될 수 있지만, 이에 제한되지는 않는다.
도 25는 하나 이상의 IP 코어를 사용하여 제조될 수 있는 예시적인 시스템 온 칩 집적 회로(2500)을 도시하는 블록도이다. 예시적인 집적 회로(2500)는 하나 이상의 애플리케이션 프로세서(들)(2505)(예를 들어, CPU)와 적어도 하나의 그래픽 프로세서(2510)를 포함하는데, 그래픽 프로세서(2510)는 그래픽 프로세서(1408, 1508, 2510) 또는 본 명세서에 설명된 임의의 그래픽 프로세서의 변형일 수 있고, 설명된 임의의 그래픽 프로세서를 대신하여 사용될 수 있다. 따라서, 본 명세서에서 그래픽 프로세서와 조합된 임의의 특징의 개시는 또한 그래픽 프로세서(2510)와의 대응하는 조합을 개시하지만, 이에 제한되지는 않는다. 집적 회로(2500)는 이미지 프로세서(2515) 및/또는 비디오 프로세서(2520)를 추가로 포함할 수 있으며, 이들 중 임의의 것은 동일하거나 또는 복수의 다른 설계 시설로부터 제조된 모듈식 IP 코어일 수 있다. 집적 회로(2500)는 USB 제어기(2525), UART 제어기(2530), SPI/SDIO 제어기(2535) 및 I2S/I2C 제어기(2540)를 포함하는 주변 장치 또는 버스 로직을 포함할 수 있다. 또한, 집적 회로는 하나 이상의 HDMI(high-definition multimedia interface) 제어기(2550) 및 MIPI(mobile industry processor interface) 디스플레이 인터페이스(2555)에 연결된 디스플레이 장치(2545)를 포함할 수 있다. 저장 장치는 플래시 메모리 및 플래시 메모리 제어기를 포함하는 플래시 메모리 서브시스템(2560)에 의해 제공될 수 있다. 메모리 인터페이스는 SDRAM 또는 SRAM 메모리 장치에 액세스하기 위한 메모리 제어기(2565)를 통해 제공될 수 있다. 일부 집적 회로는 내장형 보안 엔진(2570)을 추가로 포함한다.
도 26a 및 도 26b는 본 명세서에 설명된 실시예에 따른, SoC 내에서 사용하기 위한 예시적인 그래픽 프로세서를 나타내는 블록도이다. 그래픽 프로세서는 그래픽 프로세서(1408, 1508, 2510) 또는 본 명세서에 설명된 임의의 다른 그래픽 프로세서의 변형일 수 있다. 그래픽 프로세서는 그래픽 프로세서(1408, 1508, 2510) 또는 본 명세서에 설명된 임의의 다른 그래픽 프로세서를 대신하여 사용될 수 있다. 따라서, 본 명세서에서 그래픽 프로세서(1408, 1508, 2510) 또는 본 명세서에 설명된 임의의 다른 그래픽 프로세서와 조합된 임의의 특징의 개시는 또한 도 26a 및 도 26b의 그래픽 프로세서와의 대응하는 조합을 개시하지만, 이에 제한되지는 않는다. 도 26a는 일 실시예에 따른 하나 이상의 IP 코어를 사용하여 제조될 수 있는 시스템 온 칩 집적 회로의 예시적인 그래픽 프로세서(2610)를 도시한다. 도 26b는 일 실시예에 따른 하나 이상의 IP 코어를 사용하여 제조될 수 있는 시스템 온 칩 집적 회로의 추가 예시적인 그래픽 프로세서(2640)를 도시한다. 도 26a의 그래픽 프로세서(2610)는 저전력 그래픽 프로세서 코어의 예이다. 도 26b의 그래픽 프로세서(2640)는 고성능 그래픽 프로세서 코어의 예이다. 예를 들어, 그래픽 프로세서(2610) 및 그래픽 프로세서(2640)의 각각은 이 단락의 서두에서 언급한 바와 같이 도 25의 그래픽 프로세서(2510)의 변형일 수 있다.
도 26a에 도시된 것과 같이, 그래픽 프로세서(2610)는 정점 프로세서(2605) 및 하나 이상의 프래그먼트 프로세서(들)(2615A-2615N)(예를 들어, 2615A, 2615B, 2615C, 2615D, 내지 2615N-1 및 2615N)를 포함한다. 그래픽 프로세서(2610)는 별개의 로직을 통해 상이한 셰이더 프로그램을 실행할 수 있으므로, 하나 이상의 프래그먼트 프로세서(들)(2615A-2615N)가 프래그먼트 또는 픽셀 셰이더 프로그램에 대한 프래그먼트(예를 들어, 픽셀) 셰이딩 동작을 실행하는 동안, 정점 프로세서(2605)는 정점 셰이더 프로그램에 대한 동작을 실행하도록 최적화된다. 정점 프로세서(2605)는 3D 그래픽 파이프라인의 정점 처리 단계를 수행하고 프리미티브 및 정점 데이터를 생성한다. 프래그먼트 프로세서(들)(2615A-2615N)는 정점 프로세서(2605)에 의해 생성된 프리미티브 및 정점 데이터를 사용하여 디스플레이 장치 상에 디스플레이되는 프레임 버퍼를 생성한다. 프래그먼트 프로세서(들)(2615A-2615N)는, Direct 3D API에서 제공되는 픽셀 셰이더 프로그램과 유사한 동작을 수행하는데 사용될 수 있는 OpenGL API에서 제공되는 프래그먼트 셰이더 프로그램을 실행하도록 최적화될 수 있다.
그래픽 프로세서(2610)는 하나 이상의 메모리 관리 유닛(MMU)(2620A, 2620B), 캐시(들)(2625A, 2625B) 및 회로 상호 접속부(들)(2630A, 2630B)를 추가로 포함한다. 하나 이상의 MMU(들)(2620A, 2620B)는, 하나 이상의 캐시(들)(2625A, 2625B)에 저장된 정점 또는 이미지/텍스처 데이터에 더하여 메모리에 저장된 정점 또는 이미지/텍스처를 참조할 수 있는, 정점 프로세서(2605) 및/또는 프래그먼트 프로세서(들)(2615A-2615N)를 포함하는 그래픽 프로세서(2610)에 대해 가상 주소를 물리 주소로 매핑한다. 하나 이상의 MMU(들)(2620A, 2620B)는, 도 25의 하나 이상의 애플리케이션 프로세서(2505), 이미지 프로세서(2515) 및/또는 비디오 프로세서(2520)와 관련된 하나 이상의 MMU를 포함하는 시스템 내의 다른 MMU와 동기화되어, 각각의 프로세서(2505-2520)가 공유 또는 통합 가상 메모리 시스템에 참여할 수 있다. 그래픽 프로세서(2610)의 컴포넌트는 본 명세서에 설명된 다른 그래픽 프로세서의 컴포넌트에 대응할 수 있다. 하나 이상의 MMU(들)(2620a-2620b)는 도 2c의 MMU(245)에 대응할 수 있다. 정점 프로세서(2605) 및 프래그먼트 프로세서(2615A-2615N)는 그래픽 멀티프로세서(234)에 대응할 수 있다. 하나 이상의 회로 상호 접속부(들)(2630A, 2630B)는, 그래픽 프로세서(2610)가 실시예에 따라 SoC의 내부 버스를 통해 또는 직접 접속을 통해 SoC 내의 다른 IP 코어와 인터페이스할 수 있도록 한다. 하나 이상의 상호 접속부(들)(2630A, 2630B)는 도 2cdml 데이터 크로스바(240)에 대응할 수 있다. 추가 대응관계는 그래픽 프로세서(2610)의 아날로그 컴포넌트들과 본 명세서에 설명된 다양한 그래픽 프로세서 아키텍처들 사이에서 발견될 수 있다.
도 26b에 도시된 것과 같이, 그래픽 프로세서(2640)는 도 26a의 그래픽 프로세서(2610)의 하나 이상의 MMU(들)(2620A, 2620B), 캐시(들)(2625A, 2625B), 및 회로 상호 접속부(들)(2630A, 2630B)를 포함한다. 그래픽 프로세서(2640)는 하나 이상의 셰이더 코어(들)(2655A-2655N)(예를 들어, 2655A, 2655B, 2655C, 2655D, 2655E, 2655F 내지 2655N-1 및 2655N)를 포함하며, 이는, 단일 코어 또는 임의의 타입의 코어가 정점 셰이더, 프래그먼트 셰이더 및/또는 컴퓨팅 셰이더를 구현하는 셰이더 프로그램 코드를 포함하는 프로그래밍 가능한 셰이더 코드의 모든 타입을 실행할 수 있는 통합 셰이더 코어 아키텍처를 제공한다. 존재하는 셰이더 코어의 정확한 개수는 실시예 및 구현예에 따라 달라질 수 있다. 또한, 그래픽 프로세서(2640)는 스레드 디스패처로서 동작하여 실행 스레드를 하나 이상의 셰이더 코어(2655A-2655N)에 디스패치하는 코어 간(inter-core) 태스크 관리자(2645)와, 타일 기반 렌더링을 위한 타일링 동작을 가속화하는 타일링 유닛(2658)을 포함하고, 이 타일링 유닛에서는 장면에 대한 렌더링 작업이 이미지 공간에서 세분화되어, 예를 들어, 장면 내의 로컬 공간 일관성을 이용하거나 또는 내부 캐시의 사용을 최적화한다. 셰이더 코어(2655A-2655N)는, 예를 들어, 도 2d에서와 같은 그래픽 멀티프로세서(234), 도 3a 및 도 3b 각각의 그래픽 멀티프로세서(325, 350), 또는 도 3c의 멀티-코어 그룹(365A)에 대응할 수 있다.
그래픽의 텐서 가속화 로직 및 머신 학습 워크로드
도 27은 일 실시예에 따른 처리 시스템(2700)의 블록도이다. 데이터 처리 시스템(2700)은 프로세서(2702), 통합 메모리(2710) 및 머신 학습 가속 로직을 포함하는 GPGPU(2720)를 갖는 이종 처리 시스템이다. 프로세서(2702) 및 GPGPU(2720)는 본 명세서에 설명된 바와 같은 프로세서 및 GPGPU/병렬 프로세서 중 임의의 것일 수 있다. 예를 들어, 도 1을 더 참조하면, 프로세서(2702)는 예시된 하나 이상의 프로세서(들)(102) 중 한 프로세서의 변형예일 수도 있고, 및/또는 이와 아키텍쳐를 공유할 수도 있다. 도 14를 더 참조하면, 프로세서(2702)는 예시된 하나 이상의 프로세서(들)(1408) 중 하나를 가진 아키텍쳐의 변형예일 수도 있고, 및/또는 이와 아키텍쳐를 공유할 수도 있다.
프로세서(2702)는 시스템 메모리(2712)에 저장된 컴파일러(2715)에 대한 명령어를 실행할 수 있다. 컴파일러(2715)는 프로세서(2702)에서 실행되어 소스 코드(2714A)를 컴파일된 코드(2714B)로 컴파일한다. 컴파일된 코드(2714B)는 프로세서(2702)에 의해 실행될 수 있는 명령어 및/또는 GPGPU(2720)에 의해 실행될 수 있는 명령어를 포함할 수 있다. GPGPU에 의해 실행될 명령어의 컴파일은, 도 23의 셰이더 컴파일러(2327) 및/또는 셰이더 컴파일러(2324)와 같은, 셰이더 혹은 컴퓨트 프로그램 컴파일러를 사용해서 용이하게 될 수 있다. 컴파일 동안, 컴파일러(2715)는, 컴파일된 코드(2714B) 내에 존재하는 데이터 병렬성 수준에 관한 힌트 및/또는 컴파일된 코드(2714B)에 기초하여 디스패치될 스레드와 연관된 데이터 장소에 관한 힌트를 포함하는, 메타 데이터를 삽입하는 연산을 수행할 수 있다. 컴파일러(2715)가 그러한 동작을 수행하는 데 필요한 정보를 포함할 수도 있고, 또는 이들 동작이 런타임 라이브러리(2716)의 도움으로 수행될 수도 있다. 런타임 라이브러리(2716)는 또한 소스 코드(2714A)의 컴파일에서 컴파일러(2715)를 지원할 수 있으며, GPGPU(2720)에서 컴파일된 명령어의 실행을 용이하게 하기 위해 런타임시 컴파일된 코드(2714B)와 링크된 명령어를 포함할 수도 있다. 컴파일러(2715)는 RA(register allocator)를 통한 변수의 레지스터 할당을 용이하게 할 수도 있고, 메모리와 변수가 할당되는 레지스터 사이에서 변수의 데이터를 이동시키는 명령어를 저장하고 부하를 생성할 수도 있다.
통합 메모리(2710)는 프로세서(2702) 및 GPGPU(2720)에 의해 액세스될 수 있는 통합 주소 공간을 나타낸다. 통합 메모리는 GPGPU 메모리(2718) 뿐만 아니라 시스템 메모리(2712)를 포함할 수 있다. GPGPU 메모리(2718)는 GPGPU(2720)의 주소 공간 내의 메모리이고, 시스템 메모리(2712)의 일부 또는 전부를 포함할 수 있다. 일 실시예에서 GPGPU 메모리(2718)는 또한 GPGPU(2720)에 의해 독점적으로 사용하도록 전용된 임의의 메모리의 적어도 일부를 포함할 수 있다. 일 실시예에서, 시스템 메모리(2712)에 저장된 컴파일된 코드(2714B)는 GPGPU(2720)에 의한 액세스를 위해 GPGPU 메모리(2718)에 매핑될 수 있다.
GPGPU(2720)는, 본 명세서에 설명된 다양한 컴퓨팅 유닛 또는 실행 요소 중 하나 이상을 포함할 수 있는 다수의 컴퓨팅 블록(2724A-2724N)을 포함한다. 처리 리소스는, 예컨대, 실행 유닛, 컴퓨팅 유닛, 스트리밍 멀티프로세서, 그래픽 멀티프로세서, 또는 멀티-코어 그룹과 같은 다양한 계산 리소스일 수도 있고 또는 이들을 포함할 수 있다. 일 실시예에서, GPGPU(2720)는 매트릭스 연산의 서브세트(예컨대, 내적 등)를 촉진시키도록 설계된 하나 이상의 특수 함수 컴퓨팅 유닛을 포함할 수 있는 텐서 가속기(2723)(예를 들어, 매트릭스 가속기)를 추가로 포함한다. 텐서 가속기(2723)는 텐서 가속기 또는 텐서 코어로 지칭될 수도 있다. 일 실시예에서, 텐서 가속기(2723) 내의 로직 컴포넌트는 다수의 컴퓨팅 블록(2724A-2724N)의 처리 리소스에 걸쳐 분산될 수 있다.
GPGPU(2720)는 또한 레지스터 세트(2725), 전력 및 성능 모듈(2726), 및 캐시(2727)를 포함하지만 이에 제한되지 않는 컴퓨팅 블록(2724A-2724N) 및 텐서 가속기(2723)에 의해 공유될 수 있는 리소스 세트를 포함할 수 있다. 일 실시예에서, 레지스터(2725)는 직접 및 간접적으로 액세스 가능한 레지스터를 포함하고, 여기서 간접적으로 액세스 가능한 레지스터는 텐서 가속기(2723)에 의해 사용되도록 최적화된다. 전력 및 성능 모듈(2726)은, 컴퓨팅 블록(2724A-2724N) 내의 게이트 유휴 컴포넌트에 전력을 공급하도록, 컴퓨팅 블록(2724A-2724N)에 대한 전력 전달 및 클록 주파수를 조정하도록 구성될 수 있다. 다양한 실시예에서 캐시(2727)는 명령어 캐시 및/또는 하위 레벨 데이터 캐시를 포함할 수 있다.
GPGPU(2720)는, 텐서 가속기(2723) 및/또는 컴퓨팅 블록(2724A-2724N) 내의 컴퓨팅 요소에 의해 통합 메모리(2710)로부터 액세스된 데이터를 캐시하는 데 사용될 수 있는, L3 데이터 캐시(2730)를 추가로 포함할 수 있다. 일 실시예에서, L3 데이터 캐시(2730)는 컴퓨팅 블록(2724A-2724N) 내의 컴퓨팅 요소와 텐서 가속기(2723)에 의해 공유될 수 있는 공유 로컬 메모리(2732)를 포함한다.
일 실시예에서 GPGPU(2720)는 페치 및 디코딩 유닛(2721) 및 스케줄러 제어기(2722)와 같은 명령어 처리 로직을 포함한다. 페치 및 디코딩 유닛(2721)은 컴퓨팅 블록(2724A-2724N) 또는 텐서 가속기(2723) 중 하나 이상에 의해 실행하기 위한 명령어를 페치 및 디코딩하기 위한 페치 유닛 및 디코딩 유닛을 포함한다. 명령어는 스케줄러 제어기(2722)를 통해 컴퓨팅 블록(2724A-2724N) 내의 적절한 기능 유닛 또는 텐서 가속기에 스케줄링될 수 있다. 일 실시예에서 스케줄러 제어기(2722)는 고급 스케줄링 작업을 수행하도록 구성가능한 ASIC이다. 일 실시예에서, 스케줄러 제어기(2722)는 펌웨어 모듈로부터 로드된 스케줄러 명령어를 실행할 수 있는 마이크로컨트롤러 또는 명령어 당 낮은 에너지 처리 코어(low energy-per-instruction processing core)이다.
일 실시예에서, 컴퓨팅 블록(2724A-2724N)에 의해 수행되는 일부 기능은 텐서 가속기(2723)에 직접 스케줄링되거나 오프로드될 수 있다. 다양한 실시예에서 텐서 가속기(2723)는 3D 그래픽 또는 컴퓨팅 셰이더 프로그램에서 사용되는 승산 및 가산 그리고 내적과 같은 매트릭스 컴퓨팅 연산을 효율적으로 수행하도록 구성된 처리 요소 로직을 포함한다. 일 실시예에서, 텐서 가속기(2723)는 머신 학습 프레임워크에 의해 사용되는 동작을 가속화하도록 구성될 수 있다. 일 실시예에서, 텐서 가속기(2723)는 특정 세트의 병렬 매트릭스 승산 및/또는 가산을 수행하도록 명시적으로 구성된 애플리케이션 특정 집적 회로이다. 일 실시예에서, 텐서 가속기(2723)는 워크로드들 사이에 업데이트될 수 있는 고정 기능 로직을 제공하는 FPGA(field programmable gate array)이다. 일 실시예에서 텐서 가속기(2723)에 의해 수행될 수 있는 일련의 컴퓨트 연산은 컴퓨팅 블록(2724A-2724N)에 의해 수행될 수 있는 연산에 대해 제한될 수 있다. 그러나, 텐서 가속기(2723)는 컴퓨팅 블록(2724A-2724N)에 비해 상당히 더 높은 처리량으로 병렬 텐서 연산을 수행할 수 있다.
도 28a 및 도 28b는 일 실시예에 따른 명령어 파이프라인(2800)에 의해 수행되는 매트릭스 연산(2805)을 도시한다. 도 28a는 명령어 파이프라인(2800)이 텐서 가속기(2723) 내의 시스톨릭 어레이(2808)로 구성될 때를 나타낸다. 도 28b는 명령어 파이프라인이 시스톨릭 어레이(1912)를 포함하는 실행 유닛(1900)으로 구성될 때를 나타낸다.
도 28a에 도시된 바와 같이, 명령어 파이프 라인(2800)은 내적 연산(이에 한정되지 않음)과 같은 매트릭스 연산(2805)을 수행하도록 구성될 수 있다. 두 벡터의 내적은 벡터의 해당 성분들의 곱의 합과 같은 스칼라 값이다. 내적은 아래 식(1)과 같이 계산할 수 있다.
내적은 컨볼루션 신경망(CNN)에 대한 컨볼루션 연산에 사용될 수 있다. 2D 컨볼루션이 예시되어 있지만, N-차원 필터를 사용하여 N-차원 볼륨에서 N-차원 컨볼루션을 수행할 수 있다. 리셉티브 필드 타일(2802)은 입력 볼륨 버퍼(2804) 내 입력 볼륨의 일부를 강조 표시한다. 입력 볼륨 버퍼는 메모리(2830)에 저장될 수 있다. 도트 매트릭스 연산(2805)은 리셉티브 필드 타일(2802) 내의 데이터와 컨볼루션 필터 사이에서 수행되어 출력 버퍼(2806) 내에 데이터 포인트를 생성할 수 있으며, 이는 메모리(2830)에 저장될 수 있다. 메모리(2830)는, 도 27에서와 같이 시스템 메모리(2712), GPGPU 메모리(2718), 또는 하나 이상의 캐시 메모리(2727, 2730)를 포함하는, 본 명세서에서 설명되는 임의의 메모리일 수 있다.
출력 버퍼(2806) 내의 데이터 포인트들의 조합은 컨볼루션 연산에 의해 생성된 활성화 맵을 나타낸다. 활성화 맵 내의 각 포인트는 입력 볼륨 버퍼(2804)를 가로질러 리셉티브 필드 타일을 슬라이딩함으로써 생성된다. 활성화 맵 데이터는 출력 활성화 값을 결정하기 위해 활성화 함수에 입력될 수 있다. 일 실시예에서, 입력 볼륨 버퍼(2804)의 컨볼루션은 프레임워크 내에서 고수준 매트릭스 연산(2805)으로 정의될 수 있다. 고수준 매트릭스 연산은 기본 선형 대수 서브프로그램(basic linear algebra subprogram: BLAS) 연산과 같은 프리미티브 연산을 통해 수행될 수 있다. 프리미티브 연산은 명령 파이프 라인(2800)에 의해 실행되는 하드웨어 명령어를 통해 가속화될 수 있다.
하드웨어 명령어를 가속화하기 위해 사용되는 명령어 파이프라인(2800)은 하드웨어 명령어를 페치 및 디코딩할 수 있는 명령어 페치 및 디코딩 유닛(2721) 및 컴퓨팅 블록(2724A-2724N) 내의 하나 이상의 처리 유닛 및/또는 텐서 가속기(2723)에 디코딩된 명령어를 스케줄링할 수 있는 스케줄러 제어기(2722)를 포함할 수 있다. 일 실시예에서, 하드웨어 명령어는 컴퓨팅 블록(2724A-2724N)에 스케줄링되고 텐서 가속기(2723)에 오프로드될 수 있다. 매트릭스 연산(2805)을 수행하기 위한 하나 이상의 하드웨어 명령어 및 관련 데이터는 메모리(2830)에 저장될 수 있다. 하드웨어 명령어의 출력 또한 메모리(2830)에 저장될 수 있다.
일 실시예에서, 텐서 가속기(2723)는 처리 요소의 시스톨릭 어레이(2808)를 사용해서 매트릭스 연산(2805)을 수행하기 위해 하나 이상의 하드웨어 명령어를 실행할 수 있다. 시스톨릭 어레이(2808)는 매트릭스-매트릭스 및 매트릭스-벡터 내적 연산 뿐만 아니라 매트릭스-매트릭스 및 매트릭스-벡터 융합형 승산-가산 연산과 같은 다른 연산을 수행하도록 구성될 수 있는 프로그래밍 가능 및 고정 기능 하드웨어의 조합을 포함한다.
다양한 실시예에서, 텐서 가속기(2723)의 대안으로서 또는 이에 더해서, 매트릭스 가속 로직은 또한 컴퓨팅 블록(2724A-2724N)의 처리 자원 내에 포함될 수 있다. 예를 들어, 도 28b에 도시된 바와 같이, 일 실시예에서, 각각의 컴퓨팅 블록(예를 들어, 컴퓨팅 블록(2724N))은 실행 유닛(1900A-1900N)의 어레이를 포함한다. 일 실시예에서, 실행 유닛의 어레이(1900A-1900N) 내의 각각의 실행 유닛은 시스톨릭 어레이(1912A-1912N)를 포함할 수 있다. 일 실시예에서, 실행 유닛의 서브세트 중 하나 이상은 시스톨릭 어레이로 구성된다. 시스톨릭 어레이의 수와 사용 가능한 시스톨릭 어레이의 스루풋은 장치의 파워 및 성능 타깃에 따라 달라질 수 있다. 스케줄러 제어기(2722)는 다양한 컴퓨팅 블록(2724A-2724N)의 실행 유닛(1900A-1900N) 내에서 이용 가능한 시스톨릭 어레이(1912A-1912N)에 시스톨릭 매트릭스 연산(내적, 융합된 승산-승산 등)을 스케줄링할 수 있다.
일 실시예에서 컴퓨팅 블록(2724A-2724N) 각각이 실행 유닛의 어레이(1900A-1900N)를 포함하고 있지만, 다른 실시예에서는, 컴퓨팅 블록(2724A-2724N)은 도 2a의 처리 클러스터 어레이의 처리 클러스터(214A-214N)와 아키텍처를 공유한다. 이러한 실시예에서, 컴퓨팅 블록(2724A-2724N)은 도 2d에 도시된 바와 같은 내부 컴포넌트를 포함하는, 도 2c의 다중 그래픽 멀티프로세서(234)를 포함한다. 따라서, 컴퓨팅 블록 내의 그래픽 멀티프로세서는 로드/저장 유닛(266), GPGPU 코어(262), 및 텐서/RT 코어(263)를 포함할 수 있다. 일 실시예에서 컴퓨팅 블록(2724A-2724N)은 도 3c의 GPU(380)의 멀티-코어 그룹(365A-365N)을 포함할 수 있고, GFX 코어(370), 텐서 코어(371) 및 광선 추적 코어(372)의 다수의 세트를 포함할 수 있다. 이러한 실시예에서, 스케줄러 컨트롤러(2722)는 텐서/RT 코어(263) 및/또는 컴퓨팅 블록(2724A-2724N) 내의 텐서 코어(371)에 대한 매트릭스 연산을 수행하도록 명령어를 스케줄링할 수 있다. 가속 매트릭스 연산은 내적 연산, 매트릭스 승산 연산 및/또는 융합된 승산-가산 연산을 포함하는데, 이는 정수 또는 부동 소수점 매트릭스 요소에서 및 다양한 정밀도 수준에서 수행될 수 있다. 추가적으로, 일 실시예에서 컴퓨팅 블록(2724A-2724N)은 도 15c의 컴퓨팅 유닛(1560A-1560N)의 변형예를 포함할 수 있으며, 여기서 이러한 변형예는, 정수 또는 부동 소수점 매트릭스 가속 명령어를 실행할 수 있는, 본 명세서에 설명된 매트릭스 가속 로직(예를 들어, 시스톨릭 어레이, 텐서 코어, 시스톨릭 텐서 코어)을 포함한다.
도 29는 파이프라인 방식으로 조직된 승산기 및 가산기 회로를 포함하는 시스톨릭 어레이(2900)를 도시한다. 일 실시예에서, 시스톨릭 어레이(2900)는 시스톨릭 어레이(1912)에 포함된 물리적 파이프라인 스테이지를 나타내고, 희소 및 블록 희소 연산에 대한 지원을 포함하는 시스톨릭 어레이(1912)와 관련하여 설명된 기능을 포함하며, 나아가 요소 벡터 내에서 또는 채널의 세트를 가로질러서 구조화된 희소성을 지원하도록 추가로 구성될 수 있다. 제 1 입력 매트릭스에 대한 입력(2912A-2912H)은 Src1 및 Src1+1 내지 Src1+7로 라벨링된 입력에 포함된 데이터 요소로 표시된다. 입력(2912A-2912H)은 제 2 입력 매트릭스에 대응하며, 이는 Src2로 라벨링되어 있다. 초기 누산기 값을 포함할 수 있는 입력(2902A-2902B)은 Src0으로서 제공될 수 있다. 처리 요소의 어레이는 시스톨릭 어레이(2900)의 물리적 파이프라인 스테이지(2911A-2911H)를 구성한다. 융합된 승산-가산 및/또는 내적 연산을 포함하는 매트릭스-매트릭스 또는 매트릭스-벡터 연산은 각 클록 주기 동안 각 파이프라인 스테이지(2911A-2911H)에서 수행될 수 있다. 각 사이클에서, 모든 파이프라인 스테이지는 새로운 Src2 입력을 수신할 수 있고, 이는 파이프라인 스테이지의 처리 요소가 이전에 판독한 새로운 Src1 입력 또는 오래된 Src1 입력을 사용해서 값을 계산하는 데 사용할 수 있지만, 계산된 초기 값의 세트가 스테이지를 거치면서 전파됨에 따라서, 모든 파이프라인 스테이지(2911A-2911H)가 활성화되기 전에, 여러 사이클이 걸린다.
입력(2902A)은 초기 누산기 값으로 사용하기 위해 파이프라인 스테이지(2911A)의 처리 요소에 Src0 값을 제공할 수 있다. 다른 방안으로, 입력(2902B)은, 시스톨릭 어레이의 파이프라인 스테이지(2911H)에 의해 계산된 값에 추가될 Src0 값을 제공할 수 있으며, 이는 사용되지 않은 상위 스테이지의 전력이 게이트되는(power gated) 동안 어레이의 하위 스테이지를 사용해서 시스톨릭 어레이(2900)에 대한 부분 패스 연산을 가능하게 한다. 연산 중에 Src2 입력의 선택된 채널의 데이터 요소는 파이프라인 스테이지(2911A-2911H)의 처리 요소의 모든 채널로 브로드캐스트되며, 여기서 각 채널은 여러 요소의 벡터를 나타낸다. 채널당 요소의 수는 요소의 크기에 따라 달라질 수 있다. 이후, 스테이지의 처리 요소는 선택한 Src2 채널과 주어진 Src1 입력의 모든 채널을 사용해서 연산을 수행한다. Src2 입력은 8개의 Src1 입력으로 연산한다(예를 들어, 스테이지당 하나의 Src1 입력). Src2 입력 채널의 데이터 요소는 처리 요소(2911A-2911H)의 모든 채널에 브로드캐스트된다. 이후, 처리 요소는 Src1 입력의 모든 채널로 Src2 채널을 연산한다. 제 1 클록 사이클에서, Src1 입력은 Src2의 제 1 채널의 데이터 요소로 연산된다. 다음 사이클에서 제 2 Src1(Src1+1로 라벨링됨)은 Src2의 제 2 채널의 데이터 요소로 연산된다. 이 시퀀스는 파이프라인의 8 스테이지에서 반복된다. 각 스테이지는 이전 스테이지의 출력에 자신의 연산을 추가한다. 파이프라인 스테이지에서, 다수의 Src2 입력이 파이프라인 방식으로 연산된다. 제 1 Src2 입력의 연속 채널이 파이프라인 스테이지를 통해 푸시되면, 제 1 스테이지에서 새로운 Src2 입력이 제공될 수 있다.
최종 스테이지의 출력(2922)는 Dst로 라벨링되어 있다. 여기서 d=시스톨릭 깊이이고, e=채널당 데이터 요소 수이며, 채널의 출력은 아래 방정식 (2)로 표현된다.
식 (2)에 나타낸 바와 같이, 각 채널은 연산이 병렬로 수행되는 다중 데이터 요소를 포함할 수 있다. 일 실시예에서, 각각의 채널은 4개의 요소 데이터 벡터를 나타내지만, 각각의 채널마다 서로 다른 수의 요소가 구성될 수도 있다. 일 실시예에서, 채널 내의 데이터 요소의 수는 각각의 데이터 요소의 크기에 기초해서 달라질 수 있다. 내적은 예를 들어 요소당 8비트 데이터 타입을 가진 4개의 요소 벡터, 16비트 데이터 타입을 가진 2개의 요소 벡터, 4비트 데이터 타입(예를 들어, INT4)을 가진 8개의 요소 벡터 또는 2비트 데이터 타입(예를 들어, INT2)을 가진 16개의 요소 벡터를 사용해서, 수행될 수 있다. 채널 수는, Src1 및 Src2의 데이터 타입에 따라 자동으로 조정될 수 있다. 명령어는, 이 명령어에 사용될 필수 시스톨릭 깊이를 지정할 수도 있다.
일 실시예에서, 처리 요소(2911A-2911H)는 범용 레지스터 파일로부터 직접 입력(2910A-2910H, 2912A-2912H)을 판독할 수도 있다. 일 실시예에서, 시스톨릭 어레이(2900)는, 범용 레지스터 파일로부터 입력(2910A-2910H, 2912A-2912H)을 판독하고, 시스톨릭 어레이 내부에 있는 레지스터, 버퍼 또는 메모리에 입력 데이터를 저장하는 로직을 포함한다. 내부 로직은 입력 데이터 요소를 처리를 위해 처리 요소(2911A-2911H)에 공급할 수 있다. 출력(2922)은 시스톨릭 어레이(2900)의 내부 레지스터 또는 메모리에 기록될 수 있고 및/또는 범용 레지스터 파일에 직접 기록될 수 있다.
도 30a 및 도 30b는 임의의 시스톨릭 깊이에서 연산을 실행하도록 구성될 수 있는 시스톨릭 어레이(3000)의 사용을 나타낸다. 예시된 예에서, 시스톨릭 어레이(3000)는, 4개의 물리적 파이프라인 스테이지에 대응하는, 4의 물리적 깊이를 갖는다. 시스톨릭 어레이는 4개, 8개, 12개 또는 16개의 논리적 스테이지를 포함하는 임의의 수의 논리적 스테이지를 사용해서 연산하도록 구성될 수도 있고 혹은, 아래에 설명되는 도 31에서와 같이 부분 통과 동작을 사용해서 물리적인 스테이지의 수에 의해 나누어질 수 없는 다른 수의 논리적인 스테이지를 사용해서 연산하도록 구성될 수도 있다. 도 30a는 외부 소스로부터 Src0 입력을 수신하고 Src1 및 Src2 입력으로 처음 4 스테이지를 처리하는 어레이를 나타낸다. 이 어레이의 출력은 도 30b에 표시된 제 2 단계로 피드백된다. 도 30b는 이미 처리된 값과 Src1 및 Src2 입력을 포함하는 루프백 데이터를 사용해서 다음 4 스테이지를 계산하는 것을 나타낸다.
도 30a에 도시된 바와 같이, 시스톨릭 어레이(3000)는, 데이터 선택기(3004)를 통해 판독되는(3002) Src0 입력으로서, 입력(2902)을 수용할 수 있다. 데이터 선택기(3004)는 입력(2902)과 루프백 입력(3006) 중에서 선택한다. 처리 요소(2911A-2911D)는 시스톨릭 어레이(2900)와 유사한 방식으로, 입력(2910A-2910D 및 2912A-2912D)을 처리할 수 있다. 연산을 완료하기에 4개의 스테이지가 충분하다면, 파이프라인 스테이지(2911D)는 데이터 선택기(3024)를 통해서 지정된 Dst 레지스터 또는 메모리에 출력(2922)을 기록할 수 있다(3022). 추가 스테이지가 필요하다면, 데이터 선택기(3024)는 루프백 출력(3026)을 기록할 수 있고, 이는 루프백 입력(3006)으로서 파이프라인 스테이지(2911A)의 처리 요소에 제공된다.
도 30b에 도시된 바와 같이, 일 실시예에서, 루프백 입력(3006)은 처리 요소(2911A-2911D)에 의해 더 처리될 수 있다. 루프백 입력(3006)은 이미 처리된 값을 포함한다. 일 실시예에서, 루프백 입력(3006)은 또한 입력(2910E-2910H), 입력(2912E-2912H)을 포함할 수 있으며, 이는 처음 4개의 스테이지를 처리하는 동안 사전-페치(pre-fetch)될 수 있다. 데이터 선택기(3004)는 파이프라인 스테이지(2911A)에 의한 입력을 위해 루프백 입력(3006)을 선택한다. 이후 파이프라인 스테이지(2911A-2911D)의 처리 요소는 입력(2910E-2910H 및 2912E-2912H)을 처리할 수 있다. 그 다음, 데이터 선택기(3024)는 제 8 스테이지 결과를 출력(2922)으로서 지정된 Dst 레지스터에 기록할 수 있다(3022).
일 실시예에서, 시스톨릭 어레이(3000)는 도 30a 및 도 30b에 도시된 바와 같이, 루프백 출력(3026) 및 루프백 입력(3006)을 제외하고 대신에, 중간 저장소(3025)를 포함하도록 수정된다. 중간 저장소(3025)는 시스톨릭 어레이(3000) 내부에 있는 메모리 장치 또는 레지스터일 수도 있고, 시스톨릭 어레이(3000) 외부에 있는 레지스터 파일의 레지스터일 수도 있다. 도 30a에 도시된 연산 동안, 파이프라인 스테이지(2911D)로부터의 출력은 루프백 출력(3026)에 의해 출력되는 대신에 중간 저장소(3025)에 저장되고, 도 30b에 도시된 연산 이전에 루프백 입력(3006)에 의해 판독될 수 있다. 도 30b에 도시된 연산 동안, 파이프라인 스테이지(2911D)로부터의 출력이 중간 스토리지(3025)에 저장된 데이터에 추가되고 출력(2922)에 기록될 수 있다. 시스톨릭 어레이(3000)는 또한, 논리적 깊이를 어레이의 물리적 깊이로 나눌 수 없게하도록, 이하 설명되는 바와 같이 적어도 하나의 부분 패스를 사용해서 멀티-패스 연산을 수행하도록 구성될 수 있다.
피드백 입력을 이용한 확장 가능 매트릭스 승산 가속기
제 2 실시예는, 병렬 유닛을 사용해서 실행되는 동시 명령어를 사용함으로써 스루풋을 증가시킬 수 있다. 승산 가속기의 다수의 인스턴스 또는 경로는 병렬로 실행된다. 이들 인스턴스는 Src1을 공유할 수도 있고, 독립적인 Src1 입력을 가질 수도 있다. 각 경로는 고유한 Src2 및 Src0 입력을 가질 것이다. 이들 인스턴스는 자체 src2 및 src0 입력을 가질 것이다. 4 스테이지의 깊이를 가진 2개 경로를 보여주는 버전이 도 31에 도시되어 있다. 다른 방안으로, 2 스테이지 깊이를 가진 4개 경로를 사용하는 버전이 도 32에 도시되어 있다.
도 31은 각 경로가 4 스테이지의 깊이를 갖는 2-경로 매트릭스 승산 가속기(3100)를 도시한다. 2-경로 매트릭스 승산 가속기(3100)는 Src0 입력을 위한 입력 로직(3102A-3102B), 입력 로직(3110A-3110B)으로부터 수신된 데이터 요소를 저장하기 위한 입력 버퍼(3111A-3111B) 및 Src1를 위한 공유 입력 로직(3112)으로부터 수신된 데이터 요소를 저장하기 위한 입력 버퍼(3113A-3113B)를 포함한다. 각 스테이지는 병렬로 연산할 수 있는 한 쌍의 처리 요소를 포함한다. 스테이지 1은 처리 요소(3131A-3131B)를 포함하고, 스테이지 2는 처리 요소(3132A-3132B)를 포함하며, 스테이지 3은 처리 요소(3133A-3133B)를 포함하고, 스테이지 4는 처리 요소(3134A-3134B)를 포함한다. 처리 요소(3131A-3131B, 3132A-3132B, 3131A-3133B, 3134A-3134B) 각각의 하드웨어 로직은 시스톨릭 어레이(2900) 또는 시스톨릭 어레이(3000)의 처리 요소의 하드웨어 로직과 동일하거나 유사할 수도 있고, 혹은 동일한 처리 기술 또는 더 향상된 처리 기술로 제조될 수도 있다. 2-경로 매트릭스 승산 가속기(3100)의 처리 요소는 또한 시스톨릭 어레이(2900)의 구현에 비해 더 높은 주파수에서 연산할 수 있다. 처리 요소는 보다 향상된 처리 기술을 사용해서 제조될 수 있다.
데이터 선택기(3004, 3024)와 동일하거나 유사한 데이터 선택기를 사용해서 피드백이 구현될 수 있다. 판독 로직의 구성에 따라서는, 입력 데이터가 사전에 입력 버퍼로 사전 페치될 수도 있고, 혹은 처리 요소(3131A-3131B)에 입력되기 전에 하나 이상의 사이클 동안 2-경로 매트릭스 승산 가속기(3100) 내의 레지스터 또는 캐시로부터 판독될 수도 있다. 스테이지 4의 처리 요소(3134A-3134B)는 스테이지 1의 대응하는 처리 요소들(3131A-3131B)로 피드백될 수 있다. 동적인 논리적 깊이는 4의 배수로 활성화될 수 있다. 구성된 수의 논리 스테이지 이후에, 결과가 출력 논리(3122A-3122B)에 의해 지정된 목적지에 기록될 수 있다.
도 32는, 각각의 경로가 2 스테이지의 깊이를 갖는, 4-경로 매트릭스 승산 가속기(3200)를 도시한다. 4-경로 매트릭스 승산 가속기(3200)는 2-경로 매트릭스 승산 가속기(3100)와 동일한 수의 처리 요소를 포함하며, 처리 요소는 2배 많은 경로로 구성되지만 각 경로는 깊이가 절반이다. 4-경로 매트릭스 승산 가속기(3200)는 Src0용 입력 로직(3202A-3202D), Src2용 입력 로직(3210A-3210D)에 의해 판독된 입력 요소를 저장하기 위한 입력 버퍼(3211A-3211D), 및 Src1용 공유 입력 로직(3212)에 의해 판독된 입력 요소를 저장하기 위한 입력 버퍼(3213A-3213D)를 포함한다. 처리 요소(3231A-3231B)는 스테이지 1에 대한 병렬 처리를 가능하게 한다. 처리 요소(3232A-3232B)는 스테이지 2에 대한 병렬 처리를 가능하게 한다. 각 경로의 스테이지 2는 스테이지 1에 피드백될 수도 있고, 출력 로직(3222A-3222D)을 통해 지정된 목적지에 결과를 기록할 수도 있다. 처리 요소(3231A-3231B, 3232A-3232B)는 처리 요소(3131A-3131B, 3132A-3132B, 3131A-3133B, 3134A-3134B)의 하드웨어 로직과 유사한 하드웨어 로직을 포함할 수 있고, 유사한 하드웨어를 사용해서 로직 루프백 기능을 구현할 수 있다.
2-경로 매트릭스 승산 가속기(3100) 또는 4-경로 매트릭스 승산 가속기(3200)의 장점은, 확장성, 소프트웨어 호환성 및 스루풋을 포함한다. 이러한 가속기의 모듈식 아키텍처는 8-깊이 시스톨릭 어레이에 비해 보다 효율적인 확장을 가능하게 한다. 매트릭스 승산 가속기의 다양한 구성은, 재설계 없이 다양한 제품 요건이나 용례에 맞게 조정될 수 있다. 나아가, 사용되는 동일한 소프트웨어 모델이 하드웨어 구현에 따라 달라지는 것은 아니다.
8 스테이지의 시스톨릭 파이프라인에 의해 실행되도록 의도된 명령어 용으로 설계된 알고리즘이, 4 스테이지의 매트릭스 승산 가속기를 사용하는 구현에서 사용될 수 있다. 하드웨어는 피드백을 사용해서, 소프트웨어에 투명한 방식으로 8 스테이지 파이프라인을 시뮬레이션할 것이다. 높은 DPAS 명령어 스루풋이 필요한 설계에서는 다중 경로가 사용될 수 있다. 더 많은 수의 경로를 가진 구현예에서는, 더 높은 대역폭의 입력 로직 및 출력 로직과 결합될 수 있다. 일 실시예에서, 2-경로 매트릭스 승산 가속기(3100) 및 4-경로 매트릭스 승산 가속기(3200)는 8-깊이 시스톨릭 어레이로 가능한 것보다 더 큰 효율 및/또는 더 미세한 입도로, 블록 희소성을 가진 입력을 우회하도록 구성된다.
확장 가능한 매트릭스 승산 가속기 상에서의 희소 승산
제 3 실시예는 불규칙한 희소성을 갖는 데이터를 처리할 때 명령어 스루풋을 증가시킨다. Src1 및 Src2 입력의 요소는 입력 멀티플렉서 로직을 통해 개별적으로 선택될 수 있으며, 처리는 0이 아닌 값만을 사용해서 수행될 수 있다.
도 33은 피드백 입력을 갖는 시스톨릭 어레이를 사용하는 확장 가능한 희소 매트릭스 승산 가속기(3300)를 도시한다. 확장 가능한 희소 매트릭스 승산 가속기(3300)는 4-경로 매트릭스 승산 가속기(3200)에서와 같이 처리 요소(3231A-3231D) 또는 본 명세서에 설명된 임의의 다른 처리 요소를 포함할 수 있다. 각 경로의 시작 부분에 있는 처리 요소(3231A-3221B)는 Src0에 대한 입력 로직을 포함한다. 확장 가능한 희소 매트릭스 승산 가속기(3300)의 각 경로의 각 스테이지는 입력 선택기(3312A-3312D)를 통해 독립적인 또는 공유된 Src1의 임의의 요소를 수신할 수 있다. 각 경로의 각 단계는 또한 Src2의 임의의 요소를 수신할 수 있다. 독립적인 Src2 입력은 별도의 입력 요소 선택기를 통해 제공된다(예컨대, Src2A는 입력 선택기(3310A) 및 입력 선택기(3311A)를 통해, Src2B는 입력 선택기(3310B) 및 입력 선택기(3311B)를 통해). 별도의 Src2 입력은 별도의 경로가 서로 다른 명령어를 계산할 수 있게 한다. 서로 다른 명령어를 출력할 수 있도록 각 경로에 대해 별도의 출력 로직(3322A-3322B)이 존재한다.
도 34는 각 스테이지에 피드백 입력 및 출력을 갖는 시스톨릭 어레이를 사용하는 확장 가능한 희소 매트릭스 승산 가속기(3400)를 도시한다. 확장 가능한 희소 매트릭스 승산 가속기(3400)는 Src0 요소가 각 경로의 각 스테이지에 제공되고 각 경로의 각 스테이지에 대해 별도의 출력을 제공할 수 있게 하는 추가 입력 및 출력 로직과 함께, 확장 가능한 희소 매트릭스 승산 가속기(3400)와 유사한 하드웨어 로직을 포함한다. 제 1 경로에 대해 Src2A 요소를 선택하기 위한 입력 선택기(3310A 및 3311A)와 제 2 경로에 대해 Src2B 입력을 선택하기 위한 입력 선택기(3310B 및 3311B) 외에, Src0 입력에 대한 각 경로에 대해 입력 스플리터(3403A-3403B)가 추가된다. 각각의 입력 스플리터(3401A-3402B)는 입력 로직(3402A-3402B)에 의해 판독되는 Src0 입력 요소가 각 스테이지로 전송될 수 있게 하는 디멀티플렉서 또는 이와 유사한 하드웨어 로직을 포함한다. 입력 선택기(3312A-3312D)는 또한 Src1 입력이 각 경로의 각 스테이지에 의해 선택될 수 있도록 포함된다. 각 경로의 제 2 스테이지(처리 요소(3431C-3431D))로부터의 출력 로직(3322A-3322B)에 더하여, 각 경로의 제 1 단계(3431A-3431B)로부터의 출력을 가능하게 하기 위해 추가 출력 로직(3422A-3422B)이 제공된다. 처리 요소(3431A-3431C)는 그 외에는 본 명세서에 설명된 다른 처리 요소와 유사할 수 있다.
동작 중에, 확장 가능한 희소 매트릭스 승산 가속기(3400)는 단지 하나의 요소의 그룹을 수용하도록 구성될 수 있다. Src2 입력 {B0, 0, B2, B3, 0, 0, 0, 0}이 주어지면, 제 3 실시예(예컨대, 확장 가능한 희소 매트릭스 승산 가속기(3300))에서 Src2의 0이 아닌 요소에 대해 두 그룹([B0, B2], [B3,0])이 만들어지며, 제 2 그룹은 제로 패딩을 포함한다. 도 34에 도시된 최적화는 그룹이 [B0, B2], [B3]로 형성될 수 있게 한다. B0 및 B2는 경로의 제 1 및 제 2 스테이지에 할당될 것이다(예를 들어, 처리 요소(3431A) 및 처리 요소(3431C)를 포함하는 제 1 세트 또는 처리 요소(3431B) 및 처리 요소(3431D)를 포함하는 제 2 세트 중 하나). 피드백 후, B3는 해당 경로의 제 1 스테이지에 할당될 것이다. 경로의 제 1 스테이지가 (예를 들어, 출력 로직(3422A 또는 3422B)을 통해) 출력을 제공할 수 있기 때문에, 경로의 제 2 스테이지(처리 요소(3431C) 또는 처리 요소(3431D))를 소비할 필요가 없다. 또한, 해당 경로에서 허용되는 다음 Src2 입력은 제 2 스테이지에서 시작할 수 있으므로, 두 요소의 그룹이 제각기 제 2 및 제 1 스테이지에 할당될 것이다. 새로운 Src2 입력을 처리하기 위한 Src0이 경로의 제 2 스테이지에 할당될 수 있다(예컨대, 출력 로직(3422A 또는 3422B)를 통해).
일부 실시예는 도 33에 도시된 확장 가능한 희소 매트릭스 승산 가속기(3300) 및 도 34에 도시된 확장 가능한 희소 매트릭스 승산 가속기(3400)의 하드웨어 로직 외에 입력 및 출력 하드웨어 메모리 버퍼를 추가로 포함한다. 입력 메모리 버퍼는 Src0 및 Src2 입력의 준비 그룹을 저장하고 보유하는데 사용될 수 있어, 고 대역폭 입력 로직의 필요성이 줄어든다. 출력 버퍼는 동일한 사이클에서 생성된 Dst 출력이 보다 느린 속도로 메모리에 꾸준히 기록될 수 있게 하므로, 고 대역폭 출력 로직의 필요성이 줄어든다.
추가적으로, 일부 실시예는 모든 요소가 0인 입력에 대한 우회를 포함한다. 우회는 시스톨릭 어레이를 통과하지 않고 출력 로직에 의한 Src0을 직접 기록을 허용한다. 이 우회는 데이터의 무결성을 손상시킬 수 있는 명령어들 간의 RAW(Read-After-Write) 위험을 방지하기 위해 데이터 의존성 전략과 함께 사용된다.
시스톨릭 어레이의 출력 희소성 지원을 활용한 전력 소비 감소
본 명세서에 설명된 실시예는, 입력 희소성을 지원하는 시스톨릭 어레이를, 구조화된 출력 희소성을 지원하도록 구성하게 한다. 출력 희소성은, 입력 데이터의 희소성을 고려하지 않고 출력에 속하는 혹은 유사하게 매트릭스 승산 연산에서 전체 행-열 승산에 속하는 승산-누적 연산을 우회하는 기술이다. 출력 희소성의 경우, 메타데이터 비트의 세트가 승산될 데이터와 함께 도달한다. 메타데이터 비트는 마스킹될 출력을 나타낸다. 마스킹된 출력에 대한 연산은 시스톨릭 어레이에 의해 우회된다. 예를 들어, 모델이 100만 개의 뉴런을 포함하는 경우, 이 뉴런의 10%를 강제로 0로 하도록 시도할 수 있다. 뉴런이 오프되고 모델이 훈련된다. 결과가 합리적이라면, 이들 뉴런을 사용하지 않을 수 있다. 그러나, 현재로서는 모델을 변경하는 것은 불가능하다. 대신, 신경망의 구조를 변경하지 않고 일부 뉴런에 대한 입력이 변경된다. 이 기술은 딥 러닝(DL) 훈련 워크로드의 세 가지 컴포넌트 중 하나인 BWD_W(Backward by Weight) 패스의 계산을 가속화하는 데 유용하며, 세 가지 컴포넌트의 나머지는 BWD_D(Backward by Data) 패스와 FWD(forward) 패스이다.
일 실시예에서, 강제로 0으로 할 뉴런의 세트는 사전 결정된다. 다른 실시예에서, 0으로 될 뉴런의 백분율이 결정되고, 각각의 뉴런은 비활성화될 확률을 가질 수 있다. 일부 구현에서 다른 연산을 수행하기 위해서 0으로 될 처리 요소를 다시 사용하는 것이 가능하지만, 본 명세서에 설명된 실시예는 비활성화된 뉴런에 대한 계산을 수행하지 않음으로써 시스톨릭 어레이의 전력 소비를 감소시키는 데 중점을 둔다.
그래픽 프로세서(예를 들어, 실행 로직(1800) 및/또는 실행 유닛(1900)의 실행 유닛(1808A-1808N); 그래픽 멀티프로세서(234); 컴퓨팅 유닛(1506A-1506N))의 처리 리소스의 관점에서, 메타데이터 비트의 그룹은 출력의 계산이 스킵될지 여부를 나타낼 수 있다. 일 실시예에서, 메타데이터는 계산 동안 비활성화될 시스톨릭 어레이의 채널을 나타내고, 따라서 해당 채널에서 계산된 결과는 강제로 0으로 될 것이다. 일 실시예에서, 채널에서의 계산이 강제로 0으로 될 경우, 그 채널에 대한 Src0 입력은 채널로부터의 출력으로 패스될 수 있다. 일 실시예에서, Src0 입력에 의해 제공되는 초기 누산기 값은 어레이를 통해 전파되는 대신, 시스톨릭 어레이의 최종 스테이지로부터 데이터 출력에 추가된다. 이러한 실시예에서, 채널에서의 계산이 강제로 0으로 될 때, 데이터가 채널과 연관된 처리 요소에 의해 출력되는 것이 아니라, 그 채널로부터의 출력은 채널에 대한 초기 누산기 값(Src0)에 할당된 값일 수 있다. 다른 방안으로, 시스톨릭 어레이는, 채널에 대한 초기 누산기 값에 관계없이, 채널에 대한 출력을 강제로 0으로 하도록 구성될 수 있다.
도 35a 및 도 35b는 출력 희소성 메타데이터를 사용해서 시스톨릭 어레이의 처리 채널을 비활성화하는 것을 나타낸다. 출력 희소성 메타데이터는, 훈련 동안에 기존 모델의 뉴런 희소성을 조정하기 위해서, 프로그래머 또는 신경망 훈련 라이브러리에 의해 생성될 수 있다. 메타데이터는 처리 요소로 스트리밍될 수 있으며, 어떤 채널(예를 들어, 처리 요소)이 연산에 참여하지 않을 것인지를 나타낸다. 메타데이터 레지스터의 메타데이터가 채널이 우회될 것이라는 것을 나타내면, 그 채널과 연관된 처리 요소는 비활성화될 것이다.
도 35a에 도시된 바와 같이, 도 29의 시스톨릭 어레이(2900)와 같은 8개의 채널을 가진 8 스테이지 시스톨릭 어레이는 출력 희소성 메타데이터(3512)에 따라 비활성화될 수 있는 처리 요소로 구성될 수 있다. 주어진 명령어에 대해, 메타데이터(3512)는, 해당 명령어에 대한 연산이 어레이의 물리적 파이프라인 스테이지(2911A-2911H)에 의해 처리될 때, 하나 이상의 채널(3502A-3502H)을 우회하는 것을 나타낼 수 있다. 메타데이터(3512)는 채널당 하나의 비트를 포함할 수 있으며, 여기서 각 비트는 채널이 활성(ON)인지 비활성(OFF)인지를 나타낸다. 메타데이터 비트는 명령어에 대한 연산과 함께 스테이지를 통해 전파된다. 이러한 채널은 그 명령어에 대한 연산 동안에 우회되고 비활성화된다.
도 35b에 도시된 바와 같이, 명령어에 대한 메타데이터가 명령어와 함께 어레이를 통해 전파되는 동안, 어레이는 다수의 명령어를 동시에 실행할 수 있다. 다양한 명령어가 어레이의 물리적 파이프라인 스테이지(2911A-2911H)의 다양한 스테이지에 있을 수 있기 때문에, 주어진 실행 주기 동안에, 서로 다른 스테이지에서 서로 다른 채널이 비활성화될 수 있다.
예를 들어, 파이프라인 스테이지(2911A)는 제 1 비활성화된 채널 세트(3511A-3511B(채널[1, 2]))를 가질 수 있고, 파이프라인 스테이지(2911B)는 제 2 비활성화된 채널 세트(3512A-3512B)(채널[5, 6])를 가질 수 있으며, 파이프라인 스테이지(2911C)는 제 3 비활성화된 채널 세트(3513A-3513B)(채널 [2, 6])를 가질 수 있고, 파이프라인 스테이지(2911D)는 제4 비활성화된 채널 세트(3514A-3514B)(채널 [2, 5])를 가질 수 있으며, 파이프라인 스테이지(2911E)는 제5 비활성화된 채널 세트(3515A-3515B)(채널[2, 7])를 가질 수 있고, 파이프라인 스테이지(2911F)는 제6 비활성화된 채널 세트(3516A-3516C)(채널[5, 6, 7])를 가질 수 있으며, 파이프라인 스테이지(2911G)는 제7 비활성화된 채널 세트(3517A-3517D)(채널 [5, 6, 7])를 가질 수 있고, 반면, 파이프라인 스테이지(2911H)의 모든 채널은 활성화된다. 비활성화된 채널 세트들은 각 사이클마다 다음 스테이지로 시프트된다.
도 36은 반정밀도(half precision matrix element) 매트릭스 요소를 포함하는 연산에서의 매트릭스 승산을 위한 메타데이터를 나타낸다. 일 실시예는 16개의 채널과 8개의 스테이지를 갖는 시스톨릭 어레이(3600)를 포함하는 매트릭스 가속기를 제공하며, 각 스테이지는 2쌍의 매트릭스 요소에 대해 승산을 수행하도록 구성될 수 있다. 시스톨릭 어레이(3600)는 매트릭스(3602)과 연관된 요소의 열을 로드한 것으로 도시되어 있으며, 이는 매트릭스 B(Src1)로서 레지스터 세트에 로딩될 수 있고 매트릭스 승산 또는 내적 명령어에 대한 입력으로서 시스톨릭 어레이(3600)로 판독될 수 있다. 매트릭스 연산은, 매트릭스 B와 관련된 요소의 열 및 매트릭스(3604)로부터의 행 데이터를 사용해서 수행되며, 행 데이터는 레지스터에 로딩되고 매트릭스 승산 연산을 위해 매트릭스 A(예를 들어, Src2)로서 판독될 수 있다. 매트릭스(3604)의 각 셀은 절반-부동(half-float) 요소이며, 각 레지스터는 32개의 요소를 저장한다. 메타데이터(3606)는, 다른 출력이 생성되는 동안에 스킵될 출력을 취소선으로 표시한다.
일 실시예에서, 출력 희소성과 관련된 임의성(randomness)으로 인해서, 동일한 출력 행에 대해서 일부 출력은 스킵되고 일부 출력은 스킵되지 않는다. 출력의 행의 희소성에 제한은 없다. 출력의 열의 경우, 4개 출력의 각 순차적 그룹에 대해 2개의 출력은 스킵되고 2개의 출력은 스킵되지 않으며, 이는 시스톨릭 어레이에서 출력 희소성의 연산을 위해 배치되는 구조화된 희소성 제한(4:2)이다. 다른 실시예에서, 시스톨릭 어레이에 의해 생성된 출력의 희소성을 제한하기 위해서, 다른 구조화된 희소성 제한(2:1; 8:4; 16:8)이 사용될 수 있다.
도 37은, 매트릭스 형태(3702)로 도시되고 메타데이터 레지스터(3704) 내에 저장되는 메타데이터(3700)를 나타낸다. 메타데이터의 매트릭스 형태(3702)는, 메타데이터가 행마다 각각 채널에 대한 하나의 메타데이터 비트를 포함한다는 것을 나타낸다. 16개 채널이 있는 시스톨릭 어레이의 경우 각 행마다 16비트가 사용된다. 주어진 채널에 대해, 그 채널의 연속 행에 대한 메타데이터 비트는 채널 수만큼 오프셋된다. 예를 들어, 채널 0의 경우, 최상위 행에 대한 메타데이터(예를 들어, 0부터 카운트되는 경우에는 행 0, 1부터 카운트되는 경우에는 행 1)는 메타데이터 레지스터(3704)의 비트 0에 저장되는 반면, 다음 행에 대한 메타데이터는 비트 16에 저장된다. 16 채널 시스톨릭 어레이의 경우, 512 비트 메타데이터 레지스터는 32행에 대한 메타데이터를 보유할 수 있다. 채널 0의 처음 3행에 대한 출력 희소성 메타데이터를 평가할 때, 비트 0, 16 및 32는 메타데이터 레지스터 내에서 평가되는 반면 비트 1, 17 및 33은 채널 1 등에 대해서 평가된다.
도 38은 구조화된 출력 희소성 지원을 갖는 처리 요소(3800)를 도시한다. 처리 요소(3800)는 스테이지 0의 처리 요소, 채널 0을 나타낸다. 시스톨릭 어레이는, 채널의 타깃 수 및 관련된 어레이의 물리적 파이프라인 스테이지를 지원하는 데 필요한 만큼의 처리 요소(3800) 인스턴스를 포함한다. 일 실시예에서, 처리 요소(3800)는, 매트릭스 승산 및/또는 내적 명령어의 하위 연산을 수행하기 위해 한 쌍의 승산기(3804A-3804B) 및 가산기(3806)를 포함한다. 입력 데이터 라인은 Src0에 대한 입력(3810)과 Src1에 대한 입력(3811)을 제공한다. Src2에 대해 입력(3812)이 제공된다.
선택기(3802)는 승산기(3804A-3804B)의 출력을 가산기(3806)에 송신해서, Src0용 입력(3810)을 통해 수신된 값에 가산되도록 구성될 수 있고, 일 실시예에서, 입력(3810)을 통해 수신된 값을 통과하도록 구성될 수 있다. 통과가 활성화되면, 승산-가산 회로가 완전히 또는 부분적으로 비활성화되고 전력이 게이트(gate)될 수 있다. 예를 들어, 승산기(3804A-3804B)는 비활성화되고 전력이 게이팅될 수도 있고 혹은 처리 요소(3800)의 승산기(3804A-3804B)와 가산기(3806)가 모두 비활성화될 수 있다. 처리 요소에서 연산을 활성화 또는 비활성화하는 데 사용되는 메타데이터(3805)는 다음 파이프라인 스테이지의 채널의 처리 요소로 전파되고, 다음 파이프라인 스테이지의 그 채널에 대한 매트릭스 요소를 처리할 때 채널을 활성화하거나 또는 비활성화하는 데 사용된다.
도 39a 및 도 39b는 출력 희소성이 활성화될 때 명령어 실행의 사이클 0 및 사이클 1에서의 처리 요소의 스냅샷(3900, 3910)을 나타낸다. 채널 0의 처리 요소(3800AA-3800HA) 및 채널 1의 처리 요소(3800AB-3800HB)가 도시되어 있다. 시스톨릭 어레이의 지원되는 다른 채널에 대해서도 유사한 패턴이 반복된다. 다양한 실시예에서, 비한정의 예로 8개, 16개 또는 32개 채널을 포함한 다양한 수의 채널이 본 명세서에 설명된 시스톨릭 어레이에 의해 지원될 수 있다. 각 채널은 여러 요소 세트의 연산을 수행할 수 있다. 일부 실시예에서, 채널당 요소의 수는 요소의 크기에 따라 달라질 수 있다. 예를 들어, 일 실시예에서, 채널에 대한 처리 요소는, 4쌍의 8비트 정수(INT8) 또는 2쌍의 16비트 부동 소수점 요소(예를 들어, FP16, BF16) 또는 한 쌍의 32비트 부동 소수점 요소(FP32)를 처리할 수 있다. 일 실시예에서, 채널의 처리 요소는 8쌍의 INT8 요소, 4쌍의 FP16 또는 BP16 요소, 2쌍의 FP32 요소, 또는 한 쌍의 64비트 부동 소수점(FP64) 요소를 처리할 수 있다. 나아가, 도 39a 및 도 39b에 8 스테이지 어레이가 도시되어 있지만, 시스톨릭 어레이는 임의의 수의 물리적 파이프라인 스테이지를 포함할 수 있으며, 피드백 입력을 사용해서 물리적 파이프라인 스테이지보다 많은 수의 논리적 파이프라인 스테이지를 지원할 수 있다.
메타데이터 입력(3805AA-3805HA)은 채널 0의 처리 요소(3800AA-3800HA)와 각각 관련되어 있다. 메타데이터 입력(3805AB-3805HB)은 채널 1의 처리 요소(3800AB-3800HB)와 각각 관련되어 있다. 도 39a에 도시된 바와 같이, 스냅샷(3900)은, 사이클 0 동안에, 채널 0 및 채널 1에 대한 관련 메타데이터 {0, 1}을 사용해서 명령어가 실행될 수 있다는 것을 보여준다. 이러한 메타데이터는 채널 0이 우회되고 채널 1이 활성화된다는 것을 나타낸다. 채널 0이 우회되면, 승산기와 가산기는 비활성화되고, Src0 입력이 채널의 출력으로 전달된다. 도 39b에 도시된 바와 같이, 스냅샷(3910)은, 스테이지 0의 채널 0 및 채널 1에 대한 처리 요소(3800AA) 및 처리 요소(3800AB)에 사용되는 메타데이터가 스테이지 1의 처리 요소(3800BA) 및 처리 요소(3800BB)로 전파된다는 것을 나타낸다. 전파되는 메타데이터에 기초해서 처리가 수행되며, 이는 처리 요소(3800BA)에 대한 메타데이터 입력(3805BA) 및 처리 요소(3800BB)에 대한 메타데이터 입력(3805BB)을 통해 처리 요소에서 수신된다. 스테이지 0의 채널 0 및 채널 1에 대한 처리 요소(3800AA) 및 처리 요소(3800AB)는, 메타데이터 입력(3805AA) 및 메타데이터 입력(3805AB)에서 새로운 메타데이터를 수신하고, 이는 다음 명령어를 처리하는 데 사용된다.
도 40은 출력 희소성 메타데이터를 사용해서 전력 소비를 감소시키기 위해 시스톨릭 어레이에 의해 수행되는 방법(4000)을 나타낸다. 방법(4000)은 매트릭스 연산이 선택적으로 우회되는 출력 희소성을 지원하도록 구성된 시스톨릭 어레이를 포함하는 처리 리소스에 의해 수행될 수 있다. 출력 희소성은 도 38에서와 같이 처리 요소(3800)의 다중 인스턴스를 포함하는 시스톨릭 어레이를 통해 매트릭스 가속기에 대해 활성화될 수 있다.
방법(4000)에 따르면, 본 명세서에서 설명되는 그래픽 프로세서(예를 들어, 실행 로직(1800)의 실행 유닛(1808A-1808N) 및/또는 실행 유닛(1900); 그래픽 멀티프로세서(234); 컴퓨팅 유닛(1506A-1506N))의 처리 리소스는, 출력 희소성을 지원해서 매트릭스 명령어(예를 들어, 승산-누산, 내적)와 연관된 연산을 수행하는 명령어를 처리 리소스에서 페치할 수 있다(4002). 이후, 처리 리소스는 명령어를 디코딩된 명령어로 디코딩할 수 있다(4004). 페치 및 디코드 연산은 도 27에 도시된 데이터 처리 시스템(2700)의 페치 및 디코드 유닛(2721)과 같은 회로를 사용해서 수행될 수 있다. 이후, 처리 요소는, 처리 요소의 레지스터 파일로부터, 디코딩된 명령어에 대한 피연산자 데이터를 판독할 수 있다(4006). 피연산자 데이터는 출력 희소성 패턴을 명시하기 위한 다수의 매트릭스 및 메타데이터로부터의 요소를 포함한다.
이후, 처리 리소스는, 메타데이터에 기초해서 다양한 물리적 파이프라인 스테이지에서 채널을 비활성화하도록, 처리 리소스의 매트릭스 가속기를 구성할 수 있다(4008). 처리 요소의 매트릭스 가속기는 전술한 바와 같이 시스톨릭 어레이를 포함할 수 있다. 방법(4000)은 또한 본 명세서에 설명된 바와 같이 텐서/RT 코어(263) 및/또는 텐서 코어(371)를 포함하는 리소스를 처리함으로써 수행될 수 있으며, 이는 본 명세서에 설명된 기술을 사용해서 출력 희소성을 지원하는 시스톨릭 어레이를 포함하도록 구성될 수 있다. 이후, 처리 요소는, 비활성화된 채널의 전력을 게이팅하는 동안, 활성 채널을 사용해서 승산-누산(예를 들어, 내적) 연산을 수행함으로써, 매트릭스 가속기를 통해 디코딩된 명령어를 실행할 수 있다(4010). 처리 리소스는 내적 연산의 출력을 레지스터 파일에 기록할 수 있다(4012).
도 41은 출력 희소성을 사용해서 머신 학습 모델에 대한 처리 연산을 수행하는 방법(4100)을 나타낸다. 방법(4100)은 출력 희소성을 지원하는 내적 연산을 통해서, 신경망에 대한 가중의 훈련을 조정하는 로직을 포함하는, 머신 학습 프레임워크를 포함하는 처리 시스템에 의해 수행될 수 있다. 머신 학습 프레임워크는 머신 학습 모델의 훈련을 가속화하는 데 사용되는, 도 6과 같은 머신 학습 프레임워크(604)일 수 있다. 예시적인 머신 학습 프레임워크는 TensorFlow 및 MXNet를 포함하지만, 이것으로 한정되는 것은 아니다.
일 실시예에서, 머신 학습 프레임워크는 신경망의 훈련 동안 적용할 출력 희소성 패턴을 결정하는 데 사용될 수 있다(4102). 머신 학습 프레임워크 또는 관련 로직이, 결정된 희소성 패턴에 따라 신경망의 가중을 처리하기 위한 메타데이터를 생성하는 데 사용될 수 있다(4104). 머신 학습 프레임워크 또는 관련 로직은, 메타데이터를 통해 선택된 매트릭스 요소에 대해, 출력 희소성을 이용한 승산-누적 연산을 수행하도록 컴퓨팅 프레임워크에 요청할 수 있다(4106). 메타데이터는 수행할 연산과 우회할 연산을 나타낼 수 있다. 요청된 컴퓨팅 연산을 통해서, 머신 학습 프레임워크는 출력 희소성 연산에 따라서 신경망에 대한 가중 업데이트를 생성하도록 매트릭스 가속기에 요청할 수 있다(4108).
도 42는 희소성 백분율에 기초해서 출력 희소성 메타데이터를 생성하는 방법(4200)을 나타낸다. 방법(4200)은, 도 41의 방법(4100)에서와 같이, 출력 희소성의 지원을 이용해서 내적 또는 승산-누적 명령어를 통해, 머신 학습 모델에 대한 가중의 훈련을 조정하는 로직을 포함한, 머신 학습 프레임워크를 포함하는 처리 시스템에 의해 수행될 수 있다.
일 실시예에서, 머신 학습 프레임워크는 신경망을 훈련하는 동안 적용할 출력 희소성 백분율을 수신할 수 있다(4202). 출력 희소성 백분율은, 머신 학습 모델에 대한 훈련 처리를 미세 조정하면서, 프로그래머에 의해 제공될 수 있다. 이후, 머신 학습 프레임워크는 신경망에 대한 출력 희소성 모드를 결정할 수 있다(4204). 출력 희소성 모드는 머신 학습 모델에 제공되는 설정 또는 구성에 기초해서 결정될 수도 있고 혹은 머신 학습 모델에 의해 자동으로 결정될 수도 있다. 일 실시예에서, 출력 희소성 모드는 랜덤 희소성으로 결정될 수도 있고(4205, "랜덤") 또는 구조화된 희소성으로 결정될 수도 있다(4205, "구조화됨"). 랜덤 희소성이 구성되는 경우에는, 머신 학습 프레임워크는 랜덤 희소성을 갖는 출력 희소성 메타데이터를 생성할 수 있다(4206). 구조화된 희소성이 구성되는 경우에는, 머신 학습 모델은 구조화된 희소성을 갖는 출력 희소성 메타데이터를 생성할 수 있다(4208). 랜덤 희소성이 활성화되는 경우, 머신 학습 모델의 각 뉴런은 머신 학습 모델에 대해 선택된 희소성 백분율에 따라 우회될 능성이 있다. 구조화된 희소성이 활성화되는 경우, 메타데이터는 선택된 희소성 백분율에 따라서 뉴런을 우회하도록 구성될 수도 있으며, 희소성은 추가로 희소성 패턴(예를 들어, 2:1, 4:2, 8:4, 16:8)으로 제한된다. 선택된 희소성 패턴은, 머신 학습 모델을 훈련하는 데 사용할 매트릭스 가속기 하드웨어에 의해 명시적인 지원이 제공되는 희소성 패턴에 부합할 수 있다.
추가의 예시적인 컴퓨팅 장치
도 43은 일 실시예에 따른, 그래픽 프로세서(4304)를 포함하는 컴퓨팅 장치(4300)의 블록도이다. 컴퓨팅 장치(4300)의 버전들은, 셋톱 박스(예컨대, 인터넷 기반 케이블 텔레비전 셋톱 박스 등), GPS(Global Positioning System) 기반 장치 등일 수도 있고 또는 이들 내부에 포함될 수도 있다. 컴퓨팅 장치(4300)는 또한 셀룰러폰, 스마트 폰, PDA(Personal Digital Assistant), 태블릿 컴퓨터, 랩톱 컴퓨터, e-리더, 스마트 TV, 텔레비전 플랫폼, 웨어러블 장치(예컨대, 안경, 시계, 팔찌, 스마트 카드, 보석류, 의류 등), 미디어 플레이어 등과 같은 모바일 컴퓨팅 장치일 수도 있고 이들 내부에 포함될 수도 있다. 예를 들어, 일 실시예에서, 컴퓨팅 장치(4300)는 컴퓨팅 장치(4300)의 다양한 하드웨어 및/또는 소프트웨어 컴포넌트를 단일 칩 상에 통합한 시스템 온 칩("SoC"또는 "SOC")과 같은 집적 회로("IC")를 채용한 모바일 컴퓨팅 장치를 포함한다. 컴퓨팅 장치(4300)는 도 27의 데이터 처리 시스템(2700)에 도시된 컴포넌트를 포함하는 컴퓨팅 장치일 수 있다.
컴퓨팅 장치(4300)는 그래픽 프로세서(4304)를 포함한다. 그래픽 프로세서(4304)는 본 명세서에 설명된 임의의 그래픽 프로세서를 나타낸다. 일 실시예에서, 그래픽 프로세서(4304)는, 단일 캐시일 수도 있고 또는 캐시 메모리의 다수의 세그먼트로 분할될 수 있는 캐시(4314)를 포함하며, 캐시는 임의의 수의 L1, L2, L3 또는 L4 캐시, 렌더 캐시, 깊이 캐시, 샘플러 캐시 및/또는 셰이더 유닛 캐시를 포함하지만, 이것으로 한정되는 것은 아니다. 일 실시예에서, 캐시(4314)는 애플리케이션 프로세서(4306)와 공유되는 최종 레벨 캐시일 수 있다.
일 실시예에서, 그래픽 프로세서(4304)는 그래픽 프로세서를 위한 제어 및 스케줄링 로직을 구현하는 그래픽 마이크로컨트롤러를 포함한다. 제어 및 스케줄링 로직은 그래픽 마이크로컨트롤러(4315)에 의해 실행되는 펌웨어일 수 있다. 펌웨어는 그래픽 드라이버 로직(4322)에 의해 부팅시 로딩될 수 있다. 펌웨어는 또한 전자적으로 소거 가능한 프로그래 가능 판독 전용 메모리로 프로그래밍되거나 또는 그래픽 마이크로컨트롤러(4315) 내의 플래시 메모리 장치로부터 로드될 수 있다. 펌웨어는 장치 관리 로직(4317)/드라이버 로직(4318) 및 스케줄러(4319)를 포함하는 GPU OS(4316)를 활성화할 수 있다. GPU OS(4316)는 또한 그래픽 드라이버 로직(4322) 내의 그래픽 메모리 관리자(4321)를 보완하거나 대체할 수 있는 그래픽 메모리 관리자(4320)를 포함할 수 있다.
그래픽 프로세서(4304)는 본 명세서에 설명된 하나 이상의 그래픽 엔진(들), 그래픽 프로세서 코어 및 본 명세서에 설명된 다른 그래픽 실행 리소스를 포함하는 GPGPU 엔진(4344)을 포함한다. 이러한 그래픽 실행 리소스는, 제한적인 것은 아니지만 실행 유닛, 셰이더 엔진, 프래그먼트 프로세서, 버텍스 프로세서, 스트리밍 멀티프로세서, 그래픽 프로세서 클러스터 또는 그래픽 리소스 또는 이미지 리소스의 처리에 적합한 컴퓨팅 리소스 모음을 포함하거나, 또는 이기종 프로세서에서 범용 컴퓨팅 작업을 수행할 수 있는 형태로 제공될 수 있다. GPGPU 엔진(4344)의 처리 리소스는, 도 24b-도 24d에 도시된 바와 같이, 기판에 연결된 하드웨어 로직의 다수의 타일 내에 포함될 수 있다. GPGPU 엔진(4344)은 그래픽 처리 및 실행 리소스, 캐시, 샘플러 등을 포함하는 GPU 타일(4345)을 포함할 수 있다. GPU 타일(4345)은 또한 로컬 휘발성 메모리를 포함할 수도 있고, 또는 도 16b-도 16c에 도시된 메모리 타일(1626A-1626D)과 같은 하나 이상의 메모리 타일과 결합될 수 있다.
GPGPU 엔진(4344)은 또한, 예를 들어 비휘발성 메모리 타일(4356), 네트워크 프로세서 타일(4357), 및/또는 범용 컴퓨팅 타일(4358)을 포함하는 하나 이상의 특수 타일(4346)을 포함할 수 있다. GPGPU 엔진(4344)은 또한 매트릭스 승산 가속기(4360)를 포함한다. 범용 컴퓨팅 타일(4358)은 또한 매트릭스 승산 연산을 가속화하는 로직을 포함할 수 있다. 비휘발성 메모리 타일(4356)은 비휘발성 메모리 셀 및 컨트롤러 로직을 포함할 수 있다. 비휘발성 메모리 타일(4356)의 컨트롤러 로직은 장치 관리 로직(4317) 또는 드라이버 로직(4318) 중 하나에 의해 관리될 수 있다. 네트워크 프로세서 타일(4357)은 컴퓨팅 장치(4300)의 입력/출력(I/O) 소스(4310) 내의 물리적 인터페이스에 연결되는 네트워크 처리 리소스를 포함할 수 있다. 네트워크 프로세서 타일(4357)은 장치 관리 로직(4317) 또는 드라이버 로직(4318) 중 하나 이상에 의해 관리될 수 있다.
매트릭스 승산 가속기(4360)는 본 명세서에 설명된 모듈식 확장 가능한 희소 매트릭스 승산 가속기이다. 매트릭스 승산 가속기(4360)는 다수의 처리 경로를 포함할 수 있으며, 각 처리 경로는 다수의 파이프라인 스테이지를 포함한다. 각 처리 경로는 별도의 명령어를 실행할 수 있다. 다양한 실시예에서, 매트릭스 승산 가속기(4360)는 본 명세서에 설명된 매트릭스 승산 가속기 중 임의의 하나의 구조적 특징을 가질 수 있다. 예를 들어, 일 실시예에서, 매트릭스 승산 가속기(4360)는 4개의 논리 스테이지의 배수(예를 들어, 4개, 8개, 12개, 16개 등)로 동작하도록 구성될 수 있는 시스톨릭 어레이(3000)이다.
일 실시예에서, 매트릭스 승산 가속기(4360)는 4 스테이지 파이프라인을 갖는 2-경로 매트릭스 승산 가속기(3100) 또는 2 스테이지 파이프라인을 갖는 4-경로 매트릭스 승산 가속기(3200)의 하나 이상의 인스턴스를 포함한다. 일 실시예에서, 매트릭스 승산 가속기(4360)는 확장 가능한 희소 매트릭스 승산 가속기로 구성된 처리 요소를 포함한다. 매트릭스 승산 가속기(4360)는 적어도 하나의 입력 매트릭스의 0이 아닌 값에 대해서만 연산하도록 구성될 수 있다. 블록 희소성이 존재하는 경우 전체 열 또는 부분 매트릭스에 대한 연산은 우회될 수 있다. 매트릭스 승산 가속기(4360)는 또한 이들 실시예의 임의의 조합에 기초한 임의의 로직을 포함할 수 있고, 특히 랜덤 희소성, 구조화된 희소성 및 출력 희소성에 대한 지원을 활성화시키는 로직을 포함한다.
도시된 바와 같이, 일 실시예에서, 그래픽 프로세서(4304)에 더해서, 컴퓨팅 장치(4300)는 애플리케이션 프로세서(4306), 메모리(4308), 및 입력/출력(I/O) 소스(4310)를 포함하나 이에 제한되지 않는, 임의의 수 및 유형의 하드웨어 컴포넌트 및/또는 소프트웨어 컴포넌트를 더 포함할 수 있다. 애플리케이션 프로세서(4306)는 그래픽 파이프라인 기능을 공유하기 위해, 하드웨어 그래픽 파이프라인과 상호 작용할 수 있다. 처리된 데이터는 하드웨어 그래픽 파이프라인의 버퍼에 저장되고 상태 정보는 메모리(4308)에 저장된다. 결과 데이터는 디스플레이 장치를 통한 출력을 위해 디스플레이 제어기로 전송될 수 있다. 디스플레이 장치는 음극선 관(CRT), 박막 트랜지스터(TFT), 액정 디스플레이(LCD), 유기 발광 다이오드(OLED) 어레이 등과 같은 다양한 유형을 가질 수 있으며, 그래픽 사용자 인터페이스를 통해 사용자에게 정보를 디스플레이하도록 구성될 수 있다.
애플리케이션 프로세서(4306)는 도 1의 프로세서(들)(102)와 같은 하나 이상의 프로세서를 포함할 수 있고, 컴퓨팅 장치(4300)를 위한 운영 체제(OS)(4302)를 실행하기 위해 적어도 부분적으로 사용되는 중앙 처리 장치(CPU)일 수 있다. OS(4302)는 컴퓨팅 장치(4300)의 하드웨어 및/또는 물리적 리소스와 하나 이상의 사용자 사이의 인터페이스로서 기능할 수 있다. OS(4302)는 컴퓨팅 장치(4300)의 다양한 하드웨어 장치에 대한 드라이버 로직을 포함할 수 있다. 드라이버 로직은 그래픽 드라이버 로직(4322)을 포함할 수 있으며, 이는 도 23의 사용자 모드 그래픽 드라이버(2326) 및/또는 커널 모드 그래픽 드라이버(2329)를 포함할 수 있다. 그래픽 드라이버 로직은 그래픽 프로세서(4304)에 대한 가상 메모리 주소 공간을 관리하기 위한 그래픽 메모리 관리자(4321)를 포함할 수 있다. 그래픽 메모리 관리자(4321)는 애플리케이션 프로세서(4306) 및 그래픽 프로세서(4304)에 의해 액세스될 수 있는 통합 가상 주소 공간을 용이하게 할 수 있다.
일부 실시예에서, 그래픽 프로세서(4304)는 애플리케이션 프로세서(4306)의 일부(예를 들어, 물리적 CPU 패키지의 일부)로 존재할 수 있으며, 이 경우에 메모리(4308)의 적어도 일부는 애플리케이션 프로세서(4306) 및 그래픽 프로세서(4304)에 의해 공유될 수 있으나, 메모리(4308)의 적어도 일부가 그래픽 프로세서(4304)에 독점될 수 있거나 그래픽 프로세서(4304)가 별도의 메모리 저장소를 가질 수 있는 것으로 고려된다. 메모리(4308)는 버퍼(예를 들어, 프레임 버퍼)의 미리 할당된 영역을 포함할 수 있으나, 당업자라면 실시예들이 그에 제한되지 않으며, 하위의 그래픽 파이프라인에 액세스 가능한 임의의 메모리가 사용될 수 있음을 이해해야 한다. 메모리(4308)는 데스크톱 또는 3D 그래픽 장면을 렌더링하기 위해 그래픽 프로세서(4304)를 이용하는 애플리케이션을 포함하는 다양한 형태의 랜덤 액세스 메모리(RAM)(예를 들어, SDRAM, SRAM 등)를 포함할 수 있다. 그래픽 파이프라인 처리를 위해, 도 14의 메모리 제어기(1416)와 같은 메모리 제어기 허브가 메모리(4308)의 데이터에 액세스하고 그래픽 프로세서(4304)로 데이터를 전달할 수 있다. 메모리(4308)는 컴퓨팅 장치(4300) 내의 다른 컴포넌트에 이용 가능하게 될 수 있다. 예를 들어, 컴퓨팅 장치(4300)의 다양한 I/O 소스(4310)로부터 수신된 임의의 데이터(예를 들어, 입력 그래픽 데이터)는 이들이 소프트웨어 프로그램 또는 애플리케이션의 구현시 하나 이상의 프로세서(들)(예를 들어, 애플리케이션 프로세서(4306))에 의해 동작되기 전에 메모리(4308)에 일시적으로 큐잉될 수 있다. 유사하게, 소프트웨어 프로그램이 컴퓨팅 시스템 인터페이스 중 하나를 통해 컴퓨팅 장치(4300)로부터 외부 엔티티로 송신되거나 내부 저장 요소에 저장되어야 한다고 결정하는 데이터는 흔히 전송되거나 저장되기 전에 메모리(4308)에 일시적으로 큐잉된다.
I/O 소스는 터치스크린, 터치 패널, 터치 패드, 가상 또는 일반 키보드, 가상 또는 일반 마우스, 포트, 커넥터, 네트워크 장치 등과 같은 장치를 포함할 수 있고, 도 14의 플랫폼 제어기 허브(1430)를 통해 부착될 수 있다. 또한, I/O 소스(4310)는 컴퓨팅 장치(4300)(예를 들어, 네트워킹 어댑터)로/로부터 데이터를 전송하기 위해 또는, 컴퓨팅 장치(4300)(예컨대, SSD/HDD) 내의 대규모 비 휘발성 저장소를 위해 구현되는 하나 이상의 I/O 장치를 포함할 수 있다. 영숫자 키 및 다른 키를 포함하는 사용자 입력 장치는 정보 및 커맨드 선택을 그래픽 프로세서(4304)에 전달하는 데 사용될 수 있다. 다른 유형의 사용자 입력 장치는 마우스, 트랙볼, 터치 스크린, 터치 패드 또는 커서 방향 키와 같은 커서 제어기로서, 방향 정보 및 커맨드 선택을 GPU에 전달하고 디스플레이 장치의 커서 이동을 제어한다. 컴퓨팅 장치(4300)의 카메라 및 마이크로폰 어레이는 제스처를 관찰하고, 오디오 및 비디오를 기록하고, 시각(visual) 및 오디오 커맨드를 수신 및 전송하기 위해 사용될 수 있다.
I/O 소스(4310)는 하나 이상의 네트워크 인터페이스를 포함할 수 있다. 네트워크 인터페이스는 연관된 네트워크 처리 로직을 포함할 수 있고/있거나 네트워크 프로세서 타일(4357)과 결합될 수 있다. 하나 이상의 네트워크 인터페이스는 LAN, WAN(wide area network), MAN(metropolitan area network), PAN(personal area network), 블루투스, 클라우드 네트워크, 셀룰러 또는 모바일 네트워크(예를 들어, 3세대(3G), 4세대(4G), 5세대(5G) 등), 인트라넷, 인터넷 등과 같은 네트워크에 대한 액세스를 제공할 수 있다. 네트워크 인터페이스(들)는 예를 들어, 하나 이상의 안테나(e)를 갖는 무선 네트워크를 포함할 수 있다. 네트워크 인터페이스(들)는 또한, 예를 들어, 이더넷 케이블, 동축 케이블, 광섬유 케이블, 직렬 케이블, 또는 병렬 케이블일 수 있는 네트워크 케이블을 통해 원격 장치와 통신하기 위한 유선 네트워크 인터페이스를 포함할 수 있다.
네트워크 인터페이스(들)는, 예를 들어, IEEE 802.11 표준에 따라 LAN에 대한 액세스를 제공할 수 있고/있거나, 무선 네트워크 인터페이스는 예를 들어 블루투스 표준에 따라 PAN에 대한 액세스를 제공할 수 있다. 이전 및 이후 버전의 표준을 포함하여 다른 무선 네트워크 인터페이스 및/또는 프로토콜도 지원될 수 있다. 무선 LAN 표준을 통한 통신에 추가하여 또는 이에 갈음하여, 네트워크 인터페이스(들)는 예를 들어 TDMA(Time Division, Multiple Access) 프로토콜, GSM(Global Systems for Mobile Communications) 프로토콜, CDMA(Code Division, Multiple Access) 프로토콜 및/또는 기타 유형의 무선 통신 프로토콜을 사용하여 무선 통신을 제공할 수 있다.
전술한 예보다 더 적거나 더 많이 장착된 시스템이 특정 구현에 대해 바람직할 수 있음을 이해해야 한다. 따라서, 컴퓨팅 장치(4300)의 구성은, 가격 제약, 성능 요건, 기술 개선 또는 기타 상황과 같은 다양한 요인에 따라 구현마다 달라질 수 있다. 예들(제한이 아님)은 모바일 장치, PDA, 모바일 컴퓨팅 장치, 스마트 폰, 휴대폰, 핸드셋, 단방향 호출기, 양방향 호출기, 메시징 장치, 컴퓨터, 개인용 컴퓨터(PC), 데스크톱 컴퓨터, 랩톱 컴퓨터, 노트북 컴퓨터, 핸드 헬드 컴퓨터, 태블릿 컴퓨터, 서버, 서버 어레이 또는 서버 팜, 웹 서버, 네트워크 서버, 인터넷 서버, 작업 스테이션, 미니 컴퓨터, 메인 프레임 컴퓨터, 슈퍼 컴퓨터, 네트워크 기기, 웹 기기, 분산형 컴퓨팅 시스템, 멀티 프로세서 시스템, 프로세서 기반 시스템, 가전 제품, 프로그램가능 가전 제품, 텔레비전, 디지털 텔레비전, 셋톱 박스, 무선 액세스 포인트, 기지국, 가입자 국, 이동 가입자 센터, 무선 네트워크 제어기, 라우터, 허브, 게이트웨이, 브리지, 스위치, 머신 또는 이들의 조합을 포함한다.
일 실시예는, 범용 병렬 처리 엔진을 포함할 수 있는 처리 장치를 제공하며, 범용 병렬 처리 엔진은 멀티-스테이지 시스톨릭 어레이를 포함하는 매트릭스 가속기를 포함하고, 각각의 스테이지는 다중 처리 채널과 연관된 다중 처리 요소를 포함한다. 다중 처리 요소는, 입력 매트릭스 요소의 입력 희소성과는 무관한 출력 희소성 메타데이터를 수신하고, 출력 희소성 메타데이터에 기초해서 입력 매트릭스 요소에 대한 처리 연산을 수행하도록 구성된다. 처리 연산을 수행하기 위해서, 다중 처리 요소는 제 1 파이프라인 스테이지에서 출력 희소성 메타데이터를 수신하고, 제 1 스테이지에서 출력 희소성 메타데이터에 기초해서 입력 매트릭스 요소에 대한 처리 연산을 수행할 수 있다. 처리 연산을 수행하는 것은, 제 1 처리 채널과 연관된 제 1 처리 요소에서 승산을 우회하고, 제 1 처리 요소의 일부의 전력을 게이트하는 것과, 제 2 처리 채널과 연관된 제 2 처리 요소에서 입력 요소를 승산하는 것을 포함한다. 제 1 처리 요소의 일부의 전력을 게이트하는 것은, 처리 요소의 승산기 및/또는 처리 요소의 가산기의 전력을 게이트하는 것을 포함한다. 다중 처리 요소 각각은, 누산기 값과 연관된 제 1 소스 입력, 제 1 매트릭스와 연관된 제 2 소스 입력 및 제 2 매트릭스와 연관된 제 3 소스 입력을 포함한다. 일 실시예에서, 제 1 처리 요소에서 승산을 우회하는 것은, 제 1 소스 입력에서 수신된 누산기 값을 출력하는 것을 포함한다. 다른 실시예에서, 제 1 처리 요소에 의해서는 어떠한 데이터도 출력되지 않는다. 또 다른 실시예에서, 처리 요소에 의해서 0 값이 출력된다. 처리 요소는 제 1 파이프라인 스테이지에서 수신된 출력 희소성 메타데이터를 제 2 파이프라인 스테이지로 전파하고 출력 희소성 메타데이터에 따라서 다중 처리 채널의 입력 요소를 처리할 수 있다. 출력 희소성 메타데이터는 입력 매트릭스의 다중 행 각각에 대한 다중 처리 채널 각각과 연관된 비트를 포함할 수 있다. 일 실시예에서, 출력 희소성 메타데이터는, 제 1 처리 사이클에서, 제 2 매트릭스의 입력 요소를 제 1 매트릭스의 입력 요소와 승산하고, 제 2 처리 사이클에서, 입력 요소에 대한 승산 연산을 우회하는 것을 처리 요소에 나타낸다.
일 실시예는, 출력 희소성에 대한 메타데이터를 지정하는 매트릭스 명령어와 연관된 연산을 수행하도록, 그래픽 프로세서의 처리 리소스에서 명령어를 페치하는 단계와, 명령어를 디코딩된 명령어로 디코딩하는 단계와, 처리 리소스의 레지스터 파일로부터 디코딩된 명령어에 대한 피연산자 데이터를 판독하는 단계 - 피연산자 데이터는 매트릭스 요소 및 메타데이터를 포함하고, 메타데이터는 매트릭스 요소의 입력 희소성과는 무관함 - 와, 메타데이터에 따라서, 제 1 채널과 연관된 매트릭스 요소에 대해서는 승산-누산(multiply-accumulate) 연산을 수행하고 제 2 채널과 연관된 매트릭스 요소에 대해서는 승산-누산 연산을 우회함으로써, 다중 파이프라인 스테이지의 시스톨릭 어레이를 포함하는 매트릭스 가속기를 통해서 디코딩된 명령어를 실행하는 단계와, 승산-누산 연산의 출력을 레지스터 파일에 기록하는 단계를 포함하는 방법을 제공한다. 일 실시예에서, 제 2 채널과 연관된 매트릭스 요소에 대해서는 승산-누산 연산을 우회하는 것은, 제 2 채널과 연관된 처리 요소의 승산기 및/또는 제 2 채널과 연관된 처리 요소의 가산기의 전력을 게이트하는 것을 포함한다. 추가 실시예에서, 메타데이터에 따라서, 제 1 채널과 연관된 매트릭스 요소에 대해서는 승산 누산 연산이 수행되고, 다중 파이프라인 스테이지의 제 1 파이프라인 스테이지에서 제 2 채널과 연관된 매트릭스 요소에 대해서는 승산 누산 연산이 우회된다. 동시에, 제 2 스테이지는 제 1 채널과 연관된 매트릭스 요소에 대해서는 승산 누산 연산을 우회하고, 다중 파이프라인 스테이지의 제 2 파이프라인 스테이지에서 제 2 채널과 연관된 매트릭스 요소에 대해서는 승산 누산 연산을 수행한다. 일 실시예는 전술한 바와 같은 방법을 수행하기 위한 시스템 및/또는 장치를 제공한다.
일 실시예는, 메모리 장치와, 메모리 장치에 연결된, 범용 병렬 처리 엔진을 포함하는 그래픽 프로세서를 포함하는 시스템을 제공한다. 다중 처리 요소는, 하나 이상의 시스톨릭 어레이를 포함하는 매트릭스 가속기를 포함하고, 하나 이상의 시스톨릭 어레이 중 적어도 하나는 다중 파이프라인 스테이지를 포함하고, 다중 파이프라인 스테이지의 각각의 파이프라인 스테이지는 다중 처리 요소를 포함하며, 다중 처리 요소는 다중 처리 채널과 연관된다. 다중 처리 요소는, 제 1 파이프라인 스테이지에서 출력 희소성 메타데이터를 수신하고 - 출력 희소성 메타데이터는 다중 처리 채널과 연관되며, 출력 희소성 메타데이터는 입력 매트릭스 요소의 입력 희소성과는 무관함 - , 출력 희소성 메타데이터에 기초해서 입력 매트릭스 요소에 대한 처리 연산을 수행하도록 구성된다. 처리 연산을 수행하는 것은, 제 1 처리 채널과 연관된 제 1 처리 요소에서 승산을 우회하고, 제 1 처리 요소의 일부의 전력을 게이트하는 것과, 제 2 처리 채널과 연관된 제 2 처리 요소에서 입력 요소를 승산하는 것을 포함한다.
추가 실시예에서, 제 1 처리 요소의 일부의 전력을 게이트하는 것은, 처리 요소의 승산기와 처리 요소의 가산기 중 하나 이상의 전력을 게이트하는 것을 포함한다. 다중 처리 요소 각각은, 누산기 값과 연관된 제 1 소스 입력, 제 1 매트릭스와 연관된 제 2 소스 입력 및 제 2 매트릭스와 연관된 제 3 소스 입력을 포함할 수 있다. 일 실시예에서, 제 1 처리 요소에서 승산을 우회하는 것은, 제 1 소스 입력에서 수신된 누산기 값을 출력하는 것을 포함한다. 일 실시예에서, 처리 연산을 수행하는 것은, 제 1 파이프라인 스테이지에서 수신된 출력 희소성 메타데이터를 제 2 파이프라인 스테이지로 전파하고 출력 희소성 메타데이터에 따라서 다중 처리 채널의 입력 요소를 처리하는 것을 포함한다. 출력 희소성 메타데이터는 입력 매트릭스의 행과 연관된 비트를 포함할 수 있고, 출력 희소성 메타데이터는 제 1 처리 사이클에서, 제 2 매트릭스의 입력 요소를 제 1 매트릭스의 입력 요소와 승산하고, 제 2 처리 사이클에서, 입력 요소에 대한 승산 연산을 우회하는 것을 제 1 처리 요소에 나타낼 수 있다.
전술한 설명 및 도면은 한정이 아닌 예시이다. 당업자라면, 첨부된 특허청구범위에 기재된 특징의 보다 넓은 사상 및 범주로부터 벗어남없이 본 명세서에 설명된 실시예에 다양한 수정 및 변경이 이루어질 수 있다는 것을 이해할 것이다.
Claims (21)
- 시스톨릭 어레이(systolic array) 전력 소비가 감소된 처리 장치로서,
하나 이상의 시스톨릭 어레이를 포함하는 매트릭스 가속기를 포함하는 범용 병렬 처리 엔진 - 상기 하나 이상의 시스톨릭 어레이 중 적어도 하나는 다중 파이프라인 스테이지를 포함하고, 상기 다중 파이프라인 스테이지의 각각의 파이프라인 스테이지는 다중 처리 요소를 포함하며, 상기 다중 처리 요소는 다중 처리 채널과 연관됨 -
을 포함하고,
상기 다중 처리 요소는,
제 1 파이프라인 스테이지에서 출력 희소성 메타데이터(output sparsity metadata)를 수신하고 - 상기 출력 희소성 메타데이터는 상기 다중 처리 채널과 연관되며, 상기 출력 희소성 메타데이터는 입력 매트릭스 요소의 입력 희소성과는 무관함 - ,
상기 출력 희소성 메타데이터에 기초해서 상기 입력 매트릭스 요소에 대한 처리 연산을 수행하도록
구성되고,
상기 처리 연산을 수행하는 것은,
제 1 처리 채널과 연관된 제 1 처리 요소에서 승산을 우회하고, 상기 제 1 처리 요소의 일부의 전력을 게이트(power gate)하는 것과,
제 2 처리 채널과 연관된 제 2 처리 요소에서 입력 요소를 승산하는 것
을 포함하는,
처리 장치.
- 제 1 항에 있어서,
상기 제 1 처리 요소의 일부의 전력을 게이트(power gate)하는 것은, 처리 요소의 승산기의 전력을 게이트하는 것을 포함하는,
처리 장치.
- 제 2 항에 있어서,
상기 제 1 처리 요소의 상기 일부의 전력을 게이트하는 것은, 상기 처리 요소의 가산기의 전력을 게이트하는 것을 더 포함하는,
처리 장치.
- 제 1 항 또는 제 2 항에 있어서,
상기 다중 처리 요소 각각은, 누산기 값과 연관된 제 1 소스 입력, 제 1 매트릭스와 연관된 제 2 소스 입력 및 제 2 매트릭스와 연관된 제 3 소스 입력을 포함하는,
처리 장치.
- 제 4 항에 있어서,
상기 제 1 처리 요소에서 승산을 우회하는 것은, 상기 제 1 소스 입력에서 수신된 상기 누산기 값을 출력하는 것을 포함하는,
처리 장치.
- 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 처리 연산을 수행하는 것은, 상기 제 1 파이프라인 스테이지에서 수신된 상기 출력 희소성 메타데이터를 제 2 파이프라인 스테이지로 전파하고 상기 출력 희소성 메타데이터에 따라서 상기 다중 처리 채널의 입력 요소를 처리하는 것을 포함하는,
처리 장치.
- 제 6 항에 있어서,
상기 출력 희소성 메타데이터는 상기 다중 처리 채널 각각과 연관된 비트를 포함하는,
처리 장치.
- 제 7 항에 있어서,
상기 출력 희소성 메타데이터는 입력 매트릭스의 다수의 행 각각과 연관된 비트를 더 포함하는,
처리 장치.
- 제 8 항에 있어서,
상기 출력 희소성 메타데이터는, 제 1 처리 사이클에서, 제 2 매트릭스의 입력 요소를 제 1 매트릭스의 입력 요소와 승산하고, 제 2 처리 사이클에서, 상기 입력 요소에 대한 승산 연산을 우회하는 것을 상기 제 1 처리 요소에 나타내는,
처리 장치.
- 희소성 메타데이터를 사용해서 시스톨릭 어레이 전력 소비를 감소시키는 방법으로서,
출력 희소성에 대한 메타데이터를 지정하는 매트릭스 명령어와 연관된 연산을 수행하도록, 그래픽 프로세서의 처리 리소스에서 명령어를 페치하는 단계와,
상기 명령어를 디코딩된 명령어로 디코딩하는 단계와,
상기 처리 리소스의 레지스터 파일로부터 상기 디코딩된 명령어에 대한 피연산자 데이터를 판독하는 단계 - 상기 피연산자 데이터는 매트릭스 요소 및 상기 메타데이터를 포함하고, 상기 메타데이터는 상기 매트릭스 요소의 입력 희소성과는 무관함 - 와,
상기 메타데이터에 따라서, 제 1 채널과 연관된 매트릭스 요소에 대해서는 승산-누산(multiply-accumulate) 연산을 수행하고 제 2 채널과 연관된 상기 매트릭스 요소에 대해서는 상기 승산-누산 연산을 우회함으로써, 다중 파이프라인 스테이지의 시스톨릭 어레이를 포함하는 매트릭스 가속기를 통해서 상기 디코딩된 명령어를 실행하는 단계와,
상기 승산-누산 연산의 출력을 상기 레지스터 파일에 기록하는 단계
를 포함하는 방법.
- 제 10 항에 있어서,
상기 제 2 채널과 연관된 상기 매트릭스 요소에 대해서는 상기 승산-누산 연산을 우회하는 것은, 상기 제 2 채널과 연관된 처리 요소의 승산기의 전력을 게이트하는 것을 포함하는,
방법.
- 제 11 항에 있어서,
상기 제 2 채널과 연관된 상기 매트릭스 요소에 대해서는 상기 승산-누산 연산을 우회하는 것은, 상기 제 2 채널과 연관된 처리 요소의 가산기의 전력을 게이트하는 것을 포함하는,
방법.
- 제 12 항에 있어서,
상기 메타데이터에 따라서, 상기 제 1 채널과 연관된 매트릭스 요소에 대해서는 상기 승산 누산 연산을 수행하고, 상기 다중 파이프라인 스테이지의 제 1 파이프라인 스테이지에서 상기 제 2 채널과 연관된 상기 매트릭스 요소에 대해서는 상기 승산 누산 연산을 우회하며, 동시에, 상기 제 1 채널과 연관된 상기 매트릭스 요소에 대해서는 상기 승산 누산 연산을 우회하고, 상기 다중 파이프라인 스테이지의 제 2 파이프라인 스테이지에서 상기 제 2 채널과 연관된 상기 매트릭스 요소에 대해서는 상기 승산 누산 연산을 수행하는 단계
를 더 포함하는 방법.
- 데이터를 저장하는 하나 이상의 비일시적 머신 판독 가능 매체로서,
상기 데이터는 하나 이상의 머신에 의해 판독될 때, 상기 하나 이상의 머신으로 하여금 하나 이상의 집적 회로를 제조해서 제 10 항 내지 제 13 항 중 어느 한 항의 방법을 수행하게 하는,
하나 이상의 비일시적 머신 판독 가능 매체.
- 시스톨릭 어레이 전력 소비가 감소된 시스템으로서,
메모리 장치와,
상기 메모리 장치에 연결된, 범용 병렬 처리 엔진을 포함하는 그래픽 프로세서
를 포함하되,
상기 범용 병렬 처리 엔진은, 하나 이상의 시스톨릭 어레이를 포함하는 매트릭스 가속기 - 상기 하나 이상의 시스톨릭 어레이 중 적어도 하나는 다중 파이프라인 스테이지를 포함하고, 상기 다중 파이프라인 스테이지의 각각의 파이프라인 스테이지는 다중 처리 요소를 포함하며, 상기 다중 처리 요소는 다중 처리 채널과 연관됨 - 를 포함하고,
상기 다중 처리 요소는,
제 1 파이프라인 스테이지에서 출력 희소성 메타데이터를 수신하고 - 상기 출력 희소성 메타데이터는 상기 다중 처리 채널과 연관되며, 상기 출력 희소성 메타데이터는 입력 매트릭스 요소의 입력 희소성과는 무관함 - ,
상기 출력 희소성 메타데이터에 기초해서 상기 입력 매트릭스 요소에 대한 처리 연산을 수행하도록
구성되고,
상기 처리 연산을 수행하는 것은,
제 1 처리 채널과 연관된 제 1 처리 요소에서 승산을 우회하고, 상기 제 1 처리 요소의 일부의 전력을 게이트하는 것과,
제 2 처리 채널과 연관된 제 2 처리 요소에서 입력 요소를 승산하는 것
을 포함하는,
시스템.
- 제 15 항에 있어서,
상기 제 1 처리 요소의 일부의 전력을 게이트하는 것은, 처리 요소의 승산기와 상기 처리 요소의 가산기 중 하나 이상의 전력을 게이트하는 것을 포함하는,
시스템.
- 제 15 항에 있어서,
상기 다중 처리 요소 각각은, 누산기 값과 연관된 제 1 소스 입력, 제 1 매트릭스와 연관된 제 2 소스 입력 및 제 2 매트릭스와 연관된 제 3 소스 입력을 포함하는,
시스템.
- 제 15 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 제 1 처리 요소에서 승산을 우회하는 것은, 상기 제 1 소스 입력에서 수신된 상기 누산기 값을 출력하는 것을 포함하는,
시스템.
- 제 15 항 내지 제 17 항 중 어느 한 항에 있어서,
상기 처리 연산을 수행하는 것은, 상기 제 1 파이프라인 스테이지에서 수신된 상기 출력 희소성 메타데이터를 제 2 파이프라인 스테이지로 전파하고 상기 출력 희소성 메타데이터에 따라서 상기 다중 처리 채널의 입력 요소를 처리하는 것을 포함하는,
시스템.
- 제 19 항에 있어서,
상기 출력 희소성 메타데이터는 상기 다중 처리 채널 각각과 연관된 비트를 포함하는,
시스템.
- 제 20 항에 있어서,
상기 출력 희소성 메타데이터는 입력 매트릭스의 행과 연관된 비트를 추가로 포함하고,
상기 출력 희소성 메타데이터는 제 1 처리 사이클에서, 제 2 매트릭스의 입력 요소를 제 1 매트릭스의 입력 요소와 승산하고, 제 2 처리 사이클에서, 상기 입력 요소에 대한 승산 연산을 우회하는 것을 상기 제 1 처리 요소에 나타내는,
시스템.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/358,542 US20220413924A1 (en) | 2021-06-25 | 2021-06-25 | Using sparsity metadata to reduce systolic array power consumption |
US17/358,542 | 2021-06-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230000947A true KR20230000947A (ko) | 2023-01-03 |
Family
ID=80683965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220040990A KR20230000947A (ko) | 2021-06-25 | 2022-04-01 | 희소성 메타데이터를 사용한 시스톨릭 어레이 전력 소비 감소 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220413924A1 (ko) |
EP (1) | EP4109303A1 (ko) |
JP (1) | JP2023004864A (ko) |
KR (1) | KR20230000947A (ko) |
CN (1) | CN115526763A (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240193117A1 (en) * | 2022-12-13 | 2024-06-13 | Xilinx, Inc. | Coarse grained reconfigurable architecture |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10831702B2 (en) * | 2018-09-20 | 2020-11-10 | Ceva D.S.P. Ltd. | Efficient utilization of systolic arrays in computational processing |
EP3938890A1 (en) * | 2019-03-15 | 2022-01-19 | Intel Corporation | Architecture for block sparse operations on a systolic array |
US11663746B2 (en) * | 2019-11-15 | 2023-05-30 | Intel Corporation | Systolic arithmetic on sparse data |
US11816446B2 (en) * | 2019-11-27 | 2023-11-14 | Amazon Technologies, Inc. | Systolic array component combining multiple integer and floating-point data types |
US11314515B2 (en) * | 2019-12-23 | 2022-04-26 | Intel Corporation | Instructions and logic for vector multiply add with zero skipping |
US11468002B2 (en) * | 2020-02-28 | 2022-10-11 | Untether Ai Corporation | Computational memory with cooperation among rows of processing elements and memory thereof |
US20220222319A1 (en) * | 2021-01-14 | 2022-07-14 | Microsoft Technology Licensing, Llc | Compressed matrix with sparsity metadata |
-
2021
- 2021-06-25 US US17/358,542 patent/US20220413924A1/en active Pending
-
2022
- 2022-03-09 EP EP22160978.7A patent/EP4109303A1/en active Pending
- 2022-03-30 JP JP2022054887A patent/JP2023004864A/ja active Pending
- 2022-04-01 KR KR1020220040990A patent/KR20230000947A/ko unknown
- 2022-05-24 CN CN202210570047.6A patent/CN115526763A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4109303A1 (en) | 2022-12-28 |
JP2023004864A (ja) | 2023-01-17 |
US20220413924A1 (en) | 2022-12-29 |
CN115526763A (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11899614B2 (en) | Instruction based control of memory attributes | |
KR20210136994A (ko) | 매트릭스 가속기 아키텍처 내에서의 시스톨릭 분리 | |
KR20210059647A (ko) | 희소 데이터에 대한 시스톨릭 산술 | |
US20240069914A1 (en) | Hardware enhancements for matrix load/store instructions | |
EP4152162A1 (en) | Immediate offset of load store and atomic instructions | |
WO2022271227A1 (en) | Dual pipeline parallel systolic array | |
EP4359920A1 (en) | Systolic array of arbitrary physical and logical depth | |
WO2022271228A1 (en) | Register file for systolic array | |
US20240168723A1 (en) | Matrix transposition in matrix multiplication array circuitry | |
US20240087077A1 (en) | Merging atomics to the same cache line | |
US20240103810A1 (en) | Supporting vector multiply add with double accumulator access in a graphics environment | |
US20230147063A1 (en) | Motion vector refinement for temporally amortized supersampling | |
EP4109303A1 (en) | Using sparsity metadata to reduce systolic array power consumption | |
US20230109990A1 (en) | Modular gpu architecture for clients and servers | |
US20220413803A1 (en) | Systolic array having support for output sparsity | |
US20240069737A1 (en) | Merging bit-mask atomics to the same dword | |
US20240111826A1 (en) | Hardware enhancements for double precision systolic support | |
US20240054595A1 (en) | Concurrent compute context | |
US20240168807A1 (en) | Cross-thread register sharing for matrix multiplication compute | |
US20240169021A1 (en) | Enhancements for accumulator usage and instruction forwarding in matrix multiply pipeline in graphics environment | |
US20240111590A1 (en) | Ordered thread dispatch for thread teams | |
US20240160478A1 (en) | Increasing processing resources in processing cores of a graphics environment | |
US20240220420A1 (en) | Locally biased cache replacement for clustered cache architecture | |
US20240211403A1 (en) | Load store microarchitecture cache enhancements | |
US20240134527A1 (en) | Virtual address access to gpu surface and sampler states |