KR20240004301A - 모듈식 병렬 프로세서를 위한 다이 적층 - Google Patents

모듈식 병렬 프로세서를 위한 다이 적층 Download PDF

Info

Publication number
KR20240004301A
KR20240004301A KR1020237035148A KR20237035148A KR20240004301A KR 20240004301 A KR20240004301 A KR 20240004301A KR 1020237035148 A KR1020237035148 A KR 1020237035148A KR 20237035148 A KR20237035148 A KR 20237035148A KR 20240004301 A KR20240004301 A KR 20240004301A
Authority
KR
South Korea
Prior art keywords
die
base
dies
stacked
virtual compute
Prior art date
Application number
KR1020237035148A
Other languages
English (en)
Inventor
마이클 만토르
Original Assignee
어드밴스드 마이크로 디바이시즈, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 어드밴스드 마이크로 디바이시즈, 인코포레이티드 filed Critical 어드밴스드 마이크로 디바이시즈, 인코포레이티드
Publication of KR20240004301A publication Critical patent/KR20240004301A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L25/00Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof
    • H01L25/03Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes
    • H01L25/04Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes the devices not having separate containers
    • H01L25/065Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes the devices not having separate containers the devices being of a type provided for in group H01L27/00
    • H01L25/0652Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof all the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N, e.g. assemblies of rectifier diodes the devices not having separate containers the devices being of a type provided for in group H01L27/00 the devices being arranged next and on each other, i.e. mixed assemblies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4004Coupling between buses
    • G06F13/4027Coupling between buses using bus bridges
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L25/00Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof
    • H01L25/18Assemblies consisting of a plurality of individual semiconductor or other solid state devices ; Multistep manufacturing processes thereof the devices being of types provided for in two or more different subgroups of the same main group of groups H01L27/00 - H01L33/00, or in a single subclass of H10K, H10N
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L2225/00Details relating to assemblies covered by the group H01L25/00 but not provided for in its subgroups
    • H01L2225/03All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00
    • H01L2225/04All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00 the devices not having separate containers
    • H01L2225/065All the devices being of a type provided for in the same subgroup of groups H01L27/00 - H01L33/648 and H10K99/00 the devices not having separate containers the devices being of a type provided for in group H01L27/00
    • H01L2225/06503Stacked arrangements of devices
    • H01L2225/06513Bump or bump-like direct electrical connections between devices, e.g. flip-chip connection, solder bumps

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Theoretical Computer Science (AREA)
  • Power Engineering (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Semiconductor Integrated Circuits (AREA)
  • Microcomputers (AREA)

Abstract

다중 다이 병렬 프로세서 반도체 패키지는 제1 베이스 IC 다이의 상단에 3D 적층된 제1 복수의 가상 계산 다이([212])를 포함하는 제1 베이스 IC 다이([204])를 포함한다. 병렬 처리 파이프라인 로직의 제1 서브세트는 제1 복수의 가상 계산 다이에 위치된다. 추가적으로, 병렬 처리 파이프라인 로직의 제2 서브세트는 제1 베이스 IC 다이에 위치된다. 다중 다이 병렬 프로세서 반도체 패키지는 또한 제2 베이스 IC 다이의 상단에 3D 적층된 제2 복수의 가상 계산 다이를 포함하는 제2 베이스 IC 다이([206])를 포함한다. 능동 브리지 칩([210])은 제1 베이스 IC 다이의 제1 상호연결 구조를 제2 베이스 IC 다이의 제1 상호연결 구조에 통신 가능하게 결합한다.

Description

모듈식 병렬 프로세서를 위한 다이 적층
2 개 이상의 집적 회로(IC 또는"칩") 가 서로 상호작동하도록 구성되는 다중 칩 집적은 다중 칩 모듈, 패키지 내의 시스템, 및 3차원 칩 적층을 사용하는 것과 같은 다양한 기술을 포함한다. 일부 종래의 다중 칩 모듈은 캐리어 기판 또는 일부 경우에 캐리 기판 상에 차례로 장착되는 인터포저(소위 "2.5D") 상에 나란히 장착된 2개 이상의 반도체 칩을 포함한다.유사하게, 적층형 반도체 칩 아키텍처는 칩 사이에, 칩과 패키지 사이에, 그리고 패키지와 인쇄 회로 기판 사이에 하나 이상의 상호연결 구조를 갖는 집적 회로 설계를 포함한다.
본 개시내용은 첨부 도면들을 참조하여 당업자들에게 더 잘 이해될 수 있고, 이의 많은 특징들 및 이점들이 분명해진다. 상이한 도면들에서의 동일한 참조 부호들의 사용은 유사하거나 동일한 항목들을 나타낸다.
도 1은 일부 구현예에 따른 다중 다이 병렬 프로세서를 구현하는 컴퓨팅 시스템(computing system)의 블록도이다.
도 2는 일부 구현예에 따른 다중 다이 병렬 프로세서의 평면도를 예시하는 블록도이다.
도 3은 일부 구현예에 따른 다중 다이 병렬 프로세서의 단면도를 예시하는 블록도이다.
도 4는 일부 구현예에 따른 그래픽 처리 적층형 다이 칩릿의 일 예의 블록도이다.
도 5는 일부 구현예에 따른 그래픽 처리 적층형 다이 칩릿을 이용하는 예시적인 그래픽 프로세서 다중 칩 모듈을 예시하는 블록도이다.
도 6은 일부 구현예에 따른 그래픽 처리 적층형 다이 칩릿의 또 다른 예를 예시하는 블록도이다.
도 7은 일부 구현예에 따른 그래픽 처리 적층형 다이 칩릿을 이용하는 그래픽 프로세서 다중 칩 모듈의 또 다른 예를 예시하는 블록도이다.
그래픽 처리 유닛(GPU) 또는 다른 병렬 처리 유닛과 같은, 처리 유닛은 통상적으로 제조하는 데에 점점 더 많은 비용이 드는 다이 상에 배치된 모놀리식 디바이스로서 제조된다. 처리 기술에서의 진보가 집적 회로(IC) 상에 제조될 계속 증가하는 수의 구성요소를 허용하므로, 산업계는 각각의 패키징된 집적 회로에 대해 더 많은 회로 디바이스를 집적하기 위해 끊임없이 노력하고 있다. 그러나, 반도체 칩의 제조는 많은 공정 단계를 수반하고, 모든 단계에서, 제조된 IC에서 하나 이상의 결함(또는 설계 사양에 대한 다른 변화)을 초래하는 불완전성, 가변성, 및 정렬 문제가 있을 수 있다. 그러한 제조 결함은 결함을 갖는 칩을 생산할 수 있고, 최종 제품의 폐기를 필요로 하는 동작불가능한 칩을 야기한다.
패키징된 IC로부터 더 많은 회로 디바이스 및 더 많은 성능을 허용하는 하나의 기술은 다중 칩 모듈(MCM) 기술의 사용을 통한 것이다. MCM은 단일 IC 다이 상에 형성된 회로 디바이스의 복수의 개별 모듈을 통합한다. 다양한 MCM 구성요소는 MCM이 단일 구성요소로서 동작하도록 통합 기판(unifying substrate) 상에 집적된다. 다중 칩 모듈은 복잡도에 따라 다양한 형태로 나오며, 이는 기존 칩 패키지의 패키지 풋프린트를 모방하도록 배열된 인쇄 회로 기판(PCB) 상의 미리 패키징된 IC를 사용하는 범위에 걸칠 수 있다. MCM은 더 작은 IC 구성요소와 함께 복잡한 IC를 피싱함으로써 고도로 복잡한 IC의 수율을 증가시키는 장점을 갖는다. 이러한 방식으로, 일어나는 결함은 단일 큰 복합 다이보다는 MCM의 개별 구성요소에 영향을 미친다. 더 큰 다이에 영향을 미치는 결함에는 훨씬 더 많은 비용이 든다.
이러한 문제들을 처리하고 개선된 시스템 성능을 가능하게 하기 위해, 도 1 내지 도 7은 더 큰 모놀리식 프로세서에 비해 유사한 성능을 갖는 디바이스를 형성하기 위해 함께 통신가능하게 스티칭된 다수의 3D 다이 적층형 빌딩 블록을 이용하는 시스템 및 디바이스를 설명한다. 다양한 구현예에서, 다중 다이 병렬 프로세서 반도체 패키지는 제1 베이스 IC 다이의 상단에 3D 적층된 제1 복수의 가상 계산 다이를 포함하는 제1 베이스 IC 다이를 포함한다. 병렬 처리 파이프라인 로직의 제1 서브세트는 제1 복수의 가상 계산 다이에 위치된다. 추가적으로, 병렬 처리 파이프라인 로직의 제2 서브세트는 제1 베이스 IC 다이에 위치된다. 다중 다이 병렬 프로세서는 또한 제2 베이스 IC 다이의 상단에 3D 적층된 제2 복수의 가상 계산 다이를 포함하는 제2 베이스 IC 다이를 포함한다. 능동 브리지 칩은 제1 베이스 IC 다이의 제1 상호연결 구조를 제2 베이스 IC 다이의 제1 상호연결 구조에 통신가능하게 결합한다. 이러한 방식으로, 더 많은 수의 더 작은 풋프린트 베이스 다이는 실리콘 웨이퍼로부터 제조될 수 있다. 결함을 포함하는 더 작은 다이의 서브세트는 나머지 양호한 다이(즉, 비결함 다이) 위에 처리 유닛(예를 들어, 가상 계산 다이)을 형성하기 전에 폐기되며, 이에 따라 결함이 있는 큰 복합 다이로 인해 적층된 디바이스를 스크레이핑하는 것과 연관된 비용을 감소시킨다.
도 1은 일부 구현예에 따른 다중 다이 병렬 프로세서를 구현하는 컴퓨팅 시스템(100)의 일 구현예의 블록도를 예시한다. 다양한 구현예에서, 컴퓨팅 시스템(100)은 적어도 하나 이상의 프로세서(102A 내지 102N), 패브릭(104), 입력/출력(I/O) 인터페이스(106), 메모리 제어기(들)(108), 디스플레이 제어기(110), 및 다른 디바이스(들)(112)를 포함한다. 다양한 구현예에서, 그래픽 및 다른 유형의 작업부하에 대한 명령어의 실행을 지원하기 위해, 컴퓨팅 시스템(100)은 또한 중앙 처리 유닛(CPU) 과 같은 호스트 프로세서(114)를 포함한다. 다양한 구현예에서, 컴퓨팅 시스템(100)은 컴퓨터, 랩탑, 모바일 디바이스, 서버 또는 임의의 다양한 다른 유형의 컴퓨팅 시스템 또는 디바이스를 포함한다. 컴퓨팅 시스템(100)의 구성요소의 수는 일부 구현예에 따라 달라진다는 점에 유의한다. 일부 구현예에서, 컴퓨팅 시스템(100)은 도 1에 도시되지 않은 다른 구성요소를 포함한다는 점에 또한 유의한다. 추가적으로, 다른 구현예에서, 컴퓨팅 시스템(100)은 도 1에 도시된 것과 다른 방식으로 구조화된다.
패브릭(104)은 컴퓨팅 시스템(100)의 구성요소 사이에서 통신하기 위해 이용되는 다양한 유형의 프로토콜 중 임의의 것을 준수하는 임의의 통신 상호연결을 나타낸다. 패브릭(104)은 처리 유닛(102), I/O 인터페이스(106), 메모리 제어기(들)(108), 디스플레이 제어기(110), 및 다른 디바이스(들)(112)를 서로 연결하는 데이터 경로, 스위치, 라우터, 및 다른 로직을 제공한다. 패브릭(104)은 일관성을 용이하게 하기 위해 프로브 트래픽뿐만 아니라, 요청, 응답, 및 데이터 트래픽을 핸들링한다. 패브릭(104)은 또한 컴퓨팅 시스템(100)의 다양한 구성요소에 대한 인터럽트 요청 라우팅 및 구성 액세스 경로를 핸들링한다. 추가적으로, 패브릭(104)은 구성 요청, 응답, 및 구성 데이터 트래픽을 핸들링한다. 일부 구현예에서, 패브릭(104)은 공유 버스 구성, 크로스바 구성, 및 브리지를 갖는 계층구조 버스를 포함하는 버스 기반이다. 다른 구현예에서, 패브릭(104)은 패킷 기반, 및 브리지, 크로스바, 포인트 대 포인트, 또는 다른 상호연결을 갖는 계층구조이다. 패브릭(104)의 관점에서, 컴퓨팅 시스템(100)의 다른 구성요소는 "클라이언트"로 지칭된다. 패브릭(104)은 다양한 클라이언트에 의해 발생된 요청을 처리하고 요청을 다른 클라이언트에 전달하도록 구성된다.
메모리 제어기(들)(108)는 임의의 수 및 유형의 메모리 디바이스(들)에 결합된 임의의 수 및 유형의 메모리 제어기를 나타낸다. 예를 들어, 메모리 제어기(들)(108)에 결합된 메모리 디바이스(들)의 유형은 동적 랜덤 액세스 메모리(DRAM), 정적 랜덤 액세스 메모리(SRAM), NAND 플래시 메모리, NOR 플래시 메모리, 강유전성 랜덤 액세스 메모리(FeRAM), 및 기타를 포함한다. 메모리 제어기(들)(108)는 프로세서(102), I/O 인터페이스(106), 디스플레이 제어기(110), 및 다른 디바이스(들)(112)에 의해, 패브릭(104)을 통해 액세스가능하다. I/O 인터페이스(106)는 임의의 수 및 유형의 I/O 인터페이스(예를 들어, 주변 구성요소 상호연결(PCI) 버스, PCI-확장(PCI-X), PCIE(PCI Express) 버스, 기가비트 이더넷(GBE) 버스, 범용 직렬 버스(USB))를 나타낸다. 다양한 유형의 주변 디바이스는 I/O 인터페이스(106)에 결합된다. 이러한 주변 디바이스는 디스플레이, 키보드, 마우스, 프린터, 스캐너, 조이스틱 또는 다른 유형의 게임 제어기, 매체 기록 디바이스, 외부 저장 디바이스, 네트워크 인터페이스 카드 등을 포함한다(그러나, 이들에 제한되지 않음). 다른 디바이스(들)(112)는 임의의 수 및 유형의 디바이스(예를 들어, 멀티미디어 디바이스, 비디오 코덱)를 나타낸다.
다양한 구현예에서, 프로세서(102) 각각은 병렬 프로세서(예를 들어, 벡터 프로세서, 그래픽 처리 유닛(GPU), 범용 GPU(GPGPU), 논-스칼라 프로세서, 고병렬 프로세서, 인공 지능(AI) 프로세서, 추론 엔진, 기계 학습 프로세서, 다른 멀티스레드 처리 유닛 등)이다. 각각의 병렬 프로세서(102)는 병렬 프로세서가 단일 반도체 집적 회로와 같이 사용가능하도록(예를 들어, 어드레싱가능하도록) 브리지 칩(들)과 함께 통신가능하게 결합된(도 2와 관련하여 아래에서 더 상세히 설명되는) 2개 이상의 베이스 집적 회로 다이를 포함하는 다중 칩 모듈(예를 들어, 반도체 다이 패키지)로 구성된다. 본 개시내용에 사용되는 바와 같이, 용어"다이" 및 "칩"은 상호교환가능하게 사용된다. 당업자는 종래의(예를 들어, 멀티 칩이 아닌) 반도체 집적 회로가 웨이퍼로서 또는 웨이퍼 내에 형성되고 (예를 들어, 웨이퍼가 다이싱될 때) 나중에 웨이퍼로부터 분리되는 다이(예를 들어, 단일 칩 IC)로서 제조되고; 다수의 IC는 종종 웨이퍼에서 동시에 제조된다는 것을 인식할 것이다. IC 및 가능하게는 이산 회로 및 가능하게는 다른 구성요소(예컨대, 인쇄 회로 기판, 인터포저, 및 가능하게는 다른 것을 포함하는 비반도체 패키징 기판)는 다중 다이 병렬 프로세서 내에 조립된다.
따라서, 아래의 도 2 내지 도 7과 관련하여 더 상세히 설명되는 바와 같이, 다양한 구현예에서, 개별 병렬 프로세서(102) 각각은 더 큰 모놀리식 프로세서에 비해 유사한 성능을 갖는 디바이스를 형성하기 위해 능동 브리지 칩과 함께 통신가능하게 결합된 2개 이상의 병렬 처리 적층형 다이 칩릿을 포함한다. 다양한 구현예가 예시 및 설명의 용이함을 위해 GPU의 특정 맥락에서 후술되지만, 다양한 구현예에서, 다수의 별개의 다이 내로의 GPU 처리 파이프라인 구성요소의 조직화는 본 개시내용의 범위로부터 벗어남이 없이 임의의 병렬 프로세서에 적용가능하다는 것을 인식해야 한다. 예를 들어, 다양한 구현예에서, 여기에 설명된 개념은 또한 가속 처리 유닛(APU), 이산 GPU(dGPU), 인공 지능(AI) 가속기, 다른 병렬 프로세서, 중앙 처리 유닛(CPU) 등을 포함하는 다른 프로세서에 유사하게 적용가능하다.
이제 도 2를 참조하면, 일부 구현예에 따른 병렬 프로세서 MCM(202)의 평면도(200)를 예시하는 블록도가 예시된다. 병렬 프로세서 MCM(202)(예를 들어, 도 1의 프로세서(102))은 N 개의 베이스 다이를 포함하는 단일 반도체 칩 패키지로 형성된다.평면도(200)에 도시된 바와 같이, 병렬 프로세서(MCM 202)는 제1 베이스 IC 다이(204) 및 제2 베이스 IC 다이(206)를 포함한다. 제1 베이스 IC 다이(204)는 제1 베이스 IC 다이(204)의 적어도 제1 에지(일반적으로 "비치프런트"로 지칭됨)를 따르는 다이간 상호연결 구조(208)를 포함한다. 유사하게, 제2 베이스 IC 다이(206)는 또한 제2 베이스 IC 다이(206)의 적어도 제1 에지를 따르는 다이간 상호연결 구조(208)를 포함한다.
다양한 구현예에서, 병렬 프로세서 MCM(202)은 그들의 각각의 다이간 상호연결 구조(208)를 통해 제1 베이스 IC 다이(204)를 제2 베이스 IC 다이(206)에 통신가능하게 결합하는 브리지 칩(210)을 포함한다. 다양한 구현예에서, 브리지 칩(210)은 수동 또는 능동이며, 여기서 브리지 칩(210)은 단지 데이터/전기 연결부를 포함하거나 주어진 브리지 칩(210)은 그 자체의 로직을 포함한다. 예를 들어, 일부 구현예에서, 브리지 칩(210)은 제1 베이스 IC 다이(204)와 제2 베이스 IC 다이(206) 사이의 고대역폭 다이-대-다이 상호연결부로서 동작하기 위해 활성 실리콘을 갖는 능동 브리지 칩이다. 다른 구현예에서, 브리지 칩(210)은 수동 칩이다.
일부 구현예에서, 능동 브리지 칩(210)은 하나 이상의 캐시 버퍼를 포함하고, 따라서, 비치프런트 에지 연결을 확장하면서, 여전히 베이스-다이간 통신을 제공하고 메모리 물리 인터페이스(PHY)에 대한 필요 없이 교차 다이 동기화 신호를 라우팅한다. 캐시는 자연적으로 능동 구성요소이므로(즉, 동작을 위해 전력을 필요로 함), 브리지 칩(210)은 그러한 캐시 버퍼를 유지하기 위해 능동이다. 캐시 사이징은 예를 들어, 상이한 베이스 다이 구성과 함께 상이한 적용에 대해, 능동 브리지 칩(210)의 물리적 크기의 함수로서 구성가능하고, 능동 브리지 칩(210)이 통신가능하게 결합된 베이스 다이(들)는 브리지 칩(210) 상에 이러한 외부 캐시의 비용(예를 들어, 물리적 공간, 전력 제약 등과 관련된 비용)을 지불하지 않는다.
다양한 구현예에서, 브리지 칩(210)은 2개의 논리 칩을 함께 통신가능하게 결합하는 자유 병진에서 작은 규소 접합을 제공하고, (예를 들어, 베이스 IC 다이(204,206)를 공통 인터포저 기판에 장착하고 인터포저가 종종 전체 조립체의 범위에 걸쳐 있는 통상적인 2.5D 토폴로지에 의해 제공되는 것과 같은, 다이간 통신을 위한 인터포저에 의해 제공되는 전기 연결에 전적으로 의존하는 것과 대조적으로) 제한된 물리적 범위를 갖는 2개의 다이의 인접한 에지 사이에 다이간 연결을 제공하는 로컬 실리콘 상호연결(LSI)을 포함한다.이러한 방식으로, 중간 브리지 칩(210)은 다수의 베이스 IC 다이(예를 들어, 제1 베이스 IC 다이(204) 및 제2 베이스 IC 다이(206))를 함께 통신가능하게 결합한다.
도 2에 도시된 바와 같이, 병렬 프로세서 MCM(202)은 제1 베이스 IC 다이(204)의 상단에 적층된 2개의 가상 병렬 처리 유닛(vPPU) 다이(212)(이하, 용어의 용이성을 위해 "가상 계산 다이"로 지칭됨) 를 포함한다. 유사하게, 병렬 프로세서 MCM(202)은 또한 제2 베이스 IC 다이(206)의 상단에 적층된 2개의 가상 계산 다이(212)를 포함한다. vPPU/가상 계산 다이(212)는 물리적 병렬 처리 유닛이 복수의 vPPU로 분할된다는 의미에서 "가상 "이다. 다양한 구현예에서, 각각의 vPPU 다이(12)는 리소스(예를 들어, 프레임 버퍼)의 공유(종종 동일한 공유) 및 물리적 병렬 처리 유닛의 병렬 처리 능력을 포함한다. 다양한 구현예에서, 계산 파이프라인은 베이스 다이(예를 들어, 제1 베이스 IC 다이(204) 및 제2 베이스 IC 다이(206))와 적층형 계산 다이(예를 들어, 가상 계산 다이(212) 사이에서 분할된다.
예를 들어, GPU의 맥락에서 도 4와 관련하여 더 상세히 후술되는 바와 같이, 다양한 구현예에서, 각각의 vPPU 다이(212)는 병렬 처리 파이프라인 마이크로아키텍처의 적어도 일부를 포함하는 셰이더 엔진 다이(SED)이다. 다양한 구현예에서, SED는 셰이더 시스템(또는 전체 셰이더 엔진), 픽셀 파이프, 기하구조 파이프 등을 포함한다. 그러나, 커맨드 프로세서와 같은, 그래픽 처리 파이프라인의 적어도 일부는 베이스 IC 다이에 유지된다. 공통 인터포저의 상단에 계산 코어를 단지 적층하기보다는, 베이스 다이는 또한 2개 이상의 별개의 칩(예를 들어, 제1 베이스 IC 다이(204) 및 제2 베이스 IC 다이(206))으로 분할된다. 병렬 프로세서 MCM 아키텍처의 추가 세부사항은 일부 구현예에 따른 다중 다이 병렬 프로세서의 단면도를 예시하는 블록도인 도 3을 참조하여 이해될 수 있다. 뷰(300)는 제1 베이스 IC 다이(204) 및 그의 적층형 가상 계산 다이(212), 제2 베이스 IC 다이(204) 및 그의 적층형 가상 계산 다이(212), 및 섹션 A-A에서 취해진 도 2의 브리지 칩(210)의 단면도를 제공한다.
도 2에 도시된 바와 같은 다양한 구현예에서, 베이스 IC 다이(204)는 베이스 IC 다이(206)와 동일하다. 다른 구현예에서, 베이스 IC 다이(204)는 베이스 IC 다이(206)의 구조와 상이한 구조를 갖는다. 추가적으로, 다양한 구현예에서, 베이스 IC 다이는 베이스 IC 다이의 병진(또는 회전) 이 서로 결합하기 위한 모듈식 빌딩 블록, 메모리 다이, 다른 시스템 온 칩(SoC) 다이 등으로서 베이스 IC 다이(및 대응하는 적층형 계산 다이)를 제공할 시에 유연성을 증가시키는 베이스 IC 다이의 에지(예를 들어, 비치프런트)에서 상호연결 구조를 변경하지 않도록 대칭이다. 다양한 구현예에서, 베이스 IC 다이는 다른 다이에 통신가능하게 결합하기 위한 제2 칩간 상호연결 구조(208), 물리 계층(PHY) 인터페이스 등과 같은 하나 이상의 추가적인 상호연결 구조를 포함한다는 것을 이해해야 한다. 이러한 방식으로, 높은 처리량 상호연결부(예를 들어, 브리지 칩(210)과 같은 실리콘 브리지)는 모듈식 구성요소로서 다수의 베이스 다이(예를 들어, 베이스 IC 다이(204,206))를 서로 링크시키고, 다수의 다이 사이의 동작을 조정하기 위한 협력 커맨드 프로세서를 사용하여 더 큰 모놀리식 GPU에 필적하는 성능을 갖는 디바이스를 형성한다.
도 4는 일부 구현예에 따른 예시적인 그래픽 처리 적층형 다이 칩릿의 블록도이다. 평면도(400)에 도시된 바와 같이, 그래픽 처리 적층형 다이 칩릿(402)은 베이스 능동 인터포저 다이(404)를 포함한다. 그래픽 처리 적층형 다이 칩릿(402)이 예시 및 설명의 용이함을 위해 GPU 용어의 특정 맥락에서 후술되지만, 다양한 구현예에서, 설명된 아키텍처는 본 개시내용의 범위로부터 벗어남이 없이 (예컨대, 이전에 도 2 및 도 3을 참조하여 더 광범위하게 설명된) 다양한 유형의 병렬 프로세서 중 임의의 것에 적용가능하다는 것을 인식해야 한다. 추가적으로, 다양한 구현예에서, 그리고 본원에 사용되는 바와 같이, 용어 "칩릿"은 다음의 특성을 포함하지만 이에 제한되지 않는 임의의 디바이스를 지칭한다: 1) 칩릿은 전체 문제를 해결하는 데 사용되는 계산 로직의 적어도 일부를 포함하는 활성 실리콘 다이를 포함하고(즉, 계산 작업부하는 이들 다수의 활성 실리콘 다이에 걸쳐 분산됨); 2) 칩릿은 동일한 기판 상에 모놀리식 유닛으로서 함께 패키징되고; 3) 프로그래밍 모델은 이들 별개의 계산 다이(즉, 그래픽 처리 적층형 다이 칩릿(402))의 조합이 단일 모놀리식 유닛이라는 개념을 보존한다(즉, 각각의 칩릿은 계산 작업부하를 처리하기 위해 칩릿을 사용하는 적용에 별개의 디바이스로서 노출되지 않음).
그래픽 처리 적층형 다이 칩릿(402)의 베이스 능동 인터포저 다이(AID)(404)(도 2의 제1 베이스 IC 다이(204)와 유사함)는 베이스 능동 인터포저 다이(404)의 적어도 제1 에지(일반적으로 "비치프런트"로 지칭됨)를 따르는 다이간 상호연결 구조(408)를 포함한다. 추가적으로, 그래픽 처리 적층형 다이 칩릿(402)은 능동 인터포저 다이(404) 위에 형성된 복수의 셰이더 엔진 다이(SED)(412)(도 2의 가상 계산 다이(212)와 유사하지만, 다양한 구현예에서, 임의의 적절한 병렬 처리 유닛을 포함함)를 포함한다. 2 개의 SED(412)를 포함하는 것으로 예시되지만, 당업자는 임의의 수의 처리 유닛이 능동 인터포저 다이(404) 상에 적층된 처리 유닛 층 내에 위치될 수 있는 것을 인식할 것이다. 이러한 구성에서, 종래의 그래픽 복합 다이(GCD: graphics complex die)의 일부는 능동 인터포저 다이(404)의 상단 상의 층 내에 복수의 셰이더 엔진 다이(412)를 위치시킴으로써 3D 다이 적층 방법에 기초하여 제2 바닥까지 푸시된다.
다양한 구현예에서, 각각의 셰이더 엔진 다이(412)는 리소스의 공유(종종 동일한 공유) 및 GPU의 그래픽 처리 능력을 포함하지만, 전체 그래픽 파이프라인을 포함하지 않는다. 특히, 셰이더 엔진 다이(412)는 그래픽 처리 파이프라인 마이크로아키텍처의 적어도 일부를 포함한다. 예를 들어, 일부 구현예에서, 셰이더 엔진 다이(412)는 셰이더 시스템(도시되지 않음), 픽셀 파이프(도시되지 않음), 기하구조 로직(도시되지 않음) 등을 포함한다. 그러나, 커맨드 프로세서(406)와 같은, 그래픽 처리 파이프라인의 적어도 일부는 기초 베이스 능동 인터포저 다이(404) 내에 위치된다. 추가적으로, 다양한 구현예에서, 베이스 능동 인터포저 다이(404)는 동적 랜덤 액세스 메모리(DRAM) 모듈과 같은 외부 시스템 메모리(도시되지 않음)와 통신하기 위해 하나 이상의 레벨의 캐시 메모리(410) 및 하나 이상의 메모리 제어기 PHY(414)를 포함한다. 메모리 제어기(도시되지 않음) 및 메모리 제어기 PHY(414)는 다른 구현예에서, 베이스 능동 인터포저 다이(404)로부터 별개의 다이 상에 제공된다.
즉, 다양한 캐시 및 상호연결성 구성요소는 베이스 능동 인터포저 다이(404)에 위치된다(반면, 고전력 능동 처리 구성요소는 적층형 SED(412) 내에 위치됨). 추가적으로, 다수의 SED(412)를 함께 제어하는 로직(예를 들어, 커맨드 프로세서(406))과 같은, 그래픽 파이프라인 로직의 적어도 일부는 또한 베이스 능동 인터포저 다이(404)에 위치된다. 이러한 방식으로, 능동 인터포저 다이(404)는 캐시 및 다수의 SED(412)를 함께 제어하여 기하구조 상태 및 커맨드 처리를 위한 데이터를 제어하는 로직을 포함한다. 능동 인터포저 다이(404) 및 복수의 SED(412)의 이러한 기능적 그룹화는 그래픽 처리 적층형 다이 칩릿(402)을 함께 형성한다(또는 요약해서 "GPU 칩릿"으로 지칭될 수 있음).
이제 도 5를 참조하면, 일부 구현예에 따른 그래픽 처리 적층형 다이 칩릿을 이용하는 그래픽 프로세서 MCM(502)의 평면도(500)의 블록도가 예시된다. 그래픽 프로세서 MCM(502)(도 2의 병렬 프로세서 MCM(202)과 유사함)은 도 4의 N=2 수의 통신가능하게 결합된 그래픽 처리 적층형 다이 칩릿(402)을 포함하는 단일 반도체 칩 패키지로 형성된다. 평면도(500)에 도시된 바와 같이, 그래픽 프로세서 MCM(502)은 제1 그래픽 처리 적층형 다이 칩릿(402a) 및 제2 그래픽 처리 적층형 다이 칩릿(402b)을 포함한다.
다양한 구현예에서, 그래픽 프로세서 MCM(502)은 그들의 각각의 다이간 상호연결 구조(408)를 통해 제1 그래픽 처리 적층형 다이 칩릿(402a)을 제2 그래픽 처리 적층형 다이 칩릿(402b)에 통신가능하게 결합하는 브리지 칩(504)을 포함한다. 다양한 구현예에서, 브리지 칩(504)은 수동 또는 능동이며, 여기서 브리지 칩(504)은 단지 데이터/전기 연결부를 포함하거나 주어진 브리지 칩(504)은 그 자체의 로직을 포함한다. 예를 들어, 일부 구현예에서, 브리지 칩(504)은 제1 그래픽 처리 적층형 다이 칩릿(402a) 과 제2 그래픽 처리 적층형 다이 칩릿(402b) 사이의 고대역폭 다이-대-다이 상호연결부로서 동작하기 위해 활성 실리콘을 갖는 능동 브리지 칩이다. 다른 구현예에서, 브리지 칩(504)은 수동 칩이다.
일부 구현예에서, 능동 브리지 칩(504)은 하나 이상의 캐시 버퍼를 포함하고, 따라서, 비치프런트 에지 연결을 확장하면서, 여전히 베이스-다이간 통신을 제공하고 교차 다이 동기화 신호를 라우팅한다. 캐시는 자연적으로 능동 구성요소이므로(즉, 동작을 위해 전력을 필요로 함), 브리지 칩(504)은 그러한 캐시 버퍼를 유지하기 위해 능동이다. 캐시 사이징은 예를 들어, 상이한 적층형 다이 칩릿 구성과 함께 상이한 적용에 대해, 능동 브리지 칩(504)의 물리적 크기의 함수로서 구성가능하고, 능동 브리지 칩(504)이 통신가능하게 결합된 적층형 다이 칩릿(들)은 브리지 칩(504) 상에 이러한 외부 캐시의 비용(예를 들어, 물리적 공간, 전력 제약 등과 관련된 비용)을 지불하지 않는다.
다양한 구현예에서, 브리지 칩(504)은 2개의 논리 칩을 함께 통신가능하게 결합하는 자유 병진에서 작은 규소 접합을 제공하고, (예를 들어, 적층형 다이 칩릿(402)을 공통 인터포저 기판에 장착하고 인터포저가 종종 전체 조립체의 범위에 걸쳐 있는 통상적인 2.5D 토폴로지에 의해 제공되는 것과 같은, 다이간 통신을 위한 인터포저에 의해 제공되는 전기 연결에 전적으로 의존하는 것과 대조적으로) 제한된 물리적 범위를 갖는 2개의 다이의 인접한 에지 사이에 다이간 연결을 제공하는 로컬 실리콘 상호연결(LSI)을 포함한다.이러한 방식으로, 중간 브리지 칩(504)은 다수의 적층형 다이 칩릿(예를 들어, 제1 그래픽 처리 적층형 다이 칩릿(402a) 및 제2 그래픽 처리 적층형 다이 칩릿(402b))을 함께 통신가능하게 결합한다. 추가적으로, 다양한 구현예에서, 브리지 칩(504)은 메모리의 공통 뷰를 제공하기 위해 2개의 적층형 다이 칩릿 사이에 데이터 패브릭(도시되지 않음)을 운반한다.
단일 패키지에서 함께, 다수의 그래픽 처리 적층형 다이 칩릿(예를 들어, 제1 그래픽 처리 적층형 다이 칩(402a) 및 제2 그래픽 처리 적층형 다이 칩릿(402b))의 결합은 단일 큰 그래픽 복합 다이(GCD)로서 효과적으로 동작하지만 더 작은 모듈식 다이 구성요소로부터 구성되는 디바이스를 초래한다. 다양한 구현예에서, 그래픽 프로세서 MCM(502)은 그래픽 처리 적층형 다이 칩릿의 메모리 제어기 PHY(414)를 통해 하나 이상의 외부 시스템 메모리 모듈(506)에 통신가능하게 결합된다. 추가적으로, 일부 구현예에서, 그래픽 프로세서 MCM(502)은 또한 멀티미디어에 입력/출력(I/O) 로직을 포함하고, I/O 다이(MID)(508)는 그래픽 처리 적층형 다이 칩릿(402)과 별개이다.
당업자는 그래픽 처리 적층형 다이 칩릿의 결합으로부터 기인하는 후속 MCM의 모듈성 및 확장성이 다른 인자 중에서, 적어도 그래픽 처리 적층형 다이 칩릿의 에지를 따른 상호연결 구조의 수 및 각각의 그래픽 처리 적층형 다이 칩릿의 상단에 3D 적층된 셰이더 엔진 다이(또는 다른 가상 계산 다이)의 수에 기초하는 함수라는 것을 인식할 것이다. 이제 도 6을 참조하면, 일부 구현예에 따른 그래픽 처리 적층형 다이 칩릿의 또 다른 예가 예시된다. 평면도(600)에 도시된 바와 같이, 그래픽 처리 적층형 다이 칩릿(602)은 베이스 능동 인터포저 다이(604)를 포함한다. 그래픽 처리 적층형 다이 칩릿(602)이 예시 및 설명의 용이함을 위해 GPU 용어의 특정 맥락에서 후술되지만, 다양한 구현예에서, 설명된 아키텍처는 본 개시내용의 범위로부터 벗어남이 없이 (예컨대, 이전에 도 2 및 도 3을 참조하여 더 광범위하게 설명된) 다양한 유형의 병렬 프로세서 중 임의의 것에 적용가능하다는 것을 인식해야 한다. 추가적으로, 다양한 구현예에서, 그리고 본원에 사용되는 바와 같이, 용어 "칩릿"은 다음의 특성을 포함하지만 이에 제한되지 않는 임의의 디바이스를 지칭한다: 1) 칩릿은 전체 문제를 해결하는 데 사용되는 계산 로직의 적어도 일부를 포함하는 활성 실리콘 다이를 포함하고(즉, 계산 작업부하는 이들 다수의 활성 실리콘 다이에 걸쳐 분산됨); 2) 칩릿은 동일한 기판 상에 모놀리식 유닛으로서 함께 패키징되고; 3) 프로그래밍 모델은 이들 별개의 계산 다이(즉, 그래픽 처리 적층형 다이 칩릿(402))의 조합이 단일 모놀리식 유닛이라는 개념을 보존한다(즉, 각각의 칩릿은 계산 작업부하를 처리하기 위해 칩릿을 사용하는 적용에 별개의 디바이스로서 노출되지 않음).
그래픽 처리 적층형 다이 칩릿(602)의 베이스 능동 인터포저 다이(AID)(604)(도 2의 제1 베이스 IC 다이(204)와 유사함)는 베이스 능동 인터포저 다이(604)의 제1 에지(일반적으로 "비치프런트"로 지칭됨)를 따르는 제1 다이간 상호연결 구조(608a)를 포함한다. 추가적으로, 그래픽 처리 적층형 다이 칩릿(602)은 베이스 능동 인터포저 다이(604)의 제2 에지를 따르는 제2 다이간 상호연결 구조(608b)를 포함한다. 제1 에지를 따른 제1 다이간 상호연결 구조(608a)가 베이스 능동 인터포저 다이(604)의 제2 에지를 따른 제2 다이간 상호연결 구조(608b)에 대해 평행하게 위치된 것으로 도 6에 예시되지만, 당업자는 다양한 구현예에서, 제1 다이간 상호연결 구조(608a)가 또한 (예를 들어, 다이(604)의 좌측 에지 및 상단/하단 에지를 따라) 공간 내에 상대적으로 수직으로 위치되는 베이스 능동 인터포저 다이(604)의 에지를 따라 위치될 수 있음을 인식할 것이다. 추가적으로, 일부 구현예에서, 베이스 능동 인터포저 다이(604)는 베이스 능동 인터포저 다이(604)의 다른 비치프런트 에지를 따르는 3개 이상의 상호연결 구조를 포함한다.
그래픽 처리 적층형 다이 칩릿(602)은 능동 인터포저 다이(604) 위에 형성된 복수의 셰이더 엔진 다이(SED)(612)(도 2의 가상 계산 다이(212)와 유사하지만, 다양한 구현예에서, 임의의 적절한 병렬 처리 유닛을 포함함)를 포함한다. 3 개의 SED(612)를 포함하는 것으로 예시되지만, 당업자는 임의의 수의 처리 유닛이 능동 인터포저 다이(604) 상에 적층된 처리 유닛 층 내에 위치될 수 있는 것을 인식할 것이다. 이러한 구성에서, 종래의 그래픽 복합 다이(GCD) 의 일부는 능동 인터포저 다이(604)의 상단 상의 층에 복수의 셰이더 엔진 다이(612)를 위치시킴으로써 3D 다이 적층 방법에 기초하여 제2 바닥까지 푸시된다.
다양한 구현예에서, 각각의 셰이더 엔진 다이(612)는 리소스의 공유(종종 동일한 공유) 및 GPU의 그래픽 처리 능력을 포함하지만 전체 그래픽 파이프라인을 포함하지 않는다. 특히, 셰이더 엔진 다이(612)는 그래픽 처리 파이프라인 마이크로아키텍처의 적어도 일부를 포함한다. 예를 들어, 일부 구현예에서, 셰이더 엔진 다이(612)는 셰이더 시스템(도시되지 않음), 픽셀 파이프(도시되지 않음), 기하구조 로직(도시되지 않음) 등을 포함한다. 그러나, 커맨드 프로세서(606)와 같은, 그래픽 처리 파이프라인의 적어도 일부는 기초 베이스 능동 인터포저 다이(604) 내에 위치된다. 추가적으로, 다양한 구현예에서, 베이스 능동 인터포저 다이(604)는 동적 랜덤 액세스 메모리(DRAM) 모듈과 같은 외부 시스템 메모리(도시되지 않음)와 통신하기 위해 하나 이상의 레벨의 캐시 메모리(610) 및 하나 이상의 메모리 제어기 PHY(614)를 포함한다. 메모리 제어기(도시되지 않음) 및 메모리 제어기 PHY(614)는 다른 구현예에서, 베이스 능동 인터포저 다이(604)로부터 별개의 다이 상에 제공된다.
즉, 다양한 캐시 및 상호연결성 구성요소는 베이스 능동 인터포저 다이(604)에 위치된다(반면, 고전력 능동 처리 구성요소는 적층형 SED(612) 내에 위치됨). 추가적으로, 다수의 SED(612)를 함께 제어하는 로직(예를 들어, 커맨드 프로세서(606))과 같은, 그래픽 파이프라인 로직의 적어도 일부는 또한 베이스 능동 인터포저 다이(604)에 위치된다. 이러한 방식으로, 능동 인터포저 다이(604)는 캐시 및 다수의 SED(612)를 함께 제어하여 기하구조 상태 및 커맨드 처리를 위한 데이터를 제어하는 로직을 포함한다. 능동 인터포저 다이(604) 및 복수의 SED(612)의 이러한 기능적 그룹화는 그래픽 처리 적층형 다이 칩릿(602)을 함께 형성한다(또는 요약해서 "GPU 칩릿"으로 지칭될 수 있음).
이제 도 7을 참조하면, 일부 구현예에 따른 그래픽 처리 적층형 다이 칩릿을 이용하는 그래픽 프로세서 MCM(702)의 평면도(700)의 블록도가 예시된다. 그래픽 프로세서 MCM(702)(도 2의 병렬 프로세서 MCM(202)과 유사함)은 도 6의 N=3 수의 통신가능하게 결합된 그래픽 처리 적층형 다이 칩릿(602)을 포함하는 단일 반도체 칩 패키지로 형성된다. 평면도(700)에 도시된 바와 같이, 그래픽 프로세서 MCM(702)은 제1 그래픽 처리 적층형 다이 칩릿(702a), 제2 그래픽 처리 적층형 다이 칩릿(702b), 및 제3 그래픽 처리 적층형 다이 칩릿(702c)을 포함한다.
이해되는 바와 같이, 그래픽 처리 적층형 다이 칩릿(602)과 연관된 다이간 상호연결 구조(608a, 608b)의 증가된 수는 더 많은 수의 적층형 다이 칩릿이 (예를 들어, 각각의 적층형 다이 칩릿(402) 상의 단일 상호연결 구조(408)로 인해, 도 5에 예시된 바와 같이, 단지 페어링될 수 있는 적층형 다이 칩릿(402)에 대해) 단일 패키지에서 함께 통신가능하게 결합되는 것을 허용한다. 예를 들어, 다양한 구현예에서, 그래픽 프로세서 MCM(702)은 제1 그래픽 처리 적층형 다이 칩릿(702a)을 제2 그래픽 처리 적층형 다이 칩릿(702b)에 통신가능하게 결합하는 제1 브리지 칩(704a)을 포함한다. 특히, 제1 브리지 칩(704a) 은 제1 그래픽 처리 적층형 다이 칩릿(702a)의 제2 다이간 상호연결 구조(608b)를 제2 그래픽 처리 적층형 다이 칩릿(702b)의 제1 다이간 상호연결 구조(608a)에 통신가능하게 결합한다. 추가적으로, 그래픽 프로세서 MCM(702)은 제2 그래픽 처리 적층형 다이 칩릿(702b)을 제3 그래픽 처리 적층형 다이 칩릿(702c)에 통신가능하게 결합하는 제2 브리지 칩(704b)을 포함한다. 특히, 제2 브리지 칩(704b) 은 제2 그래픽 처리 적층형 다이 칩릿(702b)의 제2 다이간 상호연결 구조(608b)를 제3 그래픽 처리 적층형 다이 칩릿(702c)의 제1 다이간 상호연결 구조(608a)에 통신가능하게 결합한다.
다양한 구현예에서, 브리지 칩(704)은 수동 또는 능동이며, 여기서 각각의 브리지 칩(704)은 단지 데이터/전기 연결부를 포함하거나 주어진 브리지 칩(704)은 그 자체의 로직을 포함한다. 예를 들어, 일부 구현예에서, 각각의 브리지 칩(704)은 그래픽 처리 적층형 다이 칩릿(602) 사이의 고대역폭 다이-대-다이 상호연결부로서 동작하기 위해 활성 실리콘을 갖는 능동 브리지 칩이다. 다른 구현예에서, 브리지 칩(704)은 수동 칩이다.
일부 구현예에서, 능동 브리지 칩(704)은 하나 이상의 캐시 버퍼를 포함하고, 따라서, 비치프런트 에지 연결을 확장하면서, 여전히 베이스-다이간 통신을 제공하고 교차 다이 동기화 신호를 라우팅한다. 캐시는 자연적으로 능동 구성요소이므로(즉, 동작을 위해 전력을 필요로 함), 브리지 칩(704)은 그러한 캐시 버퍼를 유지하기 위해 능동이다. 캐시 사이징은 예를 들어, 상이한 적층형 다이 칩릿 구성과 함께 상이한 적용에 대해, 능동 브리지 칩(704)의 물리적 크기의 함수로서 구성가능하고, 능동 브리지 칩(704)이 통신가능하게 결합된 적층형 다이 칩릿(들)은 브리지 칩(704) 상에 이러한 외부 캐시의 비용(예를 들어, 물리적 공간, 전력 제약 등과 관련된 비용)을 지불하지 않는다.
다양한 구현예에서, 브리지 칩(704)은 2개의 논리 칩을 함께 통신가능하게 결합하는 자유 병진에서 작은 규소 접합을 제공하고, (예를 들어, 적층형 다이 칩릿(602)을 공통 인터포저 기판에 장착하고 인터포저가 종종 전체 조립체의 범위에 걸쳐 있는 통상적인 2.5D 토폴로지에 의해 제공되는 것과 같은, 다이간 통신을 위한 인터포저에 의해 제공되는 전기 연결에 전적으로 의존하는 것과 대조적으로) 제한된 물리적 범위를 갖는 2개의 다이의 인접한 에지 사이에 다이간 연결을 제공하는 로컬 실리콘 상호연결(LSI)을 포함한다.이러한 방식으로, 중간 브리지 칩(704)은 다수의 적층형 다이 칩릿(예를 들어, 제1 그래픽 처리 적층형 다이 칩릿(602a) 및 제2 그래픽 처리 적층형 다이 칩릿(602b))을 함께 통신가능하게 결합한다. 추가적으로, 다양한 구현예에서, 브리지 칩(704)은 메모리의 공통 뷰를 제공하기 위해 2개의 적층형 다이 칩릿 사이에 데이터 패브릭(도시되지 않음)을 운반한다.
단일 패키지에서 함께, 다수의 그래픽 처리 적층형 다이 칩릿(예를 들어, 제3 그래픽 처리 적층형 다이 칩릿(602c)에 차례로 결합되는, 제1 그래픽 처리 적층형 다이 칩(602a) 내지 제2 그래픽 처리 적층형 다이 칩릿(602b))의 결합은 단일 큰 그래픽 복합 다이(GCD)로서 효과적으로 동작하지만 더 작은 모듈식 다이 구성요소로부터 구성되는 디바이스를 초래한다. 다양한 구현예에서, 그래픽 프로세서 MCM(702)은 그래픽 처리 적층형 다이 칩릿의 메모리 제어기 PHY(614)를 통해 하나 이상의 외부 시스템 메모리 모듈(706)에 통신가능하게 결합된다. 추가적으로, 일부 구현예에서, 그래픽 프로세서 MCM(702)은 또한 멀티미디어에 입력/출력(I/O) 로직을 포함하고, I/O 다이(MID)(708)는 그래픽 처리 적층형 다이 칩릿(602)과 별개이다.
베이스 IC 다이/그래픽 처리 적층형 다이 칩릿의 다양한 구현예가 행방향(row-wise)으로 선형 결합의 맥락에서 본원에 설명되었지만, 당업자는 베이스 다이당 상호연결 구조의 상이한 연결구조 위치결정 및/또는 증가된 수가 다양한 다른 적층형 다이 칩릿 구성을 허용한다는 것을 인식할 것임을 인식해야 한다. 예를 들어, 일부 구현예에서 및 도 6을 참조하여, 제1 다이간 상호연결 구조(608a)는 또한 (예를 들어, 다이(604)의 좌측 에지 및 상단/하단 에지를 따라) 공간 내에 상대적으로 수직으로 위치되는 베이스 능동 인터포저 다이(604)의 에지를 따라 위치될 수 있다. 추가적으로, 일부 구현예에서, 베이스 능동 인터포저 다이(604)는 베이스 능동 인터포저 다이(604)의 다른 비치프런트 에지를 따르는 3개 이상의 상호연결 구조를 포함한다. 그러한 상호연결 구조 배열은 예를 들어, 병렬 프로세서 MCM당 N x M 적층형 다이 칩릿을 갖는 다양한 메시 유사 타일링 구성을 가능하게 한다.
따라서, 본원에 설명된 바와 같이, 능동 브리지 칩과 함께 후속 통신가능하게 스티칭될 수 있는 더 작은 풋프린트 빌딩 블록(예를 들어, 본원에 설명된 다양한 병렬 처리 적층형 다이 칩릿)을 생성하기 위해 다수의 개별 다이 중에서 GPU 처리 파이프라인 구성요소에 대한 할당은 더 큰 모놀리식 프로세서에 비해 유사한 성능을 갖는 디바이스를 여전히 형성할 수 있는 동안 칩릿 방식으로 스케일링가능한 그래픽 파이프/칩의 제조를 가능하게한다. 이러한 모듈식 3D 그래픽 개념은 확장가능하고, 별도로 업데이트가능하고, 높은 수율 양태를 갖는 작은 다이를 사용함으로써 조립의 비용을 완화시키고, 반도체 웨이퍼당 생산의 증가된 다이 수율을 허용할 시에 값을 제공뿐만 아니라 반도체 웨이퍼당 양호한 다이의 양을 또한 증가시킨다.
본원에 개시된 바와 같이, 일부 구현예에서, 병렬 프로세서는 제1 베이스 IC 다이의 상단에 3D 적층된 제1 복수의 가상 계산 다이를 포함하는 제1 베이스 집적 회로(IC) 다이로서, 병렬 처리 파이프라인 로직의 제1 서브세트는 제1 복수의 가상 계산 다이에 위치되고, 또한 병렬 처리 파이프라인 로직의 제2 서브세트는 제1 베이스 IC 다이에 위치되는, 제1 베이스 집적 회로(IC) 다이; 제2 베이스 IC 다이의 상단에 3D 적층된 제2 복수의 가상 계산 다이를 포함하는 제2 베이스 IC 다이; 및 제1 베이스 IC 다이의 제1 상호연결 구조를 제2 베이스 IC 다이의 제1 상호연결 구조에 통신가능하게 결합하는 능동 브리지 칩을 포함한다. 일 양태에서, 병렬 프로세서는 제2 베이스 IC 다이의 상호연결 구조를 제3 베이스 IC 다이의 제1 상호연결 구조에 통신가능하게 결합하는 제2 능동 브리지 칩을 포함하고, 제3 베이스 IC 다이는 제2 베이스 IC 다이의 상단에 3D 적층된 제3 복수의 가상 계산 다이를 포함한다. 또 다른 양태에서, 제1 복수의 가상 계산 다이 및 제2 복수의 가상 계산 다이 각각은 그래픽 파이프라인 로직의 일부를 포함하는 셰이더 엔진 다이를 포함한다. 또 다른 양태에서, 제1 베이스 IC 다이에서 병렬 처리 파이프라인 로직의 제2 서브세트는 제1 복수의 가상 계산 다이의 동작을 제어하도록 구성된 커맨드 프로세서를 포함한다.
일 양태에서, 제1 베이스 IC 다이는 병렬 프로세서 외부의 시스템 메모리 모듈과 통신하도록 구성된 메모리 제어기를 포함한다. 또 다른 양태에서, 제2 베이스 IC 다이는 제2 복수의 가상 계산 다이에 위치된 병렬 처리 파이프라인 로직의 제1 서브세트를 포함하고, 추가로 병렬 처리 파이프라인 로직의 제2 서브세트는 제2 베이스 IC 다이에 위치된다.
일부 구현예에서, 시스템은 하나 이상의 병렬 프로세서에 의한 실행을 위해 커맨드 스트림을 발생시키도록 구성된 호스트 프로세서; 및 호스트 프로세서에 통신가능하게 결합된 병렬 프로세서 다중 칩 모듈을 포함하고; 병렬 프로세서 다중 칩 모듈은 제1 베이스 IC 다이의 상단에 3D 적층된 제1 복수의 가상 계산 다이를 포함하는 제1 베이스 집적 회로(IC) 다이로서, 병렬 처리 파이프라인 로직의 제1 서브세트는 제1 복수의 가상 계산 다이에 위치되고, 추가로 병렬 처리 파이프라인 로직의 제2 서브세트는 제1 베이스 IC 다이에 위치되는, 제1 베이스 집적 회로(IC) 다이: 제2 베이스 IC 다이의 상단에 3D 적층된 제2 복수의 가상 계산 다이를 포함하는 제2 베이스 IC 다이; 및 제1 베이스 IC 다이의 제1 상호연결 구조를 제2 베이스 IC 다이의 제1 상호연결 구조에 통신가능하게 결합하는 능동 브리지 칩을 포함한다. 일 양태에서, 시스템은 제2 베이스 IC 다이의 상호연결 구조를 제3 베이스 IC 다이의 제1 상호연결 구조에 통신가능하게 결합하는 제2 능동 브리지 칩을 포함하고, 제3 베이스 IC 다이는 제2 베이스 IC 다이의 상단에 3D 적층된 제3 복수의 가상 계산 다이를 포함한다.
일 양태에서, 제1 복수의 가상 계산 다이 및 제2 복수의 가상 계산 다이 각각은 그래픽 파이프라인 로직의 일부를 포함하는 셰이더 엔진 다이를 포함한다. 또 다른 양태에서, 제1 베이스 IC 다이에서 병렬 처리 파이프라인 로직의 제2 서브세트는 제1 복수의 가상 계산 다이의 동작을 제어하도록 구성된 커맨드 프로세서를 포함한다. 또 다른 양태에서, 제1 베이스 IC 다이는 병렬 프로세서 외부의 시스템 메모리 모듈과 통신하도록 구성된 메모리 제어기를 포함한다. 또 다른 양태에서, 제2 베이스 IC 다이는 제2 복수의 가상 계산 다이에 위치된 병렬 처리 파이프라인 로직의 제1 서브세트를 포함하고, 추가로 병렬 처리 파이프라인 로직의 제2 서브세트는 제2 베이스 IC 다이에 위치된다. 또 다른 양태에서, 제1 베이스 IC 다이 및 제2 베이스 IC 다이 각각은 능동 인터포저 다이이다.
일부 구현예에서, 집적 회로 디바이스는 베이스 IC 다이의 상단에 3D 적층된 복수의 가상 계산 다이를 포함하는 베이스 IC 다이를 포함하고, 병렬 처리 파이프라인 로직의 제1 서브세트는 제1 복수의 가상 계산 다이에 위치되고, 또한 병렬 처리 파이프라인 로직의 제2 서브세트는 베이스 IC 다이에 위치된다. 일 양태에서, 복수의 가상 계산 다이 각각은 그래픽 파이프라인 로직의 일부를 포함하는 셰이더 엔진 다이를 포함한다. 또 다른 양태에서, 베이스 IC 다이에서 병렬 처리 파이프라인 로직의 제2 서브세트는 복수의 가상 계산 다이의 동작을 제어하도록 구성된 커맨드 프로세서를 포함한다. 또 다른 양태에서, 베이스 IC 다이는 능동 인터포저 다이이다.
일 양태에서, 베이스 IC 다이는 병렬 프로세서 외부의 시스템 메모리 모듈과 통신하도록 구성된 메모리 제어기를 포함한다. 또 다른 양태에서, 베이스 IC 다이는 베이스 IC 다이의 제1 비치프런트 에지를 따라 위치된 제1 상호연결 구조를 포함한다. 또 다른 양태에서, 베이스 IC 다이는 베이스 IC 다이의 제1 비치프런트 에지와 배향이 평행한 베이스 IC 다이의 제2 비치프런트 에지를 따라 위치된 제2 상호연결 구조를 포함한다.
컴퓨터 판독 가능 저장 매체는 명령어들 및/또는 데이터를 컴퓨터 시스템에 제공하기 위해 사용 동안 컴퓨터 시스템에 의해 액세스 가능한 임의의 비일시적 저장 매체, 또는 비일시적 저장 매체의 조합을 포함한다. 이러한 저장 매체는 광학 매체(예를 들어, 컴팩트 디스크(CD), 디지털 다기능 디스크(DVD), 블루-레이 디스크), 자기 매체(예를 들어, 플로피 디스크, 자기 테이프, 또는 자기 하드 드라이브), 휘발성 메모리(예를 들어, 랜덤 액세스 메모리(RAM) 또는 캐시), 비휘발성 메모리(예를 들어, 판독 전용 메모리(ROM) 또는 플래시 메모리), 또는 미세 전자 기계 시스템(MEMS) 기반 저장 매체를 포함할 수 있으나, 이에 제한되는 것은 아니다. 컴퓨터 판독 가능 저장 매체는 컴퓨팅 시스템에 내장되거나(예를 들어, 시스템 RAM 또는 ROM), 컴퓨팅 시스템에 고정적으로 부착되거나(예를 들어, 자기 하드 드라이브), 컴퓨팅 시스템에 제거 가능하게 부착되거나(예를 들어, 광 디스크 또는 범용 직렬 버스(USB)-기반 플래시 메모리), 유선 또는 무선 네트워크를 통해 컴퓨터 시스템에 결합된다(예를 들어, 네트워크 액세스 가능 저장소(NAS)).
일부 구현예에서, 위에서 설명된 기법들의 특정 양태들은 소프트웨어를 실행하는 처리 시스템의 하나 이상의 프로세서에 의해 구현된다. 소프트웨어는 비-일시적 컴퓨터 판독 가능 저장 매체에 저장되거나 달리 유형적으로 구현된 실행 가능 명령어의 하나 이상의 세트를 포함한다. 소프트웨어는 하나 이상의 프로세서에 의해 실행될 때, 전술된 기법의 하나 이상의 양태를 수행하도록 하나 이상의 프로세서를 조작하는 명령어 및 특정 데이터를 포함한다. 비일시적 컴퓨터 판독 가능 저장 매체는, 예를 들어, 자기 또는 광 디스크 저장 디바이스, 플래시 메모리, 캐시, 랜덤 액세스 메모리(RAM) 또는 다른 비휘발성 메모리 디바이스 또는 디바이스들 등과 같은 솔리드 스테이트 저장 장치를 포함한다. 비일시적 컴퓨터 판독 가능 저장 매체에 저장된 실행 가능 명령어는 하나 이상의 프로세서에 의해 해석되거나 달리 실행 가능한 소스 코드, 어셈블리 언어 코드, 객체 코드, 또는 다른 명령어 포맷을 포함한다.
일반적인 설명으로 위에서 설명된 모든 행위들 또는 요소들이 요구되는 것은 아니라는 것, 특정 행위 또는 디바이스의 일부가 요구되지 않을 수 있다는 것, 그리고 설명된 행위들 또는 요소들에 더하여, 하나 이상의 추가 행위가 수행되거나 요소가 포함될 수 있다는 것에 유의한다. 또한 추가적으로, 활동이 열거된 순서는 반드시 그들이 수행되는 순서는 아니다. 또한, 개념들은 구체적인 실시예들을 참조하여 설명되었다. 그러나, 당업자는 아래 청구범위에 제시된 바에 따른 본 개시내용의 범위로부터 벗어나지 않는 다양한 수정 및 변경이 이루어질 수 있다는 것을 이해한다. 따라서, 본 명세서 및 도면들은 제한적인 의미보다는 예시적인 것으로 여겨져야 하고, 이러한 모든 수정이 본 개시내용의 범위 내에 포함되는 것으로 의도된다.
이점들, 다른 장점들 및 문제들에 대한 해법들이 구체적인 실시예들과 관련하여 위에서 설명되었다. 그러나, 임의의 이점, 장점, 또는 해법을 발생시키거나 더 확연히 드러낼 수 있는 이점들, 장점들, 문제들에 대한 솔루션들, 및 임의의 특징(들)이, 임의의 또는 모든 청구범위의 임계적, 필수적, 또는 본질적 특징인 것으로서 간주되지 않아야 한다. 또한, 위에서 개시된 특정 실시예들은 개시된 주제가 본 명세서에서의 교시의 이점을 갖는 당업자들에게 명백한, 상이하지만 균등한 방식들로 수정 및 실시될 수 있음으로 단지 예시적인 것일 뿐이다. 아래 청구범위에서 기술되는 것 이외에, 제시되는 본 명세서에서의 구성 또는 설계의 세부 사항들에 대한 제한이 의도되지 않는다. 따라서 위에서 개시된 특정 실시예는 변경되거나 수정될 수 있고 모든 그러한 변형은 개시된 주제의 범위 내에 있는 것으로 고려된다는 것이 명백하다. 따라서, 본원에서 추구되는 보호는 아래 청구범위에 제시되는 바와 같다.

Claims (20)

  1. 병렬 프로세서로서,
    상기 제1 베이스 IC 다이의 상단에 3D 적층된 제1 복수의 가상 계산 다이를 포함하는 제1 베이스 집적 회로(IC) 다이로서, 병렬 처리 파이프라인 로직의 제1 서브세트는 상기 제1 복수의 가상 계산 다이에 위치되고, 또한 상기 병렬 처리 파이프라인 로직의 제2 서브세트는 상기 제1 베이스 IC 다이에 위치되는, 제1 베이스 집적 회로(IC) 다이;
    제2 베이스 IC 다이로서, 상기 제2 베이스 IC 다이의 상단에 3D 적층된 제2 복수의 가상 계산 다이를 포함하는, 제2 베이스 IC 다이; 및
    상기 제1 베이스 IC 다이의 제1 상호연결 구조를 상기 제2 베이스 IC 다이의 제1 상호연결 구조에 통신가능하게 결합하는 능동 브리지 칩을 포함하는, 병렬 프로세서.
  2. 제1항에 있어서,
    상기 제2 베이스 IC 다이의 상호연결 구조를 제3 베이스 IC 다이의 제1 상호연결 구조에 통신가능하게 결합하는 제2 능동 브리지 칩을 더 포함하며, 상기 제3 베이스 IC 다이는 상기 제2 베이스 IC 다이의 상단에 3D 적층된 제3 복수의 가상 계산 다이를 포함하는, 병렬 프로세서.
  3. 제1항 또는 제2항에 있어서, 상기 제1 복수의 가상 계산 다이 및 상기 제2 복수의 가상 계산 다이 각각은 그래픽 파이프라인 로직의 일부를 포함하는 셰이더 엔진 다이를 포함하는, 병렬 프로세서.
  4. 제3항에 있어서, 상기 제1 베이스 IC 다이에서 상기 병렬 처리 파이프라인 로직의 제2 서브세트는 상기 제1 복수의 가상 계산 다이의 동작을 제어하도록 구성된 커맨드 프로세서를 포함하는, 병렬 프로세서.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 제1 베이스 IC 다이는 상기 병렬 프로세서 외부의 시스템 메모리 모듈과 통신하도록 구성된 메모리 제어기를 포함하는, 병렬 프로세서.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 제2 베이스 IC 다이는 상기 제2 복수의 가상 계산 다이에 위치된 병렬 처리 파이프라인 로직의 제1 서브세트를 포함하고, 추가로 상기 병렬 처리 파이프라인 로직의 제2 서브세트는 상기 제2 베이스 IC 다이에 위치되는, 병렬 프로세서.
  7. 시스템으로서,
    하나 이상의 병렬 프로세서에 의한 실행을 위해 커맨드 스트림을 발생시키도록 구성된 호스트 프로세서; 및
    상기 호스트 프로세서에 통신가능하게 결합된 병렬 프로세서 다중 칩 모듈을 포함하며, 상기 병렬 프로세서 다중 칩 모듈은,
    상기 제1 베이스 IC 다이의 상단에 3D 적층된 제1 복수의 가상 계산 다이를 포함하는 제1 베이스 집적 회로(IC) 다이로서, 병렬 처리 파이프라인 로직의 제1 서브세트는 상기 제1 복수의 가상 계산 다이에 위치되고, 또한 상기 병렬 처리 파이프라인 로직의 제2 서브세트는 상기 제1 베이스 IC 다이에 위치되는, 제1 베이스 집적 회로(IC) 다이;
    제2 베이스 IC 다이로서, 상기 제2 베이스 IC 다이의 상단에 3D 적층된 제2 복수의 가상 계산 다이를 포함하는, 제2 베이스 IC 다이; 및
    상기 제1 베이스 IC 다이의 제1 상호연결 구조를 상기 제2 베이스 IC 다이의 제1 상호연결 구조에 통신가능하게 결합하는 능동 브리지 칩을 포함하는, 시스템.
  8. 제7항에 있어서,
    상기 제2 베이스 IC 다이의 상호연결 구조를 제3 베이스 IC 다이의 제1 상호연결 구조에 통신가능하게 결합하는 제2 능동 브리지 칩을 더 포함하며, 상기 제3 베이스 IC 다이는 상기 제2 베이스 IC 다이의 상단에 3D 적층된 제3 복수의 가상 계산 다이를 포함하는, 시스템.
  9. 제7항 또는 제8항에 있어서, 상기 제1 복수의 가상 계산 다이 및 상기 제2 복수의 가상 계산 다이 각각은 그래픽 파이프라인 로직의 일부를 포함하는 셰이더 엔진 다이를 포함하는, 시스템.
  10. 제9항에 있어서, 상기 제1 베이스 IC 다이에서 상기 병렬 처리 파이프라인 로직의 제2 서브세트는 상기 제1 복수의 가상 계산 다이의 동작을 제어하도록 구성된 커맨드 프로세서를 포함하는, 시스템.
  11. 제7항 내지 제10항 중 어느 한 항에 있어서, 상기 제1 베이스 IC 다이는 상기 병렬 프로세서 외부의 시스템 메모리 모듈과 통신하도록 구성된 메모리 제어기를 포함하는, 시스템.
  12. 제7항 내지 제11항 중 어느 한 항에 있어서, 상기 제2 베이스 IC 다이는 상기 제2 복수의 가상 계산 다이에 위치된 병렬 처리 파이프라인 로직의 제1 서브세트를 포함하고, 추가로 상기 병렬 처리 파이프라인 로직의 제2 서브세트는 상기 제2 베이스 IC 다이에 위치되는, 시스템.
  13. 제7항 내지 제12항 중 어느 한 항에 있어서, 상기 제1 베이스 IC 다이 및 상기 제2 베이스 IC 다이 각각은 능동 인터포저 다이인, 시스템.
  14. 집적 회로 디바이스로서,
    상기 베이스 IC 다이의 상단에 3D 적층된 복수의 가상 계산 다이를 포함하는 베이스 IC 다이를 포함하며, 병렬 처리 파이프라인 로직의 제1 서브세트는 상기 제1 복수의 가상 계산 다이에 위치되고, 또한 상기 병렬 처리 파이프라인 로직의 제2 서브세트는 상기 베이스 IC 다이에 위치되는, 집적 회로 디바이스.
  15. 제14항에 있어서, 상기 복수의 가상 계산 다이 각각은 그래픽 파이프라인 로직의 일부를 포함하는 셰이더 엔진 다이를 포함하는, 집적 회로 디바이스.
  16. 제15항에 있어서, 상기 베이스 IC 다이에서 상기 병렬 처리 파이프라인 로직의 제2 서브세트는 상기 복수의 가상 계산 다이의 동작을 제어하도록 구성된 커맨드 프로세서를 포함하는, 집적 회로 디바이스.
  17. 제14항 내지 제16항 중 어느 한 항에 있어서, 상기 베이스 IC 다이는 능동 인터포저 다이인, 집적 회로 디바이스.
  18. 제14항 내지 제17항 중 어느 한 항에 있어서, 상기 베이스 IC 다이는 상기 병렬 프로세서 외부의 시스템 메모리 모듈과 통신하도록 구성된 메모리 제어기를 포함하는, 집적 회로 디바이스.
  19. 제14항 내지 제18항 중 어느 한 항에 있어서, 상기 베이스 IC 다이는 상기 베이스 IC 다이의 제1 비치프런트 에지를 따라 위치된 제1 상호연결 구조를 포함하는, 집적 회로 디바이스.
  20. 제19항에 있어서, 상기 베이스 IC 다이는 상기 베이스 IC 다이의 제1 비치프런트 에지와 배향이 평행한 베이스 IC 다이의 제2 비치프런트 에지를 따라 위치된 제2 상호연결 구조를 포함하는, 집적 회로 디바이스.
KR1020237035148A 2021-03-30 2022-03-29 모듈식 병렬 프로세서를 위한 다이 적층 KR20240004301A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/217,165 2021-03-30
US17/217,165 US20220320042A1 (en) 2021-03-30 2021-03-30 Die stacking for modular parallel processors
PCT/US2022/022279 WO2022212323A1 (en) 2021-03-30 2022-03-29 Die stacking for modular parallel processors

Publications (1)

Publication Number Publication Date
KR20240004301A true KR20240004301A (ko) 2024-01-11

Family

ID=83450111

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237035148A KR20240004301A (ko) 2021-03-30 2022-03-29 모듈식 병렬 프로세서를 위한 다이 적층

Country Status (6)

Country Link
US (1) US20220320042A1 (ko)
EP (1) EP4315423A1 (ko)
JP (1) JP2024511776A (ko)
KR (1) KR20240004301A (ko)
CN (1) CN117397388A (ko)
WO (1) WO2022212323A1 (ko)

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865084B2 (en) * 2007-09-11 2011-01-04 Oracle America, Inc. Multi-chip systems with optical bypass
US9530716B2 (en) * 2012-04-20 2016-12-27 Sandisk Technologies Inc. Apparatus, system, and method for transferring heat from memory components
US9244629B2 (en) * 2013-06-25 2016-01-26 Advanced Micro Devices, Inc. Method and system for asymmetrical processing with managed data affinity
US10158833B2 (en) * 2017-04-24 2018-12-18 Intel Corporation High dynamic range imager enhancement technology
WO2020068960A1 (en) * 2018-09-26 2020-04-02 Coherent Logix, Inc. Any world view generation
US10937762B2 (en) * 2018-10-04 2021-03-02 iCometrue Company Ltd. Logic drive based on multichip package using interconnection bridge
US10803548B2 (en) * 2019-03-15 2020-10-13 Intel Corporation Disaggregation of SOC architecture
US11011466B2 (en) * 2019-03-28 2021-05-18 Advanced Micro Devices, Inc. Integrated circuit package with integrated voltage regulator
US20210067952A1 (en) * 2019-09-03 2021-03-04 Nvidia Corporation Performing scrambling and/or descrambling on parallel computing architectures
US11791938B2 (en) * 2019-09-26 2023-10-17 Nvidia Corporation Parity check decoding
US11507527B2 (en) * 2019-09-27 2022-11-22 Advanced Micro Devices, Inc. Active bridge chiplet with integrated cache
US20210133583A1 (en) * 2019-11-05 2021-05-06 Nvidia Corporation Distributed weight update for backpropagation of a neural network
US11609879B2 (en) * 2021-02-26 2023-03-21 Nvidia Corporation Techniques for configuring parallel processors for different application domains
US20230305853A1 (en) * 2022-03-25 2023-09-28 Nvidia Corporation Application programming interface to perform operation with reusable thread
WO2023193190A1 (en) * 2022-04-07 2023-10-12 Nvidia Corporation Adjusting precision of neural network weight parameters

Also Published As

Publication number Publication date
US20220320042A1 (en) 2022-10-06
WO2022212323A1 (en) 2022-10-06
CN117397388A (zh) 2024-01-12
EP4315423A1 (en) 2024-02-07
JP2024511776A (ja) 2024-03-15

Similar Documents

Publication Publication Date Title
JP5618603B2 (ja) 多層回路配列を設計する方法
US8445918B2 (en) Thermal enhancement for multi-layer semiconductor stacks
US8736068B2 (en) Hybrid bonding techniques for multi-layer semiconductor stacks
JP7084377B2 (ja) スタックド・シリコン・インターコネクト(ssi)技術集積化のためのスタンドアロンインターフェイス
US10916516B2 (en) High bandwidth memory (HBM) bandwidth aggregation switch
US11837503B2 (en) Scalable and flexible architectures for integrated circuit (IC) design and fabrication
US11663769B2 (en) Game engine on a chip
JP2007265019A (ja) 演算処理装置
Mounce et al. Chiplet based approach for heterogeneous processing and packaging architectures
EP4035019A1 (en) Fabricating active-bridge-coupled gpu chiplets
KR20240004301A (ko) 모듈식 병렬 프로세서를 위한 다이 적층
US20220334983A1 (en) Techniques For Sharing Memory Interface Circuits Between Integrated Circuit Dies
US11960339B2 (en) Multi-die stacked power delivery
Bousdras et al. Template architectures for highly scalable, many-core Heterogeneous SoC: could-of-chips
US20240145434A1 (en) Multi programable-die module
CN117194287A (zh) 基于众核结构的人工智能芯片、数据处理方法、处理系统