WO2023078006A1

WO2023078006A1 - 加速器结构、生成加速器结构的方法及其设备

Info

Publication number: WO2023078006A1
Application number: PCT/CN2022/122375
Authority: WO
Inventors: 邱志威; 陈帅; 高崧; 庄云良
Original assignee: 寒武纪(西安)集成电路有限公司
Priority date: 2021-11-05
Filing date: 2022-09-29
Publication date: 2023-05-11
Also published as: CN116108900A

Abstract

一种加速器结构及其设备，与生成加速器结构的方法及其计算机可读存储介质、计算机程序产品与计算机装置，加速器结构包括：运算层（803），设置有多个芯片对晶圆单元（807），每个芯片对晶圆单元（807）包括第一晶粒组及第二晶粒组；模块层（801），设置有电源模块（805）晶粒组及接口模块（806）晶粒组；以及线路层（802），设置于运算层（803）及模块层（801）间。电源模块（805）晶粒组通过线路层（802）向第一晶粒组及第二晶粒组提供电源，第一晶粒组及第二晶粒组经由线路层（802）通过接口模块（806）晶粒组输出计算结果。

Description

加速器结构、生成加速器结构的方法及其设备

相关申请的交叉引用

本申请要求于2021年11月05日申请的，申请号为202111308266.9，名称为“加速器结构、生成加速器结构的方法及其设备”的中国专利申请的优先权。

技术领域

本发明一般地涉及半导体领域。更具体地，本发明涉及加速器结构及其设备，与生成加速器结构的方法及其计算机可读存储介质、计算机程序产品与计算机装置。

背景技术

随着人工智能领域的高速发展，高性能计算的应用需求越来越强烈，从电商使用的推荐引擎到自动驾驶汽车，人们生活已脱离不了人工智能解决方案，市场的迅速铺开推动了计算需求呈指数级增长。据统计，自2012年以来，深度学习网络对计算的需求大约每3.5个月就翻一番。

为了满足高性能计算应用对计算性能和存储带宽的需求，从CPU/GPU到ASIC的各种加速器都出现了基于微晶片的多芯片集成方案。除了成品率和成本效益，这些新型芯片还需要短而密集的互连，以实现芯片对芯片(C2C)IO电路，并通过先进的封装技术保持低功耗。

台湾积体电路制造股份有限公司开发了一种超大而紧凑的系统解决方案，称为晶圆上集成扇出系统技术(InFO_SoW)，将已知的芯片阵列与功率和散热模块集成在一起，用于高性能计算。InFO_SoW通过作为载体本身来减少对基板和印刷线路板的使用。在一个紧凑的系统内紧密封装的多芯片阵列使该解决方案能够获得晶圆规模的好处，例如低延迟的芯片对芯片通信、高带宽密度和低电源分配网络(PDN)阻抗等，从而获得更高的计算性能和功耗效率。

然而，现有的InFO_SoW技术仅能将多个单颗芯片整合至系统中，这样的集成效率仍不足以满足各种加速器对于芯片大量集成的需求。因此，一种基于InFO_SoW技术的更密集的芯片集成方案是迫切需要的。

发明内容

为了至少部分地解决背景技术中提到的技术问题，本发明的方案提供了一种加速器结构及其设备，与生成加速器结构的方法及其计算机可读存储介质、计算机程序产品与计算机装置。

在一个方面中，本发明揭露一种加速器结构，包括：运算层、模块层及线路层。运算层设置有多个芯片对晶圆(chip on wafer，CoW)单元，每个芯片对晶圆单元包括第一晶粒组及第二晶粒组；模块层设置有电源模块晶粒组及接口模块晶粒组；线路层设置于运算层及模块层间。电源模块晶粒组通过线路层向第一晶粒组及第二晶粒组提供电源，第一晶粒组及第二晶粒组经由线路层通过接口模块晶粒组输出计算结果。

在另一个方面，本发明揭露一种集成电路装置，包括前述的加速器结构，还揭露一种板卡，包括前述的集成电路装置。

在另一个方面，本发明揭露一种生成加速器结构的方法，包括：生成线路层；在线路层的一侧生成运算层，运算层设置有多个芯片对晶圆单元，每个芯片对晶圆单元包括第一晶粒组及第二晶粒组；以及在线路层的另一侧生成模块层，模块层设置有电源模块晶粒组及接口模块晶粒组。电源模块晶粒组通过线路层向第一晶粒组及第二晶粒组提供电源，第一晶粒组及第二晶粒组经由线路层通过接口模块晶粒组输出计算结果。

在另一个方面，本发明揭露一种计算机可读存储介质，其上存储有生成加速器结构的计算机程序代码，当所述计算机程序代码由处理装置运行时，执行前述的方法。

在另一个方面，本发明揭露一种计算机程序产品，包括生成加速器结构的计算机程序，其特征在于，所述计算机程序被处理器执行时实现前述方法的步骤。

在另一个方面，本发明揭露一种计算机装置，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现前述方法的步骤。

本发明通过将CoW单元整合至InFO_SoW的结构中，可以显著的提高集成效率，以满足各种加速器对于芯片大量集成的需求，达到集成超大运算能力的技术功效。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，并且相同或对应的标号表示相同或对应的部分。其中：

图1是示出InFO_SoW的剖面图；

图2是示出一种示例性的InFO_SoW的俯视图；

图3是示出本发明实施例的一种CoW单元的布局示意图；

图4是示出本发明实施例的另一种CoW单元的布局示意图；

图5是示出本发明实施例的另一种CoW单元的布局示意图；

图6是示出示例性的板卡的结构示意图；

图7是示出本发明实施例的集成电路装置的结构图；

图8是示出本发明实施例的CoW结合InFO_SoW的加速器结构的剖面图；

图9是示出本发明另一个实施例的CoW结合InFO_SoW的加速器结构的剖面图；

图10是示出本发明实施例的CoW单元的示意图；

图11是示出本发明另一个实施例的CoW单元的示意图；

图12是示出本发明另一个实施例生成加速器结构的流程图；

图13是示出本发明另一个实施例生成线路层的第一部分的流程图；

图14是示出本发明另一个实施例在晶圆上生成多个硅通孔的剖面图；

图15是示出本发明另一个实施例生成运算层的流程图；

图16是示出本发明另一个实施例芯片贴装多个CoW单元后的剖面图；

图17是示出本发明另一个实施例生成压膜塑料后的剖面图；

图18是示出本发明另一个实施例化学机械抛光压膜塑料后的剖面图；

图19是示出本发明另一个实施例执行晶圆测试的流程图；

图20是示出本发明另一个实施例芯片翻转晶圆后的剖面图；

图21是示出本发明另一个实施例化学机械抛光后的剖面图；

图22是示出本发明另一个实施例沉积绝缘层后的剖面图；

图23是示出本发明另一个实施例生成金属点后的剖面图；

图24是示出5×5的CoW单元阵列的示意图；

图25是示出本发明另一个实施例CoW晶粒贴合在第二玻璃后的剖面图；

图26是示出本发明另一个实施例生成压膜塑料后的剖面图；

图27是示出本发明另一个实施例化学机械抛光后的剖面图；

图28是示出本发明另一个实施例完成整个线路层后的剖面图；

图29是示出本发明另一个实施例生成模块层后的剖面图；

图30是示出本发明另一个实施例贴合散热模块后的剖面图；

图31是示出本发明另一个实施例生成加速器结构的流程图；以及

图32是示出本发明另一个实施例贴合散热模块后的剖面图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，本发明的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。本发明的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本发明。如在本发明说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本发明说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。

在此本发明说明书，晶圆(wafer)指的是由纯硅构成，一般分为6英寸、8英寸、12英寸规格不等，为硅半导体集成电路制作所用的硅基材，其形状为圆形。在硅基材上可加工制作成各种电路元件结构，而成为有特定电性功能的集成电路产品；晶粒(die)是以半导体材料制作而成未经封装的一小块集成电路本体，该集成电路的既定功能在这一小片半导体上实现，晶粒是以大批方式，经光刻等多项步骤，制作在晶圆上的方型小片集成电路，又称为裸晶；芯片(chip)则是经过测试，将完好的、稳定的、功能正常的晶粒切割下来，封装形成具有管脚可以和其他电子元件进行电性连接的集成电路装置。

InFO_SoW技术是一种集成了集成扇出型封装(integrated fan-out，InFO)、电源模块和散热模块的晶圆级系统，图1示出InFO_SoW的剖面图，InFO_SoW包括运算层11、线路层12与模块层13。运算层11设置有芯片阵列，图中示例性地展示处理单元111、处理单元112及处理单元113，用以实现系统运算功能；线路层12为重布线层(RDL)，用以电性连接运算层11与模块层13的晶粒；模块层13设置有电源模块晶粒组及接口模块晶粒组，电源模块晶粒组包括多个电源模块131，对运算层11的芯片阵列提供电源，接口模块晶粒组包括多个接口模块132，作为运算层11的芯片阵列的输入输出接口。电源模块晶粒组及接口模块晶粒组是利用焊球栅格阵列(ball grid array，BGA)封装技术焊接到InFO晶圆上。运算层11的另一侧组装有散热模块14，为运算层11的芯片阵列进行散热。

图2示出一种示例性的InFO_SoW的俯视图，可以看出电源模块晶粒组为7×7的电源模块131，接口模块晶粒组包括4个接口模块132，分别位于电源模块阵列的侧边。电源模块晶粒组及接口模块晶粒组的下方为线路层12，即InFO晶圆。运算层11的芯片阵列位于线路层12之下，被模块层13和线路层12所遮挡，故不可见。最低层为散热模块14。

CoW是一种新兴的整合生产技术，可以将多个芯片视为一个晶粒进行封装，达到了封装体积小、功耗低、引脚少的技术功效。随着CoW技术日益成熟，越来越多的集成电路尤其是复杂运算的集成电路采用其制程。

本发明的一个实施例是一种将CoW单元整合至InFO_SoW的加速器结构，CoW单元可以利用多种不同功能的晶粒整合而成，为方便说明，在此实施例中CoW单元包括两种晶粒：第一晶粒及第二晶粒。更具体来说，第一晶粒为片上系统(SoC)，第二晶粒为内存。

片上系统指的是在单个芯片上集成一个完整的系统，它是由多个具有特定功能的集成电路组合在一个芯片上形成的系统或产品。系统整合单晶片(system-on-integrated-chips，SoIC)是一种多芯片的堆栈技术，可以实现CoW的接合(bonding)。内存可以是高宽带内存(high bandwidth memory，HBM)，这是一种基于3D堆栈工艺制作的高性能DRAM，适用于高存储器带宽需求的应用场合，像是图形处理器、网上交换及转发设备(如路由器、交换器)等。

图3示出此实施例的一种CoW单元的布局示意图，此CoW单元包括1个片上系统301及6个内存302，其中片上系统301为前述的片上系统，设置在CoW单元的核心，而内存302为上述的高宽带内存，布局在片上系统301的两侧，每一侧设置有3个内存302。图4示出此实施例的另一种CoW单元的布局示意图，此CoW单元包括1个片上系统301及4个内存302，其中片上系统301设置在CoW单元的核心，而内存302布局在片上系统301的两侧，每一侧设置有2个内存302。图5示出此实施例的另一种CoW单元的布局示意图，此CoW单元是由2组图4的CoW单元排列而成。片上系统及内存的布局方式多样，以上仅为示例，本发明并不限制CoW单元中晶粒的种类、数量与布局方式。

此实施例的加速器结构可以装配在板卡上，图6示出示例性的板卡60的结构示意图。如图6所示，板卡60包括芯片601，即为此实施例的加速器结构，集成有一个或多个集成电路装置，集成电路装置是一种人工智能运算单元，用以支持各类深度学习和机器学习算法，满足计算机视觉、语音、自然语言处理、数据挖掘等领域复杂场景下的智能处理需求。特别是深度学习技术大量应用在云端智能领域，云端智能应用的一个显著特点是输入数据量大，对平台的存储能力和计算能力有很高的要求，此实施例的板卡60适用在云端智能应用，具有庞大的片外存储、片上存储和强大的计算能力。

芯片601通过对外接口装置602与外部设备603相连接。外部设备603例如是服务器、计算机、摄像头、显示器、鼠标、键盘、网卡或wifi接口等。待处理的数据可以由外部设备603通过对外接口装置602传递至芯片601。芯片601的计算结果可以经由对外接口装置602传送回外部设备603。根据不同的应用场景，对外接口装置602可以具有不同的接口形式，例如PCIe接口等。

板卡60还包括用于存储数据的存储器件604，其包括一个或多个存储单元605。存储器件604通过总线与控制器件606和芯片601进行连接和数据传输。板卡60中的控制器件606配置用于对芯片601的状态进行调控。为此，在一个应用场景中，控制器件606可以包括单片机(Micro Controller Unit，MCU)。

图7是示出此实施例的芯片601中的集成电路装置的结构图。如图7中所示，集成电路装置70包括计算装置701、接口装置702、处理装置703和内存704。

计算装置701配置成执行用户指定的操作，主要实现为单核智能处理器或者多核智能处理器，用以执行深度学习或机器学习的计算，其可以与处理装置703进行交互，以共同完成用户指定的操作。

接口装置702用于作为计算装置701和处理装置703对外联系的接口。

处理装置703作为通用的处理装置，执行包括但不限于数据搬运、对计算装置701的开启和/或停止等基本控制。根据实现方式的不同，处理装置703可以是中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)或其他通用和/或专用处理器中的一种或多种类型的处理器，这些处理器包括但不限于数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，并且其数目可以根据实际需要来确定。

图3至图5的片上系统301可以是计算装置701或是处理装置703，或是计算装置701与处理装置703结合在一起。仅就计算装置701而言，其可以视为具有单核结构或者同构多核结构。当将计算装置701和处理装置703整合共同考虑时，整体视为异构多核结构。

内存704用以存储待处理的数据，为DDR内存，大小通常为16G或更大，用于保存计算装置701和/或处理装置703的数据。内存704即为内存302，用于存放片上系统301所需的运算数据。

图8示出此实施例的CoW结合InFO_SoW的加速器结构的剖面图。如图8所示，此加速器结构包括模块层801、线路层802、运算层803及散热模块804。

模块层801设置有电源模块晶粒组及接口模块晶粒组，电源模块晶粒组包括多个电源模块805，排列呈如图2所示的阵列状，对运算层803的CoW单元提供电源，接口模块晶粒组即为接口装置702，包括多个接口模块806，设置于电源模块晶粒组的四周，作为运算层803的CoW单元807的输入输出接口。

线路层802设置于运算层803及模块层801间，由下而上包括第一重布线层808、硅通孔809及第二重布线层810。第一重布线层808通过凸点811电性连接每个CoW单元807；硅通孔809设置于第一重布线层808及第二重布线层809间，用以连通第一重布线层808及第二重布线层810；第二重布线层810位于硅通孔809之上，通过焊球812电性连接模块层801中的电源模块晶粒组及接口模块晶粒组。

运算层803设置有多个CoW单元807，亦呈阵列状排列，如前所述，此实施例的CoW单元包括第一晶粒及第二晶粒，其中第一晶粒为片上系统301，第二晶粒为内存302，片上系统301与内存302可以依图3至图5所示的方式或其他方式排列。

第一重布线层808用以电性连接每个CoW单元807内的片上系统301及内存302，故片上系统301及内存302经由第一重布线层808、硅通孔809及第二重布线层810与模块层801电性连接。当电源模块晶粒组对CoW单元807供电时，电源信号会由电源模块805通过第二重布线层810、硅通孔809及第一重布线层808到达片上系统301及内存302。当CoW单元807运算产生计算结果欲输出时，计算结果会自片上系统301或内存302通过第一重布线层808、硅通孔809及第二重布线层810到达接口模块806，再由接口模块806输出至系统外。由于人工智能芯片的数据交换量十分庞大，此实施例的接口模块晶粒组为光模块，具体可以是光纤模块，将来自片上系统301或内存302的电信号转换成光信号输出。当CoW单元807需要自系统外载入数据时，数据被接口模块806由光信号转换成电信号，通过第二重布线层810、硅通孔809及第一重布线层808，存储在内存302中。

此外，此实施例的每个CoW单元807都可以经由第一重布线层808、硅通孔809及第二重布线层810与相邻的另一个CoW单元电性连接，彼此交换数据，使得所有CoW单元807可以连动协作以形成算力强大的加速器。

散热模块804位于运算层803下方，贴合于CoW单元807，用以对运算层803中的所有CoW单元807进行散热。散热模块804可以是水冷背板。该背板具有微通道的层，通过水泵使冷却剂流过这些通道以带走热量，或是利用氮化镓(GaN)切入下方的硅中，在蚀刻过程中通道被加宽，GaN层中的原始间隙被铜填充，在这些通道下设计有冷却剂管线，铜有助于将热量传导至冷却剂。

图9示出本发明的另一个实施例的CoW结合InFO_SoW的加速器结构的剖面图。如图9所示，此加速器结构包括模块层901、线路层902、运算层903及散热模块904，其中模块层901、运算层903、散热模块904的结构与图8的实施例中的相应元件的结构相同，故不赘述。

线路层902设置于运算层903及模块层901间，仅包括第一重布线层905及第二重布线层906，其中第一重布线层905的结构与第一重布线层808的结构相同，第二重布线层906的结构与第二重布线层810的结构相同。第一重布线层905及第二重布线层906直接相连，不利用硅通孔连通，这样的线路层902可以达到与线路层802同样的效果，但节省了生成硅通孔809的工序。

本发明的CoW单元不仅是如前述实施例所述的单层晶粒结构，还可以是多层纵向堆叠的晶粒组，即本发明的CoW单元包括第一晶粒组及第二晶粒组，其中第一晶粒组及第二晶粒组不仅为单层晶粒结构，更可以是多层纵向堆叠的结构。以下将针对多层纵向堆叠结构进行说明。

本发明的另一个实施例同样是CoW结合InFO_SoW的加速器结构，与前述实施例不同处在于，此实施例的CoW单元的第一晶粒组包括纵向堆叠的第一核层及第二核层，第二晶粒组为内存。图10示出此实施例的CoW单元的示意图，需特别注意的是，为方便说明，此图的视角为线路层在运算层的下方，而非如图8或图9所示的线路层在运算层的上方。

第一晶粒组包括第一核层1001与第二核层1002，实际上第一核层1001和第二核层1002纵向堆叠在一块，图10中的第一核层1001与第二核层1002视觉上为上下分离仅为了方便说明而以此方式展示。此实施例的CoW单元包括2个第二晶粒组，其为单晶粒的内存1003，更具体来说是高宽带内存。

第一核层1001包括第一运算区1011、第一晶粒对晶粒区1012及第一硅通孔1013。第一运算区1011生成有第一运算电路，以实现计算装置701的功能；第一晶粒对晶粒区1012生成有第一收发电路，用以作为第一运算电路的晶粒对晶粒接口；第一硅通孔1013用以在三维集成电路中实现堆叠晶粒的电性互连。第二核层1002包括第二运算区1021、第二晶粒对晶粒区1022及第二硅通孔1023。第二运算区1021生成有第二运算电路，以实现处理装置703的功能；第二晶粒对晶粒区1022生成有第二收发电路，用以作为第二运算电路的晶粒对晶粒接口；第二硅通孔1023同样用以在三维集成电路中实现堆叠晶粒的电性互连。

在此实施例中，第一运算区1011和第二运算区1021还分别生成有内存1014和内存1024，用以暂存第一运算电路与第二运算电路的运算结果。内存1014和内存1024直接设置在第一运算区1011和第二运算区1021内，不需经过中介层传导，其数据传输速率快，但存储空间有限。

第一核层1001还包括输入输出区1015及物理区1016，第二核层1002还包括输入输出区1025及物理区1026。输入输出区1015生成有输入输出电路，用以作为第一核层1001对外联系的接口，输入输出区1025生成有输入输出电路，用以作为第二核层1002对外联系的接口。物理区1016生成有物理访问电路，用以作为第一核层1001访问片外内存的接口，物理区1026生成有物理访问电路，用以作为第二核层1002访问片外内存的接口。

当计算装置701与处理装置703要进行数据交换时，第一运算电路及第二运算电路通过第一收发电路及第二收发电路进行层间数据传输。具体来说，数据通过以下路径到达处理装置703：第一运算区1011的第一运算电路→第一晶粒对晶粒区1012的第一收发电路→第一硅通孔1013→第二晶粒对晶粒区1022的第二收发电路→第二运算区1021的第二运算电路；当处理装置703欲传输数据至计算装置701时，数据通过以下路径到达：第二运算区1021的第二运算电路→第二晶粒对晶粒区1022第二收发电路→第一硅通孔1013→第一晶粒对晶粒区1012的第一收发电路→第一运算区1011的第一运算电路。

当计算装置701欲将数据存储至内存1003时，计算装置701的计算结果会通过物理区1016存储至内存1003，内存区1014通过物理访问电路将数据传输至内存1003。具体来说，数据通过以下路径到达内存1003：物理区1016的物理访问电路→第一硅通孔1013→第二硅通孔1023→线路层的第一重布线层1004；当内存1003欲传输数据至内存区1014供计算装置701进行处理时，数据通过前述的反向路径到达内存区1014。需注意的是，第一硅通孔1013与第二硅通孔1023中的部分特定硅通孔专门设计用来电性传导物理访问电路的数据。

当处理装置703欲将数据存储至内存1003时，当处理装置703的计算结果会通过物理区1026存储至内存1003，内存区1024通过物理访问电路将数据传输至内存1003。具体来说，数据通过以下路径到达内存1003：物理区1026的物理访问电路→第二硅通孔1023→线路层的第一重布线层1004；当内存1003欲传输数据至内存区1024供处理装置703进行处理时，数据通过前述的反向路径到达内存区1024。

当计算装置701的计算结果需要与运算层中的另一个CoW单元的第一晶粒组进行数据交换时，内存区1014通过输入输出电路将数据传输至另一个CoW单元的第一晶粒组。具体来说，数据通过以下路径到达另一个CoW单元：输入输出区1015的输入输出电路→第一硅通孔1013→第二硅通孔1023→线路层的第一重布线层1004→线路层的硅通孔1005→线路层的第二重布线层1006→线路层的硅通孔1005→线路层的第一重布线层1004；当另一个CoW单元的第一晶粒组欲传输数据至内存区1014时，数据通过前述的反向路径到达内存区1014。需注意的是，第一硅通孔1013与第二硅通孔1023中的部分特定硅通孔专门设计用来电性传导输入输出电路的数据。

当处理装置703的计算结果需要与另一个CoW单元的第一晶粒组进行数据交换时，内存区1024的数据通过以下路径到达另一个CoW单元的第一晶粒组：输入输出区1025的输入输出电路→第二硅通孔1023→线路层的第一重布线层1004→线路层的硅通孔1005→线路层的第二重布线层1006→线路层的硅通孔1005→线路层的第一重布线层1004；当另一个CoW单元的第一晶粒组欲传输数据至内存区1024时，数据通过前述的反向路径到达内存区1024。

本发明的另一个实施例同样是CoW结合InFO_SoW的加速器结构，此实施例的运算层的第一晶粒组包括纵向堆叠的第一核层、第二核层与内存层，第二晶粒组为内存。图11示出此实施例的CoW单元的示意图。

此实施例的第一晶粒组包括第一核层1101、第二核层1102与片上内存层1103，实际上第一核层1101、第二核层1102和片上内存层1103依序由上至下纵向堆叠在一块，图11中的各层视觉上为上下分离仅为了方便说明而以此方式展示。此实施例的CoW单元包括2个第二晶粒组，其为单晶粒的内存1104，更具体来说是高宽带内存。

第一核层1101包括第一运算区1111，实现计算装置701的功能，第一运算区1111布满第一核层1101的逻辑层，即图中第一核层1101的顶侧，第一核层1101在特定区域还包括第一晶粒对晶粒区1112及第一硅通孔1113。第二核层1102包括第二运算区1121，实现处理装置703的功能，第二运算区1121布满第二核层1102的逻辑层，即图中第二核层1102的顶侧，第二核层1102在特定区域还包括第二晶粒对晶粒区1122及第二硅通孔1123。第一晶粒对晶粒区1112与第二晶粒对晶粒区1122的位置上下相对。其功能与作用与前述实施例相同，故不赘述。

片上内存层1103包括内存区1131、第一输入输出区1132、第二输入输出区1133、第一物理区1134、第二物理区1135及第三硅通孔1136。内存区1131生成有存储单元，用以暂存第一运算电路或第二运算电路的运算结果，第一输入输出区1132生成有第一输入输出电路，用以作为第一运算电路对外联系的接口，第二输入输出区1133生成有第二输入输出电路，用以作为第二运算电路对外联系的接口，第一物理区1134生成有第一物理访问电路，用以将内存区1131中存储第一运算电路的计算结果发送至内存1104，第二物理区1135生成有第二物理访问电路，用以将内存区1131中存储第二运算电路的计算结果发送至内存1104。第三硅通孔1136遍布整个片上内存层1103，示例性仅显示于一侧。

当计算装置701与处理装置703要进行数据交换时，第一运算电路及第二运算电路通过第一收发电路及第二收发电路进行层间数据传输。具体来说，数据通过以下路径到达处理装置703：第一运算区1111的第一运算电路→第一晶粒对晶粒区1112的第一收发电路 →第一硅通孔1113→第二晶粒对晶粒区1122的第二收发电路→第二运算区1121的第二运算电路；当处理装置703欲传输数据至计算装置701时，数据通过前述的反向路径到达计算装置701。需注意的是，第一硅通孔1113中的部分特定硅通孔专门设计用来电性连接第一收发电路和第二收发电路。

当计算装置701的计算结果(暂存在内存区1131)需要存储至内存1104时，内存区1131是通过第一物理访问电路将数据传输至内存1104的。具体来说，数据通过以下路径到达内存1104：第一物理区1134的第一物理访问电路→第三硅通孔1136→线路层的第一重布线层1105；当内存1104欲传输数据至内存区1131供计算装置701进行处理时，数据通过前述的反向路径到达内存区1131。

当处理装置703的计算结果(暂存在内存区1131)需要存储至内存1104时，内存区1131是通过第二物理访问电路将数据传输至内存1104的。具体来说，数据通过以下路径到达内存1104：第二物理区1135的第二物理访问电路→第三硅通孔1136→线路层的第一重布线层1105；当内存1104欲传输数据至内存区1131供处理装置703进行处理时，数据通过前述的反向路径到达内存区1131。

需注意的是，第三硅通孔1136中的部分特定硅通孔专门设计用来电性传导第一物理访问电路及第二物理访问电路的数据。

当计算装置701的计算结果需要与另一个CoW单元的第一晶粒组进行数据交换时，内存区1131通过第一输入输出电路将数据传输至另一个CoW单元的第一晶粒组。具体来说，数据通过以下路径到达另一个CoW单元的第一晶粒组：第一输入输出区1132的输入输出电路→第三硅通孔1136→线路层的第一重布线层1105→线路层的硅通孔1106→线路层的第二重布线层1107→线路层的硅通孔1106→线路层的第一重布线层1105；当另一个CoW单元的第一晶粒组欲与计算装置701进行数据交换时，数据通过前述的反向路径到达内存区1131。

当处理装置703的计算结果需要与另一个CoW单元的第一晶粒组进行数据交换时，内存区1131通过第二输入输出电路将数据传输至另一个CoW单元的第一晶粒组。具体来说，数据通过以下路径到达另一个CoW单元的第一晶粒组：第二输入输出区1133的输入输出电路→第三硅通孔1136→线路层的第一重布线层1105→线路层的硅通孔1106→线路层的第二重布线层1107→线路层的硅通孔1106→线路层的第一重布线层1105；当另一个CoW单元的第一晶粒组欲与处理装置703进行数据交换时，数据通过前述的反向路径到达内存区1131。

需注意的是，第三硅通孔1136中的部分特定硅通孔专门设计用来电性传导第一及第二输入输出电路的数据。

本发明并不限制第一晶粒组与第二晶粒组中纵向堆叠晶粒的数量与功能，例如第一晶粒组还可以包括自上而下堆叠的第一核层、第一内存层、第二核层及第二内存层，或是第一晶粒组包括自上而下堆叠的第一核层、第一内存层、第二核层、第二内存层、第三内存层及第四内存层。基于前述实施例的说明，本领域技术人员无需创造性的努力便可知悉第一晶粒组与第二晶粒组的各种组合的电性关系，故不赘述。

由上述说明可知，本发明的片上系统可以在第一晶粒组中纵向地与其他片上系统联系，亦可以横向地向其他CoW单元中的第一晶粒组的片上系统联系，布建出三维的运算处理器核。

上述各实施例的加速器结构的CoW单元排列成阵列状，基于InFO_SoW的技术使得CoW单元可以高效地与其周围的CoW单元协作。一般来说，神经网络模型计算的一个任务会交给一个这样的加速器结构来处理，首先任务会被切割成多个子任务，每个第一晶粒组分别指派一个子任务。在进行子任务分配时，可以规划让靠近阵列中央的CoW单元将中间结果向周围邻近的CoW单元传递，依次累加计算，直到最外围的CoW单元计算出整个任务的计算结果，其计算结果通过接口模块晶粒组的接口模块直接输出。如图2所示，由于接口模块132位于这个加速器结构的外侧，当中间结果自阵列中央往周围累加计算时，最终最外围的CoW单元将获得该任务的计算结果，其计算结果直接通过紧邻的接口模块132输出，这样的任务安排使得数据的传递路径更加精简高效。

本发明的另一个实施例是一种生成加速器结构的方法，更详细来说是生成前述各实施例的加速器结构的方法。此实施例首先生成线路层，接着在在线路层的一侧生成运算层，运算层设置有多个CoW单元，每个CoW单元包括第一晶粒组及第二晶粒组，并在所述层的另一侧生成模块层，模块层设置有电源模块晶粒组及接口模块晶粒组。电源模块晶粒组通过线路层向第一晶粒组及第二晶粒组提供电源，第一晶粒组及第二晶粒组经由线路层通过接口模块晶粒组输出计算结果。图12示出此实施例的流程图。

在步骤1201中，生成线路层的第一部分，即在InFO晶圆上生成图8的线路层802中的第一重布线层808及硅通孔809。此步骤进一步细化成图13的流程图。

在步骤1301中，同时参考图14，在晶圆1401上生成多个硅通孔1402。硅通孔技术是一项高密度封装技术，通过铜、钨、多晶硅等导电物质的填充，实现硅通孔1402的垂直电气互连，进而减小互联长度、降低信号延迟，实现晶片间的低功耗、高速通讯、增加宽带和实现器件集成的小型化。

在步骤1302中，在多个硅通孔1402的一侧生成第一重布线层1403。第一重布线层1403是将晶粒的触点(即晶粒的输出/出入端)通过晶圆级金属布线制程和改变其触点位置，使晶粒能适用于不同的封装形式。简而言之就是在晶圆1401上沉积金属层和介质层并形成相应的立体金属布线图形，用来对晶粒的输出/出入端进行重新布局，以进行电气信号传导，使得晶粒布局更为灵活。在设计第一重布线层1403时，需要在相邻两层电气特性相同的纵横交错的金属布线重叠位置增加通孔，以保证上下层之间的电气连接，因此第一重布线层1403是将多个晶粒间的电性连接以立体传导结构实现，进而减少布局面积。

在步骤1303中，在第一重布线层1403上生成多个凸点(bump)1404。实务上凸点1404为锡球，锡球工艺常用的有:蒸发(evaporation)、电镀(electroplating)、印刷(screen printing)或针孔沉积(needle depositing)等。在此实施例中，锡球不直接与第一重布线层1403里的金属线连接，而是以凸点下金属(under bump metallization，UBM)桥接，以提升黏着力，凸点下金属通常采用溅镀或电镀的方式实现。至此已生成图8的线路层802中的第一重布线层808及硅通孔809。

回到图12，在步骤1202中，在线路层的一侧生成图8的运算层803。如前述实施例所描述，运算层设置有多个CoW单元，每个CoW单元包括第一晶粒组及第二晶粒组。此步骤进一步细化成图15的流程。

在步骤1501中，设置第一晶粒组(即片上系统)于CoW单元的核心位置。在步骤1502中，设置第二晶粒组(即内存)于片上系统的两侧。此二步骤即是实现如图3至图5所示的CoW单元布局规划。具体来说，此实施例的CoW单元包括第一晶粒组与第二晶粒组，其中第一晶粒组为片上系统301，第二晶粒组为内存302，内存302为高宽带内存。

在步骤1503中，芯片贴装多个CoW单元，其中第一晶粒组及第二晶粒组分别电性接触多个凸点1404。如图16所示，CoW单元1601包括片上系统301及内存302，芯片贴装于第一重布线层1403上，且片上系统301及内存302的触点电性接触凸点1404。芯片贴装CoW单元1601的数量由晶圆1401的尺寸而定。

在步骤1504中，底部填充(underfill)第一晶粒组及第二晶粒组。如图16所示，底部填充主要通过非接触喷射式点胶来产生封胶1602，封胶1602为第一晶粒组及第二晶粒组的触点和凸点1404提供密封效果，避免了触点和凸点1404因与杂质接触所产生的电性干扰，这样的结构具备了更佳的可靠性。

在步骤1505中，生成压膜塑料以覆盖多个CoW单元1601。图17示出生成压膜塑料后的结构图，如图17所示，压膜塑料1701覆盖了所有的CoW单元1601，以起到保护整体结构的效果。

在步骤1506中，研磨(grind)压膜塑料1701以露出多个CoW单元1601的表面。在步骤1507中，化学机械抛光(CMP)研磨后的表面。如图18所示，在化学机械抛光压膜塑料1701后，CoW单元1601的表面(顶面)曝露在空气中。至此完成运算层的生成。

回到图12，接着执行步骤1203，执行晶圆测试。此步骤进一步细化成图19的流程图。

在步骤1901中，在CoW单元1601的表面接合第一玻璃。在步骤1902中，翻转晶圆1401，使得第一玻璃位于晶圆1401的下方。图20示出翻转后的结构图，如图20所示，第一玻璃2001与CoW单元1601的表面贴合，翻转后作为基座以支撑晶圆1401及基于晶圆1401所生成的各种半导体结构，包括CoW单元1601，以方便后续工序对晶圆1401的底部(即图20中晶圆1401的上方)进行加工。

在步骤1903中，研磨晶圆1401以露出多个硅通孔1402。在步骤1904中，化学机械抛光研磨后的晶圆。图21示出化学机械抛光后的剖面图，如图21所示，硅通孔1402的顶面露出于晶圆1401外。

在步骤1905中，沉积绝缘层于晶圆1401上并露出多个硅通孔1402。在此步骤中，利用光罩遮住硅通孔1402的顶面，再沉积绝缘层于上，绝缘层的材质可以是氮化硅。图22示出沉积绝缘层后的结构图，如图22所示，由于光罩遮住硅通孔1402的顶面，故在沉积绝缘层2201后，硅通孔1402的顶面依旧曝露于空气中。

在步骤1906中，在绝缘层1301上生成多个金属点，这些金属点适当地电性接触多个硅通孔1402的至少其中之一，以作为供探针电性接触的晶圆测试点。图23示出生成金属点2301后的结构图，如图23所示，每个硅通孔1402均连接1个金属点2301，以作为晶圆测试点，供晶圆测试的探针接触之用。

在此实施例中，晶圆测试的可测试性内容包括扫描测试、边界扫描测试、存储器测试、直流/交流测试、射频测试及其他功能测试。扫描测试用于检测第一晶粒组及第二晶粒组的逻辑功能；边界扫描测试用于检测第一晶粒组及第二晶粒组的管脚功能；存储器测试则是对晶粒组里的各种类型的存储器(例如内存)的读写和存储功能进行测试；直流/交流测试包括第一晶粒组及第二晶粒组接脚及电源接脚的信号测试，以及判断直流电流和电压参数是否符合设计规格；射频测试则是针对CoW单元中的晶粒组(如果该晶粒组为射频集成电路)来检测射频模块的逻辑功能；其他功能测试用于检测第一晶粒组及第二晶粒组其他重要或定制化的功能和性能是否符合设计规格。

整片晶圆的测试结果会生成一份晶圆图(wafer map)文件，而数据归结成一个数据日志(datalog)。晶圆图记录包含良率、测试时间、各分类的错误数和CoW单元的位置，数据日志则是具体的测试结果。通过分析这些数据，便可识别残次CoW单元的数量与位置。

回到图12，接着执行步骤1204，切割每个以CoW单元为单位的运算层及接线层。在本文中，以CoW单元为单位的运算层及接线层称为CoW晶粒，在此步骤中，将晶圆1401上CoW晶粒切割下来，并根据晶圆测试的结果，留下包括合格的CoW单元的CoW晶粒，淘汰包括残次CoW单元的CoW晶粒。

在步骤1205中，在第二玻璃上贴合多个CoW晶粒。在贴合时，CoW晶粒的数量与位置根据加速器的功能与需求进行规划，例如在300mm×300mm的范围内设置5×5的CoW晶粒阵列，如图24所示，在300mm×300mm的第二玻璃2401上贴合25个CoW晶粒2402，以形成5×5的CoW单元阵列。图25示出CoW晶粒2402贴合在第二玻璃2401后的剖面图。

在步骤1206中，生成压膜塑料以覆盖CoW晶粒。图26示出生成压膜塑料后的结构图，如图26所示，压膜塑料2601覆盖了所有的CoW晶粒2402，以起到保护整体结构的效果。

在步骤1207中，研磨覆盖多个CoW晶粒的压膜塑料以露出多个硅通孔的表面。如图26所示，在研磨压膜塑料2601后，绝缘层2201与金属点2301被去除掉，使得硅通孔1402的表面(顶面)曝露在空气中。

在步骤1208中，化学机械抛光研磨后的表面。图27示出化学机械抛光后的剖面图。

在步骤1209中，生成线路层的第二部分。在此步骤中，在多个硅通孔的另一侧生成第二重布线层，以完成整个线路层。图28示出完成整个线路层后的剖面图，图中的第二重布线层2801即为图8的第二重布线层810。

在步骤1210中，在线路层的另一侧生成模块层。首先在第二重布线层上形成焊球，接着芯片贴合电源模块晶粒组及接口模块晶粒组，焊球电性连接第二重布线层与电源模块晶粒组及接口模块晶粒组。图29示出生成模块层后的剖面图，图中显示焊球2901(即图8的焊球812)电性连接第二重布线层2801与电源模块晶粒组的电源模块805及接口模块晶粒组的接口模块806，电源模块晶粒组通过线路层向第一晶粒组及第二晶粒组提供电源，第一晶粒组及第二晶粒组经由线路层通过接口模块晶粒组输出计算结果。

在步骤1211中，翻转并去除第二玻璃。在步骤1212中，在运算层侧贴合散热模块。图30示出贴合散热模块3001(即图8的散热模块804)后的剖面图。至此已完成整个加速器结构。

在步骤1213中，根据InFO_SoW技术，将图30的结构进行封装，便可实现单体的加速器芯片。

以上是针对生成图8的结构为例进行说明。如欲生成图9的结构，由于图9的结构与图8的结构的差异仅在于线路层的硅通孔，故上述各流程仅需省略步骤1301，其余步骤均执行即可生成图9的结构。

本发明的另一个实施例同样是一种生成加速器结构的方法，图31示出此实施例的流程图。此实施例的CoW单元同样包括第一晶粒组及第二晶粒组，第一晶粒组为上述的片上系统，第二晶粒组为上述的内存。

在步骤3101中，设置第一晶粒组(即片上系统)于CoW单元的核心位置。在步骤3102中，设置第二晶粒组(即内存)于片上系统的两侧。在步骤3103中，芯片贴装多个CoW单元于第一玻璃上。在步骤3104中，生成压膜塑料以覆盖多个CoW单元。在步骤3105中，研磨压膜塑料以露出多个CoW单元的表面。在步骤3106中，化学机械抛光研磨后的表面。在步骤3107中，在CoW单元的表面生成第一重布线层，其中第一晶粒组及第二晶粒组的接点直接电性接触第一重布线层的接点。

接着执行晶圆测试。在步骤3108中，在第一重布线层另一侧的接点上生成多个金属点，这些金属点适当地电性接触第一重布线层的接点的至少其中之一，以作为供探针电性接触的晶圆测试点。

在晶圆测试后，接着执行步骤3109，翻转晶圆，使得第一玻璃位于上方。在步骤3110中，去除第一玻璃。在步骤3111中，切割每个CoW晶粒。在步骤3112中，在第二玻璃上贴合多个合格的CoW晶粒。在步骤3113中，生成压膜塑料以覆盖CoW晶粒。在步骤3114中，研磨覆盖多个CoW晶粒的压膜塑料以露出金属点。在步骤3115中，化学机械抛光研磨后的表面。在步骤3116中，生成线路层的第二重布线层，第二重布线层的接点电性连接金属点，以完成整个线路层。在步骤3117中，在线路层上生成模块层。首先在第二重布线层上形成焊球，接着芯片贴合电源模块晶粒组及接口模块晶粒组，焊球电性连接第二重布线层与电源模块晶粒组及接口模块晶粒组。在步骤3118中，翻转并去除第二玻璃。在步骤3119中，在运算层侧贴合散热模块。在步骤3120中，封装整个加速器结构，以实现单体的加速器芯片。

图32示出此实施例的加速器结构的剖面图。与图30的加速器结构不同处在于：此实施例在第一重布线层上未设有凸点，直接将第一晶粒组及第二晶粒组的接点电性接触第一重布线层的接点，故不需要在第一晶粒组及第二晶粒组的底部填充封胶，用压膜塑料以覆盖CoW单元即可；此实施例未在线路层生成硅通孔，第一重布线层及第二重布线层相连，不利用硅通孔连通，以节省了生成硅通孔的工序。

本发明的另一个实施例是一种计算机可读存储介质，其上存储有生成加速器结构的计算机程序代码，当计算机程序代码由处理装置运行时，执行图12、图13、图15、图19及图31所述的方法。本发明的另一个实施例是一种计算机程序产品，包括生成加速器结构的计算机程序，其特征在于，所述计算机程序被处理器执行时实现图12、图13、图15、图19及图31所述方法的步骤。本发明的另一个实施例是一种计算机装置，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现图12、图13、图15、图19及图31所述方法的步骤。

由于芯片领域的高速发展，特别是人工智能领域对于加速器的超大算力的需求，本发明将CoW技术整合至InFO_SoW技术可以实现芯片大量集成，本发明代表了芯片领域，特别是人工智能加速器领域发展趋势。不仅如此，本发明利用CoW技术的芯片垂直整合能力，纵向堆叠晶粒，以形成晶粒组，再利用SoW技术在水平方向上铺开晶粒组，使得晶粒组中的处理器核(即前述的片上系统)在这个加速器中呈现三维排列，每个处理器核可以与三维中邻近的其他处理器协作，大大提升加速器处理数据的能力及速度，达到集成超大运算能力的技术效果。

需要说明的是，为了简明的目的，本发明将一些方法及其实施例表述为一系列的动作及其组合，但是本领域技术人员可以理解本发明的方案并不受所描述的动作的顺序限制。因此，依据本发明的公开或教导，本领域技术人员可以理解其中的某些步骤可以采用其他顺序来执行或者同时执行。进一步，本领域技术人员可以理解本发明所描述的实施例可以视为可选实施例，即其中所涉及的动作或模块对于本发明某个或某些方案的实现并不一定是必需的。另外，根据方案的不同，本发明对一些实施例的描述也各有侧重。鉴于此，本领域技术人员可以理解本发明某个实施例中没有详述的部分，也可以参见其他实施例的相关描述。

在具体实现方面，基于本发明的公开和教导，本领域技术人员可以理解本发明所公开的若干实施例也可以通过本文未公开的其他方式来实现。例如，就前文所述的电子设备或装置实施例中的各个单元来说，本文在考虑了逻辑功能的基础上对其进行拆分，而实际实现时也可以有另外的拆分方式。又例如，可以将多个单元或组件结合或者集成到另一个系统，或者对单元或组件中的一些特征或功能进行选择性地禁用。就不同单元或组件之间的连接关系而言，前文结合附图所讨论的连接可以是单元或组件之间的直接或间接耦合。在一些场景中，前述的直接或间接耦合涉及利用接口的通信连接，其中通信接口可以支持电性、光学、声学、磁性或其它形式的信号传输。

在另外一些实现场景中，上述集成的单元也可以采用硬件的形式实现，即为具体的硬件电路，其可以包括数字电路和/或模拟电路等。电路的硬件结构的物理实现可以包括但不限于物理器件，而物理器件可以包括但不限于晶体管或忆阻器等器件。鉴于此，本文所述的各类装置(例如计算装置或其他处理装置)可以通过适当的硬件处理器来实现，例如核心处理器、GPU、FPGA、DSP和ASIC等。进一步，前述的所述存储单元或存储装置可以是任意适当的存储介质(包括磁存储介质或磁光存储介质等)，其例如可以是可变电阻式存储器(Resistive Random Access Memory，RRAM)、动态随机存取存储器(Dynamic Random Access Memory，DRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、增强动态随机存取存储器(Enhanced Dynamic Random Access Memory，EDRAM)、高带宽存储器(High Bandwidth Memory，HBM)、混合存储器立方体(Hybrid Memory Cube， HMC)、ROM和RAM等。

依据以下条款可更好地理解前述内容：

条款A1.一种加速器结构，包括：运算层，设置有多个芯片对晶圆单元，每个芯片对晶圆单元包括第一晶粒组及第二晶粒组；模块层，设置有电源模块晶粒组及接口模块晶粒组；以及线路层，设置于所述运算层及所述模块层间；其中，所述电源模块晶粒组通过所述线路层向所述第一晶粒组及所述第二晶粒组提供电源；其中，所述第一晶粒组及所述第二晶粒组经由所述线路层通过所述接口模块晶粒组输出计算结果。

条款A2.根据条款A1所述的加速器结构，还包括散热模块，与所述运算层相邻，用以对所述多个芯片对晶圆单元散热。

条款A3.根据条款A1所述的加速器结构，其中所述线路层设置有第一重布线层，用以电性连接每个芯片对晶圆单元内的所述第一晶粒组及所述第二晶粒组。

条款A4.根据条款A3所述的加速器结构，其中所述线路层还设置有硅通孔及第二重布线层，所述硅通孔设置于所述第一重布线层及所述第二重布线层间，所述第一晶粒组及所述第二晶粒组经由所述第一重布线层、所述硅通孔及所述第二重布线层与所述模块层电性连接。

条款A5.根据条款A4所述的加速器结构，其中每个芯片对晶圆单元经由所述第一重布线层、所述硅通孔及所述第二重布线层与另一个芯片对晶圆单元电性连接。

条款A6.根据条款A1所述的加速器结构，其中所述接口模块晶粒组将来自所述第一晶粒组或所述第二晶粒组的电信号转换成光信号输出。

条款A7.根据条款A1所述的加速器结构，其中所述第一晶粒组为片上系统，所述第二晶粒组为内存。

条款A8.根据条款A1所述的加速器结构，其中所述第一晶粒组包括纵向堆叠的片上系统及片上内存，所述第二晶粒组为内存。

条款A9.根据条款A1所述的加速器结构，其中所述第一晶粒组包括纵向堆叠的第一核层及第二核层，所述第二晶粒组为内存。

条款A10.根据条款A7、8或9所述的加速器结构，其中所述内存为高宽带内存。

条款A11.根据条款A9所述的加速器结构，其中所述第一核层包括：第一运算区，生成有第一运算电路；以及第一晶粒组对晶粒组区，生成有第一收发电路；所述第二核层，包括：第二运算区，生成有第二运算电路；以及第二晶粒组对晶粒组区，生成有第二收发电路；其中，所述第一运算电路及所述第二运算电路通过所述第一收发电路及所述第二收发电路进行所述第一晶粒组内的数据传输。

条款A12.根据条款A11所述的加速器结构，其中所述第一核层还包括物理区，生成有物理访问电路，用以访问所述内存。

条款A13.根据条款A11所述的加速器结构，其中所述第一核层还包括输入输出区，生成有输入输出电路，用以作为与另一个芯片对晶圆单元的第一晶粒组电性连接的接口。

条款A14.根据条款A13所述的加速器结构，其中所述多个芯片对晶圆单元排列成阵列状，靠近阵列中央的芯片对晶圆单元将中间结果向周围邻近的芯片对晶圆单元传递运算，供最外围的芯片对晶圆单元计算出所述计算结果，所述计算结果通过所述接口模块晶粒组输出。

条款A15.一种集成电路装置，包括根据条款A1至14任一项所述的加速器结构。

条款A16.一种板卡，包括根据条款A15所述的集成电路装置。

条款A17.一种生成加速器结构的方法，包括：生成线路层；在所述线路层的一侧生成运算层，所述运算层设置有多个CoW单元，每个CoW单元包括第一晶粒组及第二晶粒组；以及在所述线路层的另一侧生成模块层，所述模块层设置有电源模块晶粒组及接口晶粒组；其中，所述电源模块晶粒组通过所述线路层向所述第一晶粒组及所述第二晶粒组提供电源；其中，所述第一晶粒组及所述第二晶粒组经由所述线路层通过所述接口晶粒组输出计算结果。

条款A18.根据条款A17所述的方法，其中所述生成线路层的步骤包括：在晶圆上生成多个硅通孔；在所述多个硅通孔的一侧生成第一重布线层；以及在所述第一重布线层上生成多个凸点。

条款A19.根据条款A18所述的方法，其中所述生成运算层的步骤包括：芯片贴装所述多个CoW单元，其中所述第一晶粒组及所述第二晶粒组分别电性接触所述多个凸点。

条款A20.根据条款A19所述的方法，其中所述生成运算层的步骤还包括：底部填充所述第一晶粒组及所述第二晶粒组；以及生成压膜塑料以覆盖所述多个CoW单元。

条款A21.根据条款A20所述的方法，其中所述生成运算层的步骤还包括：研磨所述压膜塑料以露出所述多个CoW单元的表面；以及化学机械抛光研磨后的表面。

条款A22.根据条款A21所述的方法，还包括：执行晶圆测试。

条款A23.根据条款A22所述的方法，其中所述执行晶圆测试的步骤包括：在所述表面上接合第一玻璃；以及翻转所述晶圆。

条款A24.根据条款A23所述的方法，其中所述执行晶圆测试的步骤还包括：研磨所述晶圆以露出所述多个硅通孔；以及化学机械抛光研磨后的晶圆。

条款A25.根据条款A24所述的方法，其中所述执行晶圆测试的步骤还包括：沉积绝缘层于所述晶圆上并露出所述多个硅通孔；以及在所述绝缘层上生成多个金属点，所述多个金属点电性接触所述多个硅通孔的至少其中之一，以作为晶圆测试点。

条款A26.根据条款A21所述的方法，还包括：切割每个以所述CoW单元为单位的运算层及接线层，以形成CoW晶粒；在第二玻璃上贴合多个所述CoW晶粒；以及生成压膜塑料以覆盖所述多个CoW晶粒。

条款A27.根据条款A26所述的方法，还包括：研磨覆盖所述多个CoW晶粒的所述压膜塑料以露出所述多个CoW单元的表面；以及化学机械抛光研磨后的表面。

条款A28.根据条款A27所述的方法，其中所述生成线路层的步骤还包括：在所述多个硅通孔的另一侧生成第二重布线层。

条款A29.根据条款A28所述的方法，其中所述生成模块层的步骤包括：在所述第二重布线层上形成焊球；以及芯片贴合所述电源模块晶粒组及所述接口晶粒组；其中，所述焊球电性连接所述第二重布线层与所述电源模块晶粒组及所述接口晶粒组。

条款A30.根据条款A29所述的方法，还包括：翻转并去除所述第二玻璃；以及在所述运算层侧贴合散热模块。

条款A31.一种计算机可读存储介质，其上存储有生成加速器结构的计算机程序代码，当所述计算机程序代码由处理装置运行时，执行条款A17至30任一项所述的方法。

条款A32.一种计算机程序产品，包括生成加速器结构的计算机程序，其特征在于，所述计算机程序被处理器执行时实现条款A17至30任一项所述方法的步骤。

条款A33.一种计算机装置，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现条款A17至30任一项所述方法的步骤。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种加速器结构，包括：

运算层，设置有多个芯片对晶圆单元，每个芯片对晶圆单元包括第一晶粒组及第二晶粒组；

模块层，设置有电源模块晶粒组及接口模块晶粒组；以及

线路层，设置于所述运算层及所述模块层间；

其中，所述电源模块晶粒组通过所述线路层向所述第一晶粒组及所述第二晶粒组提供电源；

其中，所述第一晶粒组及所述第二晶粒组经由所述线路层通过所述接口模块晶粒组输出计算结果。
根据权利要求1所述的加速器结构，还包括散热模块，与所述运算层相邻，用以对所述多个芯片对晶圆单元散热。
根据权利要求1所述的加速器结构，其中所述线路层设置有第一重布线层，用以电性连接每个芯片对晶圆单元内的所述第一晶粒组及所述第二晶粒组。
根据权利要求3所述的加速器结构，其中所述线路层还设置有硅通孔及第二重布线层，所述硅通孔设置于所述第一重布线层及所述第二重布线层间，所述第一晶粒组及所述第二晶粒组经由所述第一重布线层、所述硅通孔及所述第二重布线层与所述模块层电性连接。
根据权利要求4所述的加速器结构，其中每个芯片对晶圆单元经由所述第一重布线层、所述硅通孔及所述第二重布线层与另一个芯片对晶圆单元电性连接。
根据权利要求1所述的加速器结构，其中所述接口模块晶粒组将来自所述第一晶粒组或所述第二晶粒组的电信号转换成光信号输出。
根据权利要求1所述的加速器结构，其中所述第一晶粒组为片上系统，所述第二晶粒组为内存。
根据权利要求1所述的加速器结构，其中所述第一晶粒组包括纵向堆叠的片上系统及片上内存，所述第二晶粒组为内存。
根据权利要求1所述的加速器结构，其中所述第一晶粒组包括纵向堆叠的第一核层及第二核层，所述第二晶粒组为内存。
根据权利要求7、8或9所述的加速器结构，其中所述内存为高宽带内存。
根据权利要求9所述的加速器结构，其中所述第一核层包括：

第一运算区，生成有第一运算电路；以及

第一晶粒组对晶粒组区，生成有第一收发电路；

所述第二核层，包括：

第二运算区，生成有第二运算电路；以及

第二晶粒组对晶粒组区，生成有第二收发电路；

其中，所述第一运算电路及所述第二运算电路通过所述第一收发电路及所述第二收发电路进行所述第一晶粒组内的数据传输。
根据权利要求11所述的加速器结构，其中所述第一核层还包括物理区，生成有物理访问电路，用以访问所述内存。
根据权利要求11所述的加速器结构，其中所述第一核层还包括输入输出区，生成有输入输出电路，用以作为与另一个芯片对晶圆单元的第一晶粒组电性连接的接口。
根据权利要求13所述的加速器结构，其中所述多个芯片对晶圆单元排列成阵列状，靠近阵列中央的芯片对晶圆单元将中间结果向周围邻近的芯片对晶圆单元传递运算，供最外围的芯片对晶圆单元计算出所述计算结果，所述计算结果通过所述接口模块晶粒组输出。
一种集成电路装置，包括根据权利要求1至14任一项所述的加速器结构。
一种板卡，包括根据权利要求15所述的集成电路装置。
一种生成加速器结构的方法，包括：

生成线路层；

在所述线路层的一侧生成运算层，所述运算层设置有多个CoW单元，每个CoW单元包括第一晶粒组及第二晶粒组；以及

在所述线路层的另一侧生成模块层，所述模块层设置有电源模块晶粒组及接口晶粒组；

其中，所述电源模块晶粒组通过所述线路层向所述第一晶粒组及所述第二晶粒组提供电源；

其中，所述第一晶粒组及所述第二晶粒组经由所述线路层通过所述接口晶粒组输出计算结果。
根据权利要求17所述的方法，其中所述生成线路层的步骤包括：

在晶圆上生成多个硅通孔；

在所述多个硅通孔的一侧生成第一重布线层；以及

在所述第一重布线层上生成多个凸点。
根据权利要求18所述的方法，其中所述生成运算层的步骤包括：

芯片贴装所述多个CoW单元，其中所述第一晶粒组及所述第二晶粒组分别电性接触所述多个凸点。
根据权利要求19所述的方法，其中所述生成运算层的步骤还包括：

底部填充所述第一晶粒组及所述第二晶粒组；以及

生成压膜塑料以覆盖所述多个CoW单元。
根据权利要求20所述的方法，其中所述生成运算层的步骤还包括：

研磨所述压膜塑料以露出所述多个CoW单元的表面；以及

化学机械抛光研磨后的表面。
根据权利要求21所述的方法，还包括：

执行晶圆测试。
根据权利要求22所述的方法，其中所述执行晶圆测试的步骤包括：

在所述表面上接合第一玻璃；以及

翻转所述晶圆。
根据权利要求23所述的方法，其中所述执行晶圆测试的步骤还包括：

研磨所述晶圆以露出所述多个硅通孔；以及

化学机械抛光研磨后的晶圆。
根据权利要求24所述的方法，其中所述执行晶圆测试的步骤还包括：

沉积绝缘层于所述晶圆上并露出所述多个硅通孔；以及

在所述绝缘层上生成多个金属点，所述多个金属点电性接触所述多个硅通孔的至少其中之一，以作为晶圆测试点。
根据权利要求21所述的方法，还包括：

切割每个以所述CoW单元为单位的运算层及接线层，以形成CoW晶粒；

在第二玻璃上贴合多个所述CoW晶粒；以及

生成压膜塑料以覆盖所述多个CoW晶粒。
根据权利要求26所述的方法，还包括：

研磨覆盖所述多个CoW晶粒的所述压膜塑料以露出所述多个CoW单元的表面；以及

化学机械抛光研磨后的表面。
根据权利要求27所述的方法，其中所述生成线路层的步骤还包括：

在所述多个硅通孔的另一侧生成第二重布线层。
根据权利要求28所述的方法，其中所述生成模块层的步骤包括：

在所述第二重布线层上形成焊球；以及

芯片贴合所述电源模块晶粒组及所述接口晶粒组；

其中，所述焊球电性连接所述第二重布线层与所述电源模块晶粒组及所述接口晶粒组。
根据权利要求29所述的方法，还包括：

翻转并去除所述第二玻璃；以及

在所述运算层侧贴合散热模块。
一种计算机可读存储介质，其上存储有生成加速器结构的计算机程序代码，当所述计算机程序代码由处理装置运行时，执行权利要求17至30任一项所述的方法。
一种计算机程序产品，包括生成加速器结构的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求17至30任一项所述方法的步骤。
一种计算机装置，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求17至30任一项所述方法的步骤。