WO2022099573A1

WO2022099573A1 - 一种面向亿级类脑计算机的芯片扩展方法

Info

Publication number: WO2022099573A1
Application number: PCT/CN2020/128505
Authority: WO
Inventors: 马德; 戴书画; 李一涛; 潘纲
Original assignee: 浙江大学
Priority date: 2020-11-12
Filing date: 2020-11-13
Publication date: 2022-05-19
Also published as: CN112269751A; CN112269751B

Abstract

本发明公开了一种面向亿级类脑计算机的芯片扩展方法，包括以下步骤：通过以太网通信模块为所述面向亿级神经元类脑计算机拓展连接多个芯片簇，组成计算集群；通过数据中转站为每个芯片簇拓展连接多个芯片阵列；通过异步数据通信模块为每个芯片阵列拓展连接矩阵排列的多个类脑计算芯片，每个类脑计算芯片包含以矩阵排列的多个计算神经元节点。该芯片扩展方法高效率、灵活、且具有层次化，能够将类脑计算芯片神经元规模提升至上亿级别。

Description

一种面向亿级类脑计算机的芯片扩展方法

技术领域

本发明属于人工智能计算芯片领域，具体涉及一种面向亿级类脑计算机的芯片扩展方法。

背景技术

随着摩尔定律的到达物理器件的瓶颈，传统的冯诺依曼体系结构的计算机由于“内存墙”、“功耗墙”等原因，其计算性能已经无法维持高速的增长。如何在提高计算性能的同时降低功耗成为一个日益严峻的问题。随后人们将目光转向了人脑，人脑是一个高度发达的计算体系结构，其在完成高性能的计算的同时，仅仅用了不到20W的功耗。同时人脑在形象认知方面有其独特的优越性，也具有传统计算机架构无可比拟的鲁棒性、容错率。人类的大脑由许许多多的神经元组成，具有突触、轴突、胞体等结构，近些年来兴起的人工神经网络是对人脑结构的模仿，抽象出其层级结构和神经元互联的特性。人工神经网络虽然实现了较好的计算性能，但是消耗了大量的能量。因此人们对人脑进行生物级的模仿，产生了类脑计算芯片。

类脑计算芯片从根本上解决了传统冯诺依曼架构“内存墙”的问题。类脑计算芯片采用片上网络(NoC)作为其通信架构，使用网格式拓扑结构，每个路由器上挂载一个计算单元。每个计算单元都拥有自己的本地存储。这种存算一体的结构大大减少了数据的搬运所消耗的时间和功耗，并且将计算分布在各个节点，进行大规模的并行计算，进一步提高了计算效率。类脑计算硬件设备最大的优势就是低功耗，因此它可以应用到对能效要求较高的领域，如智能穿戴设备及物联网技术等。

脉冲神经网络是类脑计算芯片的算法基石。神经学家认为大脑拥有如此出色的性能主要基于三个特性：大量而又广泛的连接、同时具有时间和空间特性的信息传递方式和本地存储的突触结构。脉冲神经网络正是应用这三个特性而诞生的第三代神经网络，相较于现行的深度神经网络，它采用时序脉冲作为信息传递的媒介，其算法本身具有事务驱动的特性，符合硬件低功耗设计的思想，易于硬件实现。脉冲神经网络大部分采用小样本、无监督式学习方法，相较于深度神经网络的学习数据量需求较小，计算流程较短，容错率和鲁棒性较高。脉冲神经网络对有认知型任务有着独特的优势，实现脉冲神经网络计算硬件也是对传统计算机的补充与突破。

人脑的单个神经元只有简单的功能，但是上亿个神经元组成一个庞大的神经元计算集群，通过简单的学习便可以完成各式各样的复杂任务。因此，类脑计算芯片的大规模扩展仍然该领域发展进程上的关键问题，芯片间的通信效率和芯片群的协调与管理都是规模扩展的瓶颈之处。

发明内容

本发明的目的就是提供一种面向亿级类脑计算机的芯片扩展方法，该芯片扩展方法高效率、灵活、且具有层次化，能够将类脑计算芯片规模提升至上亿级别。

为实现上述发明目的，本发明提供的技术方案为：

一种面向亿级类脑计算机的芯片扩展方法，包括以下步骤：

通过以太网通信模块为所述面向亿级神经元类脑计算机拓展连接多个芯片簇，组成计算集群；

通过数据中转站为每个芯片簇拓展连接多个芯片阵列；

通过异步数据通信模块为每个芯片阵列拓展连接矩阵排列的多个类脑计算芯片，每个类脑计算芯片包含以矩阵排列的多个计算神经元节点。

所述异步数据通信模块作为每个类脑计算芯片的通信桥梁，包括异步收发接口、并行分发单元、串行仲裁单元；

所述异步收发接口异步接收和发送传输数据；

所述并行分发单元解析异步接收的传输数据，并请求对应计算神经元节点的数据注入许可后，将传输数据并行注入类脑计算芯片的计算神经元节点中；

所述串行仲裁单元将多个计算神经元节点并行输出的结果数据归并到一个串行队列中作为传输数据。

优选地，所述异步数据通信模块作为每个类脑计算芯片的通信桥梁，包括异步收发接口、并行分发单元、串行仲裁单元；

所述异步收发接口异步接收和发送传输数据；

所述串行仲裁单元将多个计算神经元节点并行输出的结果数据归并到一个串行输出队列中作为传输数据。

其中，所述并行分发单元解析异步接收的传输数据包的包头，从数据包头中提取目的地址，依据目的地址相对应的计算神经元节点的虚拟通道请求许可，将传输数据注入到类脑计算芯片的计算神经元节点中。

优选地，所述串行仲裁单元采用轮询仲裁算法将计算神经元节点的结果数据归并到一个串行输出队列中作为传输数据。该传输数据经过异步收发接口被发送出去，然后通过异步四相握手协议传输给其他类脑计算芯片。

优选地，为每个类脑计算芯片的每个矩形边界配置一个异步数据通信模块，可以实现四个方向的传输数据的通信传输。这种方案中，边界计算神经元节点的结果数据会通过根据轮询仲裁算法归并到同一个串行输出队列中，通过经过异步收发接口被发送出去，然后通过异步四相握手协议传输给其他类脑计算芯片。这样能够节省芯片I/O引脚。

优选地，所述数据中转站包括发送分配模块、接收仲裁模块、多个异步通信模块，每个异步通信模块对应一个芯片阵列；

所述异步通信模块包括接收队列、发送队列、芯片间数据队列、异步通信接口和地址映射器，其中，所述异步通信接口接收传输数据形成接收队列，同时将发送队列内的传输数据发送出去，地址映射器将接收队列中的传输数据映射到其他芯片阵列；

所述发送分配模块协调管理各异步通信模块中发送队列、接收队列以及芯片间数据队列的数据通路的开关；

所述接收仲裁模块协同管理传输给其他芯片簇的数据有序存入发送队列。

优选地，所述地址映射器包含两种地址映射方案；

地址映射方案一：在进行传输数据映射时，将当前芯片阵列的部分虚拟地址直接映射到其他芯片阵列相同形状的地址区域，以使当前芯片阵列与其他芯片阵列中的计算神经元节点一一对应，实现传输数据的映射；

地址映射方案二：配置一张地址映射表，并依据地址映射表中的映射信息将传输数据映射到其他芯片阵列中相应的计算神经元节点。

本发明中，地址映射方案用来解决地址空间有限导致一个芯片阵列无法访问到另一个芯片阵列的计算神经元节点的问题。地址映射方案一为直接映射，将一个芯片阵列的部分区域映射到另一芯片阵列相同形状的地址区域，两者节点一一对应，数据发往一个芯片阵列的某一计算神经元节点，便视作发往另一芯片阵列的对应计算神经元节点，该方案简单可靠。地址映射方案二为自由映射，需要额外一张地址映射表，将两个芯片阵列间的计算神经元节点的对应关系通过地址映射表确定下来，根据解析数据包头获得的目的节点信息查询地址映射表，来确定数据需要发往的芯片阵列以及具体地址，然后将数据注入对应接口的发送队列，该方案可将转发节点分散到其他计算芯片的各个区域，对连接关系相对友好。用户在实际使用过程中可以根据连接规模和映射效率灵活选择。

优选地，所述地址映射器对传输数据的映射过程为：

当传输数据的数据包头到达时，解析数据包头并依据地址映射方案确定传输数据的目的地址，将数据包头的虚拟地址修改为对应的目的地址并注入到发送队列，同时记录目的地址，当数据负载和数据包尾到达时，将数据负载和数据包尾转发至目的地址。本发明中，以边界发出数据包头的节点端口号和虚拟通道号作为标识来记录目的地址，后续数据负载和包尾根据目的地址直接转发，直至下一个数据包头进行更新。

本发明的地址映射器既可以实现属于同一芯片簇的多个芯片阵列间传输数据的映射，还可以实现属于不同芯片簇的多个芯片阵列间传输数据的映射。当进行属于同一芯片簇的多个芯片阵列间传输数据的映射时，传输数据经接收队列接收后会转换为芯片间数据队列，经过芯片间数据队列映射到其他芯片阵列的计算神经元节点。当进行属于不同芯片簇的多个芯片阵列间传输数据的映射时，传输数据注入发送队列后经过异步握手接口发送出去，并经过以太网通信模块传输到其他芯片簇，其他芯片簇的数据中转站对接收的传输数据进行中转，映射给内部芯片阵列的计算神经元节点。

优选地，所述以太网通信模块为每个芯片簇配置一个IP地址，通过TCP协议将所有芯片簇互联，进行数据交换与管理。当传输数据发放给某个芯片簇时，传输数据会在以太网通信模块中采用乒乓缓存技术实现动态存储，以提高数据吞吐量，然后传输给数据中转站。运行时，选择计算集群中的一个芯片簇作为服务端，其余芯片簇作为客户端，客户端与服务端通过以太网通信模块进行芯片簇之间的数据交换，服务端负责数据的协调和任务管理，同时服务端还需要和客户端进行交互。

与现有技术相比，本发明具有的有益效果至少包括：

本发明面向亿级类脑计算机的芯片扩展方法中提供的层次化扩展方法可以根据实际神经元规模需求进行选择，各层之间设计相对独立，在接口不变的情况下便可以调整各层设计，便于维护，扩展性非常优越，可达亿级神经元规模。

本发明面向亿级类脑计算机的芯片扩展方法中提供的芯片间异步数据通信方案，在保证高效传输的同时，大大减少了对芯片引脚的需求。

本发明面向亿级类脑计算机的芯片扩展方法中提供的地址映射方案打破了地址存储长度的约束，大大减小芯片中所需存储地址的内存大小，可以有效的进行类脑计算芯片的大规模级联。

本发明面向亿级类脑计算机的芯片扩展方法，类脑计算芯片集群在扩大芯片规模的同时，提供了对芯片及任务的管理，为亿级神经元类脑计算机奠定了基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的面向亿级类脑计算机的芯片扩展方法的拓展例子示意图；

图2是本发明实施例提供的异步数据通信模块的结构示意图；

图3是本发明实施例提供的数据中转站的结构示意图；

图4是本发明实施例提供的地址映射方案示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本发明实施例提供了一种面向亿级类脑计算机的芯片扩展方法，该芯片扩展方法由三个层次组成的芯片扩展方案：第一级芯片间异步数据通信模块方案，负责类脑计算芯片间通信，将多个类脑计算芯片连接成一个芯片阵列；第二级是芯片阵列数据中转站，负责芯片阵列间的数据交换，通过地址映射完成芯片阵列级联，将芯片扩展成一个芯片簇；第三级类脑计算集群，采用太网通信模块将各个芯片簇组织成计算集群，负责芯片簇的数据交换以及芯片任务管理。

图1是本发明实施例提供的面向亿级类脑计算机的芯片扩展方法的拓展例子示意图。如图1所示，4个类脑计算芯片组成了一个芯片阵列，芯片阵列中的芯片通过异步数据通信模块直连即可，同时，扩展后的芯片阵列仍是规整的网格拓扑结构，方便进一步扩展。3个芯片阵列可以组成一个芯片簇，阵列之间通过数据中转站进行数据交换，每个芯片阵列仅有一个边界与数据中转站相连，数据中转站的另一端负责与其他芯片簇通信，负责数据的返回以及外部脉冲信息、配置信息的注入等。多个芯片簇可以组成一个类脑计算集群，他们之间通过TCP/IP进行数据的传输。

实施例中，异步数据通信模块作为每个类脑计算芯片的通信桥梁，包括异步收发接口、并行分发单元、串行仲裁单元；其中，异步收发接口异步接收和发送传输数据；并行分发单元解析异步接收的传输数据，并请求对应计算神经元节点的数据注入许可后，将传输数据并行注入类脑计算芯片的计算神经元节点中；串行仲裁单元将多个计算神经元节点并行输出的结果数据归并到一个串行输出队列中作为传输数据。

图2是本发明实施例提供的异步数据通信模块的结构示意图。如图2所示，单个类脑计算芯片由24×24个神经元计算节点组成，每个边界配置有一个异步数据通信模块，当数据注入类脑计算芯片时，首先经过异步收发接口确保数据的准确输入，此时数据进入类脑计算芯片时是串行的，并行分发单元需根据其目的地址向对应节点的虚拟通道请求许可，当该节点空闲时，便将数据注入网络。类脑计算芯片向外部发送数据时，24个边界节点均有可能产生数据，此时串行仲裁单元通过轮询仲裁算法，依次将边界数据放至输出队列中，再通过异步收发接口发放数据。

实施例中，数据中转站包括发送分配模块、接收仲裁模块、多个异步通信模块，每个异步通信模块对应一个芯片阵列；

其中，异步通信模块包括接收队列、发送队列、芯片间数据队列、异步握手接口和地址映射器，其中，所述异步握手接口接收传输数据形成接收队列，同时将发送队列内的传输数据发送出去，地址映射器将接收队列中的传输数据映射到其他芯片阵列；

发送分配模块协调管理各异步通信模块中发送队列、接收队列以及芯片间数据队列的数据通路的开关；接收仲裁模块协同管理传输给其他芯片簇的数据有序存入发送队列。

图3是本发明实施例提供的数据中转站的结构示意图。如图4所示，数据中转站由三个异步通信模块组成，每个模块配备有：发送数据队列，接收数据队列和芯片间数据队列，分别用于暂存发送给阵列的数据，从阵列接收的数据，和不同阵列的芯片间互相通信的数据。通过FPGA实现的异步通信模块负责数据的收发，接收的数据会暂存至接收队列，地址映射器会根据数据的包头查询地址映射表，来判断该数据是发往其他芯片阵列的数据还是传输给其他芯片簇的数据。传输给其他芯片阵列的数据的包头会根据映射表修改包头地址，使其配置成目的芯片阵列的地址，暂存至芯片间数据队列。各个接口芯片间数据队列可能会请求同一个发送接口，因此需要一个发送分配模块来管理队列请求的顺序，获得许可的两个队列之间通过数据选择器传输数据。传输给其他芯片簇的数据则通过接收仲裁模块依次将数据传递给存放簇间数据的队列，再交由集群模块处理。

实施例中，地址映射器包含两种地址映射方案；

图4是本发明实施例提供的地址映射方案示意图。如图4所示，每个芯片具有24×24个计算节点，四个芯片组成一个2×2的芯片阵列，三个芯片阵列组成一个芯片簇。每个芯片的可寻址范围为64×64的矩阵，那么芯片中有48×48个地址具有实际的物理节点，而其余部分均可作为虚拟转发节点进行地址映射。

如图4步骤①所示，在一个实施例中，计算神经元节点(47,24)连接到了虚拟地址(48,25)，那么计算神经元节点会将数据包头的目地地址设为(48,25)，数据发送到该地址实际是发往了片外，被芯片阵列数据中转站所接收。该实施例中，地址映射方案采用直接映射，将虚拟地址16×24的矩阵直接映射到另一芯片阵列X轴坐标从0到15，Y轴坐标从24到47的矩阵范围内，两个矩阵中每个节点一一对应。如图4步骤②所示，发往虚拟节点的数据，通过地址映射器，将其包头的坐标改为(0,25)，即为目标芯片阵列所对应的目的节点坐标，然后通过数据中转站发往对应的芯片阵列。

如图4所示，虚拟节点地址的上半部份可以映射到另一个芯片阵列，通过合理的虚拟节点地址分配，可以完成整个芯片簇之间互联，使整个簇如同一个整体在工作。

实施例中，以太网通信模块为每个芯片簇配置一个IP地址，通过TCP协议将所有芯片簇互联，进行数据交换与管理。选择计算集群中的一个芯片簇作为服务端，其余芯片簇作为客户端，客户端与服务端通过以太网通信模块进行芯片簇之间的数据交换。

实施例中，通过Zynq芯片来构建以太网通信模块和数据中转站，其中，Zynq芯的ARM端来构建太网通信模块，Zynq芯的FPGA端来构建数据中转站。ARM端会实现一个LWIP协议栈，当数据发放给某芯片簇时，会先存入动态存储中，然后通过AXI4协议传递给FPGA端，进行数据的下一步分发；在ARM端实现了乒乓缓存技术，可以提高数据吞吐量。运行时选择一个芯片簇作为主机，负责数据的协调和任务管理，同时该芯片簇需要和PC端进行交互。

本发明提出的层次化亿级神经元类脑计算芯片扩展方法可高效灵活的将芯片扩展至一个完整的类脑计算机系统，通过地址映射方案解决数据传输地址访问的问题，通过计算集群方案完成大规模级联以及芯片簇的管理。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

一种面向亿级类脑计算机的芯片扩展方法，其特征在于，包括以下步骤：

通过以太网通信模块为所述面向亿级神经元类脑计算机拓展连接多个芯片簇，组成计算集群；

通过数据中转站为每个芯片簇拓展连接多个芯片阵列；

通过异步数据通信模块为每个芯片阵列拓展连接矩阵排列的多个类脑计算芯片，每个类脑计算芯片包含以矩阵排列的多个计算神经元节点。
如权利要求1所述的面向亿级类脑计算机的芯片扩展方法，其特征在于，所述异步数据通信模块作为每个类脑计算芯片的通信桥梁，包括异步收发接口、并行分发单元、串行仲裁单元；

所述异步收发接口异步接收和发送传输数据；

所述并行分发单元解析异步接收的传输数据，并请求对应计算神经元节点的数据注入许可后，将传输数据并行注入类脑计算芯片的计算神经元节点中；

所述串行仲裁单元将多个计算神经元节点并行输出的结果数据归并到一个串行输出队列中作为传输数据。
如权利要求2所述的面向亿级类脑计算机的芯片扩展方法，其特征在于，所述并行分发单元解析异步接收的传输数据包的包头，从数据包头中提取目的地址，依据目的地址相对应计算神经元节点的虚拟通道请求许可，将传输数据注入该计算神经元节点中。
如权利要求2所述的面向亿级类脑计算机的芯片扩展方法，其特征在于，所述串行仲裁单元采用轮询仲裁算法将计算神经元节点的结点数据归并到一个串行输出队列中作为传输数据。
如权利要求1～4任一项所述的面向亿级类脑计算机的芯片扩展方法，其特征在于，为每个类脑计算芯片的每个矩形边界配置一个异步数据通信模块，可以实现四个方向的数据的通信传输。
如权利要求1所述的面向亿级类脑计算机的芯片扩展方法，其特征在于，所述数据中转站包括发送分配模块、接收仲裁模块、多个异步通信模块，每个异步通信模块对应一个芯片阵列；

所述异步通信模块包括接收队列、发送队列、芯片间数据队列、异步握手接口和地址映射器，其中，所述异步握手接口接收传输数据形成接收队列，同时将发送队列内的传输数据发送出去，地址映射器将接收队列中的传输数据映射到其他芯片阵列；

所述发送分配模块协调管理各异步通信模块中发送队列、接收队列以及芯片间数据队列的数据通路的开关；

所述接收仲裁模块协同管理传输给其他芯片簇的数据有序存入簇间发送队列。
如权利要求6所述的面向亿级类脑计算机的芯片扩展方法，其特征在于，所述地址映射器包含两种地址映射方案；

地址映射方案一：在进行传输数据映射时，将当前芯片阵列的部分虚拟地址直接映射到其他芯片阵列相同形状的地址区域，以使当前芯片阵列与其他芯片阵列中的计算神经元节点一一对应，实现传输数据的映射；

地址映射方案二：配置一张地址映射表，并依据地址映射表中的映射信息将传输数据映射到其他芯片阵列中相应的计算神经元节点。
如权利要求7所述的面向亿级类脑计算机的芯片扩展方法，其特征在于，所述地址映射器对传输数据的映射过程为：

当传输数据的数据包头到达时，解析数据包头并依据映射方案确定传输数据的目的地址，并将数据包头的虚拟地址修改为对应的目的地址后，注入到发送队列，同时记录目的地址，当数据负载和数据包尾到达时，将数据负载和数据包尾转发至目的地址。
如权利要求1所述的面向亿级类脑计算机的芯片扩展方法，其特征在于，所述以太网通信模块为每个芯片簇配置一个IP地址，通过TCP协议将所有芯片簇互联，进行数据交换与管理。
如权利要求1～9任一项所述的面向亿级类脑计算机的芯片扩展方法，其特征在于，选择计算集群中的一个芯片簇作为服务端，其余芯片簇作为客户端，客户端与服务端通过以太网通信模块进行芯片簇之间的数据交换。