WO2009155762A1

WO2009155762A1 - 一种阵列处理器结构

Info

Publication number: WO2009155762A1
Application number: PCT/CN2008/073179
Authority: WO
Inventors: 王新安; 戴鹏; 黄维; 刘彦亮; 叶兆华; 周丹; 魏来
Original assignee: 北京大学深圳研究生院
Priority date: 2008-06-27
Filing date: 2008-11-24
Publication date: 2009-12-30
Also published as: CN101320364A

Description

说明书一种阵列处理器结构

【技术领域】

本发明属于集成电路设计领域，特别涉及一种的阵列处理器结构。【背景技术】

当前的集成系统芯片，主要由三部分构成：承载操作系统的一个或多个 CPU, 若干个标准的 I/O接口，支撑特定算法处理的 ASIC (Application Specific Integrated Circuit , 即专用集成电路）。芯片设计的复杂性和功能的差异性主要由 ASIC决定，因为它的设计不仅会影响整个芯片的体系架构，同时一定会影响设计时间和费用。目前的 ASIC设计主要是针对某种算法，设计相应的 ASIC电路，或者采用一个或多个 DSP (digital signal processor, 即数字信号处理器）完成算法的运算功能。以 DSP实现的 ASIC 结构为例，特定算法 ASIC电路可以包含一个或者几个功能强大的 DSP, 各 DSP之间具有确定的互联关系，协作执行任务程序。但该方案由于 DSP的功能过于强大，导致 DSP的数目不好确定，一个 DSP可能满足不了设计要求，两个或多个 DSP则可能存在浪费，同时根据 DSP数目的不同还要修正若干设计内容，以满足不同算法应用的差异性，这样在设计时需要改变硬件的整体结构，不易于快速实现，无法满足产品快速上市的需求，需要多次的研发流片导致较长的设计周期，因而设计研发费用高。 ASIC 设计从过去 0. 5um以上工艺的全定制阶段，进入今天 0. 35-0. 09um的标准单元自动综合阶段，未来 ASIC设计将进入 90-45nm阶段，如何提升 ASIC设计的效率和效果，是亟待解决的问题。

【发明内容】

本发明要解决的主要技术问题是，提供一种阵列处理器结构，可灵活适应不同算法之间的差异并大大提高集成系统芯片的设计效率。

为实现上述目的，本发明采用以下技术方案：

一种阵列处理器结构，包括构成处理器阵列的复数个处理器单元，相邻的所述处理器单元通过互联总线相连，还包括至少一个路由单元，所述每个路由单元分别通过互联总线至少连接两个所述处理器单元；所述路由单元接收源处理器单元传送的数据包，按照所述数据包中附带的目的处理器单元的寻址信息，将所述数据包中的数据体通过传输路径转发到目的处理器单元。

在一种实施例中，相邻的所述路由单元通过互联总线相连构成阵列结 ¾。

所述处理器阵列为按行与列排布的二维网格结构，所述路由阵列也是按行与列排布的二维网格结构，所述每个处理器单元至少连接一个路由单元。

所述处理器阵列的每个网格分配有一个路由单元，该路由单元与所述网格内的四个处理器单元相连。

还包括向所述处理器阵列提供程序与指令加载的输入单元，所述输入单元与所述路由阵列相连，所述处理器单元和路由单元设置有加载引导模块，其预装有用于以数据帧的形式加载程序和数据的引导程序。

所述处理器单元向所述路由单元传送的数据包以及所述路由单元之间传送的数据包包含有源处理器单元的标识信息和目的处理器单元的寻址信息，所述路由单元向所述处理器单元传送的数据包包含有源处理器单元的标识信息。

所述处理器单元和 /或所述路由单元内部具有执行停止自身运行的功能的停止模块，以及定时触发的唤醒模块或利用外部输入信息触发的唤醒模块。

所述处理器单元之间、所述路由单元之间以及所述处理器单元和所述路由单元之间对应的连接端口为异歩串行输入 /输出端口，所述数据包由异歩串行数据帧组成，所述异歩串行数据帧包含用于使数据接受方同歩于数据发送方的信息。

所述处理器单元和所述路由单元内部具有时钟产生模块，用于提供独立的时钟信号。

所述处理器单元为数字信号处理器。

本发明有益的技术效果是：

1、由于在阵列处理器结构中设置了路由单元，路由单元通过互联总线至少连接两个处理器单元，增加了传输路径，数据传输不再局限于处理器单元之间进行传输，源处理器单元传出的数据可通过路由单元进行路径选择，直接或间接地传送到目的处理器单元，使数据传输更加灵活、快速。并且处理器单元主要承载运算功能，而路由单元则主要承载处理器单元之间的数据传输功能，阵列结构中除了已经设计好的少数几类处理器单元和路由单元外，没有其他需要重新设计的电路，因此，针对不同算法，只需要配置每个处理器单元、路由单元的互联关系，确定阵列的规模，编写软件即可实现产品，易于快速实现，设计效率高，设计周期短。

2、设计产品异性除软件差异外主要体现在阵列处理器结构的规模，以及处理器单元的功能配置和路由单元的互联关系。本发明不需要改变硬件的整体结构，通过调整路由单元与处理器单元的互联关系，就可以很方便地对阵列处理器结构的规模和功能进行配置，进而能灵活地适应各种不同算法，因此能够在实现产品快速上市的同时满足多种广泛应用需求。

3、相对于现有的 ASIC实现，由于本发明实现了一个可配置规模和功能的系列化的体系架构，能支撑不同特定算法处理的 ASIC实现，提升了设计效率和效果，故不需要在每次设计 ASIC时进行多次的研发流片，在满足产品差异性和上市时间约束的同时也大大降低了设计研发的费用。

【附图说明】

图 1为本发明阵列处理器结构一种实施例的结构示意图；

图 2为图 1的阵列处理器结构的局部放大图；

图 3为本发明一种实施例中的路由单元的功能框图；

图 4为本发明一种实施例中的 DSP的功能框图；

图 5为本发明一种实施例的指令和数据加载通道示意图；

图 6为本发明一种实施例的输入输出 10通道示意图。

【具体实施方式】

本发明的特征及优点将通过实施例结合附图进行详细说明。

如图 1所示，阵列处理器结构包括多个处理器单元和多个路由单元（图中以 R标识），本实施例中的处理器单元采用 DSP (图中以 D标识）。各 DSP 按行与列依次通过互联总线邻接而排布成的方形网格结构的 DSP 阵列，各路由单元 R也按行与列依次通过互联总线邻接而排布成的方形网格结构的路由阵列，其行与列与 DSP 阵列的行与列呈相间分布。在一种实施例中，每个 DSP具有五个输入 /输出端口，非阵列边界上的 DSP的输入 /输出端口为五个，其中四个连接相邻的四个 DSP 的对应端口，剩下的一个连接一个相邻的路由单元 R的对应端口。每个路由单元 R具有八个输入 /输出端口，非阵列边界上的路由单元 R的输入 /输出端口为八个，其中四个连接相邻的四个 DSP的对应端口，另外四个连接相邻的四个路由单元 R的对应端口。阵列边界条件下的各单元与其它单元的连接相应减少，而其上设置的端口数目也可根据实际需求减少。

根据实际需要，每个 DSP也可以具有其他数目的输入 /输出端口，与相邻的 DSP和路由单元 R相连，例如四个或六个。同理，路由单元 R也可以具有其他数目的输入 /输出端口与相邻的 DSP或其他路由单元相连。例如六个。

路由单元接收源处理器单元传送的数据包，数据包包括包头和数据体，其中包头中附带有寻址信息，路由单元按照数据包中附带的寻址信息，将数据包中的数据体通过传输路径转发到目的处理器单元。处理器单元向路由单元传送的数据包以及路由单元之间传送的数据包的包头中包含有源处理器单元的标识信息和目的处理器单元的寻址信息，路由单元向处理器单元传送的数据包的包头中包含有源处理器单元的标识信息。如果路由单元和目的处理器单元直接相连，路由单元可直接将数据包从源处理器单元转发到目的处理器单元。如果路由单元和目的处理器单元不直接相连，而是通过其他路由单元相连，路由单元可选择合适的路径，通过其他路由单元将数据包转发到目的处理器单元。

通过以互联总线与 DSP阵列相连，路由单元 R为 DSP之间的数据传输提供通信路由，增加了数据传输路径，数据传输不再局限于处理器单元之间进行传输，源处理器单元传出的数据可通过路由单元进行路径选择，直接或间接地传送到目的处理器单元，使数据传输更加灵活、快速。

图 2展示了阵列处理器结构的局部放大图，其中 DSP和路由单元 R的输入接口、输出接口是独立的，此外也可以输入输出接口合一的方案实现互联。

阵列处理器结构中， DSP 主要承载运算功能，路由单元 R 则主要承载 DSP之间的数据传输功能。路由单元可以采用状态机控制接口之间的互联网络实现数据帧的直接转发，也可以采用类似处理器架构的存储程序控制的方式实现数据帧的存储转发。

通信方式上，本实施例的阵列处理器结构优选采用异歩串行通信，此时 DSP和路由单元 R上的输入 /输出端口为异歩串行输入 /输出端口， DSP阵列和路由阵列中的各单元利用异歩串行输入 /输出端口通过互联总线与其它单元进行异歩通信。

针对异歩串行通信，各 DSP、路由单元之间传输数据包采用数据帧的形式，所有数据帧均包括帧头和帧体，帧体主要是所要传递的数据；帧头根据 DSP和路由单元 R之间的连接关系，至少分为如下几种：

1 ) 相邻 DSP之间传递的数据帧

其帧头包括一定长度的引导码，一方面用于激活目的 DSP (如果它进入休眠状态的话），另一方面用于使目的 DSP产生接收的同歩信息，此外，帧头还包括指示帧体数据长度的信息。

2 ) DSP向路由单元传递的数据帧

其帧头除了包括相邻 DSP之间传递的数据帧的帧头信息外，还包括源 DSP的标识信息和目的 DSP的标识信息（寻址信息），旨在使路由单元能够据以识别和规划路径并传递到目的 DSP;

进一歩地，通过目的 DSP 的标识信息，数据帧可以采用广播和分组广播的方式进行传递。

3 ) 路由单元向路由单元传递的数据帧

由于路由单元本身不产生数据帧，路由单元向路由单元传递的数据帧，实质上是源 DSP向不相邻的目的 DSP传递数据帧所经路径上的路由单元之间的数据帧传递，因此，帧头也包括源 DSP和目的 DSP的标识信息，使接收数据帧的路由单元能够根据目的 DSP的标识信息，继续向前传递；

4) 路由单元向 DSP传递的数据帧

从路由单元接收数据帧的 DSP均为目的 DSP,数据帧的帧头除了包括相邻 DSP之间传递的数据帧的帧头信息外，可以只包括源 DSP的标识信息。

本实施例中，从源 DSP到目的 DSP的绝对地址信息根据目的 DSP的标识信息得到。也可以采用相对地址的方式进行路由选择，此时，相对地址信息即指明所传数据当前所在位置的下一级传输路径的寻址信息。

采用异歩串行通信，不仅有利于降低阵列芯片内部的通信和布线复杂性，同时也有利于改善时钟管理和容错管理，还有利于灵活配置阵列的规模支撑不同的算法。

此外，也可以采用同歩串行通信方式，此时所传送的数据帧对应地去掉帧中的同歩信息。采用其它的同歩方式时，具体方案与现有的同歩传输方式相同。

进一歩地，每个 DSP和每个路由单元内部均设置有时钟产生模块，提供独立时钟信号，这样，整个阵列可以采用全局异歩、局部同歩的时钟模式运行，即不同的 DSP及路由单元使用不同的时钟，以异歩方式运行，而在各 DSP和路由单元内部使用同一时钟，以同歩方式运行，这样的时钟模式可以使阵列中各个单元所用的时钟与自身工作的需要相适应，从而降低功耗。另一实施例中，也可以将一个路由单元和它连接的几个 DSP共用一个时钟。

如图 3 所示，路由单元包括独立的通信控制器以及输入输出接口，输入输出接口为八个异歩串行输入输出接口（阵列边界条件下接口数目根据实际情况有所变化），其中四个接口分别接至另外四个 DSP的相应接口，另外四个接口分别接至另外四个路由单元 Router的相应接口。通信控制器优选又包括 DSP通信控制器和路由单元控制器，分别用于对相应的异歩串行接口进行通信管理。路由单元主要功能是按照帧头包含的目的 DSP标识，选择合适的路径将数据帧向目的 DSP转发，包括异歩串行输入输出接口单元、帧头目的 DSP标识解析、路由选择与转发控制等模块。

如图 4所示， DSP包括 DSP核、独立的通信控制器和输入输出接口， DSP 核负责数据处理与控制，输入输出接口为五个异歩串行输入输出端口（阵列边界条件下端口数目根据实际情况有所变化），其中四个端口分别接至另外四个 DSP, 另一个端口接至一个路由单元 Router。通信控制器优选又包括 DSP通信控制器和路由单元 Router通信控制器，分别用于对相应的异歩串行接口进行通信管理。

进一歩地，阵列处理器结构还设置有向 DSP提供程序与指令加载的输入单元，如图 5所示，加载控制器作为输入单元，路由单元按列与加载控制器的输出端相连接，首先是通过加载控制器将程序或数据逐级加载到路由单元中，路由单元再根据地址将程序或数据加载到与之相连的四个 DSP 中。本实施例利用异歩串行接口采用数据帧的形式对阵列中的各个 DSP进行加载。图中只示出了路由阵列中的加载通道，详细链接关系被省略没有画出，具体说明如下：

( 1 )每级路由单元根据接收到数据帧的地址信息将其转发到下一级路由单元或传递到本级的 DSP中。

( 2 ) DSP首先启动自身的加载引导程序，该程序的功能是接收路由单元发来的加载数据帧，并根据帧头标志位信息（程序加载或数据加载），将数据帧搬移到指令寄存器或数据寄存器中，完成程序或数据的加载。

此外，也可以选择路由阵列的行的方式传送数据到路由单元。

图 6展示了阵列处理器结构处理数据的输入输出，数据可以通过 10通道直接进入 DSP的异歩串行接口。

综上所述，本发明结构中的处理器单元的功能相对简单，只有几种可以选择的配置，该结构中的路由单元支撑处理器单元之间的数据通信，利用该阵列处理器结构能方便地实现阵列规模和功能的可配置性，从而灵活适应不同算法之间的差异并大大提高集成系统芯片的设计效率。

以上内容是结合具体的优选实施方式对本发明所作的进一歩详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。例如数据包还可以是符合要求的其他结构形式，处理器单元还可以是其他处理单元，处理器单元和路由单元所分别构成的阵列结构还可以是三维的网格结构。

Claims

权利要求书

1. 一种阵列处理器结构，包括构成处理器阵列的复数个处理器单元，相邻的所述处理器单元通过互联总线相连，其特征在于，还包括至少一个路由单元，所述每个路由单元分别通过互联总线至少连接两个所述处理器单元；所述路由单元接收源处理器单元传送的数据包，按照所述数据包中附带的目的处理器单元的寻址信息，将所述数据包中的数据体通过传输路径转发到目的处理器单元。

2. 如权利要求 1所述的阵列处理器结构，其特征在于，相邻的所述路由单元通过互联总线相连构成阵列结构。

3. 如权利要求 2 所述的阵列处理器结构，其特征在于，所述处理器阵列为按行与列排布的二维网格结构，所述路由阵列也是按行与列排布的二维网格结构，所述每个处理器单元至少连接一个路由单元。

4. 如权利要求 3所述的阵列处理器结构，其特征在于，所述处理器阵列的每个网格分配有一个路由单元，该路由单元与所述网格内的四个处理器单元相连。

5. 如权利要求 2 所述的阵列处理器结构，其特征在于，还包括向所述处理器阵列提供程序与指令加载的输入单元，所述输入单元与所述路由阵列相连，所述处理器单元和路由单元设置有加载引导模块，其预装有用于以数据帧的形式加载程序和数据的引导程序。

6. 如权利要求 2 所述的阵列处理器结构，其特征在于，所述处理器单元向所述路由单元传送的数据包以及所述路由单元之间传送的数据包包含有源处理器单元的标识信息和目的处理器单元的寻址信息，所述路由单元向所述处理器单元传送的数据包包含有源处理器单元的标识信息。

7. 如权利要求 1 所述的阵列处理器结构，其特征在于，所述处理器单元和 /或所述路由单元内部具有执行停止自身运行的功能的停止模块，以及定时触发的唤醒模块或利用外部输入信息触发的唤醒模块。

8. 如权利要求 1至 7任意一项所述的阵列处理器结构，其特征在于，所述处理器单元之间、所述路由单元之间以及所述处理器单元和所述路由单元之间对应的连接端口为异歩串行输入 /输出端口，所述数据包由异歩串行数据帧组成，所述异歩串行数据帧包含用于使数据接受方同歩于数据发送方的信息。

9. 如权利要求 1至 7任意一项所述的阵列处理器结构，其特征在于，所述处理器单元和所述路由单元内部具有时钟产生模块，用于提供独立的时钟信号。

10. 如权利要求 1至 7任意一项所述的阵列处理器结构，其特征在于，所述处理器单元为数字信号处理器。