WO2009155762A1 - 一种阵列处理器结构 - Google Patents

一种阵列处理器结构 Download PDF

Info

Publication number
WO2009155762A1
WO2009155762A1 PCT/CN2008/073179 CN2008073179W WO2009155762A1 WO 2009155762 A1 WO2009155762 A1 WO 2009155762A1 CN 2008073179 W CN2008073179 W CN 2008073179W WO 2009155762 A1 WO2009155762 A1 WO 2009155762A1
Authority
WO
WIPO (PCT)
Prior art keywords
processor
unit
array
routing
data
Prior art date
Application number
PCT/CN2008/073179
Other languages
English (en)
French (fr)
Inventor
王新安
戴鹏
黄维
刘彦亮
叶兆华
周丹
魏来
Original Assignee
北京大学深圳研究生院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京大学深圳研究生院 filed Critical 北京大学深圳研究生院
Publication of WO2009155762A1 publication Critical patent/WO2009155762A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs

Definitions

  • the invention belongs to the field of integrated circuit design, and in particular relates to an array processor structure. ⁇ Background technique ⁇
  • the main technical problem to be solved by the present invention is to provide an array processor structure, which can flexibly adapt to the differences between different algorithms and greatly improve the design efficiency of the integrated system chip.
  • An array processor structure comprising a plurality of processor units constituting a processor array, wherein the adjacent processor units are connected by an interconnect bus, and further comprising at least one routing unit, wherein each of the routing units is respectively connected to the interconnect bus Connecting two of the processor units; the routing unit receives a data packet transmitted by the source processor unit, and passes the data body in the data packet according to the addressing information of the destination processor unit attached to the data packet The transmission path is forwarded to the destination processor unit.
  • adjacent routing units are connected by an interconnect bus to form an array junction. 3 ⁇ 4.
  • the processor array is a two-dimensional grid structure arranged in rows and columns
  • the routing array is also a two-dimensional grid structure arranged in rows and columns, and each processor unit is connected to at least one routing unit.
  • an input unit that provides program and instruction loading to the processor array, the input unit being coupled to the routing array, the processor unit and routing unit being provided with a load boot module pre-loaded for data frames The form of the loader and the data of the bootloader.
  • the data packet transmitted by the processor unit to the routing unit and the data packet transmitted between the routing unit includes identification information of an active processor unit and addressing information of a destination processor unit, where the routing unit
  • the data packet transmitted by the processor unit contains identification information of the active processor unit.
  • the processor unit and/or the routing unit internally has a stop module that performs a function to stop its own operation, and a wake-up module that is triggered periodically or a wake-up module that is triggered by external input information.
  • the processor unit and the routing unit internally have a clock generation module for providing an independent clock signal.
  • the processor unit is a digital signal processor.
  • the present invention realizes a serialized architecture with configurable scale and function, can support ASIC implementations processed by different specific algorithms, improves design efficiency and effect, and therefore does not need to be in every
  • the secondary development of the ASIC has been carried out several times in the development of the film, in order to meet the product differentiation and time-to-market constraints, but also greatly reduce the cost of design and development.
  • FIG. 2 is a partial enlarged view of the structure of the array processor of FIG. 1;
  • FIG. 3 is a functional block diagram of a routing unit in an embodiment of the present invention.
  • FIG. 4 is a functional block diagram of a DSP in an embodiment of the present invention.
  • FIG. 6 is a schematic diagram of an input/output 10 channel according to an embodiment of the present invention.
  • the array processor structure includes a plurality of processor units and a plurality of routing units (identified by R in the figure).
  • the processor unit in this embodiment uses a DSP (identified by D in the figure).
  • Each DSP is arranged in a square grid structure of the DSP array by rows and columns in turn, and each routing unit R is also arranged in a row grid array by a row and a column adjacent to the interconnected bus. The rows and columns of the row and column of the DSP array are distributed.
  • each DSP has five input/output ports, and the input/output ports of the DSP on the non-array boundary are five, four of which are connected to the corresponding ports of the adjacent four DSPs, and the rest A corresponding port that connects to an adjacent routing unit R.
  • Each routing unit R has eight input/output ports, and the number of input/output ports of the routing unit R on the non-array boundary is eight, four of which are connected to the corresponding ports of the adjacent four DSPs, and the other four are adjacent to each other. Corresponding ports of the four routing units R. The connection of each unit to other units under the condition of the array boundary is correspondingly reduced, and the number of ports set thereon can also be reduced according to actual needs.
  • each DSP can have other numbers of input/output ports, connected to adjacent DSPs and routing units R, such as four or six.
  • routing unit R can have other numbers of input/output ports connected to adjacent DSPs or other routing units. For example six.
  • the routing unit receives the data packet transmitted by the source processor unit, and the data packet includes a packet header and a data body.
  • the addressing information is included in the packet header, and the routing unit forwards the data body in the data packet to the destination processor unit through the transmission path according to the addressing information attached in the data packet.
  • the data packet transmitted by the processor unit to the routing unit and the header of the data packet transmitted between the routing units include identification information of the active processor unit and addressing information of the destination processor unit, and data transmitted by the routing unit to the processor unit
  • the packet header contains the identification information of the active processor unit. If the routing unit is directly connected to the destination processor unit, the routing unit can forward the data packet directly from the source processor unit to the destination processor unit. If the routing unit and the destination processor unit are not directly connected, but are connected through other routing units, the routing unit may select an appropriate path to forward the data packet to the destination processor unit through the other routing unit.
  • the routing unit R By connecting to the DSP array by the interconnect bus, the routing unit R provides communication routes for data transmission between the DSPs, increasing the data transmission path, and the data transmission is no longer limited to transmission between the processor units, and the source processor unit transmits the data. Data can be routed through the routing unit and transmitted directly or indirectly to the destination processor unit, making data transmission more flexible and fast.
  • Figure 2 shows a partial enlarged view of the structure of the array processor.
  • the input interface and output interface of the DSP and the routing unit R are independent, and the interconnection of the input and output interfaces can also be implemented.
  • the DSP mainly carries the computing function
  • the routing unit R mainly carries the data transmission function between the DSPs.
  • the routing unit can implement direct forwarding of data frames by using the Internet between the state machine control interfaces, and can also implement storage and forwarding of data frames by using a program controlled by a processor architecture.
  • the array processor structure of the embodiment preferably adopts heterogeneous serial communication.
  • the input/output ports on the DSP and the routing unit R are different serial input/output ports, in the DSP array and the routing array.
  • Each unit uses an isochronous serial input/output port to communicate with other units via the interconnect bus.
  • the data packets transmitted between each DSP and routing unit are in the form of data frames. All data frames include a frame header and a frame body, and the frame body is mainly data to be transmitted; the frame header is based on the DSP and the routing unit.
  • the connection relationship between R is divided into at least the following types:
  • the frame header includes a length of the pilot code, on the one hand for activating the destination DSP (if it enters a sleep state), and on the other hand for causing the destination DSP to generate the received peer information, and further, the frame header further includes an indication frame body. Data length information.
  • the frame header includes, in addition to the frame header information of the data frame transmitted between the adjacent DSPs, the identification information of the source DSP and the identification information (addressing information) of the destination DSP, which is intended to enable the routing unit to According to the identification and planning of the path and passed to the destination DSP;
  • the data frame can be transmitted by means of broadcast and packet broadcast.
  • the data frame transmitted by the routing unit to the routing unit is substantially the data frame transmission between the routing units on the path through which the source DSP transmits the data frame to the non-adjacent destination DSP.
  • the frame header also includes the identification information of the source DSP and the destination DSP, so that the routing unit that receives the data frame can continue to forward according to the identification information of the destination DSP;
  • the DSP receiving the data frame from the routing unit is the destination DSP, and the frame header of the data frame may include only the identification information of the source DSP in addition to the frame header information of the data frame transmitted between the adjacent DSPs.
  • the absolute address information from the source DSP to the destination DSP is obtained based on the identification information of the destination DSP.
  • the relative address can also be used for routing.
  • the relative address information indicates the addressing information of the next-level transmission path of the current location of the transmitted data.
  • heterogeneous serial communication not only helps to reduce the communication and wiring complexity inside the array chip, but also helps improve clock management and fault-tolerant management, as well as the flexibility to configure the array to support different algorithms.
  • the routing unit includes an independent communication controller and an input/output interface.
  • the input and output interfaces are eight different serial input/output interfaces (the number of interfaces varies according to the actual conditions under the array boundary conditions), four of which are The interfaces are respectively connected to the corresponding interfaces of the other four DSPs, and the other four interfaces are respectively connected to the corresponding interfaces of the other four routing units Router.
  • the communication controller preferably further includes a DSP communication controller and a routing unit controller for respectively performing communication management on the corresponding heterogeneous serial interface.
  • the main function of the routing unit is to select the appropriate path to forward the data frame to the destination DSP according to the destination DSP identifier contained in the frame header, including the isochronous serial input/output interface list. Modules for DSP identification, routing, and forwarding control of the element and frame header.
  • the DSP includes a DSP core, an independent communication controller, and an input and output interface.
  • the DSP core is responsible for data processing and control, and the input and output interfaces are five different serial input and output ports (the number of ports under the array boundary condition is based on The actual situation has changed.
  • Four of the ports are connected to the other four DSPs, and the other port is connected to a routing unit Router.
  • the communication controller preferably further includes a DSP communication controller and a routing unit Router communication controller for respectively performing communication management on the corresponding heterogeneous serial interface.
  • Each level of routing unit forwards it to the next-level routing unit or to the DSP of the current level according to the address information of the received data frame.
  • the DSP first starts its own loading and guiding program.
  • the function of the program is to receive the loading data frame sent by the routing unit, and move the data frame to the instruction register according to the frame header flag information (program loading or data loading). In the data register, the loading of the program or data is completed.
  • Figure 6 shows the input and output of the array processor structure processing data, which can be directly entered into the DSP's isochronous serial interface through 10 channels.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)

Description

说明书 一种阵列处理器结构
【技术领域】
本发明属于集成电路设计领域, 特别涉及一种的阵列处理器结构。 【背景技术】
当前的集成系统芯片, 主要由三部分构成: 承载操作系统的一个或多 个 CPU, 若干个标准的 I/O接口, 支撑特定算法处理的 ASIC (Application Specific Integrated Circuit , 即专用集成电路)。 芯片设计的复杂性和 功能的差异性主要由 ASIC决定, 因为它的设计不仅会影响整个芯片的体系 架构, 同时一定会影响设计时间和费用。 目前的 ASIC设计主要是针对某种 算法, 设计相应的 ASIC电路, 或者采用一个或多个 DSP (digital signal processor, 即数字信号处理器)完成算法的运算功能。 以 DSP实现的 ASIC 结构为例, 特定算法 ASIC电路可以包含一个或者几个功能强大的 DSP, 各 DSP之间具有确定的互联关系, 协作执行任务程序。但该方案由于 DSP的功 能过于强大, 导致 DSP的数目不好确定,一个 DSP可能满足不了设计要求, 两个或多个 DSP则可能存在浪费, 同时根据 DSP数目的不同还要修正若干 设计内容, 以满足不同算法应用的差异性, 这样在设计时需要改变硬件的 整体结构, 不易于快速实现, 无法满足产品快速上市的需求, 需要多次的 研发流片导致较长的设计周期, 因而设计研发费用高。 ASIC 设计从过去 0. 5um以上工艺的全定制阶段,进入今天 0. 35-0. 09um的标准单元自动综合 阶段, 未来 ASIC设计将进入 90-45nm阶段, 如何提升 ASIC设计的效率和 效果, 是亟待解决的问题。
【发明内容】
本发明要解决的主要技术问题是, 提供一种阵列处理器结构, 可灵活 适应不同算法之间的差异并大大提高集成系统芯片的设计效率。
为实现上述目的, 本发明采用以下技术方案:
一种阵列处理器结构, 包括构成处理器阵列的复数个处理器单元, 相 邻的所述处理器单元通过互联总线相连, 还包括至少一个路由单元, 所述 每个路由单元分别通过互联总线至少连接两个所述处理器单元; 所述路由 单元接收源处理器单元传送的数据包, 按照所述数据包中附带的目的处理 器单元的寻址信息, 将所述数据包中的数据体通过传输路径转发到目的处 理器单元。
在一种实施例中, 相邻的所述路由单元通过互联总线相连构成阵列结 ¾。
所述处理器阵列为按行与列排布的二维网格结构, 所述路由阵列也是 按行与列排布的二维网格结构, 所述每个处理器单元至少连接一个路由单 元。
所述处理器阵列的每个网格分配有一个路由单元, 该路由单元与所述 网格内的四个处理器单元相连。
还包括向所述处理器阵列提供程序与指令加载的输入单元, 所述输入 单元与所述路由阵列相连, 所述处理器单元和路由单元设置有加载引导模 块, 其预装有用于以数据帧的形式加载程序和数据的引导程序。
所述处理器单元向所述路由单元传送的数据包以及所述路由单元之间 传送的数据包包含有源处理器单元的标识信息和目的处理器单元的寻址信 息, 所述路由单元向所述处理器单元传送的数据包包含有源处理器单元的 标识信息。
所述处理器单元和 /或所述路由单元内部具有执行停止自身运行的功 能的停止模块, 以及定时触发的唤醒模块或利用外部输入信息触发的唤醒 模块。
所述处理器单元之间、 所述路由单元之间以及所述处理器单元和所述 路由单元之间对应的连接端口为异歩串行输入 /输出端口, 所述数据包由异 歩串行数据帧组成, 所述异歩串行数据帧包含用于使数据接受方同歩于数 据发送方的信息。
所述处理器单元和所述路由单元内部具有时钟产生模块, 用于提供独 立的时钟信号。
所述处理器单元为数字信号处理器。
本发明有益的技术效果是:
1、 由于在阵列处理器结构中设置了路由单元, 路由单元通过互联总线 至少连接两个处理器单元, 增加了传输路径, 数据传输不再局限于处理器 单元之间进行传输, 源处理器单元传出的数据可通过路由单元进行路径选 择, 直接或间接地传送到目的处理器单元, 使数据传输更加灵活、 快速。 并且处理器单元主要承载运算功能, 而路由单元则主要承载处理器单元之 间的数据传输功能, 阵列结构中除了已经设计好的少数几类处理器单元和 路由单元外, 没有其他需要重新设计的电路, 因此, 针对不同算法, 只需 要配置每个处理器单元、 路由单元的互联关系, 确定阵列的规模, 编写软 件即可实现产品, 易于快速实现, 设计效率高, 设计周期短。
2、 设计产品异性除软件差异外主要体现在阵列处理器结构的规模, 以 及处理器单元的功能配置和路由单元的互联关系。 本发明不需要改变硬件 的整体结构, 通过调整路由单元与处理器单元的互联关系, 就可以很方便 地对阵列处理器结构的规模和功能进行配置, 进而能灵活地适应各种不同 算法, 因此能够在实现产品快速上市的同时满足多种广泛应用需求。
3、 相对于现有的 ASIC实现, 由于本发明实现了一个可配置规模和功 能的系列化的体系架构, 能支撑不同特定算法处理的 ASIC实现, 提升了设 计效率和效果, 故不需要在每次设计 ASIC时进行多次的研发流片, 在满足 产品差异性和上市时间约束的同时也大大降低了设计研发的费用。
【附图说明】
图 1为本发明阵列处理器结构一种实施例的结构示意图;
图 2为图 1的阵列处理器结构的局部放大图;
图 3为本发明一种实施例中的路由单元的功能框图;
图 4为本发明一种实施例中的 DSP的功能框图;
图 5为本发明一种实施例的指令和数据加载通道示意图;
图 6为本发明一种实施例的输入输出 10通道示意图。
【具体实施方式】
本发明的特征及优点将通过实施例结合附图进行详细说明。
如图 1所示,阵列处理器结构包括多个处理器单元和多个路由单元(图 中以 R标识), 本实施例中的处理器单元采用 DSP (图中以 D标识)。 各 DSP 按行与列依次通过互联总线邻接而排布成的方形网格结构的 DSP 阵列, 各 路由单元 R也按行与列依次通过互联总线邻接而排布成的方形网格结构的 路由阵列, 其行与列与 DSP 阵列的行与列呈相间分布。 在一种实施例中, 每个 DSP具有五个输入 /输出端口, 非阵列边界上的 DSP的输入 /输出端口 为五个, 其中四个连接相邻的四个 DSP 的对应端口, 剩下的一个连接一个 相邻的路由单元 R的对应端口。 每个路由单元 R具有八个输入 /输出端口, 非阵列边界上的路由单元 R的输入 /输出端口为八个, 其中四个连接相邻的 四个 DSP的对应端口, 另外四个连接相邻的四个路由单元 R的对应端口。 阵列边界条件下的各单元与其它单元的连接相应减少, 而其上设置的端口 数目也可根据实际需求减少。
根据实际需要, 每个 DSP也可以具有其他数目的输入 /输出端口, 与相 邻的 DSP和路由单元 R相连, 例如四个或六个。 同理, 路由单元 R也可以 具有其他数目的输入 /输出端口与相邻的 DSP或其他路由单元相连。 例如六 个。
路由单元接收源处理器单元传送的数据包, 数据包包括包头和数据体, 其中包头中附带有寻址信息, 路由单元按照数据包中附带的寻址信息, 将 数据包中的数据体通过传输路径转发到目的处理器单元。 处理器单元向路 由单元传送的数据包以及路由单元之间传送的数据包的包头中包含有源处 理器单元的标识信息和目的处理器单元的寻址信息, 路由单元向处理器单 元传送的数据包的包头中包含有源处理器单元的标识信息。 如果路由单元 和目的处理器单元直接相连, 路由单元可直接将数据包从源处理器单元转 发到目的处理器单元。 如果路由单元和目的处理器单元不直接相连, 而是 通过其他路由单元相连, 路由单元可选择合适的路径, 通过其他路由单元 将数据包转发到目的处理器单元。
通过以互联总线与 DSP阵列相连, 路由单元 R为 DSP之间的数据传输 提供通信路由, 增加了数据传输路径, 数据传输不再局限于处理器单元之 间进行传输, 源处理器单元传出的数据可通过路由单元进行路径选择, 直 接或间接地传送到目的处理器单元, 使数据传输更加灵活、 快速。
图 2展示了阵列处理器结构的局部放大图, 其中 DSP和路由单元 R的 输入接口、 输出接口是独立的, 此外也可以输入输出接口合一的方案实现 互联。
阵列处理器结构中, DSP 主要承载运算功能, 路由单元 R 则主要承载 DSP之间的数据传输功能。路由单元可以采用状态机控制接口之间的互联网 络实现数据帧的直接转发, 也可以采用类似处理器架构的存储程序控制的 方式实现数据帧的存储转发。
通信方式上, 本实施例的阵列处理器结构优选采用异歩串行通信, 此 时 DSP和路由单元 R上的输入 /输出端口为异歩串行输入 /输出端口, DSP阵 列和路由阵列中的各单元利用异歩串行输入 /输出端口通过互联总线与其 它单元进行异歩通信。
针对异歩串行通信, 各 DSP、路由单元之间传输数据包采用数据帧的形 式, 所有数据帧均包括帧头和帧体, 帧体主要是所要传递的数据; 帧头根 据 DSP和路由单元 R之间的连接关系, 至少分为如下几种:
1 ) 相邻 DSP之间传递的数据帧
其帧头包括一定长度的引导码, 一方面用于激活目的 DSP (如果它进入 休眠状态的话), 另一方面用于使目的 DSP产生接收的同歩信息, 此外, 帧 头还包括指示帧体数据长度的信息。
2 ) DSP向路由单元传递的数据帧
其帧头除了包括相邻 DSP之间传递的数据帧的帧头信息外, 还包括源 DSP的标识信息和目的 DSP的标识信息 (寻址信息), 旨在使路由单元能够 据以识别和规划路径并传递到目的 DSP;
进一歩地, 通过目的 DSP 的标识信息, 数据帧可以采用广播和分组广 播的方式进行传递。
3 ) 路由单元向路由单元传递的数据帧
由于路由单元本身不产生数据帧, 路由单元向路由单元传递的数据帧, 实质上是源 DSP向不相邻的目的 DSP传递数据帧所经路径上的路由单元之 间的数据帧传递, 因此, 帧头也包括源 DSP和目的 DSP的标识信息, 使接 收数据帧的路由单元能够根据目的 DSP的标识信息, 继续向前传递;
4) 路由单元向 DSP传递的数据帧
从路由单元接收数据帧的 DSP均为目的 DSP,数据帧的帧头除了包括相 邻 DSP之间传递的数据帧的帧头信息外, 可以只包括源 DSP的标识信息。
本实施例中, 从源 DSP到目的 DSP的绝对地址信息根据目的 DSP的标 识信息得到。 也可以采用相对地址的方式进行路由选择, 此时, 相对地址 信息即指明所传数据当前所在位置的下一级传输路径的寻址信息。
采用异歩串行通信, 不仅有利于降低阵列芯片内部的通信和布线复杂 性, 同时也有利于改善时钟管理和容错管理, 还有利于灵活配置阵列的规 模支撑不同的算法。
此外, 也可以采用同歩串行通信方式, 此时所传送的数据帧对应地去 掉帧中的同歩信息。 采用其它的同歩方式时, 具体方案与现有的同歩传输 方式相同。
进一歩地, 每个 DSP和每个路由单元内部均设置有时钟产生模块, 提 供独立时钟信号, 这样, 整个阵列可以采用全局异歩、 局部同歩的时钟模 式运行, 即不同的 DSP及路由单元使用不同的时钟, 以异歩方式运行, 而 在各 DSP和路由单元内部使用同一时钟, 以同歩方式运行, 这样的时钟模 式可以使阵列中各个单元所用的时钟与自身工作的需要相适应, 从而降低 功耗。 另一实施例中,也可以将一个路由单元和它连接的几个 DSP共用一个 时钟。
如图 3 所示, 路由单元包括独立的通信控制器以及输入输出接口, 输 入输出接口为八个异歩串行输入输出接口 (阵列边界条件下接口数目根据 实际情况有所变化), 其中四个接口分别接至另外四个 DSP的相应接口, 另 外四个接口分别接至另外四个路由单元 Router的相应接口。 通信控制器优 选又包括 DSP通信控制器和路由单元控制器, 分别用于对相应的异歩串行 接口进行通信管理。 路由单元主要功能是按照帧头包含的目的 DSP标识, 选择合适的路径将数据帧向目的 DSP转发, 包括异歩串行输入输出接口单 元、 帧头目的 DSP标识解析、 路由选择与转发控制等模块。
如图 4所示, DSP包括 DSP核、独立的通信控制器和输入输出接口, DSP 核负责数据处理与控制, 输入输出接口为五个异歩串行输入输出端口 (阵 列边界条件下端口数目根据实际情况有所变化), 其中四个端口分别接至另 外四个 DSP, 另一个端口接至一个路由单元 Router。 通信控制器优选又包 括 DSP通信控制器和路由单元 Router通信控制器, 分别用于对相应的异歩 串行接口进行通信管理。
进一歩地, 阵列处理器结构还设置有向 DSP提供程序与指令加载的输 入单元, 如图 5所示, 加载控制器作为输入单元, 路由单元按列与加载控 制器的输出端相连接, 首先是通过加载控制器将程序或数据逐级加载到路 由单元中, 路由单元再根据地址将程序或数据加载到与之相连的四个 DSP 中。 本实施例利用异歩串行接口采用数据帧的形式对阵列中的各个 DSP进 行加载。 图中只示出了路由阵列中的加载通道,详细链接关系被省略没有画 出, 具体说明如下:
( 1 )每级路由单元根据接收到数据帧的地址信息将其转发到下一级路 由单元或传递到本级的 DSP中。
( 2 ) DSP首先启动自身的加载引导程序, 该程序的功能是接收路由单 元发来的加载数据帧, 并根据帧头标志位信息 (程序加载或数据加载), 将 数据帧搬移到指令寄存器或数据寄存器中, 完成程序或数据的加载。
此外, 也可以选择路由阵列的行的方式传送数据到路由单元。
图 6展示了阵列处理器结构处理数据的输入输出, 数据可以通过 10通 道直接进入 DSP的异歩串行接口。
综上所述, 本发明结构中的处理器单元的功能相对简单, 只有几种可 以选择的配置, 该结构中的路由单元支撑处理器单元之间的数据通信,利用 该阵列处理器结构能方便地实现阵列规模和功能的可配置性, 从而灵活适 应不同算法之间的差异并大大提高集成系统芯片的设计效率。
以上内容是结合具体的优选实施方式对本发明所作的进一歩详细说 明, 不能认定本发明的具体实施只局限于这些说明。 对于本发明所属技术 领域的普通技术人员来说, 在不脱离本发明构思的前提下, 还可以做出若 干简单推演或替换, 都应当视为属于本发明的保护范围。 例如数据包还可 以是符合要求的其他结构形式, 处理器单元还可以是其他处理单元, 处理 器单元和路由单元所分别构成的阵列结构还可以是三维的网格结构。

Claims

权利要求书
1. 一种阵列处理器结构, 包括构成处理器阵列的复数个处理器单 元, 相邻的所述处理器单元通过互联总线相连, 其特征在于, 还包括至少 一个路由单元, 所述每个路由单元分别通过互联总线至少连接两个所述处 理器单元; 所述路由单元接收源处理器单元传送的数据包, 按照所述数据 包中附带的目的处理器单元的寻址信息, 将所述数据包中的数据体通过传 输路径转发到目的处理器单元。
2. 如权利要求 1所述的阵列处理器结构, 其特征在于, 相邻的所述 路由单元通过互联总线相连构成阵列结构。
3. 如权利要求 2 所述的阵列处理器结构, 其特征在于,所述处理器 阵列为按行与列排布的二维网格结构, 所述路由阵列也是按行与列排布的 二维网格结构, 所述每个处理器单元至少连接一个路由单元。
4. 如权利要求 3所述的阵列处理器结构, 其特征在于, 所述处理器 阵列的每个网格分配有一个路由单元, 该路由单元与所述网格内的四个处 理器单元相连。
5. 如权利要求 2 所述的阵列处理器结构, 其特征在于,还包括向所 述处理器阵列提供程序与指令加载的输入单元, 所述输入单元与所述路由 阵列相连, 所述处理器单元和路由单元设置有加载引导模块, 其预装有用 于以数据帧的形式加载程序和数据的引导程序。
6. 如权利要求 2 所述的阵列处理器结构, 其特征在于,所述处理器 单元向所述路由单元传送的数据包以及所述路由单元之间传送的数据包包 含有源处理器单元的标识信息和目的处理器单元的寻址信息, 所述路由单 元向所述处理器单元传送的数据包包含有源处理器单元的标识信息。
7. 如权利要求 1 所述的阵列处理器结构, 其特征在于,所述处理器 单元和 /或所述路由单元内部具有执行停止自身运行的功能的停止模块, 以 及定时触发的唤醒模块或利用外部输入信息触发的唤醒模块。
8. 如权利要求 1至 7任意一项所述的阵列处理器结构,其特征在于, 所述处理器单元之间、 所述路由单元之间以及所述处理器单元和所述路由 单元之间对应的连接端口为异歩串行输入 /输出端口, 所述数据包由异歩串 行数据帧组成, 所述异歩串行数据帧包含用于使数据接受方同歩于数据发 送方的信息。
9. 如权利要求 1至 7任意一项所述的阵列处理器结构,其特征在于, 所述处理器单元和所述路由单元内部具有时钟产生模块, 用于提供独立的 时钟信号。
10. 如权利要求 1至 7任意一项所述的阵列处理器结构,其特征在于, 所述处理器单元为数字信号处理器。
PCT/CN2008/073179 2008-06-27 2008-11-24 一种阵列处理器结构 WO2009155762A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CNA2008100681271A CN101320364A (zh) 2008-06-27 2008-06-27 一种阵列处理器结构
CN200810068127.1 2008-06-27

Publications (1)

Publication Number Publication Date
WO2009155762A1 true WO2009155762A1 (zh) 2009-12-30

Family

ID=40180421

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2008/073179 WO2009155762A1 (zh) 2008-06-27 2008-11-24 一种阵列处理器结构

Country Status (2)

Country Link
CN (1) CN101320364A (zh)
WO (1) WO2009155762A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320364A (zh) * 2008-06-27 2008-12-10 北京大学深圳研究生院 一种阵列处理器结构
CN101706767B (zh) * 2009-08-13 2012-08-08 北京大学深圳研究生院 一种阵列处理器
CN102122275A (zh) * 2010-01-08 2011-07-13 上海芯豪微电子有限公司 一种可配置处理器
CN101882127B (zh) * 2010-06-02 2011-11-09 湖南大学 一种多核心处理器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040111590A1 (en) * 2002-07-23 2004-06-10 Klein Robert C. Self-configuring processing element
CN1761954A (zh) * 2003-01-27 2006-04-19 皮科芯片设计有限公司 处理器阵列
CN1849598A (zh) * 2003-09-09 2006-10-18 皇家飞利浦电子股份有限公司 具有多个可编程处理器的集成数据处理电路
CN101320364A (zh) * 2008-06-27 2008-12-10 北京大学深圳研究生院 一种阵列处理器结构

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040111590A1 (en) * 2002-07-23 2004-06-10 Klein Robert C. Self-configuring processing element
CN1761954A (zh) * 2003-01-27 2006-04-19 皮科芯片设计有限公司 处理器阵列
CN1849598A (zh) * 2003-09-09 2006-10-18 皇家飞利浦电子股份有限公司 具有多个可编程处理器的集成数据处理电路
CN101320364A (zh) * 2008-06-27 2008-12-10 北京大学深圳研究生院 一种阵列处理器结构

Also Published As

Publication number Publication date
CN101320364A (zh) 2008-12-10

Similar Documents

Publication Publication Date Title
US11256656B2 (en) Hybrid programmable many-core device with on-chip interconnect
US9256575B2 (en) Data processor chip with flexible bus system
US7595659B2 (en) Logic cell array and bus system
US20220294454A1 (en) Embedded network on chip accessible to programmable logic fabric of programmable logic device in multi-dimensional die systems
JP4547198B2 (ja) 演算装置、演算装置の制御方法、プログラム及びコンピュータ読取り可能記録媒体
US6275975B1 (en) Scalable mesh architecture with reconfigurable paths for an on-chip data transfer network incorporating a network configuration manager
JP2012080379A (ja) 半導体データ処理装置及びデータ処理システム
US11730325B2 (en) Dual mode interconnect
WO2009155762A1 (zh) 一种阵列处理器结构
JP5170579B2 (ja) 再構成可能なデバイス
Konishi et al. PCA-1: A fully asynchronous, self-reconfigurable LSI
US8190856B2 (en) Data transfer network and control apparatus for a system with an array of processing elements each either self- or common controlled
JP2001117858A (ja) データ処理装置
US20050251646A1 (en) Network with programmable interconnect nodes adapted to large integrated circuits
EP4123469A2 (en) Scalable computing device
US20090085626A1 (en) Semiconductor integrated circuit and method for controlling semiconductor integrated circuit
EP2266046B1 (en) A control apparatus for fast inter processing unit data exchange in a processor architecture with processing units of different bandwidth connection to a pipelined ring bus
US20230280907A1 (en) Computer System Having Multiple Computer Devices Each with Routing Logic and Memory Controller and Multiple Computer Devices Each with Processing Circuitry
US20230283547A1 (en) Computer System Having a Chip Configured for Memory Attachment and Routing
US9626325B2 (en) Array processor having a segmented bus system
JP2010033336A (ja) 信号処理装置及び信号処理方法
CN117093536A (zh) 集成芯片及业务处理方法
WO2007092747A2 (en) Multi-core architecture with hardware messaging

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08874761

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08874761

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 23/05/2011)

122 Ep: pct application non-entry in european phase

Ref document number: 08874761

Country of ref document: EP

Kind code of ref document: A1