WO2010060283A1

WO2010060283A1 - 一种数据处理的方法与装置

Info

Publication number: WO2010060283A1
Application number: PCT/CN2009/001346
Authority: WO
Inventors: 林正浩
Original assignee: 上海芯豪微电子有限公司
Priority date: 2008-11-28
Filing date: 2009-11-30
Publication date: 2010-06-03
Also published as: EP2372530A1; KR101275698B1; KR20110112810A; US20110231616A1; EP2372530A4

Description

一种数据处理的方法与装置

技术领域

本发明涉及集成电路设计领域。背景技术

根据摩尔定律，晶体管的特征尺寸正沿着 65nin, 45nm, 32nm……的路线逐渐縮小，单片芯片上所集成的晶体管数已超过十几亿只。但是自从上世纪八十年代推出综合及布局布线工具，解放了后端设计生产力后， EDA工具 20多年来并没有质的突破，使得前端设计，尤其是验证变得越来越难以应对日益增大的单片芯片规模。因此，设计公司把目光投向多核，即一块芯片中集成多个较为简单的核，在提高芯片功能的同时降低设计、验证难度。

传统多核处理器集成了多个并行执行程序的处理器核以提高芯片性能。对于传统多核处理器，需要有并行编程的思想才有可能充分利用资源。然而操作系统对资源的分配和管理并没有本质的改变，多是以对称的方式进行平均分配。尽管多个处理器核之间可以进行并行运算，但对于单个程序线程而言，其串行执行的结构特点导致在传统多核处理器结构中无法实现真正的流水线操作。此外目前的软件中依然存在大量必须串行执行的程序，无法被很好的分割。因此，当处理器核达到一定数量后，性能就无法再随着核数量的增加而提升了。此外，随着半导体制造工艺的不断提升，多核处理器内部的工作频率已大大高于其外部存储器的工作频率，多个处理器核同时进行访存也已经成为制约系统性能的一大瓶颈，用并行多核结构运行串行的程序无法达到预期的性能提升效果。

发明内容

本发明针对现有技术的不足，提出一种用于高速运行串行程序的数据处理的方法与装置，提高吞吐率。

本发明所述的数据处理的方法与装置，包括：根据特定规则对运行于串行连接多处理器核结构上的程序代码进行分割，使所述串行连接多处理器核结构中的每个核运行相应的分割后代码片段所需的时间尽量相等，以实现核间工作量的负载平衡（load balancing)o 所述串行连接多处理器核结构中包含复数个处理器核，所述处理器指通过执行指令进行运算和读写数据的硬件，包括但不限于中央处理器（CPU) 和 1据信号处理器（DSP)。本发明所述的串行连接多处理器核结构构成串行多发射（in serial multi-i ssue ), 串. 行连接多处理器核结构中任意核每单位时间内可进行单数个或复数个发射，复数个串行连接的核同时形成更大规模的多发射，即串行多发射。

本发明所述的串行连接多处理器核结构构成流水线层次结构（pipel ine hierarchy ), 串行连接多处理器核结构中任意核的内部流水线为第一个层次，串行连接多处理器核结构中每个核作为一个宏观流水线段而构成的宏观流水线为第二个层次，依此类推还可以得到更多更高层次，如以串行连接多处理器核结构作为一个更高层次流水线段而构成的第三个层次。

本发明所述的串行连接多处理器核结构中核上的代码片段经由前编译（pre-compi le). 编译（compile ) 和后编译（post-compi le ) 三步骤中的部分或全部步骤产生单数个或复数个代码片段，所述程序代码包括但不限于高级语言代码和汇编语言代码。

所述编译即现有通常意义上从程序源代码到目标代码的编译；

所述前编译是在所述编译进行前对程序源代码的预编译，包括但不限于在进行程序编译前将程序中的 "调用"（call ) 进行展开，用实际调用的代码替代调用语句，形成没有调用的程序代码；所述调用包括但不限于函数调用；

所述后编译是按要求分配到所述串行连接多处理器核结构中每个核的工作内容及负荷将所述编译得到目标代码的划分为单数个或复数个代码片段，步骤包括但不限于：

( a) 可执行的程序代码进行解析，生成前端码流；

(b ) 在特定模型上运行、扫描前端码流，根据要求分析所需执行周期、是否跳转以及跳转地址等信息，统计扫描结果，间接确定分割信息；或不扫描前端码流，根据预设信息直接确定分割信息；所述特定模型包括但不限于所述串行连接多处理器核结构中核的行为模型；

( c ) 根据分割信息对可执行的程序指令代码和进行代码分割，生成所述串行连接多处理器核结构中每个处理器核相应的代码片段。

本发明所述的前编译方法在程序源代码编译前实施，也可以作为编译器的组成部分在程序源代码编译过程中实施，还可以作为所述串行连接多处理器核结构的操作系统的组成部分、或作为驱动、或作为应用程序，在所述串行连接多处理器核结构运行时实时实施。

本发明所述的后编译方法可以在程序源代码编译完成之后实施，也可以作为编译器的组成部分在程序源代码编译过程中实施，还可以作为包括但不限于所述串行连接多处理器核结构的操作系统的组成部分、驱动、应用程序，在所述串行连接多处理器核结构运行时实时实施。当所述后编译方法实时实施时，可以人为确定所述代码片段中的相应配置信息，也可以根据所述串行连接多处理器核结构的使用情况动态地自动产生所述代码片段中的相应配置信息，还可以只产生固定的配置信息。

通过所述分割，可将现有的应用程序进行程序分割，分段同时执行，不但提高了现有程序在多核 /众核装置上的运行速度，而且充分发挥了多核 /众核装置的效率，同时也保证了多核 /众核装置对现有应用程序的兼容。有效地解决了现有应用程序无法充分发挥多核 /众核处理器优势的困境。

本发明所述的后编译方法中，间接确定分割信息的依据包括但不限于指令执行的周期数或时间、指令的条数，即可以根据扫描前端码流获得的指令执行周期数或时间，将整个可执行程序代码分割成相同或相近运行时间的代码片段，也可以根据扫描前端码流获得的指令条数，将整个可执行程序代码分割成相同或相近指令条数的代码片段；所述直接确定分割信息的依据包括但不限于指令的条数，即可以根据指令的条数，直接将整个可执行程序代码分割成相同或相近指令条数的代码片段。

本发明所述的后编译方法中，所述可执行程序代码分割时根据特定规则尽可能避免对循环代码进行分割。当无法避免对循环代码分割时，根据特定规则将所述循环代码通过单数次或复数次分割形成复数个更小规模的循环代码。所述复数个更小规模的循环代码可以分别是相同或不同的代码片段的组成部分。所述更小规模的循环代码包括但不限于包含更少的代码数目的循环代码和代码执行周期数更少的循环代码。

本发明所述的后编译方法中，所述代码片段包括但不限于适用于固定处理器核数目的所述串行连接多处理器核结构运行的己分段的可执行目标代码和 /或相应配置信息，适用于所述串行连接多处理器核结构运行的未分段的可执行目标代码以及包含适用于不固定核数目的多种分段信息的相应配置信息，其中分段信息包括但不限于包含代表每段指令数目的数字，代表分段边界的特定标志，每个代码片段开始信息的指示表。

举例来说，在一个有 1000个处理器核的所述装置中，可以按最大处理器数目 1000生成一张有 1000个项的表，每一项存储相应指令在所述未分段的可执行目标代码中的位置信息，两项之间的指令组合即对应可以在相应单个核上运行的代码片段。若在运行时用到了全部 1000 个处理器核，则每个处理器核运行所述表中相应两项所指向的未分段的可执行目标代码位置间的代码，即每个处理器核运行所述表中对应的一段代码。若在运行时只用到了 N 个处理器核（N<1000)，则每个处理器核运行所述表中对应的 1000/N段代码，具体代码可以根据表中相应位置信息确定。

在每个处理器核上运行的指令除所述分割后的相应代码片段外，还可以包括额外的指令。所述额外的指令包括但不限于代码片段头部扩展、代码片段尾部扩展，用于实现不同处理器核间指令执行的平滑过渡。举例来说，可以在每个代码片段的末尾加上代码片段尾部扩展，将寄存器堆中所有值存储到数据存储器中的特定位置，在每个代码片段的开头加上代码片段头部扩展，从数据存储器中的特定位置中的值读取到寄存器堆中，以此实现不同处理器核间的寄存器值传递，保证程序的正确运行；当执行到代码片段的末尾时，下一条指令从所述代码片段的第一条指令开始。

本发明所述的数据处理的方法与装置，可以构建出一种基于串行多发射和流水线层次结构的可配置多核 /众核装置，包括复数个处理器核（Processor Core )、复数个可配置本地存储器 ( configurable local memory ) > 可配置互联结构 ( configurable interconnect structure 其中- 处理器核，用于执行指令，进行运算并得到相应结果；

可配置本地存储器，用于存储指令以及所述处理器核间的数据传递和数据保存；可配置互联结构，用于所述可配置多核 /众核装置内各模块间及与外部的连接。

所述可配置多核 /众核装置还可以包括扩展模块，以适应更广泛的需求；所述扩展模块包括但不限于单数个或复数个以下模块的部分或全部：

共享存储器（shared memory), 用于在所述可配置数据存储器溢出的情况下保存数据、传递复数个处理器核间的共享数据；

直接存储器访问（DMA) 控制器，用于除处理器核外其他模块对所述可配置本地存储器的直接访问；

异常处理（exception handl ing ) 模块，用于处理处理器核、本地存储器发生的异常 ( exception );

本发明所述的基于串行多发射和流水线层次结构的可配置多核 /众核装置中，处理器核包括运算单元和程序计数器，还可以包括扩展模块以适应更广泛的需求,所述扩展模块包括但不限于寄存器堆。所述处理器核执行的指令包括但不限于算术运算指令、逻辑运算指令、条件判断及跳转指令、异常陷入及返回指令；所述算术运算指令、逻辑运算指令包括但不限于乘法、加 /减法、乘加 /减、累加、移位、提取、交换操作，且包括任意位宽小于等于所述处理器核数据位宽的定点运算和浮点运算；每个所述处理器核完成单数条或复数条所述指令。所述处理器核的数目可以根据实际应用需求进行扩展。

本发明所述的基于串行多发射和流水线层次结构的可配置多核 /众核装置中，每个所述处理器核都有相应的可配置本地存储器，包括用于存放分割后代码片段的指令存储器 ( instruction memory )禾卩用于存放数据的可配置数据存储器（configurable data memory )» 在同一可配置本地存储器中，所述指令存储器与可配置数据存储器之间的边界是可以根据不同配置信息改变的。当根据配置信息确定可配置数据存储器的大小与边界后，所述可配置数据存储器包括复数个数据子存储器。

在同一可配置数据存储器中，所述复数个数据子存储器之间的边界是可以根据不同配置信息改变的。所述数据子存储器通过地址转换能映射到所述多核 /众核装置的全部地址空间。所述映射包括但不限于通过査表进行地址转换和通过内容寻址存储器（CAM) 匹配进行地址转换。

所述数据子存储器中每项（entry ) 包含数据和标志信息，所述标志信息包括但不限于有效位（val id bit)、数据地址。所述有效位用于指示相应项中存储的数据是否有效。所述数据地址用于指示相应项中存储的数据在所述多核 /众核装置的全部地址空间应处于的位置。

本发明所述的基于串行多发射和流水线层次结构的可配置多核 /众核装置中，所述可配置互联结构通过配置用于所述可配置多核 /众核装置内各模块间及与外部的连接，包括但不限于处理器核与相邻可配置本地存储器的连接，处理器核与共享存储器的连接、处理器核与直接存储器访问控制器的连接、可配置本地存储器与共享存储器的连接、可配置本地存储器与直接存储器访问控制器的连接、可配置本地存储器与所述装置外部的连接和共享存储器与所述装置外部的连接。

根据配置，可以使两个处理器核及其相应本地存储器构成前后级连接关系，包括但不限于前一级处理器核通过其相应的可配置数据存储器将数据传输到后一级处理器核。根据应用程序要求，可以通过配置将部分或全部处理器核及其相应本地存储器通过可配置互联结构构成单数个或复数个串行连接结构。复数个所述串行连接结构可以各自独立，也可以部分或全部有相互联系，串行、并行或串并混合地执行指令。所述串行、并行或串并混合地执行指令包括但不限于根据应用程序要求不同串行连接结构在同步机制的控制下运行不同的程序段并行执行不同指令、多线程并行运行，根据应用程序要求不同串行连接结构在同步机制的控制下运行相同的程序段、以单指令多数据流（SMD)方式进行相同指令、不同数据的密集运算。

本发明所述的基于串行多发射和流水线层次结构的可配置多核 /众核装置中，所述串行连接结构中处理器核具有特定的数据读规则（read pol icy), 写规则 (write pol icy)。

所述数据读规则，即所述串行连接结构中第一个处理器核的输入数据来源包括但不限于本身相应的可配置数据存储器、共享存储器、所述可配置多核 /众核装置外部。其他任意处理器核的输入数据来源包括但不限于本身相应的可配置数据存储器、前一级处理器核相应的可配置数据存储器。相应地，任意所述处理器核的输出数据的去向包括但不限于本身相应的可配置数据存储器、共享存储器，当扩展存储器存在时，任意所述处理器核的输出数据的去向还可以是扩展存储器。

所述数据写规则，即所述串行连接结构中第一个处理器核相应可配置数据存储器的输入数据来源包括但不限于处理器核本身、共享存储器、所述可配置多核 /众核装置外部。其他任意处理器核相应可配置数据存储器的输入数据来源包括但不限于处理器核本身、前一级处理器核相应可配置数据存储器、共享存储器。所述处理器核及其相应可配置数据存储器不同来源的输入数据按特定规则进行多路选择以确定最终的输入数据。

同一个所述可配置数据存储器可以同时被其前后级的两个处理器核访问，不同的处理器核各自访问所述可配置数据存储器中的不同数据子存储器。所述处理器核可以根据特定规则对同一个可配置数据存储器中不同数据子存储器分别访问，所述特定规则包括但不限于同一个可配置数据存储器中不同数据子存储器互为乒乓缓冲（Ping- pong buffer ), 由两个处理器核分别访问，在所述前后两级处理器核均完成对乒乓缓冲的访问后，进行乒乓缓冲交换，使原先被前一级处理器核读 /写的数据子存储器作为被后一级处理器核读的数据子存储器，原先被后一级处理器核读的数据子存储器中所有有效位均被置为无效，并作为被前一级处理器核读 /写的数据子存储器。当所述多核 /众核系统中处理器核包含寄存器堆时，还需要具有特定的寄存器值传输规则，所述寄存器值传输规则，即所述串行连接结构中任意前级处理器核中的单数个或复数个寄存器值都可以传输到任意后级处理器核的相应寄存器中。所述寄存器值包括但不限于所述处理器核中寄存器堆中寄存器的值。所述寄存器值的传输途径包括但不限于通过可配置互联结构传输，直接通过共享存储器传输，直接通过所述处理器核相应的可配置数据存储器传输，根据特定指令通过共享存储器传输、根据特定指令通过所述处理器核相应的可配置数据存储器传输。

本发明所述的基于串行多发射和流水线层次结构的可配置多核 /众核装置中，所述流水线层次结构中的第二层次即宏观流水线段可以通过背压（back pressure) 将本宏观流水线段的信息传输到前一级宏观流水线段，所述前一级宏观流水线段根据收到的背压信息可知之后的宏观流水线是否阻塞（stall ), 结合本宏观流水线段的情况，确定本宏观流水线段是否阻塞，并将新的背压信息传输到更前一级宏观流水线段，以此实现宏观流水线的控制。

本发明所述的基于串行多发射和流水线层次结构的可配置多核 /众核装置中，可以有扩展的共享存储器，用于在处理器核相应可配置数据存储器溢出的情况下存储数据、传递复数个处理器核间的共享数据；还可以有扩展的异常处理（exception handling)模块，用于处理处理器核、本地存储器发生的异常（ex¾eption)。

当所述多核 /众核装置有共享存储器且向可配置数据存储器存储数据时发生溢出，则产生异常，并将被存储数据存储到共享存储器中，此时，所述数据子存储器中每项（entry ) 包含的标志信息包括但不限于有效位、数据地址和数据标签（tag)。所述有效位用于指示相应项中存储的数据是否有效。所述数据地址和数据标签（tag) 共同用于指示相应项中存储的数据在所述多核 /众核装置的全部地址空间应处于的位置。

所有所述处理器核产生的异常信息均传输到异常处理模块，由异常处理模块进行相应处理。所述异常处理模块可以由所述多核 /众核装置中的处理器核构成，也可以是额外的模块。所述异常信息包括但不限于发生异常的处理器编号、异常类型。所述对发生异常的处理器核和 /或本地存储器的相应处理包括但不限于通过背压信号的传递将流水线是否阻塞的信息传递到串行连接结构中的各个处理器核。

本发明所述的基于串行多发射和流水线层次结构的可配置多核 /众核装置中，可以根据应用程序耍求对处理器核、可配置本地存储器和可配置互联结构进行配置。所述配置包括但不限于开启或关断处理器核、配置本地存储器中指令存储器和数据子存储器的大小 /边界及其中的内容、配置互联结构和连接关系。

用于所述配置的配置信息的来源包括但不限于所述可配置多核 /众核装置内部和外部。所述配置可以在运行期间任意时刻根据应用程序的要求进行调整。所述配置的配置方法包括但不限于由处理器核或中央处理器核直接配置、由处理器核或中央处理器核通过直接存储器访问控制器配置和外部请求通过直接存储器访问控制器配置。

本发明所述的基于串行多发射和流水线层次结构的可配置多核 /众核装置具有三个层次的低功耗技术：配置层次、指令层次和应用层次。

所述配置层次，根据配置信息，没有被用到的处理器核可以进入低功耗状态；所述低功耗状态包括但不限于降低处理器时钟频率或切断电源供应。

所述指令层次，当处理器核执行到读取数据的指令时，如果该数据还没有准备好，则所述处理器核进入低功耗状态，直到所述数据准备好，所述处理器核再从低功耗状态恢复到正常工作状态。所述数据没有准备好，包括但不限于前一级处理器核还没有将本级处理器核需要的数据写入相应数据子存储器。所述低功耗状态包括但不限于降低处理器时钟频率或切断电源供应。

所述应用层次，采用全硬件实现，匹配空闲（idle)任务特征，确定当前处理器核的使用率 (uti lization)，根据当前处理器使用率和基准使用率确定是否进入低功耗状态或是否从低功耗状态返回。所述的基准使用率可固定不变，也可重新配置或自学习确定，可以固化在芯片内部，也可以在所述装置启动时由所述装置写入，也可以由软件写入。用于匹配的参考内容可以在芯片生产时，固化到芯片内部，也可以在所述装置启动时由所述装置或软件写入，还可以自学习写入，其存储媒介包括但不限于挥发性的存储器、非挥发性的存储器；其写入方式包括但不限于一次写入、可多次写入。所述低功耗状态包括但不限于降低处理器时钟频率或切断电源供应。

本发明所述的基于串行多发射和流水线层次结构的可配置多核 /众核装置可以具备自测试能力，能够在加电工作的情况下不依赖于外部设备进行芯片的自测试。

当所述多核 /众核装置具备自测试能力时，可以将所述多核 /众核装置中特定的单数个或复数个基本元件、运算单元或处理器核用成比较器，对所述多核 /众核装置中相应的复数组其他基本元件、运算单元或处理器核及基本元件、运算单元或处理器核的组合给予具有特定关系的激励，并用所述比较器比较所述复数组其他基本元件、运算单元或处理器核及基本元件、运算单元或处理器核的的组合的输出是否符合相应的特定关系。所述激励可以来自所述多核 /众核装置中的特定模块，也可以来自所述多核 /众核装置外部。所述特定关系包括但不限于相等、相反、互逆、互补。所述测试结果可以被送到所述多核 /众核装置外部，也可以保存在所述多核 /众核装置中的存储器中。

所述的自测试可以是在晶圆测试,封装后集成电路测试或者芯片使用时在所述装置启动时进行测试，也可以人为设定自测试条件及周期，在工作期间定期进行自测试。所述自测试用到的存储器包括但不限于挥发性的存储器，非挥发性的存储器。

当所述多核 /众核装置具备自测试能力时，可以具备自修复能力。当所述测试结果保存在所述多核 /众核装置中的存储器中时，可以对失效处理器核作标记，在对所述多核 /众核装置进行配置时，可以根据相应标记绕过失效处理器核，使所述多核 /众核装置依然能正常工作，实现自修复。所述自修复可以是在晶圆测试后进行，封装后集成电路测试后进行或者芯片使用时在所述装置启动时进行测试后进行，也可以人为设定自测试自修复条件及周期，在工作期间定期进行自测试后进行。

本发明所述可配置多核 /众核装置中的复数个处理器核可以是同构的，也可以是异构的。本发明所述可配置多核 /众核装置中本地指令存储器中指令字的长度可以是不固定的。本发明所述可配置多核 /众核装置中本地指令存储器和本地数据存储器各自可以有单数组或复数组读端口。

本发明所述可配置多核 /众核装置中，每个处理器核还可以对应复数个本地指令存储器，所述复数个本地指令存储器可以是相同大小的，也可以是不同大小的；可以是相同结构的，也可以是不同结构的。当所述复数个本地指令存储器中的一个或多个用于响应相应处理器核取指操作时，所述复数个本地指令存储器中的其他本地指令存储器可以进行指令更新操作。更新指令的途径包括但不限于通过直接存储器访问控制器更新指令。

本发明所述可配置多核 /众核装置中的复数个处理器核可以工作在相同的时钟频率，也可以工作在不同的时钟频率。

本发明所述可配置多核 /众核装置可以具有读取导致写的特性（LIS , load induced store 处理器核对于某个地址数据第一次读取时，从相邻前一级处理器核对应的本地数据存储器读取数据，同时将读取到的数据写入本级处理器核对应的本地数据存储器，之后对该地址数据的读写都访问本级对应的本地数据存储器，从而在不增加额外开销的情况下实现相邻前后级本地数据存储器中相同地址数据的传递。

本发明所述可配置多核 /众核装置可以具有数据预传递的特性；处理器核可以从前一级处理器核对应的本地数据存储器中读取本处理器核不需要读写、但后续处理器核需要读取的数据，并写入本级处理器核对应的本地数据存储器，从而实现前后级本地数据存储器中相同地址数据的逐级传递。

本发明所述的本地数据存储器还可以包含单数个或复数个有效标志和单数个或复数个归属标志。所述有效标志用于表示对应的数据是否有效。所述归属标志用于表示对应的数据当前被哪个处理器核使用。采用所述有效标志和归属标志能避免使用乒乓缓冲，提高存储器的使用效率，且多个处理器核可以同时访问同一个数据存储器，便于数据交换。

本发明所述的通过可配置互联结构传输寄存器值，包括但不限于采用大量硬连线直接将所述处理器核中寄存器的值一次全部传输到后级处理器核的寄存器中，釆用移位寄存器的方法将所述处理器核中寄存器的值依次移位传输到后级处理器核的寄存器中。

所述寄存器值的传输途径还可以是根据寄存器读写记录表决定需要传输的寄存器。本发明所述的寄存器读写记录表用于记录寄存器对相应本地数据存储器的读写情况。如果寄存器的值已经被写入本级处理器核对应的本地数据存储器且之后该寄存器的值没有发生改变,则可以仅由后级处理器核从本级处理器核对应的本地数据存储器中相应地址读取数据，从而完成所述寄存器的传递，不需要单独传输该寄存器值到后级处理器。

举例而言，当寄存器的值写入相应本地数据存储器时，所述寄存器读写记录表中相应的项被清 "0"，当数据写入寄存器时，所述寄存器读写记录表中相应的项被置 " 1 "。在进行寄存器值传输时，只传输寄存器读写记录表中项为 " 1 " 的相应寄存器的值。所述数据写入所述寄存器堆中寄存器，包括但不限于从相应本地数据存储器读取数据到所述寄存器堆中的寄存器，将指令执行的结果写回寄存器堆中的寄存器。

当本发明所述的基于串行多发射和流水线层次结构的可配置多核 /众核装置中处理器核数目确定时,还可以根据分割后得到的确定的代码片段对代码片段头部扩展和代码片段尾部扩展进行优化，减少需要传递的寄存器的数量。

举例而言，在通常情况下，代码片段尾部扩展包含了将全部寄存器值存储到特定本地数据存储器地址的指令，代码片段头部扩展包含了将相应地址中的值读入寄存器的指令，两者配合实现寄存器值平滑传递。当代码片段确定时，可以根据代码片段中的指令，减少代码片段头部扩展和代码片段尾部扩展中存储和 /或读取指令的条数。

如果在本级处理器核对应的代码片段中，在写入某一寄存器之前没有使用过该寄存器内的值，则可以省去前级处理器核对应的代码片段尾部扩展中存储该寄存器值的指令和本级处理器核对应的代码片段头部扩展中从本地数据存储器中读取数据到该寄存器的指令。

如果在前级处理器核对应的代码片段中，某一寄存器的值在存储到本地数据存储器之后就没有改变过，则可以省去前级处理器核对应的代码片段尾部扩展中存储该寄存器值的指令，并在本级处理器核对应的代码片段头部扩展中添加相关指令，使能够从本地数据存储器中相应地址读取数据到该寄存器。

本发明所述的数据处理的方法与装置中，当复数个处理器核对应的代码片段执行过程中均会转移到同一地址执行一段代码，并在该段代码执行完毕转移回各自对应的代码片段时，可以将所述同一地址的代码重复存储在所述复数个处理器核对应的本地指令存储器中；所述同一地址的代码包括但不限于函数调用、循环。

本发明所述的数据处理的方法与装置中，所述处理器核可以访问除所述处理器核外的处理器核的本地指令存储器；当复数个处理器核执行完全相同的代码，且所述代码长度超过单个处理器核对应的本地指令存储器大小时，可以将所述代码依次存储在复数个处理器核对应的本地指令存储器中；运行时，所述复数个处理器核中的任一处理器核先从存储所述完全相同的代码中第一段代码的本地指令存储器读取指令并执行，第一段代码执行完毕后再从存储所述代码中第二段代码的本地指令存储器读取指令并执行，依此类推，直到全部所述完全相同的代码执行完毕。

本发明所述的数据处理的方法与装置中，所述复数个处理器核可以同步执行所述完全相同的代码中的各段代码，也可以异步执行所述完全相同的代码中的各段代码；所述复数个处理器核可以并行执行所述完全相同的代码中的各段代码，也可以串行执行所述完全相同的代码中的各段代码；还可以串并混合地执行所述完全相同的代码中的各段代码。

本发明所述的数据处理的方法与装置中，所述处理器核还可以对应复数个本地指令存储器，所述复数个本地指令存储器可以是相同大小的，也可以是不同大小的；可以是相同结构的，也可以是不同结构的；当所述复数个本地指令存储器中的一个或多个用于响应相应处理器核取指操作时，所述复数个本地指令存储器中的其他本地指令存储器可以进行指令更新操作；更新指令的途径可以是通过直接存储器访问控制器更新指令。

传统片上系统（SoC， System on Chip) 中除处理器外，其他功能模块都是用硬连线逻辑实现的专用集成电路模块。这些功能模块的性能要求很高，采用传统的处理器难以达到性能要求，因此无法以传统处理器替代这些专用集成电路模块。

本发明所述的数据处理的方法与装置中，可以将单数个或复数个处理器核及其相应本地存储器构成高性能的多核连接结构，对多核连接结构进行配置、在相应本地指令存储器中放入对应的代码片段，使所述多核连接结构实现特定的功能，能替代片上系统中的专用集成电路模块。所述多核连接结构相当于片上系统中的功能模块，如图像解压縮模块或加解密模块。这些功能模块再由系统总线连接，以实现片上系统。

本发明所述的处理器核及其相应本地存储器与相邻处理器核及其相应本地存储器之间的数据传输通道为本地连接（local interconnection), 单数个所述处理器核及其相应本地存储器或通过本地连接连在一起的复数个处理器核及其相应本地存储器构成的多核连接结构即对应片上系统的功能模块。

本发明所述的对应于片上系统中功能模块的多核连接结构与其他所述对应于片上系统中功能模块的多核连接结构之间的数据传输通道为系统总线（system bus)。通过所述系统总线将复数个对应于片上系统中功能模块的多核连接结构连接起来,就能实现通常意义上的片上系统。

.基于本发明技术方案实现的片上系统，具有传统片上系统不具备的可配置性。通过对基于本发明所述的数据处理装置进行不同配置，可以得到不同的片上系统。所述配置可以在运行过程中实时进行，从而可以在运行过程中实时改变片上系统功能。可以动态地重新配置处理器核及其相应本地存储器并动态改变相应本地指令存储器中的代码片段，从而改变所述片上系统的功能。

根据本发明技术方案，所述对应于片上系统中功能模块的多核连接结构内部处理器核及其相应本地存储器与其他处理器核及其相应本地存储器间用于数据传输的通路属于功能模块内部的本地连接。通过所述功能模块内部的本地连接传输数据，通常需耍占用提出传输请求的处理器核的操作。本发明所述的系统总线，可以是所述本地连接，也可以是不需耍占用处理器核的操作即能完成不同处理器核及其相应本地存储器间数据传输的数据传输通道。所述不同处理器核及其相应本地存储器可以是相邻的，也可以是不相邻的。本发明所述的数据处理的方法与装置中，构成系统总线的一个方法是采用复数个位置固定的连接装置建立数据传输通道。任意所述多核连接结构的输入和输出都与相近的连接装置通过单数根或复数根硬连线相连。所有所述连接装置之间也通过单数根或复数根硬连线相连。所述连接装置、所述多核连接结构与所述连接装置间的连线、及所述连接装置间的连线共同构成所述系统总线。

本发明所述的数据处理的方法与装置中，构成系统总线的另一个方法是建立数据传输通道，使任意处理器核及其相应本地数据存储器能与其他任意处理器核及其相应本地数据存储器进行数据传递。所述数据传递的途径包括但不限于通过共享存储器传递、通过直接存储器访问控制器传递、通过专用总线或网络传递。

举例而言，一种方法是，可以事先在一些处理器核及其相应本地数据存储器中的两两处理器核及其相应本地数据存储器之间布置好单数根或复数根硬连线，所述硬连线可以是可配置的；当这些处理器核及其相应本地数据存储器中的任意两个处理器核及其相应本地数据存储器处于不同的多核连接结构中、即处于不同的功能模块中时，所述两个处理器核及其相应本地数据存储器之间的硬连线即可作为所述两个多核连接结构间的系统总线。

第二种方法是，可以使全部或部分所述处理器核及其相应本地数据存储器能通过直接存储器访问控制器访问到其他的处理器核及其相应本地数据存储器。当这些处理器核及其相应本地数据存储器中的任意两个处理器核及其相应本地数据存储器处于不同的多核连接结构中、即处于不同的功能模块中时，就可以在实时运行过程中，根据需要进行所述处理器核及其相应本地数据存储器与另一个所述处理器核及其相应本地数据存储器间的数据传递，实现两个多核连接结构间的系统总线。

第三种方法是，可以在全部或部分所述处理器核及其相应本地数据存储器上实现片上网络（Network on Chip ) 功能，即当所述处理器核及其相应本地数据存储器的数据传输到其他处理器核及其相应本地数据存储器时，由可配置互联网络决定数据的去向，从而构成一条数据通路，实现数据传输。当这些处理器核及其相应本地数据存储器中的任意两个处理器核及其相应本地数据存储器处于不同的多核连接结构中、即处于不同的功能模块中时，就可以在实时运行过程中，根据需耍进行所述处理器核及其相应本地数据存储器与另一个所述处理器核及其相应本地数据存储器间的数据传递，实现两个多核连接结构间的系统总线。上述三种方法，第一种方法采用硬连线结构实现的系统总线，其连接是静态的，第二种采用直接存储器访问、第三种方法采用片上网络方法，其连接是动态的。

本发明所述的数据处理的方法与装置中，所述处理器核可以具有快速条件判断机制，用以确定分支转移是否执行；所述快速条件判断机制可以是用于判断循环条件的计数器，也可以是用于判断分支转移及循环条件的硬件有限状态机。

本发明所述配置层次低功耗，还可以根据配置信息，使特定的处理器核进入低功耗状态；所述特定的处理器核包括但不限于没有被用到的处理器核，工作负载相对较低的处理器核；所述低功耗状态包括但不限于降低处理器时钟频率或切断电源供应。

本发明所述的数据处理的方法与装置中，还可以包括单数个或复数个专用处理模块。所述专用处理模块能作为宏模块供所述处理器核及其相应本地存储器调用，也可以作为独立的处理模块接收所述处理器核及其相应本地存储器的输出，并将处理结果送往所述处理器核及其相应本地存储器或其他处理器核及其相应本地存储器。向所述专用处理模块输出的处理器核及其相应本地存储器与接收所述专用处理模块输出的处理器核及其相应本地存储器可以是同一处理器核及其相应本地存储器，也可以是不同处理器核及其相应本地存储器。所述专用处理模块包括但不限于快速傅立叶变换（FFT) 模块、熵编码模块、熵解码模块、矩阵乘法模块、卷积编码模块、维特比码（Viterbi Code ) 解码模块、涡轮码（Turbo Code) 解码模块。

以矩阵乘法模块为例，如果使用单个所述处理器核进行大规模的矩阵乘法，需要大量时钟周期，限制了数据吞吐率的提高；如果使用多个所述处理器核实现大规模矩阵乘法，虽然能减少执行周期数，但增加了处理器核间的数据传递量，且占用大量处理器资源。采用专用的矩阵乘法模块，可以在少数个周期内完成大规模矩阵乘法。在对程序进行划分时，可以将该大规模矩阵乘法前的操作分配到若干个处理器核，即前组处理器核中，将该大规模矩阵乘法后的操作分配到另外的若干个处理器核，即后组处理器核中，前组处理器核的输出中需要参与该大规模矩阵乘法的数据被送到专用的矩阵乘法模块，经处理后再将结果送往后组处理器核,前组处理器核的输出中不需要参与该大规模矩阵乘法的数据则被直接送往后组处理器核。

有益效果: 首先，本发明所述的数据处理的方法与装置，能够将串行的程序代码分割成适应于串行连接多处理器核结构中各个处理器核运行的代码片段，针对不同数目的处理器核根据不同的分割规则分割成不同大小和数目的代码片段，适合可扩展（Scalable ) 的多核 /众核装置 / 系统应用。

其次，根据本发明所述的数据处理的方法与装置，将代码片段分配给串行连接多处理器核结构中各个处理器核运行，每个处理器核执行特定的指令，全部处理器核串行连接实现程序的完整功能，从完整程序代码中分割出来的代码片段之间用到的数据通过专门的传输途径传输，几乎没有数据相关性问题，实现了真正的多发射。在所述串行连接多处理器核结构中，其多发射的发射数量即等于处理器核的数量，大大提高了运算单元的利用率，从而实现串行连接多处理器核结构、乃至装置 /系统的高吞吐率。

再次，用本地存储器替代了处理器中通常会有的缓存（cache)。每个处理器核相应的本地存储器中保存了该处理器核要用到的所有指令和数据，做到了 100%的访问命中率（hit rate ) , 解决了缓存缺失（cache miss ) 造成的访问外部低速存储器的速度瓶颈问题，进一步提高了装置 /系统的整体性能。

再次，本发明所述的多核 /众核装置具有三个层次的低功耗技术，不但能够采用如切断未被使用的处理器核的电源等方法实现粗粒度的功耗管理，还能根据数据驱动，进行针对指令层次的细粒度功耗管理，更能用硬件的方式实施自动实时调整处理器核时钟频率，在保证处理器核正常工作的前提下，有效降低了处理器核运行中的动态功耗，实现处理器核按需求调整时钟频率，且尽量减少人为的干预实施。同时由于采用硬件的方式实现，速度快，能够更有效的实现处理器时钟频率的实时调整。

最后，采用本发明技术方案，仅需要编程和配置就可实现片上系统，能縮短从设计到产品上市之间的研发周期。而且，只需要重新编程和重配置，就能使同一个硬件产品实现不同的功能。附图说明

虽然该发明可以以多种形式的修改和替换来扩展，说明书中也列出了一些具体的实施图例并进行详细阐述。应当理解的是，发明者的出发点不是将该发明限于所阐述的特定实施例，正相反，发明者的出发点在于保护所有基于由本权利声明定义的精神或范围内进行的改进、等效转换和修改。

图 1 是以高级语言程序和汇编语言程序的分割和分配为例对本发明进行说明的流程实施例。

图 2 是本发明所述后编译方法中处理程序循环的实施例。

图 3是本发明所述基于串行多发射和流水线层次结构的可配置多核 /众核装置示意图。图 4是地址映射方式的实施例。

图 5是数据在核间传输的实施例。

图 6是背压、异常处理及数据存储器与共享存储器之间连接的实施例。

图 7是本发明所述自测试自修复方法与结构实施例。

图 8 (a) 是相邻处理器核寄存器值传输的一种实施例。

图 8 (b) 是相邻处理器核寄存器值传输的第二种实施例。

图 9是相邻处理器核寄存器值传输的第三种实施例。

图 10 (a) 是基于本发明处理器核及对应本地存储器组成的一种实施例。

图 10 (b) 是基于本发明处理器核及对应本地存储器组成的另一种实施例。

图 10 (c)是基于本发明处理器核及对应本地存储器中有效标志位和归属标志位的实施例。

图 11 (a) 是目前现有的片上系统的典型结构。

图 11 (b) 是基于本发明技术方案实现片上系统的一种实施例。

图 11 (c) 是基于本发明技术方案实现片上系统的另一种实施例。

图 12 (a) 是本发明技术方案中前编译的实施例。

图 12 (b) 是本发明技术方案中后编译的实施例。

图 13 (a) 是本发明所述基于串行多发射和流水线层次结构的可配置多核 /众核装置另一个示意图。

图 13 (b) 是本发明所述基于串行多发射和流水线层次结构的可配置多核 /众核装置通过配置形成的多核串行结构示意图。

图 13 (c) 是本发明所述基于串行多发射和流水线层次结构的可配置多核 /众核装置通过配置形成的多核串并行混合结构示意图。

图 13 (d) 是本发明所述基于串行多发射和流水线层次结构的可配置多核 /众核装置通过配置形成的多个多核结构的示意图。

具体实施方式

图 1 是以高级语言程序和汇编语言程序的分割和分配为例对本发明进行说明的流程实施例。首先经前编译（103)步骤将高级语言程序（101)和 /或汇编语言程序（102) 中的调用展开得到调用展开后的高级语言代码和 /或汇编语言代码。然后将调用展开后的高级语言代码和 /或汇编语言代码通过编译器编译（104)得到符合程序执行顺序的汇编代码，再进行后编译（107); 如果程序中只有汇编语言代码，且已经符合程序执行顺序，则可以省去编译 (104), 直接进行后编译（107)。进行后编译（107) 时，在本实施例中，以多核装置的结构信息（106)为依据，在处理器核的行为模型（108)上运行汇编代码并分割，得到配置信息（110)，同时产生相应配置引导程序（109)。最后，由所述装置中的一个处理器核（111) 直接或通过 DMA控制器（112) 对相应的复数个处理器核（113) 进行配置。

在图 2中，指令分割器首先在步骤一（201)读入前端码流片断，再在步骤二（202)读入前端码流相关信息。然后进入步骤三（203) 判断该码流片断是否循环，如果不循环，则进入步骤九（209)按照常规处理码流片断进行处理，如果循环，则进入步骤四（204)首先读入循环周期数 M，再进入步骤五（205)读入本程序段可以容纳的周期数 N。在步骤六（206) 判断循环周期数 M是否大于可以容纳的周期数 N,如果循环周期数 M大于可以容纳的周期数 N, 则进入步骤七（207)将循环分割为一个执行 N周的小循环和一个 M-N周的小循环，并在步骤八（208)将 M-N重新赋值给 M,同时进入下一程序段循环，直到满足循环周期数小于可以容纳的周期数。通过该方法，可以有效的解决循环周期数大于程序段可以容纳的周期数的情况。

图 3是本发明所述基于串行多发射和流水线层次结构的可配置多核 /众核装置示意图。在本实施例中，该装置由若干处理器核（301)、可配置本地存储器（302) 和可配置互联结构（303)构成。在本实施例中，每个处理器核（301)对应其下方的可配置本地存储器（302), 两者一起构成所述宏观流水线的一级。通过配置可配置互联结构（303)，可以将多个处理器核（301)及其相应可配置本地存储器（302)连接成串行连接结构。多个串行连接结构可以各自独立，也可以部分或全部有相互联系，串行、并行或串并混合地运行程序。

图 4是地址映射方式的实施例。图 4 (a)采用査找表的方法实现地址査找。以 16位地址为例， 64K地址空间分为多块单个 1K地址空间的小存储器（403)，采用顺序写入的方式，一块存储器写完后，再写入其他块。每写完一次，块内地址指针（404 ) 自动指向下一个有效位为 0的可用表项，写入时将表项的有效位置 1。每个表项写入数据同时将其地址写入査找表（402 )。以写入地址 BFC0的值为例，此时地址指针（404) 指向存储器（403 ) 的 2号表项，将对应数据写入 2号表项时，在査找表（402)对应地址 BFC0中写入 2，从而建立地址映射关系。在读取数据时，由地址根据査找表（402 ) 来找到对应表项，读出所存数据。图 4 (b)采用 CAM阵列的方法实现地址査找。以 16位地址为例， 64K地址空间分为多块单个 1K地址空间的小存储器（403)，采用顺序写入的方式，一块存储器写完后，再写入其他块。每写完一次，块内地址指针（406) 自动指向下一个有效位为 0的可用表项，写入时将表项的有效位置 1。每个表项写入数据同时将其指令地址写入 CAM阵列（402 ) 的下一个表项。以写入地址 BFC0的值为例，此时地址指针（406) 指向存储器（403 ) 的 2号表项，将对应数据写入 2号表项时，在 CAM阵列（405 ) 的下一个表项写入指令地址 BFC0, 从而建立地址映射关系。在读取数据时，输入指令地址与 CAM阵列所存的所有指令地址相比较来找到对应表项，读出所存数据。

图 5是数据在核间传输的实施例。所有数据存储器均位于处理器核之间，且分为逻辑意义上的上下两部分。其中上部分用于数据存储器上面的处理器核的读写，下部分仅用于读取数据供数据存储器下面的处理器核使用。处理器核运行程序的同时，数据从上面的数据存储器向下接力传递。三选一选择器（502、 509 ) 可选择远处传来的数据（506 )送入数据存储器（503、 504)。 '在处理器核（510、 511 ) 不做 Store指令时，数据存储器（501、 503 ) 的下部分分别通过三选一选择器（502、 509 )写入对应的下一个数据存储器（503、 504)的上部分，同时标志写入行的有效位 V为 1。在做 Store指令时，寄存器堆只向下面的数据存储器写值。在 Load指令需要取相应地址的数据时，二选一选择器（505、 507 ) 分别由数据存储器（503、 504) 的有效位 V决定是从对应上面的数据存储器（501、 503 )或下面的数据存储器（503、 504) 中取数。如果数据存储器（503、 504 ) 中某表项的有效位 V为 1 , 即标志数据已经从上面的数据存储器（501、 503 ) 写入更新，则在不选择远处传来的数据（506 ) 的情况下，三选一选择器（502、 509 )分别选择处理器核（510、 511 ) 的寄存器堆输出作为输入，从而保证所存数据是经过处理器核（510、 511)处理后的最新值。在数据存储器（503) 的上部分被新数据写入时，数据存储器（503)的下部分向数据存储器（504)的上部分传输数据。数据传输时使用指针标志正在传输数据的表项，当指针指向最后一个表项时，标志传输即将完成。一段程序运行完毕时，数据应已完成向下一个存储器的传输。在下一段程序运行时，数据存储器（ 501 )的上部分向数据存储器（ 503 )的下部分传输数据，数据存储器（ 503 ) 的上部分向数据存储器（504) 的下部分传输数据，数据存储器（504)的上部分向下传输数据，从而构成乒乓传输结构。所有数据存储器都按所需指令空间大小划分出一部分用于指令的存储，即数据存储器和指令存储器在物理上是不分开的。

图 6 是背压、异常处理及数据存储器与共享存储器之间连接的实施例。本实施例中由 DMA控制器 (616) 向指令存储器（601、 609、 610、 611) 写入相应代码片段（615)。处理器核（602、 604、 606、 608)运行相应指令存储器（601、 609、 610、 611) 中的代码，并读写相应的数据存储器（603、 605、 607、 612)。以处理器核（604)、数据存储器（605)及后一级处理器核（606)为例，前后两级处理器核（604、 606)都对数据存储器（605)有访问，只有在前级处理器核（604) 完成写数据存储器（605) 且后级处理器核（606) 完成读数据存储器（605)后，数据存储器（605) 中的数据子存储器才能做乒乓交换。背压信号（614) 用于由后级处理器核（606) 通知数据存储器（605) 是否己完成读操作。背压信号（613) 用于由数据存储器（605)通知前级处理器核（604)是否有溢出，并传递由后级处理器核（606) 传输来的背压信号。前级处理器核（604)根据本身运行情况和由数据存储器（605)传输来的背压信号，判断宏观流水线是否阻塞、决定是否对数据存储器（605) 中的数据子存储器做乒乓交换，并产生背压信号继续向前一级传递。通过如此处理器核到数据存储器再到处理器核的反向背压信号传递，即可控制宏观流水线的运行。所有数据存储器（603， 605, 607， 612) 均通过连接（619) 与共享存储器（618) 连接。当某个数据存储器所需写入或读出的地址在其自身之外时，发生地址异常，进入共享存储器（618) 中査找地址，找到后将数据写入该地址或将该地址的数据读出。当处理器核（608)需耍用到数据存储器（605)中的数据时，也发生异常，数据存储器（605)通过共享存储器（618)将数据传输到处理器核（608) 中。处理器核和数据存储器产生的异常信息均通过专用通道（620) 传输到异常处理模块 (617)。在本实施例中，以处理器核中的运算结果溢出为例，异常处理模块（617) 控制处理器核对溢出的运算结果做限辐（saturation)操作；以数据存储器溢出为例，异常处理模块（617) 控制数据存储器访问共享存储器，将数据存储到共享存储器中；在此过程中，异常处理模块（617) 发送信号到所述处理器核或数据存储器，使之阻塞，等完成异常处理操作后再恢复运行，其他处理器核及数据存储器通过背压传递而来的信号各自确定自身是否阻塞。

请参阅图 7，该图为所述自测试自修复方法与结构实施例。在该自测试自修复结构（701) 中，向量生成器（702) 产生的测试向量同步送到各处理器核，测试向量分配控制器（703) 控制各处理器核与向量生成器（702)的连接关系，运算结果分发控制器（709)控制各处理器核与比较器的连接关系，处理器核通过比较器和其他处理器核进行运算结果的比较，在本实施例中，每个处理器核可以和相邻的其他处理器核进行比较，如处理器核（704)可以通过比较逻辑（708)和处理器核（705、 706、 707)进行比较。在该实施例中，每个比较逻辑可以包含一个或者多个比较器，如果一个比较逻辑有一个比较器，则每个处理器核依次和相邻的其他多个处理器核进行比较，如果一个比较逻辑有多个比较器，则每个处理器核同时和相邻的其他多个处理器核进行比较，测试结果直接从各比较逻辑写入测试结果表（710)。

请参阅图 8，图 8给出了相邻处理器核寄存器值传输的三种实施例。

在图 8(a)对应的实施例中，处理器核具有包含 31个 32位通用寄存器的寄存器堆 (801), 在传递前级处理器核（802) 中所有通用寄存器值到本级处理器核（803) 时，可以用 992 根硬连线直接将前级处理器核（802) 所有通用寄存器的每一位的输出端与本级处理器核 (803)所有通用寄存器的每一位的输入端通过多路选择器一一对应连通。传递寄存器值时，在一个周期内即可将前级处理器核（802) 中 31个 32位通用寄存器的值全部传递到本级处理器核（803)。图 8 (a) 中具体显示了一个通用寄存器中一位（804) 的硬连线连接方法，其余 991位的硬连线连接方法与该位（804) 相同。前级处理器核（802) 中相应位（805) 的输出端（806)通过硬连线（807)与本级处理器核（803) 中该位（804) 的输入端通过多路选择器（808)连接。当处理器核执行算术、逻辑等运算时，多路选择器（808)选择来源于本级处理器核的数据（809); 当处理器核执行取数操作时，如果该数据在本级处理器核对应的本地存储器中已存在，则选择来源于本级处理器核的数据（809), 否则选择来源于前级处理器核传输而来的数据（810); 当传递寄存器值时，多路选择器（808) 选择来源于前级处理器核传输而来的数据（810)。全部 992位同时传输，即可在一个周期内完成整个寄存器堆值的传递。在图 8 (b)对应的实施例中，相邻处理器核（820、 822)各自具有包含复数个 32位通用寄存器的寄存器堆（821、 823)。在从前级处理器核（820) 向本级处理器核（822) 传递寄存器值时，可以用 32根硬连线将前级处理器核（820) 中寄存器堆（821) 的数据输出端

(829)与连接在本级处理器核（822) 中寄存器堆（823)数据输入端（830)上的多路选择器（827) 的输入连接，多路选择器（827) 的输入分别为本级处理器核来的数据（824) 和通过硬连线（826) 传送来的从前级处理器核来的数据（825)，当处理器核执行算术、逻辑等运算时，多路选择器（827) 选择来源于本级处理器核的数据（824); 当处理器核执行取数操作时，如果该数据在本级处理器核对应的本地存储器中已存在，则选择来源于本级处理器核的数据（824)，否则选择来源于前级处理器核传输而来的数据（825) 当传递寄存器值时，多路选择器（827)选择来源于前级处理器核传输而来的数据（825)。由寄存器堆（821、 823) 本身对应的寄存器地址产生模块（828、 832) 产生需要传递寄存器值的寄存器地址送到寄存器堆（821、 823) 的地址输入端（831、 833), 分多次将所述寄存器的值通过硬连线

(826) 和多路选择器（827) 从寄存器堆（821) 传递的寄存器堆（823)。这样，可以在只增加少量硬连线的情况下，利用多个周期内完成寄存器堆内全部或部分寄存器值的传递。

在图 9对应的实施例中，相邻处理器核（940、 942) 各自具有包含复数个 32位通用寄存器的寄存器堆（941、 943)。在从前级处理器核（940) 向本级处理器核（942) 传递寄存器值时，可以先由前级处理器核（940) 利用数据存储（store) 指令将寄存器堆（941) 中一个寄存器值写入前级处理器核（940)对应的本地数据存储器（954) 中，再由本级处理器核（942)利用数据装载（load)指令从本地数据存储器（954)中读出相应数据并写入寄存器堆（943) 的对应寄存器中。在本实施例中，前级处理器核（940) 中的寄存器堆（941) 的数据输出端（949)通过 32位连线（946)与本地数据存储器（954) 的数据输入端（948) 相连，本级处理器核（942)中的寄存器堆（943)的数据输入端（950)通过多路选择器（947) 及 32位连线（953)与本地数据存储器（954)的数据输出端（952)相连。多路选择器（947) 的输入分别为本级处理器核来的数据（944) 和通过 32位连线（953) 传送来的从前级处理器核来的数据（945)，当处理器核执行算术、逻辑等运算时，多路选择器（947) 选择来源于本级处理器核的数据（944); 当处理器核执行取数操作时，如果该数据在本级处理器核对应的本地存储器中已存在，则选择来源于本级处理器核的数据（944)，否则选择来源于前级处理器核传输而来的数据（945)当传递寄存器值时，多路选择器（947)选择来源于前级处理器核传输而来的数据（945)。在图 8 (c )对应的实施例中，可以先依次将寄存器堆（941 ) 中全部寄存器的值都写入本地数据存储器（954)中，之后依次将这些值写入寄存器堆（943 ) 中；也可以先依次将寄存器堆（941 ) 中部分寄存器的值写入本地数据存储器（954) 中，之后依次将这些值写入寄存器堆（943)中；还可以将寄存器堆（941 )中一个寄存器的值写入本地数据存储器（954) 中后，马上将该值写入寄存器堆（943) 中，依次重复此过程，直到需要传递的寄存器值都传递完毕。

请参阅图 10，图 10给出了基于本发明所述处理器核及对应本地存储器组成的连接结构的两种实施例。对于本领域普通技术人员来说，可以根据本发明的技术方案和构思对这些实施例中各组成部分进行各种可能的替换、调整和改进，而所有这些替换、调整和改进都应属于本发明所附权利要求的保护范围。

图 10 (a) 对应的实施例包含了本地指令存储器和本地数据存储器的处理器核（1001 ) 及其前一级处理器核对应的本地数据存储器（1002 )。处理器核（1001 ) 由本地指令存储器 ( 1003)、本地数据存储器（1004)、执行单元（1005)、寄存器堆（1006)、数据地址产生模块（1007)、程序计数器（1008)、写缓冲（1009) 以及输出缓冲（1010) 组成。

本地指令存储器（1003)存储有处理器核（1001 ) 执行所需的指令。处理器核（1001 ) 中执行单元（1005) 所需的操作数来自寄存器堆（1006 )，或来自指令中的立即数；执行结果写回寄存器堆（1006)。

本实施例中，本地数据存储器有两个子存储器。以本地数据存储器（1004)为例，从两个子存储器读出的数据通过多路选择器（1018、 1019)选择，产生最终输出的数据（1020)。

通过数据装载（ load )指令可以将本地数据存储器（ 1002、 1004 )中的数据、写缓冲（ 1009 ) 中的数据、或外部的共享存储器中的数据（1011 )读取到寄存器堆（1006) 中。在本实施例中，本地数据存储器（1002、 1004) 中的数据、写缓冲（1009) 中的数据和外部的共享存储器中的数据（1011 ) 通过多路选择器（1016、 1017) 选择后，输入到寄存器堆（1006 ) 中。

通过数据存储（store) 指令可以将寄存器堆（1006) 中的数据通过写缓冲 ( 1009) 延时存储到本地数据存储器（1004)中，或将寄存器堆（1006)中的数据通过输出缓冲（1010) 延时存储到外部的共享存储器中。在从本地数据存储器（1002 )读取数据到寄存器堆（1006 ) 的同时可以将该数据通过写缓冲（1009 )延时存储到本地数据存储器（1004)中，以完成本发明所述的 LIS功能，实现无代价的数据传递。在图 10(a)对应的实施例中，写缓冲（1009)接收的数据有三个来源：从寄存器堆（1006) 来的数据、从前级处理器核本地数据存储器（1002)来的数据、以及从外部的共享存储器来的数据（1011)。所述从寄存器堆（1006)来的数据、从前级处理器核本地数据存储器（1002) 来的数据、以及从外部的共享存储器来的数据（1011)通过多路选择器（1012)选择后输入到写缓冲（1009)。

在图 10 (a)对应的实施例中，本地数据存储器只接收从同一处理器核中写缓冲来的数据输入。如在处理器核（1001) 中，本地数据存储器（1004)只接收从写缓冲（1009)来的数据输入。

在图 10 (a)对应的实施例中，本地指令存储器（1003)和本地数据存储器（1002、 1004) 各自都是由两个相同的子存储器构成，可以同时对本地存储器中不同的子存储器进行读、写操作。采用这样的结构就可以实现本发明技术方案所述的采用乒乓缓冲交换的本地数据存储器。本地指令存储器（1003)接收的地址由程序计数器（1008)产生。本地数据存储器（1004) 接收的地址有三个来源：从本级处理器核写缓冲（1009)中地址存储部分来的用于存储数据的地址、从本级处理器核数据地址产生模块（1007)来的用于读取数据的地址、从后级处理器核数据地址产生模块来的用于读取数据的地址（1013)。所述从本级处理器核写缓冲（1009) 中地址存储部分来的用于存储数据的地址、从本级处理器核数据地址产生模块（1007)来的用于读取数据的地址、从后级处理器核数据地址产生模块来的用于读取数据的地址（1013) 通过多路选择器（1014、 1015)选择后，分别输入到本地数据存储器（1004) 中不同子存储器的地址接收模块。

相应地，本地数据存储器（1002)接收的地址也有三个来源：从本级处理器核写缓冲中地址存储部分来的用于存储数据的地址、从本级处理器核数据地址产生模块来的用于读取数据的地址、从后级处理器核数据地址产生模块（1007)来的用于读取数据的地址。上述地址通过多路选择器选择后，分别输入到本地数据存储器（1002)中不同子存储器的地址接收模块。

图 10 (b)是另一种基于本发明所述处理器核及对应本地存储器组成的连接结构，其中包含了本地指令存储器和本地数据存储器的处理器核（1021)及其前一级处理器核对应的本地数据存储器（1022) 组成。处理器核（1021) 由本地指令存储器（1003)、本地数据存储器（1024)、执行单元（1005)、寄存器堆（1006)、数据地址产生模块（1007)、程序计数器 (1008)、写缓冲（1009) 以及输出缓冲（1010) 组成。

图 10 (b) 对应实施例提出的连接结构与图 10 (a) 对应实施例提出的结构大致相同，唯一的不同点在于本实施例中的本地数据存储器（ 1022、 1024) 各是由一个双端口 (dual-port) 存储器构成。双端口存储器可以同时支持两个不同地址的读、写操作。

本地数据存储器（1024)接收的地址有三个来源：从本级处理器核写缓冲（1009)中地址存储部分来的用于存储数据的地址、从本级处理器核数据地址产生模块（1007)来的用于读取数据的地址、从后级处理器核数据地址产生模块来的用于读取数据的地址（1025)。所述从本级处理器核写缓冲（1009)中地址存储部分来的用于存储数据的地址、从本级处理器核数据地址产生模块（1007)来的用于读取数据的地址、从后级处理器核数据地址产生模块来的用于读取数据的地址（1025)通过多路选择器（1026)选择后，输入到本地数据存储器 (1024) 的地址接收模块。

相应地，本地数据存储器（1022)接收的地址也有三个来源：从本级处理器核写缓冲中地址存储部分来的用于存储数据的地址、从本级处理器核数据地址产生模块来的用于读取数据的地址、从后级处理器核数据地址产生模块（1007)来的用于读取数据的地址。上述地址通过多路选择器选择后，输入到本地数据存储器（1022) 的地址接收模块。

由于通常程序中需要访问存储器的数据装载指令和数据存储指令一般不超过 40%，因此可以用单端口（single- port) 存储器代替图 10 (b) 对应实施例中的双端口存储器，在程序编译时静态调整程序中指令的顺序，或在程序执行时动态调整指令执行顺序，在执行不需访问存储器的指令时同时执行对存储器访问的指令，进而使连接结构的组成更为简洁、高效。

图 10 (b)对应实施例中每个本地数据存储器实际上是一个双端口存储器，能同时支持两个读、两个写或一读一写操作。为保证数据在执行中不被误改写，可以采用如图 10 (c) 所示的方法，在本地数据存储器（1031) 中的每一地址都对应增加一个有效标志位（1032) 和一个归属标志位（1033)。

图 10 (c) 中，有效标志位（1032)代表了本地数据存储器（1031) 中该地址对应的数据（1034) 的有效性，举例而言，可以用 "1"代表本地数据存储器（1031) 中该地址对应的数据（1034)是有效的，用 "0"代表本地数据存储器（1031)中该地址对应的数据（1034) 是无效的。归属标志位（1033)代表了本地数据存储器（1031)中该地址对应的数据（1034) 是归哪个处理器核使用，举例而言，可以用 "0"代表本地数据存储器（1031) 中该地址对应的数据（1034) 归所述本地数据存储器（1031) 对应的处理器核（1035) 使用，用 "1" 代表本地数据存储器（1031) 中该地址对应的数据（1034) 归所述本地数据存储器（1031) 对应的处理器核（1035) 及其后级处理器核（1036) 使用。

在具体实施例中，可以按上述对有效标志位（1032)和归属标志位（1033)的定义描述存储在本地数据存储器中的每个数据的属性，并保证正确的读写。

在图 10 (c)对应实施例中，如果本地数据存储器（1031) 中某地址对应的有效标志位 (1032) 为 "0"，则表示该地址对应的数据（1034)是无效的， BP, 如果需要，可以直接对该地址进行数据存储操作。如果有效标志位（1032) 为 "1"且归属标志位（1033)为 "0"，则表示该地址对应的数据（1034)是有效的，且是给所述本地数据存储器（1031)对应的处理器核（1035)使用的，因此本级处理器核（1035)如果需要，可以直接对该地址进行数据存储操作。如果有效标志位（1032) 为 "1"且归属标志位（1033) 为 "1", 则表示该地址对应的数据（ 1034)是有效的，且是耍给所述本地数据存储器（ 1031)对应的处理器核（ 1035) 及其后级处理器核（1036)使用的，如果本级处理器核（1035)需耍对该地址进行数据存储操作，则必须等到所述归属标志位（1033) 为 "0"后才可进行数据存储操作，即先将该地址对应的数据（1034)传输到后级处理器核（1036)对应的本地数据存储器（1037) 中的相应位置，同时将本级处理器核（1035)对应的本地数据存储器（1031) 中该地址对应的归属标志位（1033)置为 "0"，这样，本级处理器核（1035)就可以对该地址进行数据存储操作了。

在图 10 (c)对应实施例中，若本级处理器（1035)对其对应的本地数据存储器（1031) 进行数据存储操作，则可以将对应的有效标志位（1032)置 "1"，并根据该数据（1034)是否会被后级处理器（1036)使用决定归属标志位，如果会被后级处理器（1036)使用则归属标志位 (1033) 置 T，否则置 "0"; 也可以将对应的有效标志位 (1032)置 "1"，同时将对应的归属标志位（1032) 也置 "1"，这样虽然需要增加本地数据存储器（1031) 的容量，但能简化其具体的实现结构。

请参阅图 11 (a), 图 11 (a) 给出了目前现有的片上系统的典型结构。其中处理器核 (1101)、数字信号处理器核（1102)、功能单元（1103、 1104、 1105)、输入输出接口控制模块（1106)和存储控制模块（1108)都连接在系统总线（1110)上。该片上系统可以通过输入输出接口控制模块（ 1106)与外围设备（ 1107)传输数据，还可以通过存储控制模块（ 1108) 与外部存储器（1109) 传输数据。

请参阅图 11 (b)，图 11 (b) 给出了基于本发明技术方案实现片上系统的一种实施例。在本实施例中，处理器核及相应本地存储器（1121)与其他六个处理器核及相应本地存储器共同构成功能模块（1124)，处理器核及相应本地存储器（1122) 与其他四个处理器核及相应本地存储器共同构成功能模块（1125)，处理器核及相应本地存储器（1123) 与其他两个处理器核及相应本地存储器共同构成功能模块（1126)。所述功能模块（1124、 1125、 1126) 各自可以对应图 11 (a) 实施例中的处理器核（1101)、或数字信号处理器核（1102)、或功能单元（1103或 1104或 1105)、或输入输出接口控制模块（ 1106)、或存储控制模块（ 1108)。

以功能模块（1126) 为例，处理器核及相应本地存储器（1123、 1127、 1128、 1129)构成串行连接的多核结构，所述四个处理器核及相应本地存储器（1123、 1127、 1128、 1129) 共同实现功能模块（1126) 具备的功能。

处理器核及相应本地存储器（1123)与处理器核及相应本地存储器（1127)之间的数据传输通过内部连接 (1130)实现。同样地，处理器核及相应本地存储器（1127)与处理器核及相应本地存储器（1128)之间的数据传输通过内部连接（1131)实现，处理器核及相应本地存储器（ 1128 )与处理器核及相应本地存储器（ 1129 )之间的数据传输通过内部连接（ 1132 ) 实现。

功能模块（1126)通过硬连线（1133、 1134)与总线连接模块（1138)连接，使功能模块（1126)与总线连接模块（1138)之间能相互传输数据。同样地，功能模块（1125) 与总线连接模块（1139)之间能相互传输数据，功能模块（1124)与总线连接模块（1140、 1141) 之间能相互传输数据。总线连接模块（1138) 与总线连接模块（1139) 通过硬连线（1135) 能相互传输数据。总线连接模块（1139)与总线连接模块（1140)通过硬连线（1136) 能相互传输数据。总线连接模块（1140)与总线连接模块（1141)通过硬连线（1137)能相互传输数据。通过这种方法，可以实现功能模块（1125)、功能模块（1126)、功能模块（1127) 之间的数据相互传输，总线连接模块（1138、 1139、 1140、 1141) 与硬连线（1135、 1136、 1137) 实现了图 11 (a) 中系统总线 (1110) 的功能，并与功能模块（1125、 1126、 1127) 一起，构成了典型的片上系统结构。

由于本发明提出的可配置多核 /众核装置中处理器核及相应本地存储器在数目上是很容易扩展的，因此采用本实施例的方法可以很方便地实现各种类型的片上系统。此外，在基于本发明提出的可配置多核 /众核装置实时运行时，也可以通过实时动态配置的方法，使片上系统的结构能灵活改变。

请参阅图 11 (c), 图 11 (c) 给出了基于本发明技术方案实现片上系统的 /另一种实施例。在本实施例中，处理器核及相应本地存储器（1151)与其他六个处理器核及相应本地存储器共同构成功能模块（1163), 处理器核及相应本地存储器（1152) 与其他四个处理器核及相应本地存储器共同构成功能模块（1164)，处理器核及相应本地存储器（1153) 与其他两个处理器核及相应本地存储器共同构成功能模块（1165)。所述功能模块（1163、 1164、 1165)各自可以对应图 11 (a)实施例中的处理器核（1101)、或数字信号处理器核（1102)、或功能单元（1103或 1104或 1105)、或输入输出接口控制模块（1106)、或存储控制模块 (1108)。

以功能模块（1165)为例，处理器核及相应本地存储器（1153、 1154、 1155、 1156)构成串行连接的多核结构，所述四个处理器核及相应本地存储器（1153、 1154、 1155、 1156) 共同实现功能模块（1165) 具备的功能。

处理器核及相应本地存储器（1153)与处理器核及相应本地存储器（1154)之间的数据传输通过内部连接（1160)实现。同样地，处理器核及相应本地存储器（1154)与处理器核及相应本地存储器（1155)之间的数据传输通过内部连接（1161)实现，处理器核及相应本地存储器（1155)与处理器核及相应本地存储器（1156)之间的数据传输通过内部连接（1162) 实现。

在本实施例中，一个例子是通过处理器核及相应本地存储器（1156)与处理器核及相应本地存储器（1166)间的数据传输实现功能模块（1165)与功能模块（1164) 间的数据传输需求。根据本发明技术方案，运行过程中，一旦处理器核及其相应本地存储器（1156)需要与处理器核及其相应本地存储器（1166)相互传输数据，可配置互联网络根据所述数据传输的需求自动配置、建立处理器核及其相应本地存储器（1156)与处理器核及其相应本地存储器（1166) 的双向数据通路（1158)。同样地，一旦处理器核及其相应本地存储器（1166) 需要向处理器核及其相应本地存储器（1156)单向传输数据，或处理器核及其相应本地存储器（1156)需耍向处理器核及其相应本地存储器（1166)单向传输数据，也可按相同方法建立单向的数据通路。

在本实施例中，还建立了处理器核及其相应本地存储器（1151)与处理器核及其相应本地存储器（1152 ) 之间的双向数据通路（1157)，和处理器核及其相应本地存储器（1165 ) 与处理器核及其相应本地存储器（1155 ) 之间的双向数据通路（1159)。通过这种方法，可以实现功能模块（1163 )、功能模块（1164)、功能模块（1165 )之间的数据相互传输，双向数据通路（1157、 1158、 1159) 实现了图 11 (a) 中系统总线（1110) 的功能，并与功能模块（1163、 1164、 1165 ) 一起，构成了典型的片上系统结构。

根据片上系统应用需求的不同，任意两个功能模块之间不一定只有一组数据通路。由于本发明提出的可配置多核 /众核装置中处理器核在数目上是很容易扩展的，因此采用本实施例的方法可以很方便地实现各种类型的片上系统。此外，在基于本发明提出的可配置多核 / 众核装置实时运行时，也可以通过实时动态配置的方法，使片上系统的结构能灵活改变。

图 12前编译和后编译实施例，其中图 12 ( a)为前编译实施例，图 12 (b )为后编译实施例。

如图 12 ( a) 所示，左边为原始的程序代码（1201、 1203、 1204), 在代码中有两次函数调用，分别为 A函数调用和 B函数调用。其中 1203、 1204分别为 A函数和 B函数代码本身。在进行前编译展开后， A函数调用和 B函数调用分别被替换成相应的函数代码，展开后的代码中没有函数调用，如 1202所示。

图 12 (b ) 为后编译实施例，如图所示，原始的目标代码（1205 ) 为经过普通编译后的目标代码，该目标代码是基于顺序执行的目标代码，经过后编译分割后，形成如图所示的代码块（1206、 1207、 1208、 1209、 1210、 1211 ), 每个代码块分配给相应的一个处理器核执行。相应的 A循环体被分割为一个单独的代码块（1207)，而 B循环体由于本身相对较大，被分割成两个代码块，即 B循环体 1 ( 1209 )和 B循环体 2 ( 1210)。两个代码块在两个处理器核上执行，共同完成 B循环体。

请参阅图 13，图 13 ( a)为本发明所述基于串行多发射和流水线层次结构的可配置多核 /众核装置示意图，图 13 (b )为通过配置形成的多核串行结构示意图，图 13 ( c )为通过配置形成的多核串并行混合结构示意图，图 13 ( d )为通过配置形成的多个多核结构的示意图。

如图 13 ( a) 所示，该装置由多个处理器核及可配置本地存储器（1301、 1303、 1305、 1307、 1309、 1311、 1313、 1315、 1317 )和可配置互联结构（1302、 1304、 1306、 1308、 1310、 1312、 1314、 1316、 1318)构成。在本实施例中，每个处理器核及可配置本地存储器构成所述宏观流水线的一级。通过配置可配置互联结构（如 1302 )，可以将多个处理器核及可配置本地存储器（1301、 1303、 1305、 1307、 1309、 1311、 1313、 1315、 1317)连接成串行连接结构。多个串行连接结构可以各自独立，也可以部分或全部有相互联系，串行、并行或串并混合地运行程序。

如图 13 (b)所示，通过配置相应的可配置互联结构,形成图中的多核串行结构，其中处理器核及可配置本地存储器（1301)为该多核串行结构的第一级，处理器核及可配置本地存储器 (1317)为该多核串行结构的最后一级。

如图 13 (c) 所示，通过配置相应的可配置互连结构，处理器核及可配置本地存储器 (1301、 1303、 1305、 1313、 1315, 1317)构成串行结构，而处理器核及可配置本地存储器 (1307、 1309、 1311) 构成并行结构，最终形成一个串并行混合结构的多核处理器。 . 如图 13 (d) 所示，通过配置相应的可配置互连结构，处理器核及可配置本地存储器 (1301、 1307、 1313、 1315)构成串行结构，而处理器核及可配置本地存储器（1303、 1309、 1305、 1311、 1317) 构成另外一条串行结构，从而构成两条完全独立的串行结构。

Claims

权利要求

1、一种数据处理的方法，用于在多处理器核结构上执行程序并得到结果；所述处理器指通过执行指令进行运算和读写数据的硬件；其特征在于所述数据处理的方法包括：

( 1 ) 对程序代码进行分割，使所述多处理器核结构中的每个核运行相应的分割后代码片段所需的时间尽量相等；

( 2 ) 在所述多处理器核结构中串行连接的多核结构上运行程序时，串行连接多核结构中前一个处理器核的执行结果作为输入送给后一个处理器核；串行连接的多处理器核结构中任意核每单位时间内可进行单数个或复数个发射，复数个串行连接的核同时形成更大规模的多发射，即串行多发射；

( 3 ) 在所述多处理器核结构中串行连接的多核结构上运行程序时，串行连接多核结构中任意核的内部流水线为第一个层次，串行连接多处理器核结构中每个核作为一个宏观流水线段而构成的宏观流水线为第二个层次，依此类推还可以得到更多更高层次。

2、根据权利要求 1所述的数据处理的方法，其特征在于产生运行于所述多处理器核结构中处理器核上的代码片段，除需耍对程序代码进行现有通常意义上从程序源代码到目标代码的编译（compi le) 外，还可以进行前编译（pre- compile), 即在所述编译进行前对程序源代码的预编译；还可以进行后编译（post-compi le ), 即按要求分配到所述串行连接多处理器核结构中每个核的工作内容及负荷将程序代码的划分为单数个或复数个代码片段。

3、根据权利要求 2所述的数据处理的方法，其特征在于所述后编译步骤包括：

(a) 对程序代码进行解析，生成前端码流；

( b) 扫描、分析前端码流，根据执行前端码流所需执行周期、是否跳转以及跳转地址信息，统计扫描结果，间接确定分割信息；或不扫描前端码流，根据预设信息直接确定分割信息；

4、根据权利耍求 3所述的数据处理的方法，其特征在于在每个所述处理器核上运行的指令除所述分割后的相应代码片段外，还可以包括不影响原始程序功能的额外指令。

5、一种基于串行多发射和流水线层次结构的可配置多核 /众核装置，包括复数个处理器核、复数个可配置本地存储器（configurable local memory )、可配置互联结构（configurable interconnect structure ), 其中 r

处理器核，用于执行指令，进行运算并得到相应结果；

可配置本地存储器，用于存储指令以及所述处理器核间的数据传递和数据保存；可配置互联结构，用于所述可配置多核 /众核装置内各模块间及与外部的连接；可以根据应用程序要求对处理器核、可配置本地存储器和可配置互联结构进行配置，构成单数个或复数个串行连接的多核结构;所述串行连接的多核结构中每个处理器核各运行程序代码中的一部分代码片段;所述串行连接的多核结构中所有处理器核共同实现程序代码的完整功能。

6、根据权利要求 5所述的可配置多核 /众核装置，其特征在于所述基于串行多发射和流水线层次结构的可配置多核 /众核装置还可以包括单数个或复数个扩展模块；所述扩展模块可以是：

共享存储器（shared memory ) , 用于在所述可配置数据存储器溢出的情况下保存数据、传递复数个处理器核间的共享数据；或

直接存储器访问（DMA) 控制器，用于除处理器核外其他模块对所述可配置本地存储器的直接访问；或

异常处理（exception handl ing ) 模块，用于处理处理器核、本地存储器发生的异常 ( exception

7、根据权利要求 5所述的可配置多核 /众核装置，其特征在于所述基于串行多发射和流水线层次结构的可配置多核 /众核装置中，处理器核包括运算单元和程序计数器。

8、根据权利耍求 7所述的可配置多核 /众核装置，其特征在于所述基于串行多发射和流水线层次结构的可配置多核 /众核装置中，处理器核还可以包括扩展模块；所述扩展模块可以是寄存器堆。

9、根据权利耍求 5所述的可配置多核 /众核装置，其特征在于所述基于串行多发射和流水线层次结构的可配置多核 /众核装置中，每个所述处理器核都有相应的可配置本地存储器，包括用于存放分割后代码片段的指令存储器（ instruction memory )和用于存放数据的可配置数据存储器 ( configurable data memory ) ₀

10、根据权利耍求 9所述的可配置多核 /众核装置，其特征在于同一可配置本地存储器中，所述指令存储器与可配置数据存储器之间的边界是可以根据不同配置信息改变的。

11、根据权利要求 9所述的可配置多核 /众核装置，其特征在于在同一可配置数据存储器中可以包括复数个数据子存储器,所述复数个数据子存储器之间的边界是可以根据不同配置信息改变的。

12、根据权利要求 5所述的可配置多核 /众核装置，其特征在于所述可配置互联结构包括处理器核与相邻可配置本地存储器的连接、处理器核与共享存储器的连接、处理器核与直接存储器访问控制器的连接、可配置本地存储器与共享存储器的连接、可配置本地存储器与直接存储器访问控制器的连接、可配置本地存储器与系统外部的连接和共享存储器与系统外部的连接。

13、根据权利要求 12所述的可配置多核 /众核装置，其特征在于根据配置，可以使两个所述处理器核及其相应本地存储器构成前后级连接关系，也可以将部分或全部处理器核及其相应本地存储器通过可配置互联结构构成单数个或复数个串行连接结构；复数个所述串行连接结构可以各自独立，也可以部分或全部有相互联系，串行、并行或串并混合地执行指令。

14、根据权利要求 13所述的可配置多核 /众核装置，其特征在于所述串行、并行或串并混合地执行指令可以是根据应用程序要求不同串行连接结构在同步机制的控制下运行不同的程序段并行执行不同指令、多线程并行运行，也可以是根据应用程序要求不同串行连接结构在同步机制的控制下运行相同的程序段，还可以是以单指令多数据流（SIMD)方式进行相同指令、不同数据的运算。

15、根据权利要求 5所述的可配置多核 /众核装置，其特征在于所述基于串行多发射和流水线层次结构的可配置多核 /众核装置中，所述串行连接结构中处理器核具有特定的数据读规则（read policy), 即所述串行连接结构中第一个处理器核的输入数据来源可以是本身相应的可配置数据存储器，可以是共享存储器，也可以是所述可配置多核 /众核装置外部；其他任意处理器核的输入数据来源，可以是本身相应的可配置数据存储器，也可以是前一级处理器核相应的可配置数据存储器。

16、根据权利要求 5所述的可配置多核 /众核装置，其特征在于所述基于串行多发射和流水线层次结构的可配置多核 /众核装置中，所述串行连接结构中处理器核具有特定的数据写规则 (write policy)，即所述串行连接结构中第一个处理器核相应可配置数据存储器的输入数据来源可以是处理器核本身，可以是共享存储器，也可以是所述可配置多核 /众核装置外部；其他任意处理器核相应可配置数据存储器的输入数据来源可以是处理器核本身，可以是前一级处理器核相应可配置数据存储器，也可以是共享存储器；任意所述处理器核的输出数据的去向可以是本身相应的可配置数据存储器，也可以是共享存储器；当扩展存储器存在时，任意所述处理器核的输出数据的去向还可以是扩展存储器。

17、根据权利要求 15、 16所述的可配置多核 /众核装置，其特征在于所述处理器核及其相应可配置数据存储器不同来源的输入数据按特定规则进行多路选择以确定最终的输入数据。

18、根据权利要求 15、 16所述的可配置多核 /众核装置，其特征在于同一个所述可配置数据存储器可以同时被其前后级的两个处理器核访问，不同的处理器核各自访问所述可配置数据存储器中的不同数据子存储器。

19、根据权利要求 5所述的可配置多核 /众核装置，其特征在于当所述多核 /众核系统中处理器核包含寄存器堆时，还需要具有传输寄存器值的功能，即所述串行连接结构中任意前级处理器核中的单数个或复数个寄存器值都可以传输到任意后级处理器核的相应寄存器中。

20、根据权利要求 5所述的可配置多核 /众核装置，其特征在于所述基于串行多发射和流水线层次结构的可配置多核 /众核装置中，所述流水线层次结构中的第二层次即宏观流水线段可以通过背压（back pressure ) 信息将本宏观流水线段的信息传输到前一级宏观流水线段，所述前一级宏观流水线段根据收到的背压信息可知之后的宏观流水线是否阻塞

( stall ), 结合本宏观流水线段的情况，确定本宏观流水线段是否阻塞，并将新的背压信息传输到更前一级宏观流水线段，以此实现宏观流水线的控制。

21、根据权利要求 6所述的可配置多核 /众核装置，其特征在于所述异常处理模块可以由所述多核 /众核装置中的处理器核构成，也可以是额外的模块。

22、根据权利要求 5所述的可配置多核 /众核装置，其特征在于所述基于串行多发射和流水线层次结构的可配置多核 /众核装置中，用于所述配置的配置信息包括开启或关断处理器核、配置本地存储器中指令存储器和数据子存储器的大小 /边界及其中的内容、配置互联结构和连接关系。

23、根据权利要求 5所述的可配置多核 /众核装置，其特征在于所述基于串行多发射和流水线层次结构的可配置多核 /众核装置具有三个层次的低功耗技术： ( a) 配置层次，根据配置信息，没有被用到的处理器核可以进入低功耗状态；

(b ) 指令层次，当处理器核执行到读取数据的指令时，如果该数据还没有准备好，则所述处理器核进入低功耗状态，直到所述数据准备好，所述处理器核再从低功耗状态恢复到正常工作状态；所述数据没有准备好，可以是因为前一级处理器核还没有将本级处理器核需要的数据写入相应数据子存储器；

( c ) 应用层次，采用全硬件实现，匹配空闲（idle) 任务特征，确定当前处理器核的使用率 (util ization) , 根据当前处理器使用率和基准使用率确定是否进入低功耗状态或是否从低功耗状态返回；所述基准使用率可以是固定不变的，也可以是能重新配置或自学习确定的；可以是固化在芯片内部的，也可以是在系统启动时由系统写入的，还可以由软件写入的；用于匹配的参考内容可以在芯片生产时固化到芯片内部，也可以在系统启动时由系统或软件写入，还可以自学习写入；其写入方式可以是一次写入也可以是多次写入；

所述低功耗状态可以是降低处理器时钟频率，也可以是切断电源供应。

24、根据权利要求 5所述的可配置多核 /众核装置，其特征在于所述基于串行多发射和流水线层次结构的可配置多核 /众核装置可以具备自测试能力，能够在加电工作的情况下不依赖于外部设备进行芯片的自测试；当所述多核 /众核系统具备自测试能力时，可以将所述多核 /众核系统中特定的单数个或复数个基本元件、运算单元或处理器核用成比较器，对所述多核 /众核系统中相应的复数组其他基本元件、运算单元或处理器核及基本元件、运算单元或处理器核的组合给予具有特定关系的激励，并用所述比较器比较所述复数组其他基本元件、运算单元或处理器核及基本元件、运算单元或处理器核的的组合的输出是否符合相应的特定关系。

25、根据权利耍求 24所述的可配置多核 /众核装置，其特征在于当所述多核 /众核系统具备自测试能力时，可以具备自修复能力；即当所述测试结果保存在所述多核 /众核系统中的存储器中时，可以对失效基本单元或失效行或失效阵作标记，在对所述多核 /众核系统进行配置时，可以根据相应标记绕过失效基本单元或失效行或失效阵，使所述多核 /众核系统依然能正常工作，实现自修复。

26、根据权利耍求 5所述的可配置多核 /众核装置，其特征在于所述复数个处理器核可以是同构的，也可以是异构的。

.

27、根据权利要求 5所述的可配置多核 /众核装置，其特征在于可以具有读取导致写的特性（LIS, load induced store ); 即处理器核对于某个地址数据第一次读取时，从相邻前一级处理器核对应的本地数据存储器读取数据，同时将读取到的数据写入本级处理器核对应的本地数据存储器，之后对该地址数据的读写都访问本级对应的本地数据存储器。

28、根据权利要求 5所述的可配置多核 /众核装置，其特征在于可以具有数据预传递的特性；即处理器核可以从前一级处理器核对应的本地数据存储器中读取本处理器核不需要读写、但后续处理器核需要读取的数据，并写入本级处理器核对应的本地数据存储器。

29、根据权利要求 5所述的可配置多核 /众核装置，其特征在于所述本地数据存储器可以包含单数个或复数个有效标志和单数个或复数个归属标志；所述有效标志用于表示对应的数据是否有效；所述归属标志用于表示对应的数据当前被哪个处理器核使用。

30、根据权利要求 5所述的可配置多核 /众核装置，其特征在于处理器核可以访问除所述处理器核外的处理器核的本地指令存储器；所述复数个处理器核可以并行执行所述相同的代码中的各段代码，也可以并行执行所述不同的代码中的各段代码；所述复数个处理器核可以串行执行所述相同的代码中的各段代码，也可以串行执行所述不同的代码中的各段代码；所述复数个处理器核还可以串并混合地执行所述相同代码中的各段代码或所述不同代码中的各段代码。

31、根据权利要求 5所述的可配置多核 /众核装置，其特征在于还可以将单数个或复数个处理器核及其相应本地存储器构成高性能的多核连接结构，对所述多核连接结构进行配置、在相应本地指令存储器中放入对应的代码片段，使所述多核连接结构实现特定的功能；所述多核连接结构在功能上相当于片上系统（SoC， System on Chip) 中的功能模块；复数个所述功能模块再由所述功能模块间的数据传输通道连接，实现片上系统；所述数据传输通道即对应传统片上系统结构中的系统总线。

32、根据权利要求 31所述的可配置多核 /众核装置，其特征在于可以通过所述可配置互联结构，对有数据传递关系的复数个处理器核的输入、输出预先建立或动态建立复数个连接，构成处理器核之间的相当于传统片上系统中系统总线结构的数据传输通道。

33、根据权利耍求 31所述的可配置多核 /众核装置，其特征在于处理器核及其相应本地存储器可以被动态地重新配置，相应本地指令存储器中的代码片段可以被动态地改变，从而改变所述片上系统的功能。

34、根据权利要求 7所述的可配置多核 /众核装置，其特征在于所述处理器核可以具有快速条件判断机制，用以确定分支转移是否执行；所述快速条件判断机制可以是用于判断循环条件的计数器，也可以是用于判断分支转移及循环条件的硬件有限状态机。

35、根据权利要求 5所述的可配置多核 /众核装置，其特征在于所述处理器核还可以对应复数个本地指令存储器；当所述复数个本地指令存储器中的一个或多个用于响应相应处理器核取指操作时，所述复数个本地指令存储器中的其他本地指令存储器可以进行指令更新操作。

36、根据权利要求 5所述的可配置多核 /众核装置，其特征在于所述可配置多核 /众核装置中的复数个处理器核可以工作在相同的时钟频率，也可以工作在不同的时钟频率。

37、根据权利要求 5所述的可配置多核 /众核装置，其特征在于所述基于串行多发射和流水线层次结构的可配置多核 /众核装置中还可以包括单数个或复数个专用处理模块；所述专用处理模块能作为宏模块供所述处理器核调用，也可以作为独立的处理模块接收所述处理器核的输出，并将处理结果送往所述处理器核；向所述专用处理模块输出的处理器核与接收所述专用处理器核输出的处理器核可以是同一个处理器核，也可以是不同的处理器核。