WO2014169477A1

WO2014169477A1 - 具有多态指令集体系结构的处理器

Info

Publication number: WO2014169477A1
Application number: PCT/CN2013/074426
Authority: WO
Inventors: 王东琳; 谢少林; 杨勇勇; 尹磊祖; 王磊; 刘子君; 汪涛; 张星
Original assignee: 中国科学院自动化研究所
Priority date: 2013-04-19
Filing date: 2013-04-19
Publication date: 2014-10-23
Also published as: US20160162290A1

Abstract

本发明提出一种具有多态指令集体系结构的处理器，其包括一个标量处理单元（101）、至少一个多态指令处理单元（100）、至少一个多粒度并行存储器（102）和一个DMA控制器（103）；多态指令处理单元（100）包括至少一个功能单元（202）；多态指令处理单元（100）用于解释和执行多态指令，其功能单元（202）用于执行具体的数据操作任务；所述标量处理单元（101）用于调用多态指令并查询多态指令的执行状态；所述DMA控制器（103）用于传送多态指令的配置信息以及向所述多粒度存储器（102）传送多态指令所需数据。本发明的处理器在流片生产后，程序员仍可根据应用算法特点对处理器指令集进行重定义。

Description

具有多态指令集体系结构的处理器

技术领域本发明主要涉及处理器指令集体系结构，与处理器指令集的定义、处理器体系结构设计以及微体系结构的实现方法紧密相关，特别是一种具有流片后可动态重构的多态指令集体系结构的处理器。

背景技术近年来，互联网、云计算和物联网发展迅猛。无所不在的移动设备、

R ID、无线传感器每分每秒都在产生信息，数以亿计用户的互联网服务产生了巨量信息交互；同时，用户对信息处理的实时性、有效性提出了很高要求，如在线视频点播系统，用户不仅要求高清晰的画面，还要求至少每秒 30 帧以上的解码和显示速度。我们需要从算法特征分析着手研究如何高效快速的处理海量信息。

总体说来，海量信息处理呈现出以下几个特征：第一个特征是数据量巨大，高清视频、宽带通信、高精度传感器所产生的数据量都以每年 5~10倍的速度递增。第二个特征是计算量巨大，信息处理的计算复杂度通常为数据量 n的 K次方卩 O nK ), 如冒泡排序算法的计算复杂度为 0(n2), FFT算法复杂度为 0(nlo_gn)，随着数据量的增加，信息处理所需的计算量急剧增加。第三个特征是海量信息处理的算法相对规整，如一维二维滤波、 FFT变换、自适应滤波等核心算法都能以简单的数学公式来表达，不需要复杂的逻辑判断。海量信息处理的第四个特征是具有很强的数据局部性：局部数据块之间不存在相关性，但局部数据自身存在强相关性。如滤波算法中的计算结果只与滤波模板范围内的数据相关，且模板范围的数据需要经过多次计算才能得到最终结果；视频编解码算法中需要对一个或相邻宏块的数据经过复杂的运算得到最终结果，而距离较远的宏块间不存在数据相关性。海量信息处理的第五个特征是处理算法模式基本不变，但算法细节不断演进。如视频编码标准从 H.263向 H.264演进，通信协议从 2G到 3G，再到 LTE的演进。

海量信息处理有自身独特的性能要求和应用特性。由于海量信息处理过程中数据量巨大，运算量巨大，而且大部分要求实时计算，传统的标量、超标量处理器的计算能力远低于这一要求；同时，由于功耗、体积的限制，我们也无法仅仅依靠堆砌标量处理器来实现海量信息处理系统。而针对海量信息处理的 ASIC芯片由于设计开发成本大，周期长，其更新速度远低于海量信息处理算法的演进速度，无法适应海量信息处理系统的发展速度。因此，针对海量信息处理特征对传统的标量、超标量处理器进行改造，甚至设计全新的领域处理器，是当前海量信息处理芯片的发展趋势。

"指令"是设计者所定义的、处理器可以理解的符号。通过向处理器发送不同的指令序列，程序员指定处理器不同时刻的动作。处理器所能理解的所有指令的集合，即为该处理器的指令集。程序员利用指令集中的指令，实现各种算法。

一般处理器指令集都是确定的，指令行为与处理器实现一一对应，如 ARMv4T指令集中包括的计算指令 "ADD R0,R1, R2"，表示要将寄存器 R1和 R2中的值相加，再写入 R0。

当处理器指令集确定后，程序员无法向指令集中增加指令，或重新定义指令的行为，因此，一般处理器指令集中的指令比较通用，以保证编程灵活性。但通用的处理器指令集难以高效实现某些特殊的应用。如视频编码中，经常需要进行 8Wt的数据计算，如果用类似 ARM处理器中的 32bit加法指令 " ADD R0,R1,R2"实现该类算法，效率非常低。因此，各类处理器通常都会针对特殊的应用，扩展指令集，如 X86指令集中针对视频图像处理的 MMX指令，以及 ARM指令集中的 NEON指令。

这类扩展指令的特点是对于某一类应用具有很高的执行效率，但对于其它应用，执行效率非常低。因此，处理器在设计完成后，它所适应的应用领域就已经确定，难以适应其它应用领域。程序员也无法根据其它应用领域的算法特征，对处理器进行微调优化。

目前已有一些专利讨论如何实现可重构计算。如美国专利 US2005/0027970A1 (Reconfigurable Instruction Set Computing)以及专利 US2005/0169550 Al (Video Processing System With Reconfigurable Instructions)采用 CPU+类 FPGA的结构，用户用统一的高层语言进行开发，编译器将程序划分成 CPU运行的部分和 FPGA运行的部分。该方法的特点是能利用 FPGA的灵活性加速程序效率，但 FPGA过于灵活的配置导致芯片性能 /成本比不高。美国专利 US2004/0019765 Al (Pipelined Reconfigurable Dynamic Instruction Set Processor)讨论了一个 RISC处理器 +可配置阵列处理器单元的处理器结构，在该结构中多个阵列处理单元按逻辑划分成多个流水级，每个流水级的行为通过 RISC处理器的动态配置。美国专利 US2006/0211387 Al(Multistandard SDR Architecture Using Context-Based Operation Reconfigurable Instruction Set Processor)定义了一种配置单元 +协处理器的处理器结构，其中每个协处理器由状态控制单元和数据通路组成，负责某些相似的处理任务。

发明内容本发明所要解决的技术问题是提出一种具有多态指令集体系结构的处理器，以解决处理器在流片后无法对处理器指令集重新定义的问题。

为解决上述技术问题，本发明提出一种具有多态指令集体系结构的处理器，包括一个标量处理单元、至少一个多态指令处理单元、至少一个多粒度并行存储器和一个 DMA控制器；所述多态指令处理单元包括至少一个功能单元；所述多态指令处理单元用于解释和执行多态指令，其功能单元用于执行具体的数据操作任务，其中，多态指令是指多个连续执行的微码记录的序列，微码记录表示某个时钟周期内各功能单元需要执行的动作；所述标量处理单元用于调用多态指令并查询多态指令的执行状态；所述 DMA控制器用于传送多态指令的配置信息以及向所述多粒度存储器传送多态指令所需数据。

根据本发明的一种具体实施方式，所述多态指令处理单元从所述 DMA控制器被动接收多态指令，并被标量处理单元调用。根据本发明的一种具体实施方式，所述标量处理单元通过一个第一控制通路来控制所述多态指令处理单元，所述标量处理单元通过第二控制通路来控制所述 DMA控制器。

根据本发明的一种具体实施方式，所述多态指令处理单元还包括微码存储器）和微码控制单元；所述微码存储器用于存放多态指令；所述微码控制单元用于通过所述第一控制通路接收所述标量处理单元的控制请求并执行相应的动作。

根据本发明的一种具体实施方式，所述微码控制单元包括配置寄存器，该配置寄存器用于存储多态指令处理器单元运行时所需参数及运行状态。

根据本发明的一种具体实施方式，所述标量处理单元的控制请求包括启动或查询所述多态指令处理单元、读写所述多态指令处理单元的配置寄存器。

根据本发明的一种具体实施方式，所述多态指令处理单元还包括传送控制单元，所述功能单元具有多个数据输入 /输出端口，并通过该传送控制单元交换数据。

根据本发明的一种具体实施方式，所述功能单元用于执行数据加载 /存储操作，并通过一第一内部总线从所述多粒度并行存储器读写数据; 同时，所述微码存储器作为从设备与该第一内部总线相连，被动地从外部接收微码记录。

根据本发明的一种具体实施方式，所述微码控制单元依次读取并执行多态指令的微码记录。

根据本发明的一种具体实施方式，所述微码存储器中的每一行存放一个微码记录，当所述标量处理单元调用多态指令时，只指定该多态指令对应的起始微码记录在该微码存储器中的行号。

本发明的具有多态指令集体系结构的处理器在流片生产后，程序员仍可根据应用算法特点对处理器指令集进行重定义。重定义后处理器指令集体系结构更加契合应用算法特征，从而能提高处理器在该类应用中的处理性能。重定义过程不修改处理器硬件和相应的汇编器、链接器等软件工具链，但对于不同的指令定义，指令集体系结构呈现出不同的形态。

附图说明图 1简要示出了本发明的具有多态指令集体系结构的处理器的主要组成部分和互连关系；

图 2简要示出了本发明的多态指令执行单元的主要组成部分和互连关系；

图 3简要示出了本发明的微码记录的主要组成部分；

图 4简要示出了如何定义多态指令的行为以及微码存储器如何保存多态指令的定义；

图 5示例性地示出了本发明的一种定义和调用多态指令的流程；图 6简要示出了本发明的一种具有多态指令集体系结构处理器中的功能单元；

图 7示例性地示出了本发明的处理器采用的计算单元的接口定义和内部结构；

图 8示例性地示出了本发明的处理器采用的总线接口单元的接口定义和内部结构；

图 9示例性地示出了本发明的处理器采用的寄存器文件堆的接口定义；

图 10 示例性地示出了本发明的处理器中功能部件之间数据传送路径的定义；

图 11 示例性地示出了本发明的处理器中计算单元内部数据传送单元的实现结构；

图 12 示例性地示出了本发明的处理器中功能部件之间数据传送单元的实现结构

图 13示例性地示出了本发明的处理器中功能部件的编码；图 14 示例性地示出了本发明的处理器中本发明的处理器中多路选择器的逻辑行为。

具体实施方式为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一歩的详细说明。

本发明提出了一种流片（Tape out,试生产）后可动态重构多态指令集体系结构的处理器。

本发明的处理器的结构如图 1 所示，主要包括以下几个组成部分：一个标量处理单元 101，至少一个多态指令处理单元 100，至少一个多粒度并行存储器 102和一个 DMA控制器 103。所述多态指令处理单元 100包括至少一个功能单元。

所述多态指令是指多个连续执行的微码记录的序列。所述多态指令集即多态指令的集合，微码记录表示某个时钟周期内各功能单元需要执行的动作，如进行加法操作，或进行数据加载操作，或者什么都不做。

其中，所述多态指令处理单元 100解释和执行多态指令，其包含的功能单元用于执行具体的数据操作任务；所述标量处理单元 101调用多态指令并查询多态指令的执行状态，而所述 DMA控制器 103则传送多态指令的配置信息以及向所述多粒度存储器 102传送多态指令所需数据。

所述标量处理单元 101通过一个第一控制通路 104来控制多态指令处理单元 100，标量处理单元 101通过第二控制通路 105来控制 DMA 控制器 103，所述 DMA控制器 103通过第一内部总线 106向多态处理单元 100传送配置信息， DMA控制器 103通过第二内部总线 107向多粒度并行存储器 102传送数据， DMA控制器 103通过总线 108从外部读写数据，所述多态指令处理单元 100通过第二内部总线 107从所述多粒度并行存储器 102读写数据。

所述标量处理单元 101可以为一 RISC或 DSP, 但必须有第一控制通路 104，该控制通路 104必须具备以下功能： 1.启动多态指令处理单元 100;

2.查询多态指令处理单元 100的执行状态；

3.读写多态指令处理单元 100的配置寄存器（将在下面描述）。所述多粒度并行存储器 102采用申请号为 201110460585.1 (名称为

"多粒度并行存储系统与存储器"）的中国专利公开说明书中的多粒度并行存储器，该存储器可同时支持不同数据类型的矩阵行列数据并行读写。

所述第二内部总线 107的主设备为多态指令处理单元 100，从设备为多粒度并行存储器 102。 DMA控制器 103和多态指令处理单元 100可通过该第二内部总线 107从多粒度并行存储器 102读写数据，

所述第一内部总线 106的主设备为 DMA控制器 103，从设备为多态指令处理单元 100， DMA控制器 103可通过该第一内部总线 106向多态指令处理单元 100写入多态指令。多态指令被存放在与总线 108相连的外部存储器中。多态指令处理单元多态指令处理单元 100从 DMA控制器 103被动接收多态指令，并被标量处理单元 101调用。图 2给出了多态指令处理单元 100的内部结构图。

多态指令处理单元 100包括微码存储器 200、微码控制单元 201、至少一个功能单元 202和传送控制单元 203。微码存储器 200负责存放多态指令，微码控制单元 201，通过第一控制通路 104接收标量处理单元 101的各类控制请求并执行相应的动作。所述微码控制单元 201包括配置寄存器 207，该配置寄存器 207用于存储多态指令处理器单元 100 运行时所需参数及运行状态，如指定执行当前多态指令的功能单元 202，指定所需数据起始地址和数据总长度，以及表明当前多态指令处理器单元 100是否空闲等。

这些请求包括： 1.启动多态指令处理单元 100: 此时微码控制单元 201从微码存储器 200读取微码记录 300，并产生相应的控制信息，发送给功能单元 202 和传送控制单元 203。

2.查询多态指令处理单元 100: 此时微码控制单元 201返回当前多态指令的执行状态：完成或空闲。

3.读写多态指令处理单元 100的配置寄存器 207: 此时微码控制单元 201将向指定配置寄存器 207写入指定的数据，或返回指定配置寄存器 207的数据。

多态指令处理单元 100可根据应用需求，设计至少一个不同的功能单元 202。功能单元 202负责执行具体的数据操作任务，如执行加法运算，或数据加载 /存储操作。功能单元 202—般有多个数据输入 /输出端口，并通过传送控制单元 203交换数据，如加法单元在完成加法运算后，将加法结果传递给传送控制单元 203，传送控制单元 203然后将加法结果送入乘法单元，进行乘法运算。

传送控制单元 203与所有功能单元 202的数据输入 /输出端口相连，通过接口 206从微码控制单元 201接收每个时刻数据的来源地和目的地信息，并将来源地数据送至目的地。

总线 107即图 1 中的第一内部总线 107，某些类型的功能单元 202 需要执行数据加载 /存储操作，需要通过第一内部总线 107从多粒度并行存储器 102读写数据。同时，微码存储器 200从作为从设备与第一内部总线 107相连，被动地从外部接收微码记录 300。多态指令的定义与调用图 3显示了一项微码记录 300的结构图。微码记录 300分成多个域，每个功能单元在微码记录 300中都有对应的域，如功能单元域 301对应第 2功能单元。同时，微码记录 300中还有一个特殊的微码控制域 302，该域指明下一个时钟，微码控制单元 201需要读取哪一行微码记录 300。如前所述，本发明的多态指令是多个连续执行的、具有特定功能的微码记录 300序列。如图 4所示。多态指令，即微码记录 300的序列存放在微码存储器 200中，被微码控制单元 201依次读取并执行。微码存储器 200中的每一行存放一个微码记录 300，当标量处理单元 101调用多态指令时，只需指定该多态指令对应的起始记录在微码存储器 200中的行号。

程序员可以根据算法需求，利用微码记录 300灵活定义多态指令的行为和多态指令在微码存储器中的起始行号。图 5示例性地示出了一种定义和调用多态指令的流程。首先，程序员根据应用需求，定义一个或多个多态指令的行为，并将该指令的行为转换为微码记录 300序列，该序列一般用文本来表达， "ALU.T0 = Tl + T2 (U) || Repeat(10)"，表示 ALU进行 10次加法运算。同时，编写标量代码，该代码调用程序员定义的多态指令，此时多态指令的起始行号还没有确定，用标号代替，如 Instrl 用文本表示的多态指令记录经过编译和链接后，变成微码控制单元 201可以理解的二进制文件，同时，在编译和链接过程中，确定每一个多态指令的起始地址，如此时 Instrl的值已经确定为 10。标量代码经过编译链接后，还需要与多态指令二制文件进行交叉链接，将原标量代码中用符号表示的多态指令起始地址替换为实际的数值，生成标量二进制文件。标量代码在调用多态指令之前，利用 DMA控制器 103将多态指令二进制文件内容加载至微码存储器，再调用多态指令。具有多态指令集体系结构的处理器的实施例下面给出多态指令集体系结构的一个示例性的实施例，该实施例只是本发明的一种实施方式，本发明内容不局限于该示例。

该实施例是一种面向数据密集型应用的具有多态指令集体系结构的处理器。图 6显示了该处理器中的功能单元。如图 6所示，所有功能单元的数据位宽都为 512 bit, 在进行数据操作时， 512 bit可以看成 64 个 8 bit或 32个 16 bit或 16个 32 bit的数据。功能单元中的 IALU用于进行定点逻辑计算， FALU用于进行浮点逻辑计算， IMAC用于进行定点乘累加计算， FMAC用于进行浮点乘累加操作， SHU0和 SHU1用地进行数据交织操作，即交换 512 bit数据内任意两个 8 bit数据的位置。 M为 512 ½位宽的寄存器文件堆，811；0、：811；1、：811；2为总线接口单元，负责从多粒度并行存储器 102中加载 /存储数据。

IALU、 FALU、 IMAC、 FMAC、 SHU0、 SHU1 具有相似的接口，该实施例中统称它们为计算单元 500，该计算单元 500的接口如图 7所示，它包括四个数据输入端口 604，以及对应的四个临时寄存器 600。运算逻辑 601从临时寄存器中读取数据进行运算，运算结果写入临时寄存器 602，然后通过输出端口 603将运算结果传送至传送控制单元 203。

BIU0、 BIU1、 BIU2统称为总线接口单元 501，其内部结构如图 8 所示。它具有一个数据输入端口 702，它通过从传送控制单元 203获取数据，并将获得的数据写入临时寄存器 700; —个数据输出端口 703，通过该端口将临时寄存器 701中的数据传送至传送控制单元 203; —个内部总线接口 107，通过该接口读写多粒度并行存储器 102中的数据；一个地址计算逻辑 704，负责计算发往第二内部总线 107的地址。

M为 512位宽的寄存器文件堆 (Register file)，具有 4个写端口 800、 4个读端口 802，以及对应的存储体 801。图 9示例了该寄存器文件堆的接口。

在多态指令集体系结构中，各功能单元的计算结果可以直接传送给其它功能单元，实现级联运算。在本实施例中，并不需要所有功能单元之间都设计直接的数据传送路径，如 FMAC主要进行浮点乘累加运算，它的运算结果没有必要直接传送给定点计算单元 IALU或 IMAC。减少数据传送路径的好处在于可减少功能单元之间的连线，进而减少芯片面积，降低芯片成本。本实施例中各功能单元之间的数据传送路径如图 10 所示，该表中每一列的开头表示数据目的地，每一行的开头表示数据源，中间有勾的单元格表示存在传送路径。另外，为进一歩减少传送路径，某些功能单元之间可以根据应用需要共用传送路径，功能单元之间共用传路径可减少功芯片连线，但这些功能单元之间就不能在同一时刻都传送数据了。如 SHU0至 BIU0、SHU1至 BIU1共用一条传送路径，则 SHU0 向 BIU0传送数据时， SHU1与 BIU1之间就不能传送数据了。图 10中的阴影表示了部分共用的传送路径。

与图 10对应的传送控制单元 203由 29个多路选择器构成，为方便表述，我们将传送控制单元 203分解成两个层次，第一个层次由 IALU、 IMAC、 FALU、 FMAC构成，暂称该层次为 ACU，如图 11所示。该层次通过三个输入端口 ACU.I0、 ACU.I1、 ACU.I2 以及一个输出端口 ACU.0与其它功能单元进行数据传送。 ACU—共包括 16个多路选择器，即图 11中 M13 M28, 各个多路选择器的数据输入参见图中的标记。

第二个层次由 ACU、 M、 SHU0、 SHU1以及 BIU0~BIU2构成，如图 12所示，一共包括 13个多路选择器，即图 12中的 M0~M12，各个多路选择器的数据输入参见图中的标记。

为了产生传送控制单元 203 中的 29个多路选择器的控制信号，我们首先对所能功能单元进行分组并编码，如图 13所示，其中 " X "表示不关心， "0"或 " 1 "都可以。在微码记录 300 中的每个功能单元控制域 301除了指明功能单元要执行的操作外，还需要指明操作结果的目的地，该目的地通过图 13中的编码来指定，如 FALU控制域用文本表达为 "IALU.T0 = FALU.T1 +T2", 其中右边的 "FALU.T1 +T2"表示 FALU要执行加法操作，而 "=，，左边的 "IALU"指数据操作结果目的地，该目的地的编码即为 " 1100"。

微码控制单元 201将微码记录 300中的所有功能单元的目的地信息都发送给传送控制单元 203，传送控制单元 203根据这些目的地信息产生 29个多路选择器的控制信号。图 14描述了多路选择器 M0的逻辑行为，其中 GroupID表示对应功能单元控制域 301中目的地的组编号。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一歩详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求

1、一种具有多态指令集体系结构的处理器，其特征在于：包括一个标量处理单元（101 )、至少一个多态指令处理单元（100)、至少一个多粒度并行存储器（102)和一个 DMA控制器（103 ); 所述多态指令处理单元（100) 包括至少一个功能单元（202);

所述多态指令处理单元（100) 用于解释和执行多态指令，其功能单元（202) 用于执行具体的数据操作任务，其中，多态指令是指多个连续执行的微码记录（300) 的序列，微码记录表示某个时钟周期内各功能单元（202) 需要执行的动作；

所述标量处理单元（101 ) 用于调用多态指令并查询多态指令的执行状态；

所述 DMA控制器（103 )用于传送多态指令的配置信息以及向所述多粒度存储器（102) 传送多态指令所需数据。

2、如权利要求 1 所述的具有多态指令集体系结构的处理器，其特征在于：所述多态指令处理单元（100) 从所述 DMA控制器（103 ) 被动接收多态指令，并被标量处理单元（101 ) 调用。

3、如权利要求 2 所述的具有多态指令集体系结构的处理器，其特征在于：所述标量处理单元（101 ) 通过一个第一控制通路（104) 来控制所述多态指令处理单元（100 )，所述标量处理单元（101 ) 通过第二控制通路（105) 来控制所述 DMA控制器（103 )。

4、如权利要求 3 所述的具有多态指令集体系结构的处理器，其特征在于：所述多态指令处理单元（100) 还包括微码存储器（200) 和微码控制单元 (201 )；

所述微码存储器（200) 用于存放多态指令；

所述微码控制单元（201 ) 用于通过所述第一控制通路（104) 接收所述标量处理单元（101 ) 的控制请求并执行相应的动作。

5、如权利要求 4 所述的具有多态指令集体系结构的处理器，其特征在于：所述微码控制单元（201 ) 包括配置寄存器（207 )，该配置寄存器（207 ) 用于存储多态指令处理器单元（100) 运行时所需参数及运行状态。

6、如权利要求 5 所述的具有多态指令集体系结构的处理器，其特征在于：所述标量处理单元（101 ) 的控制请求包括启动或查询所述多态指令处理单元（100 )、读写所述多态指令处理单元（100 ) 的配置寄存器（207 )。

7、如权利要求 5 所述的具有多态指令集体系结构的处理器，其特征在于：所述多态指令处理单元（100 ) 还包括传送控制单元（203 )，所述功能单元（202) 具有多个数据输入 /输出端口，并通过该传送控制单元（203 ) 交换数据。

8、如权利要求 5 所述的具有多态指令集体系结构的处理器，其特征在于：所述功能单元（202 ) 用于执行数据加载 /存储操作，并通过一第一内部总线（107 )从所述多粒度并行存储器（102)读写数据；同时，所述微码存储器（200) 作为从设备与该第一内部总线（107 ) 相连，被动地从外部接收微码记录（300)。

9、如权利要求 4 所述的具有多态指令集体系结构的处理器，其特征在于：所述微码控制单元（201 ) 依次读取并执行多态指令的微码记录（300)。

10、如权利要求 9所述的具有多态指令集体系结构的处理器，其特征在于：所述微码存储器（200)中的每一行存放一个微码记录（300)，当所述标量处理单元（101 ) 调用多态指令时，只指定该多态指令对应的起始微码记录在该微码存储器（200 ) 中的行号。