WO2013097235A1

WO2013097235A1 - 并行位反序装置和方法

Info

Publication number: WO2013097235A1
Application number: PCT/CN2011/085177
Authority: WO
Inventors: 谢少林; 蒿杰; 汪涛; 尹磊祖
Original assignee: 中国科学院自动化研究所
Priority date: 2011-12-31
Filing date: 2011-12-31
Publication date: 2013-07-04
Also published as: US9268744B2; US20140089370A1

Abstract

本发明公开了一种并行位反序装置及方法，其中所述并行位反序装置包括并行位反序单元（314）、蝶形计算与控制单元（309）和存储器（311），所述蝶形计算与控制单元（309）通过数据总线（310）与所述存储器（311）相连，所述并行位反序单元（314）用于对所述蝶形计算与控制单元（309）所计算的蝶形组数据进行位反序。所述并行位反序单元（314）包括地址反序逻辑（306），地址反序逻辑（306）与蝶形计算与控制单元（309）相连，用于对来自蝶形计算与控制单元（309）读取地址进行镜像反序和右移操作。

Description

并行位反序装置和方法技术领域本发明属于集成电路设计中的位反序数据存储与排列，与快速傅立叶变换 (FFT)算法、集成电路结构紧密相关，具体涉及一种并行位反序装置和并行位反序方法。

背景技术信号处理系统经常需要将信号内容在时域和频域进行转换，快速傅立叶变换算法 (FFT)可进行时域和频域间的信号转换。相对于其它转换算法来说，快速傅立叶变换算法具有结构统一、计算量少的优点，因此广泛应用于信号处理系统中。

FFT算法输入 N个数据，输出 N个数据；一般称时域至频域的变换为正向变换，而频域至时域的变换变逆向变换。我们称时域数据按采样时间排列的顺序为 "自然序"，即每个数据点的采样时间是递增的；同样称频域数据按频率高低排列的顺序 "自然序"，即每个数据点对应的频率是递增的。与 "自然序"对应的是 "位反序"，即将自然序中的每个数据点的索引写成二进制的形式，将该二进制索引镜像反序后，得到的索引值即为该数据点在 "位反序" 中的索引值。假设我们可以用 3 Wt 表示索引值，自然序中索引值 3表示成二进制为 (011)2，进行镜像反序后，其二进制值为 HO , 即十进制中的 6，因此， "6"即为位反序排列后该数据对应的索引值。

FFT算法有多种实现方式，一般可分成按时域抽取和按频域抽取两种。图 1示出了按频域抽取的算法，原始数据 100为自然序排序，在进行计算前必须经过位反序操作 103对数据进行序列变换，使其按位反序排列，反序后数据 101经计算后的输出数据 102为自然序排列。在时间抽取算法中，输入数据为自然序排列，但输出数据是位反序排列；因此，在对输出数据作进一歩处理前，需要对输出数据进行序列变换，使其按自然序排列。

已有一些专利实现了位反序数据排列，如美国专利 US 2003/0028571 Al (Real-time method for bit-reversal of large size arrays)米用两歩骤反序方法：第一歩骤利用 DMA在外部存储器与片上存储器之间进行大尺寸反序排列，第二歩骤利用处理器实现小尺寸内部的数据反序排列。该方法存在的问题是在利用处理器实现小尺寸内部的数据反序排列时，一、内部排序需要多次迭代，对于长度为 N的数据，需要 lo_g2N-l次迭代；二、每次迭代只能以标量为单位读写数据，无法实现多个数据并行排序。因此，该专利描述的位反序数据排列方法效率很低。

美国专利 US 7,640,284Bl(Bit Reversal Methods for a Parallel Processor)描述了 nVidia公司利用图形处理器GPU)中多处理核或 SIMD 执行部件实现并行位反序排列的方法。该发明虽然实现了并行位反序排列，但仍存在以下问题：一、每个处理核或执行部件在计算位反序地址时，需要多次访问查找表并进行多次移位操作，仅仅计算位反地址时就需要多个时钟周期，执行效率低；二、正如该专利第 21页第 10行所述，该方法只能减少而无法消除多个处理器或 SIMD功能部件的存储访问冲突，存储访问冲突进一歩降低了位反序排列操作的执行效率。

发明内容

(一）要解决的技术问题

本发明所述解决的技术问题是提高并行位反序排列操作的执行效率，以对多粒度并行 FFT计算装置更好的支持。

(二）技术方案

本发明提出一种并行位反序装置，包括并行位反序单元、蝶形计算与控制单元和存储器，所述蝶形计算与控制单元通过数据总线与所述存储器相连，所述并行位反序单元用于对所述蝶形计算与控制单元所计算的蝶形组数据进行位反序；所述并行位反序单元包括地址反序逻辑，地址反序逻辑与蝶形计算与控制单元相连，用于对来自蝶形计算与控制单元读取地址进行镜像反序和右移操作；所述并行位反序单元还包括多粒度并行存储器、地址选择器；所述多粒度并行存储器与地址选择器相连接，用于接收所述地址选择器输出的地址；所述该多粒度并行存储器还与所述蝶形计算与控制单元相连接，用于接收蝶形计算与控制单元输出的写数据和读写粒度值。

所述并行位反序单元还包括数据反序网络，所述数据反序网络与所述多粒度并行存储器相连接，以接收来自所述多粒度并行存储器的读数据。

所述数据反序网络用于蝶形组组内数据的位反序排列。

所述地址选择器分别与所述蝶形计算与控制单元和所述地址反序逻辑相连接，用于选择输出到存储器的读写地址。

本发明还提出一种并行位反序方法，用于并行位反序装置中，所述并行位反序装置包括并行位反序单元和存储器，所述并行位反序单元包括多粒度并行存储器，所述方法包括如下歩骤：歩骤 200、将数据从所述存储器搬运至所述多粒度并行存储器，搬运后自然序列数据等分成 2ⁿ 个组，依次存放在多粒度并行存储器的 2ⁿ个存储块中，其中 n为正整数; 歩骤 201保持数据组内索引不变，将数据组索引反序；歩骤 202、保持数据组内索引不变，数据组索引也不变，将组内索引移至高位；歩骤 203、保持数据组索引不变，将组内索引反序。

所述并行位反序装置还包括蝶形计算与控制单元，所述方法的歩骤在所述蝶形计算与控制单元的控制下进行。

所述并行位反序单元还包括地址反序逻辑和地址选择器；蝶形计算与控制单元通过移位指示线和读取地址线与地址反序逻辑相连接。

在歩骤 201中，移位指示线的值设为 A-n，其中 A为读取地址线的位宽，同时将读写地址线上的读取地址设为数据组索引，地址选择器选择地址反序逻辑的输出，作为存储器的读写地址。在歩骤 203中，从多粒度并行存储器中读取的数据经过数据反序网络的位反序排列后，输出到蝶形计算与控制单元。

在歩骤 203之后，所述数据反序网络的输出端得到 2ⁿ个数位反序排序后的数据，以直接进行蝶形计算。

(三）有益效果

本发明将自然序数据存放在支持多粒度并行读写的存储器中，根据地址递增的顺序并行读取多个经位反序排序后数据。该方法首先对需要排序的数据进行分组，利用三个原理对数据进行排序： 1 .利用存储器多粒度读写特性实现组内数据与数据组之间的反序排列； 2 .利用硬件逻辑部件实现组内数据的反序排； 3 .利用不同读写地址，实现数据组之间的反序排序。本发明的整个位反序操作过程只需读取一次存储器，不存在迭代过程，处理器可直接对读取的位反序数据进行一下歩操作，如 FFT 中的蝶形计算；同时，本发明的主法在并行读取存储器时不存在访问冲突，读取和排序过程可深度流水，具有极高的执行效率；另外，本发明可根据具体实现灵活指定并行粒度。

附图说明图 1是数据长度为 8时，按频率抽取的基 2 FFT算法流程图；图 2是本发明的并行位反序方法的流程图；

图 3是本发明的并行位反序装置的结构示意图；

图 4是当并行粒度为 4，数据长度为 32时，位反序操作前各个数据在存储器中的分布示意图；

图 5是本发明的多粒度并行存储器的逻辑结构示意图；

图 6是本发明的的多粒度并行存储器在不同读写粒度下，存储器的编址方式和逻辑 Bank划分的示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一歩详细说明。

为了实现并行位反序排列，首先定义并行粒度 W=2ⁿ，（n为正整数：)，并行粒度指从存储器并行读取并排序的数据个数。在进行位反序操作之前，我们先对数据进行分组，每 W个数据构成一组。对于数据长度 N=2^T 的数据来说，每个数据索引需要 T个比特位来表示；数据分组后，数据索引的组分成两部分：数据组索引 g和组内数据索引 b。当并行粒度为 2ⁿ时，对于 27个数据，一共可分成 2^T— ⁿ个数据组。令 T-n=G，则需要 G 个比特位来表示数据组索引 g，即 ^₁.^_1&)，需要 n个比特位来表示组内索引地址 b，即 b b^ ^^b^ 每个数据索引的二进制表示由 g和 b 拼接而成，在自然序排列中，数据组索引在高位，组内索引 b在低位，即：

自

. • bibo) (表达式 1 ) 而对应的位反序数据地址为：

位反序数据地址二！^…！^ ^ . ••gG-l) (表达式 2) 图 3示出了根据本发明的并行位反序装置的一个具体实施例的结构示意图。该并行位反序装置包括并行位反序单元 314、蝶形计算与控制单元 309和大容量存储器 311。

其中，蝶形计算与控制单元 309通过数据总线 310与大容量存储器

311相连。并行位反序单元 314包括多粒度并行存储器 300、地址反序逻辑 306、地址选择器 308、数据反序网络 301。当并行粒度设定为 2ⁿ 时，多粒度并行存储器 300由 2ⁿ个存储块组成。

多粒度并行存储器 300具有地址线 313，该地址线 313与地址选择器 308的输出端相连，用于接收地址选择器输出的地址。

该多粒度并行存储器 300还具有写使能信号线 307、写数据线 316 和读写粒度指示线 304，三者均与所述蝶形计算与控制单元 309相连，分别用于接收来自蝶形计算与控制单元 309输出的写使能信号、写数据和读写粒度值。

该多粒度并行存储器 300还具有读数据线 312，其与数据反序网络 301的输入端相连，用于向数据反序网络输出读数据。

数据反序网络 301的输出端 302与蝶形计算与控制单元 309相连，用于组内数据的反序排列。当并行位反序装置 314的并行粒度为 2ⁿ时，数据反序网络 301的读数据线 312上的输入数据的个数为 2ⁿ，输出端 302 上的输出数据的个数也为 2ⁿ。如果定义输入数据向量为 X，从左至右的索引值为 ι(0≤ι<η)， Χ[ι]表示第 1个输入数据；输出数据向量为 Y，从左至右的索引值为 J(0≤j<n)， Y[j]表示第 J个输出数据； br(i)表示对 1进行镜像位反序，则数据反序网络 (301)中 X与 Y的对应关系为:

地址选择器 308的一个输入端与蝶形计算与控制单元 309的读写地址线 303相连，另一输入端与地址反序逻辑 306的输出端相连，用于择输出到存储器 300的读写地址。

地址反序逻辑 306的一输入端与蝶形计算与控制单元 309的移位指示线 305相连，另一输入端与蝶形计算与控制单元 309的读写地址线 303 相连，用于对读写地址线 303输入的读取地址的二进制表示按位进行镜像反序和右移操作。读取地址具有固定的位宽，该位宽由并行位反序单元 314能支持的最大数据长度 M以及并行粒度 2ⁿ决定，即读取地址的位宽 A=Go_g2M-n;>。当数据组位宽 g小于 A时，高位补 0形成读取地址。接着，地址反序逻辑 306 对镜像反序后结果进行右移操作，移位距离 =A-g。如假定读取地址 303 的位宽 A=16，而数据组位宽 g=3，即表示成 g=_g2gl &)，则读取地址 303的输入为 (0000 0000 0000 0_g2glgQ)，镜像反序后为 (gogigzO 0000 0000 0000)，移位距离 =13，移位后为 (0000 0000 0000 0g₀gig₂), 移位后数据即为地址反序逻辑 306的输出。

位反序排序操作的过程可以抽象成数据地址（gc^.^gob^ bibo) 的变化，原始的数据地址如 (表达式 1)所示，而反序排序后的数据地址如 (表达式 2)所示。对于自然序数据地址(^(_}_₁.^^₍)1¾_₁...1)₁1¾)进行并行位反序的方法可分解成四个歩骤，如图 2所示：步骤 200、初始化。蝶形计算与控制单元 309将数据从大容量存储器 311搬运至多粒度并行存储器 300。搬运时利用数据总线 310和写数据线 315传送数据。此时，地址选择器 308选择读写地址线 303上的读取地址作为输出，读写粒度指示线 304上的粒度为 2ⁿ，写使用信号线 307 上的数据电平为高。搬运后自然序列数据等分成 2ⁿ个组，依次存放在多粒度并行存储器 300的 2ⁿ存储块 400中，如图 4所示。图 4中假定数据长度 N=32，并行粒度为 4。步骤 201、数据组间反序。该歩骤将数据组索引反序，使数据地址由 g=(g G-lgl ... go)变成 (gogl ... gG-l)。

该过程中，蝶形计算与控制单元 309 将移位指示线 305 的值设为 A-n，其中 A为读取地址线 303的位宽。同时将读写地址线 303上的读取地址设为数据组索引 _g=(_{g e}__lgl ..._gQ;)，地址选择器 308选择地址反序逻辑 306的输出，作为存储器 300的读写地址。步骤 202、数据组与数据组之间反序。该歩骤保持数据组内索引不变，数据组索引也不变，但将组内索引移至高位，使数据地址由

...bibo gogl ... gG-l)。

该过程中，将图 3中读取粒度指示线 304上的粒度设为 1，写使能信号线 307上的数据电平设为低，根据地址线 313的地址从存储器中读取一组数据。

该操作的效果即将组内索引 g移至高位。取得这一效果的原理可解释如下：自然序列数据是分成 2ⁿ份，存放在 2ⁿ个存储块 500中，因此，每个存储块 500中相同位置的数据的自然序索引值相差 N/2ⁿ=2⁶。当读取粒度 304设为 1读取数据时，其行为是从各个存储块 (500)中相同位置的存储单元各读取 1个数据，拼成一个数据组；该行为相当于从自然序数据中，每隔 N/2ⁿ=2⁶个数据抽取 1个数据，拼成一个数据组。假设读取数据的组内编号为 b b^...!^,抽取的起始址为 ^ gogL— gc ,每隔 2⁶ 个数据抽取 1个数据即相当于每个数据的抽取地址为:

b><G+g = (b«G) I g = b_n-i .t gpgi ... g_G-i

该表达式即歩骤 201中期望

_gQgl..._gc ：)。步骤 203、组内数据反序。该歩骤保持数据组索引不变，将组内索引反序，使数据地址由

gogi...go-ι) 变成 g^bot ...bn.igogi ... g_G-1)。

该歩骤利用了所述数据反序网络 301，从多粒度并行存储器 300中通过读数据线 312读取的数据经过数据反序网络 301后，数据地址即变为0¾1)₁...1¾__1&^₁...^₁：)，经过输出端 302直接输出至蝶形计算与控制单元 309，完成 2ⁿ个数据的并行位反序操作。

歩骤 203之后，输出端 302得到的 2ⁿ个数据即位反序排序后的数据，可直接进行蝶形计算。多粒度并行存储器

以下参照图 5和图 6具体描述本发明并行位反序装置中所包括的的多粒度并行存储器 300的具体结构。

为便于说明，各个数据位宽以存储单元为单位来度量，存储单元定义为存储器的编址单位，也是存储器可读写的最小数据位宽。描述过程中出现包含 "位宽为 W" 的语句都需要理解成 W个存储单元的比特位 (bit：)。如存储单元为 8bit的字节类型时，读写端口位宽为 4的存储器实际位宽为 4x8=32bit。同时，所有对象从 0开始，从左至右编号。另夕卜，如前所述， "粒度"是指地址连续的存储单元的个数。在以下的描述过程中，约定以下符号：

■ W: 存储器读写端口位宽，必须为 2的幂次方（即： W为 2的 n 次方， n为自然数）；

■ K: K=lo_g2W， K+1表示存储器支持的读写粒度种类； ■ k: 存储器读写粒度参数，为自然数，且 0≤k≤K，实际读写粒度为 g=2^k;

■ g: g=2^k，存储器读写粒度， l≤g≤W_;

■ N: 一个存储块的大小。

本发明示意图中均假定 W=4，但本发明适用于 W为 2的幂次方的其它情况。

如图 5所示，多粒度并行存储器由 W个存储块 505和一个数据选通网络 502构成。每个存储块 505是由存储单元 503构成的二维阵列，该阵列中的存储行 504必须包含 W个存储单元 503，每个存储块一次可读写一个存储行 504。

数据选通网络 502在逻辑上根据读写地址和读写粒度从 W个存储块 505中选择 W个存储单元 503作为读写对象。

本发明的存储器支持多种读写粒度，在不同的读写粒度下，每个存储块 505的起始地址各不相同。我们以参数 k来表征不同的读写粒度，实际的读写粒度 g=2^k。

图 6示出了 W=4时，存储器在不同读写粒度下每个存储块 605的编址。对于读写粒度 g，每 g个相邻的存储块 605拼接成一个逻辑 Bank 606，所有逻辑 Bank 606的起始地址相同；逻辑 Bank 606内的存储块 605起始地址前后相接，每个逻辑 Bank 606的寻址范围为 0~_gN-l，整个存储器的寻址范围为 0~_gN-l。

存储器在进行读操作时，将读写地址和读写粒度发送给每个逻辑 Bank 406，每个逻辑 Bank 406读取 g个存储单元并通过数据选通网络 502传递给存储器读写端口 501， W/g个逻辑 Bank 606所读取的数据按从左到右的顺序拼接成位宽为 W的输出数据。

存储器在进行写操作时，将存储器读写端口 501传递过来的数据拆分成 g份，每份数据位宽为 W/g，通过数据选通网络 502将第 i份数据发送给第 i个逻辑 Bank 406 (0<i<g), 同时将读写地址和读写粒度发送给每个逻辑 Bank 606 每个逻辑 Bank 406写入 g个存储单元。以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一歩详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求

1、一种并行位反序装置，包括并行位反序单元（314)、蝶形计算与控制单元（309 ) 和存储器（311 )，所述蝶形计算与控制单元（309) 通过数据总线（310) 与所述存储器（311 ) 相连，其特征在于：

所述并行位反序单元（314 )用于对所述蝶形计算与控制单元（309) 所计算的蝶形组数据进行位反序；

所述并行位反序单元（314 ) 包括地址反序逻辑（306)，地址反序逻辑（306) 与蝶形计算与控制单元（309) 相连，用于对来自蝶形计算与控制单元（309 ) 读取地址进行镜像反序和右移操作；

所述并行位反序单元（314 ) 还包括多粒度并行存储器（300)、地址选择器（308) ;

所述多粒度并行存储器（300) 与地址选择器（308) 相连接，用于接收所述地址选择器（308) 输出的地址；

所述该多粒度并行存储器（300 ) 还与所述蝶形计算与控制单元 (309 ) 相连接，用于接收蝶形计算与控制单元（309 ) 输出的写数据和读写粒度值。

2、如权利要求 1所述的并行位反序装置，其特征在于，

所述并行位反序单元（314 ) 还包括数据反序网络（301 )，所述数据反序网络（301 ) 与所述多粒度并行存储器（300) 相连接，以接收来自所述多粒度并行存储器（300 ) 的读数据。

3、如权利要求 2 所述的并行位反序装置，其特征在于，所述数据反序网络（301 ) 用于蝶形组组内数据的位反序排列。

4、如权利要求 2所述的并行位反序装置，其特征在于，

所述地址选择器（308) 分别与所述蝶形计算与控制单元（309) 和所述地址反序逻辑（306) 相连接，用于选择输出到存储器（300) 的读写地址。

5、一种并行位反序方法，用于并行位反序装置中，所述并行位反序装置包括并行位反序单元（314 ) 和存储器（311 )，所述并行位反序单元（314) 包括多粒度并行存储器（300)，其特征在于，所述方法包括如下歩骤：

歩骤（200)、将数据从所述存储器（311) 搬运至所述多粒度并行存储器（300)，搬运后自然序列数据等分成 2ⁿ个组，依次存放在多粒度并行存储器（300) 的 2ⁿ个存储块中，其中 n为正整数；

歩骤（201) 保持数据组内索引不变，将数据组索引反序；歩骤（202)、保持数据组内索引不变，数据组索引也不变，将组内索引移至高位；

歩骤（203)、保持数据组索引不变，将组内索引反序。

6、如权利要求 5所述的并行位反序方法，其特征在于，

所述并行位反序装置还包括蝶形计算与控制单元（309)，所述方法的歩骤在所述蝶形计算与控制单元（309) 的控制下进行。

7、如权利要求 6所述的并行位反序方法，其特征在于，

所述并行位反序单元（314) 还包括地址反序逻辑（306) 和地址选择器 (308)；

蝶形计算与控制单元（309) 通过移位指示线（305) 和读取地址线 (303) 与地址反序逻辑（306) 相连接。

8、如权利要求 7所述的并行位反序方法，其特征在于，

在歩骤（201) 中，移位指示线（305) 的值设为 A-n，其中 A为读取地址线（303) 的位宽，同时将读写地址线（303) 上的读取地址设为数据组索引，地址选择器（308) 选择地址反序逻辑（306) 的输出，作为存储器（300) 的读写地址。

9、如权利要求 8所述的并行位反序方法，其特征在于，

在歩骤（203) 中，从多粒度并行存储器（300) 中读取的数据经过数据反序网络（301) 的位反序排列后，输出到蝶形计算与控制单元 (309)。

10、如权利要求 9所述的并行位反序方法，其特征在于，

在歩骤（203) 之后，所述数据反序网络（301) 的输出端得到 2ⁿ 个数位反序排序后的数据，以直接进行蝶形计算。