WO2019229538A2 - 数据转换结构、方法及其片上实现 - Google Patents

数据转换结构、方法及其片上实现 Download PDF

Info

Publication number
WO2019229538A2
WO2019229538A2 PCT/IB2019/000791 IB2019000791W WO2019229538A2 WO 2019229538 A2 WO2019229538 A2 WO 2019229538A2 IB 2019000791 W IB2019000791 W IB 2019000791W WO 2019229538 A2 WO2019229538 A2 WO 2019229538A2
Authority
WO
WIPO (PCT)
Prior art keywords
data
bit wide
register
cache
bit
Prior art date
Application number
PCT/IB2019/000791
Other languages
English (en)
French (fr)
Other versions
WO2019229538A3 (zh
Inventor
方绍峡
王俊斌
于谦
隋凌志
单羿
Original Assignee
赛灵思公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201810539699.7A external-priority patent/CN110554886B/zh
Priority claimed from CN201810547232.7A external-priority patent/CN110554852B/zh
Application filed by 赛灵思公司 filed Critical 赛灵思公司
Publication of WO2019229538A2 publication Critical patent/WO2019229538A2/zh
Publication of WO2019229538A3 publication Critical patent/WO2019229538A3/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/76Arrangements for rearranging, permuting or selecting data according to predetermined rules, independently of the content of the data

Definitions

  • the present invention relates to the field of hardware architecture, and in particular, to a data conversion scheme, and a structure and a system on chip using the scheme. Background technique
  • Data conversion such as splitting or merging is a very common requirement on the hardware architecture, and the conversion efficiency is directly related to the operating efficiency of the entire hardware system. Especially for high-bandwidth systems such as neural network computing platforms, the impact of data conversion on efficiency is more pronounced. Most existing data conversion schemes are based on direct conversion of input data, which usually cannot well handle the loss of read efficiency caused by the difference between the input bit width and the output bit width.
  • the present invention proposes a new data conversion scheme.
  • This scheme can efficiently use clock ticks to output data by rationally configuring the number of registers and data read timing, so as to realize high-bandwidth systems (such as neural Network Computing Platform) Efficient data transformation.
  • the data conversion structure is a data splitting structure for splitting the input M-bit wide data into N-bit wide data for output, where NSM, wherein the K buffer registers are two wide M is a buffer register, and when the position of the pointer indicates that one of the buffer registers will not include unread data at the next clock tick, new M-bit wide data Into a buffer register. Therefore, a new N-bit wide data is read out from the two buffer registers for each clock tick, so as to ensure the most efficient N-bit wide output.
  • the two cache registers include a zeroth cache register and a first cache register, where M-bit wide data is input from the first cache register, N-bit width data is read from the zeroth cache register, and the zeroth cache
  • M-bit wide data is input from the first cache register
  • N-bit width data is read from the zeroth cache register
  • the zeroth cache When the current pointer cmrentjdxkM-N of the register is set, the existing data in the first cache register is stored into the zero cache register at the next clock cycle, and new M-bit wide data is sent to the first cache register.
  • the two cache registers include a zeroth cache register and a first cache register, and the current pointer of the zeroth cache register is current idx> MN 0! T, and the first cache register and the zeroth cache register are performed at the next clock cycle.
  • Identity swap and send new M-bit wide data to the first cache register after identity swap. Therefore, at the beginning of data input, the N-bit data can be read directly from a buffer register where the first clock ticks M-bit data input.
  • the output N-bit wide data is multiplexed and the multiplexing degree is T
  • the data splitting structure may further include two status registers, which are respectively used to store the number of valid data in a corresponding cache register, and determine the one based on the number of valid data of one cache register. Whether the buffer register includes unread data at the next clock tick, and accordingly determines whether to send new M-bit wide data to a buffer register.
  • the data conversion structure is a data splicing structure for splicing input M-bit wide data into N-bit wide data for output, where N2M, where M-bit wide data is from
  • N2M where M-bit wide data is from
  • the tail end inputs of the K cache registers are output from the head end of the K cache registers by N bits, and the movement range of the pointer is limited to the first segment of the cache registers.
  • each clock tick has a new M-bit wide data input tail buffer register, and the existing data in the K buffer registers are sequentially moved forward by one buffer register toward the head end.
  • the reading of the N-bit wide data located at the head of the K buffer registers is triggered only at a clock tick that contains valid data in the first buffer register.
  • the data conversion structure may further include: a first-stage cache valid data counter, configured to count valid data contained in the first-stage cache register.
  • the data conversion structure may further include: a global cache valid data counter, configured to count valid data contained in the K cache registers.
  • the count values of the first-stage cache valid data counter and the global cache valid data counter are the same and both are a, only the data of the first a bit in the read N-bit wide data is regarded as valid data.
  • a system-on-chip including a plurality of modules connected via a bus, wherein in a case where the internal bit width of a specific module is not equal to the bus bit width, between the specific module and the bus
  • the data split structure is arranged as described in any one of the above.
  • the specific module includes a highly parallel computing module for neural network computing inference.
  • This system on a chip can be implemented by ASIC, FPGA or GPU.
  • the output N-bit width data includes data multiplexed when the update step size is smaller than the length and width of the convolution kernel.
  • the input M-bit width data includes feature map data read from the channel direction, and is rearranged into N-bit width data inside the specific module.
  • the data conversion method is a data splitting method, which is used to split input M-bit wide data into N-bit wide data for output, where NSM includes: shifting M-bit wide data to two wide Into a cache register in M's cache register, Reading the buffer register; and indicating that one of the buffer registers at the position of the pointer will send new M-bit wide data to a buffer register when the next clock tick will not include unread data, where the pointer storage indicates that The starting point of the read N-bit wide data.
  • the M-bit-wide data is sent to one of the two M-wide cache registers, and reading out from a cache register with an N-bit width may include: each clock tick has a new N Bit-wide data is read from the two buffer registers.
  • sending M-bit wide data to one of the two M-wide cache registers, and reading from one cache register with N-bit width may include: M-bit wide data from the first cache Register input, read from the zeroth buffer register in N-bit width, and indicate at the position of the pointer that one of the buffer registers will not include unread data at the next clock tick, and send new M-bit wide data into a
  • the cache register may include:
  • the existing data is stored in the zero-th buffer register, and the new M-bit wide data is sent to the first buffer register.
  • Reading from a cache register with N-bit width may include: sequentially moving M-bit wide data from the first to the zeroth.
  • the buffer register is input, and the read from the zeroth and first buffer registers is N bits wide, and the position of the pointer indicates that one of the buffer registers will not include unread data in the next clock cycle, and the new M bit width will be
  • Data sent to a buffer register can include:
  • the register and the zeroth cache register are exchanged for identity, and the new M-bit wide data is sent to the first cache register after the identity is exchanged.
  • N-bit data can be read directly from the first buffer register where the first clock tick has M-bit data input.
  • next_idx current_idx + N
  • next_idx current_idx + NM
  • the output N-bit wide data is multiplexed and the multiplexing degree is T
  • the position of the pointer indicates that one of the cache registers will not include unread data in the next clock cycle.
  • Sending new M-bit wide data to a cache register includes: the valid data based on a cache register stored in the state memory. Number, determine whether the one buffer register includes unread data at the next clock tick, and determine whether to send new M-bit wide data to a buffer register accordingly.
  • the data splitting method of the present invention may further include: when one status register indicates that the number of valid data in one cache register is 0, and another status register indicates that the number of valid data in one cache register is a and a ⁇ N Only the data of the first a bit in the read N-bit wide data is used as valid data.
  • the pointer Where [lo g2 M] is rounded up.
  • inputting M-bit wide data from the tail end of the K buffer buffers of M width includes: inputting a new M-bit wide data into the tail buffer register at each clock tick, and making the K buffers The existing data in the register is moved forward one buffer register to the head in turn.
  • reading the N-bit wide data from the position indicated by the pointer includes: triggering the reading of the N-bit wide data located at the heads of the K buffer registers only under the clock tick containing valid data in the first segment of the buffer register. take.
  • the valid data contained in the first-stage cache register is counted by the first-stage cache valid data counter.
  • reading the N-bit wide data from the position indicated by the pointer includes: a case where the valid data contained in the first buffer register is the same as the valid data count contained in the K buffer registers and is a In the following, only the data of the first a bit of the read N-bit wide data is regarded as valid data.
  • the valid data contained in the K cache registers is valid by the global cache The data counter counts.
  • a method for operating a system-on-chip includes a plurality of modules connected via a bus, and the system-on-chip is a system-on-chip in a case where a specific module internal bit width is not equal to a bus bit width
  • a data splitting method as described above is performed between the specific module and the bus.
  • the method may also preferably include reading N-bit wide data in a multiplexed manner when the update step size is smaller than the convolution kernel length and width.
  • the method may further include: the feature map data read from the channel direction as the input M-bit width data.
  • a computing device including: a processor; and a memory, which stores executable code, and when the executable code is executed by the processor, causes the processor to The data splitting method described above is performed.
  • a non-transitory machine-readable storage medium where executable code is stored, and when the executable code is executed by a processor of an electronic device, the processor executes the code.
  • Data splitting method as described above.
  • each clock tick can be used for data output efficiently, so as to achieve efficient data conversion that is essential for high-bandwidth systems (for example, neural network computing platforms).
  • This solution uses less hardware logic and can be widely applied to small to large-scale systems of various sizes.
  • the data splitting efficiency is high and the theoretical maximum efficiency can be basically achieved.
  • the scheme design is regular and can be parameterized, which is easy to match various system requirements.
  • Figure 1 shows an example of a scenario that requires data conversion.
  • Figure 2 shows the data transfer flow that needs to be reorganized.
  • Figure 3 shows the data transmission stream that needs to be re-spliced.
  • FIG. 4 shows a schematic diagram of a data splitting structure according to an embodiment of the present invention.
  • FIG. 5 shows a schematic diagram of a data splitting structure according to another embodiment of the present invention.
  • FIG. 6 shows an example of data splitting according to the data splitting scheme of the present invention.
  • FIG. 7 shows an example of a convolution operation.
  • FIG. 8 is a schematic diagram of a data splicing structure according to an embodiment of the present invention.
  • FIG. 9 is a schematic diagram of a data splicing structure according to another embodiment of the present invention.
  • FIG. 10A-10C show examples of data splicing according to the data splicing scheme of the present invention.
  • FIG. 11 shows an example of reading and rearranging the feature map.
  • FIG. 12 is a schematic flowchart of a data splitting method according to an embodiment of the present invention.
  • FIG. 13 is a schematic flowchart of a data conversion method according to an embodiment of the present invention.
  • FIG. 14 shows a schematic structural diagram of a computing device that can be used to implement the above split method according to an embodiment of the present invention. Detailed ways
  • Data conversion is a very common requirement in hardware architecture, and the conversion efficiency is directly related to the operating efficiency of the entire hardware system. Especially for high-bandwidth systems such as neural network computing platforms, the effect of data conversion on efficiency is more pronounced.
  • a common application scenario for data conversion is the system on a chip.
  • SoC System on Chip
  • IP System on Chip
  • the individual IPs are interconnected via an on-chip bus to enable mutual communication.
  • Figure 1 shows an example of a scenario that requires data conversion.
  • the data width M of the bus, the internal data width N of the IP, and N is not equal to M.
  • the counting unit of the data bit width may be determined based on any rule, for example, it may be in units of 1 bit, 4 bits, or 1 byte, etc., which is not limited in the present invention.
  • Figure 2 shows the data transfer flow that needs to be reorganized.
  • Figure 3 shows the data transmission flow that needs to be reassembled.
  • the data stream input from the bus is transmitted by multiple Composed of blocks.
  • the invention proposes a high-efficiency data bit-width conversion structure, so as to convert valid data with a bit width of M into a plurality of data segments with a bit width of N.
  • the above data conversion structure may have different cache register and pointer register structures in different applications. For example, in the NSM data splitting scenario, the number of cache registers is smaller, while in the N2M data stitching scenario, more cache registers are required.
  • FIG. 4 shows a schematic diagram of a data splitting structure 400 according to an embodiment of the present invention.
  • This structure can be used to efficiently split the input M-bit wide data into N-bit wide data for output, where NSM.
  • the data splitting structure 400 may include two cache registers 410 and 420 with a bit width of M and a pointer register 430 (idx register) for storing a pointer (index pointer idx) indicating the start point of the N-bit wide data to be currently read. .
  • M-bit wide data can be loaded from a cache register and N-bit wide read from a cache register.
  • One of the buffer registers (for example, 420) can be directly connected to the input.
  • the index pointer idx can be moved within the entire 2M interval of the two buffer registers to indicate the starting position of the bit width N that needs to be output subsequently.
  • new M-bit wide data is sent to a buffer register.
  • the N-bit wide data read by the current clock cycle includes all the remaining data in the buffer register 410 (and a part of the data in the buffer register 420), new M-bit wide data can be sent to the next clock
  • the sending and reading of data can follow a certain direction.
  • the two cache registers may include a zeroth cache register and a first cache register.
  • the cache register 410 in FIG. 4 may correspond to the zeroth cache register
  • the cache register 420 may correspond to the first cache register.
  • M-bit wide data can be sent from the first buffer register 420
  • the read from the zeroth buffer register 410 is N bits wide.
  • the current pointer of the zeroth cache register current_idx ⁇ MN for example, starting from the left end of the register 410 as 0
  • the existing data in the first cache register 420 is stored in the zeroth cache register 410 at the next clock cycle, and the new The M-bit wide data is sent to the first buffer register 420.
  • the first buffer register 420 is triggered to read new data and the existing data in the first buffer register 420 is moved forward toward the zeroth buffer register 410.
  • the moving range of the index pointer idx may be limited to the zeroth buffer register 410.
  • the identities of the two cache registers are interchangeable.
  • the cache register 410 in FIG. 4 may correspond to the zeroth cache register, and the cache register 420 may correspond to the first cache register.
  • the zeroth buffer register 410 may correspond to the zeroth buffer register.
  • the cache register 420 corresponds to the zeroth cache register
  • the cache register 410 corresponds to the first cache register.
  • the new M-bit wide data can be directly sent to the valid data depleted register 420, and the register 410 is used as the zeroth buffer register for data reading.
  • the moving range of the index pointer idx may still be limited to the zeroth buffer register, but because the zeroth buffer register changes its identity with the reading of the new M-bit wide data, the index pointer idx is within the entire 2M interval. mobile.
  • the identities of the first and zero buffer registers are interchangeable in this embodiment, at the beginning of data input, it is possible to directly read N-bit wide buffers starting from a buffer register that has M-bit wide data input in the first clock cycle. data. For example, when the M-bit wide data is sent to the buffer register 420 in the first clock cycle, the data can be directly read from the buffer register 420 in the second cycle, and then the new M-bit wide data is input into the buffer register 410, and subsequent processing is performed. Input and read. Thus, compared with the previous embodiment, it is possible to reduce the clock cycle of a round-robin read at the beginning of the transfer block transfer. And the exchange of the identity of the two registers also avoids the need to advance the existing data read by new data.
  • next_idx current_idx + N 0
  • next_idx current_idx + NM 0
  • nextjdx current_idx + NTM 0
  • the data splitting structure of the present invention further includes two status registers, each of which is used to store the number of valid data in a corresponding buffer register. Therefore, based on the number of valid data of a cache register, it can be determined whether the next cache clock of the one cache register includes unread data, and accordingly whether to send new M-bit wide data into a cache register.
  • Fig. 5 shows a schematic diagram of a data splitting structure according to another embodiment of the present invention. As shown in the figure, in addition to the two cache registers 510 and 520 and the pointer register 530, it also includes two status registers 511 and 521 corresponding to the cache registers 510 and 520, respectively.
  • the status registers 511 and 521 are used to store the status data of the two buffer registers 510 and 520, respectively.
  • the state data may include the number of valid data in the cache register in the current state. Therefore, the number of valid data can be used to determine whether the one cache register includes unread data in the next clock cycle, and whether to send new M-bit-wide data to a cache register accordingly.
  • the state data may also directly include the number of valid data in the cache register in the next state, so that it can be directly judged whether the cache register has no validity in the next state (that is, the next clock cycle). Data, thereby directly determining whether to send new M-bit wide data to its corresponding buffer register.
  • the above status register may select invalid data at the end of the transmission, for example, when a transmission block ends.
  • a status register indicates that the number of valid data in a cache register is 0, and another status register indicates that the number of valid data in a cache register is a and a ⁇ N
  • only the read N-bit wide data is included
  • the index pointer idx can also be expressed, where [lo g2 M] is rounded up. in other words, Move within the interval.
  • N is equal to 6
  • the index boundary can be extended from -6 to 6 to the range of -8 to 8, so that the index pointer can be moved between the interval range [0, 16]. That is, two units of left and right sides are expanded within the existing range of the two buffer registers 510 and 520.
  • the boundary extension here is just an extension on the pointer, and does not need to actually extend the cache range of the cache register.
  • the transformation of the pointer idx is more suitable for the characteristics of the system's binary calculation (that is, a binary increment cycle can be performed), thereby improving the shift efficiency of the pointer. It should be understood that when calculating the above formula of the pointer position, it is still preferable to consider the left end of the zeroth buffer register as the starting point 0.
  • FIG. 6 shows an example of data splitting according to the data splitting scheme of the present invention.
  • the two buffer registers are incompatible from right to left and input data in M-bit width and read data in N-bit width from left to right as an example.
  • the first line indicates the beginning of the transfer block, when both buffer registers are empty.
  • the effective number in the first buffer register (for example, the corresponding count in the status register) is 6, and the significant number in the zero buffer register ( For example, its corresponding count in the status register) is 0. Since there are no significant digits in the zeroth buffer register, no data is output.
  • the 6-bit wide data is sent to the first buffer register, and the existing 6-bit wide data is moved forward to the zero buffer register.
  • the valid numbers in the first and zero buffer registers are 6, pointer idx is located at the start bit (leftmost of the zeroth buffer register).
  • the effective number in the _th buffer register is 6 and the effective number in the zeroth buffer register is 2 ⁇ 4, so the next beat will trigger a new 6-bit data input.
  • the effective number in the first buffer register is 6, and the effective number in the zero buffer register is 4 ⁇ 4, so the next beat will trigger a new 6-bit data input.
  • 6-bit wide data is sent to the first buffer register, and the existing 10-bit wide data is moved forward.
  • the transport block transmission ends.
  • the effective number in the first buffer register is 6.
  • the valid number in the zeroth buffer register is 2 ⁇ 4, so the next shot will trigger the 6-bit data in the first buffer register to be forwarded.
  • the index pointer idx draws a 4-bit wide data window to read the remaining 4 significant digits. At this time, the significant digits in both buffer registers are 0, and the data reading of the transmission block is finished.
  • FIG. 6 A specific example of a data splitting scheme according to the present invention is shown in conjunction with FIG. 6 as above. It should be understood that the specific details of data splitting may be different depending on the specific application.
  • the reading of the existing data may be started.
  • the index pointer idx can be moved from 0 to 4 at this clock tick to start reading 4-bit wide data.
  • the remaining data may not be moved forward, and the index pointer idx may be directly slid to the right to the right end of the first buffer register.
  • the cable bow idx can still draw a 4-digit wide data window for reading, but only the first 2 digits read are regarded as significant digits .
  • the cache register that sends data to the first clock cycle can be directly regarded as the zeroth cache register, and reading starts at the second clock cycle .
  • the existing data is not moved forward, but the new data and the existing data are read directly through the cache memory identity interchange.
  • the data splitting scheme of the present invention is particularly suitable for a system-on-chip including a plurality of modules connected via a bus and where a specific module has an internal bit width less than or equal to the bus bit width.
  • a data splitting structure as described above may be arranged between the specific module and the bus.
  • the particular module includes a high degree of parallelism for neural network computational inference Calculation module.
  • the system-on-chip can be implemented by an ASIC, FPGA, or GPU suitable for high-parallel computing.
  • the bandwidth usually becomes the bottleneck of the system efficiency
  • the introduction of the efficient data splitting structure described in the present invention becomes the key to ensure the overall system efficiency.
  • a typical CNN consists of a series of layers that run in an orderly manner.
  • the parameters of the CNN model are called "weights".
  • the first layer of CNN reads the input map and outputs a series of feature maps.
  • the lower layer reads the feature map generated by the previous layer and outputs a new feature map.
  • the last classifier outputs input probabilities that may belong to a certain category.
  • the CONV layer convolutional layer
  • the FC layer fully connected layer
  • Feature maps are the data passed in the calculation of each layer of the neural network. In neural network computing, feature maps usually include three dimensions: height, width, and channels.
  • the data splitting scheme of the present invention is particularly suitable for parallel computing with a high data reuse rate, for example, the most common convolutional computing in CNN.
  • FIG. 7 shows an example of the convolution operation. As shown in FIG. 7, _ 3 ⁇ 3 convolution kernels are used to perform convolution calculation on a 5 ⁇ 5 input feature map with a step size of 1. The left side of the figure shows the first convolution calculation, the middle shows the second convolution calculation, and so on. After 9 convolution calculations, the convolved feature map on the right side of Figure 3 is obtained.
  • the execution can be completed in a single operation of the highly parallel computing module (the degree of parallelism M can usually reach thousands of orders of magnitude). Since the step size is 1, 6 data in each adjacent convolution window can be reused, as shown in the left and middle diagrams in FIG. 7.
  • the reuse degree T (6 in this example) is less than the output bit width N (for example, N is 8)
  • N the output bit width
  • the data conversion structure of the present invention may also be a data split structure.
  • FIG. 8 shows a schematic diagram of a data splitting structure 800 according to an embodiment of the present invention.
  • This structure can be used to efficiently stitch the input M-bit wide data into N-bit wide data for output, where N ⁇ M 0 data split structure 800 may include K cache buffers 810 with M width to And a pointer register 820 for storing a pointer indicating the starting point of the N-bit wide data to be currently read.
  • the K buffer registers are numbered K-l, ..., 2, l, 0 in sequence from the end to the head.
  • the K-1st buffer register is referred to as the tail buffer register.
  • the 0th cache register is called the first segment cache register.
  • K ceil (N / M) +1, and ceil indicates rounding up.
  • PTR pointer register
  • K ceil (N / M) can ensure sufficient input data in the buffer, but the above configuration cannot deal with the case where there is M-bit wide data input for each clock tick.
  • the present invention can be implemented under the condition that each clock tick has M-bit wide input. Efficient output of N-bit wide data to maximize data conversion efficiency.
  • each clock tick has a new M-bit wide data input to the tail buffer register 810_K-1, and the existing data in the K buffer registers is sequentially moved forward by one buffer register toward the head end.
  • the read of N-bit data located at the head of the K buffer registers is triggered only by the clock ticks containing valid data in the first buffer register 810_0. In other words, when the reading in a certain clock cycle causes the data in the first two registers to be taken empty, the next cycle needs to fill the data in the buffer register 810_1, so no data is output in this cycle.
  • the first-stage cache valid data counter may be used to count the valid data contained in the first-stage cache valid register.
  • the data splicing structure of the present invention can also change the global cache valid data counter, which can be used to count the valid data contained in the K cache registers.
  • FIG. 9 shows a schematic diagram of a data splitting structure 900 according to another embodiment of the present invention.
  • the structure also includes a first cache effective data counter (Counter_F) 920 and a global cache effective data counter (Counter_F) 430.
  • the count in the global cache valid data counter 430 helps to make a correct response at the end of the transfer. For example, invalid data is followed by the transmission of each transport block as shown in FIG. 3.
  • the K buffer registers are gradually read empty, the valid data counter and the When the count values of the global cache valid data counters are the same (for example, they are all a), only the data of the first a bit of the read N-bit wide data is used as the valid data. This prevents misreading of invalid data.
  • FIG. 10 shows an example of data stitching according to the data stitching scheme of the present invention.
  • the first line indicates the beginning of the transfer block, and at this time, all three buffer registers are empty. Subsequently, at the first clock tick, 8-bit wide data is sent to the tail buffer register. At this time, the effective number in the queue (for example, the count value of the global cache effective data counter) is 8, and the effective number in the first section (for example, the first section) The cache valid data counter counts to 0. Since there are no significant digits in the first paragraph, no data is output.
  • the effective number in the queue for example, the count value of the global cache effective data counter
  • the 8-bit wide data is sent to the tail buffer register, and the existing 8-bit wide data is moved forward to the middle buffer register.
  • the valid number in the queue is 16 and the valid number in the first segment is still 0. Since there are no significant digits in the first paragraph, no data is output.
  • 8-bit wide data is sent to the tail buffer register, and the existing 16-bit wide data is sequentially moved forward to the buffer register.
  • the valid number in the queue is 24 and the valid number in the first segment becomes 8. Reading of data.
  • the first 11 bits of data are read, and the 8-bit wide data is sent to the tail buffer register.
  • the existing 13-bit wide data is sequentially moved forward to the buffer register.
  • the effective number in the queue is 21, and the first segment is The significant digit becomes 5, so the reading of the data is triggered.
  • the first 11 bits of data are read, and the 8-bit wide data is sent to the tail buffer register.
  • the existing 10-bit wide data is sequentially moved forward to the buffer register.
  • the effective number in the queue is 18, and the first segment is The significant digit becomes 2 and therefore the reading of the data is triggered.
  • the first 11 bits of data are read, and the 8-bit wide data is sent to the tail buffer register.
  • the existing 7-bit wide data is moved forward to the middle buffer register.
  • the effective number in the queue is 15, the first segment The inner effective number becomes 0, so the next _ shot does not trigger the reading of the data.
  • FIG. 10B shows an example of the operation after the transport block transmission ends.
  • the first 11 bits of data are read, and the remaining 12 bits of wide data are moved forward to the first and middle buffer registers.
  • the valid number in the queue is 12 and the valid number in the first segment is 4. Therefore, the reading of data is triggered.
  • the first 11 bits of data are read, and the remaining 1-bit wide data is moved forward to the first buffer register.
  • the valid number in the queue is 1 and the valid number in the first segment is 1. Therefore, the data read is triggered. take.
  • Fig. 10C shows another example of the operation after the transmission of the transport block is completed.
  • the transmission block transmission ends.
  • the effective number in the queue is 18, and the effective number in the first paragraph is 2, so the reading of the data is triggered.
  • the first 11 bits of data are read, and the remaining 7-bit wide data is moved forward to the middle buffer register.
  • the valid number in the queue is 7, and the first valid number becomes 0, so the next beat No reading of data is triggered.
  • the data splicing scheme of the present invention is particularly suitable for a system-on-chip including a plurality of modules connected via a bus and in which a specific module has an internal bit width greater than or equal to the bus bit width.
  • a data splicing structure as described above may be arranged between the specific module and the bus.
  • the specific module includes a highly parallel computing module for neural network computing inference.
  • the system-on-chip can be implemented by an ASIC, FPGA, or GPU suitable for high-parallel computing.
  • the input M-bit width data includes feature map data read from the channel direction.
  • FIG. 11 shows an example of reading and rearranging feature maps.
  • a typical CNN consists of a series of layers that run in an orderly manner.
  • the parameters of the CNN model are called "weights".
  • the first layer of CNN reads the input map and outputs a series of feature maps.
  • the lower layer reads the feature map generated by the previous layer and outputs a new feature map.
  • the last classifier outputs input probabilities that may belong to a certain category.
  • the CONV layer convolutional layer
  • the FC layer fully connected layer
  • the CONV layer is usually followed by a pooling layer.
  • the feature map is the data passed in the calculation of each layer of the neural network.
  • feature maps usually include three dimensions: height, width, and channels as shown in Figure 11.
  • Figure 11 shows how to read all the channel data of each pixel one by one. Therefore, reading the feature map data from the channel direction as shown in FIG. 11 and rearranging the data for operation in a specific IP (for example, a convolution calculation module) does not cause system efficiency due to the data rearrangement. Any adverse effects.
  • the data conversion scheme of the present invention may also be a data conversion method.
  • the above data conversion method may be a data splitting method.
  • FIG. 12 is a schematic flowchart of a data splitting method according to an embodiment of the present invention.
  • the data splitting method 1200 is used to split the input M-bit wide data into N-bit wide data for output, where NSM.
  • the M-bit-wide data is sent to one of the two cache registers with a width of M, and the data is read out from one cache register with an N-bit width.
  • new M-bit wide data is sent to a buffer register, where the pointer storage indicates that the buffer is currently to be read. The starting point for N-bit wide data.
  • the data splitting method of the present invention may include one-way input of data and Read.
  • step S 1210 may include: sending M-bit wide data from the first cache register, and reading N-bit wide data from the zeroth cache register.
  • step S 1210 may include: when the current pointer C mr en t_idxkM-N of the zero-th buffer register, the existing data in the first buffer register is stored in the zero-th buffer register at the next clock cycle, and the new M-bit wide data is sent to the first buffer register.
  • the data splitting method of the present invention may include exchanging the identities of the two cache registers.
  • step S 1210 may include: sequentially sending M-bit wide data from the first and zero buffer registers, and reading N-bit wide data from the zero and first buffer registers.
  • step S1220 when the current pointer of the zeroth cache register current_idx> MN, the first cache register and the zeroth cache register are exchanged for identity at the next clock tick, and the new M-bit wide data is sent into The first cache register after identity exchange.
  • the N-bit data can be read directly from the first buffer register where the M-bit data is sent in at the first clock.
  • step S 1210 may include: judging whether the one cache register includes unread data at the next clock tick based on the number of valid data of one cache register stored in the state memory, and determining whether a new M-bit wide data is sent to a buffer register.
  • the data splitting method of the present invention may further include: indicating that the number of valid data in one cache register is 0 in one status register, and indicating the number of valid data in one cache register in another status register is When a and a ⁇ N, only the first a bit of the read N-bit wide data is used as valid data.
  • the index pointer idx can also be extended to indicate -.
  • 2 r g2M i The range of 2 r g2M ij, where [i og2 M] is rounded up. Therefore, the transformation of the pointer idx is more suitable for the characteristics of the binary calculation of the system (that is, a binary increment cycle can be performed), thereby improving the shift efficiency of the pointer.
  • the above data conversion method may be a data splicing method, which is used to splice input M-bit wide data into N-bit wide data for output.
  • FIG. 13 is a schematic flowchart of a data splicing method according to an embodiment of the present invention.
  • step S 1320 based on the pointer whose movement range is limited to the first segment of the buffer register and indicating the start point of the N-bit wide data to be read before, the N-bit wide data from the position indicated by the pointer is read.
  • inputting M-bit-wide data from the tail ends of the K buffer registers having a width of M includes: inputting a new M-bit-wide data into the tail buffer register at each clock cycle, and making all The existing data in the K buffer registers is sequentially moved forward by one buffer register toward the head end.
  • reading the N-bit wide data from the position indicated by the pointer includes: triggering on the N-bits located at the head of the K buffer registers only under the clock tick that contains valid data in the first-stage buffer register Reading of wide data.
  • the first stage cache register contains valid data and is counted by the first stage cache valid data counter.
  • reading the N-bit wide data from the position indicated by the pointer includes: the valid data contained in the first buffer register and the valid data count value contained in the K buffer registers are the same and both In the case of a, only the first a bit of the read N-bit wide data is regarded as valid data.
  • the valid data contained in the K cache registers is counted by a global cache valid data counter.
  • the present invention also relates to a method for operating a system-on-chip.
  • the system-on-chip includes a plurality of modules connected via a bus, and in a case where an internal bit width of a specific module is not equal to a bus bit width, the on-chip The system performs the data splitting method described above between the specific module and the bus.
  • the system-on-chip operating method may further include M-bit-width data as input feature map data read from the channel direction. Update step size When it is smaller than the length and width of the convolution kernel, the N-bit wide data is read by multiplexing the data.
  • the data stitching method may further include: the feature map data read from the channel direction as the input M-bit width data.
  • the data conversion scheme of the present invention has been described above with reference to FIGS. 8-13, and may specifically include a data splitting and splicing scheme.
  • This solution uses very little hardware logic and is suitable for small to large-scale systems of various sizes; high conversion efficiency, which can basically reach the theoretical maximum efficiency; regular design, parameterized design, and easy to match various system requirements.
  • FIG. 14 shows a schematic structural diagram of a computing device that can be used to implement the above split method according to an embodiment of the present invention.
  • the computing device 1400 includes a memory 1410 and a processor 1420.
  • the processor 1420 may be a multi-core processor, or may include multiple processors.
  • the processor 1420 may include a general-purpose main processor and one or more special coprocessors, such as a graphics processor (GPU), a digital signal processor (DSP), and so on.
  • the processor 1420 may be implemented using a custom circuit, such as a special-purpose integrated circuit (ASIC) or a field programmable logic gate array (FPGA).
  • ASIC special-purpose integrated circuit
  • FPGA field programmable logic gate array
  • the processor 1420 is preferably a general-purpose processor (CPU)
  • the memory 1410 may include various types of storage units, such as a system memory, a read-only memory (ROM), and a permanent storage device.
  • the ROM may store static data or instructions required by the processor 1420 or other modules of the computer.
  • the persistent storage device may be a readable and writable storage device.
  • the permanent storage device may be a non-volatile storage device that does not lose stored instructions and data even after the computer is powered off.
  • the permanent storage device uses a mass storage device (eg, magnetic or optical disk, flash memory) as the permanent storage device.
  • the permanent storage device may be a removable storage device (for example, a floppy disk or an optical drive).
  • the system memory can be a read-write storage device or a volatile read-write storage device, such as dynamic random access memory.
  • System memory can store some or all of the instructions and data required by the processor while it is running.
  • the memory 1410 may include any combination of computer-readable storage media, including various types of semiconductor memory chips (DRAM, SRAM, SDRAM, flash memory, programmable read-only memory), and magnetic disks and / or optical disks may also be used.
  • the memory 1010 may include a readable and / or writeable removable storage device, such as a compact disc (CD), a read-only digital versatile disc (eg, DVD-ROM, dual-layer DVD-ROM), Read-only Blu-ray Disks, ultra-density optical disks, flash memory cards (such as SD cards, min SD cards, Micro-SD cards, etc.), magnetic floppy disks, etc.
  • a readable and / or writeable removable storage device such as a compact disc (CD), a read-only digital versatile disc (eg, DVD-ROM, dual-layer DVD-ROM), Read-only Blu-ray Disks, ultra-density optical disks, flash memory cards (such as SD cards, min SD cards, Micro-SD cards, etc.), magnetic floppy disks, etc.
  • Computer-readable storage media does not contain carrier waves and transient electronic signals transmitted by wireless or wire.
  • the memory 1410 stores a processable code.
  • the processor 1420 can cause the processor 1420 to execute the direct fixed-point method mentioned above.
  • the compression compiler mentioned above may be implemented as a compression compiler, which may also be stored by the memory 1410 and executed by the processor 1420.
  • the above-mentioned computing device 1400 may be a general-purpose computing device including a large-capacity storage device 1410 and a CPU 1420.
  • This general-purpose computing device can be combined with a fixed-point computing platform dedicated to performing neural network calculations and implemented at least in part by digital circuits to achieve efficient neural network calculations.
  • the neural network computing system of the present invention may be implemented on a system on a chip (SoC) including a general-purpose processor, a memory, and a digital circuit.
  • SoC system on a chip
  • the method according to the present invention may also be implemented as a computer program or computer program product including computer program code instructions for performing the above steps defined in the above method of the present invention.
  • the present invention may also be implemented as a non-transitory machine-readable storage medium (or computer-readable storage medium, or machine-readable storage medium), on which executable code (or computer program, or computer instruction code) is stored. ), When the executable code (or computer program, or computer instruction code) is executed by a processor of an electronic device (or computing device, server, etc.), causing the processor to execute each step of the above method according to the present invention .
  • each block in the flowchart or block diagram may represent a module, a program segment, or a portion of code, which contains one or more components for implementing a specified logical function Executable instructions.
  • the functions labeled in the blocks may also occur in a different order than those labeled in the figures. For example, two consecutive blocks may actually be executed substantially in parallel, and they may sometimes be executed in the reverse order, depending on the functions involved.
  • each block in the block diagrams and / or flowcharts, and combinations of blocks in the block diagrams and / or flowcharts may be implemented by a dedicated hardware-based system that performs the specified function or operation, or may be implemented by A combination of dedicated hardware and computer instructions.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

提出了一种数据转换结构、方法及其片上实现。所述数据转换结构用于将输入的M位宽数据转换成N位宽数据进行输出,并且包括:K个宽为M的缓存寄存器,其中M位宽的数据从一个缓存寄存器送入,以N位宽从一个缓存寄存器的读出,并且其中K=ceil(N/M)+1,ceil表示向上取整;以及指针寄存器,用于存储指示当前要读取的N位宽数据的起点的指针。由此,使得M至N位宽数据的转换能够在缓存寄存器和指针的配合下高效进行,以确保最高效率的数据输出。本发明的数据转换方案尤其适用于数据转换效率至关重要的高带宽系统,例如,神经网络计算平台。

Description

数据转换结构、 方法及其片上实现 技术领域
本发明涉及硬件架构领域,尤其涉及一种数据转换方案及使用该方案 的结构和片上系统。 背景技术
诸如拆分或合并的数据转换在硬件架构上是很常见的需求,转换效率 直接关乎整个硬件系统的运行效率。特别是对于例如神经网络计算平台的 高带宽系统, 数据转换对效率的影响更加明显。 现有的数据转换方案多是 基于输入数据的直接转换,其通常无法很好地处理输入位宽和输出位宽之 间的差异所带来的读取效率损失。
因此, 仍然需要一种能够优化数据拆分操作的相关方案。 发明内容
为了解决上述至少一个问题, 本发明提出了一种新的数据转换方案, 该方案通过合理配置寄存器数量和数据读入时机,能够高效利用时钟节拍 输出数据, 以实现对于高带宽系统 (例如, 神经网络计算平台) 至关重要 的数据高效转换。
根据本发明的一个方面, 提出了一种数据转换结构, 用于将输入的 M 位宽数据转换成 N位宽数据进行输出,包括: K个宽为 M的缓存寄存器, 其中 M位宽的数据从一个缓存寄存器送入, 以 N位宽从一个缓存寄存器 的读出, 并且其中1^=(^1^ )+1 , ceil表示向上取整; 以及指针寄存器, 用于存储指示当前要读取的 N位宽数据的起点的指针。
优选地,所述数据转换结构是一种数据拆分结构,用于将输入的 M位 宽数据拆分成 N位宽数据进行输出, 其中 NSM, 其中, 所述 K个缓存寄 存器是两个宽为 M的缓存寄存器,并且,在所述指针的位置指示其中一个 缓存寄存器在下一时钟节拍将不包括未读取数据时, 将新的 M位宽数据 送入一个缓存寄存器。 由此,使得每一个时钟节拍都有一个新的 N位宽数 据被从所述两个缓存寄存器中读出, 以确保最高效的 N位宽输出。
优选地, 两个缓存寄存器包括第零缓存寄存器和第一缓存寄存器, 其 中 M位宽的数据从第一缓存寄存器送入, 以 N位宽从第零缓存寄存器的 读出, 并且在第零缓存寄存器的当前指针 cmrentjdxkM-N时, 在下一时 钟节拍将第一缓存寄存器内的已有数据存入第零缓存寄存器,并将新的 M 位宽数据送入第一缓存寄存器。
优选地, 两个缓存寄存器包括第零缓存寄存器和第一缓存寄存器, 并 且在第零缓存寄存器的当前指针 current idx > M-N 0!t , 在下一时钟节拍将 第一缓存寄存器和第零缓存寄存器进行身份互换, 并将新的 M位宽数据 送入身份互换后的第一缓存寄存器。 由此, 可以在数据输入开始时直接从 第一时钟节拍有 M位宽数据送入的一个缓存寄存器读取 N位宽的数据。
在没有新的 M 位宽数据送入时, 下一指针的指示位置为 next— idx=current— idx+N ;在有新的 M位宽数据送入时,下一指针的指示位 置 next— idx=current— idx+N-M0 在输出的 N位宽数据存在复用且复用度为 T 的情况下, 在没有新的 M位宽数据送入时, 下一指针的指示位置为 next_idx=current_idx+N-T;在有新的 M位宽数据送入时,下一指针的指示 位置 next_idx=current_idx+N-T -M0
进一步地, 该数据拆分结构还可以包括两个状态寄存器, 分别用于存 储与其对应的一个缓存寄存器内的有效数据个数,并且基于一个缓存寄存 器的所述有效数据个数,判断所述一个缓存寄存器在下一时钟节拍是否包 括未读取数据, 并相应地判断是否将新的 M位宽数据送入一个缓存寄存 器。
在一个状态寄存器中指示一个缓存寄存器内有效数据个数为 0 , 且另 一个状态寄存器中指示一个缓存寄存器内有效数据个数为 a且 a < N时, 仅将 围,
Figure imgf000004_0001
优选地,所述数据转换结构是一种数据拼接结构,用于将输入的 M位 宽数据拼接成 N位宽数据进行输出, 其中 N2M, 其中, M位宽的数据从 K个缓存寄存器的尾端输入, 以 N位宽从所述 K个缓存寄存器的首端输 出, 并且所述指针的移动范围限于首段缓存寄存器内。
优选地, 每一个时钟节拍都有一个新的 M位宽数据输入尾段缓存寄 存器,并且所述 K个缓存寄存器中的已有数据依次向首端前移一个缓存寄 存器。
优选地,仅在所述首段缓存寄存器内包含有效数据的时钟节拍下触发 对位于所述 K个缓存寄存器首端的 N位宽数据的读取。
优选地, 该数据转换结构还可以包括: 首段缓存有效数据计数器, 用 于对所述首段缓存寄存器内包含的有效数据进行计数。
优选地, 该数据转换结构还可以包括: 全局缓存有效数据计数器, 用 于对所述 K个缓存寄存器内包含的有效数据进行计数。
优选地,在所述首段缓存有效数据计数器和所述全局缓存有效数据计 数器的计数值相同且都为 a的情况下,仅将读取的 N位宽数据中的前 a位 的数据作为有效数据。
根据本发明的另一个方面, 提供了一种片上系统, 包括经由总线连接 的多个模块, 其中在特定模块内部位宽不等于总线位宽的情况下, 在所述 特定模块和所述总线之间布置如上任一项所述的数据拆分结构。
所述特定模块包括用于神经网络计算推理的高并行度计算模块。该片 上系统可由 ASIC、 FPGA或 GPU实现。 优选地, 输出的 N位宽数据包括 更新步长小于卷积核长宽时复用的数据。
优选地,输入的 M位宽数据包括从通道方向读取的特征图数据,并且 在所述特定模块内部重排成 N位宽数据。
根据本发明的又一方面, 提出了一种数据转换方法, 用于将输入的 M 位宽数据转换成 N位宽数据进行输出, 包括: 将 M位宽的数据从 K个宽 为 M的缓存寄存器的一个缓存寄存器送入, 以 N位宽从一个缓存寄存器 的读出,并且其中K=Ceil(N/M)+l , ceil表示向上取整; 以及基于指示当前 要读取的 N位宽数据的起点的指针, 进行数据读取。
优选地,所述数据转换方法是一种数据拆分方法,用于将输入的 M位 宽数据拆分成 N位宽数据进行输出, 其中 NSM, 包括: 将 M位宽的数据 向两个宽为 M的缓存寄存器中的一个缓存寄存器送入, 以 N位宽从一个 缓存寄存器的读出; 以及在指针的位置指示其中一个缓存寄存器在下一时 钟节拍将不包括未读取数据时,将新的 M位宽数据送入一个缓存寄存器, 其中所述指针存储指示当前要读取的 N位宽数据的起点。
优选地, 将 M位宽的数据向两个宽为 M的缓存寄存器中的一个缓存 寄存器送入,以 N位宽从一个缓存寄存器的读出可以包括:每一个时钟节 拍都有一个新的 N位宽数据被从所述两个缓存寄存器中读出。
优选地, 将 M位宽的数据向两个宽为 M的缓存寄存器中的一个缓存 寄存器送入, 以 N位宽从一个缓存寄存器的读出可以包括: 将 M位宽的 数据从第一缓存寄存器送入,以 N位宽从第零缓存寄存器的读出,并且在 指针的位置指示其中一个缓存寄存器在下一时钟节拍将不包括未读取数 据时,将新的 M位宽数据送入一个缓存寄存器可以包括:在第零缓存寄存
Figure imgf000006_0001
的已有数据存入第零缓存寄存器, 并将新的 M位宽数据送入第一缓存寄 存器。
将 M位宽的数据向两个宽为 M的缓存寄存器中的一个缓存寄存器送 入, 以 N位宽从一个缓存寄存器的读出可以包括: 依次将 M位宽的数据 从第一和第零缓存寄存器送入, 以 N位宽从第零和第一缓存寄存器的读 出,并且在指针的位置指示其中一个缓存寄存器在下一时钟节拍将不包括 未读取数据时,将新的 M位宽数据送入一个缓存寄存器可以包括:在第零
Figure imgf000006_0002
寄存器和第零缓存寄存器进行身份互换, 并将新的 M位宽数据送入身份 互换后的第一缓存寄存器。
在数据输入开始时可以直接从第一时钟节拍有 M位宽数据送入的第 一缓存寄存器读取 N位宽的数据。
在没有新的 M 位宽数据送入时, 下一指针的指示位置为 next— idx=current— idx+N ;在有新的 M位宽数据送入时,下一指针的指示位 置 next_idx=current_idx+N-M 而在输出的 N位宽数据存在复用且复用度 为 T的情况下, 在没有新的 M位宽数据送入时, 下一指针的指示位置为 next— idx=current— idx+N-T; 在有新的 M位宽数据送入时,下一指针的指示 位置 next— idx=current— idx+N-T-M 在指针的位置指示其中一个缓存寄存器在下一时钟节拍将不包括未 读取数据时,将新的 M位宽数据送入一个缓存寄存器包括:基于状态存储 器中存储的一个缓存寄存器的所述有效数据个数,判断所述一个缓存寄存 器在下一时钟节拍是否包括未读取数据, 并相应地判断是否将新的 M位 宽数据送入一个缓存寄存器。
本发明的数据拆分方法还可以包括:在一个状态寄存器中指示一个缓 存寄存器内有效数据个数为 0 , 且另一个状态寄存器中指示一个缓存寄存 器内有效数据个数为 a且 a < N时, 仅将读取的 N位宽数据中的前 a位的 数据作为有效数据。
优选地, 所述指针
Figure imgf000007_0001
其中表示 [log2M] 向上取整。
优选地, 所述数据转换方法可以是一种数据拼接方法, 用于将输入的 M位宽数据拼接成 N位宽数据进行输出, 其中 N2M, 包括:将 M位宽的 数据从 K个宽为 M的缓存寄存器的尾端输入,用于以 N位宽从所述 K个 缓存寄存器的首端输出,其中 K=ceil(N/M)+l , ceil表示向上取整; 以及基 于移动范围限于首段缓存寄存器内且指示前要读取的 N位宽数据的起点 的指针, 读取指针所示位置起的 N位宽数据。
优选地, 将 M位宽的数据从 K个宽为 M的缓存寄存器的尾端输入包 括:在每一个时钟节拍将一个新的 M位宽数据输入尾段缓存寄存器,并使 得所述 K个缓存寄存器中的已有数据依次向首端前移一个缓存寄存器。
优选地,读取指针所示位置起的 N位宽数据包括:仅在所述首段缓存 寄存器内包含有效数据的时钟节拍下触发对位于所述 K个缓存寄存器首 端的 N位宽数据的读取。
优选地,其中所述首段缓存寄存器内包含有效数据由首段缓存有效数 据计数器进行计数。
优选地,读取指针所示位置起的 N位宽数据包括:在所述首段缓存寄 存器内包含的有效数据与所述 K个缓存寄存器内包含的有效数据计数值 相同且都为 a的情况下,仅将读取的 N位宽数据中的前 a位的数据作为有 效数据。
优选地,其中所述 K个缓存寄存器内包含的有效数据由全局缓存有效 数据计数器进行计数。
根据本发明的另一个方面, 提供了一种片上系统操作方法, 所述片上 系统包括经由总线连接的多个模块, 其中在特定模块内部位宽不等于总线 位宽的情况下,所述片上系统在所述特定模块和所述总线之间执行如上所 述的数据拆分方法。该方法还可以优选地包括在更新步长小于卷积核长宽 时, 以复用数据的方式读取 N位宽的数据。
优选地, 该方法还可以包括: 从通道方向读取的特征图数据作为输入 的 M位宽数据。
根据本发明的又一个方面, 提出了一种计算设备, 包括: 处理器; 以 及存储器, 其上存储有可执行代码, 当所述可执行代码被所述处理器执行 时, 使所述处理器执行如上所述的数据拆分方法。
根据本发明的另一个方面, 提出了一种非暂时性机器可读存储介质, 其上存储有可执行代码, 当所述可执行代码被电子设备的处理器执行时, 使所述处理器执行如上所述的数据拆分方法。
使用根据本发明的数据转换方案, 能够高效利用每一个时钟节拍进行 数据输出, 以实现对于高带宽系统(例如, 神经网络计算平台) 至关重要 的数据高效转换。该方案使用的硬件逻辑少,可以广泛适用于小型到大型 的各种规模的系统,数据拆分效率高,基本能达到理论最大效率。另外, 方案设计规整, 可以参数化设计, 易于匹配各种各样的系统需求。 附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的 上述以及其它目的、 特征和优势将变得更加明显, 其中, 在本公开示例性 实施方式中, 相同的参考标号通常代表相同部件。
图 1示出了需要数据转换的一个场景例。
图 2示出了需要重新拆分组织的数据传输流。
图 3示出了需要重新拼接组织的数据传输流。
图 4示出了根据本发明一个实施例的数据拆分结构的示意图。
图 5示出了根据本发明另一个实施例的数据拆分结构的示意图。
图 6示出了根据本发明的数据拆分方案进行数据拆分的例子。 图 7示出了卷积操作的一个例子。
图 8示出了根据本发明一个实施例的数据拼接结构的示意图。
图 9示出了根据本发明另一个实施例的数据拼接结构的示意图。
图 10A- 10C示出了根据本发明的数据拼接方案进行数据拼接的例子。 图 11示出了特征图读取和重排的一个例子。
图 12示出了根据本发明一个实施例的数据拆分方法的流程示意图。 图 13示出了根据本发明一个实施例的数据转换方法的流程示意图。 图 14示出了根据本发明一个实施例可用于实现上述拆分方法的计算 设备的结构示意图。 具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显 示了本公开的优选实施方式, 然而应该理解, 可以以各种形式实现本公开 而不应被这里阐述的实施方式所限制。 相反, 提供这些实施方式是为了使 本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的 技术人员。
数据转换在硬件架构上是很常见的需求,转换效率直接关乎整个硬件 系统的运行效率。 特别是对于例如神经网络计算平台的高带宽系统, 数据 转换对效率的影响更加明显。
数据转换的一个常见的应用场景是片上系统。典型的片上系统 (SoC , System on Chip) 设计由多个模块 (例如, IP) 组成, 例如可以包如 CPU、 GPU、 USB控制器、 PCIE控制器、 DDR控制器等。各个 IP通过片上总线 互联以实现相互通信。 实际应用中有可能出现总线数据位宽与 IP 内部使 用的数据位宽不一致问题。 图 1示出了需要数据转换的一个场景例。 如图 1所示, 总线数据位宽 M, IP内部数据位宽 N, 且 N不等于 M。 当位宽为 M的数据经由总线输入时, 需要将其位宽更改为 N以供 IP内部进行后续 处理。 在此, 数据位宽的计数单位可以基于任意规则确定, 例如, 可以以 1比特、 4比特或是 1字节等为单位, 本发明对此不做限制。
图 2示出了需要重新拆分组织的数据传输流。 图 3则示出了需要重新 拼接组织的数据传输流。 如图 2和 3所示, 从总线输入的数据流由多个传 输块组成。 作为有效数据的传输块之间存在一定量的无效数据。 本发明提 出了一种高效率的数据位宽转换结构, 以便将位宽为 M的有效数据转换 成多个位宽为 N的数据段。 具体地, 本发明首先涉及一种数据转换结构, 用于将输入的 M位宽数据转换成 N位宽数据进行输出, 包括: K个宽为 M的缓存寄存器, 其中 M位宽的数据从一个缓存寄存器送入, 以 N位宽 从一个缓存寄存器的读出, 并且其中K=Ceil(N/M)+l , ceil表示向上取整; 以及指针寄存器, 用于存储指示当前要读取的 N位宽数据的起点的指针。
上述数据转换结构在不同的应用中,可以具有不同的缓存寄存器和指 针寄存器结构。 例如, 在 NSM的数据拆分场景中, 缓存寄存器的个数更 少, 而在 N2M的数据拼接场景中, 则需要更多的缓存寄存器。
图 4示出了根据本发明一个实施例的数据拆分结构 400的示意图。该 结构可以用于高效率地将输入的 M位宽数据拆分成 N位宽数据进行输出, 其中 NSM。 数据拆分结构 400可以包括两个位宽为 M的缓存寄存器 410 和 420以及用于存储指示当前要读取的 N位宽数据的起点的指针(索引指 针 idx) 的指针寄存器 430 (idx寄存器) 。 如图所示, M位宽的数据可以 从一个缓存寄存器送入,以 N位宽从一个缓存寄存器的读出。其中的一个 缓存寄存器(例如, 420)可以与输入直连。 索引指针 idx可以在两个缓存 寄存器的整个 2M区间内移动, 以指示后续需要输出的位宽 N的起始位 置。在所述指针的位置指示其中一个缓存寄存器在下一时钟节拍将不包括 未读取数据时,将新的 M位宽数据送入一个缓存寄存器。如图 1所示, 当 当前时钟节拍读取的 N位宽数据包括缓存寄存器 410剩余的全部数据(以 及缓存寄存器 420的部分数据) 时, 可以在下一时钟将新的 M位宽数据 送入不再存在有效数据的缓存寄存器 410。
由此, 通过两个缓存寄存器与指针的有效配合, 能够确保在例如传输 块的传输阶段,每一个时钟节拍都有 N位宽的数据能够被从两个缓存寄存 器中读出。
在一个实施例中, 数据的送入和读取可以遵循一定的方向。 两个缓存 寄存器可以包括第零缓存寄存器和第一缓存寄存器。 例如, 可以图 4中的 缓存寄存器 410可以对应于第零缓存寄存器,缓存寄存器 420可以对应于 第一缓存寄存器。 此时, M位宽的数据可以从第一缓存寄存器 420送入, 以 N位宽从第零缓存寄存器 410的读出。 在第零缓存寄存器的当前指针 current_idx^M-N时(例如, 以寄存器 410左端为起点 0) , 在下 _时钟节 拍将第一缓存寄存器 420内的已有数据存入第零缓存寄存器 410 , 并将新 的 M位宽数据送入第一缓存寄存器 420。换句话说, 当第零缓存寄存器内 的有效数据将要被读取完毕时,触发第一缓存寄存器 420对新数据的读取 并其内已有数据朝向第零缓存寄存器 410的前移。在数据的送入和读取的 方向一定的情况下, 索引指针 idx的移动范围可以限制在第零缓存寄存器 410内。
在另一个实施例中, 两个缓存寄存器的身份可以互换。 例如, 在初始 情况下可以是图 4中的缓存寄存器 410可以对应于第零缓存寄存器, 缓存 寄存器 420可以对应于第一缓存寄存器。而在例如第零缓存寄存器 410的
Figure imgf000011_0001
互换, 即, 缓存寄存器 420对应于第零缓存寄存器, 缓存寄存器 410对应 于第一缓存寄存器。这时,可以直接将新的 M位宽数据送入有效数据耗尽 的寄存器 420 , 并且将寄存器 410作为第零缓存寄存器进行数据读取。 这 时, 索引指针 idx的移动范围可以依旧限制在第零缓存寄存器内, 但由于 第零缓存寄存器随着新 M位宽数据的读数而发生身份变化, 因此索引指 针 idx是在整个 2M的区间内移动。 由于在此实施例中第一和第零缓存寄 存器的身份可以互换, 因此在数据输入开始时可以直接从第一时钟节拍有 M位宽数据送入的一个缓存寄存器开始读取 N位宽的数据。例如,在第一 时钟节拍将 M位宽数据送入缓存寄存器 420时, 可以在第二节拍直接从 缓存寄存器 420读取数据, 同时再输入新的 M位宽数据进入缓存寄存器 410 ,并进行后续的输入和读取。 由此,相比于在前实施例,能够在传输块 传输开始时减少一个轮空读取的时钟周期。并且两寄存器身份的互换还避 免了新数据读入的已有数据前移的需要。
在没有新的 M 位宽数据送入时, 下一指针的指示位置为 next_idx=current_idx+N0在有新的 M位宽数据送入时,下一指针的指示位 置 next_idx=current_idx+N-M 0 上述公式在缓存寄存器互换的实施例中依 然成立,这是因为作为起始点的第零缓存寄存器的左端也会随着互换而移 位的缘故。 在输出的 N位宽数据存在复用且复用度为 T的情况下, 在没有新的 M位宽数据送入时,下一指针的指示位置可以为 next idx = current_idx+N- T。 在有新的 M位宽数据送入时, 下一指针的指示位置可以为 nextjdx = current_idx+N-T-M0后续将结合神经网络计算的应用场景对基于本发明数 据拆分方案的数据复用进行进一步描述。
在一个实施例中, 本发明的数据拆分结构还包括两个状态寄存器, 分 别用于存储与其对应的一个缓存寄存器内的有效数据个数。 由此, 可以基 于一个缓存寄存器的所述有效数据个数,判断所述一个缓存寄存器在下一 时钟节拍是否包括未读取数据, 并相应地判断是否将新的 M位宽数据送 入一个缓存寄存器。 图 5示出了根据本发明另一个实施例的数据拆分结构 的示意图。如图所示,除了两个缓存寄存器 510和 520以及指针寄存器 530 之外, 还包括分别与缓存寄存器 510和 520相对应的两个状态寄存器 511 和 521。 状态寄存器 511和 521分别用于存储两个缓存寄存器 510和 520 的状态数据。状态数据可以包括当前状态下缓存寄存器内有效数据的个数。 由此, 可以通过该有效数据个数, 判断所述一个缓存寄存器在下一时钟节 拍是否包括未读取数据, 并相应地判断是否将新的 M位宽数据送入一个 缓存寄存器。 在一个优选实施例中, 状态数据还可以直接包括下一状态下 缓存寄存器内有效数据的个数, 由此可以直接判断该缓存寄存器在下一状 态 (即, 下一时钟节拍) 是否已不包括有效数据, 从而直接做出是否要将 新的 M位宽数据送入其对应的缓存寄存器的判断。
上述状态寄存器可以在传输结束时, 例如, 一个传输块传输终了时筛 选出无效数据。在一个状态寄存器中指示一个缓存寄存器内有效数据个数 为 0 , 且另一个状态寄存器中指示一个缓存寄存器内有效数据个数为 a且 a < N时,仅将读取的 N位宽数据中的前 a位的数据作为有效数据。例如, 在传输结束阶段, 当缓存寄存器 520内有效数据个数为 0 , 且缓存寄存器 510内有效数据为 3 (小于 N=4) 时, 可以仅将下 _拍读取的 4位数据中 的前 3位作为有效数据进行处理。
如图 5所示, 在 M不等于 2的整数幂的情况下, 还可以将索引指针 idx ,其中表示[log2M]向上取整。换句话 说,
Figure imgf000012_0001
的区间内移动。 例如, 当 N等于 6 时,可以将索引边界从 -6〜 6扩展至 -8〜 8的范围,使得索引指针可以在区间 范围[0, 16]之间移动。 即, 在两个缓存寄存器 510和 520的已有范围内进 行左右两侧各 2个单位的扩展。 这里的边界扩展仅仅是指针上的扩展, 并 不需要实际扩展缓存寄存器的缓存范围。 由此, 使得指针 idx的变换更加 适用于系统二进制计算的特性 (即, 可以进行二进制递增循环) , 从而提 升指针的移位效率。 应该理解的是, 在进行指针位置的上述公式计算时, 仍然优选将第零缓存寄存器的左端视为起始点 0。
为了进一步明确本发明的计算方案, 图 6示出了根据本发明的数据拆 分方案进行数据拆分的例子。在此, 输入数据的位宽 M=6 , 输出数据的位 宽 N=4。 在此以两个缓存寄存器身份不互换地从右往左以 M位宽输入数 据并从左往右以 N位宽读取数据为例。
第一行表示传输块开始, 此时两个缓存寄存器都为空。
随后, 在第 _时钟节拍, 6位宽数据送入第一缓存寄存器, 此时第一 缓存寄存器内有效数字 (例如, 其对应状态寄存器内的计数) 为 6 , 第零 缓存寄存器内有效数字 (例如, 其对应状态寄存器内的计数) 为 0。 由于 第零缓存寄存器内无有效数字, 所以没有数据输出。
在第二时钟节拍, 6位宽的数据送入第一缓存寄存器, 已有的 6位宽 数据前移至第零缓存寄存器,此时第一和第零缓存寄存器内有效数字皆为 6 , 指针 idx位于起始位 (第零缓存寄存器最左侧) 。
在第三时钟节拍, 索引指针 idx从起始位向右滑动, 划出一个 4位宽 的数据窗,以读取前 4位数据,同时索引指针 idx移至位置 4(即, nextjdx = current_idx+N = 0+4 = 4) 。 此时第 _缓存寄存器内有效数字为 6 , 第零 缓存寄存器内有效数字为 2 < 4 , 因此下一拍将触发新的 6位数据输入。
在第四时钟节拍, 6位宽数据送入第一缓存寄存器, 已有的 8位宽数 据前移, 索引指针 idx划出一个 4位宽数据窗, 移至位置 2 (即, nextjdx = current_idx+N-M = 4+4-6 = 2) , 此时第一缓存寄存器内有效数字为 6 , 第零缓存寄存器内有效数字为 4^4 ,因此下一拍将触发新的 6位数据输入。
在第五时钟节拍, 6位宽数据送入第一缓存寄存器,已有的 10位宽数 据前移, 索引指针 idx划出一个 4位宽数据窗, 移至位置 0 (即, nextjdx = current— idx+N-M = 2+4-6 = 0) , 此时第一缓存寄存器内有效数字为 6 , 第零缓存寄存器内有效数字为 6 > 4,因此下一拍将不会触发新的 6位数据 输入。 此时传输块传输结束。
在第六时钟节拍, 索引指针 idx划出一个 4位宽数据窗, 移至位置 4 (即, next idx = current_idx+N = 0+4 = 4) , 此时第一缓存寄存器内有效 数字为 6, 第零缓存寄存器内有效数字为 2 < 4, 因此下一拍将触发第一缓 存寄存器的 6位数据向前送入。
在第七时钟节拍, 剩余的 8位宽数据前移, 索引指针 idx划出一个 4 位宽数据窗, 移至位置 2 (即, next idx = current_idx+N-M = 4+4-6 = 2) , 此时第一缓存寄存器内有效数字为 0, 第零缓存寄存器内有效数字为 4。
在第八时钟节拍, 索引指针 idx划出一个 4位宽数据窗读取剩余的 4 位有效数字, 此时两个缓存寄存器内的有效数字都为 0, 该传输块数据读 取结束。
如上结合图 6示出了根据本发明的数据拆分方案的一个具体例子。应 该理解的是, 根据具体应用, 数据拆分的具体细节可以不同。
例如, 在第二时钟节拍下, 可以在将第一缓存寄存器内的数据送至第 零缓存寄存器的同时, 启动对已有数据的读取。 例如, 索引指针 idx可以 在此时钟节拍下就从 0移至 4, 以开始读取 4位宽数据。
例如, 在传输块传输结束的情况下, 在第七时钟节拍, 剩余数据可以 不前移, 索引指针 idx可以直接向右滑动至第一缓存寄存器的右侧结尾。
例如, 在第八时钟节拍, 倘若剩余的有效数字为 2, 索弓脂针 idx仍 然可以划出一个 4位宽数据窗进行读取,但仅将读取的前 2位数字看作是 有效数字。
再例如, 在第零和第一缓存寄存器身份可以互换的情况下, 可以直接 将第一时钟节拍送入数据的缓存寄存器看作是第零缓存寄存器,并在第二 时钟节拍就开始读取。 并在随后的操作中, 不进行已有数据前移操作, 而 是直接通过缓存存储器身份互换来实现新数据的读取和已有数据的读取。
由上可知,本发明的数据拆分方案尤其适用于包括经由总线连接的多 个模块并且其中存在特定模块内部位宽小于或等于总线位宽的片上系统。 这时,可以在所述特定模块和所述总线之间布置如上所述的数据拆分结构。
在一个实施例中,该特定模块包括用于神经网络计算推理的高并行度 计算模块。 由此,该片上系统可由适用于高并行度计算的 ASIC、 FPGA或 GPU实现。在上述用于进行高并行度计算的片上系统中, 由于带宽通常成 为系统效率的瓶颈, 因此引入本发明所述的高效数据拆分结构成为确保系 统整体效率的关键。
典型的 CNN由一系列有序运行的层组成。 CNN模型的参数被称为“权 重”。 CNN的第一层读取输入图, 并输出一系列的特征图。 下面的层读取 由上一层产生的特征图, 并输出新的特征图。 最后一个分类器输出输入图 可能属于某一类别的概率。 CONV层(卷积层)和 FC层(全连层)是 CNN 中两种基本层类型。 CONV层后通常接有池化层。 特征图是在神经网络的 各层计算中传递的数据。在神经网络计算中,特征图通常包括长(height)、 宽 (width)、 通道 (channels) 三个維度。
在用于神经网络计算的一个例子中,本发明的数据拆分方案尤其适用 于数据复用率高的并行计算,例如, CNN中最为常见的卷积计算。为了方 便理解, 图 7示出了卷积操作的 _个例子。 如图 7所示, 使用 _个 3x3的 卷积核, 以步长 1对一个 5x5的输入特征图进行卷积计算。 图的左侧示出 了第一次卷积计算, 中间示出了第二次卷积计算, 依次类推。 在经过 9次 卷积计算后, 得到图 3右侧的经卷积的特征图。
由于这 9次的卷积计算之间不存在依赖关系, 因此可以在高并行计算 模块的单次操作中完成执行(并行度 M通常可以达到数千量级)。 由于步 长为 1 , 因此每个相邻卷积窗中有 6个数据可以复用, 如图 7中左图和中 间图所示。 当神经网络计算中对特征图进行逐通道的读取时, 尤其在复用 度 T (此例中为 6) 且小于输出位宽 N (例如, N为 8) 的情况下, 可以利 用上文所述的数据复用时的计算公式。 即, 在没有新的 M位宽数据送入 时,下一指针的指示位置可以为 next_idx=current_idx+N-T;在有新的 M位 宽数据送入时,下一指针的指示位置可以为 next_idx=current_idx+N-T-M0 如上结合图 4-7描述了根据本发明的数据拆分结构及其片上应用。 在 一个实施例中, 本发明的数据转换结构还可以是一种数据拆分结构。
图 8示出了根据本发明一个实施例的数据拆分结构 800的示意图。该 结构可以用于高效率地将输入的 M位宽数据拼接成 N位宽数据进行输出, 其中 N<M0数据拆分结构 800可以包括 K个宽为 M的缓存寄存器 810以 及用于存储指示当前要读取的 N位宽数据的起点的指针的指针寄存器 820。 如图 8所示, K个缓存寄存器从尾端至首端依次编号为 K- l, ... ,2, l,0 , 其中将第 K- 1个缓存寄存器称为尾段缓存寄存器,将第 0个缓存寄存器称 为首段缓存寄存器。 M位宽的数据从 K个缓存寄存器的尾端输入, 以 N 位宽从所述 K个缓存寄存器的首端输出,并且其中 K=ceil(N/M)+l , ceil表 示向上取整。 例如, ceil(3.2)=40 指针寄存器 (PTR) 810用于存储指向当 前需要切块的位宽为 N的数据段的起点的指针。在本发明中,将指针的移 动范围限于首段缓存寄存器内。
虽然通常情况下 K=ceil(N/M)就能够确保缓存下足够的输入数据, 但 上述配置并不能应对每一时钟节拍都有 M位宽的数据输入的情况。 相比 之下, 本发明通过将 K增加为 ceil(N/M)+l , 并将指针保持在首段缓存寄 存器内, 就能够在确保每一时钟节拍都有 M位宽输入的情况下实现对 N 位宽数据的高效输出, 从而实现数据转换效率的最大化。
具体地, 每一个时钟节拍都有一个新的 M位宽数据输入尾段缓存寄 存器 810_K- 1 ,并且 K个缓存寄存器中的已有数据依次向首端前移一个缓 存寄存器。
由于指针的指示范围被限制在首段缓存寄存器内, 因此仅在首段缓存 寄存器 810_0内包含有效数据的时钟节拍下触发对位于 K个缓存寄存器 首端的 N位宽数据的读取。换句话说, 当某一时钟节拍下的读取导致前两 个寄存器内的数据都被取空时, 下一节拍需要填充缓存寄存器 810_1内的 数据, 因此该节拍下无数据输出。 在一个实施例中, 可以使用首段缓存有 效数据计数器来对所述首段缓存寄存器内包含的有效数据进行计数。在另 一个实施例中,本发明的数据拼接结构还可以可变全局缓存有效数据计数 器, 后者可用于对所述 K个缓存寄存器内包含的有效数据进行计数。
图 9示出了根据本发明另一个实施例的数据拆分结构 900的示意图。 除了 K个缓存寄存器 910和指针寄存器 920之外,该结构还包括首段缓存 有效数据计数器 ( Counter_F) 920和全局缓存有效数据计数器 ( Counter_F) 430。 全局缓存有效数据计数器 430内的计数有助于在传输结束时做出正 确反映。 例如, 在如图 3所示的每一个传输块传输结束时后接无效数据。 随着 K个缓存寄存器逐渐被读空,在所述首段缓存有效数据计数器和所述 全局缓存有效数据计数器的计数值相同 (例如, 都为 a) 的情况下, 仅将 读取的 N位宽数据中的前 a位的数据作为有效数据。由此防止对无效数据 的误读。
为了进一步明确本发明的计算方案, 图 10示出了根据本发明的数据 拼接方案进行数据拼接的例子。在此, 输入数据的位宽 M=8 , 输出数据的 位宽 N=l l , 因此 K=ceil(l l/8)+l=3。
如图 10A所示,第一行表示传输块开始,此时三个缓存寄存器都为空。 随后, 在第一时钟节拍, 8位宽数据送入尾端缓存寄存器, 此时队列 内有效数字 (例如, 全局缓存有效数据计数器的计数值) 为 8 , 首段内有 效数字 (例如, 首段缓存有效数据计数器的计数值) 为 0。 由于首段内无 有效数字, 所以没有数据输出。
在第二时钟节拍, 8位宽数据送入尾端缓存寄存器, 已有的 8位宽数 据前移至中段缓存寄存器,此时队列内有效数字为 16 ,首段内有效数字仍 然为 0。 由于首段内无有效数字, 所以没有数据输出。
在第三时钟节拍, 8位宽数据送入尾端缓存寄存器,已有的 16位宽数 据依次前移缓存寄存器,此时队列内有效数字为 24 ,首段内有效数字变为 8 , 因此触发对数据的读取。
在第四时钟节拍, 读取前 11位数据, 同时 8位宽数据送入尾端缓存 寄存器, 已有的 13位宽数据依次前移缓存寄存器, 此时队列内有效数字 为 21 , 首段内有效数字变为 5 , 因此触发对数据的读取。
在第五时钟节拍, 读取前 11位数据, 同时 8位宽数据送入尾端缓存 寄存器, 已有的 10位宽数据依次前移缓存寄存器, 此时队列内有效数字 为 18 , 首段内有效数字变为 2 , 因此触发对数据的读取。
在第六时钟节拍, 读取前 11位数据, 同时 8位宽数据送入尾端缓存 寄存器, 已有的 7位宽数据前移至中段缓存寄存器, 此时队列内有效数字 为 15 , 首段内有效数字变为 0 , 因此下 _拍不触发对数据的读取。
在第七时钟节拍,不读取数据,同时 8位宽数据送入尾端缓存寄存器, 该传输块传输结束。 已有的 15位宽数据依次前移缓存寄存器, 此时队列 内有效数字为 23 , 首段内有效数字变为 7 , 因此触发对数据的读取。
图 10B示出了传输块传输结束后的操作的一个例子。 上接图 10A, 在第八时钟节拍, 读取前 11位数据, 剩余的 12位宽数 据前移至首段和中段缓存寄存器,此时队列内有效数字为 12 ,首段内有效 数字为 4 , 因此触发对数据的读取。
在第九时钟节拍, 读取前 11位数据, 剩余的 1位宽数据前移至首段 缓存寄存器, 此时队列内有效数字为 1 , 首段内有效数字为 1 , 因此触发 对数据的读取。
在第十时钟节拍, 由于队列内有效数字和首段内有效数字都为 1 , 因 此仅将读取的第一位数字看作有效数字。此时队列内有效数字和首段内有 效数字都为 0 , 该传输块数据读取结束。
图 10C示出了传输块传输结束后的操作的另一个例子。
在图示的第一时钟节拍 (可以理解的是, 这并非是该传输块传输的第 二节拍) , 该传输块传输结束。 队列内有效数字为 18 , 首段内有效数字为 2 , 因此触发对数据的读取。
在图示的第二时钟节拍, 读取前 11位数据, 剩余的 7位宽数据前移 至中段缓存寄存器, 此时队列内有效数字为 7 , 首段有效数字变为 0 , 因 此下一拍不触发对数据的读取。
在图示的第三时钟节拍, 不读取数据, 剩余的 7位宽数据前移至首段 缓存寄存器, 此时队列内有效数字为 7 , 首段内有效数字变为 7 , 因此触 发对数据的读取。
在图示的第四时钟节拍, 由于队列内有效数字和首段内有效数字都为 7 , 因此仅将读取的前 7位数字看作有效数字。 此时队列内有效数字和首 段内有效数字都为 0 , 该传输块数据读取结束。
由上可知,本发明的数据拼接方案尤其适用于包括经由总线连接的多 个模块并且其中存在特定模块内部位宽大于或等于总线位宽的片上系统。 这时,可以在所述特定模块和所述总线之间布置如上所述的数据拼接结构。
在一个实施例中,该特定模块包括用于神经网络计算推理的高并行度 计算模块。 由此,该片上系统可由适用于高并行度计算的 ASIC、 FPGA或 GPU实现。在上述用于进行高并行度计算的片上系统中, 由于带宽通常成 为系统效率的瓶颈, 因此引入本发明所述的高效数据拼接结构成为确保系 统整体效率的关键。 在用于神经网络计算的一个例子中, 输入的 M位宽数据包括从通道 方向读取的特征图数据。 图 11示出了特征图读取和重排的一个例子。
典型的 CNN由一系列有序运行的层组成。 CNN模型的参数被称为“权 重”。 CNN的第一层读取输入图, 并输出一系列的特征图。 下面的层读取 由上一层产生的特征图, 并输出新的特征图。 最后一个分类器输出输入图 可能属于某一类别的概率。 CONV层(卷积层)和 FC层(全连层)是 CNN 中两种基本层类型。 CONV层后通常接有池化层。
因此, 特征图是在神经网络的各层计算中传递的数据。 在神经网络计 算中,特征图通常包括如图 11所示的长(height)、宽(width)、通道(channels) 三个維度。 图 11 示出了逐一读取每个像素的所有通道数据的读取方式。 因此, 如图 11 所示从通道方向读取特征图数据再重排成用于特定 IP (例 如, 卷积计算模块) 中进行运算的数据并不会由于数据重排的方式而对系 统效率造成任何不利影响。
如上结合图 4- 11 描述了根据本发明的数据拆分结构及其片上应用。 在一个实施例中, 本发明的数据转换方案还可以是一种数据转换方法。 该 数据转换方法, 用于将输入的 M位宽数据转换成 N位宽数据进行输出, 包括: 将 M位宽的数据从 K个宽为 M的缓存寄存器的一个缓存寄存器送 入,以 N位宽从一个缓存寄存器的读出,并且其中K=Ceil(N/M)+ l , ceil表 示向上取整;以及基于指示当前要读取的 N位宽数据的起点的指针,进行 数据读取。
在 NSM时, 上述数据转换方法可以是一种数据拆分方法。
图 12示出了根据本发明一个实施例的数据拆分方法的流程示意图。 该数据拆分方法 1200用于将输入的 M位宽数据拆分成 N位宽数据进 行输出, 其中 NSM。在步骤 S 1210 , 将 M位宽的数据向两个宽为 M的缓 存寄存器中的一个缓存寄存器送入, 以 N位宽从一个缓存寄存器的读出。 在步骤 S 1220 , 在指针的位置指示其中一个缓存寄存器在下一时钟节拍将 不包括未读取数据时,将新的 M位宽数据送入一个缓存寄存器,其中所述 指针存储指示当前要读取的 N位宽数据的起点。由此,可以确保每一个时 钟节拍都有一个新的 N位宽数据被从所述两个缓存寄存器中读出。
在一个实施例中, 本发明的数据拆分方法可以包括数据的单向输入和 读取。具体地,步骤 S 1210可以包括:将 M位宽的数据从第一缓存寄存器 送入, 以 N位宽从第零缓存寄存器的读出。 相应地, 步骤 S 1210可以包 括: 在第零缓存寄存器的当前指针 Cmrent_idxkM-N时, 在下一时钟节拍 将第一缓存寄存器内的已有数据存入第零缓存寄存器, 并将新的 M位宽 数据送入第一缓存寄存器。
在另一个实施例中,本发明的数据拆分方法可以包括两个缓存寄存器 的身份互换。具体地,步骤 S 1210可以包括:依次将 M位宽的数据从第一 和第零缓存寄存器送入,以 N位宽从第零和第一缓存寄存器的读出。相应 地, 步骤 S 1220可以包括在第零缓存寄存器的当前指针 current_idx>M-N 时, 在下一时钟节拍将第一缓存寄存器和第零缓存寄存器进行身份互换, 并将新的 M位宽数据送入身份互换后的第一缓存寄存器。此时,可以在数 据输入开始时直接从第一时钟节拍有 M位宽数据送入的第一缓存寄存器 开始读取 N位宽的数据。
在一个实施例中,在没有新的 M位宽数据送入时,下一指针的指示位 置为 next_idx=current_idx+N ; 在有新的 M位宽数据送入时, 下一指针的 指示位置 next_idx=current_idx+N-M0 而在输出的 N位宽数据存在复用且 复用度为 T的情况下, 在没有新的 M位宽数据送入时, 下一指针的指示 位置为 next_idx=current_idx+N-T ; 在有新的 M位宽数据送入时, 下一指 针的指示位置 next_idx=current_idx+N-T-M。
在一个实施例中, 可以通过引入由状态寄存器存储的状态来优化对数 据输入和读取的判断。 于是, 步骤 S 1210可以包括: 基于状态存储器中存 储的一个缓存寄存器的所述有效数据个数,判断所述一个缓存寄存器在下 一时钟节拍是否包括未读取数据, 并相应地判断是否将新的 M位宽数据 送入一个缓存寄存器。
上述状态还有利于对传输结束时有效数据的分辨。 在一个实施例中, 本发明的数据拆分方法还可以包括:在一个状态寄存器中指示一个缓存寄 存器内有效数据个数为 0 , 且另一个状态寄存器中指示一个缓存寄存器内 有效数据个数为 a且 a < N时, 仅将读取的 N位宽数据中的前 a位的数据 作为有效数据。
在 M不等于 2的整数幂的情况下,还可以将索引指针 idx扩展至指示 -.2r g2Mi:2r g2Mij 的范围,其中表示[iog2M]向上取整。由此,使得指针 idx的 变换更加适用于系统二进制计算的特性 (即,可以进行二进制递增循环), 从而提升指针的移位效率。
在 N2M时, 上述数据转换方法可以是一种数据拼接方法, 用于将输 入的 M位宽数据拼接成 N位宽数据进行输出。图 13示出了根据本发明一 个实施例的数据拼接方法的流程示意图。
如图 13所示,在步骤 S 1310 ,将 M位宽的数据从 K个宽为 M的缓存 寄存器的尾端输入, 用于以 N位宽从所述 K个缓存寄存器的首端输出, 其中 K=ceil(N/M)+l , ceil表示向上取整。
在步骤 S 1320 , 基于移动范围限于首段缓存寄存器内且指示前要读取 的 N位宽数据的起点的指针, 读取指针所示位置起的 N位宽数据。
在本发明实施例中, 将 M位宽的数据从 K个宽为 M的缓存寄存器的 尾端输入包括: 在每一个时钟节拍将一个新的 M位宽数据输入尾段缓存 寄存器,并使得所述 K个缓存寄存器中的已有数据依次向首端前移一个缓 存寄存器。
在本发明实施例中,读取指针所示位置起的 N位宽数据包括:仅在所 述首段缓存寄存器内包含有效数据的时钟节拍下触发对位于所述 K个缓 存寄存器首端的 N位宽数据的读取。
在本发明实施例中,所述首段缓存寄存器内包含有效数据由首段缓存 有效数据计数器进行计数。
在本发明实施例中,读取指针所示位置起的 N位宽数据包括:在所述 首段缓存寄存器内包含的有效数据与所述 K个缓存寄存器内包含的有效 数据计数值相同且都为 a的情况下,仅将读取的 N位宽数据中的前 a位的 数据作为有效数据。
在本发明实施例中,所述 K个缓存寄存器内包含的有效数据由全局缓 存有效数据计数器进行计数。 在另一个实施例中, 本发明还涉及一种片上 系统操作方法, 所述片上系统包括经由总线连接的多个模块, 其中在特定 模块内部位宽不等于总线位宽的情况下,所述片上系统在所述特定模块和 所述总线之间执行如上所述的数据拆分方法。该片上系统操作方法还可以 包括从通道方向读取的特征图数据作为输入的 M位宽数据。 在更新步长 小于卷积核长宽时, 以复用数据的方式读取 N位宽数据。
在本发明实施例中, 该数据拼接方法还可以包括: 从通道方向读取的 特征图数据作为输入的 M位宽数据。
以上结合图 8- 13 描述了本发明的数据转换方案, 具体可以包括数据 拆分和拼接方案。 本方案使用的硬件逻辑特别少, 适合于小型到大型的各 种规模的系统; 转换效率高, 基本能达到理论最大效率; 设计规整, 可以 参数化设计, 易于匹配各种各样的系统需求。
图 14示出了根据本发明一个实施例可用于实现上述拆分方法的计算 设备的结构示意图。
参见图 14 , 计算设备 1400包括存储器 1410和处理器 1420。
处理器 1420可以是一个多核的处理器, 也可以包含多个处理器。 在 一些实施例中, 处理器 1420可以包含一个通用的主处理器以及一个或多 个特殊的协处理器, 例如图形处理器 (GPU) 、 数字信号处理器 (DSP) 等等。 在一些实施例中, 处理器 1420可以使用定制的电路实现, 例如特 定用途集成电路 (ASIC) 或者现场可编程逻辑门阵列 (FPGA) 。 出于执 行效率考虑, 处理器 1420优选为通用处理器 (CPU)
存储器 1410可以包括各种类型的存储单元, 例如系统内存、 只读存 储器(ROM)和永久存储装置。 其中, ROM可以存储处理器 1420或者计 算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的 存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令 和数据的非易失性存储设备。 在一些实施方式中, 永久性存储装置采用大 容量存储装置 (例如磁或光盘、 闪存) 作为永久存储装置。 另外一些实施 方式中, 永久性存储装置可以是可移除的存储设备 (例如软盘、 光驱) 。 系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随 机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令 和数据。 此外, 存储器 1410可以包括任意计算机可读存储媒介的组合, 包括各种类型的半导体存储芯片 (DRAM, SRAM, SDRAM, 闪存, 可编 程只读存储器) , 磁盘和 /或光盘也可以采用。在一些实施方式中, 存储器 1010 可以包括可读和 /或写的可移除的存储设备, 例如激光唱片 (CD) 、 只读数字多功能光盘 (例如 DVD-ROM, 双层 DVD-ROM) 、 只读蓝光光 盘、 超密度光盘、 闪存卡 (例如 SD卡、 min SD卡、 Micro-SD卡等等) 、 磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的 瞬间电子信号。
存储器 1410上存储有可处理代码, 当可处理代码被处理器 1420处理 时,可以使处理器 1420执行上文述及的直接定点方法。在一个实施例中, 上文述及的压缩编译器可以实现为压缩编译程序, 同样可由存储器 1410 存储, 并由处理器 1420执行。
在实际使用中, 上述计算设备 1400可以是包括大容量存储装置 1410 和 CPU 1420的通用计算设备。 该通用计算设备可以与专用于执行神经网 络计算且至少部分由数字电路实现的定点计算平台相结合, 以实现高效的 神经网络计算。 在一个实施例中, 本发明的神经网络计算系统可以在包括 通用处理器、 存储器和数字电路的片上系统 (SoC) 实现。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序 产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中 限定的上述各步骤的计算机程序代码指令。
或者, 本发明还可以实施为一种非暂时性机器可读存储介质 (或计算 机可读存储介质、 或机器可读存储介质) , 其上存储有可执行代码 (或计 算机程序、 或计算机指令代码) , 当所述可执行代码 (或计算机程序、 或 计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时, 使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性 逻辑块、 模块、 电路和算法步骤可以被实现为电子硬件、 计算机软件或两 者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方 法的可能实现的体系架构、 功能和操作。 在这点上, 流程图或框图中的每 个方框可以代表一个模块、 程序段或代码的一部分, 所述模块、 程序段或 代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也 应当注意, 在有些作为替换的实现中, 方框中所标记的功能也可以以不同 于附图中所标记的顺序发生。 例如, 两个连续的方框实际上可以基本并行 地执行, 它们有时也可以按相反的顺序执行, 这依所涉及的功能而定。 也 要注意的是, 框图和 /或流程图中的每个方框、 以及框图和 /或流程图中的 方框的组合, 可由执行规定的功能或操作的专用的基于硬件的系统实现, 或者可由专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例, 上述说明是示例性的, 并非穷尽 性的, 并且也不限于所披露的各实施例。 在不偏离所说明的各实施例的范 围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更 都是显而易见的。 本文中所用术语的选择, 旨在最好地解释各实施例的原 理、 实际应用或对市场中的技术的改进, 或者使本技术领域的其它普通技 术人员能理解本文披露的各实施例。

Claims

权 利 要 求 书
1 . 一种数据转换结构, 用于将输入的 M位宽数据转换成 N位宽数据 进行输出, 包括:
K个宽为 M的缓存寄存器, 其中 M位宽的数据从一个缓存寄存器送 入,以 N位宽从一个缓存寄存器的读出,并且其中K=Ceil(N/M)+ l , ceil表 示向上取整; 以及
指针寄存器, 用于存储指示当前要读取的 N位宽数据的起点的指针。
2. 如权利要求 1所述的结构, 其中, 所述数据转换结构是一种数据 拆分结构, 用于将输入的 M位宽数据拆分成 N位宽数据进行输出, 其中 N<M, 其中,
所述 K个缓存寄存器是两个宽为 M的缓存寄存器, 并且
在所述指针的位置指示其中一个缓存寄存器在下一时钟节拍将不包 括未读取数据时, 将新的 M位宽数据送入一个缓存寄存器。
3 . 如权利要求 2所述的结构, 其中, 每一个时钟节拍都有 N位宽数 据被从所述两个缓存寄存器中读出。
4. 如权利要求 3所述的结构, 其中, 两个缓存寄存器包括第零缓存 寄存器和第一缓存寄存器,其中 M位宽的数据从第一缓存寄存器送入,以 N 位宽从第零缓存寄存器的读出, 并且在第零缓存寄存器的当前指针 current_idxkM-N时, 在下一时钟节拍将第一缓存寄存器内的已有数据存 入第零缓存寄存器, 并将新的 M位宽数据送入第一缓存寄存器。
5 . 如权利要求 3所述的结构, 其中, 两个缓存寄存器包括第零缓存 寄存器和第一缓存寄存器, 并且在第零缓存寄存器的当前指针 currentjdx 2M-N时, 在下一时钟节拍将第一缓存寄存器和第零缓存寄存器进行身份 互换, 并将新的 M位宽数据送入身份互换后的第一缓存寄存器。
6. 如权利要求 2所述的结构, 其中, 在数据输入开始时直接从第一 时钟节拍有 M位宽数据送入的一个缓存寄存器开始读取 N位宽的数据。
7. 如权利要求 4或 5所述的结构, 其中, 在没有新的 M位宽数据送 入时, 下一指针的指示位置为 next_idx=current_idx+N ;
在有新的 M 位宽数据送入时, 下一指针的指示位置 next— i dx=current_i dx+N - M。
8. 如权利要求 4或 5所述的结构, 其中, 在输出的 N位宽数据存在 复用且复用度为 T的情况下, 在没有新的 M位宽数据送入时, 下一指针 的指示位置为 next_idx=current_idx+N-T ;
在有新的 M 位宽数据送入时, 下一指针的指示位置 next— idx=current— idx+N-T-M0
9. 如权利要求 2所述的结构, 还包括两个状态寄存器, 分别用于存 储与其对应的一个缓存寄存器内的有效数据个数, 并且
基于一个缓存寄存器的所述有效数据个数,判断所述一个缓存寄存器 在下一时钟节拍是否包括未读取数据, 并相应地判断是否将新的 M位宽 数据送入一个缓存寄存器。
10. 如权利要求 9所述的结构, 其中, 在一个状态寄存器中指示一个 缓存寄存器内有效数据个数为 0 , 且另一个状态寄存器中指示一个缓存寄 存器内有效数据个数为 a且 a < N时, 仅将读取的 N位宽数据中的前 a位 的数据作为有效数据。
11 .如权利要求 2所述的结构, 其中,所述指
Figure imgf000026_0001
范围, 其中表示[logiM]向上取整。
12. 如权利要求 1所述的结构, 其中, 所述数据转换结构是一种数据 拼接结构, 用于将输入的 M位宽数据拼接成 N位宽数据进行输出, 其中 N>M, 其中,
M位宽的数据从 K个缓存寄存器的尾端输入, 以 N位宽从所述 K个 缓存寄存器的首端输出, 并且
所述指针的移动范围限于首段缓存寄存器内。
13 . 如权利要求 12所述的结构, 其中, 每一个时钟节拍都有一个新 的 M位宽数据输入尾段缓存寄存器, 并且所述 K个缓存寄存器中的已有 数据依次向首端前移一个缓存寄存器。
14. 如权利要求 13所述的结构, 其中, 仅在所述首段缓存寄存器内 包含有效数据的时钟节拍下触发对位于所述 K个缓存寄存器首端的 N位 宽数据的读取。
15 . 如权利要求 14所述的结构, 还包括:
首段缓存有效数据计数器,用于对所述首段缓存寄存器内包含的有效 数据进行计数。
16. 如权利要求 15所述的结构, 还包括:
全局缓存有效数据计数器,用于对所述 K个缓存寄存器内包含的有效 数据进行计数。
17. 如权利要求 16所述的结构, 其中, 在所述首段缓存有效数据计 数器和所述全局缓存有效数据计数器的计数值相同且都为 a的情况下, 仅 将读取的 N位宽数据中的前 a位的数据作为有效数据。
18. 一种片上系统, 包括经由总线连接的多个模块, 其中在特定模块 内部位宽不等于总线位宽的情况下,在所述特定模块和所述总线之间布置 如权利要求 1- 17中任一项所述的数据拆分结构。
19. 如权利要求 18所述的系统, 其中, 所述特定模块包括用于神经 网络计算推理的高并行度计算模块。
20.如权利要求 18所述的系统,其中,所述片上系统由 ASIC, FPGA 或 GPU实现。
21 . 如权利要求 18所述的系统, 其中, 输出的 N位宽数据包括更新 步长小于卷积核长宽时复用的数据。
22. 如权利要求 18所述的系统, 其中, 输入的 M位宽数据包括从通 道方向读取的特征图数据, 并且在所述特定模块内部重排成 N位宽数据。
23 . —种数据转换方法, 用于将输入的 M位宽数据转换成 N位宽数 据进行输出, 包括:
将 M位宽的数据从 K个宽为 M的缓存寄存器的一个缓存寄存器送 入,以 N位宽从一个缓存寄存器的读出,并且其中K=Ceil(N/M)+ l , ceil表 示向上取整; 以及
基于指示当前要读取的 N位宽数据的起点的指针, 进行数据读取。
24. 如权利要求 23所述的方法, 其中, 所述数据转换方法是一种数 据拆分方法, 用于将输入的 M位宽数据拆分成 N位宽数据进行输出, 其 中 N<M, 包括:
将 M位宽的数据向两个宽为 M的缓存寄存器中的一个缓存寄存器送 入, 以 N位宽从一个缓存寄存器的读出; 以及
在指针的位置指示其中一个缓存寄存器在下一时钟节拍将不包括未 读取数据时,将新的 M位宽数据送入一个缓存寄存器,其中所述指针存储 指示当前要读取的 N位宽数据的起点。
25 . 如权利要求 24所述的方法, 其中, 将 M位宽的数据向两个宽为 M的缓存寄存器中的一个缓存寄存器送入, 以 N位宽从一个缓存寄存器 的读出包括:
每一个时钟节拍都有 N位宽数据被从所述两个缓存寄存器中读出。
26. 如权利要求 24所述的方法, 其中, 将 M位宽的数据向两个宽为 M的缓存寄存器中的一个缓存寄存器送入, 以 N位宽从一个缓存寄存器 的读出包括:
将 M位宽的数据从第一缓存寄存器送入, 以 N位宽从第零缓存寄存 器的读出,
并且在指针的位置指示其中一个缓存寄存器在下一时钟节拍将不包 括未读取数据时, 将新的 M位宽数据送入一个缓存寄存器包括:
在第零缓存寄存器的当前指针 current idx > M-N 0!t , 在下一时钟节拍 将第一缓存寄存器内的已有数据存入第零缓存寄存器, 并将新的 M位宽 数据送入第一缓存寄存器。
27. 如权利要求 24所述的方法, 其中, 将 M位宽的数据向两个宽为 M的缓存寄存器中的一个缓存寄存器送入, 以 N位宽从一个缓存寄存器 的读出包括:
依次将 M位宽的数据从第一和第零缓存寄存器送入, 以 N位宽从第 零和第一缓存寄存器的读出,
并且在指针的位置指示其中一个缓存寄存器在下一时钟节拍将不包 括未读取数据时, 将新的 M位宽数据送入一个缓存寄存器包括:
在第零缓存寄存器的当前指针 current idx > M-N 0!t , 在下一时钟节拍 将第一缓存寄存器和第零缓存寄存器进行身份互换, 并将新的 M位宽数 据送入身份互换后的第一缓存寄存器。
28. 如权利要求 27所述的方法, 其中, 在数据输入开始时直接从第 一时钟节拍有 M位宽数据送入的第一缓存寄存器读取 N位宽的数据。
29.如权利要求 26或 27所述的方法,其中,在没有新的 M位宽数据 送入时, 下一指针的指示位置为 next_idx=current_idx+N ;
在有新的 M 位宽数据送入时, 下一指针的指示位置 next— idx=current— idx+N-M0
30.如权利要求 26或 27所述的方法, 其中, 在输出的 N位宽数据存 在复用且复用度为 T的情况下, 在没有新的 M位宽数据送入时, 下一指 针的指示位置为 next_idx=current_idx+N-T ;
在有新的 M 位宽数据送入时, 下一指针的指示位置 next— idx=current— idx+N-T-M0
31 . 如权利要求 24所述的方法, 其中, 在指针的位置指示其中一个 缓存寄存器在下一时钟节拍将不包括未读取数据时, 将新的 M位宽数据 送入一个缓存寄存器包括:
基于状态存储器中存储的一个缓存寄存器的所述有效数据个数,判断 所述一个缓存寄存器在下一时钟节拍是否包括未读取数据,并相应地判断 是否将新的 M位宽数据送入一个缓存寄存器。
32. 如权利要求 24所述的方法, 还包括:
在一个状态寄存器中指示一个缓存寄存器内有效数据个数为 0 , 且另 一个状态寄存器中指示一个缓存寄存器内有效数据个数为 a且 a < N时, 仅将读取的 N位宽数据中的前 a位的数据作为有效数据。
33 . 如权利要求 24所述的方法, 其中, 所述指
Figure imgf000030_0001
的范围, 其中表示[log2M]向上取整。
34. 如权利要求 23所述的方法, 其中, 所述数据转换方法是一种数 据拼接方法, 用于将输入的 M位宽数据拼接成 N位宽数据进行输出, 其 中 N>M, 包括:
将 M位宽的数据从 K个宽为 M的缓存寄存器的尾端输入, 用于以 N 位宽从所述 K个缓存寄存器的首端输出, 其中 K=ceil(N/M)+l , ceil表示 向上取整; 以及
基于移动范围限于首段缓存寄存器内且指示前要读取的 N位宽数据 的起点的指针, 读取指针所示位置起的 N位宽数据。
35 . 如权利要求 34所述的方法, 其中, 将 M位宽的数据从 K个宽为 M的缓存寄存器的尾端输入包括:
在每一个时钟节拍将一个新的 M位宽数据输入尾段缓存寄存器, 并 使得所述 K个缓存寄存器中的已有数据依次向首端前移一个缓存寄存器。
36. 如权利要求 35所述的方法, 其中, 读取指针所示位置起的 N位 宽数据包括:
仅在所述首段缓存寄存器内包含有效数据的时钟节拍下触发对位于 所述 K个缓存寄存器首端的 N位宽数据的读取。
37. 如权利要求 36所述的方法, 其中所述首段缓存寄存器内包含有 效数据由首段缓存有效数据计数器进行计数。
38. 如权利要求 36所述的方法, 读取指针所示位置起的 N位宽数据 包括:
在所述首段缓存寄存器内包含的有效数据与所述 K个缓存寄存器内 包含的有效数据计数值相同且都为 a的情况下,仅将读取的 N位宽数据中 的前 a位的数据作为有效数据。
39. 如权利要求 38所述的方法, 其中所述 K个缓存寄存器内包含的 有效数据由全局缓存有效数据计数器进行计数。
40. —种片上系统操作方法, 所述片上系统包括经由总线连接的多个 模块, 其中在特定模块内部位宽不等于总线位宽的情况下, 所述片上系统 在所述特定模块和所述总线之间执行如权利要求 22-38中任一项所述的数 据拆分方法。
41 . 如权利要求 40所述的方法, 还包括:
在更新步长小于卷积核长宽时, 以复用数据的方式读取 N位宽数据。
42. 如权利要求 40所述的方法, 还包括:
从通道方向读取的特征图数据作为输入的 M位宽数据。
43 . —种计算设备, 包括:
处理器; 以及
存储器, 其上存储有可执行代码, 当所述可执行代码被所述处理器执 行时, 使所述处理器执行如权利要求 23-42中任一项所述的方法。
44. 一种非暂时性机器可读存储介质, 其上存储有可执行代码, 当所 述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求 23-42中任一项所述的方法。
PCT/IB2019/000791 2018-05-30 2019-05-30 数据转换结构、方法及其片上实现 WO2019229538A2 (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201810539699.7A CN110554886B (zh) 2018-05-30 2018-05-30 数据拆分结构、方法及其片上实现
CN201810539699.7 2018-05-30
CN201810547232.7 2018-05-31
CN201810547232.7A CN110554852B (zh) 2018-05-31 2018-05-31 数据拼接结构、方法及其片上实现

Publications (2)

Publication Number Publication Date
WO2019229538A2 true WO2019229538A2 (zh) 2019-12-05
WO2019229538A3 WO2019229538A3 (zh) 2020-05-22

Family

ID=68698806

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2019/000791 WO2019229538A2 (zh) 2018-05-30 2019-05-30 数据转换结构、方法及其片上实现

Country Status (1)

Country Link
WO (1) WO2019229538A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114124723A (zh) * 2021-11-19 2022-03-01 上海电气(集团)总公司智惠医疗装备分公司 一种磁共振谱仪的组网方法和磁共振谱仪
CN115563035A (zh) * 2022-10-27 2023-01-03 成都玖锦科技有限公司 一种基于fpga的ddr3高分辨粒度读写方法
CN117194281A (zh) * 2023-09-05 2023-12-08 上海芯炽科技集团有限公司 一种用于asic中不定长数据的非对称存取方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6208703B1 (en) * 1998-05-15 2001-03-27 Hewlett Packard Company First-in-first-out synchronizer
US6513105B1 (en) * 1999-05-07 2003-01-28 Koninklijke Philips Electronics N.V. FIFO system with variable-width interface to host processor
EP1622009A1 (en) * 2004-07-27 2006-02-01 Texas Instruments Incorporated JSM architecture and systems
US9298393B2 (en) * 2008-06-12 2016-03-29 Seagate Technology Llc Buffer management for increased write speed in large sector data storage device
GB2540939B (en) * 2015-07-31 2019-01-23 Advanced Risc Mach Ltd An apparatus and method for performing a splice operation

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114124723A (zh) * 2021-11-19 2022-03-01 上海电气(集团)总公司智惠医疗装备分公司 一种磁共振谱仪的组网方法和磁共振谱仪
CN115563035A (zh) * 2022-10-27 2023-01-03 成都玖锦科技有限公司 一种基于fpga的ddr3高分辨粒度读写方法
CN117194281A (zh) * 2023-09-05 2023-12-08 上海芯炽科技集团有限公司 一种用于asic中不定长数据的非对称存取方法

Also Published As

Publication number Publication date
WO2019229538A3 (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN110554852B (zh) 数据拼接结构、方法及其片上实现
US11907830B2 (en) Neural network architecture using control logic determining convolution operation sequence
WO2019229538A2 (zh) 数据转换结构、方法及其片上实现
US9195675B2 (en) Decoding of variable-length data with group formats
CN102096609B (zh) 可编程循环冗余校验(crc)计算的指令集架构
US20210194500A1 (en) Data Compression and Storage
JP6616608B2 (ja) 半導体装置
KR20120115244A (ko) 데이터 압축 동안의 대안적 인코딩 솔루션들 평가
US10666288B2 (en) Systems, methods, and apparatuses for decompression using hardware and software
US11550586B2 (en) Method and tensor traversal engine for strided memory access during execution of neural networks
TW201626730A (zh) 用於有效以lz77爲基礎的資料解壓縮之技術
CN110554886B (zh) 数据拆分结构、方法及其片上实现
US10637498B1 (en) Accelerated compression method and accelerated compression apparatus
WO2021237510A1 (zh) 数据解压缩的方法、系统、处理器及计算机存储介质
US10879926B2 (en) Accelerated compression method and accelerated compression apparatus
US10416899B2 (en) Systems and methods for low latency hardware memory management
US20210082082A1 (en) Data processing method and processing circuit
US11381250B2 (en) Decode device
JP6094321B2 (ja) バッファ回路及び半導体集積回路
US10686467B1 (en) Accelerated compression method and accelerated compression apparatus
US10637499B1 (en) Accelerated compression method and accelerated compression apparatus
JP6767269B2 (ja) 情報処理システム、情報処理装置、周辺装置、データ転送方法、及びデータ転送プログラム
US9740428B1 (en) Circular buffer descriptor for describing and/or accessing a circular buffer
CN114258521A (zh) 使用编码及解码表的半分类压缩
CN115905038B (zh) 缓存数据读取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19811955

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19811955

Country of ref document: EP

Kind code of ref document: A2