WO2018199721A1 - 뉴럴네트워크에서 데이터 처리를 가속화하는 방법 및 장치 - Google Patents

뉴럴네트워크에서 데이터 처리를 가속화하는 방법 및 장치 Download PDF

Info

Publication number
WO2018199721A1
WO2018199721A1 PCT/KR2018/005022 KR2018005022W WO2018199721A1 WO 2018199721 A1 WO2018199721 A1 WO 2018199721A1 KR 2018005022 W KR2018005022 W KR 2018005022W WO 2018199721 A1 WO2018199721 A1 WO 2018199721A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
neural network
activation
bits
calculation
Prior art date
Application number
PCT/KR2018/005022
Other languages
English (en)
French (fr)
Inventor
유승주
박은혁
Original Assignee
서울대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020170055001A external-priority patent/KR102034661B1/ko
Application filed by 서울대학교 산학협력단 filed Critical 서울대학교 산학협력단
Publication of WO2018199721A1 publication Critical patent/WO2018199721A1/ko
Priority to US16/663,487 priority Critical patent/US11630984B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • Embodiments disclosed herein relate to a method and apparatus for accelerating data processing in a neural network, and more particularly, to vary the quantization method to be applied to the data according to the value of the data on the neural network, and to bits of the quantized data.
  • Neural network is an information processing technology that precisely correlates input and output with each other in detail by engineering the high-level information processing mechanism of biological nervous system, and input layer sending signals from switches and sensors, etc.
  • the network consists of three types of neurons (neural cell models), which are composed of a hidden layer that adjusts the interrelation while prioritizing the output and an output layer that calculates and outputs the required control amount based on this.
  • PCM phase change memory
  • This new memory requires a lot of current because it changes the state of the cells constituting the memory by writing data to the memory.However, when reading data, only the current state of the cell is sensed. Do.
  • the new memory has a problem in that the number of writes is generally limited to a maximum of 100,000 times due to a write operation for changing a state of a cell.
  • Korean Patent Publication No. 10-2001-0105425 relates to a method for predicting the operation of an MFSFET device, which is a nonvolatile memory device, and a neuro-device adaptive learning circuit using the device. It only predicts the operation of the nonvolatile memory device by switching the polarization of the current to control the flow of current, and does not solve the problem caused by the limitation of the write frequency of the new memory.
  • the background art described above is technical information that the inventors possess for the derivation of the present invention or acquired in the derivation process of the present invention, and is not necessarily a publicly known technique disclosed to the general public before the application of the present invention. .
  • Embodiments disclosed herein are directed to a method and apparatus for accelerating neural network with different data formats for a neural network to reduce the number of bits used to process the data to reduce the data written to memory.
  • embodiments disclosed herein are different data formats for neural networks that apply quantization differently based on the distribution of data so that the data format can be configured with fewer bits while maintaining the output quality of the neural network.
  • An object of the present invention is to propose a neural network acceleration method and apparatus.
  • a neural network acceleration method and apparatus having a different data format for the neural network to reduce the amount of calculation by performing a different operation according to the value of the data even if the quantized data in different ways are mixed
  • the purpose is to present.
  • the controller may include a controller configured to perform quantization according to at least one method according to a characteristic, separate the calculation at the node according to the quantized data, and a memory configured to store the quantized data.
  • a method in which a neural network accelerator accelerates data processing on a neural network comprising: at least one method according to characteristics of data calculated at a node constituting each of at least one layer constituting the neural network
  • the method may include performing quantization, storing the quantized data, and separating the calculation at the node according to the quantized data.
  • any one of the above-described problem solving means it is possible to provide a neural network acceleration method and apparatus having different data formats for a neural network which reduces the number of bits used in the format of the data to reduce the data written in the memory.
  • the neural network acceleration method having a different data format for the neural network to reduce the amount of calculation by performing different operations according to the value of the data even if the quantized data is mixed in different ways and You can install it.
  • FIG. 1 is a block diagram illustrating a neural network accelerator according to an embodiment.
  • FIG. 2 is a flowchart illustrating a neural network acceleration method according to an embodiment.
  • 3 to 10 are reference diagrams for explaining a neural network acceleration method according to an embodiment.
  • 11 to 12 are data illustrating the performance of the neural network acceleration method according to an embodiment.
  • the neural network may include an input layer, at least one hidden layer, and an output layer, and each layer may include at least one node.
  • the nodes of each layer may form a connection with the nodes of the next layer.
  • 'Data' is information that is input or output to the nodes of each layer of the neural network.Weight is the weight that determines the intensity of reflection of the data input to the layer when it is transmitted to the next layer. Etc. may be included.
  • FIG. 1 is a block diagram illustrating a neural network acceleration apparatus 10 according to an embodiment.
  • the neural network accelerator 10 may be implemented as a computer, a portable terminal, a television, a wearable device, or the like, connected to a remote server through a network N or connected to other terminals and servers.
  • the computer includes, for example, a laptop, desktop, laptop, etc., which is equipped with a web browser
  • the portable terminal is, for example, a wireless communication device that ensures portability and mobility.
  • the television may include an Internet Protocol Television (IPTV), an Internet Television (Internet Television), a terrestrial TV, a cable TV, or the like.
  • IPTV Internet Protocol Television
  • Internet Television Internet Television
  • the wearable device is, for example, an information processing device of a type that can be worn directly on a human body such as a watch, glasses, accessories, clothes, shoes, etc., and is connected to a remote server or another terminal via a network directly or through another information processing device. It can be connected with.
  • the neural network accelerator 10 may include an input / output unit 110, a controller 120, a communication unit 130, and a memory 140.
  • the input / output unit 110 may include an input unit for receiving an input from a user, and an output unit for displaying information such as a result of performing a task or a state of the neural network accelerator 10.
  • the input / output unit 110 may include an operation panel for receiving a user input and a display panel for displaying a screen.
  • the input unit may include devices capable of receiving various types of user input such as a keyboard, a physical button, a touch screen, a camera, or a microphone.
  • the output unit may include a display panel or a speaker.
  • the present invention is not limited thereto, and the input / output unit 110 may include a configuration that supports various input / output.
  • the controller 120 controls the overall operation of the neural network device 10 and may include a processor such as a CPU.
  • the controller 120 may control other components included in the neural network device 10 to perform an operation corresponding to a user input received through the input / output unit 110.
  • the controller 120 may execute a program stored in the memory 140, read a file stored in the memory 140, or store a new file in the memory 140.
  • the control unit 120 may perform quantization on at least one method for data used in a node constituting each of the at least one layer constituting the neural network.
  • the controller 120 may apply the high precision quantization method to a small number of outlier data based on the data value on the neural network, and separately apply the low precision quantization method to the normal data which is most of the remaining data. Can be.
  • the controller 120 may obtain a distribution according to the data value based on the data value on the neural network, and divide the data into at least one data group based on the distribution of the data.
  • the controller 120 may obtain a distribution of weights according to the value by counting the weights on the neural network according to the value based on the weight value, and dividing the interval according to the number of weights counted for each weight value. Can be. In this case, the control unit 120 may divide the interval narrowly as the absolute value of the weight is closer to 0, and divide the interval broadly as the absolute value of the weight is greater than zero.
  • the controller 120 may divide the weight value interval into 0.05 intervals when the number of weights is greater than or equal to the preset number based on the number of weights, and divide the weight value interval by 0.1 when the number of weights is less than or equal to the preset number.
  • the interval can be divided into intervals.
  • controller 120 may determine a method of quantization to be applied to data according to characteristics of data included in each section for at least one section.
  • the controller 120 may apply a high-precision quantization method in which the number of bits representing data is greater than 0.4, in which a weight value is relatively greater than 0.4, and expresses data in a section having a data value of less than 0.4.
  • a low-precision quantization method with 8 bits can be applied.
  • the controller 120 has a long tail shape in which the distribution of data is spread from side to side by the outlier data having a large value by applying different methods for each section based on the distribution of data.
  • the computational speed can be increased and the degradation of neural network output quality due to quantization of data belonging to the long tail region can be reduced.
  • the controller 120 may store data in a buffer on the memory 140 and change the calculation method according to the number of bits representing the data stored in the buffer.
  • the controller 120 may classify the outlier data and the normal data according to the format of the data.
  • the controller 120 may classify the activation into any one of an outlier activation exceeding a preset number of bits and a normal activation that is less than or equal to a preset number of bits, based on the number of bits representing the quantized activation included in the data. have.
  • the controller 120 may determine whether the number of bits representing the activation is greater than 8 bits, and classify it into an outlier activation exceeding 8 bits and a normal activation of 8 bits or less.
  • the controller 120 may calculate different normal activation and outlier activation.
  • the controller 120 may perform the calculation through a normal calculation group that performs calculation on the normal activation.
  • the controller 120 may transmit 16 activations, which are 16 4-bit activations stored in a buffer of the memory 140, to a cluster activation buffer of the normal calculation group for calculation of normal activation.
  • the weight may be moved to the cluster weight buffer of the normal calculation group.
  • the cluster weight buffer may be configured in a table form, and each row of the table is an 8-bit pointer and 4 for representing an outlier weight, which is an 8-bit weight, together with the normal weight of 16 4-bit weights. It may consist of bit index values.
  • the cluster activation buffer may include one row of 16 activations, which are 16 4-bit activations.
  • the controller 120 may calculate the weights stored in the cluster weight buffer and the activations stored in the cluster activation buffer in parallel.
  • the controller 120 may allocate 16 weights from the cluster weight buffer and 16 activations from the cluster activation buffer to 16 calculation units constituting the normal calculation group.
  • the controller 120 may perform convolution calculation between one 4-bit weight and one 4-bit activation in one cycle through the calculation unit. Thereafter, the controller 120 may combine the results calculated in each of the 16 calculation units and store the result in a buffer.
  • the controller 120 may calculate the outlier weight and the activation in two cycles.
  • the controller 120 performs 4-bit activation and 4-bit convolution calculation on the upper 4 bits (MSB) of the 8-bit outlier weights. Convolution calculation of outlier weights and activation can be performed in two cycles by adding the activation and 4-bit convolution calculations to the remaining lower 4 bits.
  • the controller 120 may perform the calculation through an outlier calculation group that performs calculation on the outlier activation.
  • control unit 120 acquires 16 16-bit activations, which are outlier activations stored in a buffer, obtains 16 weights from the cluster weight buffer and allocates them to each of 16 calculation units constituting the outlier calculation group in parallel. Convolution calculation can be performed with 16 16-bit activations, which are outlier activations stored in a buffer, obtains 16 weights from the cluster weight buffer and allocates them to each of 16 calculation units constituting the outlier calculation group in parallel. Convolution calculation can be performed with
  • the control unit 120 performs a convolution calculation of the upper bits and the 16-bit activation of the outlier weights through the first calculation unit, and the lower bits of the outlier weights and the By calculating each of the 16 bit activations through the second calculation unit, calculations can be performed in parallel in the two calculation units.
  • the controller 120 may store the calculation result at the node in the buffer based on the result calculated in the normal calculation group and the result calculated in the outlier calculation group.
  • the controller 120 may access two buffers of the cluster output tri-buffer consisting of three buffers, and store the new results calculated in the normal calculation group by adding the previously calculated results. have. Thereafter, the controller 120 may calculate the final result by adding the result calculated in the outlier calculation group to the result stored in the cluster output tree buffer.
  • the number of calculations using the data corresponding to the long tail in the distribution of data can be greatly reduced. It is possible to drastically lower the and to minimize the resulting error of the neural network due to quantization.
  • the communicator 130 may perform wired or wireless communication with another device or a network.
  • the communication unit 130 may include a communication module supporting at least one of various wired and wireless communication methods.
  • the communication module may be implemented in the form of a chipset.
  • the wireless communication supported by the communication unit 130 may be, for example, Wi-Fi (Wireless Fidelity), Wi-Fi Direct, Bluetooth, UWB (Ultra Wide Band) or NFC (Near Field Communication).
  • the wired communication supported by the communication unit 130 may be, for example, USB or High Definition Multimedia Interface (HDMI).
  • the memory 140 may install and store various types of data such as files, applications, and programs.
  • the controller 120 may access and use data stored in the memory 140 or store new data in the memory 140.
  • the controller 120 may execute a program installed in the memory 140. Referring to FIG. 1, a program for performing a quantization method may be installed in the memory 140.
  • the memory 140 may store data calculated in the normal calculation group or the outlier calculation group of the controller 120.
  • a buffer may be allocated to the memory 140.
  • a buffer for storing data and a cluster activation buffer for storing normal activation, a cluster weight buffer for storing weight, and a cluster for storing a result calculated in a calculation group The resulting treebuffer can be allocated.
  • FIG. 2 is a flowchart illustrating a neural network acceleration method according to an embodiment.
  • the neural network acceleration method according to the embodiment shown in FIG. 2 includes steps that are processed in time series in the neural network acceleration device 10 shown in FIG. 1. Therefore, even if omitted below, the above descriptions of the neural network accelerator 10 shown in FIG. 1 may be applied to the neural network acceleration method according to the embodiment shown in FIG. 2.
  • the neural network acceleration apparatus 10 may perform quantization on at least one method for data used by nodes constituting each of the at least one layer constituting the neural network (S2001).
  • the neural network accelerator 10 may obtain a distribution of data used in the neural network based on a range of values that the data may have, and perform the same quantization method based on the distribution of the data. You can divide the interval of data value to be done.
  • the neural network accelerator 10 may set the same value based on the weight value on the neural network.
  • the branch may count the weight to obtain a distribution of weight values.
  • the neural network accelerator 10 sets a narrow interval of weight values to perform the same quantization method in inverse proportion to the number of weights, and widens the interval of weight values to perform the same quantization method for a section having a small number of data. Can be set.
  • the neural network accelerator 10 may set the interval 301 in the unit of 0.05 between 0 and 0.1, which is the number of weighted sections, and in the unit of 0.1 to 0.4 in the section where the number of weights is small, by 0.1 unit. 302 can be set.
  • the neural network accelerator 10 may apply a quantization method differently for at least one section set based on the distribution of data, and change the number of bits of data by quantization based on an error between the data and the quantized data. can do.
  • the neural network accelerator 10 may perform a high-precision quantization method on outlier data, which is data belonging to a section exceeding a preset value, based on a data value belonging to a set section, and is less than a preset value. For the normal data, a low precision quantization method may be performed.
  • the neural network accelerator 10 may perform a high-precision quantization method having a bit number of 16 bits for data having a large error due to quantization in a section of 0.4 or more in which a weight value is relatively large, and a data value of less than 0.4.
  • a low precision quantization method having 8 bits may be applied to data having a small error due to quantization in the interval of.
  • FIG. 4 is a graph illustrating a distribution of values of different quantizations according to weight distributions included in data on the neural network accelerator 10.
  • the weight value on the neural network has a wide distribution of the weight value on the first graph 401 by the outlier weights 402 and 403 having a large number of absolute values. If the existing linear quantization method is applied to this, as shown in the second graph 404, a lot of errors in quantization occur.
  • the neural network accelerator 10 may classify the values into the outlier weights 402 and 403 and the remaining weights based on the weight values as shown in the third graph 405, and may use different quantization methods for each section.
  • a high precision quantization method to the outlier weights 406 and 407, it is possible to reduce the quantization error for the value of the outlier weight, and to apply the low precision quantization to the normal weight to express the weight with a small number of bits. have.
  • data can be represented with fewer bits and quantization error compared to the case of performing uniform quantization (ex. Linear quantization or log quantization) for all data. Can be reduced, maintaining the output of the neural network.
  • uniform quantization ex. Linear quantization or log quantization
  • the neural network accelerator 10 may store the quantized data in the buffer (S2002).
  • the neural network accelerator 10 may include a PE swarm 501, which is a top-level system, and a PE swarm 501.
  • a PE swarm 501 which is a top-level system
  • a PE swarm 501 Is composed of a PE cluster 502, a Swarm buffer 503 for storing information calculated in the PE cluster 502, and a Swarm controller 504 for controlling the operation of the PE cluster 502 and communication with the main memory.
  • the neural network accelerator 10 may store the data to be quantized and calculated in the PE swarm buffer 503.
  • the neural network accelerator 10 may perform calculation based on the data input to the node (S2003).
  • the neural network accelerator 10 may perform calculation differently by classifying the outlier activation and the normal activation based on the quantization form of the input data.
  • the neural network accelerator 10 may classify a normal activation if less than 16 bits based on the bits of the activation obtained from the buffer, and classify an outlier activation if 16 bits.
  • the neural network accelerator 10 may be calculated by separating the normal activation and the outlier activation.
  • the neural network accelerator 10 may improve the performance by increasing the operation rate of the calculation group through scheduling for the calculation group for calculating data.
  • the neural network accelerator 10 acquires activation of 1 ⁇ 1 ⁇ 16 through the calculation group, performs calculation, and generates 1 ⁇ 1 ⁇ 16 activation as an output. Since the neural network accelerator 10 calculates only the non-zero activation, when the first calculation group 601 completes the calculation according to the number of non-zero activations, the neural network accelerator 10 converts the new 1X1X16 activation 602 into the first calculation group ( 603 to continue the calculation.
  • the neural network accelerator 10 may store the normal activation and the weight in a buffer and calculate the normal activation group.
  • the neural network accelerator 10 may obtain and store 16 four-bit weights for each row from the buffer in the cluster weight buffer 701 having a tabular form.
  • the neural network accelerator 10 may also obtain and store 16 4-bit activations from the buffer in the cluster activation buffer 702.
  • the neural network accelerator 10 may perform convolution calculation on the normal activation and the weight stored in the buffer.
  • the neural network accelerator 10 may perform convolution calculation between four bits of activation and four bits of weight in one cycle in each of the plurality of normal calculation groups.
  • the neural network accelerator 10 performs a convolution calculation between the upper 4 bits and the 4-bit activation of the outlier weight, and the outlier weight After performing convolution calculation between the lower 4 bits and the 4-bit activation, the final result may be obtained by adding the calculated results.
  • the neural network accelerator 10 may provide the 16 normal activations and the 16 weights to the 16 normal calculation units 802 for calculating normal activations in the calculation group, respectively, and each normal calculation unit The convolution calculation between the normal activation and the normal weight obtained through can be performed.
  • the neural network accelerator 10 allocates the upper 4 bits of the outlier weight to the outlier calculation unit 801 in the calculation group to perform normal activation and convolution calculation.
  • the lower 4 bits of the outlier weight may be allocated to the normal calculation unit 802 to perform normal activation and convolution calculation.
  • the neural network accelerator 10 may calculate the final result in two cycles by adding the result calculated in the outlier calculation unit and the result calculated in the normal calculation unit.
  • the neural network accelerator 10 may store the calculated result in a cluster output tri-buffer.
  • the neural network accelerator 10 may calculate the outlier activation and the weight through the outlier calculation group.
  • the neural network accelerator 10 may calculate 16-bit activation and weight, which are outlier activation, using a full-precision calculation unit.
  • the neural network accelerator 10 may store the outlier activation stored in the PE swarm buffer in a tabular form 901 in the outlier activation FIFO, and may use 16 full precision calculation units using the weight inputted from the cluster weight buffer. Convolution calculation can be performed using.
  • the upper 4 bits of the outlier weight and the outlier activation are calculated using the outlier full precision calculation unit, as in the calculation between the normal activation and the outlier weight, and the lower four bits of the outlier weight and the outlier activation are normal full precision.
  • the final result can be calculated by summing the calculation results through the calculation unit.
  • the neural network accelerator 10 may store the result to be calculated in a cluster output tri-buffer.
  • the neural network accelerator 10 may calculate the final result based on the results calculated by the normal calculation group and the outlier calculation group, respectively.
  • the neural network accelerator 10 may obtain the final result by summing the results stored in the cluster output tri-buffer.
  • FIG. 10 is an exemplary diagram illustrating a process of storing data in a cluster output tri-buffer and calculating a final result.
  • the neural network accelerator 10 may access two buffers in a normal calculation group, add a new second result 1002 to the previously stored first result 1001, and store the calculation result of the outlier calculation group. May be added to the second result 1002 to calculate the final result 1003.
  • the quantization method for data on the neural network is performed in consideration of outlier data, and the quantized data is separated and calculated according to the number of bits of the data, thereby reducing the amount of computation while maintaining the quality of the output result even with a small number of bits. This reduces the amount of data written to memory.
  • FIG. 11 to 12 show experimental results of applying the neural network acceleration method.
  • the present invention is applied to VGG-16, which is a representative example of a deep neural network, and compared with existing hardware accelerators.
  • the 4-bit accelerator (8-bit outlier, OLAccel8) of the present invention compared to the existing 8-bit versions of Eyeriss and ZeNA, enables more than 30% faster performance and twice the energy reduction.
  • the present invention is a technique for reducing the data size (bit number) in a deep neural network can be used for all neural network performance and learning. Therefore, this technology is applicable to all fields where deep learning is applied.
  • ' ⁇ ' refers to software or a hardware component such as a field programmable gate array (FPGA) or an ASIC, and ' ⁇ ' serves a part.
  • ' ⁇ ' is not meant to be limited to software or hardware.
  • ' ⁇ Portion' may be configured to be in an addressable storage medium or may be configured to play one or more processors.
  • ' ⁇ ' means components such as software components, object-oriented software components, class components, and task components, and processes, functions, properties, procedures, and the like. Subroutines, segments of program patent code, drivers, firmware, microcode, circuits, data, databases, data structures, tables, arrays, and variables.
  • the functionality provided within the components and 'parts' may be combined into a smaller number of components and 'parts' or separated from additional components and 'parts'.
  • components and ' ⁇ ' may be implemented to play one or more CPUs in the device or secure multimedia card.
  • the neural network acceleration method may also be implemented in the form of a computer readable medium for storing instructions and data executable by a computer.
  • the command and data may be stored in the form of program code, and when executed by the processor, a predetermined program module may be generated to perform a predetermined operation.
  • computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
  • the computer readable medium may be a computer recording medium, which is volatile and non-implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. Both volatile, removable and non-removable media may be included.
  • computer recording media may be provided via magnetic storage media such as HDDs and SSDs, optical recording media such as CDs, DVDs and Blu-ray discs, or may be accessible via a network. It may be a memory included in the server.
  • the neural network acceleration method according to the embodiment described with reference to FIG. 2 may be implemented as a computer program (or computer program product) including instructions executable by a computer.
  • the computer program includes programmable machine instructions processed by the processor and may be implemented in a high-level programming language, an object-oriented programming language, an assembly language, or a machine language. .
  • the computer program may also be recorded on tangible computer readable media (eg, memory, hard disks, magnetic / optical media or solid-state drives, etc.).
  • the neural network acceleration method according to the embodiment described with reference to FIG. 2 may be implemented by executing the computer program as described above by the computing device.
  • the computing device may include at least a portion of a processor, a memory, a storage device, a high speed interface connected to the memory and a high speed expansion port, and a low speed interface connected to the low speed bus and the storage device.
  • a processor may include at least a portion of a processor, a memory, a storage device, a high speed interface connected to the memory and a high speed expansion port, and a low speed interface connected to the low speed bus and the storage device.
  • Each of these components are connected to each other using a variety of buses and may be mounted on a common motherboard or otherwise mounted in a suitable manner.
  • the processor may process instructions within the computing device, such as to display graphical information for providing a graphical user interface (GUI) on an external input, output device, such as a display connected to a high speed interface. Instructions stored in memory or storage. In other embodiments, multiple processors and / or multiple buses may be used with appropriately multiple memories and memory types.
  • the processor may also be implemented as a chipset consisting of chips comprising a plurality of independent analog and / or digital processors.
  • the memory also stores information within the computing device.
  • the memory may consist of a volatile memory unit or a collection thereof.
  • the memory may consist of a nonvolatile memory unit or a collection thereof.
  • the memory may also be other forms of computer readable media, such as, for example, magnetic or optical disks.
  • the storage device can provide a large amount of storage space to the computing device.
  • the storage device may be a computer readable medium or a configuration including such a medium, and may include, for example, devices or other configurations within a storage area network (SAN), and may include a floppy disk device, a hard disk device, an optical disk device, Or a tape device, flash memory, or similar other semiconductor memory device or device array.
  • SAN storage area network
  • the present invention relates to a method and apparatus for accelerating data processing on a neural network. More particularly, the present invention relates to a method and an apparatus for accelerating data processing according to characteristics of data used in a neural network. There is an industrial applicability for neural network devices because it can be done quickly.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Feedback Control In General (AREA)

Abstract

뉴럴네트워크에서 데이터 처리를 가속화하는 방법 및 장치를 제시하며, 뉴럴네트워크 상의 데이터 처리를 가속화하는 장치에 있어서, 상기 뉴럴네트워크를 구성하는 적어도 하나의 레이어 각각을 구성하는 노드에서 계산되는 데이터의 특성에 따라 적어도 하나의 방법으로 양자화를 수행하고, 양자화된 데이터에 따라 상기 노드에서의 계산을 분리하여 수행하는 제어부 및 상기 양자화된 데이터를 저장하는 메모리를 포함할 수 있다.

Description

뉴럴네트워크에서 데이터 처리를 가속화하는 방법 및 장치
본 명세서에서 개시되는 실시예들은 뉴럴네트워크에서 데이터 처리를 가속화하는 방법 및 장치에 관한 것으로, 보다 상세하게는 뉴럴네트워크 상의 데이터의 값에 따라 데이터에 적용할 양자화 방법을 달리하고, 양자화된 데이터의 비트 수에 따라 계산을 분리 처리함으로써 데이터 처리를 가속화하는 방법 및 장치에 관한 것이다.
2017년 과제번호 및 사사표기
1. 과제고유번호: 1711058249
2. 사사 국문표기: "본 연구는 과학기술정보통신부 및 한국연구재단의 차세대정보컴퓨팅기술개발 사업의 연구결과로 수행되었음."
3. 사사 영문표기: This work was supported by the National Research Foundation of Korea grant funded by the Ministry of Science, ICT & Future Planning (PF Class Heteroge- neous High Performance Computer Development, NRF- 2016M3C4A7952601).
뉴럴네트워크는 생물 신경계의 고도의 정보처리기구를 공학적으로 모방해서 입력과 출력을 상호간에 상세히 관련지어 복잡한 제어를 하는 정보처리기술로 스위치나 각 센서 등에서 신호를 보내는 입력 레이어, 그 정보를 바탕으로 입력과 출력의 우선순위를 정하면서 상호관계를 조정하는 은닉 레이어, 이것을 바탕으로 필요한 제어량을 산출해서 출력하는 출력 레이어로 구성된 3종류의 뉴론(신경세포) 모델이 복수로 얽혀서 네트워크를 구성하고 있다.
이러한 딥러닝 기반의 뉴럴네트워크는 대용량 메모리를 필요로 함에 따라 비용대비 큰 용량을 제공하는 메모리로서 예를 들어 PCM (phase change memory)등과 같은 뉴메모리를 이용하는 것이 일반적이다.
이러한 뉴메모리는 메모리에 데이터를 쓰는 동작으로 메모리를 구성하는 셀의 상태를 변화시키기 때문에 많은 전류가 필요한 반면, 데이터를 리딩하는 경우 셀의 현재 상태만을 센싱하기 때문에 적은 전류로 값을 읽어오는 것이 가능하다.
하지만, 뉴메모리는 셀의 상태를 변경하는 쓰기 동작으로 인해 일반적으로 최대 10만번정도로 쓰기 횟수가 제한되는 문제점이 있다.
관련하여 선행기술 문헌인 한국특허공개번호 제10-2001-0105425호에서는 비휘발성 메모리 소자인 MFSFET소자의 동작을 예측하는 방법과 상기 소자를 사용한 뉴로-디바이스의 적응형 학습회로에 관한 것으로, 게이트 강유전체의 분극을 스위칭시켜 전류의 흐름을 제어하는 방식의 비휘발성 메모리 소자의 동작을 예측할 뿐, 뉴메모리의 쓰기횟수의 제한에 따른 문제점을 해결하지 못한다.
따라서 상술된 문제점을 해결하기 위한 기술이 필요하게 되었다.
한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
본 명세서에서 개시되는 실시예들은, 데이터를 처리하는데 사용되는 비트 수를 줄여 메모리에 쓰여지는 데이터를 줄이는 뉴럴네트워크를 위한 서로 다른 데이터형식을 가진 뉴럴네트워크 가속 방법 및 장치를 제시하는데 목적이 있다.
또한, 본 명세서에서 개시되는 실시예들은, 뉴럴네트워크의 출력의 질을 유지하면서 적은 비트수로 데이터 형식을 구성할 수 있도록 데이터의 분포에 기초하여 양자화를 달리 적용하는 뉴럴네트워크를 위한 서로 다른 데이터형식을 가진 뉴럴네트워크 가속 방법 및 장치를 제시하는데 목적이 있다.
아울러 본 명세서에서 개시되는 실시예들은, 서로 다른 방식으로 양자화된 데이터들이 혼재되어도 데이터의 값에 따라 연산을 달리 수행하여 계산량을 줄이는 뉴럴네트워크를 위한 서로 다른 데이터형식을 가진 뉴럴네트워크 가속 방법 및 장치를 제시하는 데 목적이 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 실시예에 따르면, 뉴럴네트워크 상의 데이터 처리를 가속화하는 장치에 있어서, 상기 뉴럴네트워크를 구성하는 적어도 하나의 레이어 각각을 구성하는 노드에서 계산되는 데이터의 특성에 따라 적어도 하나의 방법으로 양자화를 수행하고, 양자화된 데이터에 따라 상기 노드에서의 계산을 분리하여 수행하는 제어부 및 상기 양자화된 데이터를 저장하는 메모리를 포함할 수 있다.
다른 실시예에 따르면, 뉴럴네트워크가속장치가 뉴럴네트워크 상의 데이터 처리를 가속화하는 방법에 있어서, 상기 뉴럴네트워크를 구성하는 적어도 하나의 레이어 각각을 구성하는 노드에서 계산되는 데이터의 특성에 따라 적어도 하나의 방법으로 양자화를 수행하는 단계, 상기 양자화된 데이터를 저장하는 단계 및 양자화된 데이터에 따라 상기 노드에서의 계산을 분리하여 수행하는 단계를 포함할 수 있다.
전술한 과제 해결 수단 중 어느 하나에 의하면, 데이터의 형식에 사용되는 비트 수를 줄여 메모리에 쓰여지는 데이터를 줄이는 뉴럴네트워크를 위한 서로 다른 데이터형식을 가진 뉴럴네트워크 가속 방법 및 장치를 제시할 수 있다.
또한, 전술한 과제 해결 수단 중 어느 하나에 의하면, 뉴럴네트워크의 출력의 질을 유지하면서 적은 비트수로 데이터 형식을 구성할 수 있도록 데이터의 분포에 기초하여 양자화를 달리 적용하는 뉴럴네트워크를 위한 서로 다른 데이터형식을 가진 뉴럴네트워크 가속 방법 및 장치를 제시할 수 있다.
아울러 전술한 과제 해결 수단 중 어느 하나에 의하면, 서로 다른 방식으로 양자화된 데이터들이 혼재되어도 데이터의 값에 따라 연산을 달리 수행하여 계산량을 줄이는 뉴럴네트워크를 위한 서로 다른 데이터형식을 가진 뉴럴네트워크 가속 방법 및 장치할 수 있다.
개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 일 실시예에 따른 뉴럴네트워크가속장치를 도시한 블록도이다.
도 2는 일 실시예에 따른 뉴럴네트워크가속방법을 설명하기 위한 순서도이다.
도 3 내지 도 10 은 일 실시예에 따른 뉴럴네트워크가속방법을 설명하기 위한 참고도이다.
도 11 내지 도 12 는 일 실시예에 따른 뉴럴네트워크가속방법의 성능을 실험한 데이터이다.
아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐 아니라, ‘그 중간에 다른 구성을 사이에 두고 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.
이하 첨부된 도면을 참고하여 실시예들을 상세히 설명하기로 한다.
다만 이를 설명하기에 앞서, 아래에서 사용되는 용어들의 의미를 먼저 정의한다.
이하에서 ‘뉴럴네트워크’는 입력레이어, 적어도 하나의 은닉레이어 그리고 출력레이어로 구성될 수 있으며, 각 레이어는 적어도 하나의 ‘노드’로 구성될 수 있다. 그리고 각 레이어의 노드는 다음 레이어의 노드와의 연결관계를 형성할 수 있다.
그리고 ‘데이터’는 뉴럴네트워크의 각 레이어의 노드에 입력되거나 출력되는 정보로 다음 레이어에 전달할 때 레이어에 입력되는 데이터의 반영강도를 결정하는 웨이트(Weight)와 노드에서 입출력되는 데이터인 액티베이션(Activation) 등이 포함될 수 있다.
위에 정의한 용어 이외에 설명이 필요한 용어는 아래에서 각각 따로 설명한다.
도 1은 일 실시예에 따른 뉴럴네트워크가속장치(10)를 설명하기 위한 블록도이다.
뉴럴네트워크가속장치(10)는 네트워크(N)를 통해 원격지의 서버에 접속하거나, 타 단말 및 서버와 연결 가능한 컴퓨터나 휴대용 단말기, 텔레비전, 웨어러블 디바이스(Wearable Device) 등으로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop)등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), GSM(Global System for Mobile communications), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet), 스마트폰(Smart Phone), 모바일 WiMAX(Mobile Worldwide Interoperability for Microwave Access) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다. 또한, 텔레비전은 IPTV(Internet Protocol Television), 인터넷 TV(Internet Television), 지상파 TV, 케이블 TV 등을 포함할 수 있다. 나아가 웨어러블 디바이스는 예를 들어, 시계, 안경, 액세서리, 의복, 신발 등 인체에 직접 착용 가능한 타입의 정보처리장치로서, 직접 또는 다른 정보처리장치를 통해 네트워크를 경유하여 원격지의 서버에 접속하거나 타 단말과 연결될 수 있다.
도 1을 참조하면, 일 실시예에 따른 뉴럴네트워크가속장치(10)는 입출력부(110), 제어부(120), 통신부(130) 및 메모리(140)를 포함할 수 있다.
입출력부(110)는 사용자로부터 입력을 수신하기 위한 입력부와, 작업의 수행 결과 또는 뉴럴네트워크가속장치(10)의 상태 등의 정보를 표시하기 위한 출력부를 포함할 수 있다. 예를 들어, 입출력부(110)는 사용자 입력을 수신하는 조작 패널(operation panel) 및 화면을 표시하는 디스플레이 패널(display panel) 등을 포함할 수 있다.
구체적으로, 입력부는 키보드, 물리 버튼, 터치 스크린, 카메라 또는 마이크 등과 같이 다양한 형태의 사용자 입력을 수신할 수 있는 장치들을 포함할 수 있다. 또한, 출력부는 디스플레이 패널 또는 스피커 등을 포함할 수 있다. 다만, 이에 한정되지 않고 입출력부(110)는 다양한 입출력을 지원하는 구성을 포함할 수 있다.
제어부(120)는 뉴럴네트워크장치(10)의 전체적인 동작을 제어하며, CPU 등과 같은 프로세서를 포함할 수 있다. 제어부(120)는 입출력부(110)를 통해 수신한 사용자 입력에 대응되는 동작을 수행하도록 뉴럴네트워크장치(10)에 포함된 다른 구성들을 제어할 수 있다.
예를 들어, 제어부(120)는 메모리(140)에 저장된 프로그램을 실행시키거나, 메모리(140)에 저장된 파일을 읽어오거나, 새로운 파일을 메모리(140)에 저장할 수도 있다.
이러한 제어부(120)는 뉴럴네트워크를 구성하는 적어도 하나의 레이어 각각을 구성하는 노드에서 이용되는 데이터에 대해 적어도 하나의 방법으로 양자화를 수행할 수 있다.
즉, 제어부(120)는 뉴럴네트워크 상의 데이터 값에 기초하여 적은 수의 이상치(outlier)데이터에 고정밀도 양자화 방법을 적용할 수 있고, 나머지 대부분의 데이터인 노멀데이터에 저정밀도 양자화 방법을 분리 적용할 수 있다.
실시예에 따라, 제어부(120)는 뉴럴네트워크 상의 데이터 값을 기초로 데이터의 값에 따른 분포를 획득할 수 있고, 데이터의 분포에 기초하여 적어도 하나의 데이터 그룹으로 데이터를 나눌 수 있다.
예를 들어, 제어부(120)는 웨이트의 값을 기준으로 뉴럴네트워크 상의 웨이트를 값에 따라 카운트하여 값에 따른 웨이트의 분포를 획득할 수 있고, 웨이트 값 별 카운트된 웨이트의 수에 따라 구간을 나눌 수 있다. 이때, 제어부(120)는 웨이트의 절대값이 0에 가까울수록 구간을 좁게 나눌 수 있고, 웨이트의 절대값이 0 보다 클수록 구간을 넓게 나눌 수 있다.
또는 예를 들어, 제어부(120)는 웨이트의 수에 기초하여 웨이트의 수가 기 설정된 수 이상인 경우에는 웨이트 값 구간을 0.05 간격으로 나눌 수 있고, 웨이트의 수가 기 설정된 수 이하인 경우에는 웨이트 값 구간을 0.1 간격으로 구간을 나눌 수 있다.
그리고 제어부(120)는 적어도 하나의 구간에 대해 각 구간에 포함된 데이터의 특성에 따라 데이터에 적용할 양자화의 방법을 결정할 수 있다.
예를 들어, 제어부(120)는 웨이트의 값이 상대적으로 큰 0.4 이상의 구간은 데이터를 표현하는 비트수가 16비트인 고정밀 양자화 방법을 적용할 수 있으며, 데이터 값이 0.4 미만의 구간에 대해서는 데이터를 표현하는 비트수가 8 비트인 저정밀 양자화 방법을 적용할 수 있다.
이와 같이 제어부(120)가 데이터의 분포에 기초하여 구간 별로 서로 다른 방법의 양자화를 적용함으로써 값이 큰 이상치데이터에 의해 데이터의 분포가 좌우로 퍼지는 형태인 긴 꼬리(long tail)형태를 가지는 경우에도, 제한된 비트로 양자화를 수행하여 계산속도를 높임과 동시에 긴 꼬리에 영역에 속한 데이터의 양자화에 따른 뉴럴네트워크 출력 품질의 저하를 줄일 수 있다.
이후, 제어부(120)는 메모리(140)상의 버퍼에 데이터를 저장할 수 있고, 버퍼에 저장된 데이터를 표현한 비트수에 따라 계산방식을 달리할 수 있다.
이를 위해, 제어부(120)는 데이터의 형식에 따라 이상치 데이터와 노멀 데이터를 분류할 수 있다.
실시예에 따라, 제어부(120)는 데이터에 포함되는 양자화된 액티베이션을 표현한 비트수에 기초하여, 기 설정된 비트수를 초과한 이상치액티베이션 및 기 설정된 비트수 이하인 노멀액티베이션 중 어느 하나로 액티베이션을 분류할 수 있다.
예를 들어, 제어부(120)는 액티베이션를 나타내는 비트 수가 8비트를 초과하는지 판단할 수 있고, 8 비트를 초과하는 이상치액티베이션과 8비트 이하 노멀액티베이션으로 분류할 수 있다.
그리고 제어부(120)는 노멀액티베이션과 이상치액티베이션을 달리 계산할 수 있다.
하나의 실시예에 따라 노드에 입력되는 액티베이션이 노멀액티베이션이면, 제어부(120)는 노멀액티베이션에 대해 계산을 수행하는 노멀계산그룹을 통해 계산을 수행할 수 있다.
예를 들어, 제어부(120)는 노멀액티베이션의 계산을 위해 메모리(140)의 버퍼에 저장된 16개의 4 비트의 액티베이션인 노멀액티베이션을 노멀계산그룹의 클러스터 액티베이션 버퍼(Cluster activation buffer)로 전송할 수 있고, 웨이트를 노멀계산그룹의 클러스터 웨이트 버퍼(Cluster weight buffer)로 이동시킬 수 있다.
이때, 실시예에 따라 클러스터 웨이트 버퍼는 표 형태로 구성될 수 있고, 표의 각 행(Row)은 16 개의 4 비트 웨이트인 노멀웨이트와 함께 8 비트 웨이트인 이상치웨이트를 표현하기 위한 8 비트 포인터 및 4 비트 인덱스 값들로 구성될 수 있다. 그리고 클러스터 액티베이션 버퍼는 16 개의 4 비트 액티베이션인 노멀액티베이션이 하나의 행으로 구성될 수 있다.
그리고 제어부(120)는 클러스터 웨이트 버퍼에 저장된 웨이트와 클러스터 액티베이션 버퍼에 저장된 액티베이션 각각을 병렬적으로 계산할 수 있다.
예를 들어, 제어부(120)는 클러스터 웨이트 버퍼로부터 16개의 웨이트와 클러스터 액티베이션 버퍼로부터 16개의 액티베이션을 노멀계산그룹을 구성하는 16개의 계산 유닛에 각각 할당할 수 있다. 그리고 제어부(120)는 계산 유닛을 통해 1개의 4비트 웨이트와 1개의 4비트 액티베이션간의 콘볼루션 계산을 1싸이클(Cycle)에 수행할 수 있다. 이후, 제어부(120)는 16개의 계산유닛 각각에서 계산된 결과를 결합한 후 버퍼에 저장할 수 있다.
이때, 클러스터 웨이트 버퍼에 저장된 웨이트 중 이상치웨이트가 존재하면, 제어부(120)는 이상치웨이트와 액티베이션의 계산을 2 싸이클에 수행할 수 있다.
예를 들어, 16개의 웨이트 중 1개의 8비트 이상치웨이트가 존재하면, 제어부(120)는 8비트의 이상치웨이트 중 상위 4비트(MSB)에 대해 4비트 액티베이션과 4비트 콘볼루션 계산을 수행하고, 나머지 하위 4 비트에 대해 상기 액티베이션과 4비트 콘볼루션 계산을 수행하여 합산함으로써 이상치웨이트와 액티베이션의 콘볼루션 계산을 2싸이클(Cycle)에 수행할 수 있다.
다른 실시예에 따라 노드에 입력되는 액티베이션이 이상치액티베이션이면, 제어부(120)는 이상치액티베이션에 대해 계산을 수행하는 이상치계산그룹을 통해 계산을 수행할 수 있다.
예를 들어, 제어부(120)는 버퍼에 저장된 이상치액티베이션인 16 비트 액티베이션을 16개 획득하고, 클러스터 웨이트 버퍼로부터 16개의 웨이트를 획득하여 이상치계산그룹을 구성하는 16개의 계산유닛 각각에 할당하여 병렬적으로 콘볼루션 계산을 수행할 수 있다.
이때, 16 개의 웨이트 중 1개의 이상치웨이트가 포함되어 있으면, 제어부(120)는 이상치웨이트의 상위비트와 16비트 액티베이션을 제 1 계산유닛을 통해 콘볼루션 계산을 수행하고, 이상치웨이트의 하위비트와 상기 16 비트 액티베이션을 제 2 계산유닛을 통해 각각 계산함으로써 2 개의 계산유닛에서 병렬적으로 계산을 수행할 수 있다.
이후, 제어부(120)는 노멀계산그룹에서 계산된 결과와 이상치계산그룹에서 계산된 결과를 기초로 노드에서의 계산결과를 버퍼에 저장할 수 있다.
예를 들어, 제어부(120)는 3개의 버퍼로 구성된 클러스터 출력 트리버퍼(cluster output tri-buffer) 중 2 개의 버퍼에 접근하여 기 계산된 결과에 노멀계산그룹에서 계산된 새로운 결과를 합산하여 저장할 수 있다. 이후, 제어부(120)는 이상치계산그룹에서 계산된 결과를 클러스터 출력 트리버퍼에 저장된 결과에 합산하여 최종 결과를 계산할 수 있다.
이와 같이 계산을 처리하는 뉴럴네트워크의 노드에서 계산그룹을 데이터에 대한 양자화 방법에 따라 선택적으로 계산그룹을 달리 함으로써 데이터의 분포에서 긴 꼬리에 해당하는 데이터를 이용한 연산의 수행횟수를 크게 낮출 수 있어 계산량을 획기적으로 낮출 수 있음과 동시에 양자화에 따른 뉴럴네트워크의 결과 오차를 최소화할 수 있다.
통신부(130)는 다른 디바이스 또는 네트워크와 유무선 통신을 수행할 수 있다. 이를 위해, 통신부(130)는 다양한 유무선 통신 방법 중 적어도 하나를 지원하는 통신 모듈을 포함할 수 있다. 예를 들어, 통신 모듈은 칩셋(chipset)의 형태로 구현될 수 있다.
통신부(130)가 지원하는 무선 통신은, 예를 들어 Wi-Fi(Wireless Fidelity), Wi-Fi Direct, 블루투스(Bluetooth), UWB(Ultra Wide Band) 또는 NFC(Near Field Communication) 등일 수 있다. 또한, 통신부(130)가 지원하는 유선 통신은, 예를 들어 USB 또는 HDMI(High Definition Multimedia Interface) 등일 수 있다.
메모리(140)에는 파일, 어플리케이션 및 프로그램 등과 같은 다양한 종류의 데이터가 설치 및 저장될 수 있다. 제어부(120)는 메모리(140)에 저장된 데이터에 접근하여 이를 이용하거나, 또는 새로운 데이터를 메모리(140)에 저장할 수도 있다. 또한, 제어부(120)는 메모리(140)에 설치된 프로그램을 실행할 수도 있다. 도 1을 참조하면, 메모리(140)에는 양자화방법을 수행하기 위한 프로그램이 설치될 수 있다.
이러한 메모리(140)는 제어부(120)의 노멀계산그룹 또는 이상치계산그룹에서 계산된 데이터를 저장할 수 있다.
이를 위해 메모리(140)에는 버퍼가 할당될 수 있으며 예를 들어, 데이터가 저장되는 버퍼와 노멀액티베이션이 저장되는 클러스터 액티베이션 버퍼, 웨이트가 저장되는 클러스터 웨이트 버퍼 및 계산그룹에서 계산된 결과가 저장되는 클러스터 결과 트리버퍼가 할당될 수 있다.
도 2 는 일 실시예에 따른 뉴럴네트워크가속방법을 설명하기 위한 순서도이다.
도 2 에 도시된 실시예에 따른 뉴럴네트워크가속방법은 도 1 에 도시된 뉴럴네트워크가속장치(10)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하에서 생략된 내용이라고 하더라도 도 1 에 도시된 뉴럴네트워크가속장치(10)에 관하여 이상에서 기술한 내용은 도 2 에 도시된 실시예에 따른 뉴럴네트워크가속방법에도 적용될 수 있다.
우선, 뉴럴네트워크가속장치(10)는 뉴럴네트워크를 구성하는 적어도 하나의 레이어 각각을 구성하는 노드에서 이용되는 데이터에 대해 적어도 하나의 방법으로 양자화를 수행할 수 있다(S2001).
실시예에 따라, 뉴럴네트워크가속장치(10)는 데이터가 가질 수 있는 값의 범위를 기준으로 뉴럴네트워크 내에서 이용되는 데이터의 분포를 획득할 수 있으며, 데이터의 분포에 기초하여 동일한 양자화 방법을 수행할 데이터 값의 구간을 나눌 수 있다.
예를 들어, 학습에 따라 뉴럴네트워크를 구성하는 레이어 상의 적어도 하나의 노드 간 데이터의 반영강도인 웨이트 값이 결정되면, 뉴럴네트워크가속장치(10)는 뉴럴네트워크 상의 웨이트의 값을 기초로 동일한 값을 가지는 웨이트를 카운트하여 웨이트 값의 분포를 획득할 수 있다. 그리고 뉴럴네트워크가속장치(10)는 웨이트의 수에 반비례하여 동일한 양자화 방법을 수행할 웨이트 값의 구간을 좁게 설정하고, 데이터의 수가 적은 구간에 대해서는 동일한 양자화 방법을 수행할 웨이트의 값의 구간을 넓게 설정할 수 있다.
도 3 은 가중치의 분포에 구간의 설정을 도시한 표이다. 이를 참조하면, 뉴럴네트워크가속장치(10)는 가중치의 수가 많은 구간인 0 내지 0.1사이는 0.05 단위로 구간 (301)을 설정할 수 있으며, 가중치의 수가 적은 구간은 0.1 내지 0.4 사이는 0.1 단위로 구간(302)을 설정할 수 있다.
그리고 뉴럴네트워크가속장치(10)는 데이터의 분포에 기초하여 설정된 적어도 하나의 구간 별로 양자화 방법을 달리 적용할 수 있으며, 데이터와 양자화가 적용된 데이터 간의 오차에 기초하여 양자화에 의한 데이터의 비트 수를 달리할 수 있다.
실시예에 따라, 뉴럴네트워크가속장치(10)는 설정된 구간에 속하는 데이터 값에 기초하여 기 설정된 값을 초과하는 구간에 속하는 데이터인 이상치 데이터에 대해서는 고정밀 양자화 방법을 수행할 수 있고, 기 설정된 값 미만인 노멀 데이터에 대해서는 저정밀 양자화 방법을 수행할 수 있다.
예를 들어, 뉴럴네트워크가속장치(10)는 웨이트 값이 상대적으로 큰 0.4 이상의 구간으로 양자화에 의한 오차가 큰 데이터에 대해서는 비트수가 16 비트인 고정밀 양자화방법을 수행할 수 있으며, 데이터 값이 0.4 미만의 구간으로 양자화에 의한 오차가 적은 데이터에 대해서는 비트수가 8 비트인 저정밀 양자화 방법을 적용할 수 있다.
도 4 는 뉴럴네트워크가속장치(10) 상의 데이터에 포함되는 웨이트 분포에 따른 서로 다른 양자화를 수행한 값의 분포를 도시한 그래프이다.
도 4 를 참조하면, 뉴럴네트워크 상의 웨이트 값은 소수의 절대값이 큰 이상치 웨이트(402, 403)에 의해 제 1 그래프(401) 상의 웨이트 값의 분포가 넓게 된다. 이에 기존 선형 양자화 방법을 적용하면, 제 2 그래프(404)와 같이 양자화에 대한 오차가 많이 발생한다.
반면, 뉴럴네트워크가속장치(10)는 제 3 그래프(405)와 같이 웨이트의 값에 기초하여 이상치 웨이트(402, 403)와 나머지 웨이트로 값을 분류할 수 있고, 각 구간 별로 서로 다른 양자화 방법을 적용할 수 있고, 이상치 웨이트(406, 407)에 고정밀 양자화 방법을 적용함으로써 이상치 웨이트의 값에 대한 양자화 오차를 줄일 수 있으며, 노멀 웨이트에 대해 저정밀 양자화를 적용함으로써 적은 수의 비트로 웨이트를 표현할 수 있다.
이와 같이 각 데이터에 대해 서로 다른 양자화를 수행함으로써 기존에 모든 데이터에 대해 일률적인 양자화(ex. 선형양자화 또는 로그양자화)를 수행하는 경우에 비해 더 적은 비트 수로 데이터를 표현할 수 있음과 동시에 양자화 오차를 줄일 수 있어, 뉴럴네트워크의 출력의 질을 유지시킬 수 있다.
이후, 뉴럴네트워크가속장치(10)는 양자화된 데이터를 버퍼에 저장할 수 있다(S2002).
도 5 는 이상치 데이터를 고려한 뉴럴네트워크가속장치(10)의 구조를 도시한 예시도로 이를 참조하면, 뉴럴네트워크가속장치(10)는 최상위 계인 PE swarm(501)을 포함할 수 있으며, PE swarm(501)은 PE클러스터(502)와 PE클러스터(502)에서 계산된 정보를 저장하는 Swarm 버퍼(503) 그리고 PE 클러스터(502)의 동작과 주메모리와의 통신을 제어하는 Swarm 제어기(504)로 구성될 수 있다. 이러한 뉴럴네트워크가속장치(10)는 양자화되어 계산될 데이터를 PE swarm버퍼(503)에 저장할 수 있다.
그리고 뉴럴네트워크가속장치(10)는 노드에 입력되는 데이터를 기초로 계산을 수행할 수 있다(S2003).
이를 위해, 뉴럴네트워크가속장치(10)는 입력되는 데이터의 양자화 형식에 기초하여 이상치 액티베이션과 노멀 액티베이션으로 분류하여 계산을 달리 수행할 수 있다.
예를 들어, 뉴럴네트워크가속장치(10)는 버퍼로부터 획득되는 액티베이션의 비트를 기준으로 16비트 미만이면 노멀액티베이션으로 분류하고, 16비트이면 이상치액티베이션으로 분류할 수 있다.
그리고 뉴럴네트워크가속장치(10)는 노멀액티베이션과 이상치액티베이션으로 분리하여 계산할 수 있다.
이때, 뉴럴네트워크가속장치(10)는 데이터를 계산하는 계산그룹에 대해 스케줄링을 통해 계산그룹의 가동률을 높혀 성능향상을 시킬 수 있다.
도 6 은 계산그룹들을 스케줄링하는 것을 도시한 예시도이다. 뉴럴네트워크가속장치(10)는 계산그룹을 통해 1X1X16의 액티베이션을 획득하여 계산을 수행하고 출력으로 1X1X16 액티베이션을 생성한다. 뉴럴네트워크가속장치(10)는 0이 아닌 액티베이션만 계산을 수행하기에 0이 아닌 액티베이션의 개수에 따라 제 1 계산그룹(601)이 계산을 마치면, 새로운 1X1X16 액티베이션(602)을 제 1 계산그룹(603)에 할당하여 계산을 계속 수행하도록 한다.
하나의 실시예에 따라 노멀액티베이션이 입력되면, 뉴럴네트워크가속장치(10)는 노멀액티베이션과 웨이트를 버퍼에 저장하고, 노멀 계산그룹을 통해 계산할 수 있다.
도 7 은 뉴럴네트워크가속장치(10)의 PE 클러스터의 내부동작을 보여주는 예시도이다. 이를 참조하면, 뉴럴네트워크가속장치(10)는 표형태로 구성되는 클러스터 웨이트 버퍼(701)에 각 행(row) 별로 16개의 4 비트 웨이트를 버퍼로부터 획득하여 저장할 수 있다. 그리고 뉴럴네트워크가속장치(10)는 클러스터 액티베이션 버퍼(702)에도 16개의 4 비트 액티베이션을 버퍼로부터 획득하여 저장할 수 있다.
그리고 뉴럴네트워크가속장치(10)는 버퍼에 저장된 노멀액티베이션과 웨이트에 대해 콘볼루션 계산을 수행할 수 있다.
예를 들어, 뉴럴네트워크가속장치(10)는 복수의 노멀 계산그룹 각각에서 노멀액티베이션인 4비트 액티베이션과 4비트 웨이트 간 콘볼루션 계산을 1 싸이클에 수행할 수 있다.
이때, 4 비트 액티베이션과 콘볼루션 계산이 수행되는 웨이트가 8 비트인 이상치 웨이트인 경우, 뉴럴네트워크가속장치(10)는 이상치 웨이트의 상위 4 비트와 4비트 액티베이션 간 콘볼루션 계산을 수행하고, 이상치 웨이트이 하위 4 비트와 상기 4 비트 액티베이션 간 콘볼루션 계산을 수행한 후 계산된 결과를 합하여 최종 결과값을 획득할 수 있다.
도 8 은 하나의 계산그룹에서의 동작을 도시한 예시도이다. 이를 참조하면, 뉴럴네트워크가속장치(10)는 획득된 16 개의 노멀액티베이션과 16개의 웨이트를 계산그룹내의 노멀액티베이션을 계산하는 16개의 노멀 계산유닛(802)에 각각 제공할 수 있고, 각 노멀 계산유닛을 통해 획득된 노멀액티베이션과 노멀웨이트 간의 콘볼루션 계산을 수행할 수 있다.
이때, 16개의 웨이트 중 이상치 웨이트가 포함된 경우, 뉴럴네트워크가속장치(10)는 이상치웨이트의 상위 4비트를 계산그룹내의 이상치 계산유닛(801)에 할당하여 노멀액티베이션과 콘볼루션 계산을 수행하고, 이상치웨이트의 하위 4 비트를 노멀 계산유닛(802)에 할당하여 노멀액티베이션과 콘볼루션 계산을 수행할 수 있다. 이후, 뉴럴네트워크가속장치(10)는 이상치 계산유닛에서 계산된 결과와 노멀 계산유닛에서 계산된 결과를 합하여 2 싸이클에 최종 결과를 계산할 수 있다.
그리고 뉴럴네트워크가속장치(10)는 계산된 결과를 클러스터 출력 트리버퍼(cluster output tri-buffer)에 저장할 수 있다.
다른 실시예에 따라, 이상치액티베이션이 입력되면, 뉴럴네트워크가속장치(10)는 이상치액티베이션과 웨이트를 이상치 계산그룹을 통해 계산할 수 있다.
예를 들어, 뉴럴네트워크가속장치(10)는 이상치액티베이션인 16 비트 액티베이션과 웨이트를 풀 프리시젼(Full-precision) 계산유닛을 이용하여 계산할 수 있다.
도 9 는 이상치액티베이션을 계산하는 계산그룹을 도시한 예시도이다. 이를 참조하면, 뉴럴네트워크가속장치(10)는 PE swarm버퍼에 저장된 이상치 액티베이션을 이상치 액티베이션 FIFO에 표형태(901)로 저장할 수 있고, 클러스터 웨이트 버퍼로부터 입력된 웨이트를 이용하여 16개 풀 프리시젼 계산유닛을 이용하여 콘볼루션 계산을 수행할 수 있다.
이때, 이상치웨이트가 입력되면, 노멀액티베이션과 이상치웨이트간의 계산과 동일하게 이상치웨이트의 상위 4비트와 이상치액티베이션을 이상치 풀 프리시젼 계산유닛을 통한 계산결과, 이상치웨이트 하위 4 비트와 이상치액티베이션을 노멀 풀 프리시젼 계산유닛을 통해 계산결과를 합하여 최종 결과를 계산할 수 있다.
그리고 뉴럴네트워크가속장치(10)는 계산될 결과를 클러스터 출력 트리버퍼(cluster output tri-buffer)에 저장할 수 있다.
이후, 뉴럴네트워크가속장치(10)는 노멀 계산그룹과 이상치 계산그룹에 의해 각각 계산된 결과를 기초로 최종 결과를 계산할 수 있다.
예를 들어, 뉴럴네트워크가속장치(10)는 클러스터 출력 트리버퍼(cluster output tri-buffer)에 저장된 결과를 합하여 최종결과를 획득할 수 있다.
도 10 은 클러스터 출력 트리버퍼(cluster output tri-buffer)에 데이터를 저장하여 최종 결과를 계산하는 과정을 도시한 예시도이다. 이를 참조하면, 뉴럴네트워크가속장치(10)는 노멀 계산 그룹에서 2 개의 버퍼에 접근해서 기존 저장된 제 1 결과(1001)에 새로운 제 2 결과(1002)를 더하여 저장할 수 있고, 이상치 계산 그룹의 계산 결과를 제 2 결과(1002)에 더하여 최종결과(1003)를 계산할 수 있다.
이와 같이 이상치 데이터를 고려하여 뉴럴네트워크 상의 데이터에 대한 양자화 방법을 달리 수행하고, 양자화가 수행된 데이터를 데이터의 비트 수에 따라 분리하여 계산함으로써 적은 비트로도 출력결과의 품질을 유지하면서 계산량을 줄일 수 있어 메모리에 쓰여지는 데이터량을 줄일 수 있다.
도 11 내지 도 12 는 뉴럴네트워크가속방법을 적용한 실험 결과이다. 도 11을 참조하면, 딥뉴럴네트워크의 대표적인 예인 VGG-16에 본 발명을 적용하고 기존 하드웨어 가속기들과 비교한 결과를 보인다. 그림에서 보는 바와 같이 기존 기술인 Eyeriss와 ZeNA의 8비트 버전 대비 본 발명의 4비트 가속기(8비트 이상치, OLAccel8)가 30% 이상 빠른 수행과 2배 이상의 에너지 감소를 가능하게 한다.
그리고 도 12 를 참조하면, ImageNet 처리를 위한 ResNet-18에 대한 기존 하드웨어 가속기와의 비교 결과를 보여준다. 이 경우 ZeNA 결과는 기존 논문에 없어서 Eyeriss만을 비교하였다. Eyeriss 8비트 대비 본 발명의 4비트 가속기(8비트 이상치, OLAccel8)가 4배 이상 성능과 40% 이상의 에너지 감소 결과를 얻었다.
본 발명은 딥뉴럴네트워크에서 데이터 크기(비트수)를 줄이는 기술로 모든 뉴럴네트워크의 수행과 학습에 사용될 수 있다. 따라서, 딥러닝이 적용되는 모든 분야에 적용 가능한 기술이다.
이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.
구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.
뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.
도 2 를 통해 설명된 실시예에 따른 뉴럴네트워크가속방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다.예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.
또한 도 2 를 통해 설명된 실시예에 따른 뉴럴네트워크가속방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.
따라서 도 2 를 통해 설명된 실시예에 따른 뉴럴네트워크가속방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.
여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.
또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.
그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.
상술된 실시예들은 예시를 위한 것이며, 상술된 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 명세서를 통해 보호 받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.
본 발명은 뉴럴네트워크 상의 데이터 처리를 가속화하는 방법 및 장치에 관한 것으로보다 상세하게는 뉴럴네트워크에서 사용되는 데이터의 특성에 따라 양자화를 달리하고, 양자화가 다른 데이터별로 계산을 분리하여 처리하여 데이터 처리를 빠르게 할 수 있어 뉴럴네트워크 장치에 대해 산업상 이용가능성이 있다.

Claims (16)

  1. 뉴럴네트워크 상의 데이터 처리를 가속화하는 장치에 있어서,
    상기 뉴럴네트워크를 구성하는 적어도 하나의 레이어 각각을 구성하는 노드에서 계산되는 데이터의 특성에 따라 적어도 하나의 방법으로 양자화를 수행하고, 양자화된 데이터에 따라 상기 노드에서의 계산을 분리하여 수행하는 제어부; 및
    상기 양자화된 데이터를 저장하는 메모리를 포함하는, 뉴럴네트워크가속장치.
  2. 제 1 항에 있어서,
    상기 제어부는,
    상기 뉴럴네트워크 상의 데이터의 값에 기초하여 상기 데이터에 대해 적용할 양자화 방법을 결정하는, 뉴럴네트워크가속장치.
  3. 제 2 항에 있어서,
    상기 제어부는,
    상기 데이터와 상기 양자화가 적용된 데이터 간의 오차에 기초하여 상기 양자화에 의한 데이터의 비트 수를 달리하는, 뉴럴네트워크가속장치.
  4. 제 3 항에 있어서,
    상기 데이터는,
    상기 노드의 출력 데이터인 엑티베이션(activation) 및 상기 엑티베이션이 상기 노드에 반영되는 강도인 웨이트(weight)를 포함하고,
    상기 제어부는,
    양자화된 액티베이션을 표현한 비트수에 기초하여, 기 설정된 비트수를 초과한 이상치액티베이션 및 기 설정된 비트수 이하인 노멀액티베이션 중 어느 하나로 상기 액티베이션을 분류하는, 뉴럴네트워크가속장치.
  5. 제 4 항에 있어서,
    상기 제어부는,
    상기 이상치액티베이션 및 상기 노멀액티베이션 각각을 분리하여 계산을 수행하는, 뉴럴네트워크가속장치.
  6. 제 4 항에 있어서,
    상기 제어부는,
    상기 노멀액티베이션 및 상기 웨이트 중 적어도 하나를 버퍼에 저장하는, 뉴럴네트워크가속장치.
  7. 제 5 항에 있어서,
    상기 제어부는,
    상기 버퍼에 기 설정된 비트 수 이상의 웨이트인 이상치웨이트가 존재하면, 상기 이상치웨이트를 기 설정된 수의 상위 비트와 나머지 비트로 분리하여 계산을 수행하는, 뉴럴네트워크가속장치.
  8. 뉴럴네트워크가속장치가 뉴럴네트워크 상의 데이터 처리를 가속화하는 방법에 있어서,
    상기 뉴럴네트워크를 구성하는 적어도 하나의 레이어 각각을 구성하는 노드에서 계산되는 데이터의 특성에 따라 적어도 하나의 방법으로 양자화를 수행하는 단계;
    상기 양자화된 데이터를 저장하는 단계; 및
    양자화된 데이터에 따라 상기 노드에서의 계산을 분리하여 수행하는 단계를 포함하는, 뉴럴네트워크가속방법.
  9. 제 8 항에 있어서,
    상기 양자화를 수행하는 단계는,
    상기 뉴럴네트워크 상의 데이터의 값에 기초하여, 상기 데이터에 대해 적용할 양자화 방법을 결정하는 단계를 포함하는, 뉴럴네트워크가속방법.
  10. 제 9 항에 있어서,
    상기 양자화 방법을 결정하는 단계는,
    상기 데이터와 상기 양자화가 적용된 데이터 간의 오차에 기초하여 상기 양자화에 의한 데이터의 비트 수를 달리하는 단계를 포함하는, 뉴럴네트워크가속방법.
  11. 제 10 항에 있어서,
    상기 데이터는,
    상기 노드의 출력 데이터인 엑티베이션(activation) 및 상기 엑티베이션이 상기 노드에 반영되는 강도인 웨이트(weight)를 포함하고,
    상기 뉴럴네트워크가속방법은,
    양자화된 액티베이션을 표현한 비트수에 기초하여, 기 설정된 비트수를 초과한 이상치액티베이션 및 기 설정된 비트수 이하인 노멀액티베이션 중 어느 하나로 상기 액티베이션을 분류하는 단계를 포함하는, 뉴럴네트워크가속방법.
  12. 제 11 항에 있어서,
    상기 노드에서의 계산을 분리하여 수행하는 단계는,
    상기 이상치액티베이션 및 상기 노멀액티베이션 각각을 분리하여 계산을 수행하는 단계를 포함하는, 뉴럴네트워크가속방법.
  13. 제 11 항에 있어서,
    상기 노드에서의 계산을 수행하는 단계는,
    상기 노멀액티베이션 및 상기 웨이트 중 적어도 하나를 버퍼에 저장하는 단계를 포함하는, 뉴럴네트워크가속방법.
  14. 제 12 항에 있어서,
    상기 뉴럴네트워크가속방법은,
    상기 버퍼에 기 설정된 비트 수 이상의 웨이트인 이상치웨이트가 존재하면, 상기 이상치웨이트를 기 설정된 수의 상위 비트와 나머지 비트로 분리하여 계산을 수행하는 단계를 더 포함하는, 뉴럴네트워크가속방법.
  15. 제 8 항에 기재된 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
  16. 뉴럴네트워크가속장치에 의해 수행되며, 제 8 항에 기재된 방법을 수행하기 위해 매체에 저장된 컴퓨터 프로그램.
PCT/KR2018/005022 2017-04-28 2018-04-30 뉴럴네트워크에서 데이터 처리를 가속화하는 방법 및 장치 WO2018199721A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/663,487 US11630984B2 (en) 2017-04-28 2019-10-25 Method and apparatus for accelerating data processing in neural network

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2017-0055001 2017-04-28
KR1020170055001A KR102034661B1 (ko) 2017-04-28 2017-04-28 뉴럴네트워크를 위한 데이터 양자화 방법 및 장치
KR20170178747 2017-12-22
KR10-2017-0178747 2017-12-22

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/663,487 Continuation US11630984B2 (en) 2017-04-28 2019-10-25 Method and apparatus for accelerating data processing in neural network

Publications (1)

Publication Number Publication Date
WO2018199721A1 true WO2018199721A1 (ko) 2018-11-01

Family

ID=63920063

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/005022 WO2018199721A1 (ko) 2017-04-28 2018-04-30 뉴럴네트워크에서 데이터 처리를 가속화하는 방법 및 장치

Country Status (2)

Country Link
US (1) US11630984B2 (ko)
WO (1) WO2018199721A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102621118B1 (ko) * 2018-11-01 2024-01-04 삼성전자주식회사 영상 적응적 양자화 테이블을 이용한 영상의 부호화 장치 및 방법
KR20210043295A (ko) 2019-10-11 2021-04-21 삼성전자주식회사 뉴럴 네트워크의 데이터를 양자화하는 방법 및 장치
US11775611B2 (en) * 2019-11-01 2023-10-03 Samsung Electronics Co., Ltd. Piecewise quantization for neural networks
US20220092382A1 (en) * 2020-09-23 2022-03-24 The Governing Council Of The University Of Toronto Quantization for neural network computation
US11861328B2 (en) 2020-11-11 2024-01-02 Samsung Electronics Co., Ltd. Processor for fine-grain sparse integer and floating-point operations
US11861327B2 (en) 2020-11-11 2024-01-02 Samsung Electronics Co., Ltd. Processor for fine-grain sparse integer and floating-point operations
CN115222015A (zh) 2021-04-21 2022-10-21 阿里巴巴新加坡控股有限公司 指令处理装置、加速单元和服务器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140046885A1 (en) * 2012-08-07 2014-02-13 Qualcomm Incorporated Method and apparatus for optimized representation of variables in neural systems
KR20160034814A (ko) * 2014-09-22 2016-03-30 삼성전자주식회사 뉴럴 네트워크를 수반한 클라이언트 장치 및 그것을 포함하는 시스템
WO2016099779A1 (en) * 2014-12-19 2016-06-23 Intel Corporation Method and apparatus for distributed and cooperative computation in artificial neural networks
US9406017B2 (en) * 2012-12-24 2016-08-02 Google Inc. System and method for addressing overfitting in a neural network
KR20160143505A (ko) * 2015-06-04 2016-12-14 삼성전자주식회사 신경망의 연산량을 줄이는 방법 및 시스템

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4403436B2 (ja) 2007-02-21 2010-01-27 ソニー株式会社 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
WO2009125627A1 (ja) 2008-04-11 2009-10-15 三菱電機株式会社 機器状態検出装置及び機器状態検出方法並びに生活者異常検知装置、生活者異常検知システム及び生活者異常検知方法
WO2017031630A1 (zh) * 2015-08-21 2017-03-02 中国科学院自动化研究所 基于参数量化的深度卷积神经网络的加速与压缩方法
WO2017049496A1 (en) 2015-09-23 2017-03-30 Intel Corporation Apparatus and method for local quantization for convolutional neural networks (cnns)
US10831444B2 (en) * 2016-04-04 2020-11-10 Technion Research & Development Foundation Limited Quantized neural network training and inference
US10949736B2 (en) * 2016-11-03 2021-03-16 Intel Corporation Flexible neural network accelerator and methods therefor

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140046885A1 (en) * 2012-08-07 2014-02-13 Qualcomm Incorporated Method and apparatus for optimized representation of variables in neural systems
US9406017B2 (en) * 2012-12-24 2016-08-02 Google Inc. System and method for addressing overfitting in a neural network
KR20160034814A (ko) * 2014-09-22 2016-03-30 삼성전자주식회사 뉴럴 네트워크를 수반한 클라이언트 장치 및 그것을 포함하는 시스템
WO2016099779A1 (en) * 2014-12-19 2016-06-23 Intel Corporation Method and apparatus for distributed and cooperative computation in artificial neural networks
KR20160143505A (ko) * 2015-06-04 2016-12-14 삼성전자주식회사 신경망의 연산량을 줄이는 방법 및 시스템

Also Published As

Publication number Publication date
US20200057934A1 (en) 2020-02-20
US11630984B2 (en) 2023-04-18

Similar Documents

Publication Publication Date Title
WO2018199721A1 (ko) 뉴럴네트워크에서 데이터 처리를 가속화하는 방법 및 장치
KR102415214B1 (ko) 이상치를 고려한 뉴럴네트워크 가속 방법 및 장치
US10311127B2 (en) Sparse matrix vector multiplication
US10685160B2 (en) Large cluster persistence during placement optimization of integrated circuit designs
WO2015182947A1 (en) Electronic device and method of analyzing fragmentation of electronic device
KR102034661B1 (ko) 뉴럴네트워크를 위한 데이터 양자화 방법 및 장치
US20140188807A1 (en) De-duplicated virtual machine image transfer
CN113553300B (zh) 文件的处理方法、装置、可读介质和电子设备
CN112752118B (zh) 视频生成方法、装置、设备及存储介质
WO2021223526A1 (zh) gamma调试方法和装置
WO2016190700A1 (ko) 통화 음질 개선을 위한 시스템 및 방법
WO2022216109A1 (en) Method and electronic device for quantizing dnn model
WO2015111836A1 (ko) 다수의 단말기 간 컨텐츠 공유 방법, 이를 위한 시스템 및 장치
WO2015084017A1 (en) Method of processing data by touch screen, storage medium, and electronic device
WO2014185742A1 (en) Computing system with privacy mechanism and method of operation thereof
US9471381B2 (en) Resource allocation in multi-core architectures
WO2020235858A1 (en) Server and control method thereof
WO2016159613A1 (ko) 영상 합성을 위한 객체 추적 방법 및 시스템
WO2020111844A2 (ko) 물체 레이블을 활용한 비주얼 슬램에서의 영상 특징점 강화 방법 및 장치
WO2017018701A1 (ko) 블랙박스의 데이터 단편화 방지 방법 및 장치
WO2020045977A1 (en) Electronic apparatus and control method thereof
WO2021075692A1 (ko) 디스플레이 장치 및 이의 제어 방법
WO2024101642A1 (ko) 딥링크를 위한 디스플레이 장치 및 그 제어 방법
CN113841426A (zh) 使用应用位置信息向各种通道发送音频
JP7041244B1 (ja) 表現的ボトルネック現象が最小化された人工ニューラルネットワークに基づく電子装置およびその動作方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18790465

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18790465

Country of ref document: EP

Kind code of ref document: A1