WO2023101472A1 - 프로그램된 활성화 함수 실행 유닛을 포함하는 신경 프로세싱 유닛 - Google Patents

프로그램된 활성화 함수 실행 유닛을 포함하는 신경 프로세싱 유닛 Download PDF

Info

Publication number
WO2023101472A1
WO2023101472A1 PCT/KR2022/019376 KR2022019376W WO2023101472A1 WO 2023101472 A1 WO2023101472 A1 WO 2023101472A1 KR 2022019376 W KR2022019376 W KR 2022019376W WO 2023101472 A1 WO2023101472 A1 WO 2023101472A1
Authority
WO
WIPO (PCT)
Prior art keywords
activation function
segment
value
programmable
unit
Prior art date
Application number
PCT/KR2022/019376
Other languages
English (en)
French (fr)
Inventor
김녹원
박인수
김호승
전형진
Original Assignee
주식회사 딥엑스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220165012A external-priority patent/KR102651560B1/ko
Application filed by 주식회사 딥엑스 filed Critical 주식회사 딥엑스
Priority to CN202280047322.4A priority Critical patent/CN117677958A/zh
Publication of WO2023101472A1 publication Critical patent/WO2023101472A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Definitions

  • the present disclosure relates to a neural processing unit (NPU) that includes a programmable activation function execution unit.
  • NPU neural processing unit
  • AI Artificial intelligence
  • ANN artificial neural network
  • An ANN-specific processor developed to accelerate the computation of an ANN is a neural processing unit (NPU).
  • NPU neural processing unit
  • ANNs are classified into 'single-layer neural networks' and 'multi-layer neural networks' according to the number of layers.
  • a typical multilayer neural network consists of an input layer, a hidden layer, and an output layer.
  • An input layer is a layer that accepts input values. The number of input layers is the same as the number of input variables.
  • the hidden layer is located between the input layer and the output layer, and is a layer that receives signals from the input layer, extracts features, and transfers them to the output layer.
  • An output layer is a layer that receives signals from hidden layers and outputs them to the outside.
  • the transmission strength of the signal varies.
  • the transmission strength of a signal transmitted between layers that is, activation is determined by an activation function in the ANN.
  • the inference accuracy of the ANN may vary. That is, the performance and efficiency of the ANN are determined according to the hardware implementation characteristics of the NPU's activation function processing circuit.
  • ANNs that handle complex mathematical activation functions can be processed by hardware accelerators.
  • the ANN-specific processor may require significant chip area ( ie, a large number of logic gates). Also, these chips can have significant power consumption.
  • DNN deep neural network
  • the activation function of the DNN is used to determine the transfer strength for computed values with weights and biases applied.
  • DNNs are being developed in various structures.
  • CNN convolutional neural network
  • a CNN may be configured in a form in which a convolution operation, an activation function operation, a pooling operation, and the like are processed in a specific order.
  • input values and parameters may be a matrix composed of a plurality of channels.
  • Input values and parameters can be processed in the NPU by convolution or matrix multiplication. Calculation values are generated after calculations are processed in each layer. An activation function may be applied to these calculated values.
  • a transformer is a DNN based on attention technology.
  • Transformers utilize a number of matrix multiplication operations.
  • the transformer may obtain an operation value of attention (Q, K, V) by using an input value and parameters such as a query (Q), a key (K), and a value (V).
  • Transformers can process various inference operations based on operation values ( ie, attention (Q, K, V)). Transformers tend to show better inference performance than CNNs.
  • the aforementioned neural networks may be referred to as DNNs.
  • an activation function may be selectively applied to an operation value of a specific layer among a plurality of layers of the DNN.
  • a DNN may be designed to perform various inference functions by applying an appropriate activation function to an operation value of a specific layer.
  • the performance and efficiency of the DNN model processed in hardware may vary depending on the nonlinearity of an activation function applied to at least one DNN model processed by the NPU.
  • the activation function may improve or decrease inference accuracy by emphasizing features of a specific region of the input value of the activation function more and emphasizing features of another region less.
  • the nonlinearity of at least some activation functions among various activation functions may include a logarithm operation, an exponential operation, and the like.
  • Implementing an activation function including log and exponential operations in hardware is very complex in terms of digital logic design. For example, for logarithmic and exponential operations, the configuration of a hardware operator becomes very complicated. Accordingly, the inventors of the present disclosure recognized that power consumption of hardware may increase and calculation processing speed may be slowed down.
  • a hard-wired processor may process only predefined activation functions using each dedicated activation function processing logic unit that is hard-wired.
  • the inventors of the present disclosure recognized that there is a disadvantage in that the number of gates rapidly increases in a hard-wired processor according to the computational complexity of the activation function.
  • Hard-wired processors cannot independently handle new activation functions without hardware modifications. Activation functions that cannot be processed by hard-wired processors must be calculated with separate software.
  • a hard-wired processor could be an Application Specific Integrated Circuit (ASIC) dedicated to artificial intelligence. That is, the hard-wired processor may be an NPU.
  • ASIC Application Specific Integrated Circuit
  • an activation function has been processed using a method using a look-up table (LUT), a method using a nonlinear approximation equation, a method using a polynomial approximation, and the like.
  • LUT look-up table
  • a method using a nonlinear approximation equation a method using a polynomial approximation, and the like.
  • the inventors of the present disclosure recognized that the conventional method of approximating an activation function in hardware using polynomial approximation or the like requires a large amount of computation from a processor to improve inference accuracy.
  • the inventors of the present disclosure have recognized that it is necessary to improve the inference accuracy deterioration problem of the DNN model to which the conventional activation function approximation technique is applied, the problem of increasing the number of gates in the activation function processing unit of the processor, and the problem of increasing power consumption of the processor.
  • an activation function that is not included in predetermined data such as a lookup table that cannot be processed by a processor to which a conventional activation function processing method is applied, 2) a new activation function, and/or 3) an activation in which some of the conventional activation functions have been modified.
  • the inventors of the present disclosure have recognized that a programming method capable of approximating any activation function and a hardware design for driving the same are required in order for the processor to independently process the functions;
  • the inventors of the present disclosure recognized that there is a need for a design of an NPU capable of driving an approximation algorithm optimized for characteristics of an activation function.
  • an activation function can be programmed efficiently and flexibly in hardware if hardware optimized for such a programming method is provided.
  • each area may be set based on the shape of an activation function to be programmed, and an approximation parameter may be programmed for each set area.
  • the inventors of the present disclosure have recognized that the activation function can be programmed efficiently and with a low approximation error by considering the characteristics of each region of the activation function.
  • a programmable activation function can be provided in a hard-wired processor that includes a programmed activation function execution unit (PAFE Unit). Recognized.
  • an object to be solved by the present disclosure is to provide a method that is relatively superior to conventional approximation methods and capable of programming a nonlinear activation function in hardware with various hardware options.
  • an object to be solved by the present disclosure is to provide a method for approximating a nonlinear activation function in a more customized manner by considering characteristics of the activation function itself, approximation error, hardware option information, and the like.
  • the problem to be solved by the present disclosure is to provide a hard-wired processor including a PAFE unit.
  • the problem addressed by the present disclosure is to provide a hard-wired processor that includes a PAFE unit configured to process at least one programmed activation function.
  • the NPU may receive programmed parameters of the activation function and process the activation function.
  • various nonlinear activation functions in particular, newly proposed or known but partially modified activation functions can be programmed to be processed by hardware.
  • segment data including characteristics of the activation function itself, approximation error, hardware option information, and the like may be used. Accordingly, it is possible to program the nonlinear activation function in a more customized manner while securing high performance and high efficiency of the DNN.
  • approximation errors can be minimized while minimizing hardware cost by using segment data including characteristics of the activation function itself, approximation errors, hardware option information, and the like. there is.
  • each segment of the activation function may be programmed with various algorithms.
  • the NPU may provide a hardware option capable of processing the algorithm of each segment of the programmed activation function.
  • a hard-wired processor including a PAFE unit may be implemented.
  • the processor can handle any activation function by changing only the programmable parameters without hardware changes.
  • a hard-wired processor including a PAFE unit configured to process at least one programmed activation function. Therefore, the processor can simultaneously or sequentially process different activation functions with the PAFE unit without hardware change.
  • FIG. 1 is a schematic conceptual diagram illustrating an apparatus for performing a method of programming an activation function according to an example of the present disclosure.
  • FIG. 2 is a schematic flowchart illustrating a method of programming an activation function according to an example of the present disclosure.
  • FIG 3 is a graph illustrating a process of programming an activation function by a method of programming an activation function according to an example of the present disclosure.
  • FIG. 4 is a graph illustrating various cases of segmenting an activation function into a plurality of segments by a programming method of an activation function according to an example of the present disclosure.
  • FIG. 5 is a graph illustrating an example of segmenting an activation function into a linear section and a non-linear section using gradient change data among segment data in an activation function programming method according to an example of the present disclosure.
  • FIG. 6 is a graph illustrating an example of segmenting an activation function into a substantially linear section and a non-linear section using gradient change data among segment data in an activation function programming method according to an example of the present disclosure.
  • FIG. 7 is a graph illustrating another example of segmenting an activation function into a substantially linear section and a non-linear section using gradient change data among segment data in an activation function programming method according to an example of the present disclosure.
  • FIG. 8 is a graph illustrating another example of segmenting an activation function into a substantially linear section and a non-linear section using gradient change data among segment data in an activation function programming method according to an example of the present disclosure.
  • FIG. 9 is a graph illustrating an example of converting one segment into one programmable segment using an error value in an activation function programming method according to an example of the present disclosure.
  • FIG. 10 is a graph illustrating an example of converting one segment into one programmable segment using a maximum error value in an activation function programming method according to an example of the present disclosure.
  • 11 is a graph illustrating an example of converting one segment into one programmable segment using an integral value for an error value in an activation function programming method according to an example of the present disclosure.
  • FIG. 12 is a graph illustrating an example of approximating one segment to one optimal programmable segment using machine learning in an activation function programming method according to an example of the present disclosure.
  • FIG. 13 is a graph illustrating an example of segmenting an activation function using an accumulation value and a threshold value of second derivatives of an activation function in an activation function programming method according to an example of the present disclosure.
  • 16 is a conceptual diagram illustrating a PAFE unit configured to process a programmed activation function according to an example of the present disclosure.
  • 17 is a conceptual diagram illustrating a PAFE unit of an NPU of a device configured to process a programmed activation function according to an example of the present disclosure.
  • FIG. 18 is a conceptual diagram illustrating an NPU of a device for processing a programmed activation function according to another example of the present disclosure.
  • 19 is a conceptual diagram illustrating a PAFE unit of an NPU of an apparatus for processing a programmed activation function according to another example of the present disclosure.
  • 20 is a conceptual diagram illustrating an NPU of a device for processing a programmed activation function according to another example of the present disclosure.
  • 21 is a conceptual diagram illustrating an NPU of a device for processing a programmed activation function according to another example of the present disclosure.
  • FIG. 22 is a conceptual diagram illustrating a PAFE unit configured to process a programmed activation function according to another example of the present disclosure.
  • FIG. 23 is a conceptual diagram illustrating a PAFE unit of an NPU of a device for processing a programmed activation function according to another example of the present disclosure.
  • FIG. 24 is a graph illustrating an example in which an apparatus for processing a programmed activation function approximates a sigmoid activation function to a programmable activation function according to another example of the present disclosure.
  • 25 is a conceptual diagram illustrating a PAFE unit of an NPU of a device for processing an activation function programmed according to another example of the present disclosure.
  • Embodiments according to the concept of the present disclosure may be implemented in various forms. This disclosure should not be construed as being limited to the embodiments described in this disclosure.
  • Embodiments according to the concept of the present disclosure may apply various changes.
  • This disclosure may take many forms. Accordingly, specific examples are illustrated in the drawings and described in detail in the present disclosure. However, this is not intended to limit the examples according to the concepts of the present disclosure to a specific disclosure form. Therefore, it should be understood that all changes, equivalents or substitutes included in the spirit and scope of the present disclosure are included in the present disclosure.
  • a first element may be named a second element, and similarly, a second element may also be named a first element.
  • expressions such as “A or B,” “at least one of A and/and B,” or “one or more of A or/and B” may include all possible combinations of the items listed together.
  • Expressions such as “first,” “second,” “first,” or “second,” used in this disclosure may modify various components regardless of order and/or importance.
  • the above expressions are used only to distinguish one element from another element and do not limit the elements.
  • a first user device and a second user device may represent different user devices regardless of order or importance.
  • a first element may be called a second element, and similarly, the second element may also be renamed to the first element.
  • Each feature of the various examples of the present disclosure may be partially or wholly combined or combined with each other.
  • Various examples of the present disclosure are technically capable of various interlocking and driving as can be fully understood by those skilled in the art.
  • Each of the examples of the present disclosure may be implemented independently of each other or may be implemented together in an association relationship.
  • FIG. 1 is a schematic conceptual diagram illustrating an apparatus for performing an activation function programming method according to an example of the present disclosure.
  • an apparatus (A) for performing an activation function programming method includes a neural processing unit (NPU) 1000 and an activation function conversion program unit (3000). can do.
  • the device (A) may mean a system.
  • the device A may further include a processor 2000, a main memory 4000, an image sensor 5000, and a decoder 6000. Accordingly, the device A may be configured to perform various artificial neural network inference functions.
  • Each component that may be included in the device A may exchange data through the bus 7000 .
  • the NPU 1000, the processor 2000, the main memory 4000, the image sensor 5000, and the decoder 6000 may be configured as electric circuits.
  • the activation function conversion program unit 3000 may be a computer program, software, firmware, application, or executable code stored in a recording medium. However, the present disclosure is not limited thereto.
  • the activation function conversion program unit 3000 may be a computer program configured to execute instructions for converting an activation function into a PAF expressed as a programmable parameter.
  • the activation function conversion program unit 3000 may be stored in a computer-readable recording medium.
  • Computer-readable recording media may include ROM, RAM, SSD, HDD, CD-ROM, flash memory, magnetic tape, floppy disk, optical data storage device, and the like.
  • the NPU 1000 is a processor specialized for operation for a deep neural network (DNN) separately from the processor 2000 .
  • the NPU 1000 may include operators specialized for convolution and matrix multiplication, which occupy most of the computational load of DNN.
  • the NPU 1000 and the processor 2000 may be semiconductor chips including electric circuits.
  • the NPU 1000 includes a controller 100, a direct memory access (DMA) 200, a memory 300, and at least one processing element 400. , and a programmed activation function execution unit (PAFE Unit) 500.
  • the programmed activation function execution unit 500 will be referred to as a PAFE unit and will be described.
  • the controller 100 may be electrically connected to the DMA 200 , the memory 300 , at least one processing element 400 , and the PAFE unit 500 .
  • the controller 100 may be configured to control operations related to DNN operations in the NPU 1000 .
  • At least one processing element 400 may be modified and implemented as a processing element array (eg, a systolic array).
  • the DMA 200 is configured so that the NPU 1000 directly accesses the main memory 4000 outside the NPU 1000 to perform read/write operations.
  • the NPU 1000 may read various data related to the DNN from the main memory 4000 through the DMA 200.
  • the DMA 200 may be configured to perform tasks such as setting, generating, and controlling addresses of the internal memory 300 .
  • the memory 300 is a memory disposed in an on-chip area of the NPU 1000 and may be a memory for caching or storing data processed in the on-chip area.
  • the memory 300 may read and store data required for DNN operation from the main memory 4000 .
  • the memory 300 may include one of memories such as ROM, SRAM, DRAM, resistive RAM, magneto-resistive RAM, phase-change RAM, ferroelectric RAM, flash memory, HBM, and the like.
  • the memory 300 may include at least one memory unit.
  • the memory 300 may be configured as a single (homogeneous) memory unit or a heterogeneous (heterogeneous) memory unit.
  • At least one processing element 400 may be configured to process an operation of parameters (eg, weights, kernels, queries (Q), keys (K), values (V), etc.) corresponding to input data of the DNN.
  • At least one processing element 400 may include a Multiple And Accumulate (MAC) operator and/or an Arithmetic Logic Unit (ALU) operator.
  • MAC Multiple And Accumulate
  • ALU Arithmetic Logic Unit
  • the PAFE unit 500 is configured to receive data (ie, programmable parameters) for a programmable activation function (PAF) converted into an activation function.
  • data ie, programmable parameters
  • PAF programmable activation function
  • the programmable activation function will be referred to as PAF.
  • the programmable parameter may be data generated by the activation function conversion program unit 3000 .
  • the programmable parameter may be configured to have a form compatible with the circuit of the PAFE unit 500 of the NPU 1000.
  • Programmable parameters may be configured to implement at least one PAF. That is, the PAFE unit 500 may be configured to receive a programmable parameter corresponding to at least one PAF generated by the activation function conversion program unit 3000 .
  • the PAF programmed through the activation function conversion program unit 3000 may include at least one programmable segment. That is, the programmable parameter may implement at least one programmable segment.
  • the NPU 1000 may perform a DNN operation by receiving data for a PAF in relation to an activation function.
  • the PAFE unit 500 applies the PAF generated by the activation function conversion program unit 3000 to the calculation value (e.g., feature map) output from the at least one processing element 400 to obtain an activation value. ( eg, activation map) can be created.
  • the PAFE unit 500 uses at least one programmable parameter generated in correspondence with at least one PAF. Accordingly, the PAFE unit 500 enables the NPU 1000 to process various activation functions, in particular, newly proposed or known but partially modified activation functions.
  • the PAFE unit 500 may be pipelined with at least one processing element 400 .
  • a value calculated by at least one processing element 400 may be input through a pipeline.
  • the at least one pipelined processing element 400 and the PAFE unit 500 may be configured to receive an operation value from the at least one processing element 400 and output an activation value to which PAF is applied.
  • bottlenecks that may occur in the at least one processing element 400 and the PAFE unit 500 may be minimized or substantially eliminated.
  • the examples of the present disclosure are not limited to the pipeline structure, and the PAFE unit may be implemented by merging with at least one processing element 400 .
  • the activation function conversion program unit 3000 may be operated by the processor 2000, but is not limited thereto.
  • the processor 2000 may be an arithmetic device such as a central processing unit (CPU) or an application processor (AP) capable of performing the activation function programming method disclosed in the present disclosure.
  • the activation function conversion program unit 3000 may be stored in a computer-readable recording medium.
  • the activation function conversion program unit 3000 may be implemented in firmware or software included in hardware. A separate computing system and operating system may be provided to drive the activation function conversion program unit 3000 .
  • the activation function conversion program unit 3000 may be a program for operating the NPU 1000 including the PAFE unit 500.
  • the activation function conversion program unit 3000 may be configured to perform an activation function programming method.
  • the activation function conversion program unit 3000 may be executed by the processor 2000 or a processor external to the device A.
  • the activation function conversion program unit 3000 may be configured separately from a compiler configured to compile a DNN in the device A. Alternatively, the activation function conversion program unit 3000 may be integrated with a compiler.
  • the activation function conversion program unit 3000 may be configured to program at least one activation function.
  • the activation function conversion program unit 3000 may be configured to provide the PAFE unit 500 with programmable parameters corresponding to at least one PAF.
  • the activation function conversion program unit 3000 may be configured to receive activation function information included in a DNN to be processed by the NPU 1000.
  • the activation function conversion program unit 3000 may obtain information on all activation functions to be processed by the NPU 1000 based on the provided information on at least one activation function. Accordingly, the activation function conversion program unit 3000 may program at least one activation function necessary for the DNN to be processed by the NPU 1000.
  • the activation function conversion program unit 3000 generates segment data for segmenting the activation function, segments the activation function into a plurality of segments using the generated segment data, and segments the plurality of segments. At least one of the segments may be approximated as a programmable segment. When the value of the programmable parameter is determined, an approximation level of the programmable segment may be determined.
  • the activation function conversion program unit 3000 may determine the number and width of the plurality of segments based on segment data.
  • the activation function conversion program unit 3000 may be configured to analyze characteristics of an activation function.
  • the activation function conversion program unit 3000 may be configured to analyze a change in the slope of an activation function.
  • the slope change data of the activation function may refer to all kinds of data from which the slope change of the activation function can be determined.
  • the activation function conversion program unit 3000 may analyze the characteristics of the activation function based on the gradient change data. In other words, the approximation error tends to increase in a region where the gradient of the activation function is significantly changed, and in the case of a region where the gradient is not changed, the approximation error may be zero. Accordingly, the activation function conversion program unit 3000 may be configured to approximate the activation function to an optimal condition by analyzing the gradient change data.
  • the slope change data of the activation function may be differential data of the activation function.
  • the slope change data may include at least one of a slope change value, a first derivative value, a second derivative value, and a third derivative value.
  • the activation function conversion program unit 3000 may determine a linear section and a nonlinear section of the PAF based on gradient change data of the activation function.
  • the activation function conversion program unit 3000 may determine a section in which a gradient change is substantially insignificant among nonlinear sections of the PAF as a substantially linear section.
  • the activation function conversion program unit 3000 may convert at least one segment into a programmable segment approximated by a specific equation.
  • the activation function conversion program unit 3000 may convert a specific segment of the activation function into a programmable segment approximated by a linear function.
  • the activation function conversion program unit 3000 may convert at least one segment into a programmable segment approximated with a specific slope and a specific offset value.
  • the activation function conversion program unit 3000 may convert at least one segment among a plurality of segments into a programmable segment using a specific nonlinear approximation equation.
  • the activation function conversion program unit 3000 may determine a gradient and an offset for approximating at least one segment to a programmable segment corresponding to a first-order function.
  • the activation function conversion program unit 3000 may search for a minimum error value while converting the gradient value and the offset value of the programmable segment. Alternatively, the activation function conversion program unit 3000 may search for a minimum error value by performing a cost function.
  • the activation function conversion program unit 3000 may calculate an error value between at least one segment of an activation function to be transformed and at least one candidate segment having a candidate gradient and a candidate offset.
  • the activation function conversion program unit 3000 may determine at least one candidate segment as a programmable segment based on the calculated error value.
  • the activation function conversion program unit 3000 may search for at least one minimum error value between programmable segments corresponding to each other and segments of the activation function.
  • the activation function conversion program unit 3000 may determine a programmable parameter of the programmable segment based on the searched for at least one minimum error value.
  • the error value determined here may be a minimum error value.
  • the examples of the present disclosure are not limited to the minimum error value, and the programmable parameter may be differently determined according to different priorities among the amount of calculation, the amount of power consumption, and the approximation error value.
  • the activation function conversion program unit 3000 may measure an approximation error value of a programmable segment obtained by converting a specific segment to a specific approximation function. For example, the activation function conversion program unit 3000 may measure a first error value of the programmable segment by approximating the specific segment to a programmable segment of a linear function. Additionally, the activation function conversion program unit 3000 may measure the second error value of the programmable segment by approximating the specific segment to a programmable segment of a quadratic function. The activation function conversion program unit 3000 may compare the first error value and the second error value and select an approximation function having a relatively smaller error value as a programmable segment. Through the above process, the activation function conversion program unit 3000 may select an activation function for artificial neural network operation and convert the activation function into a PAF.
  • the shape of the programmable parameter may also be determined.
  • the corresponding programmable parameters may include gradient and offset values.
  • the corresponding programmable parameter may include coefficients of the quadratic term.
  • An approximation function of each programmable segment may be selectively determined. That is, approximation functions of the first programmable segment and the second programmable segment may be identical to or different from each other.
  • the criterion for determining the characteristics of the approximation function of each programmable segment may be determined based on any one of the amount of calculation, power consumption, and approximation error value of the PAFE unit 500 .
  • the criterion for determining the characteristics of the approximation function of the programmable segment may vary depending on the amount of calculation, the amount of power consumption, and the relative priorities of approximation error values.
  • the priorities may be set in the activation function conversion program unit 3000.
  • the activation function conversion program unit 3000 may search for programmable parameters implementing an approximation function of a programmable segment to achieve specific performance among high-speed operation, low power consumption, and prevention of deterioration of inference accuracy.
  • examples of the present disclosure are not limited to specific approximation criteria.
  • the main memory 4000 may store data required for DNN operation.
  • the main memory 4000 may include one of memories such as ROM, SRAM, DRAM, resistive RAM, magneto-resistive RAM, phase-change RAM, ferroelectric RAM, flash memory, and HBM.
  • the main memory 4000 may include at least one memory unit.
  • the main memory 4000 may include a single (homogeneous) memory unit or a heterogeneous (heterogeneous) memory unit.
  • the image sensor 5000 generates an image or video data from light entering through a lens.
  • the NPU 1000 may use the image or video data as input data of a DNN processed in the NPU 1000.
  • the decoder 6000 decodes the input data of the encoded bit stream, and the decoded input data can be used as an input of the DNN.
  • the bit stream may be a bit stream encoded to perform at least one task.
  • Tasks that can be included in the bit stream include object detection, object segmentation, image/video reconstruction, image/video enhancement, object tracking, and event recognition ( Event Recognition, Event Prediction, Anomaly Detection, Density Estimation, Event Search, Measurement, and the like.
  • a bit stream may include a plurality of encoded operation values capable of handling a plurality of tasks.
  • Output data of the decoder 6000 may be an image, a video, a calculation value of a specific layer of the DNN, and the like.
  • FIG. 2 is a schematic flowchart illustrating an activation function programming method according to an example of the present disclosure.
  • the activation function programming method includes generating segment data for segmenting an activation function (S200), and segmenting the activation function into a plurality of segments using the generated segment data (S210). ), and approximating at least one of the plurality of segments into a programmable segment (S220).
  • Segment data is generated in step S200. Segment data is data generated to segment an activation function into a plurality of segments. Segment data will be described later.
  • step S210 the activation function is segmented into a plurality of segments using the generated segment data.
  • the term 'segment' means a part of an activation function divided into a plurality of intervals, and is distinguished from 'candidate segment' or 'programmable segment', which are terms related to approximation of an activation function.
  • step S210 may include determining the number and width of a plurality of segments based on the segment data.
  • the number of segments and the width of each of the plurality of segments segmenting the activation function to be transformed may be determined using the segment data.
  • At least one of the plurality of segments may have the same width as or a different width than other segments.
  • a section of a plurality of segments may be expressed as coordinates of a start point and an end point on the X axis. Meanwhile, it should be understood that if the number of segments and the width of each of the plurality of segments are determined, the coordinates of the section of the plurality of segments may be obtained using the number and width of the plurality of segments.
  • step S220 at least one segment among a plurality of segments is approximated as a programmable segment.
  • the programmable segment may be programmed according to the hardware configuration of the PAFE unit 500. That is, the activation function conversion program unit 3000 may be configured to program an activation function to be processed in the NPU 1000 as a PAF based on the hardware configuration of the PAFE unit 500.
  • the PAFE unit 500 can be configured to have hardware configured to compute each programmable segment with a specific slope and a specific offset.
  • the activation function conversion program unit 3000 may be configured to receive configuration information of the PAFE unit 500.
  • the activation function conversion program unit 3000 may program the programmable segment in the form of a linear function or a quadratic function having a slope and an offset.
  • a programmable segment can be approximated with a linear function according to certain criteria.
  • the activation function conversion program unit 3000 may generate a programmable segment expressed in the form of '(slope a) * (input value x) + (offset b)'.
  • the specific slope and specific offset described above may be programmable parameters.
  • step S220 may include approximating the selected segment with a specific gradient and a specific offset value.
  • steps 210 and 220 may be performed in substantially one step. This is because the step of segmenting the segment and the step of generating programmable parameters of the corresponding programmable segment can be performed simultaneously.
  • steps 210 and 220 segment the activation function into a plurality of segments using the generated segment data, and at least one of the plurality of segments is a programmable segment. It can be transformed into an approximation step.
  • FIG 3 is a graph illustrating a process of approximating an activation function by an activation function programming method according to an example of the present disclosure.
  • the activation function shown in FIG. 3(a) is segmented into a plurality of segments s1, s2, s3, and s4 using segment data as shown in FIG. 3(b).
  • the plurality of segments s1, s2, s3, and s4 include programmable segments (a 1 x+b 1 , a 2 x+b 2 , a 3 x+b 3 , a It is approximated as 4 x+b 4 ).
  • the activation function conversion program unit 3000 generates programmable parameters so that all programmable segments correspond to a first-order function will be described.
  • Each programmable segment includes corresponding programmable parameters.
  • all of the plurality of segments are approximated as programmable segments in the form of a linear function.
  • some segments among a plurality of segments may be approximated with other types of programmable segments.
  • the activation function conversion program unit 3000 may program each programmable segment in the form of a linear function, a quadratic function, a cubic function, or a logarithmic function.
  • segment s2 may be approximated using various methods available in the device where the activation function is to be processed. Specifically, when a lookup table, a nonlinear approximation, etc., which is predetermined and stored in the section of the segment s2 is available in hardware, the segment s2 is approximated using the predetermined and stored lookup table, the nonlinear approximation, etc. can
  • the activation function conversion program unit 3000 may be configured to independently program each of the segments s1, s2, s3, and s4. At this time, the activation function conversion program unit 3000 receives hardware configuration information of the PAFE unit 500.
  • the activation function conversion program unit 3000 may be configured to independently determine an approximation method for each of the segments s1 , s2 , s3 , and s4 based on hardware configuration information of the PAFE unit 500 .
  • the PAFE unit 500 may be configured to include circuitry supporting linear function operations.
  • the activation function conversion program unit 3000 may program each of the segments s1, s2, s3, and s4 in the form of a linear function.
  • the PAFE unit 500 may be configured to include circuitry supporting linear function and quadratic function operations.
  • the activation function conversion program unit 3000 may program each of the segments s1, s2, s3, and s4 in the form of a linear function or a quadratic function.
  • the PAFE unit 500 may be configured to include circuitry that supports linear function, quadratic function, and log function operations.
  • the activation function conversion program unit 3000 may selectively program each of the segments s1 , s2 , s3 , and s4 in the form of a linear function, a quadratic function, or a logarithmic function.
  • the PAFE unit 500 may be configured to include circuitry that supports linear, quadratic, logarithmic, and exponential function operations.
  • the activation function conversion program unit 3000 may selectively program each of the segments s1 , s2 , s3 , and s4 in the form of a linear function, a quadratic function, a logarithmic function, or an exponential function.
  • the activation function conversion program unit 3000 may include segments s1, s2, s3, and s4 can be programmed in the form of a corresponding specific function.
  • the PAFE unit 500 includes at least one of a first order function calculation circuit, a second order function calculation circuit, a cubic function calculation circuit, a logarithmic function calculation circuit, an exponential function calculation circuit, or a similar function calculation circuit designed as hardware. can be configured to include
  • the activation function conversion program unit 3000 may program the same activation function in different ways.
  • the activation function conversion program unit 3000 may program a specific activation function only as a primary function.
  • the activation function conversion program unit 3000 may program a specific activation function only as a quadratic function.
  • the activation function conversion program unit 3000 may program a specific activation function only as a cubic function.
  • the activation function conversion program unit 3000 may program a specific activation function only as a logarithmic function.
  • the activation function conversion program unit 3000 may program a specific activation function only as an exponential function.
  • the activation function conversion program unit 3000 may program each of a plurality of segments of a specific activation function as a corresponding approximation function.
  • the activation function conversion program unit 3000 may program a plurality of segments of a specific activation function as a set of approximation functions of different formulas.
  • FIG. 4 is a graph illustrating various cases of segmenting an activation function into a plurality of segments by an activation function programming method according to an example of the present disclosure.
  • the PAF may be segmented to have a uniform width with the number of segments of 4.
  • the PAF may be segmented to have four segments and different widths.
  • the PAF may be segmented to have four segments and different widths.
  • the PAF may be segmented to have 6 segments and different widths.
  • the number of segments and the width of each of the segments may be determined using segment data.
  • the activation function conversion program unit 3000 may be configured to segment a plurality of segments with different widths by analyzing nonlinearity of the activation function.
  • the present disclosure is not limited thereto.
  • the activation function conversion program unit 3000 may be configured to analyze the nonlinearity of the activation function so that each of the plurality of segments is segmented with an optimal width.
  • the present disclosure is not limited thereto.
  • the activation function may be implemented in various forms including characteristic intervals.
  • the number and width of the plurality of segments may be variously determined according to various shapes of the activation function.
  • swish function Mish function, sigmoid function, hyperbolic tangent function, SELU function, GELU (Gaussian Error Linear Unit) function, SOFTPLUS function, ReLU function, Leaky ReLU function , Maxout function, ELU function, etc. have various forms divided into a plurality of characteristic intervals including (substantially) linear intervals and/or non-linear intervals.
  • the method of approximating an activation function proposes the concept of segment data to segment an activation function in consideration of these characteristic sections of the activation function.
  • the segment data includes discontinuity information of the activation function, differential data, information of hardware in which the activation function is processed, and the like, and also includes data obtained by processing them.
  • FIG. 5 is a graph illustrating an example of segmenting an activation function into a linear section and a non-linear section using gradient change data among segment data in an activation function programming method according to an example of the present disclosure.
  • the gradient change point of the activation function may mean a point where the gradient of the activation function changes.
  • the activation function conversion program unit 3000 may be configured to generate gradient change data (eg, differential data) for analyzing a gradient change point of an activation function.
  • gradient change data of the present disclosure is not limited to differential data and may include similar data.
  • Gradient change data may include an n-order differential value of an activation function, for example, a first-order differential value, a second-order differential value, a third-order differential value, and the like.
  • the gradient change data may indicate a gradient change rate and a gradient change point related to an activation function.
  • the slope change points may mean points (d 1 , d 2 , d 3 ) at which slope change data are discontinuous. That is, the gradient of the activation function always changes at points where the gradient change data are discontinuous (d 1 , d 2 , d 3 ). Accordingly, the gradient change point of the present disclosure may mean a discontinuous point of an n-order derivative of an activation function, for example, a first-order differential value, a second-order differential value, a third-order differential value, or the like.
  • the first order derivative f′(x) is shown in FIG. 5(b).
  • the second derivative f''(x) is shown in FIG. 5(c).
  • the activation function conversion program unit 3000 may be configured to extract a start point and an end point of an interval in which the first derivative value does not change. As shown in FIG. 5( b ), the activation function conversion program unit 3000 generates gradient change data corresponding to the first derivative value. Then, the activation function conversion program unit 3000 recognizes that there is no change in the first derivative values although the first derivative values are different in each of the w2 section and the w3 section. Accordingly, the activation function conversion program unit 3000 may determine each of the interval w2 and the interval w3 as a linear interval. That is, the slope change data corresponding to the first order differential value within the linear interval does not change.
  • the slope change data corresponding to the first order differential value at the boundary of each of the w2 section and the w3 section has discontinuous points (d 1 , d 2 ). That is, since the gradient change data corresponding to the first derivative at the boundary of each of the sections w2 and w3 is a discontinuous point, the boundary of each section w2 and w3 may correspond to a gradient change point.
  • the activation function conversion program unit 3000 may convert the linear section into a programmable parameter in the form of a corresponding linear function. Therefore, the linear section of the activation function to be programmed can be segmented into a linear function having a specific slope and a specific offset.
  • the first derivative of the linear interval may be a constant value. In other words, even if the linear section is approximated with a linear function, the approximation error value may be zero. Therefore, the activation function conversion program unit 3000 may determine that there is substantially no approximation error in each of the sections w2 and w3. That is, when the activation function conversion program unit 3000 approximates each of the sections w2 and w3 with a linear function, the calculation amount and power consumption of the PAFE unit 500 are minimized, and the approximation error value may also be 0.
  • the activation function conversion program unit 3000 may be configured to determine an interval in which the first derivative of the activation function is constant or non-zero as an interval of a quadratic function or a curve (nonlinear function).
  • the term 'linear interval' in relation to differential data means an interval in which the first derivative of an activation function is an integer or 0, or an interval in which an activation function is expressed as a linear function
  • the term 'non-linear interval' may mean an interval in which the first derivative of an activation function is not an integer or 0.
  • the determination of the linear section of the examples of the present disclosure is not determined only by the differential value. That is, the activation function conversion program unit 3000 may be configured to determine or classify a linear section in various ways by receiving an activation function.
  • the activation function conversion program unit 3000 may be configured to preferentially determine whether a linear section exists.
  • the activation function conversion program unit 3000 may be configured to convert the linear section into a programmable parameter in the form of a linear function and convert the remaining nonlinear section into a programmable parameter in the form of a specific function.
  • differential data described in the examples of the present disclosure is only one mathematical calculation method for calculating the gradient of an activation function.
  • the present disclosure is not limited to differential values, and it is possible to utilize substantially similar gradient calculation methods.
  • the search for the gradient change point is not limited to the above method, and the activation function conversion program unit 3000 sets the corresponding point as the gradient change point when the change in the first derivative of the activation function becomes greater than a specific threshold value along the X axis. It can be configured to judge.
  • the activation function conversion program unit 3000 may be configured to extract the starting point and the ending point of an interval in which the second derivative value does not change. As shown in FIG. 5(c), the activation function conversion program unit 3000 generates gradient change data corresponding to the second order derivative. Then, the activation function conversion program unit 3000 determines that the second derivative values are different in each of the intervals w1-1 and w1-2, but there is no change in the second derivative. However, since the second derivative values are different in each of the w1-1 interval and w1-2 interval, the slope change data corresponding to the second derivative value at the boundary of each w1-1 interval and w1-2 interval is a discontinuous point (d 3 ).
  • the slope change at the boundary of each of the w1-1 and w1-2 sections may correspond to a branch.
  • the activation function conversion program unit 3000 may convert the nonlinear section into a programmable parameter in the form of a corresponding quadratic function. Therefore, the nonlinear section of the activation function to be programmed can be segmented into a quadratic function having a specific slope and a specific offset including coefficients of a quadratic term and coefficients of a linear term.
  • the second derivative of the nonlinear interval may be a constant value. In other words, even if the nonlinear section is approximated with a quadratic function, the approximation error value may be zero. Accordingly, the activation function conversion program unit 3000 may determine that there is substantially no approximation error in each of the sections w1-1 and w1-2.
  • the activation function conversion program unit 3000 approximates each of the sections w1-1 and w1-2 with a quadratic function, the calculation amount and power consumption of the PAFE unit 500 are minimized, and the approximation error value may also be 0. there is.
  • the examples of the present disclosure are not limited thereto, and it is possible that the intervals w1-1 and w1-2 are approximated with a linear function.
  • the approximation error value may increase, but power consumption of the NPU 1000 may be reduced by reducing the amount of calculation of the PAFE unit 500 of the NPU 1000 . That is, the activation function conversion program unit 3000 may differently determine the programmable parameters according to different priorities among the calculation amount, the power consumption amount, and the approximation error value.
  • the above-described second derivative of the activation function may indicate a rate of change of the slope of the activation function. Since a section in which the second derivative of the activation function is relatively large is a section in which the rate of change of the slope is large, the segment of the activation function corresponding to this section has a large change in slope and a large increase or decrease. Conversely, since a section in which the second derivative of the activation function is relatively small is a section in which the change rate of the slope is small, the segment of the activation function corresponding to this section has a small change in slope and a small increase or decrease.
  • a section in which the second derivative of the activation function is less than or equal to a specific threshold value is a section in which the rate of change of the slope is very small.
  • the activation function conversion program unit 3000 may be configured to determine the activation function of this interval as a substantial first-order function interval in which the slope hardly changes.
  • the activation function conversion program unit 3000 may be configured to determine an interval in which the second derivative of the activation function is less than or equal to a threshold value is a 'substantially linear interval'.
  • a threshold value is a 'substantially linear interval'.
  • the differential order at which the differential value of the activation function becomes 0 or an integer may represent the degree of change in the slope of the activation function. Specifically, in general, since the gradient of the function changes rapidly as the degree of the highest order term of the function increases, the section with the high degree of the activation function is distinguished from other sections as a section with a rapid change in the slope, and the number of segments is greater. It can be segmented to have
  • the order of the highest order term of the activation function in a specific section may be determined through a differential order in which the differential value becomes 0 or an integer in the specific section.
  • the activation function in which the highest order term is 3rd order in a specific interval becomes an integer (ie, the coefficient of the highest order term) and the 4th order derivative of the activation function becomes 0 Therefore, the activation function in which the 3rd order differential value is an integer or the 4th order differential value is 0 in a specific section may be determined to be the 3rd order of the highest order term in the specific section.
  • a section in which the degree of the highest order term of the activation function is 3 or higher may be segmented to have a larger number of segments by distinguishing it from other sections.
  • the number of segments in a section in which the degree of the highest order term of the activation function is 3 or higher may be determined as the maximum number of segments that can be segmented for the corresponding section in hardware in which the activation function is to be processed.
  • the slope change point of the activation function may be identified using the slope change data ( ie, the first derivative f'(x)).
  • the activation function f(x) has three intervals (w1, w2, w3) including two linear intervals (w2, w3) can be segmented into
  • the activation function conversion program unit 3000 may determine and segment the linear sections w2 and w3 and the nonlinear section w3 using gradient change data of the activation function f(x) to be programmed.
  • the activation function f(x) is segmented according to points or intervals where the first derivative f'(x) is a (non-zero) constant, 0, a curve below a critical point (nonlinear function), or a curve (nonlinear function). can be mounted.
  • the activation function f(x) may be segmented according to a point where the activation function f(x) is not differentiable or a point where the first derivative f′(x) is discontinuous.
  • segmentation into three sections is shown in FIG. 5 (b), this is to briefly explain the process of segmenting into a linear section and a nonlinear section.
  • the activation function f(x) uses segment data to It should be understood that segmentation may be made into more than four sections, that is, at least four segments.
  • the linear section w1 may be further segmented into a plurality of sections using segment data according to the activation function programming method according to examples of the present disclosure.
  • the activation function can be segmented into a larger number of segments and approximated by additional segmentation of the linear interval w1, so that an approximation error can be reduced.
  • the term 'approximation error' means a difference between a specific segment of an activation function and a programmable segment that approximates the specific segment.
  • FIG. 6 is a graph illustrating an example of segmenting an activation function into a substantially linear section and a non-linear section using gradient change data among segment data in an activation function programming method according to an example of the present disclosure.
  • the activation function conversion program unit 3000 may be configured to determine the substantially linear interval by setting a threshold value of the substantial linear interval to the second order derivative f”(x). Referring to FIG. 6(b), when the maximum value (Max) of the absolute value of the second derivative f''(x) of the activation function f(x) is 0.5, 0.05, which is 10% of the maximum value (Max). may be set as the threshold value Th of the substantially linear section. In other words, it can be determined that the activation function has a linear characteristic as the second derivative f”(x) is small, and a non-linear characteristic as the secondary derivative f”(x) is large.
  • the threshold value Th of the substantially linear interval may be determined as a relative ratio of the absolute value of the second order derivative f′′(x) of the activation function f(x) to the maximum value Max.
  • the threshold value Th of the substantially linear section may be determined based on whether an error occurring when approximating a linear section, but not a linear section, is tolerable.
  • the threshold value of the substantially linear interval may be determined according to the level of the error value of each segment that determines the degree of deterioration of inference accuracy of the DNN to which PAF is applied.
  • a segment of the linear section can be programmed more widely.
  • the width of the segment increases, the number of segments may be reduced. That is, the total number and width of segments of the PAF may be different according to the threshold value of the substantially linear section.
  • the search for the substantially linear section may be performed after the search for the linear section.
  • the present disclosure is not limited to the order of linear interval search and substantial linear interval search.
  • the threshold value Th of the substantially linear section may be determined as 10% of the maximum value max of the second order derivative.
  • the present disclosure is not limited thereto and may be determined as 5% of the maximum value (max) according to the allowable error of the DNN.
  • the activation function f(x) is the interval (w1, w3) in which the second derivative f''(x) is less than or equal to the threshold value Th of the substantially linear interval.
  • the second order derivative f''(x) may be segmented into an interval w2 that is greater than or equal to the threshold value Th of the substantially linear interval.
  • a substantially linear (w1, w3) section and a nonlinear section (w2) may be determined and segmented using the slope change data.
  • the first to third sections w1 , w2 , and w3 are determined, the first to third segments s1 , s2 , and s3 may be programmed as programmable segments using corresponding programmable parameters.
  • FIG. 6(b) shows the result of segmenting into three segments s1, s2, and s3 corresponding to the three sections w1, w2, and w3, but it is segmented into a substantially linear section and a non-linear section This is to briefly explain the process. That is, it should be understood that the activation function f(x) can be segmented into 4 or more sections, that is, 4 or more segments, using segment data.
  • the nonlinear section w2 may be further segmented into a plurality of sections using segment data according to the activation function programming method according to examples of the present disclosure. Approximation errors may be reduced by additional segmentation of the nonlinear section w2.
  • FIG. 7 is a graph illustrating another example of segmenting an activation function into a substantially linear section and a non-linear section using gradient change data among segment data in an activation function programming method according to an example of the present disclosure.
  • the nonlinear interval is segment data, that is, the absolute value of the second derivative f''(x). It may be determined based on the threshold value Th of the substantially linear section. That is, a region equal to or greater than the threshold value Th of the substantially linear section may be determined as a non-linear section.
  • the activation function conversion program unit 3000 converts the activation function f(x) into a substantially linear interval and a nonlinear interval using differential data, that is, the second order derivative f''(x). It can be segmented into intervals.
  • the activation function conversion program unit 3000 may segment the nonlinear section of the activation function f(x) into segments s2 and s3 corresponding to the two sections w2 and w3, for example.
  • the activation function conversion program unit 3000 distinguishes between a substantially linear (w1, w4) section and a nonlinear section (w2, w3) using the slope change data of the activation function f(x), and converts the nonlinear section (w2, w3) can be segmented.
  • the activation function conversion program unit 3000 may be configured to search for optimal programmable parameters corresponding to each segment in various ways.
  • the activation function conversion program unit 3000 may search for optimum programmable parameters capable of achieving specific performance among high-speed operation, low power consumption, and prevention of deterioration of inference accuracy.
  • the nonlinear sections w2 and w3 may be further segmented into a plurality of sections using segment data according to an activation function programming method according to an example of the present disclosure.
  • the nonlinear sections w2 and w3 may be segmented based on the maximum value Max of the second derivative f''(x). That is, the region from the critical value Th of the substantially linear interval to the maximum value Max of the second derivative f''(x) is segmented into the w2 interval. And, the critical value Th of the substantially linear section from the maximum value (Max) of the second derivative value f''(x) is segmented into sections w3.
  • An approximation error may be further reduced when additional segmenting is performed in the nonlinear sections w2 and w3.
  • FIG 8 is a graph illustrating another example of segmenting an activation function into nonlinear sections by using gradient change data among segment data in an activation function programming method according to an example of the present disclosure.
  • the nonlinear interval is segment data, that is, the absolute value of the second derivative f''(x). It may be determined based on the threshold value Th of the substantially linear section. That is, a region equal to or greater than the threshold value Th of the substantially linear section may be determined as a non-linear section.
  • the activation function conversion program unit 3000 converts the activation function f(x) into a substantially linear section and nonlinear section using differential data, that is, a second order derivative f''(x). It can be segmented into intervals. Furthermore, the activation function conversion program unit 3000 segments the nonlinear section of the activation function f(x) into segments s2, s3, and s4 corresponding to three sections w2, w3, and w4, for example. can
  • the activation function conversion program unit 3000 distinguishes between a substantially linear (w1, w5) section and a nonlinear section (w2, w3, w4) using the slope change data of the activation function f(x), and the nonlinear section (w2, w5).
  • w3, w4) may be segmented.
  • the example of the present disclosure is not limited to the substantially linear section, and the substantially linear section may also be segmented into non-linear sections. That is, the step of determining the substantially linear section may not be performed in some cases.
  • the activation function conversion program unit 3000 may be configured to search for optimal programmable parameters corresponding to each segment in various ways.
  • the activation function conversion program unit 3000 may search for optimum programmable parameters capable of achieving specific performance among high-speed operation, low power consumption, and prevention of deterioration of inference accuracy.
  • segments s1, s2, s3, s4, and s5 segmented into five sections w1, w2, w3, w4, and w5 are shown.
  • the activation function f(x) may be segmented into 6 or more sections, that is, 6 or more segments, using segment data.
  • the example of the present disclosure is not limited to the substantially linear section, and the substantially linear section may also be segmented into non-linear sections.
  • nonlinear sections w2 , w3 , and w4 may be further segmented into a plurality of sections using segment data according to the activation function programming method according to the example of the present disclosure.
  • the nonlinear intervals (w2, w3, w4) are the integral value of the second derivative f''(x) ( ) may be segmented.
  • the activation function conversion program unit 3000 may segment the nonlinear sections based on the integral value of the gradient change data.
  • the integral of the second derivative f''(x) ( ) value may increase the approximation error value between the PAF and the activation function. That is, the integral value of the second order derivative f''(x) ( ) If the value is high, an error may occur and deterioration of inference accuracy may occur. On the other hand, the integral value of the second derivative f''(x) ( ), the larger the value, the wider the width of the segment. Conversely, the integral of the second derivative f''(x) ( ), the smaller the value, the narrower the segment width may be.
  • the activation function conversion program unit 3000 is an integral value ( ) value may be set as the integral threshold of the segment approximation error.
  • the activation function conversion program unit 3000 may integrate the second order derivative f''(x) from the end of the interval w1.
  • the interval w2 may be from the end of the interval w1 until the preset integration threshold of the segment approximation error reaches a specific value.
  • the integral value of the second derivative f''(x) in the w2 interval ( ) can be segmented into s2 so that it corresponds to the integral threshold of the segment approximation error.
  • the integral value of the second derivative f''(x) in the w3 interval ( ) can be segmented into s3 so that it corresponds to the integral threshold of the segment approximation error.
  • the integral value of the second derivative f''(x) in the w4 interval ( ) can be segmented into s4 so that it corresponds to the integral threshold of the segment approximation error.
  • the integral value of the second derivative f''(x) in the interval w2 ( ) and the integral of the second derivative f''(x) in the interval w3 ( ) and the integral of the second derivative f''(x) in the interval w4 ( ) may all have the same value as the integration threshold of the segment approximation error.
  • the integration threshold of the segment approximation error is the number of comparators of the PAFE unit 500 of the NPU 1000, the number of gates used to implement the circuit of the PAFE unit 500, the type of implemented arithmetic circuit (1 Hardware data including at least one of a quadratic function circuit, a quadratic function circuit, a cubic function circuit, an exponential circuit, a logarithmic circuit, an antilog circuit, and the like) may also be affected. That is, the activation function conversion program unit 3000 may be configured to determine an integral threshold value of segment approximation error in consideration of the hardware data.
  • the smaller the integration threshold of the segment approximation error the closer the PAF can be to the activation function.
  • the integration threshold of the segment approximation error decreases, the number of programmable segments increases, and thus the approximation error value of the PAF can be further reduced.
  • the lower limit of the integration threshold of the segment approximation error may be determined according to the hardware data.
  • Approximation errors can be further reduced when additional segmenting is performed in the aforementioned nonlinear sections w2, w3, and w4.
  • the example of the present disclosure is not limited to the substantially linear section, and the substantially linear section may also be segmented into non-linear sections. That is, the step of determining the substantially linear section may not be performed in some cases.
  • the activation function conversion program unit 3000 may determine a linear section from the activation function before approximating the activation function by segmenting the activation function using the gradient change data.
  • the activation function conversion program unit 3000 may determine a non-linear section from the activation function before approximating the activation function.
  • the activation function conversion program unit 3000 segments the activation function using the gradient change data, it may determine a substantially linear section from the activation function before approximating the activation function.
  • a segment having a distinct linear section or a substantially linear section may be approximated as a programmable segment expressed in the form of '(slope a) * (input value x) + (offset b)'.
  • the linear section or the segment having the substantially linear section is in the form of a linear function or a substantially linear function having an almost constant slope. Therefore, comparing the activation function with a programmable segment expressed as a slope and an offset, the programmed segment has no approximation error or can be minimized.
  • the activation function is programmed using the slope change data, the amount of computation and power consumption for the linear section or the substantially linear section can be greatly reduced.
  • the activation function programmed with the linear or substantially linear interval according to the examples of the present disclosure is efficient and the approximation error is minimized, thereby improving the operation speed of the DNN processed in the NPU 1000, minimizing deterioration in inference accuracy, and improving the NPU 1000.
  • a reduction in power consumption can be provided.
  • step S210 may further include determining a linear interval of the activation function based on the slope change data of the activation function.
  • step S210 may further include determining a nonlinear section of the activation function based on the slope change data of the activation function.
  • step S210 may further include determining a substantially linear interval of the activation function based on the slope change data of the activation function.
  • step S210 may further include determining a linear section and a non-linear section of the activation function based on the slope change data of the activation function.
  • step S210 may further include determining a substantially linear section and a non-linear section of the activation function based on the slope change data of the activation function.
  • step S210 may further include determining a linear interval, a substantially linear interval, and a non-linear interval of the activation function based on the differential data of the activation function.
  • the examples of the present time are not limited to the differential data of the activation function, and it is also possible to perform various mathematical analyzes capable of analyzing the slope change and linearity of the activation function.
  • segment data may include information of hardware on which an activation function is processed.
  • an activation function may be segmented using hardware information.
  • the hardware data includes the number of comparators of the PAFE unit 500 of the NPU 1000, the number of gates used to implement the circuit of the PAFE unit 500, and the type of implemented arithmetic circuit (primary function circuit, quadratic function circuit). function circuit, cubic function circuit, exponential circuit, logarithmic circuit, antilog circuit, etc.).
  • the number of segments for segmenting the activation function may be limited according to the number of comparators of the PAFE unit 500 of the NPU 1000 . Accordingly, the activation function may be segmented into the maximum number of segments that can be processed by the NPU 1000 to be processed or the number of segments corresponding to the allocated resources of the NPU 1000. Accordingly, the activation function conversion program unit 3000 can program the activation function using predetermined hardware resources more efficiently or in a more customized manner.
  • step 220 may further include approximating at least one of the plurality of segments to a programmable segment based on the gradient change point.
  • step 220 may further include approximating at least one of the plurality of segments to a programmable segment based on the error value.
  • the term 'error value' or 'approximation error value' means the difference between a specific segment of an activation function and a programmable segment to which the specific segment is approximated.
  • the approximation error value may further include an average value, a minimum value, a maximum value, and an accumulated value.
  • the activation function conversion program unit 3000 may be configured to calculate an average error value, a minimum error value, a maximum error value, an accumulated error value, and the like between a specific segment and an approximated programmable segment.
  • the cumulative error value may be a value obtained by integrating error values between a specific segment and an approximated programmable segment.
  • various activation functions can be divided into a plurality of characteristic intervals including (substantially) linear intervals and/or non-linear intervals, and segmenting these characteristic intervals into segments of the same width results in each segment
  • Each error value varies greatly. Accordingly, in the activation function programming method according to examples of the present disclosure, in order to reduce an approximation error, at least one feature of these characteristic sections may be considered and approximated into programmable segments.
  • step S220 may further include calculating an error value by comparing the slope and offset of the programmable segment with a corresponding segment of the activation function.
  • step S220 may further include determining a programmable parameter for converting at least one segment of an activation function into the programmable segment. In other words, step S220 may further include searching for optimal programmable parameters for converting at least one segment of the activation function into the programmable segment.
  • the programmable segment is a linear function
  • the programmable parameters may include a gradient and an offset corresponding to the linear function.
  • the programmable parameter may include coefficients of the quadratic term corresponding to the quadratic function. Coefficients of a quadratic function may include quadratic coefficients, linear coefficients, and constants.
  • An approximation function of the programmable parameter may be determined in consideration of performance such as high-speed operation, low power consumption, and prevention of deterioration of inference accuracy. For example, as the formula of the approximation function becomes more complicated, the calculation speed may decrease and power consumption may increase. As the approximation error decreases, deterioration in inference accuracy may be reduced.
  • step S220 may further include calculating an error value between at least one segment of the activation function and at least one candidate segment having a (temporary) gradient and a (temporary) offset.
  • step S220 may include determining a parameter of the at least one candidate segment as a programmable parameter of the programmable segment based on the calculated error values.
  • the activation function conversion program unit 3000 may provide programmed activation function data to the NPU 1000 .
  • the programmed activation function data may include at least one programmed activation function.
  • the programmed activation function data may include programmable parameters corresponding to each programmable segment of the at least one programmed activation function.
  • a step may appear at a junction between programmable segments.
  • an approximation error can be greatly reduced by generating a predetermined step between programmable segments or at the start and/or end of one programmable segment.
  • the term 'candidate segment' means a function that can become a programmable segment expressed by a 'programmable parameter' using an activation function programming method.
  • the programmable segment when expressed as a linear function, the programmable segment may be expressed as '(slope a) * (input value x) + (offset b)'.
  • programmable parameters include slope a and offset b.
  • the programmable segment is expressed as a quadratic function
  • the programmable segment is '(quadratic coefficient a)*(input value x 2 )+(linear coefficient b)*(input value x)+(constant c)'
  • the programmable parameters include a quadratic coefficient a, a linear coefficient b, and a constant c.
  • the programmable parameter may be configured to have a form capable of expressing both a first-order function and a second-order function.
  • the present disclosure is not limited to the format of programmable parameters.
  • the candidate segment may be in the form of a linear function corresponding to a programmable segment segmented using segment data.
  • Candidate segments for one segment may be determined by a linear function passing through the start and end points of one segment.
  • a candidate segment for one segment may be a linear function with an offset adjusted while having the same slope as a linear function passing through the start and end points of one segment.
  • a candidate segment for one segment may be a linear function having an offset adjusted while having a different slope from a linear function passing through the start and end points of one segment.
  • a candidate segment for a segment may be determined as one of the tangents of the segment.
  • the first candidate segment S c1 is a linear function passing through the start and end points of the segment s
  • the second candidate segment S c2 and the third candidate segment S c3 are the first candidate segment S c1
  • It is a linear function with an offset adjusted while having a slope common to
  • the third candidate segment S c3 has an offset such that the candidate segment S c3 is tangent to the segment s.
  • the candidate segments shown in FIG. 9 are for briefly describing segments that can become approximated programmable segments, and the slope and/or offset of actual candidate segments can be adjusted in various ways to reduce an error value.
  • At least one segment among a plurality of segments may be approximated as a programmable segment by searching for an error value ⁇ y.
  • the activation function conversion program unit 3000 may determine the width of each of the plurality of segments as a uniform width. Subsequently, the activation function conversion program unit 3000 may approximate at least one segment among a plurality of segments to a programmable segment by searching for an error value ( ⁇ y) of at least one segment.
  • ⁇ y error value
  • each of the candidate segments s c1 (x) and s c2 (x) is an optimum that expresses each linear function passing through the start and end points of each of the segments s1 and s2.
  • Explore programmable parameters ie, slope and offset).
  • the activation function conversion program unit 3000 generates an error value ⁇ y between the second segment s2 and the second candidate segment s c2 (x), that is, Calculate the absolute value of 'f(x)-s c2 (x)' (
  • the activation function conversion program unit 3000 may also calculate the maximum error value (max( ⁇ y)), which is the largest value among the error values ( ⁇ y). In order to reduce the maximum error value max( ⁇ y) of the second segment s2, the maximum error value max( ⁇ y) of the candidate segment s c2 (x) as shown in FIG.
  • the second programmable segment (s p2 (x) in which the second candidate segment adjusted in the y-axis direction by the value of max ( ⁇ y) / 2, which is half of ( ie, offset adjustment) approximates the second segment ( s2 ) ) can be determined.
  • the first programmable segment s p1 (x) approximating the first segment s1 is shown in FIG. 10 (b)
  • the first programmable segment s p1 (x) and the second programmable segment s A step may occur in the Y axis between p2 (x)).
  • the Y-axis step at the junction of these adjacent programmable segments converts the second segment s2 of the activation function f(x) to an error value (
  • each programmable segment may be approximated independently of each other.
  • At least one segment among a plurality of segments may be approximated as a programmable segment using an integral value ( ⁇ [s c (x)-f(x)]dx) for an error value.
  • the activation function conversion program unit 3000 may be configured to integrate or accumulate approximation error values of each segment.
  • first programmable segment s p1 (x) and the second programmable segment s p2 (x) may be programmed in different ways. That is, each programmable segment can be programmed by selecting a method such as a linear function, a quadratic function, a logarithmic function, or an exponential function. Thus, each programmable segment can be programmed with the same function or with a different function.
  • 11 illustrates an example of approximating one segment to a programmable segment using an integral value ( ⁇ [sc(x)f(x)]dx) for an error value in an activation function programming method according to an example of the present disclosure. it's a graph
  • each of the candidate segments s c1 (x) and s c2 (x) is an optimal programmable expression expressing the start and end points of each of the segments s1 and s2 as a linear function.
  • the offset of the actual second candidate segment s c2 (x) may be adjusted while having the same slope as a linear function passing through the start and end points of the second segment s2. Alternatively, the offset may be adjusted while having a slope different from that of the linear function passing through the start and end points of the second segment s2.
  • the first segment s1 includes a start point x0 and an end point x1.
  • the starting point (x0) and the ending point (x1) may mean segment boundary values.
  • the second segment s2 includes a start point x1 and an end point x2.
  • the starting point (x0) and the ending point (x1) may mean segment boundary values.
  • the first segment s1 may be set from a point in time x0 to less than an end point x1.
  • the second segment s2 may be set from a point in time x1 to less than an end point x2.
  • Programmable parameters may be configured to include segment boundary values.
  • the activation function conversion program unit 3000 calculates an integral value ( ) is calculated as an approximation error value, and the integral value ( ), that is, the integral value ( ) search for a candidate segment with the smallest absolute value.
  • the integral value ( The absolute value of is the smallest, i.e. min( ) may be determined as the second programmable segment s p2 (x).
  • the first programmable segment s p1 (x) approximating the first segment s1 is shown in FIG. 11 (b)
  • the first programmable segment s p1 (x) and the second programmable segment s A predetermined step may appear between p2 (x)) in the Y axis.
  • this step difference is the approximation error value ( ) based on the second programmable segment (s p2 (x)) may occur in the process of approximation.
  • the approximation error value of each programmable segment is minimized, deterioration in inference accuracy of the NPU 1000 using the PAF may be reduced.
  • step S220 may further include searching for a minimum approximation error value between the programmable segment and the corresponding segment of the activation function.
  • the approximation error value may be at least one of an average error value, a minimum error value, a maximum error value, and an accumulated error value.
  • step S220 may further include searching for at least one minimum error value between at least one programmable segment and a corresponding segment of at least one activation function.
  • operation S220 may further include determining the slope and offset of the programmable segment based on the at least one detected minimum error value.
  • operation S220 may include approximating the at least one segment to the programmable segment according to the determined slope and offset.
  • step S220 may further include determining the programmable segment using machine learning using a loss function.
  • FIG. 12 is a graph illustrating an example of approximating one segment to an optimal programmable segment using machine learning in an activation function programming method according to an example of the present disclosure.
  • the activation function conversion program unit 3000 sets a candidate segment s c (x) for the activation function f(x) as an initial value of the loss function.
  • the activation function conversion program unit 3000 may determine a candidate segment having the smallest value of the loss function as an optimal programmable segment (s op (x)) through machine learning. Accordingly, an optimized programmable parameter may be searched for.
  • learning may be repeatedly performed.
  • One-time learning may mean one epoch.
  • the error value may be reduced. If the number of trainings is too small, it can lead to under-fitting. Too many training times can lead to over-fitting.
  • a candidate segment used as an initial value for a loss function may be, for example, a linear function, a quadratic function, or a cubic function approximated using segment data to correspond to segmented segments.
  • examples according to the present disclosure are not limited to the above functions. That is, the loss function may be used after the activation function f(x) is segmented into a plurality of segments using segment data.
  • machine learning using a loss function is performed after the characteristics of the activation function itself, such as a plurality of characteristic intervals including (substantially) linear intervals and / or nonlinear intervals of the activation function, approximation errors, etc. are already considered.
  • the calculation amount and search time of the optimized programmable parameter search can be reduced, and deterioration in inference accuracy of the NPU 1000 due to the use of PAF can be minimized.
  • an effect of reducing the number of unnecessary segments may be provided. That is, according to examples of the present disclosure, it is also possible to minimize the number of segments. In other words, if the sum of approximation error values of two adjacent programmable segments is less than a preset threshold value, the two programmable segments may be integrated into one programmable segment.
  • step S210 may further include segmenting the activation function into a plurality of segments using an integral (accumulated value) of the second derivative of the activation function.
  • the accumulated value of the second derivative may be used as segment data.
  • step S210 may further include calculating a cumulative value of the second derivative of the activation function.
  • step S210 may further include segmenting the activation function into a plurality of segments based on an integration threshold of the segment approximation error (ie, a threshold of a cumulative value of second derivatives). there is.
  • an integration threshold of the segment approximation error ie, a threshold of a cumulative value of second derivatives.
  • the activation function programming method when the number of segments determined by segmenting the activation function into a plurality of segments primarily using the accumulated value of second derivative values is greater than or less than the target number, segments Adjusting an integration threshold of the approximation error, and segmenting the activation function into a plurality of segments again based on the adjusted threshold. Specifically, (1) if the determined number of segments is greater than the target number, the threshold may be adjusted to increase, and (2) if the determined number of segments is less than the target number, the threshold may be adjusted to decrease. there is.
  • the activation function conversion program unit 3000 may segment the activation function into a plurality of segments based on an integration threshold of segment approximation errors. At this time, the activation function conversion program unit 3000 may segment all sections of the activation function based on the integral threshold of the segment approximation error or segment some sections of the activation function based on the integral threshold of the segment approximation error. can In particular, the activation function conversion program unit 3000 determines some sections of the activation function as non-linear sections rather than (substantially) linear sections, and segments only the partial sections that are non-linear sections based on the integration threshold of the segment approximation error. can The activation function conversion program unit 3000 may segment remaining sections other than nonlinear sections by the activation function programming method described in various examples of the present disclosure.
  • FIG. 13 is a graph illustrating an example of segmenting an activation function using an integration threshold of segment approximation errors of the activation function in the activation function programming method according to an example of the present disclosure.
  • the activation function f(x) may be segmented using the accumulated value of second order derivatives of the activation function f(x), that is, ⁇ f′′(x)dx.
  • a point of the minimum value (min) of the X-axis of the activation function f(x) may be determined as the starting point or a point of the maximum value (max) of the X-axis may be determined as the starting point.
  • the present disclosure is not limited thereto, and the starting point may also be a feature point.
  • the PAF may be programmed to include a plurality of segment boundary values (x1, x2, x3, x4, x5), for example.
  • the PAF may be programmed to further include, for example, a minimum value (min) and a maximum value (max).
  • the minimum value (min) and maximum value (max) may be utilized when implementing clipping for improving programming efficiency of an activation function according to examples of the present disclosure.
  • a value less than or equal to the minimum value may be output as a minimum value.
  • a value greater than or equal to the maximum value may be output as the maximum value.
  • the activation function conversion program unit 3000 Determine w1 so that it becomes h , Determine w2 so that Determine w3 so that Determine w4 so that it becomes h , Determine w5 so that w6 can be determined so that
  • E Th it is also possible to set a different value of E Th for each segment. That is, it is possible to set a plurality of E Th values, such as E Th1 and E Th2 values, in some cases.
  • the PAF used for artificial neural network calculation is configured to process only a limited range of input values.
  • the minimum value (min) of the X-axis which is the input value of PAF, may be -6 and the maximum value (max) may be 6.
  • An output value on the Y-axis corresponding to an input value on the X-axis outside the input range may be expressed as a saturated value. According to the configuration described above, there is an effect of reducing the size of programmed activation function data.
  • the present disclosure is not limited thereto.
  • the cumulative value of the second derivative of the activation function is the rate of change of the slope of the activation function
  • the widths w2, w3, and w4 are determined to be relatively narrow, and (2) the widths w1 and w6 of the segments including the part that is a linear function with no gradient change in the activation function f(x) are relatively wide.
  • the ELU activation function f(x) is x for x>0 and ⁇ ( e x -1) for x ⁇ 0 ( ⁇ is a hyperparameter).
  • the ELU activation function has a linear interval when the x value is greater than 0, and has a non-linear interval when the x value is less than 0. That is, the ELU activation function has a feature of being divided into a linear section and a non-linear section.
  • the Hardswish activation function f(x) is 0 when x ⁇ -3, x when x ⁇ +3, and x ⁇ (x+3)/6 when -3 ⁇ x ⁇ +3.
  • the Hardswish activation function has a linear interval when the x value is less than -3 or greater than +3, and has a non-linear interval otherwise. That is, the Hardswish activation function has a feature that is divided into a linear section and a non-linear section.
  • the present disclosure is not limited to the ELU activation function and the Hardswish activation function, and various activation functions having characteristics divided into a linear section and a non-linear section exist.
  • the activation function conversion program unit 3000 separates a linear section and a nonlinear section, furthermore, a substantially linear section and a nonlinear section of the activation function, and selectively segments the activation function into a plurality of segments. can do. Accordingly, the activation function programming method according to the present disclosure is efficient and minimizes approximation error, especially in programming for approximating an activation function having a (substantially) linear section and a nonlinear section, thereby improving the computation speed of the DNN processed in the NPU (1000). , minimizing deterioration of inference accuracy, and reducing power consumption of the NPU 1000 .
  • the activation function conversion program unit 3000 may generate programmable parameters of at least one segment.
  • the NPU 1000 may process at least one programmed activation function based on the above information.
  • the NPU 1000 may receive the information and process at least one programmed activation function.
  • Coordinates of start and end points of a section of a plurality of segments may be defined as segment boundary values. That is, each segment may be displayed as a segment boundary value. That is, according to the activation function programming method according to the present disclosure, the programmable parameter may include a segment boundary value. In various examples, the activation function programming method according to the present disclosure may further include approximating at least one segment among the plurality of segments using a predetermined lookup table, a nonlinear approximation equation, or the like.
  • the activation function programming method since a plurality of segments are segmented using segment data, and the plurality of segmented segments can be selectively approximated as programmable segments, there may be sections determined not to be approximated with PAF. there is. If a pre-determined and stored look-up table, non-linear approximation, etc. for this section is available in hardware, this section may be approximated using a pre-determined and stored look-up table, non-linear approximation, etc.
  • an activation function programming method may further include determining not to approximate at least one of the plurality of segments as a programmable segment. For example, a segment having a very complicated shape or a segment having low importance in a DNN may be determined not to be approximated as a programmable segment. These segments may be processed in another predetermined manner, or if the number of such segments is large, they may be integrated and processed in another predetermined manner.
  • the activation function programming method according to the present disclosure may process the programming method for each segment in a separate manner.
  • An activation function programming method may include selecting an activation function for an artificial neural network operation, and converting the activation function into a PAF.
  • an exemplary programmed activation function includes a plurality of segments having a specific width, and the specific width is based on a specific threshold value, that is, the accumulated value of second derivatives of the selected activation function is the threshold value. It can be determined for each section reaching .
  • An apparatus including an activation function conversion program may be provided.
  • the activation function conversion program generates segment data for segmenting the activation function, segments the activation function into a plurality of segments using the generated segment data, and converts at least one of the plurality of segments into a programmable segment. It can be configured to convert to.
  • At least one of the plurality of segments may have a different width than other segments.
  • the activation function conversion program may be configured to determine the number and width of a plurality of segments based on segment data, and segment the activation function into a plurality of segments based on the determined number and width.
  • Segment data may include gradient change data (eg, differential data) of an activation function.
  • Segment data may include information of hardware capable of processing an activation function.
  • the activation function conversion program may be configured to receive hardware information.
  • the activation function conversion program will be configured to determine a substantially linear section and a nonlinear section of the activation function based on the slope change data of the activation function, and segment the activation function into a plurality of segments according to the determined substantially linear section and nonlinear section.
  • the activation function conversion program searches for programmable parameters for approximating at least one segment to a programmable segment.
  • the activation function conversion program may be configured to approximate at least one segment to a programmable segment according to an optimal programmable parameter searched for.
  • the apparatus may further include a PAFE unit, and the PAFE unit may be configured to approximate the at least one segment using a predetermined non-linear approximation equation.
  • 16 is a conceptual diagram illustrating a PAFE unit configured to process a programmed activation function according to an example of the present disclosure.
  • PAFE unit 500 is an example of a circuit configured to program an activation function as a first order function.
  • the programming method of the activation function may be one of various programming examples of the present disclosure described above.
  • the PAFE unit 500 may be referred to as the PAFE unit 500.
  • the activation function conversion program unit 3000 may be configured to determine the type of programmable parameter based on the provided hardware information. For example, when the PAFE unit 500 includes only a first-order function calculation circuit, the activation function conversion program unit 3000 may operate so that all programmable segments become a first-order function. For example, when the PAFE unit 500 includes a first-order function calculation circuit and a second-order function calculation circuit, the activation function conversion program unit 3000 operates so that all programmable segments become a first-order function or a second-order function. can
  • the memory 300 may include a segment register 310 , a first register 320 , and a second register 330 .
  • at least one register may be implemented by setting an address of at least one memory or a register map.
  • the at least one register may be implemented by allocating a dedicated memory or at least one dedicated register. That is, the memory 300 of the PAFE unit 500 may be configured to store programmed activation function data.
  • the segment register 310 stores information about a section of a plurality of segments.
  • the coordinates of the start and end points of the X axis of the section of the plurality of segments determined by one of the methods suggested by the activation function conversion program unit 3000 may be stored in the segment register 310 .
  • Coordinates of the start and end points of a section of a plurality of segments may be defined as a segment boundary value (SB). That is, intervals of a plurality of segments may be determined by the segment boundary values SB0 to SB(N-2).
  • N-1 segment boundary values (SB0 to SB(N-2)) may be required.
  • a section from negative infinity ( ⁇ ) to the first segment boundary value SB0 may be defined based on the coordinates of the X axis using the first segment boundary value SB0.
  • a section from the last segment boundary value (SB(N-2)) to positive infinity ( ⁇ ) may be defined based on the X-axis coordinate using the last segment boundary value (SB(N-2)).
  • SB(N-2) last segment boundary value
  • the segment register 310 provides the PAFE unit 500 with a plurality of segment boundary values SB0 to SB(N-2). Accordingly, the PAFE unit 500 may obtain information about a section of a plurality of segments.
  • the PAFE unit 500 may be configured to receive data from the segment register 310.
  • the range of segments of the programmed activation function may be set in the PAFE unit 500.
  • the first register 320 may be configured to store the gradients A0 to A(N ⁇ 1) for a plurality of programmable segments.
  • the first register 320 may be used as a gradient register.
  • the first register 320 may be set to store a specific value such as a slope according to a programming method.
  • the second register 330 may be configured to store offsets B0 to B(N-1) for a plurality of programmable segments.
  • the second register 330 may be used as an offset register.
  • the second register 330 may be set to store a specific value such as an offset according to a programming method.
  • intervals of N segments may be approximated as N programmable segments by the activation function conversion program unit 3000 .
  • each programmable segment includes a specific slope (A) and a specific offset (B) value. That is, a specific register of the memory 300 may selectively store a specific value.
  • the slope of the programmable segment in the interval from the minimum value to the first segment boundary value (SB0), the slope of the programmable segment can be expressed as the first slope (A0), and the offset of the programmable segment is the first offset ( B0) can be expressed as
  • the minimum value (Min) may be negative infinity (- ⁇ ).
  • the slope of the programmable segment can be expressed as the last slope (A(N-1)), and the offset of the programmable segment is the last offset ( B(N-1)).
  • the maximum value Max may be positive infinity ( ⁇ ).
  • the first register 320 may store the slopes A0 to A(N ⁇ 1) for each of the N programmable segments.
  • the second register 330 may store offsets B0 to B(N ⁇ 1) for each of the N programmable segments.
  • the activation function conversion program unit 3000 may be configured to provide programmed activation function data to be processed by the NPU to the memory 300 .
  • data for driving the programmed activation function is generated in the activation function conversion program unit 3000 and stored in the memory 300 of the NPU, for example, the segment register 310, the first register ( 320), and may be configured to be stored in the second register 330.
  • the segment register 310 may be configured to store the segment boundary value SB of ⁇ Table 1>.
  • the first register 320 may be configured to store the gradient A of ⁇ Table 1>.
  • the slope (A) may be referred to as a coefficient of a linear term.
  • the second register 330 may be configured to store the offset B of ⁇ Table 1>. Offset B may be referred to as a bias.
  • the controller 100 and/or the DMA 200 may instruct the memory 300 to store the data of the programmed activation function of ⁇ Table 1>.
  • the examples of the present disclosure are not limited thereto, and the data of the programmed activation function is stored in at least one of a register inside the controller 100, a register inside the PAFE unit 500, a separate memory, and a separate register. can be configured. That is, the storage location of the data of the programmed activation function is not limited to a specific location.
  • the programmed activation function data may be configured to include a segment boundary value (SB).
  • SB segment boundary value
  • the programmed activation function data may be configured to include the range of each segment (S).
  • the programmed activation function data may include a gradient A for each segment S.
  • the programmed activation function data may include an offset B for each segment S.
  • the first register 320 may output the slopes A0 to A(N ⁇ 1) for each of the N programmable segments to the PAFE unit 500.
  • the second register 330 may output offsets (B0 to B(N ⁇ 1)) for each of the N programmable segments to the PAFE unit 500.
  • the PAFE unit 500 may receive slopes A0 to A(N-1) and offsets B0 to B(N-1) for each of the programmable segments. That is, the PAFE unit 500 may receive information on a plurality of programmable segments through the first register 320 and the second register 330 .
  • data for driving the programmed ReLU is generated in the activation function conversion program unit 3000 and stored in the memory 300 of the NPU, for example, the segment register 310 and the first register 320. ), and may be configured to be stored in the second register 330.
  • the segment register 310 may be configured to store the segment boundary value SB of ⁇ Table 2>.
  • the first register 320 may be configured to store the gradient A of ⁇ Table 2>.
  • the second register 330 may be configured to store the offset B of ⁇ Table 2>.
  • a programmed ReLU it can be programmed to have only one segment boundary value (SB). As described above, determining to have only one segment boundary value SB may be performed by approximation methods according to various examples of the present disclosure.
  • data for driving the programmed ReLU to which clipping is applied is generated in the activation function conversion program unit 3000 and stored in the memory 300 of the NPU, for example, the segment register 310 , may be configured to be stored in the first register 320 and the second register 330.
  • the segment register 310 may be configured to store the segment boundary value SB of ⁇ Table 3>.
  • the first register 320 may be configured to store the slope A of ⁇ Table 3>.
  • the second register 330 may be configured to store the offset B of ⁇ Table 3>.
  • the minimum and maximum values of the input values of the activation function can be limited.
  • both the data for driving the programmed ReLU of ⁇ Table 2> and the data for driving the programmed ReLU with clipping of ⁇ Table 3> can be stored in the NPU 1000.
  • the activation function conversion program unit 3000 may be configured to provide both data for driving the programmed ReLU and data for driving the programmed ReLU with clipping to the NPU 1000 .
  • the NPU 1000 may be configured to selectively input a plurality of programmed activation functions stored in the NPU 1000 to the PAFE unit 500 according to compiled DNN information.
  • the NPU 1000 may use the programmed activation function data of ⁇ Table 2> for the first artificial neural network operation, and the programmed activation function data of ⁇ Table 3> for the second artificial neural network operation in succession. It is possible to control the PAFE unit 500 to use.
  • data for driving the programmed ReLU6 is generated in the activation function conversion program unit 3000 and stored in the memory 300 of the NPU, for example, the segment register 310 and the first register 320. ), and may be configured to be stored in the second register 330.
  • the segment register 310 may be configured to store the segment boundary value SB of ⁇ Table 4>.
  • the first register 320 may be configured to store the slope A of ⁇ Table 4>.
  • the second register 330 may be configured to store the offset B of ⁇ Table 4>.
  • determining to have two segment boundary values SB may be performed by approximation methods according to various examples of the present disclosure.
  • the PAFE unit 500 provides data for driving the programmed ReLU of ⁇ Table 2>, data for driving the programmed ReLU with clipping of ⁇ Table 3>, and data for driving the programmed ReLU6 of ⁇ Table 4>. All data for driving may be stored in the NPU 1000. Also, the activation function conversion program unit 3000 may be configured to provide the NPU 1000 with data for driving the programmed ReLU, data for driving the programmed ReLU with clipping, and data for driving the programmed ReLU6.
  • the NPU 1000 may be configured to selectively input a plurality of programmed activation functions stored in the NPU 1000 to the PAFE unit 500 according to compiled DNN information.
  • the NPU 1000 may use the programmed activation function data of ⁇ Table 2> for the first artificial neural network operation, and the programmed activation function data of ⁇ Table 3> for the second artificial neural network operation in succession. can be used, and the PAFE unit 500 can be controlled to use the data of the programmed activation function in ⁇ Table 4> for the subsequent third artificial neural network operation.
  • the first segment boundary value (SB1) ) and the second segment boundary value (SB2) only two comparators may be needed for the operation of the PAFE unit 300. Therefore, unnecessary comparators can be disabled.
  • the NPU 1000 may store a plurality of programmed activation functions.
  • the NPU 1000 may selectively input data of a specific programmed activation function to the PAFE unit 500 to process a specific artificial neural network operation.
  • the PAFE unit 500 can process artificial neural network calculations by receiving data of variously programmed activation functions in real time without changing hardware.
  • 17 is a conceptual diagram illustrating a PAFE unit of an NPU of a device configured to process a programmed activation function according to an example of the present disclosure.
  • An exemplary PAFE unit 500 configured to process an activation function programmed as a primary function includes a plurality of comparators (Comparator 0 to Comparator (N-2)) (510 to 51 (N-2)), a selector (520) ), a multiplier 530 and an adder 540.
  • comparators Comparator 0 to Comparator (N-2)
  • N-2 Comparator 0 to Comparator
  • selector 520
  • multiplier 530 an adder 540.
  • the examples of the present disclosure are not limited thereto, and it is also possible to divide the area of each segment by configuring a circuit in various ways. It is also possible that the PAFE unit 500 is modified to further include an additional circuit configuration to process the activation function with a programming method other than the first order function.
  • the PAFE unit 500 since the PAFE unit 500 is an example configured to process a primary function, the PAFE unit ( 500) may be configured to process a first-order function. However, the PAFE unit 500 may be modified to further include additional registers to process various approximation functions.
  • Each of the plurality of comparators 510 to 51 (N-2) compares the input value (X) calculated in at least one processing element 400 with a plurality of segment boundary values SB0 to SB (N-2), respectively. do.
  • each of the plurality of comparators 510 to 51 (N-2) when the input value X is greater than each of the plurality of segment boundary values SB0 to SB(N-2), each of the plurality of comparators 510 to 51 (N-2) outputs a first level. value can be printed. Conversely, when the input value (X) is smaller than or equal to each of the plurality of segment boundary values SB0 to SB(N-2), each of the plurality of comparators 510 to 51 (N-2) is of the second level. Output values can be output.
  • the above-described first level may mean a high level, and the above-described second level may mean a low level.
  • the above-described first level may mean a low level, and the above-described second level may mean a high level.
  • the section of the segment to which the input value X belongs may be determined among the sections of the plurality of segments through output values output from each of the plurality of comparators 510 to 51 (N-2).
  • the above-described output values output from each of the plurality of comparators 510 to 51 (N-2) may be referred to as Section Determine Data (SDD).
  • the first segment boundary value SB0 is -4
  • the first segment boundary value SB0 is input to the first comparator 510 .
  • An input value (X) calculated in the processing element is input to the first comparator 510 .
  • the second segment boundary value SB1 is -2
  • the second segment boundary value SB1 is input to the second comparator 511 .
  • An input value (X) calculated in the processing element is input to the second comparator 511 .
  • the input value (X) calculated in the processing element may be simultaneously input to a plurality of comparators.
  • the first section determination data SDD1 which is a value, is output at a first level, and a plurality of section determination data SDD1 to SDD excluding the first section determination data SDD1, which is an output value of the remaining comparators (Comparator 1 to Comparator (N-2)). (N-2)) may be output as the second level.
  • the input value (X) through the section determination data (SDD), which is an output value output from each of the plurality of comparators 510 to 51 (N-2), is a segment whose segment boundary value (SB) is between -4 and -2. It can be determined that it corresponds to the interval of .
  • the section determination data SDD1 to SDD(N-2) may correspond to the segments S described above in Tables 1 to 4 above.
  • ⁇ Table 5> describes how the area of the segment S of the programmed activation function is determined according to the result of the interval determination data SDD1 to SDD(N-2).
  • the segment S illustrated in ⁇ Table 1> to ⁇ Table 4> may be determined according to the output of the section determination data (SDD0, SDD1, SDD2, ... SDD(N-2)). .
  • a corresponding slope (A) and offset (B) may be selected.
  • the examples of the present disclosure are not limited thereto, and it is also possible to determine a corresponding segment by configuring a circuit for determining a segment in various ways. It is also possible that the PAFE unit 500 is modified by constructing a circuit to process the activation function in a method other than the comparator.
  • each of the plurality of comparators 510 to 51 may be determined by each of the plurality of comparator enable signals (Comp En 1 to Comp En (N-2)).
  • each of the plurality of comparator enable signals Comp En 1 to Comp En (N-2) when each of the plurality of comparator enable signals Comp En 1 to Comp En (N-2) is at the first level, each of the plurality of comparators 510 to 51 (N-2) corresponds to an input value (X) and It may operate to compare segment boundary values SB0 to SB(N-2). Conversely, when each of the plurality of comparator enable signals Comp En 1 to Comp En (N-2) is at the second level, each of the plurality of comparators 510 to 51 (N-2) has an input value (X) and segment boundary values SB0 to SB(N-2) may not be compared. That is, each comparator can be deactivated.
  • the number of segment boundary values SB0 to SB(N-2) is determined according to the number of segments of the programmed activation function. For example, when the number of segments is N, the number of segment boundary values (SB0 to SB(N-2)) is N-1.
  • the first programmed activation function can be programmed to have 10 segments and the second programmed activation function can have 5 segments. It can be programmed to have the number of segments. Accordingly, the PAFE unit 500 may differently control the number of comparators activated in the PAFE unit 500 according to each programmed activation function data, even if the activation function is the same. Accordingly, accuracy of artificial neural network calculation and power consumption of the NPU 1000 may also vary according to programming. That is, it is possible to provide a high-performance activation function calculation function or a low-power activation function calculation function even with the same activation function according to user requirements.
  • the number of the plurality of comparators that use the segment boundary values SB as inputs should also vary.
  • the maximum number of segment boundary values SB is 10
  • at least 11 or more comparators may be provided. That is, the minimum number of comparators may be the maximum number of segment boundary values.
  • each of the plurality of comparators 510 to 51 may determine whether or not to operate based on each of the plurality of comparator enable signals Comp En 1 to Comp En (N-2). Accordingly, power consumption of the NPU can be reduced by controlling unnecessary comparator operations according to the number of segments.
  • the number of comparators may be limited. Accordingly, the number of segments for segmenting the activation function may be limited according to the number of comparators of the PAFE unit 500 . That is, the activation function may be segmented into the maximum number of segments that can be processed by the NPU 1000 to be processed or the number of segments corresponding to the allocated resources of the NPU 1000.
  • the activation function programming method may be configured to program a specific activation function based on information of the maximum comparator that can be supported.
  • the selector 520 selects an input value X among a plurality of slopes A0 to A(N-1) for a plurality of programmable segments according to the section determination data SDD0 to SDD(N-2).
  • the slope (A) for the programmable segment corresponding to the section of the segment to which it belongs is output.
  • the first register 320 provides the selector 520 with a plurality of slopes A0 to A(N-1) for each of the plurality of programmable segments. Then, the selector 520 selects an input value (X) among the sections of a plurality of segments according to the section determination data SDD0 to SDD(N-2) output from each of the plurality of comparators 510 to 51 (N-2). It is possible to determine the section of the segment to which it belongs. Also, the selector 520 may output a slope (A) for a programmable segment corresponding to a section of the determined segment among a plurality of slopes (A0 to A(N ⁇ 1)) for a plurality of programmable segments.
  • the selector 520 selects a segment to which the input value X belongs among a plurality of offsets B0 to B(N-1) for a plurality of programmable segments according to the interval determination data SDD0 to SDD(N-2). Outputs the offset (B) for the programmable segment corresponding to the section of
  • the second register 330 provides the selector 520 with a plurality of offsets B0 to B(N-1) for each of the plurality of programmable segments. Then, the selector 520 selects an input value (X) among the sections of a plurality of segments according to the section determination data SDD0 to SDD(N-2) output from each of the plurality of comparators 510 to 51 (N-2). It is possible to determine the section of the segment to which it belongs. Then, the selector 520 may output an offset (B) for a programmable segment corresponding to a section of the determined segment among a plurality of offsets (B0 to B(N-1)) for a plurality of programmable segments.
  • the selector 520 may output the slope (A) and offset (B) of the programmable segment corresponding to the section of the segment to which the input value (X) belongs.
  • the selector 520 may be a multiplexer composed of a plurality of switching elements controlled according to the section determination data SDD0 to SDD(N-2), but the configuration of the selector 520 may be variously changed.
  • the programmed activation function calculation unit of the PAFE unit 500 may refer to a circuit unit configured to receive an input value (X), a slope (A), and an offset (B) and calculate an output value (Y).
  • the programmed activation function calculator of the PAFE unit 500 may include at least one multiplier 530 and an adder 540 .
  • the programmed activation function calculator of the PAFE unit 500 may be a hard-wired circuit.
  • the multiplier 530 of the programmed activation function operator multiplies the input value X by the slope A of the programmable segment corresponding to the section of the segment to which the input value X belongs.
  • the multiplier 530 multiplies the input value X calculated in the at least one processing element 400 by the gradient A for the programmable segment output from the selector 520 . That is, the input value X may be a calculated value of at least one processing element 400 . However, the present disclosure is not limited thereto.
  • the multiplier 530 may multiply the input value (X) by the slope (A) for the programmable segment and output the result. That is, the output of multiplier 530 is can be expressed as
  • the adder 540 of the programmed activation function operator adds the offset (B) for the programmable segment corresponding to the section of the segment to which the input value (X) belongs to the output value of the multiplier 530 of the programmed activation function operator. .
  • the adder 540 adds an offset (B) for the programmable segment to a value obtained by multiplying the input value (X) by the slope (A) for the programmable segment. That is, the output of the adder 540 is can be expressed as
  • the adder 540 may output an activation value to which PAF is applied to the input value (X) of the calculation value.
  • the PAFE unit 500 may be a circuit configuration configured to implement an activation function programmed as a first-order function.
  • the PAFE unit 500 pipelined with at least one processing element 400 may be configured as a hard-wired circuit configured to implement an activation function programmed as a first-order function. possible.
  • the PAFE unit 500 of the NPU of the device for performing the activation function programming method includes a plurality of comparators 511 to 51 (N-2), a selector 520, and a multiplier. 530 and an adder 540, all activation functions can be programmed and applied to the input value (X).
  • each of the plurality of comparators 511 to 51 (N-2), selector 520, multiplier 530, and adder 540 described above is relatively simplified hardware, activation function programming according to an example of the present disclosure
  • a device for performing the method has the effect of processing all activation functions with only simplified hardware.
  • the conventional activation function processing device could only process predefined activation functions.
  • the apparatus for performing the activation function programming method according to an example of the present disclosure can program and apply activation functions that are not predefined, so that all programmed activation functions can be applied.
  • the PAFE unit 500 can adjust the number of segments according to the characteristics of various activation functions, it is possible to minimize approximation errors by using the minimum number of comparators.
  • the PAFE unit 500 can adjust the width of each segment according to the characteristics of various activation functions, approximation errors can be minimized by using the minimum number of comparators.
  • the PAFE unit 500 can adjust the width and number of segments according to characteristics of various activation functions, approximation errors can be minimized by using the minimum number of comparators.
  • the NPU of the device for performing the activation function programming method according to one example of the present disclosure and the NPU of the device for performing the activation function programming method according to another example of the present disclosure differ only in the technical characteristics of the PAFE unit. , which is mainly explained.
  • FIG. 18 is a conceptual diagram illustrating an NPU of a device for processing a programmed activation function according to another example of the present disclosure.
  • 19 is a conceptual diagram illustrating a PAF unit of an NPU of a device for processing a programmed activation function according to another example of the present disclosure.
  • the PAF units 500-1 to 500-N of the NPU of the device for processing the programmed activation function may be separated into a plurality.
  • the PAF unit may include the first PAFE unit 500-1 to the Nth PAF unit 500-N.
  • each of the first PAFE unit 500-1 to Nth PAF unit 500-N may process different activation functions or the same activation function. That is, the activation functions programmed in each of the first PAFE unit 500-1 to Nth PAF unit 500-N may be the same as or different from each other.
  • the number of PAFE units 500-1 to 500-N may be determined in consideration of the number of processing elements 400.
  • the PAFE unit 500- 1 to 500-N may be increased. Accordingly, it is possible to solve the bottleneck caused by insufficient data bandwidth of the PAFE units 500-1 to 500-N.
  • the PAFE unit 500 may include a demultiplexer (DEMUX), a multiplexer (MUX), and a plurality of PAFE units.
  • DEMUX demultiplexer
  • MUX multiplexer
  • the demultiplexer distinguishes the input value (X) between an input value to which non-linear PAF is applied and an input value to which linear PAF is applied.
  • the input value to which the nonlinear PAF is to be applied is distributed to the first PAFE unit 500-1.
  • input values to which linear PAF should be applied may be distributed to the second PAFE unit 500-2.
  • the first PAFE unit 500-1 an activation function obtained by programming a non-linear activation function is stored. Accordingly, the first PAFE unit 500-1 may process a non-linear PAF.
  • the second PAFE unit 500-2 an activation function obtained by programming a linear activation function is stored. Accordingly, the second PAFE unit 500-2 may process a non-linear PAF.
  • the first PAFE unit 500-1 since the first PAFE unit 500-1 may be configured to process a non-linear activation function, it may be configured to have a relatively larger number of comparators than the second PAFE unit 500-2. there is.
  • the second PAFE unit 500-2 since the second PAFE unit 500-2 can be configured to have a relatively smaller number of comparators than the first PAFE unit 500-1, it can operate with relatively less power consumption. there is.
  • One of the first PAFE unit 500-1 and the second PAFE unit 500-2 may be selectively inactivated according to the type of programmed activation function processed by the NPU 1000.
  • the multiplexer may receive an output value to which a nonlinear PAF is applied from the first PAFE unit 500-1 and an output value to which a linear PAF is applied from the second PAFE unit 500-2.
  • the multiplexer may collect and output an output value to which a nonlinear PAF is applied from the first PAFE unit 500-1 and an output value to which a linear PAF is applied from the second PAFE unit 500-2.
  • the multiplexer MUX may output an activation value to which a linear PAF and a non-linear PAF are applied to an input value (X) of an operation value.
  • the first PAFE unit 500-1 and the second PAFE unit 500-2 each process a specific region of the activation function. can be configured to
  • the ELU activation function shown in FIG. 14 has a linear range when the x value is 0 or more, and has a non-linear range when the x value is less than 0. That is, the ELU activation function has a feature of being divided into a linear section and a non-linear section.
  • the first PAFE unit 500-1 may be configured to process a non-linear section of the ELU activation function.
  • the second PAFE unit 500-2 may be configured to process the linear interval of the ELU activation function.
  • the NPU of the device for performing the activation function programming method according to one example of the present disclosure and the NPU of the device for performing the activation function programming method according to another example of the present disclosure differ only in the PAF library 600, This is mainly explained.
  • 20 is a conceptual diagram illustrating an NPU of a device for processing a programmed activation function according to another example of the present disclosure.
  • the NPU may further include a PAF library 600 as well as including the controller 100 , memory 300 , at least one processing element 400 , and PAFE unit 500 .
  • the PAF library 600 may store a PAF obtained by approximating an activation function. Specifically, the PAF library 600 may store gradient (A0 to A(N-1)) and offset (B0 to B(N-1)) information for a plurality of programmable segments constituting the PAF. To elaborate, the PAF library 600 may store a plurality of PAFs. Also, the PAF library 600 may store gradient (A0 to A(N-1)) and offset (B0 to B(N-1)) information of a plurality of programmable segments for each of a plurality of PAFs.
  • the plurality of PAFs are not limited to linear functions by the activation function conversion program, and can be approximated by selectively combining 2nd order polynomials, 3rd order polynomials, logarithmic functions, etc.
  • the PAF library 600 It may be configured to store each programmed activation function data shown in Tables 2-4. Accordingly, the PAF library 600 may be configured to store all of the programmed ReLU, the programmed ReLU to which clipping is applied, and the programmed ReLU6 activation function.
  • the controller 100 may control to select a specific activation function from the PAF library 600 and input it to the PAFE unit 500, if necessary.
  • a plurality of programmed activation functions stored in the PAF library 600 may be approximated representative activation functions.
  • representative activation functions include the swish function, the Mish function, the sigmoid function, the hyperbolic tangent function, the SELU function, the GELU (Gaussian Error Linear Unit) function, the SOFTPLUS function, and the ReLU function. , a leaky ReLU function, a Maxout function, or an ELU function.
  • the PAFE unit 500 may select a required PAF from among a plurality of PAFs stored in the PAF library 600 under the control of the controller 100 . Further, the PAFE unit 500 transfers information such as slopes (A0 to A(N-1)) and offsets (B0 to B(N-1)) of a plurality of programmable segments for the selected PAF to the PAF library 600. ) can be retrieved from
  • the apparatus for performing the activation function programming method may program frequently used activation functions and store them in the PAF library 600 .
  • the PAF library 600 may store the PAFs without the need of programming all activation functions by the activation function conversion program.
  • the processing speed of the apparatus for performing the activation function programming method according to another example of the present disclosure can be improved, and power consumption for driving the activation function conversion program can also be reduced.
  • the NPU of the device for performing the activation function programming method according to one example of the present disclosure and the NPU of the device for performing the activation function programming method according to another example of the present disclosure include at least one processing element (PE Array) and a PAFE. Since there is a difference in the unit (Unit), it will be explained centering on this.
  • PE Array processing element
  • PAFE PAFE
  • 21 is a conceptual diagram illustrating an NPU of a device for processing a programmed activation function according to another example of the present disclosure.
  • a plurality of processing elements (PROCESSING ELEMENTS #0 to PROCESSING ELEMENTS #N-1) are grouped ) can be Grouped processing elements may be referred to as at least one processing element.
  • the plurality of processing elements may include the 0th processing elements (PROCESSING ELEMENTS #0) to the N ⁇ 1 th processing elements (PROCESSING ELEMENTS #N ⁇ 1).
  • Each of the plurality of processing elements (PROCESSING ELEMENTS #0 to PROCESSING ELEMENTS #N-1) may be referred to as a processing element thread (PE thread) or a processing element core (PE core).
  • PE thread processing element thread
  • PE core processing element core
  • a plurality of at least one processing element will be referred to as a PE core and described.
  • each of the plurality of PE cores may be different from each other.
  • the operation of each of the plurality of PE cores may be any one of an input stationary method, a weight stationary method, and an output stationary method.
  • each of the plurality of PE cores may be individually driven according to driving optimization. That is, each of the plurality of PE cores may be sequentially driven according to the operation of the PAFE unit, rather than being simultaneously driven.
  • the number of MAC (Multiply And Accumulate) operators and ALU (arithmetic logic unit) operators, which are processing elements included in each of the plurality of PE cores, may be different. Accordingly, the size of each of the plurality of PE cores may be different.
  • each of the plurality of PE cores may be connected to the PAFE unit through a multiplexer (MUX).
  • MUX multiplexer
  • the multiplexer (MUX) receives a plurality of calculation values output from each of the plurality of PE cores, and receives a plurality of calculation values. Output any one or more of the values to the PAFE unit.
  • a buffer memory between the PAFE unit 500 and the plurality of PE cores.
  • it is not limited thereto.
  • one PAFE unit may be capable of processing a plurality of calculation values output from each of a plurality of PE cores. Accordingly, the number of PAFE units included in the device for performing the activation function programming method according to another example may be minimized. As a result, this can minimize the manufacturing cost of a device for performing the activation function programming method.
  • FIG. 22 is a conceptual diagram illustrating a PAFE unit configured to process a programmed activation function according to another example of the present disclosure.
  • FIG. 23 is a conceptual diagram illustrating a PAFE unit of an NPU of a device for processing a programmed activation function according to another example of the present disclosure.
  • Each of a plurality of programmable segments of the PAF applied in the PAFE units shown in FIGS. 22 and 23 may operate as a linear function or a quadratic function. Accordingly, the coefficients (A, B, and C) for the above-described programmable segment are the coefficient of quadratic term (A), the coefficient of linear term (B), and the offset (Offset, C) of the first order term.
  • the coefficients (A, B, and C) for the above-described programmable segment are the coefficient of quadratic term (A), the coefficient of linear term (B), and the offset (Offset, C) of the first order term.
  • the activation function conversion program unit 3000 may be configured to provide programmed activation function data to be processed in the PU to the memory 300 .
  • data for driving the programmed activation function is generated in the activation function conversion program unit 3000 and stored in the memory 300 of the NPU, for example, the segment register 310, the first register ( 320), the second register 330 and the third register 340 may be configured to be stored.
  • the segment register 310 may be configured to store the segment boundary value SB of ⁇ Table 6>.
  • the first register 320 may be configured to store the coefficient A of the quadratic term of ⁇ Table 6>.
  • the second register 330 may be configured to store the coefficient B of the linear term in ⁇ Table 6>.
  • the third register 340 may be configured to store the offset C of ⁇ Table 6>.
  • the controller 100 and/or the DMA 200 may instruct the memory 300 to store data of the programmed activation function of ⁇ Table 6>.
  • Examples of the present disclosure are not limited thereto, and the data of the programmed activation function is configured to be stored in at least one of a register inside the controller 100, a register inside the PAFE unit 500', a separate memory, and a separate register. It can be. That is, the storage location of the data of the programmed activation function is not limited to a specific location.
  • the programmed activation function data may be configured to include a segment boundary value (SB).
  • SB segment boundary value
  • the programmed activation function data may include a range of segments S for each segment.
  • the programmed activation function data may include a coefficient (A) of a quadratic term and a coefficient (B) of a linear term for each segment.
  • the programmed activation function data may include an offset C for each segment.
  • An exemplary PAFE unit configured to process an activation function programmed as a quadratic function includes a plurality of comparators (Comparator 0 to Comparator (N-2)) (511 to 51 (N-2)), a selector (520), a plurality of It may be configured to include multipliers 531, 532, and 533 and a plurality of adders 541 and 542.
  • Each of the plurality of comparators 510 to 51 (N-2) compares the input value (X) calculated in at least one processing element 400 with a plurality of segment boundary values SB0 to SB (N-2), respectively. do. For example, when the input value X is greater than each of the plurality of segment boundary values SB0 to SB(N-2), each of the plurality of comparators 510 to 51 (N-2) outputs a first level. value can be printed. Conversely, when the input value (X) is smaller than or equal to each of the plurality of segment boundary values SB0 to SB(N-2), each of the plurality of comparators 510 to 51 (N-2) is of the second level. Output values can be output.
  • the section of the segment to which the input value X belongs may be determined among the sections of the plurality of segments through output values output from each of the plurality of comparators 510 to 51 (N-2).
  • each of the plurality of comparators 510 to 51 may be determined by each of the plurality of comparator enable signals (Comp En 1 to Comp En (N-2)).
  • the selector 520 determines coefficients A0 to A(N-1), (B0 to B(N-1) for a plurality of programmable segments according to the section determination data SDD0 to SDD(N-2). )) and (C0 to C(N-1)), the coefficients (A, B, C) for the programmable segment corresponding to the section of the segment to which the input value (X) belongs are output.
  • the first register 320 includes coefficients of the second order term (A0 to A(N-1)), coefficients of the first order term (B0 to B(N-1)) and an offset ( C0 through C(N-1)) are provided to selector 520.
  • the selector 520 selects an input value (X) among the sections of a plurality of segments according to the section determination data SDD0 to SDD(N-2) output from each of the plurality of comparators 510 to 51 (N-2). It is possible to determine the section of the segment to which it belongs.
  • the selector 520 includes coefficients of the second order term (A0 to A(N ⁇ 1)), coefficients of the first order term (B0 to B(N ⁇ 1)), and offsets (C0 to C0 to C) for the plurality of programmable segments. (N-1)), the coefficient (A) of the second order term, the coefficient (B) of the first order term, and the offset (C) of the programmable segment corresponding to the section of the determined segment may be output.
  • the selector 520 may output the coefficient (A) of the quadratic term, the coefficient (B) of the linear term, and the offset (C) of the programmable segment corresponding to the section of the segment to which the input value (X) belongs.
  • the selector 520 may be a multiplexer composed of a plurality of switching elements controlled according to the section determination data SDD, but the configuration of the selector 520 may be variously changed.
  • the programmed activation function calculator of the PAFE unit 500' receives the input value (X), the coefficient (A) of the quadratic term, the coefficient (B) of the linear term, and the offset (C) to calculate the output value (Y). It may refer to a configured circuit unit.
  • the programmed activation function calculator of the PAFE unit 500' may be configured to include a plurality of multipliers 531, 532, and 533 and a plurality of adders 541 and 542 to process a quadratic function or a primary function. .
  • the programmed activation function calculation unit of the PAFE unit 500' may be a hard-wired circuit.
  • the plurality of multipliers of the programmed activation function operator may include a first multiplier 531 , a second multiplier 532 , and a third multiplier 533 .
  • the first multiplier 531 multiplies the input value X by the coefficient A of the quadratic term for the programmable segment corresponding to the section of the segment to which the input value X belongs.
  • the first multiplier 531 multiplies the input value X calculated in the at least one processing element 400 by the coefficient A of the quadratic term for the programmable segment output from the selector 520 .
  • the first multiplier 531 may multiply the input value X by the coefficient A of the quadratic term for the programmable segment and output the result. That is, the output of the first multiplier 531 is can be expressed as
  • the second multiplier 532 multiplies the output value output from the first multiplier 531 by the input value X.
  • the second multiplier 532 multiplies the input value X calculated by the at least one processing element 400 by the output value output from the second multiplier 532 .
  • the output of the second multiplier 532 is can be expressed as However, the above configuration It is only an example for implementing, and it is also possible to implement a modification through various circuit combinations.
  • the third multiplier 533 multiplies the coefficient B of the first order term for the programmable segment corresponding to the section of the segment to which the input value X belongs and the input value X.
  • the third multiplier 533 multiplies the input value X calculated in the at least one processing element 400 by the coefficient B of the linear term for the programmable segment output from the selector 520.
  • the third multiplier 533 may multiply the input value X by the coefficient B of the first order term for the programmable segment and output the result. That is, the output of the third multiplier 533 is can be expressed as
  • the plurality of adders may include a first adder 541 and a second adder 542 .
  • the first adder 541 adds the output value of the third multiplier 533 to the output value of the second multiplier 532 .
  • the first adder 541 may output a sum of a quadratic term and a linear term of each of a plurality of programmable segments composed of quadratic terms. That is, the output of the first adder 541 is can be expressed as
  • the second adder 542 adds the offset C for the programmable segment corresponding to the section of the segment to which the input value X belongs to the output value of the first adder 541.
  • the adder 540 adds the offset (C) for the programmable segment to the sum of the quadratic term and the primary term of the programmable segment composed of quadratic terms. That is, the output of the second adder 542 is can be expressed as
  • the adder 540 may output an activation value to which an activation function programmed as a quadratic function is applied to an input value (X) of an operation value.
  • the PAFE unit 500' operates to be able to process a second-order polynomial.
  • operations of the second multiplier 532, the third multiplier 533, and the second adder 542 may be controlled by the first enable signal EN1.
  • the first multiplier 531 multiplies the input value X by the coefficient A of the quadratic term for the programmable segment corresponding to the section of the segment to which the input value X belongs.
  • the first multiplier 531 multiplies the input value X calculated in the at least one processing element 400 by the coefficient A of the quadratic term for the programmable segment output from the selector 520 .
  • the first multiplier 531 may multiply the input value X by the coefficient A of the quadratic term for the programmable segment and output the result. That is, the output of the first multiplier 531 is can be expressed as
  • the second multiplier 532 and the third multiplier 533 do not operate, and the output of the first multiplier 531 is input to the first adder 541 as it is. That is, the calculator deactivated by the first enable signal EN1 may be bypassed.
  • the first adder 541 adds the coefficient B of the first order term for the programmable segment corresponding to the section of the segment to which the input value X belongs to the output value of the first multiplier 531.
  • the first adder 541 adds the coefficient (B) of the first order term for the programmable segment to the value obtained by multiplying the input value (X) by the coefficient (A) of the second order term for the programmable segment. That is, the output of the first adder 541 is can be expressed as
  • the second adder 542 does not operate, and the output of the first adder 541 is output as it is. That is, the calculator deactivated by the first enable signal EN1 may be bypassed.
  • the first adder 541 may output an activation value to which an activation function programmed as a primary function is applied to an operation value that is an input value (X).
  • the PAFE unit 500' operates to be able to process a first-order polynomial.
  • the PAFE unit can be driven not only when each of the programmable segments is a second-order polynomial but also when each of the programmable segments is a first-order polynomial.
  • At least one processing element 400 and the pipelined PAFE unit 500' are hard-wired to implement both a quadratic function and an activation function programmed as a primary function. It is also possible to consist of a circuit.
  • FIG. 24 is a graph illustrating an example in which an apparatus for processing a programmed activation function approximates a sigmoid activation function to a programmable activation function according to another example of the present disclosure.
  • each of a plurality of programmable segments of a PAF applied in a PAFE unit of an apparatus for performing an activation function programming method according to another example of the present disclosure is a second order polynomial.
  • at least a partial region of the sigmoid function for example, only the -6.0 to 2.0 region can be divided into three segments and approximated.
  • the programmable segment In the section (S0) where the input value (X) is greater than -6.0 or less than or equal to -2.6, the programmable segment is can be approximated by And, in the section (S1) where the input value (X) is greater than -2.6 or less than or equal to -0.6, the programmable segment is can be approximated by And, in the section (S2) where the input value (X) is greater than -0.6 or less than or equal to 2, the programmable segment is can be approximated by
  • the programmable parameters can be corresponded according to the format of ⁇ Table 6>.
  • A0 in ⁇ Table 6> may be 0.07.
  • B0 in ⁇ Table 6> may be 0.08.
  • C0 in ⁇ Table 6> may be 0.23.
  • A1 in ⁇ Table 6> may be 0.05.
  • B1 in ⁇ Table 6> may be 0.3.
  • C1 in ⁇ Table 6> may be 0.52.
  • A2 in ⁇ Table 6> may be -0.03.
  • B2 in ⁇ Table 6> may be 0.26.
  • C2 in ⁇ Table 6> may be 0.5.
  • SB0 in ⁇ Table 6> may be -2.6.
  • SB1 in Table 6> may be -0.6.
  • SB0 may be
  • Min in ⁇ Table 6> may be -6.0.
  • Max in ⁇ Table 6> may be 2.0.
  • the segment boundary value (SB) of the segment, the coefficient (A) of the quadratic term, the coefficient (B) of the linear term, and the offset (C) are machine learning in the activation function programming method according to the example of FIG. 12 It is also possible to derive a method of approximating each segment to an optimal programmable segment using
  • the coefficients in FIG. 24 are only examples derived by machine learning and may be modified in various ways.
  • some of the programmable segments (S0 and S2) may correspond to a linear section, and another part (S1) of the programmable segments may correspond to a non-linear section.
  • some of the programmable segments may be approximated with a linear function, and another part (S1) of the programmable segments may be approximated with a quadratic function.
  • a log operator may be further included in the output terminal of the PAFE unit. Referring to FIG. 25, a PAFE unit including a log operator will be described in detail.
  • 25 is a conceptual diagram illustrating a PAFE unit of an NPU of a device for processing an activation function programmed according to another example of the present disclosure.
  • the PAFE unit 500′′ includes a plurality of comparators (Comparator 0 to Comparator (N-2)) (511 to 51 (N-2)), a selector (520), and a plurality of multipliers ( In addition to multipliers 531, 532, and 533 and a plurality of adders 541 and 542, a log operator 550 may be included.
  • the operation of the log operator 550 can be controlled by the second enable signal EN2.
  • the log coefficient D may be input to the log operator 550.
  • the operators 531, 532, 533, 541, and 542 related to the coefficient (A) of the second order term, the coefficient (B) of the first order term, and the offset (C) may be configured to be deactivated. .
  • the output of the log operator 550 may be expressed as logD.
  • the logarithmic operator 550 may output an activation value to which PAF including a logarithmic operation is applied to an input value (X) of an operation value.
  • Each of the plurality of programmable segments of the PAF applied in the PAFE unit shown in FIG. 25 may operate as a linear function, a quadratic function, or a logarithmic function.
  • the coefficients (A, B, C, and D) for the programmable segment described above may include a coefficient (A) of a quadratic term, a coefficient (B) of a linear term, an offset (C), and a log (D). .
  • data for driving the programmed activation function is generated in the activation function conversion program unit 3000 and stored in the memory 300 of the NPU, for example, the segment register 310, the first register ( 320), the second register 330, the third register 340, and the fourth register 350.
  • the programmed activation function data may be configured to include a segment boundary value (SB).
  • the segment boundary value SB may be stored in a first register of the memory.
  • the programmed activation function data may include a range of segments S for each segment.
  • the programmed activation function data may include a quadratic coefficient (A) for each segment.
  • the coefficient (A) of the quadratic term may be stored in the second register of the memory.
  • the programmed activation function data may include coefficients (B) of a linear term for each segment.
  • the coefficient (B) of the linear term may be stored in a third register of the memory.
  • the programmed activation function data may include an offset C for each segment.
  • Offset (C) may be stored in a fourth register of memory.
  • the programmed activation function data may include a logarithmic coefficient D for each segment.
  • the log coefficient (D) may be stored in a fifth register of the memory.
  • the programmed activation function data may be determined according to the operator circuit configuration of the programmed activation function calculator of the PAFE unit and supportable equations.
  • a neural processing unit applies at least one programmed activation function including at least one processing element configured to output a calculated value through an artificial neural network operation and a plurality of programmable segments to the calculated value. and a programmed activation function execution unit configured to generate an activation value and at least one processing element and a controller configured to control operation of the programmed activation function execution unit.
  • the neural processing unit may further include a segment register for storing information about an interval of a plurality of programmable segments.
  • the neural processing unit may further include a segment register for storing segment boundary values of a plurality of programmable segments.
  • a plurality of comparators, selectors, at least one multiplier, and at least one adder may be hard-wired.
  • the neural processing unit may further include a plurality of comparators configured to compare the operation value with each of a plurality of input segment boundary values and output section determination data.
  • the neural processing unit may further include a plurality of comparators configured to determine whether or not to operate based on a comparator enable signal.
  • the neural processing unit further comprises a plurality of comparators configured to output interval determination data, and the programmed activation function execution unit performs a corresponding one of the plurality of programmable segments according to the interval determination data.
  • the activation value may be generated by applying the slope and offset of the segment to be applied to the calculated value.
  • the at least one multiplier may multiply the gradient of the programmable segment output from the selector by the input value.
  • the at least one adder may add an offset for the programmable segment to a value obtained by multiplying an input value by a gradient for the programmable segment output from the at least one multiplier.
  • the selector determines a quadratic slope and a linear slope for a programmable segment corresponding to a section of a segment to which an input value belongs among slopes for a plurality of programmable segments according to a plurality of section determination data. and an offset can be output.
  • the at least one multiplier may include: a first multiplier for multiplying an input value by a coefficient of a quadratic term for the programmable segment output from the selector; A second multiplier that multiplies the output value output from the first multiplier and an input value, and a third multiplier that multiplies the input value by a coefficient of a linear term for the programmable segment output from the selector.
  • operations of the second multiplier and the third multiplier may be controlled by a first enable signal.
  • the at least one adder may include a first adder for adding an output value of the third multiplier to an output value of the second multiplier, and a programmable segment output from the selector to an output value of the first adder It may include a second adder that adds an offset for .
  • an operation of the second adder may be controlled by a first enable signal.
  • the programmed activation function execution unit may further include a log operator performing a logarithmic operation of an output value of the at least one adder.
  • the operation of the log calculator may be controlled by a second enable signal.
  • the neural processing unit may further include a programmable activation function library that stores gradient and offset information for a plurality of programmable segments constituting the programmable activation function.
  • the at least one processing element may be connected to a programmed activation function execution unit through a multiplexer.
  • the device may further include an activation function conversion program unit that programs an activation function into the at least one programmed activation function.
  • the activation function conversion program unit the activation function conversion program unit
  • a linear section and a non-linear section of the at least one programmed activation function may be preferentially determined.
  • the activation function conversion program unit the activation function conversion program unit
  • a section in which a second derivative value is lower than a threshold value may be determined as the linear section.
  • the activation function conversion program unit the activation function conversion program unit
  • a section in which a second derivative value is higher than a threshold value may be determined as the nonlinear section.
  • the activation function conversion program unit may separate the nonlinear section into a plurality of sections based on an integral value of the second derivative value.
  • the activation function conversion program unit may convert a linear section of the at least one programmed activation function into a programmable segment approximated by a linear function.
  • the activation function conversion program unit may convert a non-linear section of the at least one programmed activation function into a programmable segment approximated by a quadratic function.
  • the activation function conversion program unit may convert a nonlinear section of at least one programmed activation function into a programmable segment approximated by a logarithmic function.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Neurology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Stored Programmes (AREA)

Abstract

본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법이 제공된다. 상기 방법은 활성화 함수를 세그먼팅하기 위한 세그먼트 데이터를 생성하는 단계; 생성된 세그먼트 데이터를 이용하여 활성화 함수를 복수의 세그먼트들로 세그먼팅하는 단계; 및 복수의 세그먼트들 중 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 근사화 하는 단계를 포함한다.

Description

프로그램된 활성화 함수 실행 유닛을 포함하는 신경 프로세싱 유닛
본 개시는 프로그래밍 가능 활성화 함수 실행 유닛을 포함하는 신경 프로세싱 유닛(NPU)에 관한 것이다.
인간은 인식(recognition), 분류(classification), 추론(inference), 예측(predict), 조작/의사결정(control/decision making) 등을 할 수 있는 지능을 갖추고 있다. 인공지능(artificial Intelligence, AI)은 인간의 지능을 인공적으로 모방하는 것을 의미한다.
인간의 뇌는 뉴런(neuron)이라는 수많은 신경세포로 이루어져 있다. 각각의 뉴런은 시냅스(synapse)라고 불리는 연결부위를 통해 수백 개에서 수천 개의 다른 뉴런들과 연결되어 있다. 인간의 지능을 모방하기 위하여, 생물학적 뉴런의 동작원리와 뉴런 간의 연결 관계를 모델링한 것을, 인공신경망(artificial neural network, ANN) 모델이라고 한다. 즉, ANN은 뉴런들을 모방한 노드들을 레이어(layer: 계층) 구조로 연결시킨 시스템이다.
ANN의 연산을 가속화하기 위해 개발된 ANN 전용 프로세서는 신경 프로세싱 유닛(neural processing unit; NPU)이다.
ANN은 레이어 수에 따라 '단층 신경망'과 '다층 신경망'으로 구분된다. 일반적인 다층 신경망은 입력 레이어와 은닉 레이어, 출력 레이어로 구성된다. (1) 입력 레이어(input layer)는 입력 값을 받아들이는 레이어다 입력 레이어의 수는 입력되는 변수의 수와 동일하다. (2) 은닉 레이어(hidden layer)는 입력 레이어와 출력 레이어 사이에 위치하며 입력 레이어로부터 신호를 받아 특징을 추출하여 출력층으로 전달하는 레이어이다. (3) 출력 레이어(output layer)는 은닉 레이어로부터 신호를 받아 외부로 출력하는 레이어이다.
인간의 뇌에서 뉴런 간에 신호가 전달될 때, 신호의 전달 강도가 달라진다. 이를 모방하여, ANN에서 활성화 함수(activation function)에 의해 레이어 간에 전달되는 신호의 전달 강도, 즉 활성화 여부가 결정된다.
NPU에서 구현된 활성화 함수의 특성에 따라 ANN의 추론 정확도가 달라질 수 있다. 즉, NPU의 활성화 함수의 처리 회로의 하드웨어 구현 특성에 따라 ANN의 성능 및 효율이 결정된다. 또한 복잡한 수식의 활성화 함수를 처리하는 ANN은 하드웨어 가속기로 처리될 수 있다. 하드웨어로 ANN 전용 프로세서를 구현할 경우, ANN 전용 프로세서는 상당한 칩 면적(i.e., 다수의 로직 게이트 개수)이 필요로 할 수 있다. 또한 이러한 칩은 전력소모가 상당할 수 있다.
보다 높은 인공 지능을 구현하기 위해 은닉 레이어의 개수를 늘린 심층신경망(deep neural network, DNN)이 개시되었다. DNN의 활성화 함수는 가중치(weight)와 바이아스(bias)가 적용된 연산 값에 대한 전달 강도를 결정하기 위해 사용된다. DNN은 다양한 구조로 개발되고 있다.
예를 들면, DNN의 일 예시인 합성곱 신경망(convolutional neural network, CNN)은 입력 값 (i.e., 영상 또는 이미지)의 특징들을 추출하고, 추출된 특징들의 패턴을 파악하기에 용이한 것으로 알려져 있다. CNN은 합성곱 연산, 활성화 함수 연산, 풀링(pooling) 연산 등이 특정 순서로 처리되는 형태로 구성될 수 있다.
예를 들면, DNN의 레이어 각각에서, 입력 값과 파라미터(i.e., 가중치 또는 커널)는 복수의 채널로 구성된 행렬일 수 있다. 입력 값과 파라미터는 합성곱 또는 행렬 곱셈으로 NPU에서 처리될 수 있다. 각 레이어에서 연산이 처리된 연산 값이 생성된다. 이러한 연산 값에 활성화 함수가 적용될 수 있다.
예를 들면, 트랜스포머(transformer)는 어텐션(attention) 기술에 기반한 DNN이다. 트랜스포머는 행렬 곱셈(matrix multiplication) 연산을 다수 활용한다. 트랜스포머는 입력 값과 쿼리(query; Q), 키(key; K), 및 값(value; V) 등의 파라미터를 사용하여 연산 값인 어텐션(Q,K,V)를 획득할 수 있다. 트랜스포머는 연산 값 (i.e., 어텐션(Q,K,V))에 기초하여 다양한 추론 연산을 처리할 수 있다. 트랜스포머는 CNN 보다 더 우수한 추론 성능을 보여주는 경향이 있다.
상술한 신경망들은 DNN으로 지칭할 수 있다. 한편, DNN의 복수의 레이어들 중 특정 레이어의 연산 값에 활성화 함수가 선택적으로 적용될 수 있다.
활성화 함수의 입력 값 (i.e., 특정 레이어의 연산 값)에 대응되는 X-축 값과 활성화 함수의 활성화 값에 대응되는 Y-축 값을 포함하도록 구성될 수 있다. 활성화 함수는 입력 값들의 수학적 선형 결합을 다양한 형태의 선형 결합 또는 비선형 결합으로 변환하는 역할을 수행한다. 따라서, DNN은 특정 레이어의 연산 값에 적절한 활성화 함수를 적용하여 다양한 추론 기능을 수행하도록 설계될 수 있다.
DNN에서 해결하고자 하는 복잡한 기능들은 대부분 비선형성을 갖는다. 이러한 문제를 해결하기 위해 활성화 함수는 대부분 비선형성을 가지는 함수(Nonlinear Function)이다.
NPU가 처리하는 적어도 하나의 DNN 모델에 적용되는 활성화 함수의 비선형성의 특징에 따라 하드웨어에서 처리되는 DNN 모델의 성능 및 효율이 달라질 수 있다.
활성화 함수는 활성화 함수의 입력 값의 특정 영역의 특징을 더 부각하고 다른 영역의 특징을 덜 부각시킴으로써 추론 정확도를 향상시키거나 또는 저하시킬 수 있다.
다양한 활성화 함수들 중 적어도 일부의 활성화 함수의 비선형성은 로그(log) 연산, 지수(exponential) 연산 등을 포함할 수 있다. 이러한 로그 및 지수 연산이 포함된 활성화 함수를 하드웨어로 구현하는 것은 디지털 로직 설계 측면에서 매우 복잡하다. 예를 들면, 로그 및 지수 연산을 위해서는 하드웨어 연산기의 구성이 매우 복잡하게 된다. 따라서, 하드웨어의 소비전력이 증가하고 연산 처리 속도가 느려질 수 있다는 사실을 본 개시의 발명자들은 인식하였다.
NPU의 경우, 각 활성화 함수 처리를 위한 각각의 활성화 함수 처리 모듈을 설계해야 할 수 있다. 또한, 하드-와이어(hard-wired)된 프로세서는 하드-와이어 된 각각의 전용 활성화 함수 처리 로직 유닛들을 이용하여 미리 정의된 활성화 함수들만 처리할 수 있다. 이때, 활성화 함수의 연산 복잡도에 따라 하드-와이어 된 프로세서에서 게이트 개수가 급격하게 증가하는 단점이 있다는 사실을 본 개시의 발명자들은 인식하였다.
하드-와이어 된 프로세서는 하드웨어 수정 없이 새로운 활성화 함수를 독립적으로 처리할 수 없다. 하드-와이어 된 프로세서가 처리할 수 없는 활성화 함수는 별도의 소프트웨어로 연산해야 한다. 예를 들면, 하드-와이어 된 프로세서는 인공지능 전용 Application Specific Integrated Circuit (ASIC)일 수 있다. 즉, 하드-와이어 된 프로세서는 NPU일 수 있다.
다양한 종류의 활성화 함수들을 하드-와이어 된 프로세서에서 처리하기 위해 다양한 방법들이 제시되었다. 예를 들면, 종래에는 활성화 함수를 룩업 테이블(Look-Up Table; LUT)을 이용하는 방법, 비선형 근사식을 이용하는 방법, 다항식 근사(polynomial approximation)를 이용하는 방법 등을 활용하여 처리하였다.
하지만, 다항식 근사 등을 이용하여 하드웨어에서 활성화 함수를 처리하는 종래의 활성화 함수 근사화 방법은 추론 정확도 향상을 위해 프로세서에게 많은 계산량을 요구한다는 사실을 본 개시의 발명자들은 인식하였다.
이에, 종래의 활성화 함수 근사화 기술이 적용된 DNN 모델의 추론 정확도 열화 문제, 프로세서의 활성화 함수 처리부의 게이트 개수 증가 문제, 및 프로세서의 소비 전력 증가 문제를 개선해야 한다는 사실을 본 개시의 발명자들은 인식하였다.
더 나아가서, 1)종래의 활성화 함수 처리 방법이 적용된 프로세서가 처리할 수 없는 룩업 테이블 등 미리결정된 데이터에 포함되지 않은 활성화 함수, 2)신규 활성화 함수, 및/또는 3)종래의 일부가 수정된 활성화 함수들;을 프로세서가 독립적으로 처리하기 위해서, 어떠한 활성화 함수도 근사화 할 수 있는 프로그래밍 방법 및 이를 구동하는 하드웨어 설계가 필요하다는 사실을 본 개시의 발명자들은 인식하였다.
더 나아가서, 활성화 함수의 특징들에 최적화된 근사화 알고리즘을 구동할 수 있는 NPU의 설계가 필요하다는 사실을 본 개시의 발명자들은 인식하였다.
더 나아가서, 이러한 프로그래밍 방법에 최적화된 하드웨어가 제공되면 하드웨어에서 효율적이고 유연하게 활성화 함수를 프로그래밍 할 수 있다는 사실을 본 개시의 발명자들은 인식하였다.
더 나아가서, 프로그래밍하고자 하는 활성화 함수의 형태에 기초하여 각 영역을 설정하고, 설정된 영역 별로 근사화 파라미터가 프로그래밍 될 수 있다. 활성화 함수의 각 영역별 특성을 고려하면, 효율적이고 낮은 근사화 에러로 활성화 함수를 프로그래밍 할 수 있다는 사실을 본 개시의 발명자들은 인식하였다.
더 나아가서, 프로그래머블 활성화 함수(programmable activation function; PAF)는 프로그램된 활성화 함수 실행 유닛(programmed activation function execution unit; PAFE Unit)을 포함하는 하드-와이어된 프로세서에 제공될 수 있다는 사실을 본 개시의 발명자들은 인식하였다.
이에, 본 개시가 해결하고자 하는 과제는 종래의 근사화 방법보다 상대적으로 우수하고 다양한 하드웨어 옵션으로 비선형 활성화 함수를 하드웨어에서 처리 가능하게 프로그래밍할 수 있는 방법을 제공하는 것이다.
나아가, 본 개시가 해결하고자 하는 과제는 활성화 함수 자체의 특성, 근사화 에러, 하드웨어의 옵션 정보 등을 고려하여 보다 커스터마이즈된(customized) 방식으로 비선형 활성화 함수를 근사화 하는 방법을 제공하는 것이다.
더 나아가, 본 개시가 해결하고자 하는 과제는 PAFE 유닛을 포함하는 하드-와이어된 프로세서를 제공하는 것이다.
더 나아가, 본 개시가 해결하고자 하는 과제는 적어도 하나의 프로그램된 활성화 함수를 처리하도록 구성된 PAFE 유닛을 포함하는 하드-와이어된 프로세서를 제공하는 것이다.
다만, 본 개시의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
기타 예시의 구체적인 사항들은 상세한 설명 및 도면들에 포함된다.
본 개시에 따르면, NPU는 활성화 함수의 프로그램된 파라미터를 입력 받아 활성화 함수를 처리할 수 있다.
본 개시에 따르면, 세그먼트 데이터를 이용함으로써, 다양한 비선형 활성화 함수, 특히 새롭게 제안되거나 알려졌으나 일부가 수정된 활성화 함수들을 하드웨어에서 처리 가능하게 프로그래밍할 수 있다.
또한, 본 개시에 따르면, 다양한 비선형 활성화 함수를 근사화 할 때, 활성화 함수 자체의 특성, 근사화 에러, 하드웨어의 옵션 정보 등이 포함된 세그먼트 데이터를 이용할 수 있다. 이에, DNN의 높은 성능 및 높은 효율을 확보하면서 보다 커스터마이즈된 방식으로 비선형 활성화 함수를 프로그래밍할 수 있다.
또한, 본 개시에 따르면, 다양한 비선형 활성화 함수를 근사화 할 때, 활성화 함수 자체의 특성, 근사화 에러, 하드웨어의 옵션 정보 등이 포함된 세그먼트 데이터를 이용함으로써, 하드웨어 비용을 최소화하면서 근사화 에러를 최소화할 수 있다.
또한, 본 개시에 따르면, 활성화 함수의 각각의 세그먼트를 다양한 알고리즘으로 각각 프로그래밍 할 수 있다. NPU는 프로그램된 활성화 함수의 각각의 세그먼트의 알고리즘을 처리할 수 있는 하드웨어 옵션을 제공할 수 있다.
또한, 본 개시에 따르면, PAFE 유닛을 포함하는 하드-와이어된 프로세서를 구현할 수 있다. 따라서 프로세서는 하드웨어 변경 없이 프로그래밍 가능한 파라미터만 변경함으로써 어떠한 활성화 함수를 처리할 수 있다.
또한, 본 개시에 따르면 적어도 하나의 프로그램된 활성화 함수를 처리하도록 구성된 PAFE 유닛을 포함하는 하드-와이어된 프로세서를 구현할 수 있다. 따라서 프로세서는 하드웨어 변경 없이 PAFE 유닛으로 서로 다른 활성화 함수들을 동시에 또는 순차적으로 처리할 수 있다.
개시에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 개시 내에 포함된다.
도 1은 본 개시의 일 예시에 따른 활성화 함수의 프로그래밍 방법을 수행하기 위한 장치를 설명하는 개략적인 개념도이다.
도 2는 본 개시의 일 예시에 따른 활성화 함수의 프로그래밍 방법을 설명하는 개략적인 순서도이다.
도 3은 본 개시의 일 예시에 따른 활성화 함수의 프로그래밍 방법에 의해 활성화 함수가 프로그램 되는 과정을 설명하는 그래프이다.
도 4은 본 개시의 일 예시에 따른 활성화 함수의 프로그래밍 방법에 의해 활성화 함수를 복수의 세그먼트들로 세그먼팅하는 다양한 경우를 설명하는 그래프이다.
도 5는 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 세그먼트 데이터 중 기울기 변화 데이터를 이용하여 활성화 함수를 선형 구간과 비선형 구간을 구분해서 세그먼팅하는 일 예시를 설명하는 그래프이다.
도 6은 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 세그먼트 데이터 중 기울기 변화 데이터를 이용하여 활성화 함수를 실질적 선형 구간과 비선형 구간을 구분해서 세그먼팅하는 일 예시를 설명하는 그래프이다.
도 7은 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 세그먼트 데이터 중 기울기 변화 데이터를 이용하여 활성화 함수를 실질적 선형 구간과 비선형 구간을 구분해서 세그먼팅하는 다른 예시를 설명하는 그래프이다.
도 8은 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 세그먼트 데이터 중 기울기 변화 데이터를 이용하여 활성화 함수를 실질적 선형 구간과 비선형 구간을 구분해서 세그먼팅하는 또 다른 예시를 설명하는 그래프이다.
도 9는 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 에러 값을 이용하여 하나의 세그먼트를 하나의 프로그래머블 세그먼트로 변환하는 예시를 설명하는 그래프이다.
도 10은 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 최대 에러 값을 이용하여 하나의 세그먼트를 하나의 프로그래머블 세그먼트로 변환하는 예시를 설명하는 그래프이다.
도 11은 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 에러 값에 대한 적분값을 이용하여 하나의 세그먼트를 하나의 프로그래머블 세그먼트로 변환하는 예시를 설명하는 그래프이다.
도 12는 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 머신 러닝(Machine Learning)을 이용하여 하나의 세그먼트를 하나의 최적 프로그래머블 세그먼트로 근사화 하는 예시를 설명하는 그래프이다.
도 13은 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 활성화 함수의 2차 미분값의 누적값 및 임계값을 이용하여 활성화 함수를 세그먼팅하는 예시를 설명하는 그래프이다.
도 14, 15는 ELU 활성화 함수 및 Hardswish 활성화 함수를 도시하는 그래프이다.
도 16은 본 개시의 일 예시에 따른 프로그램된 활성화 함수를 처리하도록 구성된 PAFE 유닛을 설명하는 개념도이다.
도 17은 본 개시의 일 예시에 따른 프로그램된 활성화 함수를 처리하도록 구성된 장치의 NPU의 PAFE 유닛을 설명하는 개념도이다.
도 18은 본 개시의 다른 예시에 따른 프로그램된 활성화 함수를 처리하기 위한 장치의 NPU를 설명하는 개념도이다.
도 19는 본 개시의 다른 예시에 따른 프로그램된 활성화 함수를 처리하기 위한 장치의 NPU의 PAFE 유닛을 설명하는 개념도이다.
도 20은 본 개시의 또 다른 예시에 따른 프로그램된 활성화 함수를 처리하기 위한 장치의 NPU를 설명하는 개념도이다.
도 21은 본 개시의 또 다른 예시에 따른 프로그램된 활성화 함수를 처리하기 위한 장치의 NPU를설명하는 개념도이다.
도 22는 본 개시의 또 다른 예시에 따른 프로그램된 활성화 함수를 처리하도록 구성된 PAFE 유닛을 설명하는 개념도이다.
도 23은 본 개시의 또 다른 예시에 따른 프로그램된 활성화 함수를 처리하기 위한 장치의 NPU의 PAFE 유닛을 설명하는 개념도이다.
도 24는 본 개시의 또 다른 예시에 따른 프로그램된 활성화 함수를 처리하기 위한 장치가 Sigmoid 활성화 함수를 프로그래머블 활성화 함수로 근사화 하는 예시를 설명하는 그래프이다
도 25는 본 개시의 또 다른 예시에 프로그램된 활성화 함수를 처리하기 위한 장치의 NPU의 PAFE 유닛을 설명하는 개념도이다.
본 개시에 개시되어 있는 본 개시의 개념에 따른 예시들에 대해서 특정한 구조적 내지 단계적 설명들은 단지 본 개시의 개념에 따른 예시를 설명하기 위한 목적으로 예시된 것이다.
본 개시의 개념에 따른 실시 예들은 다양한 형태로 실시될 수 있다. 본 개시는 본 개시에 설명된 실시 예들에 한정되는 것으로 해석되어서는 아니 된다.
본 개시의 개념에 따른 실시 예는 다양한 변경을 가할 수 있다. 본 개시는 여러 가지 형태를 가질 수 있다. 따라서 특정 예시들을 도면에 예시하고 본 개시에서 상세하게 설명하고자 한다. 그러나, 이는 본 개시의 개념에 따른 예시를 특정한 개시 형태에 대해 한정하려는 것이 아니다. 따라서 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물은 본개시에 포함되는 것으로 이해되어야 한다.
제 1 및/또는 제 2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있다. 다만 본 개시는 상기 용어들에 의해 한정되어서는 안 된다.
상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예컨대 본 개시의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소는 제 1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 문서에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는(3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 개시에서 사용된 "제 1," "제 2," "첫째," 또는 "둘째," 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있다. 상기 표현들은 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제 1 사용자 기기와 제 2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 바꾸어 명명될 수 있다.
본 개시에서 사용된 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 예시의 범위를 한정하려는 의도가 아닐 수 있다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다.
본 개시에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있다. 본 개시에 사용된 용어들은 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시 예들을 배제하도록 해석될 수 없다.
본 개시에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 개시를 한정하려는 의도가 아니다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 서술된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이다. 따라서 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 한다. 본 개시에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 개시의 여러 예시들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하다. 본 개시의 여러 예시들은 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하다. 본 개시의 각 예시들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.
각 예시를 설명함에 있어서 본 개시가 속하는 기술 분야에 익히 알려져 있고 본 개시와 직접적으로 관련이 없는 기술 내용에 대해서는 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 개시의 요지를 흐리지 않고 더욱 명확히 전달하기 위함이다.
이하, 첨부한 도면을 참조하여 본 개시의 예시를 상세하게 설명한다.
도 1은 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치를 설명하는 개략적인 개념도이다.
도 1을 참조하면, 활성화 함수 프로그래밍 방법을 수행하기 위한 장치(A)는 신경 프로세싱 유닛(Neural Processing Unit, NPU)(1000), 및 활성화 함수 변환 프로그램 유닛(Activation Function Programming Unit)(3000)을 포함할 수 있다. 여기서 장치(A)는 시스템을 의미할 수 있다. 장치(A)는 프로세서(Processor)(2000), 메인 메모리(Main Memory)(4000), 이미지 센서(Image Sensor)(5000), 및 디코더(Decoder)(6000)를 더 포함할 수 있다. 이에, 장치(A)는 다양한 인공신경망 추론 기능을 수행하도록 구성될 수 있다.
장치(A)에 포함될 수 있는 각각의 구성요소들은 버스(7000)를 통해 데이터를 주고받을 수 있다.
여기서, NPU(1000), 프로세서(2000), 메인 메모리(4000), 이미지 센서(5000), 및 디코더(6000)는 전기 회로로 구성될 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 기록 매체에 저장된 컴퓨터 프로그램, 소프트웨어, 펌웨어, 어플리케이션, 또는 실행 코드 등 일 수 있다. 단 본 개시는 이에 제한되지 않는다.
활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수를 프로그래머블 파라미터로 표현된 PAF로 변환하는 명령을 수행하도록 구성된 컴퓨터 프로그램일 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 컴퓨터로 판독 가능한 기록 매체에 저장될 수 있다. 컴퓨터로 판독 가능한 기록 매체는 ROM, RAM, SSD, HDD, CD-ROM, flash memory, 자기 테이프, 플로피디스크, 광데이터 저장장치 등을 포함할 수 있다.
NPU(1000)는 프로세서(2000)와 별개로 심층신경망(deep neural network, DNN)을 위한 동작을 위해 특화된 프로세서이다. 특히, NPU(1000)는 DNN의 대부분의 연산량을 차지하는 합성곱 및 행렬 곱셈을 위해 특화된 연산기를 포함할 수 있다. NPU(1000)와 프로세서(2000)는 전기 회로를 포함하는 반도체 칩일 수 있다.
NPU(1000)는 제어기(controller)(100), 다이렉트 메모리 액세스(direct memory access; DMA)(200), 메모리(memory)(300), 적어도 하나의 프로세싱 엘리먼트(at least one processing element)(400), 및 프로그램된 활성화 함수 실행 유닛(programmed activation function execution unit; PAFE Unit)(500)을 포함할 수 있다. 이하 프로그램된 활성화 함수 실행 유닛(500)은 PAFE 유닛으로 지칭하여 설명한다.
제어기(100)는 DMA(200), 메모리(300), 적어도 하나의 프로세싱 엘리먼트(400), 및 PAFE 유닛(500)과 전기적으로 연결될 수 있다. 제어기(100)는 NPU(1000)에서 DNN의 연산과 관련된 동작을 제어하도록 구성될 수 있다.
단, 본 개시는 이에 제한되지 않으며, 적어도 하나의 프로세싱 엘리먼트(400)는 프로세싱 엘리먼트 어레이 (예를 들면, 시스톨릭(systolic) 어레이)로 변형 실시될 수 있다.
DMA(200)는 NPU(1000)가 NPU(1000) 외부의 메인 메모리(4000) 등에 직접 접근하여 읽기/쓰기를 하도록 구성된다. NPU(1000)는 DMA(200)을 통해 메인 메모리(4000)로부터 DNN과 관련된 다양한 데이터를 읽어올 수 있다. DMA(200)는 내부 메모리(300)의 어드레스의 설정, 생성 및 제어 등의 업무를 수행하도록 구성될 수 있다.
메모리(300)는 NPU(1000)의 온칩 영역에 배치된 메모리로 온칩 영역에서 처리되는 데이터를 캐싱(caching)하거나 저장하기 위한 메모리일 수 있다. 메모리(300)는 메인 메모리(4000)로부터 DNN의 연산에 필요한 데이터를 읽어 들여 저장할 수 있다. 메모리(300)는 ROM, SRAM, DRAM, Resistive RAM, Magneto-resistive RAM, Phase-change RAM, Ferroelectric RAM, Flash Memory, HBM 등과 같은 메모리 중 하나의 메모리를 포함할 수 있다. 메모리(300)는 적어도 하나의 메모리 유닛으로 구성될 수 있다. 메모리(300)는 단일(homogeneous) 메모리 유닛 또는 이종(heterogeneous) 메모리 유닛으로 구성될 수 있다.
적어도 하나의 프로세싱 엘리먼트(400)는 DNN의 입력 데이터와 대응되는 파라미터(e.g., 가중치, 커널, 쿼리(Q), 키(K), 값(V) 등)의 연산을 처리하도록 구성될 수 있다. 적어도 하나의 프로세싱 엘리먼트(400)는 MAC(Multiply And Accumulate) 연산기 및/또는 ALU(Arithmetic Logic Unit) 연산기 등을 포함할 수 있다.
PAFE 유닛(500)은 활성화 함수를 변환한 프로그래머블 활성화 함수(programmable activation function; PAF)에 대한 데이터(i.e., 프로그래머블 파라미터)를 수신하도록 구성된다.
이하 설명의 편의를 위해 프로그래머블 활성화 함수는 PAF로 지칭하여 설명한다.
프로그래머블 파라미터는 활성화 함수 변환 프로그램 유닛(3000)에서 생성된 데이터일 수 있다. 프로그래머블 파라미터는 NPU(1000)의 PAFE 유닛(500)의 회로와 호환되는 형태를 가지도록 구성될 수 있다. 프로그래머블 파라미터는 적어도 하나의 PAF를 구현하도록 구성될 수 있다. 즉, PAFE 유닛(500)은 활성화 함수 변환 프로그램 유닛(3000)에서 생성된 적어도 하나의 PAF에 대응되는 프로그래머블 파라미터를 제공받도록 구성될 수 있다. 부연 설명하면, 활성화 함수 변환 프로그램 유닛(3000)을 통해 프로그램된 PAF는 적어도 하나의 프로그래머블 세그먼트를 포함할 수 있다. 즉, 프로그래머블 파라미터는 적어도 하나의 프로그래머블 세그먼트를 구현할 수 있다.
NPU(1000)는 활성화 함수와 관련하여 PAF에 대한 데이터를 수신해서 DNN의 연산을 수행할 수 있다. PAFE 유닛(500)은 적어도 하나의 프로세싱 엘리먼트(400)에서 출력된 연산 값(e.g., 특징맵)에 활성화 함수 변환 프로그램 유닛(3000)에서 생성된 PAF를 적용하여 활성화 값(activation value)(e.g., 활성화맵)을 생성할 수 있다. PAFE 유닛(500)은 적어도 하나의 PAF에 대응하여 생성된 적어도 하나의 프로그래머블 파라미터를 이용한다. 따라서 PAFE 유닛(500)은 다양한 활성화 함수, 특히 새롭게 제안되거나 알려졌으나 일부가 수정된 활성화 함수들을 NPU(1000)에서 처리 가능하게 한다.
PAFE 유닛(500)은 적어도 하나의 프로세싱 엘리먼트(400)와 파이프라인화 될 수 있다. 상술한 구성에 따르면, 적어도 하나의 프로세싱 엘리먼트(400)에서 연산한 값을 파이프라인을 통해 입력 받도록 구성될 수 있다. 따라서 파이프라인 된 적어도 하나의 프로세싱 엘리먼트(400)와 PAFE 유닛(500)은 적어도 하나의 프로세싱 엘리먼트(400)로부터 연산 값을 입력 받아 PAF가 적용된 활성화 값을 출력하도록 구성될 수 있다. 이러한 경우, 적어도 하나의 프로세싱 엘리먼트(400)와 PAFE 유닛(500)에서 발생할 수 있는 병목 현상을 최소화하거나 또는 실질적으로 제거할 수 있다. 단, 본 개시의 예시들은 파이프라인 구조에 제한되지 않으며, PAFE 유닛은 적어도 하나의 프로세싱 엘리먼트(400)와 병합되어 구현되는 것도 가능하다.
활성화 함수 변환 프로그램 유닛(3000)은 프로세서(2000)에 의해서 동작될 수 있으나 이에 제한되지 않는다. 프로세서(2000)는 본 개시에서 개시된 활성화 함수 프로그래밍 방법을 수행할 수 있는 CPU(Central Processing Unit), AP(Application Processor)와 같은 연산 장치일 수 있다.
활성화 함수 변환 프로그램 유닛(3000)은 컴퓨터로 판독 가능한 기록 매체에 저장될 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 하드웨어에 포함된 펌웨어 또는 소프트웨어로 구현될 수 있다. 활성화 함수 변환 프로그램 유닛(3000)의 구동을 위해서 별도의 컴퓨팅 시스템과 오퍼레이팅 시스템이 제공될 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 PAFE 유닛(500)이 포함된 NPU(1000)동작을 위한 프로그램일 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수 프로그래밍 방법을 수행하도록 구성될 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 프로세서(2000) 또는 장치(A) 외부의 프로세서에 의해 실행될 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 장치(A) 내에서 DNN을 컴파일하도록 구성된 컴파일러와 별개로 구성될 수 있다. 또는 활성화 함수 변환 프로그램 유닛(3000)은 컴파일러와 통합되어 구성될 수 있다.
활성화 함수 변환 프로그램 유닛(3000)은 적어도 하나의 활성화 함수를 프로그래밍 하도록 구성될 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 적어도 하나의 PAF에 대응되는 프로그래머블 파라미터를 PAFE 유닛(500)에 제공하도록 구성될 수 있다.
활성화 함수 변환 프로그램 유닛(3000)은 NPU(1000)가 처리하고자 하는 DNN에 포함된 활성화 함수 정보를 제공받도록 구성될 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 제공받은 적어도 하나의 활성화 함수의 정보에 기초하여 NPU(1000)가 처리할 모든 활성화 함수에 대한 정보를 획득할 수 있다. 따라서, 활성화 함수 변환 프로그램 유닛(3000)은 NPU(1000)가 처리할 DNN에 필요한 적어도 하나의 활성화 함수를 프로그래밍할 수 있다.
다양한 예시들에서, 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수를 세그먼팅하기 위한 세그먼트 데이터를 생성하고, 생성된 세그먼트 데이터를 이용하여 활성화 함수를 복수의 세그먼트들로 세그먼팅하고, 복수의 세그먼트들 중 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 근사화 할 수 있다. 프로그래머블 파라미터의 값이 결정되면 프로그래머블 세그먼트의 근사화 수준이 결정될 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 세그먼트 데이터를 기초로 상기 복수의 세그먼트들의 개수 및 폭을 결정할 수 있다.
활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수의 특성을 분석하도록 구성될 수 있다. 예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수의 기울기 변화를 분석하도록 구성될 수 있다. 활성화 함수의 기울기 변화 데이터는 활성화 함수의 기울기 변화를 판단할 수 있는 모든 종류의 데이터를 지칭할 수 있다.
활성화 함수 변환 프로그램 유닛(3000)은 기울기 변화 데이터를 기초로 활성화 함수의 특성을 분석할 수 있다. 부연 설명하면 활성화 함수의 기울기 변화가 심할 영역일수록, 근사화 에러가 커지는 경향이 있고, 기울기 변화가 없는 영역의 경우, 근사화 에러가 0이 될 수 있다. 따라서, 활성화 함수 변환 프로그램 유닛(3000)은 기울기 변화 데이터를 분석하여 활성화 함수를 최적의 조건으로 근사화 하도록 구성될 수 있다.
예를 들면, 활성화 함수의 기울기 변화 데이터는 활성화 함수의 미분 데이터일 수 있다. 기울기 변화 데이터는: 기울기 변화 값, 1차 미분 값, 2차 미분 값, 3차 미분 값 등 중 적어도 하나를 포함할 수 있다.
예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수의 기울기 변화 데이터를 기초로 PAF의 선형 구간 및 비선형 구간을 결정할 수 있다.
몇몇 예시에서는, 활성화 함수 변환 프로그램 유닛(3000)은 PAF의 비선형 구간 중 기울기 변화가 실질적으로 미미한 구간을 실질적 선형 구간으로 결정할 수 있다.
활성화 함수 변환 프로그램 유닛(3000)은 적어도 하나의 세그먼트를 특정 수학식으로 근사화 된 프로그래머블 세그먼트로 변환시킬 수 있다.
예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수의 특정 세그먼트를 1차 함수로 근사화 된 프로그래머블 세그먼트로 변환 시킬 수 있다.
자세히 설명하면, 활성화 함수 변환 프로그램 유닛(3000)은 적어도 하나의 세그먼트를 특정 기울기 및 특정 오프셋 값으로 근사화 된 프로그래머블 세그먼트로 변환시킬 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 복수의 세그먼트들 중 적어도 하나의 세그먼트를 특정 비선형 근사식을 이용하여 프로그래머블 세그먼트로 변환시킬 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 적어도 하나의 세그먼트를 1차 함수에 대응되는 프로그래머블 세그먼트로 근사화 하기 위한 기울기 및 오프셋을 결정할 수 있다.
활성화 함수 변환 프로그램 유닛(3000)은 프로그래머블 세그먼트의 기울기 값과 오프셋 값을 변환하면서 최소 에러 값을 탐색할 수 있다. 또는 활성화 함수 변환 프로그램 유닛(3000)은 비용 함수(cost function)를 수행하여 최소 에러 값을 탐색할 수 있다.
활성화 함수 변환 프로그램 유닛(3000)은 변환하고자 하는 활성화 함수의 적어도 하나의 세그먼트와 후보 기울기 및 후보 오프셋을 갖는 적어도 하나의 후보 세그먼트 사이의 에러 값을 계산할 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 계산된 에러 값에 기초하여 적어도 하나의 후보 세그먼트를 프로그래머블 세그먼트를 결정할 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 서로 대응되는 프로그래머블 세그먼트와 활성화 함수의 세그먼트 사이의 적어도 하나의 최소 에러 값을 탐색할 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 탐색된 적어도 하나의 최소 에러 값에 기초하여 프로그래머블 세그먼트의 프로그래머블 파라미터를 결정할 수 있다. 여기서 결정된 에러 값은 최소 에러 값일 수 있다. 활성화 함수 변환 프로그램 유닛(3000)이 최소 에러 값을 기준으로 프로그래머블 파라미터를 결정하면, DNN의 추론 정확도 열화를 예방 또는 최소화할 수 있다.
단 본 개시의 예시들은 최소 에러 값에 제한되지 않으며, 연산량, 전력 소비량, 근사화 에러 값 중 다른 우선 순위에 따라 프로그래머블 파라미터를 다르게 결정할 수 있다.
부연 설명하면, 활성화 함수 변환 프로그램 유닛(3000)은 특정 세그먼트를 특정 근사화 함수로 변환된 프로그래머블 세그먼트의 근사화 에러 값을 측정할 수 있다. 예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 특정 세그먼트를 1차 함수의 프로그래머블 세그먼트로 근사화 하여 프로그래머블 세그먼트의 제1 에러 값을 측정할 수 있다. 추가적으로 활성화 함수 변환 프로그램 유닛(3000)은 상기 특정 세그먼트를 2차 함수의 프로그래머블 세그먼트로 근사화 하여 프로그래머블 세그먼트의 제2 에러 값을 측정할 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 제1 에러 값과 제2 에러 값을 비교하여 에러 값이 상대적으로 더 작은 근사화 함수를 프로그래머블 세그먼트로 선택할 수 있다. 상술한 과정을 통해 활성화 함수 변환 프로그램 유닛(3000)은 인공신경망 연산을 위한 활성화 함수를 선택하고, 활성화 함수를 PAF로 변환할 수 있다.
즉, 프로그래머블 세그먼트의 근사화 함수가 결정되면, 프로그래머블 파라미터의 형태도 결정될 수 있다. 예를 들면, 특정 세그먼트가 1차 함수의 프로그래머블 세그먼트로 근사화 되면, 대응되는 프로그래머블 파라미터는 기울기 및 오프셋 값을 포함할 수 있다. 예를 들면, 특정 세그먼트가 2차 함수의 프로그래머블 세그먼트로 근사화 되면, 대응되는 프로그래머블 파라미터는 2차 함수의 계수들(coefficients of the quadratic term)을 포함할 수 있다. 각각의 프로그래머블 세그먼트의 근사화 함수는 선택적으로 결정될 수 있다. 즉, 제1 프로그래머블 세그먼트와 제2 프로그래머블 세그먼트의 근사화 함수들은 서로 동일하거나 또는 서로 상이할 수 있다.
각각의 프로그래머블 세그먼트의 근사화 함수의 특성을 결정하는 기준은 PAFE 유닛(500)의 연산량, 전력 소비량, 근사화 에러 값 중 어느 하나에 기초하여 결정될 수 있다.
예를 들면, 프로그래머블 세그먼트의 근사화 함수의 특성을 결정하는 기준은 연산량, 전력 소비량, 및 근사화 에러 값들의 상대적인 우선순위에 따라 달라질 수 있다. 상기 우선순위는 활성화 함수 변환 프로그램 유닛(3000)에서 설정될 수 있다. 다르게 설명하면, 활성화 함수 변환 프로그램 유닛(3000)은 고속 연산, 저전력, 추론 정확도 열화 방지 중 특정 성능을 달성할 수 있도록 프로그래머블 세그먼트의 근사화 함수를 구현하는 프로그래머블 파라미터를 탐색할 수 있다. 단 본 개시의 예시들은 특정한 근사화 판단 기준에 제한되지 않는다.
메인 메모리(4000)는 DNN의 연산에 필요한 데이터를 저장할 수 있다. 메인 메모리(4000)는 ROM, SRAM, DRAM, Resistive RAM, Magneto-resistive RAM, Phase-change RAM, Ferroelectric RAM, Flash Memory, HBM 등과 같은 메모리 중 하나의 메모리를 포함할 수 있다. 메인 메모리(4000)는 적어도 하나의 메모리 유닛으로 구성될 수 있다. 메인 메모리(4000)는 단일(homogeneous) 메모리 유닛 또는 이종(heterogeneous) 메모리 유닛으로 구성될 수 있다.
이미지 센서(5000)는 렌즈를 통해 들어오는 빛을 이미지 또는 영상 데이터로 생성한다. NPU(1000)는 상기 이미지 또는 영상 데이터를 NPU(1000)에서 처리되는 DNN의 입력 데이터로 사용할 수 있다.
디코더(6000)는 인코딩 된 비트 스트림의 입력 데이터를 디코딩하고, 디코딩 된 입력 데이터는 DNN의 입력으로 사용될 수 있다.
비트 스트림은 적어도 하나의 태스크(task)를 수행하도록 인코딩 된 비트 스트림일 수 있다.
비트 스트림에 포함될 수 있는 태스크는 객체 인식(Object Detection), 객체 세그먼테이션(Object Segmentation), 영상 복원(Image/Video Reconstruction), 영상 향상(Image/Video Enhancement), 객체 추적(Object Tracking), 이벤트 인식(Event Recognition), 이벤트 감지(Event Prediction), 이상 감지(Anomaly Detection), 밀도 추정(Density Estimation), 이벤트 검색(Event Search), 측정(Measurement) 등일 수 있다.
비트 스트림은 복수의 태스크를 처리할 수 있는 복수의 인코딩 된 연산 값들을 포함할 수 있다.
디코더(6000)의 출력 데이터는 이미지, 영상, DNN의 특정 레이어의 연산 값 등 일 수 있다.
이하, 도 2 내지 도 4를 참조하여, 활성화 함수 프로그래밍 방법을 상세하게 설명한다.
도 2는 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법을 설명하는 개략적인 순서도이다.
도 2를 참조하면, 활성화 함수 프로그래밍 방법은 활성화 함수를 세그먼팅하기 위한 세그먼트 데이터를 생성하는 단계(S200), 생성된 세그먼트 데이터를 이용하여 상기 활성화 함수를 복수의 세그먼트들로 세그먼팅하는 단계(S210), 및 복수의 세그먼트들 중 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 근사화 하는 단계(S220)를 포함한다.
단계(S200)에서 세그먼트 데이터가 생성된다. 세그먼트 데이터는 활성화 함수를 복수의 세그먼트들로 세그먼팅하기 위해 생성되는 데이터이다. 세그먼트 데이터에 대해서는 후술한다.
단계(S210)에서는 생성된 세그먼트 데이터를 이용하여 활성화 함수를 복수의 세그먼트들로 세그먼팅한다. 본 개시에서, '세그먼트(segment)'라는 용어는 복수의 구간으로 나누어진 활성화 함수의 일부를 의미하고, 활성화 함수의 근사화와 관련된 용어인 '후보 세그먼트' 또는 '프로그래머블 세그먼트'와 구별된다.
다양한 예시들에서, 단계(S210)는 세그먼트 데이터를 기초로 복수의 세그먼트들의 개수 및 폭(width)을 결정하는 단계를 포함할 수 있다. 단계(S210)에서 세그먼트 데이터를 이용하여 변환하고자 하는 활성화 함수를 세그먼팅하는 복수의 세그먼트들의 개수 및 복수의 세그먼트들 각각의 폭이 결정될 수 있다. 복수의 세그먼트들 중 적어도 하나의 세그먼트는 다른 세그먼트와 같거나 또는 상이한 폭을 갖을 수 있다.
본 개시에서, 복수의 세그먼트들의 구간을 X 축의 시점 및 종점의 좌표로 표현할 수도 있다. 한편으로, 복수의 세그먼트들의 개수와 복수의 세그먼트들 각각의 폭이 결정되면 복수의 세그먼트들의 구간의 좌표가 복수의 세그먼트들의 개수와 폭을 이용하여 획득될 수 있다는 것이 이해되어야 한다.
단계(S220)에서 복수의 세그먼트들 중 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 근사화 한다. 프로그래머블 세그먼트는 PAFE 유닛(500)의 하드웨어 구성에 따라 프로그램 될 수 있다. 즉, 활성화 함수 변환 프로그램 유닛(3000)은 PAFE 유닛(500)의 하드웨어 구성을 기초로 NPU(1000)에서 처리하고자 하는 활성화 함수를 PAF로 프로그래밍 하도록 구성될 수 있다.
예를 들면, PAFE 유닛(500)은 각 프로그래머블 세그먼트를 특정 기울기 및 특정 오프셋으로 연산하도록 구성된 하드웨어를 가지도록 구성될 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 PAFE 유닛(500)의 구성 정보를 제공받도록 구성될 수 있다.
이러한 경우, 활성화 함수 변환 프로그램 유닛(3000)은 기울기(slope) 및 오프셋(offset)을 갖는 1차 함수 또는 2차 함수 이상의 형태로 프로그래머블 세그먼트를 프로그래밍할 수 있다. 예를 들면, 프로그래머블 세그먼트는 특정 판단 기준에 따라 1차 함수로 근사화 될 수 있다. 이러한 경우 활성화 함수 변환 프로그램 유닛(3000)은 '(기울기 a)*(입력 값 x)+(오프셋 b)'의 형태로 표현된 프로그래머블 세그먼트를 생성할 수 있다. 상술한 특정 기울기 및 특정 오프셋은 프로그래머블 파라미터일 수 있다. 1차 함수로 근사화 되도록 결정된 프로그래머블 세그먼트의 경우, 단계(S220)는 선택된 하나의 세그먼트를 특정 기울기 및 특정 오프셋 값으로 근사화 하는 단계를 포함할 수 있다.
부연 설명하면, 몇몇 예시에서는, 단계(210)과 단계(220)은 실질적으로 하나의 단계로 수행되는 것도 가능하다. 이는, 세그먼트를 세그먼팅 하는 단계와 대응되는 프로그래머블 세그먼트의 프로그래머블 파라미터를 생성하는 단계가 동시에 수행될 수 있기 때문이다. 부연 설명하면, 몇몇 예시에서는, 단계(210) 및 단계(220)는 생성된 세그먼트 데이터를 이용하여 활성화 함수를 복수의 세그먼트들로 세그먼팅하고, 복수의 세그먼트들 중 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 근사화 하는 단계로 변형 실시될 수 있다.
도 3은 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에 의해 활성화 함수가 근사화 되는 과정을 설명하는 그래프이다.
도 3(a)에 도시된 활성화 함수는 도 3(b)에 도시된 바와 같이 세그먼트 데이터를 이용하여 복수의 세그먼트들(s1, s2, s3, s4)로 세그먼팅된다. 복수의 세그먼트들(s1, s2, s3, s4)은 도 3(c)에 도시된 바와 같이 프로그래머블 세그먼트들(a1x+b1, a2x+b2, a3x+b3, a4x+b4)로 근사화 된다. 여기서 활성화 함수 변환 프로그램 유닛(3000)이 모든 프로그래머블 세그먼트들이 1차 함수에 대응되도록 프로그래머블 파라미터를 생성한 예시를 설명한다.
각 프로그래머블 세그먼트는 대응되는 프로그래머블 파라미터를 포함한다. 도 3(c)에서는 복수의 세그먼트들 모두가 1차 함수 형태의 프로그래머블 세그먼트들로 근사화 되었다. 하지만, 다양한 예시들에서 복수의 세그먼트들 중 일부 세그먼트는 다른 형태의 프로그래머블 세그먼트로 근사화 될 수도 있다. 예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 각각의 프로그래머블 세그먼트를 1차 함수, 2차 함수, 3차 함수, 로그 함수 등의 형태로 프로그래밍 할 수 있다.
예를 들면, 세그먼트들(s1, s3, s4)만이 프로그래머블 세그먼트로 근사화 되고, 세그먼트(s2)는 활성화 함수가 처리될 장치에서 이용가능한 다양한 방식을 이용하여 근사화 될 수 있다. 구체적으로, 세그먼트(s2)의 구간에서 미리결정되어 저장된 룩업 테이블, 비선형 근사식 등이 하드웨어에서 이용가능한 경우, 이러한 미리결정되어 저장된 룩업 테이블, 비선형 근사식 등을 이용하여 세그먼트(s2)가 근사화 될 수 있다.
다르게 설명하면, 활성화 함수 변환 프로그램 유닛(3000)은 각각의 세그먼트들(s1, s2, s3, s4)을 독립적으로 프로그래밍하도록 구성될 수 있다. 이때, 활성화 함수 변환 프로그램 유닛(3000)은 PAFE 유닛(500)의 하드웨어 구성 정보를 제공받는다. 활성화 함수 변환 프로그램 유닛(3000)은 PAFE 유닛(500)의 하드웨어 구성 정보에 기초하여 세그먼트들(s1, s2, s3, s4) 각각에 대한 근사화 방법을 독립적으로 결정하도록 구성될 수 있다.
예를 들면, PAFE 유닛(500)은 1차 함수 연산을 지원하는 회로를 포함하도록 구성될 수 있다. 이러한 경우, 활성화 함수 변환 프로그램 유닛(3000)은 각각의 세그먼트들(s1, s2, s3, s4)을 1차 함수의 형태로 프로그래밍 할 수 있다.
예를 들면, PAFE 유닛(500)은 1차 함수 및 2차 함수 연산을 지원하는 회로를 포함하도록 구성될 수 있다. 이러한 경우, 활성화 함수 변환 프로그램 유닛(3000)은 각각의 세그먼트들(s1, s2, s3, s4)을 1차 함수 또는 2차 함수의 형태로 프로그래밍 할 수 있다.
예를 들면, PAFE 유닛(500)은 1차 함수, 2차 함수 및 로그(log) 함수 연산을 지원하는 회로를 포함하도록 구성될 수 있다. 이러한 경우, 활성화 함수 변환 프로그램 유닛(3000)은 각각의 세그먼트들(s1, s2, s3, s4)을 1차 함수, 2차 함수 또는 로그 함수의 형태로 선택적으로 프로그래밍 할 수 있다.
예를 들면, PAFE 유닛(500)은 1차 함수, 2차 함수, 로그 함수 및 지수(exponential) 함수 연산을 지원하는 회로를 포함하도록 구성될 수 있다. 이러한 경우, 활성화 함수 변환 프로그램 유닛(3000)은 각각의 세그먼트들(s1, s2, s3, s4)을 1차 함수, 2차 함수, 로그 함수 또는 지수 함수의 형태로 선택적으로 프로그래밍 할 수 있다.
예를 들면, PAFE 유닛(500)이 적어도 하나의 특정 함수 연산을 지원하도록 구성된 회로를 포함하도록 구성될 경우, 활성화 함수 변환 프로그램 유닛(3000)은 각각의 세그먼트들(s1, s2, s3, s4)을 대응되는 특정 함수의 형태로 프로그래밍 할 수 있다.
예를 들면, PAFE 유닛(500)은 하드웨어로 설계된 1차 함수 연산 회로, 2차 함수 연산 회로, 3차 함수 연산 회로, 로그 함수 연산 회로, 지수 함수 연산 회로 또는 이와 유사한 함수 연산 회로 중 적어도 하나를 포함하도록 구성될 수 있다.
예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 동일한 활성화 함수도 상이한 방법으로 프로그래밍 할 수 있다.
예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 특정 활성화 함수를 1차 함수로만 프로그래밍 할 수 있다.
예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 특정 활성화 함수를 2차 함수로만 프로그래밍 할 수 있다.
예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 특정 활성화 함수를 3차 함수로만 프로그래밍 할 수 있다.
예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 특정 활성화 함수를 로그 함수로만 프로그래밍 할 수 있다.
예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 특정 활성화 함수를 지수 함수로만 프로그래밍 할 수 있다.
예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 특정 활성화 함수의 복수의 세그먼트 각각을 대응되는 근사화 함수로 프로그래밍 할 수 있다.
예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 특정 활성화 함수의 복수의 세그먼트들을 상이한 수식의 근사화 함수들의 집합으로 프로그래밍 할 수 있다.
도 4는 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에 의해 활성화 함수를 복수의 세그먼트들로 세그먼팅하는 다양한 경우를 설명하는 그래프이다.
도 4(a)를 참조하면, PAF는 4개의 세그먼트 수를 가지고 균일한 폭을 갖게 세그먼팅 될 수 있다.
도 4(b)를 참조하면, PAF는 4개의 세그먼트 수를 가지고 상이한 폭을 갖게 세그먼팅 될 수 있다.
도 4(c)를 참조하면, PAF는 4개의 세그먼트 수를 가지고 상이한 폭을 갖게 세그먼팅 될 수 있다.
도 4(d)를 참조하면, PAF는 6개의 세그먼트 수를 가지고 상이한 폭을 갖게 세그먼팅 될 수 있다.
복수의 세그먼트들의 개수 및 복수의 세그먼트들 각각의 폭은 세그먼트 데이터를 이용하여 결정될 수 있다.
활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수의 비선형성을 분석하여 복수의 세그먼트들이 상이한 폭으로 세그먼팅 하도록 구성될 수 있다. 단, 본 개시는 이에 제한되지 않는다.
활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수의 비선형성을 분석하여 복수의 세그먼트들 각각이 최적의 폭으로 세그먼팅 되도록 구성될 수 있다. 단, 본 개시는 이에 제한되지 않는다.
본 개시에서 활성화 함수는 특징적인 구간들을 포함하는 다양한 형태로 실시될 수 있다. 활성화 함수를 복수의 세그먼트들로 세그먼팅하는 경우, 활성화 함수가 갖는 다양한 형태에 따라 복수의 세그먼트의 개수와 폭이 다양하게 결정될 수 있다.
예를 들면, 스위시(swish) 함수, Mish 함수, 시그모이드(sigmoid) 함수, 하이퍼볼릭 탄젠트(tanh) 함수, SELU 함수, GELU(Gaussian Error Linear Unit) 함수, SOFTPLUS 함수, ReLU 함수, Leaky ReLU 함수, Maxout 함수, ELU 함수 등과 같은 다양한 활성화 함수들은 (실질적) 선형 구간 및/또는 비선형 구간을 포함하는 복수의 특징적인 구간들로 구분되는 다양한 형태를 가진다. 이에 따라, 비선형 활성화 함수를 하드웨어에서 처리 가능하게 근사화 할 때, 이러한 특징적인 구간들을 고려하여 세그먼팅하면, 즉 (실질적) 선형 구간, 비선형 구간 등을 고려하여 세그먼트의 개수 및 폭을 결정하면, 각각의 활성화 함수의 특징에 대응하여 보다 효율적으로 활성화 함수를 근사화 할 수 있다.
이에 따라, 본 개시에 따른 활성화 함수를 근사화 하는 방법에서는 활성화 함수의 이러한 특징적인 구간들을 고려하여 활성화 함수를 세그먼팅하기 위해 세그먼트 데이터라는 개념을 제안한다. 세그먼트 데이터는 활성화 함수의 불연속성 정보, 미분 데이터, 활성화 함수가 처리되는 하드웨어의 정보 등을 포함하고, 이들을 가공한 데이터도 포함한다.
이하, 도 5 내지 도 7을 참조하여, 세그먼트 데이터 중 불연속성 정보를 이용하여 활성화 함수를 복수의 세그먼트들로 세그먼팅하는 구체적인 과정을 설명한다.
도 5는 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 세그먼트 데이터 중 기울기 변화 데이터를 이용하여 활성화 함수를 선형 구간과 비선형 구간을 구분해서 세그먼팅하는 일 예시를 설명하는 그래프이다.
활성화 함수의 기울기 변화 지점이란 활성화 함수의 기울기가 바뀌는 지점을 의미할 수 있다. 예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수의 기울기 변화 지점 분석을 위해서 기울기 변화 데이터(e.g., 미분 데이터)를 생성하도록 구성될 수 있다. 단, 본 개시의 기울기 변화 데이터는 미분 데이터에 제한되지 않으며, 이와 유사한 데이터를 포함할 수 있다.
본 개시의 예시들에 따른 기울기 변화 데이터는 활성화 함수의 n차 미분값, 예를 들면 1차 미분값, 2차 미분값, 3차 미분값 등을 포함할 수 있다. 여기서 기울기 변화 데이터는 활성화 함수와 관련된 기울기 변화율 및 기울기 변화 지점을 나타낼 수 있다.
부연 설명하면, 기울기 변화 지점은 기울기 변화 데이터가 불연속 되는 지점(d1, d2, d3)을 의미할 수 있다. 즉, 기울기 변화 데이터가 불연속 되는 지점(d1, d2, d3)에서는 반드시 활성화 함수의 기울기가 바뀐다. 따라서, 본 개시의 기울기 변화 지점은 활성화 함수의 n차 미분값, 예를 들면 1차 미분값, 2차 미분값, 3차 미분값 등의 불연속 지점을 의미할 수 있다.
이하 도 5를 참조하여 기울기 변화 지점 탐색 과정에 대해서 설명한다.
도 5(a)에 도시된 활성화 함수 f(x)에 대한 미분 데이터 중 1차 미분값 f'(x)가 도 5(b)에 도시된다. 그리고, 도 5(a)에 도시된 활성화 함수 f(x)에 대한 미분 데이터 중 2차 미분값 f''(x)가 도 5(c)에 도시된다.
예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 1차 미분값이 변하지 않는 구간의 시작점과 끝점을 추출하도록 구성될 수 있다. 도 5(b)에 도시된 바와 같이, 활성화 함수 변환 프로그램 유닛(3000)은 1차 미분 값에 해당하는 기울기 변화 데이터를 생성한다. 그리고, 활성화 함수 변환 프로그램 유닛(3000)은 w2 구간 및 w3 구간 각각에서의 1차 미분값은 상이하나 1차 미분값의 변화가 없는 것을 파악한다. 이에, 활성화 함수 변환 프로그램 유닛(3000)은 w2 구간 및 w3 구간 각각을 선형 구간으로 판단할 수 있다. 즉, 선형 구간내에서 1차 미분값에 해당하는 기울기 변화 데이터은 변하지 않는다. 다만, w2 구간 및 w3 구간 각각에서 1차 미분 값은 상이하므로, w2 구간 및 w3 구간 각각의 경계에서의 1차 미분값에 해당하는 기울기 변화 데이터는 불연속 지점(d1, d2)을 갖는다. 즉, w2 구간 및 w3 구간 각각의 경계에서의 1차 미분값에 해당하는 기울기 변화 데이터는 불연속 지점이므로, w2 구간 및 w3 구간 각각의 경계는 기울기 변화 지점에 해당할 수 있다.
이러한 경우, 활성화 함수 변환 프로그램 유닛(3000)은 상기 선형 구간을 대응되는 1차 함수 형태의 프로그래머블 파라미터로 변환시킬 수 있다. 따라서 프로그래밍하고자 하는 활성화 함수의 선형 구간을 특정 기울기와 특정 오프셋을 가지는 1차 함수로 세그먼팅 할 수 있다. 선형 구간의 1차 미분값은 상수(constant)값일 수 있다. 부연 설명하면, 선형 구간은 1차 함수로 근사화 하여도 근사화 에러 값이 0이 될 수 있다. 따라서 활성화 함수 변환 프로그램 유닛(3000)은 w2 및 w3 구간 각각에서 실질적으로 근사화 에러가 없다고 판단할 수 있다. 즉, 활성화 함수 변환 프로그램 유닛(3000)이 w2 및 w3 구간 각각을 1차 함수로 근사화 할 경우, PAFE 유닛(500)의 연산량, 전력 소비량이 최소화되면서 근사화 에러 값 또한 0이 될 수 있다.
활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수의 1차 미분값이 상수 또는 0이 아닌 구간을 2차 함수 이상 또는 곡선(비선형 함수)인 구간으로 판단하도록 구성될 수 있다.
본 개시에서, 미분 데이터와 관련하여 '선형 구간(linear interval)'이라는 용어는 활성화 함수의 1차 미분값이 정수 또는 0인 구간, 또는 활성화 함수가 1차 함수로 표현되는 구간을 의미하고, '비선형 구간(non-linear interval)'이라는 용어는 활성화 함수의 1차 미분값이 정수 또는 0이 아닌 구간을 의미할 수 있다. 단, 본 개시의 예시들의 선형 구간의 판단은 미분값에 의해서만 결정되지 않는다. 즉, 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수를 입력 받아 다양한 방식으로 선형 구간을 판단 또는 구분하도록 구성될 수 있다.
활성화 함수 변환 프로그램 유닛(3000)은 선형 구간의 존재 여부를 우선적으로 판단하도록 구성될 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 선형 구간을 1차 함수 형태의 프로그래머블 파라미터로 변환하고, 나머지 비선형 구간을 특정 함수 형태의 프로그래머블 파라미터로 변환하도록 구성될 수 있다.
부연 설명하면, 본 개시의 예시들에서 설명하는 미분 데이터는 활성화 함수의 기울기를 계산하기 위한 하나의 수학적 계산 방법일 뿐이다. 따라서 본 개시는 미분값에 제한되지 않으며, 실질적으로 유사한 기울기 계산 방법을 활용하는 것도 가능하다.
기울기 변화 지점의 탐색은 상술한 방법에 한정되지 않고, 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수의 1차 미분값의 변화가 X 축을 따라 특정 임계값 이상으로 커질 때 해당 지점을 기울기 변화 지점으로 판단하도록 구성될 수 있다.
이후, 활성화 함수 변환 프로그램 유닛(3000)은 2차 미분값이 변하지 않는 구간의 시작점과 끝점을 추출하도록 구성될 수 있다. 도 5(c)에 도시된 바와 같이, 활성화 함수 변환 프로그램 유닛(3000)은 2차 미분 값에 해당하는 기울기 변화 데이터를 생성한다. 그리고, 활성화 함수 변환 프로그램 유닛(3000)은 w1-1 구간 및 w1-2 구간 각각에서의 2차 미분값은 상이하나 2차 미분값의 변화가 없는 것을 파악한다. 다만, w1-1 구간 및 w1-2 구간 각각에서 2차 미분 값은 상이하므로, w1-1 구간 및 w1-2 구간 각각의 경계에서의 2차 미분값에 해당하는 기울기 변화 데이터는 불연속 지점(d3)을 갖는다. 즉, w1-1 구간 및 w1-2 구간 각각의 경계에서의 2차 미분값에 해당하는 기울기 변화 데이터는 불연속 지점(d3)이므로, w1-1 구간 및 w1-2 구간 각각의 경계는 기울기 변화 지점에 해당할 수 있다.
이러한 경우, 활성화 함수 변환 프로그램 유닛(3000)은 상기 비선형 구간을 대응되는 2차 함수 형태의 프로그래머블 파라미터로 변환시킬 수 있다. 따라서 프로그래밍하고자 하는 활성화 함수의 비선형 구간을 2차항의 계수 및 1차항의 계수를 포함하는 특정 기울기와 특정 오프셋을 가지는 2차 함수로 세그먼팅 할 수 있다. 비선형 구간의 2차 미분값은 상수(constant)값일 수 있다. 부연 설명하면, 비선형 구간은 2차 함수로 근사화 하여도 근사화 에러 값이 0이 될 수 있다. 따라서 활성화 함수 변환 프로그램 유닛(3000)은 w1-1 및 w1-2 구간 각각에서 실질적으로 근사화 에러가 없다고 판단할 수 있다. 즉, 활성화 함수 변환 프로그램 유닛(3000)이 w1-1 및 w1-2 구간 각각을 2차 함수로 근사화 할 경우, PAFE 유닛(500)의 연산량, 전력 소비량이 최소화되면서 근사화 에러 값 또한 0이 될 수 있다.
단 본 개시의 예시들은 이에 제한되지 않으며, w1-1 및 w1-2 구간은 1차 함수로 근사화 되는 것도 가능하다. 이러한 경우 근사화 에러 값이 증가할 수 있으나, NPU(1000)의 PAFE 유닛(500) 연산량 감소에 의해서 NPU(1000)의 소비 전력이 저감될 수 있다. 즉, 활성화 함수 변환 프로그램 유닛(3000)은 연산량, 전력 소비량, 근사화 에러 값 중 다른 우선 순위에 따라 프로그래머블 파라미터를 다르게 결정할 수 있다.
상술한, 활성화 함수의 2차 미분값은 활성화 함수의 기울기의 변화율을 나타낼 수 있다. 활성화 함수의 2차 미분값이 상대적으로 큰 구간은 기울기의 변화율이 큰 구간이기 때문에, 이러한 구간에 대응하는 활성화 함수의 세그먼트는 기울기가 크게 변화하여 증감의 폭이 큰 형태를 갖게 된다. 반대로, 활성화 함수의 2차 미분값이 상대적으로 작은 구간은 기울기의 변화율이 작은 구간이기 때문에, 이러한 구간에 대응하는 활성화 함수의 세그먼트는 기울기가 작게 변화하여 증감의 폭이 작은 형태를 갖게 된다.
특히, 활성화 함수의 2차 미분값이 특정 임계값 이하로 매우 작은 구간은 기울기의 변화율이 매우 작은 구간이다.
이에 따라, 활성화 함수 변환 프로그램 유닛(3000)은 이러한 구간의 활성화 함수를 기울기가 거의 변화하지 않는 실질적인 1차 함수 구간으로 판단하도록 구성될 수 있다.
예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수의 2차 미분값이 임계값 이하로 매우 작은 구간은 '실질적 선형 구간(substantially linear interval)'으로 판단하도록 구성될 수 있다. 활성화 함수의 2차 미분값에 대한 임계값에 대해서는 후술한다.
활성화 함수의 미분값이 0 또는 정수가 되는 미분차수는 활성화 함수의 기울기 변화의 정도를 나타낼 수 있다. 구체적으로, 일반적으로 함수의 최고차항의 차수가 높을수록 함수의 기울기 변화가 급격하기 때문에, 활성화 함수의 최고차항의 차수가 높은 구간은 기울기 변화가 급격한 구간으로 다른 구간과 구별하여 보다 많은 세그먼트의 수를 가지도록 세그먼팅될 수 있다.
특정 구간에서 활성화 함수의 최고차항의 차수는 특정 구간에서 미분값이 0 또는 정수가 되는 미분차수를 통해 결정될 수 있다.
예를 들면, 특정 구간에서 최고차항이 3차인 활성화 함수의 경우, 특정 구간에서 활성화 함수의 3차 미분값이 정수(i.e., 최고차항의 계수)가 되고 활성화 함수의 4차 미분값이 0이 되기 때문에, 특정 구간에서 3차 미분값이 정수이거나 4차 미분값이 0이 되는 활성화 함수는 특정 구간에서 최고차항의 차수가 3차로 결정될 수 있다.
다양한 예시에서 활성화 함수의 최고차항의 차수가 3차 이상인 구간은 다른 구간들과 구별하여 보다 많은 세그먼트의 개수를 가지도록 세그먼팅될 수 있다. 예를 들면, 활성화 함수의 최고차항의 차수가 3차 이상인 구간에서 세그먼트들의 개수는 활성화 함수가 처리될 하드웨어에서 해당 구간에 대해 세그먼팅가능한 최대 세그먼트의 개수로 결정될 수 있다.
기울기 변화 데이터(i.e., 1차 미분값 f'(x))를 이용하여, 활성화 함수의 기울기 변화 지점을 확인할 수 있다. 기울기 변화 데이터(i.e., 1차 미분값 f'(x))를 이용하여, 활성화 함수 f(x)가 2개의 선형 구간(w2, w3)을 포함하는 3 개의 구간들(w1, w2, w3)로 세그먼팅 될 수 있다.
즉, 활성화 함수 변환 프로그램 유닛(3000)은 프로그래밍하고자 하는 활성화 함수 f(x)의 기울기 변화 데이터를 이용하여 선형 구간(w2, w3)과 비선형 구간(w3)을 결정하여 세그먼팅 할 수 있다.
즉, 활성화 함수 f(x)는 1차 미분값 f'(x)이 (0이 아닌) 상수, 0, 임계점 이하의 곡선(비선형 함수), 또는 곡선(비선형 함수)인 지점 또는 구간에 따라 세그먼팅될 수 있다. 다르게 설명하면, 활성화 함수 f(x)는 활성화 함수 f(x)가 미분 가능하지 않은 지점 또는 1차 미분값 f'(x)이 불연속한 지점에 따라 세그먼팅될 수 있다.
도 5(b)에서 3개의 구간으로 세그먼팅 된 결과를 도시하나, 이는 선형 구간과 비선형 구간으로 세그먼팅 되는 과정을 간략하게 설명하기 위한 것으로, 활성화 함수 f(x)는 세그먼트 데이터를 이용하여 4개 이상의 구간, 즉 적어도 4개 이상의 세그먼트들로 세그먼팅 될 수 있음이 이해되어야 한다.
예를 들면, 선형 구간(w1)은 본 개시의 예시들에 따른 활성화 함수 프로그래밍 방법에 따라 세그먼트 데이터를 이용하여 복수의 구간으로 더 세그먼팅 될 수 있다. 선형 구간(w1)의 추가적인 세그먼팅에 의해 활성화 함수가 보다 많은 개수의 세그먼트들로 세그먼팅되어 근사화 될 수 있어, 근사화 에러(approximation error)가 감소될 수 있다. 본 개시에서 '근사화 에러'라는 용어는 활성화 함수의 특정 세그먼트와 특정 세그먼트를 근사화 한 프로그래머블 세그먼트 사이의 차이를 의미한다.
도 6은 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 세그먼트 데이터 중 기울기 변화 데이터를 이용하여 활성화 함수를 실질적 선형 구간과 비선형 구간을 구분해서 세그먼팅하는 일 예시를 설명하는 그래프이다.
도 6(a)에 도시된 활성화 함수 f(x)에 대한 미분 데이터 중 2차 미분값 f''(x)의 절대값이 도 6(b)에 도시된다. 활성화 함수 변환 프로그램 유닛(3000)은 2차 미분값 f”(x)에 실질적 선형 구간의 임계값을 설정하여 실질적 선형 구간을 결정하도록 구성될 수 있다. 도 6(b)를 참조하면, 활성화 함수 f(x)의 2차 미분값 f''(x)의 절대값의 최대값(Max)은 0.5일 경우, 최대값(Max)의 10%인 0.05가 실질적 선형 구간의 임계값(Th)으로 설정될 수 있다. 부연 설명하면, 활성화 함수의 2차 미분값 f”(x)이 작을수록 선형적이고, 2차 미분값 f”(x)이 클수록 비선형적인 특징을 가진다고 판단할 수 있다.
즉, 실질적 선형 구간의 임계값(Th)은 활성화 함수 f(x)의 2차 미분값 f''(x)의 절대값의 최대값(Max)에 대한 상대적인 비율로 결정될 수 있다. 실질적 선형 구간의 임계값(Th)은 선형 구간은 아니지만 선형으로 근사화 하는 경우 발생하는 에러가 허용가능한 정도인지를 기준으로 결정될 수 있다. 예를 들면, 실질적 선형 구간의 임계값은 PAF가 적용되는 DNN의 추론 정확도 열화 정도를 결정하는 각 세그먼트의 에러 값의 수준에 따라 결정되는 것도 가능하다.
부연 설명하면, 실질적 선형 구간의 임계값이 증가할수록 선형 구간의 세그먼트가 좀더 넓게 프로그램 될 수 있다. 한편 세그먼트의 폭이 넓어질수록 세그먼트의 개수는 저감될 수 있다. 즉, 실질적 선형 구간의 임계값에 따라서 PAF의 세그먼트의 총 개수와 폭이 상이해질 수 있다.
실질적 선형 구간의 탐색은 선형 구간의 탐색 이후에 수행될 수 있다. 단 본 개시는 선형 구간 탐색과 실질적 선형 구간 탐색의 순서에 제한되지 않는다.
도 6(b)의 예시들에서는 실질적 선형 구간의 임계값(Th)은 2차 미분 값 최대 값(max)의 10%로 결정될 수 있다. 단, 본 개시는 이에 제한되지 않으며 DNN의 허용가능한 에러에 따라 최대 값(max)의 5%로 결정될 수 있다. 미분 데이터, 즉 2차 미분값 f''(x)를 이용하여 활성화 함수 f(x)는 2차 미분값 f''(x)가 실질적 선형 구간의 임계값(Th) 이하인 구간(w1, w3) 및 2차 미분값 f''(x)가 실질적 선형 구간의 임계값(Th) 이상인 구간(w2)으로 세그먼팅 될 수 있다. 활성화 함수 f(x)에서 기울기 변화 데이터를 이용하여 실질적 선형(w1, w3) 구간 및 비선형 구간(w2)이 결정되어 세그먼팅 될 수 있다. 제1 내지 제3 구간(w1, w2, w3)이 결정되면, 제1 내지 제3 세그먼트(s1, s2, s3)는 대응되는 프로그래머블 파라미터를 이용하여 프로그래머블 세그먼트로 프로그래밍 될 수 있다.
도 6(b)에서 3개의 구간들(w1, w2, w3)에 대응되는 3개의 세그먼트들(s1, s2, s3)로 세그먼팅 된 결과를 도시하나, 이는 실질적 선형 구간과 비선형 구간으로 세그먼팅 되는 과정을 간략하게 설명하기 위한 것이다. 즉, 활성화 함수 f(x)는 세그먼트 데이터를 이용하여 4개 이상의 구간, 즉 4개 이상의 세그먼트들로 세그먼팅 될 수 있음이 이해되어야 한다.
예를 들면, 비선형 구간(w2)은 본 개시의 예시들에 따른 활성화 함수 프로그래밍 방법에 따라 세그먼트 데이터를 이용하여 복수의 구간으로 더 세그먼팅 될 수 있다. 비선형 구간(w2)의 추가적인 세그먼팅에 의해 근사화 에러가 감소될 수 있다.
도 7은 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 세그먼트 데이터 중 기울기 변화 데이터를 이용하여 활성화 함수를 실질적 선형 구간과 비선형 구간을 구분해서 세그먼팅하는 다른 예시를 설명하는 그래프이다.
도 7을 참조하면, 활성화 함수 f(x)에서 비선형 구간이 세그먼트 데이터, 즉 2차 미분값 f''(x)의 절대값의 실질적 선형 구간의 임계값(Th)을 기준으로 결정될 수 있다. 즉, 실질적 선형 구간의 임계값(Th) 이상의 영역은 비선형 구간으로 판단될 수 있다. 구체적으로, 도 7(b)를 참조하면, 활성화 함수 변환 프로그램 유닛(3000)은 미분 데이터, 즉 2차 미분값 f''(x)를 이용하여 활성화 함수 f(x)를 실질적 선형 구간 및 비선형 구간으로 세그먼팅할 수 있다. 나아가 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수 f(x)의 비선형 구간을 예를 들면 2개의 구간들(w2, w3)에 대응되는 세그먼트들(s2, s3)로 세그먼팅 할 수 있다.
즉, 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수 f(x)의 기울기 변화 데이터를 이용하여 실질적 선형(w1, w4) 구간 및 비선형 구간(w2, w3)을 구분하고 비선형 구간(w2, w3)을 세그먼팅 될 수 있다.
활성화 함수 변환 프로그램 유닛(3000)은 다양한 방법으로 각각의 세그먼트에 대응되는 최적의 프로그래머블 파라미터를 탐색하도록 구성될 수 있다. 예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 고속 연산, 저전력, 추론 정확도 열화 방지 중 특정 성능을 달성할 수 있는 최적의 프로그래머블 파라미터를 탐색할 수 있다.
도 7(b)에서 4개의 구간(w1, w2, w3, w4)으로 세그먼팅 된 세그먼트들(s1, s2, s3, s4)을 도시하나, 이는 실질적 선형 구간과 비선형 구간으로 세그먼팅 되는 과정을 간략하게 설명하기 위한 것이다. 따라서, 활성화 함수 f(x)는 세그먼트 데이터를 이용하여 5개 이상의 구간, 즉 5개 이상의 세그먼트들로 세그먼팅 될 수 있음이 이해되어야 한다.
예를 들면, 비선형 구간들(w2, w3)은 본 개시의 예시에 따른 활성화 함수 프로그래밍 방법에 따라 세그먼트 데이터를 이용하여 복수의 구간으로 더 세그먼팅 될 수 있다. 구체적으로 비선형 구간들(w2, w3)은 2차 미분값 f''(x)의 최대값(Max)를 기준으로 세그먼팅될 수 있다. 즉, 실질적 선형 구간의 임계값(Th)에서부터 2차 미분값 f''(x)의 최대값(Max) 까지의 영역은 w2 구간으로 세그먼팅된다. 그리고, 2차 미분값 f''(x)의 최대값(Max)부터 실질적 선형 구간의 임계값(Th)은 w3 구간으로 세그먼팅된다.
비선형 구간들(w2, w3)에서 추가적인 세그먼팅이 실시될 경우 근사화 에러가 더 감소될 수 있다.
도 8는 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 세그먼트 데이터 중 기울기 변화 데이터를 이용하여 활성화 함수를 비선형 구간을 구분해서 세그먼팅하는 또 다른 예시를 설명하는 그래프이다.
도 8을 참조하면, 활성화 함수 f(x)에서 비선형 구간이 세그먼트 데이터, 즉 2차 미분값 f''(x)의 절대값의 실질적 선형 구간의 임계값(Th)을 기준으로 결정될 수 있다. 즉, 실질적 선형 구간의 임계값(Th) 이상의 영역은 비선형 구간으로 판단될 수 있다. 구체적으로, 도 8(b)를 참조하면, 활성화 함수 변환 프로그램 유닛(3000)은 미분 데이터, 즉 2차 미분값 f''(x)를 이용하여 활성화 함수 f(x)를 실질적 선형 구간 및 비선형 구간으로 세그먼팅할 수 있다. 나아가 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수 f(x)의 비선형 구간을 예를 들면 3개의 구간들(w2, w3, w4)에 대응되는 세그먼트들(s2, s3, s4)로 세그먼팅 할 수 있다.
즉, 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수 f(x)의 기울기 변화 데이터를 이용하여 실질적 선형(w1, w5) 구간 및 비선형 구간(w2, w3, w4)을 구분하고 비선형 구간(w2, w3, w4)을 세그먼팅 될 수 있다.
단, 본 개시의 예시는 실질적 선형 구간에 제한되지 않으며, 실질적 선형 구간도 비선형 구간으로 세그먼팅 될 수 있다. 즉, 실질적 선형 구간을 판단하는 단계는 경우에 따라서 실시되지 않을 수 있다.
활성화 함수 변환 프로그램 유닛(3000)은 다양한 방법으로 각각의 세그먼트에 대응되는 최적의 프로그래머블 파라미터를 탐색하도록 구성될 수 있다. 예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 고속 연산, 저전력, 추론 정확도 열화 방지 중 특정 성능을 달성할 수 있는 최적의 프로그래머블 파라미터를 탐색할 수 있다.
도 8(b)에서 5개의 구간(w1, w2, w3, w4, w5)으로 세그먼팅 된 세그먼트들(s1, s2, s3, s4, s5)을 도시하나, 이는 실질적 선형 구간과 비선형 구간으로 세그먼팅 되는 과정을 간략하게 설명하기 위한 것이다. 따라서, 활성화 함수 f(x)는 세그먼트 데이터를 이용하여 6개 이상의 구간, 즉 6개 이상의 세그먼트들로 세그먼팅 될 수 있음이 이해되어야 한다. 단, 본 개시의 예시는 실질적 선형 구간에 제한되지 않으며, 실질적 선형 구간도 비선형 구간으로 세그먼팅 될 수 있다.
예를 들면, 비선형 구간들(w2, w3, w4)은 본 개시의 예시에 따른 활성화 함수 프로그래밍 방법에 따라 세그먼트 데이터를 이용하여 복수의 구간으로 더 세그먼팅 될 수 있다.
구체적으로 비선형 구간들(w2, w3, w4)은 2차 미분값 f''(x)의 적분값(
Figure PCTKR2022019376-appb-img-000001
)을 기준으로 세그먼팅될 수 있다. 다르게 설명하면, 활성화 함수 변환 프로그램 유닛(3000)은 기울기 변화 데이터의 적분값을 기준으로 비선형 구간들을 세그먼팅 할 수 있다.
2차 미분값 f''(x)의 적분값(
Figure PCTKR2022019376-appb-img-000002
)값이 높을 경우 PAF와 활성화 함수 사이에 근사화 에러값이 증가할 수 있다. 즉, 2차 미분값 f''(x)의 적분값(
Figure PCTKR2022019376-appb-img-000003
)값이 높을 경우 에러가 발생하여 추론 정확도 열화가 발생할 수 있다. 한편, 2차 미분값 f''(x)의 적분값(
Figure PCTKR2022019376-appb-img-000004
)값이 클수록 세그먼트의 폭이 넓어질 수 있다. 반대로 2차 미분값 f''(x)의 적분값(
Figure PCTKR2022019376-appb-img-000005
)값이 작을수록 세그먼트의 폭이 좁아질 수 있다.
이에, 활성화 함수 변환 프로그램 유닛(3000)은 특정한 2차 미분값 f''(x)의 적분값(
Figure PCTKR2022019376-appb-img-000006
)값을 세그먼트 근사화 에러의 적분 임계값으로 설정할 수 있다. 예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은 w1 구간의 끝부터 2차 미분값 f''(x)을 적분할 수 있다. 따라서, w2 구간은 w1 구간의 끝부터 기 설정된 세그먼트 근사화 에러의 적분 임계값이 특정 값이 될 때 까지가 될 수 있다.
보다 구체적으로, w2 구간에서 2차 미분값 f''(x)의 적분값(
Figure PCTKR2022019376-appb-img-000007
)이 세그먼트 근사화 에러의 적분 임계값에 대응하도록 s2로 세그먼팅될 수 있다. 그리고, w3 구간에서 2차 미분값 f''(x)의 적분값(
Figure PCTKR2022019376-appb-img-000008
)이 세그먼트 근사화 에러의 적분 임계값에 대응하도록 s3로 세그먼팅될 수 있다. 그리고, w4 구간에서 2차 미분값 f''(x)의 적분값(
Figure PCTKR2022019376-appb-img-000009
)이 세그먼트 근사화 에러의 적분 임계값에 대응하도록 s4로 세그먼팅될 수 있다.
즉, w2 구간에서 2차 미분값 f''(x)의 적분값(
Figure PCTKR2022019376-appb-img-000010
)과 w3 구간에서 2차 미분값 f''(x)의 적분값(
Figure PCTKR2022019376-appb-img-000011
)과 w4 구간에서 2차 미분값 f''(x)의 적분값(
Figure PCTKR2022019376-appb-img-000012
)은 모두 세그먼트 근사화 에러의 적분 임계값과 동일한 값일 수 있다.
다만, 세그먼트 근사화 에러의 적분 임계값은 NPU(1000)의 PAFE 유닛(500)의 비교기(comparator)의 개수, PAFE 유닛(500)의 회로의 구현에 사용된 게이트 개수, 구현된 연산 회로 종류 (1차 함수 회로, 2차 함수 회로, 3차 함수 회로, 지수 회로, 로그 회로, 안티로그 회로 등) 중 적어도 하나를 포함하는 하드웨어 데이터에도 영향을 받을 수 있다. 즉, 활성화 함수 변환 프로그램 유닛(3000)은 세그먼트 근사화 에러의 적분 임계값을 상기 하드웨어 데이터를 고려하여 결정하도록 구성될 수 있다.
즉, 세그먼트 근사화 에러의 적분 임계값이 작을수록 PAF가 활성화 함수에 보다 근접할 수 있다. 다시 말하면, 세그먼트 근사화 에러의 적분 임계값이 작아질 경우, 프로그래머블 세그먼트의 개수가 증가하게 되어, PAF의 근사화 에러값이 보다 더 감소될 수 있다.
다만, 하드웨어 데이터에 의해 프로그래머블 세그먼트의 개수가 제한되므로, 세그먼트 근사화 에러의 적분 임계값이 작아지는데 한계가 있다. 즉, 하드웨어 데이터에 따라 세그먼트 근사화 에러의 적분 임계값의 하한이 결정될 수 있다.
상술한 비선형 구간들(w2, w3, w4)에서 추가적인 세그먼팅이 실시될 경우 근사화 에러가 더 감소될 수 있다. 단, 본 개시의 예시는 실질적 선형 구간에 제한되지 않으며, 실질적 선형 구간도 비선형 구간으로 세그먼팅 될 수 있다. 즉, 실질적 선형 구간을 판단하는 단계는 경우에 따라서 실시되지 않을 수 있다.
도 5 내지 도 8에 도시된 바와 같이, 활성화 함수 변환 프로그램 유닛(3000)은 기울기 변화 데이터를 이용하여 활성화 함수를 세그먼팅하면, 활성화 함수를 근사화 하기 전에 활성화 함수로부터 선형 구간을 판단할 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 기울기 변화 데이터를 이용하여 활성화 함수를 세그먼팅하면, 활성화 함수를 근사화 하기 전에 활성화 함수로부터 비선형 구간을 판단할 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 기울기 변화 데이터를 이용하여 활성화 함수를 세그먼팅하면, 활성화 함수를 근사화 하기 전에 활성화 함수로부터 실질적 선형 구간을 판단할 수 있다.
구별된 선형 구간 또는 실질적 선형 구간을 갖는 세그먼트는 '(기울기 a)*(입력 값 x)+(오프셋 b)'의 형태로 표현된 프로그래머블 세그먼트로 근사화 될 수 있다.
이때, 선형 구간 또는 실질적 선형 구간을 갖는 세그먼트는 1차 함수 또는 기울기가 거의 일정한 실질적인 1차 함수 형태이다. 따라서 활성화 함수를 기울기 및 오프셋으로 표현된 프로그래머블 세그먼트와 비교하면, 프로그램 된 세그먼트는 근사화 에러가 없거나 또는 최소화될 수 있다.
따라서, 기울기 변화 데이터를 이용하여 활성화 함수를 프로그래밍하면, 선형 구간 또는 실질적 선형 구간에 대한 연산량 및 전력 소비량이 매우 줄어들 수 있다.
따라서 본 개시의 예시들에 따른 선형 또는 실질적 선형 구간을 프로그래밍한 활성화 함수는 효율적이면서도 근사화 에러가 최소화되어 NPU(1000)에서 처리되는 DNN의 연산 속도 향상, 추론 정확도 열화 최소화, 및 NPU(1000)의 소비 전력 저감을 제공할 수 있다.
다양한 예시들에서, 단계(S210)은 활성화 함수의 기울기 변화 데이터를 기초로 활성화 함수의 선형 구간을 결정하는 단계를 더 포함할 수 있다.
다양한 예시들에서, 단계(S210)은 활성화 함수의 기울기 변화 데이터를 기초로 활성화 함수의 비선형 구간을 결정하는 단계를 더 포함할 수 있다.
다양한 예시들에서, 단계(S210)은 활성화 함수의 기울기 변화 데이터를 기초로 활성화 함수의 실질적 선형 구간을 결정하는 단계를 더 포함할 수 있다.
다양한 예시들에서, 단계(S210)은 활성화 함수의 기울기 변화 데이터를 기초로 활성화 함수의 선형 구간 및 비선형 구간을 결정하는 단계를 더 포함할 수 있다.
다양한 예시들에서, 단계(S210)은 활성화 함수의 기울기 변화 데이터를 기초로 활성화 함수의 실질적 선형 구간 및 비선형 구간을 결정하는 단계를 더 포함할 수 있다.
다양한 예시들에서, 단계(S210)은 활성화 함수의 미분 데이터를 기초로 활성화 함수의 선형 구간, 실질적 선형 구간 및 비선형 구간을 결정하는 단계를 더 포함할 수 있다.
단, 본 계시의 예시들은 활성화 함수의 미분 데이터에 제한되지 않으며, 활성화 함수의 기울기 변화, 선형성 분석이 가능한 다양한 수학적 분석을 통해 실시되는 것도 가능하다.
다양한 예시들에서, 세그먼트 데이터는 활성화 함수가 처리되는 하드웨어의 정보를 포함할 수 있다. 본 개시의 예시들에 따른 활성화 함수 프로그래밍 방법에서 하드웨어의 정보를 이용하여 활성화 함수를 세그먼팅 할 수 있다. 하드웨어 데이터는 서 NPU(1000)의 PAFE 유닛(500)의 비교기(comparator)의 개수, PAFE 유닛(500)의 회로의 구현에 사용된 게이트 개수, 구현된 연산 회로 종류 (1차 함수 회로, 2차 함수 회로, 3차 함수 회로, 지수 회로, 로그 회로, 안티로그 회로 등) 중 적어도 하나를 포함할 수 있다.
예를 들면, NPU(1000)의 PAFE 유닛(500)의 비교기의 개수에 따라 활성화 함수를 세그먼팅하는 복수의 세그먼트들의 개수가 제한될 수 있다. 이에 활성화 함수는 활성화 함수가 처리될 NPU(1000)가 처리할 수 있는 세그먼트들의 최대 개수 또는 할당된 NPU(1000)의 자원에 대응하는 세그먼트들의 개수로 세그먼팅 될 수 있다. 이에 따라, 활성화 함수 변환 프로그램 유닛(3000)은 미리결정된 하드웨어 자원을 보다 효율적이거나 보다 커스터마이즈된 방식으로 사용하여 활성화 함수를 프로그래밍할 수 있다.
다양한 예시들에서, 단계(220)는 기울기 변화 지점에 기초하여 복수의 세그먼트들 중 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 근사화 하는 단계를 더 포함할 수 있다.
다양한 예시들에서, 단계(220)는 에러 값에 기초하여 복수의 세그먼트들 중 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 근사화 하는 단계를 더 포함할 수 있다.
본 개시에서, ' 에러 값' 또는 '근사화 에러 값'이라는 용어는 활성화 함수의 특정 세그먼트와 상기 특정 세그먼트가 근사화 된 프로그래머블 세그먼트 사이의 차이를 의미한다. 근사화 에러 값은 평균 값, 최소 값, 최대 값, 누적 값 등을 더 포함할 수 있다. 부연 설명하면, 활성화 함수 변환 프로그램 유닛(3000)은 특정 세그먼트와 근사화 된 프로그래머블 세그먼트 사이의 평균 에러 값, 최소 에러 값, 최대 에러 값, 누적 에러 값 등을 계산하도록 구성될 수 있다. 누적 에러 값은 특정 세그먼트와 근사화 된 프로그래머블 세그먼트 사이의 에러 값들을 적분한 값일 수 있다.
에러 값과 관련하여, 다양한 활성화 함수들이 (실질적) 선형 구간 및/또는 비선형 구간을 포함하는 복수의 특징적인 구간들로 구분될 수 있으며, 이러한 특징적인 구간들을 동일한 폭의 세그먼트로 세그먼팅하면 각 세그먼트별로 에러 값이 크게 달라지게 된다. 이에 따라, 본 개시의 예시들에 따른 활성화 함수 프로그래밍 방법에서, 근사화 에러를 감소시키기 위해 다양한 방식으로 이러한 특징적인 구간들 중 적어도 하나의 특징을 고려하여 프로그래머블 세그먼트들로 근사화 할 수 있다.
다양한 예시들에서, 단계(S220)는 프로그래머블 세그먼트의 기울기 및 오프셋과 활성화 함수의 대응되는 세그먼트를 비교하여 에러 값을 계산하는 단계를 더 포함할 수 있다.
다양한 예시들에서, 단계(S220)는 활성화 함수의 적어도 하나의 세그먼트를 상기 프로그래머블 세그먼트로 변환하기 위한 프로그래머블 파라미터를 결정하는 단계를 더 포함할 수 있다. 다르게 설명하면, 단계(S220)는 활성화 함수의 적어도 하나의 세그먼트를 상기 프로그래머블 세그먼트로 변환하기 위한 최적의 프로그래머블 파라미터를 탐색하는 단계를 더 포함할 수 있다. 여기서 상기 프로그래머블 세그먼트가 1차 함수일 경우, 프로그래머블 파라미터는 1차 함수에 대응되는 기울기 및 오프셋을 포함할 수 있다. 여기서 상기 프로그래머블 세그먼트가 2차 함수일 경우, 프로그래머블 파라미터는 대응되는 2차 함수의 계수들(Coefficients of the quadratic term)를 포함할 수 있다. 2차 함수의 계수들은 2차 계수, 선형 계수 및 상수를 포함할 수 있다. 프로그래머블 파라미터의 근사화 함수는 고속 연산, 저전력, 추론 정확도 열화 방지 등의 성능을 고려하여 결정될 수 있다. 예를 들면, 근사화 함수의 수식이 복잡해질수록, 연산 속도가 저하되고 소비 전력이 증가할 수 있다. 근사화 에러가 적어질수록 추론 정확도 열화가 저감될 수 있다.
다양한 예시들에서, 단계(S220)는 활성화 함수의 적어도 하나의 세그먼트와 (임시) 기울기 및 (임시) 오프셋을 갖는 적어도 하나의 후보 세그먼트(candidate segment) 사이의 에러 값을 계산하는 단계를 더 포함할 수 있다. 후보 세그먼트의 개수가 많을수록, 최적의 프로그래머블 파라미터 값을 탐색할 가능성이 증가하나, 탐색 시간이 증가될 수 있다.
다양한 예시들에서, 단계(S220)는 계산된 에러 값들에 기초하여 적어도 하나의 후보 세그먼트의 파라미터를 프로그래머블 세그먼트의 프로그래머블 파라미터로 결정하는 단계를 포함할 수 있다.
따라서, 활성화 함수 변환 프로그램 유닛(3000)은 프로그램된 활성화 함수 데이터를 NPU(1000)에 제공할 수 있다. 여기서 프로그램된 활성화 함수 데이터는 적어도 하나의 프로그램된 활성화 함수를 포함할 수 있다. 여기서 프로그램된 활성화 함수 데이터는 적어도 하나의 프로그램된 활성화 함수의 각각의 프로그래머블 세그먼트와 대응되는 프로그래머블 파라미터를 포함할 수 있다.
이하, 도 9 내지 도 11을 참조하여, 에러 값에 기초하여 복수의 세그먼트들 중 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 근사화 하는 과정을 구체적으로 설명한다.
활성화 함수의 프로그래밍 과정에서는, 프로그래머블 세그먼트들 사이의 접점에서 단차가 나타날 수 있다. 본 개시의 예시들에 따른 활성화 함수 프로그래밍 방법에서 프로그래머블 세그먼트들 사이의 또는 일 프로그래머블 세그먼트의 시점 및/또는 종점에서 소정의 단차를 발생시켜 근사화 에러를 크게 감소시킬 수 있다.
이에 따라, 본 개시에서는 활성화 함수를 세그먼트 데이터를 이용하여 복수의 세그먼트들로 세그먼팅하고 에러 값에 기초하여 이러한 복수의 세그먼트들 중 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 근사화 하는 과정에서, 프로그래머블 세그먼트들 사이의 단차를 허용함으로써 에러 값을 크게 감소시킬 수 있다.
도 9을 참조하면, 비선형 활성화 함수의 세그먼트(s)에 대한 복수의 후보 세그먼트들(Sc1, Sc2, Sc3)이 도시된다.
본 개시의 예시들에서, '후보 세그먼트'라는 용어는 활성화 함수 프로그래밍 방법을 이용하여 '프로그래머블 파라미터'에 의해 표현된 프로그래머블 세그먼트가 될 수 있는 함수를 의미한다.
예를 들면, 프로그래머블 세그먼트가 1차 함수로 표현되는 경우, 프로그래머블 세그먼트는 '(기울기 a)*(입력 값 x)+(오프셋 b)'로 표현될 수 있다. 여기서 프로그래머블 파라미터는 기울기 a 및 오프셋 b를 포함한다.
예를 들면, 프로그래머블 세그먼트가 2차 함수로 표현될 경우, 프로그래머블 세그먼트는 '(2차 계수 a)*(입력 값 x2)+(선형 계수 b)*(입력 값 x)+(상수 c)'로 표현될 수 있다. 여기서 프로그래머블 파라미터는 2차 계수 a, 선형 계수 b, 및 상수 c를 포함한다.
따라서, 프로그래머블 파라미터는 1차 함수 및 2차 함수를 모두 표현할 수 있는 형식을 가지도록 구성될 수 있다. 단, 본 개시는 프로그래머블 파라미터의 형식에 제한되지 않는다.
이하, 1차 함수를 예를 들면 설명한다. 후보 세그먼트는 세그먼트 데이터를 이용하여 세그먼팅 된 프로그래머블 세그먼트에 대응하는 1차 함수의 형태일 수 있다. 일 세그먼트에 대한 후보 세그먼트는 일 세그먼트의 시점 및 종점을 지나는 1차 함수로 결정될 수 있다.
예를 들면, 일 세그먼트에 대한 후보 세그먼트는 일 세그먼트의 시점 및 종점을 지나는 1차 함수와 같은 기울기를 가지면서 오프셋이 조정된 1차 함수일 수 있다.
예를 들면, 일 세그먼트에 대한 후보 세그먼트는 일 세그먼트의 시점 및 종점을 지나는 1차 함수와 상이한 기울기를 가지면서 오프셋이 조정된 1차 함수일 수 있다.
예를 들면, 일 세그먼트에 대한 후보 세그먼트는 일 세그먼트의 접선들 중 하나로 결정될 수 있다.
도 9에서는 복수의 후보 세그먼트들 중 프로그래머블 세그먼트를 결정하는 과정을 간략하게 설명하기 위해, 세그먼트(s)의 시점과 종점을 지나는 기울기를 공통으로 갖는 3개의 후보 세그먼트들이 도시된다. 제1 후보 세그먼트(Sc1)는 세그먼트(s)의 시점 및 종점을 지나는 1차 함수이고, 제2 후보 세그먼트(Sc2) 및 제3 후보 세그먼트(Sc3)는 제1 후보 세그먼트(Sc1)와 공통된 기울기를 가지면서 오프셋이 조정된 1차 함수이고, 제3 후보 세그먼트(Sc3)는 후보 세그먼트(Sc3)가 세그먼트(s)의 접선이 되게 하는 오프셋을 갖는다. 도 9에 도시된 후보 세그먼트들은 근사화 된 프로그래머블 세그먼트가 될 수 있는 세그먼트들을 간략하게 설명하기 위한 것으로, 실제 후보 세그먼트들은 에러 값을 감소시키기 위해 다양한 방식으로 기울기 및/또는 오프셋이 조정될 수 있다.
다양한 예시들에서, 에러 값(△y)을 탐색하여 복수의 세그먼트들 중 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 근사화 할 수 있다. 이때, 활성화 함수 변환 프로그램 유닛(3000)은 복수의 세그먼트들 각각의 폭을 균일한 폭으로 결정할 수 있다. 이어서 활성화 함수 변환 프로그램 유닛(3000)은 적어도 하나의 세그먼트의 에러 값(△y)을 탐색하여 복수의 세그먼트들 중 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 근사화 할 수 있다. 단, 본 개시는 이에 제한되지 않는다.
도 10는 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 에러 값(△y) 중 가장 큰 값인 최대 에러 값(max(△y))을 탐색하여 일 세그먼트를 프로그래머블 세그먼트로 근사화 하는 예시를 설명하는 그래프이다.
도 10(a)는 활성화 함수 f(x)를 세그먼팅하는 세그먼트들(s1, s2), 제1 세그먼트(s1)에 대응하는 제1 후보 세그먼트(sc1(x)), 및 제2 세그먼트(s2)에 대응하는 제2 후보 세그먼트(sc2(x))를 도시한다. 도 10(a)에서는 각각의 후보 세그먼트들(sc1(x), sc2(x))은 각각의 세그먼트들(s1, s2)의 시점 및 종점을 지나는 각각의 1차 함수를 표현하는 최적의 프로그래머블 파라미터(i.e., 기울기 및 오프셋)를 탐색한다.
도 10(a)에 도시된 일 예시와 같이, 활성화 함수 변환 프로그램 유닛(3000)은 제2 세그먼트(s2)와 제2 후보 세그먼트(sc2(x)) 사이에 에러 값(△y), 즉 'f(x)-sc2(x)'의 절대값(|f(x)-sc2(x)|)을 계산한다. 활성화 함수 변환 프로그램 유닛(3000)은 에러 값(△y) 중에서 가장 큰 값인 최대 에러 값(max(△y))도 계산할 수 있다. 제2 세그먼트(s2)의 최대 에러 값(max(△y))을 감소시키기 위해, 도 10(b)에 도시된 바와 같이 후보 세그먼트(sc2(x))를 최대 에러 값(max(△y))의 절반인 max(△y)/2 값만큼 y축 방향으로 조정(i.e., 오프셋 조정)한 제2 후보 세그먼트가 제2 세그먼트(s2)를 근사화 한 제2 프로그래머블 세그먼트(sp2(x))로 결정될 수 있다.
제1 세그먼트(s1)를 근사화 한 제1 프로그래머블 세그먼트(sp1(x))가 도 10(b)에서와 같이 도시되면, 제1 프로그래머블 세그먼트(sp1(x))와 제2 프로그래머블 세그먼트(sp2(x)) 사이에는 Y 축으로 단차가 발생할 수 있다.
도 10(b)에서 이러한 인접한 프로그래머블 세그먼트들의 접점에서의 Y 축으로 단차는 활성화 함수 f(x)의 제2 세그먼트(s2)를 에러 값(|f(x)-sc2(x)|)에 기초하여 프로그래머블 세그먼트로 근사화 하는 과정에서 의도적으로 유도된 것일 수 있다. 즉, 특정 프로그래머블 세그먼트 내의 최대 에러 값을 감소시키도록 특정 프로그래머블 세그먼트를 근사화하는 과정에서 인접한 프로그래머블 세그먼트들 사이의 접점에 Y 축으로 단차가 발생될 수 있다.
부연 설명하면, 각각의 프로그래머블 세그먼트는 서로 독립적을 근사화 될 수 있다.
부연 설명하면, PAF의 근사화 에러 값이 증가할수록, PAF를 활용하는 NPU(1000)의 추론 정확도의 열화가 증가될 수 있다. 이와 반대로, PAF의 근사화 에러 값이 감소할수록, PAF를 활용하는 NPU(1000)의 추론 정확도의 열화가 저감될 수 있다.
다양한 예시들에서, 에러 값에 대한 적분값(∫[sc(x)-f(x)]dx)을 이용하여 복수의 세그먼트들 중 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 근사화 할 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 각 세그먼트의 근사화 에러 값을 적분 또는 누적하도록 구성될 수 있다.
부연 설명하면, 제1 프로그래머블 세그먼트(sp1(x))와 제2 프로그래머블 세그먼트(sp2(x))는 각각 다른 방법으로 프로그래밍 될 수 있다. 즉, 각각의 프로그래머블 세그먼트는 1차 함수, 2차 함수, 로그 함수, 지수 함수 등의 방법을 각각 선택하여 프로그램 될 수 있다. 따라서, 각각의 프로그래머블 세그먼트는 동일한 함수로 프로그램 되거나 또는 상이한 함수로 프로그램 될 수 있다.
도 11은 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 에러 값에 대한 적분값(∫[sc(x)f(x)]dx)을 이용하여 일 세그먼트를 프로그래머블 세그먼트로 근사화 하는 예시를 설명하는 그래프이다.
도 11(a)는 활성화 함수 f(x)를 세그먼팅하는 세그먼트들(s1, s2), 제1 세그먼트(s1)에 대응하는 제1 후보 세그먼트(sc1(x)), 및 제2 세그먼트(s2)에 대응하는 제2 후보 세그먼트(sc2(x))를 도시한다. 도 11(a)에서는 각각의 후보 세그먼트들(sc1(x), sc2(x))은 각각의 세그먼트들(s1, s2)의 시점 및 종점을 각각의 1차 함수를 표현하는 최적의 프로그래머블 파라미터(i.e., 기울기 및 오프셋)를 탐색한다. 실제 제2 후보 세그먼트(sc2(x))는 제2 세그먼트(s2)의 시점 및 종점을 지나는 1차 함수와 같은 기울기를 가지면서 오프셋이 조정될 수 있다. 또는, 제2 세그먼트(s2)의 시점 및 종점을 지나는 1차 함수와 상이한 기울기를 가지면서 오프셋이 조정될 수 있다.
도 10 및 도 11을 참조하면, 제1 세그먼트(s1)는 시점(x0) 및 종점(x1)을 포함한다. 여기서 시점(x0) 및 종점(x1)은 세그먼트 경계값을 의미할 수 있다.
도 10 및 도 11을 참조하면, 제2 세그먼트(s2)는 시점(x1) 및 종점(x2)을 포함한다. 여기서 시점(x0) 및 종점(x1)은 세그먼트 경계값을 의미할 수 있다.
예를 들면, 제1 세그먼트(s1)는 시점(x0)이상 종점(x1) 미만으로 설정될 수 있다.
예를 들면, 제2 세그먼트(s2)는 시점(x1)이상 종점(x2) 미만으로 설정될 수 있다.
프로그래머블 파라미터는 세그먼트 경계값을 포함하도록 구성될 수 있다.
도 11(a)에 도시된 바와 같이, 활성화 함수 변환 프로그램 유닛(3000)은 제2 세그먼트(s2)와 후보 세그먼트(sc1(x)) 사이에 적분값(
Figure PCTKR2022019376-appb-img-000013
)을 근사화 에러 값으로 계산하고, 적분값(
Figure PCTKR2022019376-appb-img-000014
) 중에서 가장 크기가 작은, 즉 적분값(
Figure PCTKR2022019376-appb-img-000015
)의 절대값이 가장 작은 후보 세그먼트를 탐색한다. 에러 값을 감소시키기 위해, 도 11(b)에 도시된 바와 같이, 적분값(
Figure PCTKR2022019376-appb-img-000016
의 절대값이 가장 작은, 즉 min(
Figure PCTKR2022019376-appb-img-000017
)인 후보 세그먼트가 제2 프로그래머블 세그먼트(sp2(x))로 결정될 수 있다.
제1 세그먼트(s1)를 근사화 한 제1 프로그래머블 세그먼트(sp1(x))가 도 11(b)에서와 같이 도시되면, 제1 프로그래머블 세그먼트(sp1(x))와 제2 프로그래머블 세그먼트(sp2(x)) 사이에는 Y 축으로 소정의 단차가 나타날 수 있다. 도 11(b)에서 이러한 단차는 활성화 함수 f(x)의 제2 세그먼트(s2)를 근사화 에러 값(
Figure PCTKR2022019376-appb-img-000018
)에 기초하여 제2 프로그래머블 세그먼트(sp2(x))로 근사화 하는 과정에서 발생할 수 있다. 하지만 단차가 존재하더라도 각각의 프로그래머블 세그먼트의 근사화 에러 값이 최소화되면 PAF를 활용하는 NPU(1000)의 추론 정확도의 열화가 저감될 수 있다.
다양한 예시들에서, 단계(S220)은 프로그래머블 세그먼트와 대응되는 활성화 함수의 세그먼트 사이의 최소 근사화 에러 값을 탐색(search)하는 단계를 더 포함할 수 있다. 근사화 에러 값은 평균 에러 값, 최소 에러 값, 최대 에러 값, 누적 에러 값 등 중 적어도 하나일 수 있다.
예를 들면, 단계(S220)은 적어도 하나의 프로그래머블 세그먼트와 대응되는 적어도 하나의 활성화 함수의 세그먼트 사이의 적어도 하나의 최소 에러 값을 탐색(search)하는 단계를 더 포함할 수 있다.
예를 들면, 단계(S220)은 탐색된 적어도 하나의 최소 에러 값에 기초하여 프로그래머블 세그먼트의 기울기 및 오프셋을 결정하는 단계를 더 포함할 수 있다.
예를 들면, 단계(S220)은 결정된 기울기 및 오프셋에 따라 상기 적어도 하나의 세그먼트를 상기 프로그래머블 세그먼트로 근사화 하는 단계를 포함할 수 있다.
다양한 예시들에서, 단계(S220)는 손실함수(loss function)를 이용한 머신 러닝을 이용하여 프로그래머블 세그먼트를 결정하는 단계를 더 포함할 수 있다.
도 12는 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 머신 러닝을 이용하여 일 세그먼트를 최적 프로그래머블 세그먼트로 근사화 하는 예시를 설명하는 그래프이다.
도 12을 참조하면, 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수 f(x)에 대한 후보 세그먼트(sc(x))를 손실함수의 초기값으로 설정한다. 활성화 함수 변환 프로그램 유닛(3000)은 머신 러닝을 통해 손실 함수의 값이 가장 작은 후보 세그먼트를 최적 프로그래머블 세그먼트(sop(x))로 결정할 수 있다. 이에 따라, 최적화된 프로그래머블 파라미터가 탐색될 수 있다.
최적화된 파라미터 탐색을 위해, 학습을 반복 수행할 수 있다. 1회 학습은 1 이폭(epoch)을 의미할 수 있다. 학습 횟수가 증가할수록 에러 값이 저감될 수 있다. 학습 횟수가 너무 적으면 언더피팅(under-fitting)이 될 수 있다. 학습 횟수가 너무 많으면 오버피팅(over-fitting)이 될 수 있다.
손실함수는 MSE(Mean Squared Error), RMSE(Root Mean Squared Error) 등이 사용될 수 있으나 이에 제한되지 않는다. 본 개시에서 손실함수에 초기값으로 이용되는 후보 세그먼트는 예시적으로 세그먼트 데이터를 이용하여 세그먼팅 된 세그먼트들에 대응하여 근사화 된 1차 함수, 2차 함수 또는 3차 함수 등일 수 있다. 단, 본 개시에 따른 예시들은 상술한 함수들에 제한되지 않는다. 즉, 손실함수는 활성화 함수 f(x)가 세그먼트 데이터를 이용하여 복수의 세그먼트들로 세그먼팅 된 이후에 사용될 수 있다.
이에 따라, 손실함수를 이용한 머신 러닝은 활성화 함수의 (실질적) 선형 구간 및/또는 비선형 구간을 포함하는 복수의 특징적인 구간과 같은 활성화 함수 자체의 특성, 근사화 에러 등이 이미 고려된 이후에 수행될 수 있다. 따라서 최적화된 프로그래머블 파라미터 탐색의 계산 량 및 탐색 시간이 저감될 수 있으며 PAF 사용에 따른 NPU(1000)의 추론 정확도 열화를 최소화 할 수 있다.
또한 본 개시의 예시들에 따르면, 불필요한 세그먼트의 개수를 저감할 수 있는 효과도 제공할 수 있다. 즉, 본 개시의 예시들에 따르면, 세그먼트 개수를 최소화하는 것도 가능하다. 부연 설명하면, 두개의 인접한 프로그래머블 세그먼트들의 근사화 에러 값의 총합이 기 설정된 임계값보다 적으면, 두개의 프로그래머블 세그먼트는 하나의 프로그래머블 세그먼트로 통합되는 것도 가능하다.
다양한 예시들에서, 단계(S210)는 활성화 함수의 2차 미분값의 적분값(누적값)을 이용하여 활성화 함수를 복수의 세그먼트들로 세그먼팅하는 단계를 더 포함할 수 있다. 여기서 2차 미분값의 누적값이 세그먼트 데이터로 이용될 수 있다.
예를 들면, 단계(S210)는 활성화 함수의 2차 미분값의 누적값을 계산하는 단계를 더 포함할 수 있다.
예를 들면, 단계(S210)은 세그먼트 근사화 에러의 적분 임계값(i.e., 2차 미분값의 누적값의 임계값)을 기초로 활성화 함수를 복수의 세그먼트들로 세그먼팅하는 단계를 더 포함할 수 있다.
나아가, 본 개시에 따른 활성화 함수 프로그래밍 방법은 일차적으로 2차 미분값의 누적값을 이용하여 활성화 함수를 복수의 세그먼트들로 세그먼팅하여 결정된 복수의 세그먼트들의 개수가 목표 개수보다 많거나 적은 경우, 세그먼트 근사화 에러의 적분 임계값을 조정하고, 조정된 임계값을 기초로 다시 활성화 함수를 복수의 세그먼트들로 세그먼팅하는 단계를 포함할 수 있다. 구체적으로, (1) 결정된 복수의 세그먼트들의 개수가 목표 개수보다 많은 경우, 임계값이 증가되게 조정되고, (2) 결정된 복수의 세그먼트들의 개수가 목표 개수보다 적은 경우, 임계값이 감소되게 조정될 수 있다.
다양한 예시에서, 활성화 함수 변환 프로그램 유닛(3000)은 세그먼트 근사화 에러의 적분 임계값을 기초로 활성화 함수를 복수의 세그먼트들로 세그먼팅할 수 있다. 이때, 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수의 모든 구간을 세그먼트 근사화 에러의 적분 임계값을 기초로 세그먼팅하거나 또는 활성화 함수의 일부 구간을 세그먼트 근사화 에러의 적분 임계값을 기초로 세그먼팅할 수 있다. 특히, 활성화 함수 변환 프로그램 유닛(3000)은 활성화 함수의 일부 구간을 (실질적) 선형 구간이 아닌 비선형 구간으로 결정하고, 비선형 구간인 일부 구간에 대해서만 세그먼트 근사화 에러의 적분 임계값을 기초로 세그먼팅할 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 본 개시의 다양한 예시에서 기술된 활성화 함수 프로그래밍 방법에 의해 비선형 구간이 아닌 나머지 구간들을 세그먼팅할 수 있다.
도 13는 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 활성화 함수의 세그먼트 근사화 에러의 적분 임계값을 이용하여 활성화 함수를 세그먼팅하는 예시를 설명하는 그래프이다.
도 13을 참조하면, 활성화 함수 f(x)의 2차 미분값의 누적값, 즉 ∫f''(x)dx을 이용하여 활성화 함수 f(x)가 세그먼팅 될 수 있다. 활성화 함수 f(x)의 X축의 최소값(min) 지점이 시작 지점으로 결정되거나 또는 X축의 최대값(max) 지점이 시작 지점으로 결정될 수 있다. 단, 본 개시는 이에 제한되지 않으며, 시작 지점은 특점 지점이 되는 것도 가능하다.
PAF는 예를 들면, 복수의 세그먼트 경계값(x1, x2, x3, x4, x5)를 포함하도록 프로그래밍 될 수 있다.
PAF는 예를 들면, 최소값(min)과 최대값(max)을 더 포함하도록 프로그래밍 될 수 있다. 최소값(min)과 최대값(max)은 본 개시의 예시들에 따른 활성화 함수의 프로그래밍 효율의 향상을 위한 클리핑(clipping)을 구현할 때 활용될 수 있다. 최소값 이하의 값은 최소값으로 출력될 수 있다. 최대값 이상의 값은 최대값으로 출력될 수 있다.
시작 지점으로부터 활성화 함수 f(x)의 2차 미분값의 누적값이 임계값(ETh) (i.e., 세그먼트 근사화 에러의 적분 임계값)에 도달하는 구간마다, 활성화 함수 f(x)를 세그먼팅한다.
예를 들면, 활성화 함수 변환 프로그램 유닛(3000)은
Figure PCTKR2022019376-appb-img-000019
h가 되게 w1을 결정하고,
Figure PCTKR2022019376-appb-img-000020
가 되게 w2를 결정하고,
Figure PCTKR2022019376-appb-img-000021
가 되게 w3를 결정하고,
Figure PCTKR2022019376-appb-img-000022
h가 되게 w4를 결정하고,
Figure PCTKR2022019376-appb-img-000023
가 되게 w5를 결정하고,
Figure PCTKR2022019376-appb-img-000024
가 되게 w6를 결정할 수 있다. 부연 설명하면, 각 세그먼트 마다 ETh값을 다르게 설정하는 것도 가능하다. 즉, ETh값은 경우에 따라서 ETh1, ETh2값 등으로 복수 개 설정되는 것도 가능하다.
부연 설명하면, 인공신경망 연산에 활용되는 PAF는 한정된 범위의 입력 값만 처리하도록 구성되는 것도 가능하다. 예를 들면, PAF의 입력 값인 X축의 최소값(min)이 -6이 될 수 있고, 최대값(max)은 6이 될 수 있다. 입력 범위 밖의 X축의 입력 값에 대응되는 Y축의 출력 값은 포화된 값으로 표현될 수 있다. 상술한 구성에 따르면, 프로그램된 활성화 함수 데이터의 크기를 저감할 수 있는 효과가 있다. 단, 본 개시는 이에 제한되지 않는다.
도 13를 참조하면, 활성화 함수의 2차 미분값의 누적값은 활성화 함수의 기울기의 변화율이기 때문에, (1) 활성화 함수 f(x)에서 기울기의 변화율이 상대적으로 큰 구간들에 대응하는 세그먼트들의 폭들(w2, w3, w4)은 상대적으로 좁게 결정되고, (2) 활성화 함수 f(x)에서 기울기의 변화율이 없는 1차 함수인 부분을 포함하는 세그먼트들의 폭들(w1, w6)은 상대적으로 넓게 결정될 수 있다.
도 14, 15는 ELU 활성화 함수 및 Hardswish 활성화 함수를 도시하는 그래프이다.
ELU 활성화 함수 f(x)는 x>0인 경우 x이고, x≤0 경우 α(e x-1)이다(α는 하이퍼파리미터).
도 14에 도시된 바와 같이, ELU 활성화 함수는 x값이 0 이상인 경우 선형 구간에 갖고, x값이 0 미만인 경우 비선형 구간을 갖는다. 즉, ELU 활성화 함수는 선형 구간과 비선형 구간으로 구분되는 특징을 갖는다.
Hardswish 활성화 함수 f(x)는 x≤-3인 경우 0이고, x≥+3인 경우 x이고, -3<x<+3인 경우 x·(x+3)/6이다.
도 14에 도시된 바와 같이, Hardswish 활성화 함수는 x값이 -3보다 작거나 +3보다 큰 경우 선형 구간을 갖고, 그렇지 않은 경우 비선형 구간을 갖는다. 즉, Hardswish 활성화 함수는 선형 구간과 비선형 구간으로 구분되는 특징을 갖는다.
단, 본 개시는 ELU 활성화 함수 및 Hardswish 활성화 함수에 제한되지 않고, 선형 구간 및 비선형 구간으로 구분되는 특징을 갖는 다양한 활성화 함수가 존재한다.
특히, 인공신경망의 영역에서는 인공신경망의 정확도 향상을 위해서 다양한 선형 함수와 비선형 함수가 조합된 다양한 맞춤형 활성화 함수가 제시되고 있다. 이러한 경우, 본 개시의 예시들에 따른 활성화 함수 프로그래밍 방법이 더욱 더 효과적일 수 있다.
본 개시에 따른 활성화 함수 프로그래밍 방법에서는 활성화 함수 변환 프로그램 유닛(3000)가 활성화 함수의 선형 구간 및 비선형 구간, 나아가 실질적 선형 구간 및 비선형 구간을 구분하여, 활성화 함수를 복수의 세그먼트들로 선택적으로 세그먼팅할 수 있다. 이에 따라, 본 개시에 따른 활성화 함수 프로그래밍 방법은 특히 (실질적) 선형 구간 및 비선형 구간을 갖는 활성화 함수를 근사화하는 프로그래밍에 있어서 효율적이면서도 근사화 에러가 최소화되어 NPU(1000)에서 처리되는 DNN의 연산 속도 향상, 추론 정확도 열화 최소화, 및 NPU(1000)의 소비 전력 저감을 제공할 수 있다. 본 개시에 따른 활성화 함수 프로그래밍 방법에서는 활성화 함수 변환 프로그램 유닛(3000)가 적어도 하나의 세그먼트의 프로그래머블 파라미터를 생성할 수 있다. NPU(1000)는 상기 정보를 기초로 적어도 하나의 프로그램된 활성화 함수를 처리할 수 있다. NPU(1000)는 상기 정보를 제공받아 적어도 하나의 프로그램된 활성화 함수를 처리할 수 있다.
복수의 세그먼트들의 구간의 시점 및 종점의 좌표는 세그먼트 경계값으로 정의될 수 있다. 즉, 각각의 세그먼트들은 세그먼트 경계값으로 표시될 수 있다. 즉, 본 개시에 따른 활성화 함수 프로그래밍 방법에 따르면, 프로그래머블 파라미터는 세그먼트 경계값을 포함 할 수 있다. 다양한 예시들에서, 본 개시에 따른 활성화 함수 프로그래밍 방법은 상기 복수의 세그먼트들 중 적어도 하나의 세그먼트를 미리결정된 룩업 테이블, 비선형 근사식 등을 이용하여 근사화 하는 단계를 더 포함할 수 있다.
본 개시에 따른 활성화 함수 프로그래밍 방법에서는 세그먼트 데이터를 이용하여 복수의 세그먼트들이 세그먼팅되고, 세그먼팅 된 복수의 세그먼트들은 선택적으로 프로그래머블 세그먼트로 근사화가 가능하기 때문에, PAF로 근사화하지 않기로 결정된 구간이 존재할 수 있다. 이러한 구간에 대해서 미리결정되어 저장된 룩업 테이블, 비선형 근사식 등이 하드웨어에서 이용가능한 경우라면, 이러한 구간은 미리결정되어 저장된 룩업 테이블, 비선형 근사식 등을 이용하여 근사화 될 수 있다.
다양한 예시들에서, 본 개시에 따른 활성화 함수 프로그래밍 방법은 복수의 세그먼트들 중 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 근사화하지 않기로 결정하는 단계를 더 포함할 수 있다. 예를 들면, 매우 복잡한 형태를 갖는 세그먼트나 DNN에서 중요도가 낮은 세그먼트는 프로그래머블 세그먼트로 근사화하지 않기로 결정될 수 있다. 이러한 세그먼트는 미리결정된 다른 방식으로 처리되거나 이러한 세그먼트의 개수가 많은 경우라면 통합되어 미리결정된 다른 방식으로 처리될 수 있다.
다양한 예시들에서, 본 개시에 따른 활성화 함수 프로그래밍 방법은 각각의 세그먼트에 대한 프로그래밍 방법을 개별적인 방식으로 처리할 수 있다.
본 개시의 예시들에 따른 활성화 함수 프로그래밍 방법은 인공신경망 연산을 위한 활성화 함수를 선택하는 단계, 및 활성화 함수를 PAF로 변환하는 단계를 포함할 수 있다. 도 13를 참조하면, 예시적으로 프로그래밍 된 활성화 함수는 특정 폭을 갖는 복수의 세그먼트들을 포함하고, 특정 폭은 특정 임계값을 기초로, 즉 선택된 활성화 함수의 2차 미분값의 누적값이 임계값에 도달하는 구간마다 결정될 수 있다.
본 개시의 다른 예시에 따른 활성화 함수 변환 프로그램을 포함하는 장치가 제공될 수 있다. 활성화 함수 변환 프로그램은, 활성화 함수를 세그먼팅하기 위한 세그먼트 데이터를 생성하고, 생성된 세그먼트 데이터를 이용하여 활성화 함수를 복수의 세그먼트들로 세그먼팅하고, 복수의 세그먼트들 중 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 변환하도록 구성될 수 있다.
복수의 세그먼트들 중 적어도 하나의 세그먼트는 다른 세그먼트와 상이한 폭을 갖을 수 있다.
활성화 함수 변환 프로그램은 세그먼트 데이터를 기초로 복수의 세그먼트들의 개수 및 폭을 결정하고, 결정된 개수 및 폭에 기초하여 상기 활성화 함수를 복수의 세그먼트들로 세그먼팅하도록 구성될 수 있다.
세그먼트 데이터는 활성화 함수의 기울기 변화 데이터(e.g., 미분 데이터)를 포함할 수 있다.
세그먼트 데이터는 활성화 함수가 처리될 수 있는 하드웨어의 정보를 포함할 수 있다. 활성화 함수 변환 프로그램은 하드웨어 정보를 제공받도록 구성될 수 있다.
활성화 함수 변환 프로그램은 활성화 함수의 기울기 변화 데이터를 기초로 상기 활성화 함수의 실질적 선형 구간 및 비선형 구간을 결정하고, 결정된 실질적 선형 구간 및 비선형 구간에 따라 활성화 함수를 복수의 세그먼트들로 세그먼팅하도록 구성될 수 있다.
활성화 함수 변환 프로그램은 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 근사화하기 위한 프로그래머블 파라미터를 탐색한다. 활성화 함수 변환 프로그램은 탐색 완료된 최적의 프로그래머블 파라미터에 따라 적어도 하나의 세그먼트를 프로그래머블 세그먼트로 근사화하도록 구성될 수 있다.
장치는 PAFE 유닛을 더 포함하고, PAFE 유닛은 적어도 하나의 세그먼트를 미리결정된 비선형 근사식을 이용하여 근사화하도록 구성될 수 있다.
이하에서는 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법으로 프로그램된 활성화 함수를 처리하도록 구성된 NPU에 대해서 구체적으로 설명한다.
이하 설명의 편의를 위해, 도 1을 참조하여 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치의 NPU을 설명한다.
도 16은 본 개시의 일 예시에 따른 프로그램된 활성화 함수를 처리하도록 구성된 PAFE 유닛을 설명하는 개념도이다.
본 개시의 일 예시에 따른 PAFE 유닛(500)은 1차 함수로 활성화 함수를 프로그래밍하도록 구성된 회로의 예시이다. 활성화 함수의 프로그래밍 방법은 상술한 본 개시의 다양한 프로그래밍 예시들 중 하나에 의해 될 수 있다. 이하에서, PAFE 유닛(500)은 PAFE 유닛(500)으로 지칭될 수 있다. 활성화 함수 변환 프로그램 유닛(3000)은 제공받은 하드웨어 정보를 기초로 프로그래머블 파라미터의 형태를 결정하도록 구성될 수 있다. 예를 들면, PAFE 유닛(500)이 1차 함수 연산 회로만 포함할 경우, 활성화 함수 변환 프로그램 유닛(3000)은 모든 프로그래머블 세그먼트가 1차 함수가 되도록 동작할 수 있다. 예를 들면, PAFE 유닛(500)이 1차 함수 연산 회로 및 2차 함수 연산 회로를 포함할 경우, 활성화 함수 변환 프로그램 유닛(3000)은 모든 프로그래머블 세그먼트가 1차 함수 또는 2차 함수가 되도록 동작할 수 있다.
메모리(300)는 세그먼트 레지스터(Segment Register)(310), 제1 레지스터(First Register)(320), 제2 레지스터(Second Resister)(330)를 포함할 수 있다. 예를 들면, 적어도 하나의 레지스터는 적어도 하나의 메모리의 어드레스 또는 레지스터 맵 등을 설정하여 구현될 수 있다. 예를 들면, 적어도 하나의 레지스터는 전용 메모리 또는 적어도 하나의 전용 레지스터를 할당하여 구현될 수 있다. 즉, PAFE 유닛(500)의 메모리(300)는 프로그램된 활성화 함수 데이터를 저장하도록 구성될 수 있다.
세그먼트 레지스터(310)는 복수의 세그먼트들의 구간에 대한 정보를 저장한다.
구체적으로, 활성화 함수 변환 프로그램 유닛(3000)에서 제시하는 방법 중 하나로 결정된 복수의 세그먼트들의 구간의 X 축의 시점 및 종점의 좌표는 세그먼트 레지스터(310)에 저장될 수 있다. 복수의 세그먼트들의 구간의 시점 및 종점의 좌표는 세그먼트 경계값(Segment Boundary Value; SB)으로 정의될 수 있다. 즉, 세그먼트 경계값(SB0 내지 SB(N-2))에 의해, 복수의 세그먼트들의 구간이 각각 결정될 수 있다.
예를 들면, N개의 세그먼트들의 구간을 정의하기 위하여는, N-1개의 세그먼트 경계값(SB0 내지 SB(N-2))이 필요할 수 있다.
예를 들면, 첫번째 세그먼트 경계값(SB0)을 이용하여, X축의 좌표를 기준으로 음의 무한대(-∞)부터 첫번째 세그먼트 경계값(SB0) 까지의 구간을 정의할 수 있다. 그리고, 마지막 세그먼트 경계값(SB(N-2))을 이용하여 X축의 좌표를 기준으로 마지막 세그먼트 경계값(SB(N-2))부터 양의 무한대(∞)의 구간을 정의할 수 있다. 단, 이에 제한되지 않으며, 무한대의 구간 최대값과 최소값을 설정하여 적절히 클리핑(clipping)하는 것도 가능하다.
그리고, 첫번째 세그먼트 경계값(SB0)과 마지막 세그먼트 경계값(SB(N-2)) 사이의 세그먼트 경계값(SB1, SB2, … )을 이용하여, 첫번째 세그먼트 경계값(SB0)과 마지막 세그먼트 경계값(SB(N-2)) 사이에 존재하는 N-1개의 세그먼트들의 구간을 정의할 수 있다. 그리고, 세그먼트 레지스터(310)는 복수의 세그먼트 경계값(SB0 내지 SB(N-2))을 PAFE 유닛(500)에 제공한다. 이에, PAFE 유닛(500)은 복수의 세그먼트들의 구간에 대한 정보를 획득할 수 있다.
PAFE 유닛(500)은 세그먼트 레지스터(310)로부터 데이터를 입력 받도록 구성될 수 있다.
즉, 프로그램된 활성화 함수의 세그먼트들의 구간이 PAFE 유닛(500)에서 설정될 수 있다.
1차 다항식의 경우, 제1 레지스터(320)는 복수의 프로그래머블 세그먼트들에 대한 기울기(A0 내지 A(N-1))를 저장하도록 구성될 수 있다.
예를 들면, 1차 다항식의 경우에는 제1 레지스터(320)는 기울기 레지스터로 활용될 수 있다.
부연 설명하면, 제1 레지스터(320)는 프로그래밍 방법에 따라서 기울기와 같은 특정 값을 저장하게 설정될 수 있다.
1차 다항식의 경우, 제2 레지스터(330)는 복수의 프로그래머블 세그먼트들에 대한 오프셋(B0 내지 B(N-1))을 저장하도록 구성될 수 있다.
예를 들면, 1차 다항식의 경우에는 제2 레지스터(330)는 오프셋 레지스터로 활용될 수 있다.
부연 설명하면, 제2 레지스터(330)는 프로그래밍 방법에 따라서 오프셋과 같은 특정 값을 저장하게 설정될 수 있다.
구체적으로, 활성화 함수 변환 프로그램 유닛(3000)에 의해 N개의 세그먼트들의 구간들은 N개의 프로그래머블 세그먼트들로 근사화 될 수 있다. 그리고, 각각의 프로그래머블 세그먼트들은 특정 기울기(A) 및 특정 오프셋(B) 값을 포함한다. 즉, 메모리(300)의 특정 레지스터는 특정 값을 선택적으로 저장할 수 있다.
부연 설명하면, 1차 함수로 근사화 된 예시에서, 최소값부터 첫번째 세그먼트 경계값(SB0)의 구간에서, 프로그래머블 세그먼트의 기울기는 첫번째 기울기(A0)으로 표현될 수 있고, 프로그래머블 세그먼트의 오프셋은 첫번째 오프셋(B0)으로 표현될 수 있다. 여기서 최소값(Min)은 음의 무한대(-∞)일 수 있다.
마지막 세그먼트 경계값(SB(N-2))부터 최대값의 구간의 구간에서, 프로그래머블 세그먼트의 기울기는 마지막 기울기(A(N-1))으로 표현될 수 있고, 프로그래머블 세그먼트의 오프셋은 마지막 오프셋(B(N-1))으로 표현될 수 있다. 여기서 최대값(Max)은 양의 무한대(∞)일 수 있다.
이에, 제1 레지스터(320)는 N개의 프로그래머블 세그먼트들 각각에 대한 기울기(A0 내지 A(N-1))를 저장할 수 있다. 그리고, 제2 레지스터(330)는 N개의 프로그래머블 세그먼트들 각각에 대한 오프셋(B0 내지 B(N-1))을 저장할 수 있다.
활성화 함수 변환 프로그램 유닛(3000)은 메모리(300)에 NPU에서 처리할 프로그램된 활성화 함수 데이터를 제공하도록 구성될 수 있다.
<표1>
Figure PCTKR2022019376-appb-img-000025
<표1>을 참조하면, 프로그램된 활성화 함수의 구동을 위한 데이터는 활성화 함수 변환 프로그램 유닛(3000)에서 생성되어 NPU의 메모리(300), 예를 들면, 세그먼트 레지스터(310), 제1 레지스터(320), 및 제2 레지스터(330)에 저장되도록 구성될 수 있다.
예를 들면, 세그먼트 레지스터(310)는 <표1>의 세그먼트 경계값(SB)을 저장하도록 구성될 수 있다.
예를 들면, 제1 레지스터(320)는 <표1>의 기울기(A)을 저장하도록 구성될 수 있다. 기울기(A)는 1차항의 계수로 지칭될 수 있다.
예를 들면, 제2 레지스터(330)는 <표1>의 오프셋(B)을 저장하도록 구성될 수 있다. 오프셋(B)은 바이아스(bias)로 지칭될 수 있다.
제어기(100) 및/또는 DMA(200)는 <표1>의 프로그램된 활성화 함수의 데이터를 메모리(300)에 저장하도록 지시할 수 있다. 단, 본 개시의 예시들은 이에 제한되지 않으며, 프로그램된 활성화 함수의 데이터는 제어기(100) 내부의 레지스터, PAFE 유닛(500) 내부의 레지스터, 별도의 메모리, 및 별도의 레지스터 중 적어도 하나에 저장되도록 구성될 수 있다. 즉, 프로그램된 활성화 함수의 데이터의 저장장소는 특정 장소에 제한되지 않는다.
<표1>을 참조하면, 프로그램된 활성화 함수 데이터의 일 예시가 개시된다.
예를 들면, 프로그램된 활성화 함수 데이터는 세그먼트 경계값(SB)을 포함하도록 구성될 수 있다.
예를 들면, 프로그램된 활성화 함수 데이터는 각 세그먼트(S)의 범위를 포함하도록 구성될 수 있다.
예를 들면, 프로그램된 활성화 함수 데이터는 각 세그먼트(S) 별 기울기(A)를 포함하도록 구성될 수 있다.
예를 들면, 프로그램된 활성화 함수 데이터는 각 세그먼트(S) 별 오프셋(B)을 포함하도록 구성될 수 있다.
그리고, 제어기(100)의 제어에 따라, 제1 레지스터(320)는 N개의 프로그래머블 세그먼트들 각각에 대한 기울기(A0 내지 A(N-1))를 PAFE 유닛(500)에 출력할 수 있다. 그리고, 제어기(100)의 제어에 따라, 제2 레지스터(330)는 N개의 프로그래머블 세그먼트들 각각에 대한 오프셋(B0 내지 B(N-1))을 PAFE 유닛(500)에 출력할 수 있다.
이에, PAFE 유닛(500)은 프로그래머블 세그먼트들 각각에 대한 기울기(A0 내지 A(N-1)) 및 오프셋(B0 내지 B(N-1))을 수신할 수 있다. 즉, PAFE 유닛(500)은 제1 레지스터(320) 및 제2 레지스터(330)를 통해 복수의 프로그래머블 세그먼트들에 대한 정보를 수신할 수 있다.
<표2>
Figure PCTKR2022019376-appb-img-000026
<표2>를 참조하면, 프로그램된 ReLU의 구동을 위한 데이터는 활성화 함수 변환 프로그램 유닛(3000)에서 생성되어 NPU의 메모리(300), 예를 들면, 세그먼트 레지스터(310), 제1 레지스터(320), 및 제2 레지스터(330)에 저장되도록 구성될 수 있다.
예를 들면, 세그먼트 레지스터(310)는 <표2>의 세그먼트 경계값(SB)을 저장하도록 구성될 수 있다.
예를 들면, 제1 레지스터(320)는 <표2>의 기울기(A)을 저장하도록 구성될 수 있다.
예를 들면, 제2 레지스터(330)는 <표2>의 오프셋(B)을 저장하도록 구성될 수 있다.
프로그램된 ReLU의 경우, 하나의 세그먼트 경계값(SB)만 가지도록 프로그래밍 될 수 있다. 상술하였듯이, 하나의 세그먼트 경계값(SB)만 가지도록 판단하는 것은 본 개시의 다양한 예시들에 따른 근사화 방법들에 의해서 수행될 수 있다.
프로그램된 ReLU의 경우, 첫번째 세그먼트 경계값(SB1)만 프로그램 되었기 때문에, PAFE 유닛(300)의 동작을 위해서 하나의 비교기만 필요할 수 있다. 따라서 불필요한 비교기들은 비활성화 할 수 있다.
<표2>의 비교기 활성화(En) 신호가 PAFE 유닛(500)에 입력됨으로써, 불필요한 비교기의 전력 소모를 저감할 수 있다.
<표3>
Figure PCTKR2022019376-appb-img-000027
<표3>을 참조하면, 클리핑(clipping)이 적용된 프로그램된 ReLU의 구동을 위한 데이터는 활성화 함수 변환 프로그램 유닛(3000)에서 생성되어 NPU의 메모리(300), 예를 들면, 세그먼트 레지스터(310), 제1 레지스터(320), 및 제2 레지스터(330)에 저장되도록 구성될 수 있다.
예를 들면, 세그먼트 레지스터(310)는 <표3>의 세그먼트 경계값(SB)을 저장하도록 구성될 수 있다.
예를 들면, 제1 레지스터(320)는 <표3>의 기울기(A)을 저장하도록 구성될 수 있다.
예를 들면, 제2 레지스터(330)는 <표3>의 오프셋(B)을 저장하도록 구성될 수 있다. 클리핑이 적용될 경우 활성화 함수 입력 값의 최소값과 최대값을 제한할 수 있다.
부연 설명하면, PAFE 유닛(500)은 <표2>의 프로그램된 ReLU의 구동을 위한 데이터와 <표3>의 프로그램된 ReLU with clipping의 구동을 위한 데이터는 NPU(1000)에 모두 저장될 수 있다. 또한 활성화 함수 변환 프로그램 유닛(3000)은 프로그램된 ReLU의 구동을 위한 데이터와 프로그램된 ReLU with clipping의 구동을 위한 데이터를 모두 NPU(1000)에 제공하도록 구성될 수 있다.
NPU(1000)는 컴파일 된 DNN의 정보에 따라서 NPU(1000)에 저장된 복수의 프로그램된 활성화 함수를 선택적으로 PAFE 유닛(500)에 입력하도록 구성될 수 있다.
예를 들면, NPU(1000)는 제1 인공신경망 연산에는 <표2>의 프로그램된 활성화 함수의 데이터를 사용할 수 있고, 연속되는 제2 인공신경망 연산에는 <표3>의 프로그램된 활성화 함수의 데이터를 사용하도록 PAFE 유닛(500)을 제어할 수 있다.
<표4>
Figure PCTKR2022019376-appb-img-000028
<표4>를 참조하면, 프로그램된 ReLU6의 구동을 위한 데이터는 활성화 함수 변환 프로그램 유닛(3000)에서 생성되어 NPU의 메모리(300), 예를 들면, 세그먼트 레지스터(310), 제1 레지스터(320), 및 제2 레지스터(330)에 저장되도록 구성될 수 있다.
예를 들면, 세그먼트 레지스터(310)는 <표4>의 세그먼트 경계값(SB)을 저장하도록 구성될 수 있다.
예를 들면, 제1 레지스터(320)는 <표4>의 기울기(A)을 저장하도록 구성될 수 있다.
예를 들면, 제2 레지스터(330)는 <표4>의 오프셋(B)을 저장하도록 구성될 수 있다.
프로그램된 ReLU6의 경우, 두개의 세그먼트 경계값(SB)을 가지도록 프로그래밍 될 수 있다. 상술하였듯이, 두개의 세그먼트 경계값(SB)을 가지도록 판단하는 것은 본 개시의 다양한 예시들에 따른 근사화 방법들에 의해서 수행될 수 있다.
부연 설명하면, PAFE 유닛(500)은 <표2>의 프로그램된 ReLU의 구동을 위한 데이터, <표3>의 프로그램된 ReLU with clipping의 구동을 위한 데이터, 및 <표4>의 프로그램된 ReLU6의 구동을 위한 데이터는 NPU(1000)에 모두 저장될 수 있다. 또한 활성화 함수 변환 프로그램 유닛(3000)은 프로그램된 ReLU의 구동을 위한 데이터, 프로그램된 ReLU with clipping, 및 프로그램된 ReLU6의 구동을 위한 데이터를 모두 NPU(1000)에 제공하도록 구성될 수 있다.
NPU(1000)는 컴파일 된 DNN의 정보에 따라서 NPU(1000)에 저장된 복수의 프로그램된 활성화 함수를 선택적으로 PAFE 유닛(500)에 입력하도록 구성될 수 있다.
예를 들면, NPU(1000)는 제1 인공신경망 연산에는 <표2>의 프로그램된 활성화 함수의 데이터를 사용할 수 있고, 연속되는 제2 인공신경망 연산에는 <표3>의 프로그램된 활성화 함수의 데이터를 사용할 수 있고, 연속되는 제3 인공신경망 연산에는 <표4>의 프로그램된 활성화 함수의 데이터를 사용하도록 PAFE 유닛(500)을 제어할 수 있다.프로그램된 ReLU6의 경우, 첫번째 세그먼트 경계값(SB1)과 두번째 세그먼트 경계값(SB2)만 프로그램 되었기 때문에, PAFE 유닛(300)의 동작을 위해서 두개의 비교기만 필요할 수 있다. 따라서 불필요한 비교기들은 비활성화 할 수 있다.
정리하면, NPU(1000)는 복수의 프로그램된 활성화 함수를 저장할 수 있다. NPU(1000)는 PAFE 유닛(500)에 특정한 프로그램된 활성화 함수의 데이터를 선택적으로 입력하여 특정한 인공신경망 연산을 처리할 수 있다. 또한, PAFE 유닛(500)은 하드웨어 변경 없이 실시간으로 다양하게 프로그램된 활성화 함수의 데이터를 입력 받아 인공신경망 연산을 처리할 수 있다.
도 17은 본 개시의 일 예시에 따른 프로그램된 활성화 함수를 처리하도록 구성된 장치의 NPU의 PAFE 유닛을 설명하는 개념도이다.
1차 함수로 프로그래밍 된 활성화 함수를 처리하도록 구성된 예시적인 PAFE 유닛(500)은 복수의 비교기(Comparator 0 내지 Comparator (N-2))(510 내지 51(N-2)), 선택기(Selector, 520), 곱셈기(Multiplier)(530) 및 가산기(Adder)(540)를 포함하도록 구성될 수 있다. 단 본 개시의 예시들은 이에 제한되지 않으며, 다양한 방식으로 회로를 구성하여 각 세그먼트들의 영역을 구분하는 것도 가능하다. 또한 1차 함수 이외의 다른 프로그래밍 방법으로 활성화 함수를 처리하기 위해 추가적인 회로 구성을 더 포함하도록 PAFE 유닛(500)이 변형 실시되는 것도 가능하다.
본 개시의 일 예시에서는 PAFE 유닛(500)은 1차 함수를 처리하도록 구성된 예시이기 때문에, 세그먼트 레지스터(310), 제1 레지스터(320), 및 제2 레지스터(330)를 입력으로 하여 PAFE 유닛(500)이 1차 함수를 처리하도록 구성될 수 있다. 단, PAFE 유닛(500)은 다양한 근사화 함수를 처리하도록, 추가적인 레지스터를 더 포함하도록 변형 실시될 수 있다.
복수의 비교기(510 내지 51(N-2)) 각각은 적어도 하나의 프로세싱 엘리먼트(400)에서 계산된 입력 값(X)을 복수의 세그먼트 경계값(SB0 내지 SB(N-2)) 각각과 비교한다.
예를 들면, 입력 값(X)이 복수의 세그먼트 경계값(SB0 내지 SB(N-2)) 각각보다 클 경우, 복수의 비교기(510 내지 51(N-2)) 각각은 제1 레벨의 출력 값을 출력할 수 있다. 이와 반대로, 입력 값(X)이 복수의 세그먼트 경계값(SB0 내지 SB(N-2)) 각각보다 작거나 같을 경우, 복수의 비교기(510 내지 51(N-2)) 각각은 제2 레벨의 출력 값을 출력할 수 있다.
상술한 제1 레벨은 하이 레벨을 의미할 수 있고, 상술한 제2 레벨은 로우 레벨을 의미할 수 있다. 또는 상술한 제1 레벨은 로우 레벨을 의미할 수 있고, 상술한 제2 레벨은 하이 레벨을 의미할 수 있다.
이에, 복수의 비교기(510 내지 51(N-2)) 각각에서 출력된 출력 값을 통해 복수의 세그먼트들의 구간 중 입력 값(X)이 속하는 세그먼트의 구간이 결정될 수 있다. 상술한, 복수의 비교기(510 내지 51(N-2)) 각각에서 출력된 출력 값을 구간 결정 데이터(SDD)(Section Determine Data; SDD)로 칭할 수 있다.
예를 들면, 첫번째 세그먼트 경계값(SB0)이 -4일 경우, 첫번째 비교기(510)에는 첫번째 세그먼트 경계값(SB0)이 입력된다. 첫번째 비교기(510)에는 프로세싱 엘리먼트에서 계산된 입력 값(X)이 입력된다.
예를 들면, 두번째 세그먼트 경계값(SB1)이 -2일 경우, 두번째 비교기(511)에는 두번째 세그먼트 경계값(SB1)이 입력된다. 두번째 비교기(511)에는 프로세싱 엘리먼트에서 계산된 입력 값(X)이 입력된다.
즉, 프로세싱 엘리먼트에서 계산된 입력 값(X)은 복수의 비교기들에 동시에 입력될 수 있다.
예를 들면, 첫번째 세그먼트 경계값(SB0)이 -4이고, 두번째 세그먼트 경계값(SB1)이 -2이고, 입력 값(X)이 -3일 경우에, 첫번째 비교기(Comparator 0, 510)의 출력 값인 첫번째 구간 결정 데이터(SDD1)는 제1 레벨로 출력되고, 나머지 비교기(Comparator 1 내지 Comparator (N-2))의 출력 값인 첫번째 구간 결정 데이터(SDD1)를 제외한 복수의 구간 결정 데이터(SDD1 내지 SDD(N-2))는 제2 레벨로 출력될 수 있다. 이에, 복수의 비교기(510 내지 51(N-2)) 각각에서 출력된 출력 값인 구간 결정 데이터(SDD)를 통해 입력 값(X)은 세그먼트 경계값(SB)이 -4 및 -2 사이의 세그먼트의 구간에 해당한다고 결정할 수 있다.
구간 결정 데이터(SDD1 내지 SDD(N-2))는 상술한 표1 내지 표4에서 상술한 세그먼트(S)에 대응될 수 있다.
<표5>는 구간 결정 데이터(SDD1 내지 SDD(N-2))의 결과에 따른 프로그램된 활성화 함수의 세그먼트(S)의 영역이 결정되는 것을 설명한다.
<표5>
Figure PCTKR2022019376-appb-img-000029
<표5>를 참조하면, 구간 결정 데이터(SDD0, SDD1, SDD2, … SDD(N-2))의 출력에 따라 <표1> 내지 <표4>에 예시된 세그먼트(S)가 결정될 수 있다. 특정 세그먼트(S)가 결정되면, 대응되는 기울기(A)와 오프셋(B)이 선택될 수 있다. 단 본 개시의 예시들은 이에 제한되지 않으며, 다양한 방식으로 세그먼트를 결정하는 회로를 구성하여 대응되는 세그먼트를 판단하는 것도 가능하다. 또한 비교기 이외의 다른 방식으로 활성화 함수를 처리하기 위해 회로를 구성하여 PAFE 유닛(500)이 변형 실시되는 것도 가능하다.
한편, 복수의 비교기(510 내지 51(N-2)) 각각은 복수의 비교기 인에이블 신호(Comp En 1 내지 Comp En (N-2)) 각각에 의해서 동작여부가 결정될 수 있다.
즉, 복수의 비교기 인에이블 신호(Comp En 1 내지 Comp En (N-2)) 각각이 제1 레벨인 경우, 복수의 비교기(510 내지 51(N-2)) 각각은 입력 값(X)과 세그먼트 경계값(SB0 내지 SB(N-2))을 비교하도록 동작할 수 있다. 이와 반대로, 복수의 비교기 인에이블 신호(Comp En 1 내지 Comp En (N-2)) 각각이 제2 레벨인 경우, 복수의 비교기(510 내지 51(N-2)) 각각은 입력 값(X)과 세그먼트 경계값(SB0 내지 SB(N-2))을 비교하지 않을 수 있다. 즉, 각각의 비교기는 비활성화될 수 있다.
전술한 바와 같이, 프로그램된 활성화 함수의 복수의 세그먼트들의 개수에 따라, 세그먼트 경계값(SB0 내지 SB(N-2))의 개수가 결정된다. 예를 들면, 복수의 세그먼트들의 개수가 N개일 경우 세그먼트 경계값(SB0 내지 SB(N-2))의 개수는 N-1개이다.
예를 들면, 활성화 함수 변환 프로그램 유닛(3000)가 동일한 활성화 함수를 프로그래밍하는 경우에도, 제1 프로그램된 활성화 함수는 10개의 세그먼트 개수를 가지도록 프로그래밍 될 수 있고, 제2 프로그램된 활성화 함수는 5개의 세그먼트 개수를 가지도록 프로그래밍 될 수 있다. 따라서, PAFE 유닛(500)은 동일한 활성화 함수라도 각각의 프로그램된 활성화 함수 데이터에 따라 PAFE 유닛(500)에서 활성화되는 비교기의 개수를 다르게 제어할 수 있다. 따라서 프로그래밍에 따라 인공신경망 연산의 정확도 및 NPU(1000)의 소비 전력 사용량도 달라질 수 있다. 즉, 사용자의 요구사항에 따라 동일한 활성화 함수라도, 고성능의 활성화 함수 연산 기능을 제공하거나 또는 저전력의 활성화 함수 연산 기능을 제공하는 것도 가능하다.
한편, 세그먼트 경계값(SB)의 최대 개수에 따라, 이를 입력으로 하는 복수의 비교기의 개수도 변동되어야 한다.
예를 들면, 세그먼트 경계값(SB)의 최대 개수가 10일 경우, 비교기는 적어도 11개 이상이 구비되어야 할 수 있다. 즉, 비교기의 최소 개수는 세그먼트 경계값의 최대 개수가 될 수 있다.
이에, 복수의 비교기(510 내지 51(N-2)) 각각은 복수의 비교기 인에이블 신호(Comp En 1 내지 Comp En (N-2)) 각각에 의해서 동작 여부를 결정할 수 있다. 따라서, 복수의 세그먼트의 개수에 따라 불필요한 비교기의 동작을 제어함으로써, NPU의 소비 전력을 저감할 수 있다.
다만, 하드웨어적인 한계로 인하여, 비교기의 개수는 제한될 수 있다. 이에, PAFE 유닛(500)의 비교기의 개수에 따라 활성화 함수를 세그먼팅하는 복수의 세그먼트들의 개수가 제한될 수 있다. 즉, 활성화 함수는 활성화 함수가 처리될 NPU(1000)가 처리할 수 있는 세그먼트들의 최대 개수 또는 할당된 NPU(1000)의 자원에 대응하는 세그먼트들의 개수로 세그먼팅 될 수 있다.
한편, 본 개시의 예시들에 따른 프로그래밍 방법에 따르면, 활성화 함수의 선형 구간 및 비선형 구간을 구분하는 것이 가능하고, 에러 값을 최소화하면서 가변적인 세그먼트 폭을 제공하여 세그먼트의 개수를 최소화하는 것이 가능하다. 따라서 비교기의 개수를 최소화하여 NPU(1000)의 PAFE 유닛(500)의 하드웨어의 게이트 카운트 수를 최소화할 수 있는 장점이 있다.
또한 본 개시의 예시들에 따른 활성화 함수 프로그래밍 방법은 지원 가능한 최대 비교기의 정보를 기초로 특정 활성화 함수를 프로그래밍하도록 구성될 수 있다.
그리고, 선택기(520)는 구간 결정 데이터(SDD0 내지 SDD(N-2))에 따라, 복수의 프로그래머블 세그먼트들에 대한 복수의 기울기(A0 내지 A(N-1)) 중 입력 값(X)이 속하는 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 기울기(A)를 출력한다.
구체적으로, 제1 레지스터(320)는 복수의 프로그래머블 세그먼트들 각각에 대한 복수의 기울기(A0 내지 A(N-1))를 선택기(520)에 제공한다. 그리고, 선택기(520)는 복수의 비교기(510 내지 51(N-2)) 각각에서 출력된 구간 결정 데이터(SDD0 내지 SDD(N-2))에 따라 복수의 세그먼트들의 구간 중 입력 값(X)이 속하는 세그먼트의 구간을 결정할 수 있다. 그리고, 선택기(520)는 복수의 프로그래머블 세그먼트들에 대한 복수의 기울기(A0 내지 A(N-1)) 중 결정된 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 기울기(A)를 출력할 수 있다.
선택기(520)는 구간 결정 데이터(SDD0 내지 SDD(N-2))에 따라, 복수의 프로그래머블 세그먼트들에 대한 복수의 오프셋(B0 내지 B(N-1)) 중 입력 값(X)이 속하는 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 오프셋(B)을 출력한다.
구체적으로, 제2 레지스터(330)는 복수의 프로그래머블 세그먼트들 각각에 대한 복수의 오프셋(B0 내지 B(N-1))을 선택기(520)에 제공한다. 그리고, 선택기(520)는 복수의 비교기(510 내지 51(N-2)) 각각에서 출력된 구간 결정 데이터(SDD0 내지 SDD(N-2))에 따라 복수의 세그먼트들의 구간 중 입력 값(X)이 속하는 세그먼트의 구간을 결정할 수 있다. 그리고, 선택기(520)는 복수의 프로그래머블 세그먼트들에 대한 복수의 오프셋(B0 내지 B(N-1)) 중 결정된 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 오프셋(B)을 출력할 수 있다.
이에, 선택기(520)는 입력 값(X)이 속하는 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 기울기(A) 및 오프셋(B)을 출력할 수 있다.
한편, 선택기(520)는 구간 결정 데이터(SDD0 내지 SDD(N-2))에 따라 제어되는 복수의 스위칭 소자로 구성되는 멀티플렉서(multiplexer)일 수 있으나, 선택기(520)의 구성은 다양하게 변경될 수 있다.
PAFE 유닛(500)의 프로그램된 활성화 함수 연산부는 입력 값(X), 기울기(A) 및 오프셋(B)을 입력 받아 출력 값(Y)를 연산하도록 구성된 회로부를 의미할 수 있다.
PAFE 유닛(500)의 프로그램된 활성화 함수 연산부는 적어도 하나의 곱셈기(530)와 가산기(540)를 포함하도록 구성될 수 있다.
PAFE 유닛(500)의 프로그램된 활성화 함수 연산부는 하드-와이어된 회로일 수 있다.
프로그램된 활성화 함수 연산부의 곱셈기(530)는 입력 값(X)이 속하는 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 기울기(A)와 입력 값(X)을 곱한다.
구체적으로 곱셈기(530)는 적어도 하나의 프로세싱 엘리먼트(400)에서 계산된 입력 값(X)에 선택기(520)에서 출력된 프로그래머블 세그먼트에 대한 기울기(A)를 곱한다. 즉, 입력 값(X)는 적어도 하나의 프로세싱 엘리먼트(400)의 연산 값일 수 있다. 단, 본 개시는 이에 제한되지 않는다.
이에, 곱셈기(530)는 프로그래머블 세그먼트에 대한 기울기(A)를 입력 값(X)에 곱하여 출력할 수 있다. 즉, 곱셈기(530)의 출력은
Figure PCTKR2022019376-appb-img-000030
로 표현될 수 있다.
그리고, 프로그램된 활성화 함수 연산부의 가산기(540)는 프로그램된 활성화 함수 연산부의 곱셈기(530)의 출력 값에 입력 값(X)이 속하는 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 오프셋(B)을 더한다.
구체적으로, 가산기(540)는 프로그래머블 세그먼트에 대한 기울기(A)를 입력 값(X)에 곱한값에 프로그래머블 세그먼트에 대한 오프셋(B)을 더한다. 즉, 가산기(540)의 출력은
Figure PCTKR2022019376-appb-img-000031
로 표현될 수 있다.
이에, 가산기(540)는 입력 값(X)인 연산 값에 PAF가 적용된 활성화 값을 출력할 수 있다.
즉, 본 개시의 일 예시에 따른 PAFE 유닛(500)은 1차 함수로 프로그램된 활성화 함수를 구현하도록 구성된 회로 구성일 수 있다.
예를 들면, 본 개시의 일 예시에 따른 적어도 하나의 프로세싱 엘리먼트(400)와 파이프라인 된 PAFE 유닛(500)은 1차 함수로 프로그램된 활성화 함수를 구현하도록 구성된 하드-와이어된 회로로 구성되는 것도 가능하다.
상술한 바와 같이, 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치의 NPU의 PAFE 유닛(500)은 복수의 비교기(511 내지 51(N-2)), 선택기(520), 곱셈기(530) 및 가산기(540)만으로 구성되어, 모든 활성화 함수를 프로그래밍하여 입력 값(X)에 적용할 수 있다.
상술한, 복수의 비교기(511 내지 51(N-2)), 선택기(520), 곱셈기(530) 및 가산기(540) 각각은 상대적으로 간소화된 하드웨어이므로, 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치는 간소화된 하드웨어만으로도 모든 활성화 함수를 처리할 수 있는 효과가 있다.
한편, 종래의 활성화 함수 처리 장치는 미리 정의된 활성화 함수들만 처리할 수 있었다. 그러나, 본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치는 미리 정의되지 않은 활성화 함수도 프로그래밍하여, 적용할 수 있어, 프로그램된 모든 활성화 함수를 적용할 수 있는 효과가 있다. 특히, PAFE 유닛(500)은 다양한 활성화 함수의 특성에 따라 세그먼트의 개수도 조절 가능하기 때문에, 최소 개수의 비교기를 사용하여 근사화 에러를 최소화 할 수 있다. 특히, PAFE 유닛(500)은 다양한 활성화 함수의 특성에 따라 각각의 세그먼트의 폭도 조절 가능하기 때문에, 최소 개수의 비교기를 사용하여 근사화 에러를 최소화 할 수 있다. 특히, PAFE 유닛(500)은 다양한 활성화 함수의 특성에 따라 세그먼트의 폭 및 개수도 조절 가능하기 때문에, 최소 개수의 비교기를 사용하여 근사화 에러를 최소화 할 수 있다.
이하에서는 본 개시의 다른 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치의 NPU에 대해서 구체적으로 설명한다.
본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치의 NPU과 본 개시의 다른 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치의 NPU는 PAFE 유닛의 분리되는 기술적 특징만 차이점이 존재하므로, 이를 중심으로 설명한다.
도 18은 본 개시의 다른 예시에 따른 프로그램된 활성화 함수를 처리하기 위한 장치의 NPU를 설명하는 개념도이다.
도 19는 본 개시의 다른 예시에 따른 프로그램된 활성화 함수를 처리하기 위한 장치의 NPU의 PAF유닛을 설명하는 개념도이다.
프로그램된 활성화 함수를 처리하기 위한 장치의 NPU의 PAF유닛(500-1 내지 500-N)은 복수 개로 분리될 수 있다. 구체적으로, PAF유닛은 제1 PAFE 유닛(500-1) 내지 제N PAF 유닛(500-N)을 포함할 수 있다. 그리고, 제1 PAFE 유닛(500-1) 내지 제N PAF 유닛(500-N) 각각은 서로 다른 활성화 함수를 처리하거나 또는 같은 활성화 함수를 처리할 수 있다. 즉, 제1 PAFE 유닛(500-1) 내지 제N PAF 유닛(500-N) 각각에 프로그램된 활성화 함수는 서로 같거나 또는 상이할 수 있다.
부연 설명하면, 프로세싱 엘리먼트(400)의 개수가 증가하면, PAFE 유닛(500-1 내지 500-N)이 처리해야할 데이터 량이 증가할 수 있다. 따라서 PAFE 유닛(500-1 내지 500-N)의 개수는 프로세싱 엘리먼트(400)의 개수를 고려하여 결정될 수 있다.
즉, 프로세싱 엘리먼트(400)의 출력 값인 입력 값(X)에 대응되는 프로세싱 엘리먼트(400)의 최대 데이터 대역폭이 PAFE 유닛(500)이 처리할 수 있는 최대 데이터 대역폭보다 클 경우, PAFE 유닛(500-1 내지 500-N)의 개수가 증가될 수 있다. 따라서, PAFE 유닛(500-1 내지 500-N)의 부족한 데이터 대역폭에 따른 병목 현상을 해결할 수 있다.
예를 들면, 도 19에 도시된 바와 같이, PAFE 유닛(500)은 디멀티플렉서(demultiplexer; DEMUX)와 멀티플렉서(multiplexer; MUX)와 복수의 PAFE 유닛을 포함할 수 있다.
디멀티플렉서(DEMUX)는 입력 값(X)을 비선형의 PAF가 적용되어야 하는 입력 값과 선형의 PAF가 적용되어야 하는 입력 값을 구분한다.
그리고, 비선형의 PAF가 적용되어야 하는 입력 값을 제1 PAFE 유닛(500-1)에 분배한다. 그리고, 선형의 PAF가 적용되어야 하는 입력 값을 제2 PAFE 유닛(500-2)에 분배할 수 있다.
그리고, 제1 PAFE 유닛(500-1)은 비선형의 활성화 함수를 프로그래밍한 활성화 함수가 저장된다. 이에, 제1 PAFE 유닛(500-1)은 비선형의 PAF를 처리할 수 있다.
그리고, 제2 PAFE 유닛(500-2)은 선형의 활성화 함수를 프로그래밍한 활성화 함수가 저장된다. 이에, 제2 PAFE 유닛(500-2)은 비선형의 PAF를 처리할 수 있다.
부연 설명하면, 제1 PAFE 유닛(500-1)은 비선형의 활성화 함수를 처리하도록 구성될 수 있기 때문에, 제2 PAFE 유닛(500-2)보다 상대적으로 더 많은 개수의 비교기를 가지도록 구성될 수 있다. 한편으로, 제2 PAFE 유닛(500-2)은 , 제1 PAFE 유닛(500-1)보다 상대적으로 더 적은 개수의 비교기를 가지도록 구성될 수 있기 때문에, 상대적으로 더 적은 소비 전력으로 동작할 수 있다.
제1 PAFE 유닛(500-1)과 제2 PAFE 유닛(500-2) 중 하나는 NPU(1000)가 처리하는 프로그램된 활성화 함수의 종류에 따라 선택적으로 비활성화 될 수 있다.
그리고, 멀티플렉서(MUX)는 제1 PAFE 유닛(500-1)으로부터 비선형의 PAF가 적용된 출력 값 및 제2 PAFE 유닛(500-2)으로부터 선형의 PAF가 적용된 출력 값을 입력 받을 수 있다.
그리고, 멀티플렉서(MUX)는 제1 PAFE 유닛(500-1)으로부터 비선형의 PAF가 적용된 출력 값 및 제2 PAFE 유닛(500-2)으로부터 선형의 PAF가 적용된 출력 값을 취합하여 출력할 수 있다.
이에, 멀티플렉서(MUX)는 입력 값(X)인 연산 값에 선형의 PAF 및 비선형의 PAF가 적용된 활성화 값을 출력할 수 있다.
본 개시의 일 예시에 따르면, 선형 구간과 비선형 구간을 모두 가지는 활성화 함수를 처리하기 위해 제1 PAFE 유닛(500-1)과 제2 PAFE 유닛(500-2)은 각각 활성화 함수의 특정 영역을 처리하도록 구성될 수 있다.
예를 들면, 도 14에 도시된 ELU 활성화 함수는 x값이 0 이상인 경우 선형 구간에 갖고, x값이 0 미만인 경우 비선형 구간을 갖는다. 즉, ELU 활성화 함수는 선형 구간과 비선형 구간으로 구분되는 특징을 갖는다. 여기서 제1 PAFE 유닛(500-1)는 ELU 활성화 함수의 비선형 구간을 처리하도록 구성될 수 있다. 제2 PAFE 유닛(500-2)는 ELU 활성화 함수의 선형 구간을 처리하도록 구성될 수 있다.
이하에서는 본 개시의 또 다른 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치의 NPU에 대해서 구체적으로 설명한다.
본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치의 NPU과 본 개시의 또 다른 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치의 NPU은 PAF 라이브러리(600)에서만 차이점이 존재하므로, 이를 중심으로 설명한다.
도 20은 본 개시의 또 다른 예시에 따른 프로그램된 활성화 함수를 처리하기 위한 장치의 NPU를 설명하는 개념도이다.
NPU는 제어기(100), 메모리(300), 적어도 하나의 프로세싱 엘리먼트(400), 및 PAFE 유닛(500)을 포함할 뿐만 아니라, PAF 라이브러리(600)를 더 포함할 수 있다.
PAF 라이브러리(600)는 활성화 함수를 근사화 한 PAF를 저장할 수 있다. 구체적으로, PAF 라이브러리(600)는 PAF를 구성하는 복수의 프로그래머블 세그먼트들에 대한 기울기(A0 내지 A(N-1)) 및 오프셋(B0 내지 B(N-1)) 정보를 저장할 수 있다. 부연 설명하면, PAF 라이브러리(600)는 복수의 PAF를 저장할 수 있다. 그리고, PAF 라이브러리(600)는 복수의 PAF 각각에 대한 복수의 프로그래머블 세그먼트들에 대한 기울기(A0 내지 A(N-1)) 및 오프셋(B0 내지 B(N-1)) 정보를 저장할 수 있다. 단, 활성화 함수 변환 프로그램에 의해서 복수의 PAF는 1차 함수에 제한되지 않으며 2차 다항식, 3차 다항식, 로그 함수 등을 선택적으로 조합하여 근사화 될 수 있다.예를 들면, PAF 라이브러리(600)는 표 2 내지 표 4에 도시된 각각의 프로그램된 활성화 함수 데이터를 저장하도록 구성될 수 있다. 따라서 PAF 라이브러리(600)는 프로그램된 ReLU, 클리핑이 적용된 프로그램된 ReLU, 프로그램된 ReLU6 활성화 함수를 모두 저장하도록 구성되는 것도 가능하다. 또한 제어기(100)는 필요에 따라서, 특정 활성화 함수를 PAF 라이브러리(600)에서 선택하여 PAFE 유닛(500)에 입력시키도록 제어하는 것도 가능하다.
PAF 라이브러리(600)에 저장된 복수의 프로그램된 활성화 함수는 대표적인 활성화 함수를 근사화 한 것일 수 있다. 예를 들면, 대표적인 활성화 함수는 스위시(swish) 함수, Mish 함수, 시그모이드(sigmoid) 함수, 하이퍼볼릭 탄젠트(tanh) 함수, SELU 함수, GELU(Gaussian Error Linear Unit) 함수, SOFTPLUS 함수, ReLU 함수, Leaky ReLU 함수, Maxout 함수, ELU 함수 일 수 있다.
이에, PAFE 유닛(500)은 제어기(100)의 제어에 따라, PAF 라이브러리(600)에 저장된 복수의 PAF 중 필요로 하는 PAF를 선택할 수 있다. 그리고, PAFE 유닛(500)은 선택된 PAF에 대한 복수의 프로그래머블 세그먼트들에 대한 기울기(A0 내지 A(N-1)) 및 오프셋(B0 내지 B(N-1)) 등의 정보를 PAF 라이브러리(600)로부터 불러들일 수 있다.
상술한 바와 같이, 본 개시의 또 다른 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치는 자주 사용되는 활성화 함수를 프로그래밍하여 PAF 라이브러리(600)에 저장할 수 있다.
이에, 본 개시의 또 다른 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치에서, 활성화 함수 변환 프로그램이 모든 활성화 함수를 프로그래밍할 필요없이 PAF 라이브러리(600)가 PAF를 저장할 수 있다.
따라서, 본 개시의 또 다른 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치의 처리 속도는 향상될 수 있을 뿐만 아니라, 활성화 함수 변환 프로그램을 구동 시키기 위한 소비 전력 또한 저감 시킬 수 있는 이점이 있다.
이하에서는 본 개시의 또 다른 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치의 NPU에 대해서 구체적으로 설명한다.
본 개시의 일 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치의 NPU과 본 개시의 또 다른 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치의 NPU은 적어도 하나의 프로세싱 엘리먼트(PE Array) 및 PAFE 유닛(Unit)에서 차이점이 존재하므로, 이를 중심으로 설명한다.
도 21은 본 개시의 또 다른 예시에 따른 프로그램된 활성화 함수를 처리하기 위한 장치의 NPU를 설명하는 개념도이다.
도 21에 도시된 바와 같이, 본 개시의 또 다른 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치의 NPU에서, 복수의 프로세싱 엘리먼트(PROCESSING ELEMENTS #0 내지 PROCESSING ELEMENTS #N-1)는 그룹핑(grouping) 될 수 있다. 그룹핑 된 프로세싱 엘리먼트들은 적어도 하나의 프로세싱 엘리먼트로 지칭될 수 있다.
즉, 복수의 프로세싱 엘리먼트는 제0 프로세싱 엘리먼트들(PROCESSING ELEMENTS #0) 내지 제N-1 프로세싱 엘리먼트들(PROCESSING ELEMENTS #N-1)를 포함할 수 있다. 복수의 프로세싱 엘리먼트들(PROCESSING ELEMENTS #0 내지 PROCESSING ELEMENTS #N-1) 각각은 PE 스레드(Processing Element Thread) 혹은 PE 코어(Processing Element Core)로 지칭될 수 있다. 이하에서는 복수의 적어도 하나의 프로세싱 엘리먼트를 PE 코어로 지칭하여 설명한다.
한편, 복수의 PE 코어 각각의 구조는 서로 상이할 수 있다. 예를 들면, 복수의 PE 코어 각각은 동작은 입력 스테이셔너리 방식(Input stationary), 가중 스테이셔너리 방식(Weight stationary) 및 출력 스테이셔너리 방식(Output stationary) 중 어느 하나일 수 있다.
그리고, 구동의 최적화에 따라 복수의 PE 코어 각각은 개별적으로 구동될 수 있다. 즉, 복수의 PE 코어 각각은 동시에 구동되지 않고, PAFE 유닛의 동작에 따라 순차적으로 구동될 수 있다.
그리고, 복수의 PE 코어 각각에 포함되는 프로세싱 엘리먼트인 MAC(Multiply And Accumulate) 연산기, ALU(Arithmetic Logic Unit) 연산기 등의 개수는 상이할 수 있다. 이에, 복수의 PE 코어 각각의 크기는 상이할 수 있다.
그리고, 복수의 PE 코어 각각은 멀티플렉서(multiplexer; MUX)를 통해 PAFE 유닛에 연결될 수 있다.구체적으로, 멀티플렉서(MUX)는 복수의 PE 코어 각각에서 출력된 복수의 연산 값을 입력 받아, 복수의 연산 값 중 어느 하나 이상을 PAFE 유닛에 출력한다.
PAFE 유닛(500)과 복수의 PE 코어 사이에는 버퍼 메모리가 더 배치되도록 구성되는 것도 가능하다. 단, 이에 제한되지 않는다.
이에, 하나의 PAFE 유닛은 복수의 PE 코어 각각에서 출력된 복수의 연산 값을 처리할 수 있을 수 있다. 따라서, 또 다른 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치에 구비되는 PAFE 유닛의 개수는 최소화될 수 있다. 결국, 이는 활성화 함수 프로그래밍 방법을 수행하기 위한 장치의 제조 비용을 최소화 시킬 수 있다.
도 22는 본 개시의 또 다른 예시에 따른 프로그램된 활성화 함수를 처리하도록 구성된 PAFE 유닛을 설명하는 개념도이다.
도 23은 본 개시의 또 다른 예시에 따른 프로그램된 활성화 함수를 처리하기 위한 장치의 NPU의 PAFE 유닛을 설명하는 개념도이다.
도 22 내지 도 23에 도시된 PAFE 유닛에서 적용되는 PAF의 복수의 프로그래머블 세그먼트 각각은 1차 함수 또는 2차 함수로 동작할 수 있다. 이에, 상술한 프로그래머블 세그먼트에 대한 계수(A, B, C)는 2차항의 계수(Coefficient of quadratic term, A), 1차항의 계수(Coefficient of linear term, B) 및 오프셋(Offset, C)을 포함할 수 있다.
이에 맞춰, 활성화 함수 변환 프로그램 유닛(3000)은 메모리(300)에 PU에서 처리할 프로그램된 활성화 함수 데이터를 제공하도록 구성될 수 있다.
<표6>
Figure PCTKR2022019376-appb-img-000032
<표6>을 참조하면, 프로그램된 활성화 함수의 구동을 위한 데이터는 활성화 함수 변환 프로그램 유닛(3000)에서 생성되어 NPU의 메모리(300), 예를 들면, 세그먼트 레지스터(310), 제1 레지스터(320), 제2 레지스터(330) 및 제3 레지스터(340)에 저장되도록 구성될 수 있다.
예를 들면, 세그먼트 레지스터(310)는 <표6>의 세그먼트 경계값(SB)을 저장하도록 구성될 수 있다.
예를 들면, 제1 레지스터(320)는 <표6>의 2차항의 계수(A)를 저장하도록 구성될 수 있다.
예를 들면, 제2 레지스터(330)는 <표6>의 1차항의 계수(B)를 저장하도록 구성될 수 있다. 예를 들면, 제3 레지스터(340)는 <표6>의 오프셋(C)을 저장하도록 구성될 수 있다.
제어기(100) 및/또는 DMA(200)는 <표6>의 프로그램된 활성화 함수의 데이터를 메모리(300)에 저장하도록 지시할 수 있다. 본 개시의 예시들은 이에 제한되지 않으며, 프로그램된 활성화 함수의 데이터는 제어기(100) 내부의 레지스터, PAFE 유닛(500') 내부의 레지스터, 별도의 메모리, 및 별도의 레지스터 중 적어도 하나에 저장되도록 구성될 수 있다. 즉, 프로그램된 활성화 함수의 데이터의 저장장소는 특정 장소에 제한되지 않는다.
<표6>을 참조하면, 프로그램된 활성화 함수 데이터의 일 예시가 개시된다.
예를 들면, 프로그램된 활성화 함수 데이터는 세그먼트 경계값(SB)을 포함하도록 구성될 수 있다.
예를 들면, 프로그램된 활성화 함수 데이터는 각 세그먼트 별 세그먼트(S)의 범위를 포함하도록 구성될 수 있다.
예를 들면, 프로그램된 활성화 함수 데이터는 각 세그먼트 별 2차항의 계수(A)와 1차항의 계수(B)를 포함하도록 구성될 수 있다.
예를 들면, 프로그램된 활성화 함수 데이터는 각 세그먼트 별 오프셋(C)을 포함하도록 구성될 수 있다.
2차 함수로 프로그래밍 된 활성화 함수를 처리하도록 구성된 예시적인 PAFE 유닛은 복수의 비교기(Comparator 0 to Comparator (N-2))(511 내지 51(N-2)), 선택기(Selector, 520), 복수의 곱셈기(Multiplier)(531, 532, 533) 및 복수의 가산기(Adder)(541, 542)를 포함하도록 구성될 수 있다.
복수의 비교기(510 내지 51(N-2)) 각각은 적어도 하나의 프로세싱 엘리먼트(400)에서 계산된 입력 값(X)을 복수의 세그먼트 경계값(SB0 내지 SB(N-2)) 각각과 비교한다. 예를 들면, 입력 값(X)이 복수의 세그먼트 경계값(SB0 내지 SB(N-2)) 각각보다 클 경우, 복수의 비교기(510 내지 51(N-2)) 각각은 제1 레벨의 출력 값을 출력할 수 있다. 이와 반대로, 입력 값(X)이 복수의 세그먼트 경계값(SB0 내지 SB(N-2)) 각각보다 작거나 같을 경우, 복수의 비교기(510 내지 51(N-2)) 각각은 제2 레벨의 출력 값을 출력할 수 있다.
이에, 복수의 비교기(510 내지 51(N-2)) 각각에서 출력된 출력 값을 통해 복수의 세그먼트들의 구간 중 입력 값(X)이 속하는 세그먼트의 구간이 결정될 수 있다.
한편, 복수의 비교기(510 내지 51(N-2)) 각각은 복수의 비교기 인에이블 신호(Comp En 1 내지 Comp En (N-2)) 각각에 의해서 동작여부가 결정될 수 있다.
그리고, 선택기(520)는 구간 결정 데이터(SDD0 내지 SDD(N-2))에 따라, 복수의 프로그래머블 세그먼트들에 대한 계수들(A0 내지 A(N-1), (B0 내지 B(N-1)), (C0 내지 C(N-1)) 중 입력 값(X)이 속하는 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 계수(A, B, C)를 출력한다.
구체적으로, 제1 레지스터(320)는 복수의 프로그래머블 세그먼트들 각각에 대한 2차항의 계수(A0 내지 A(N-1)), 1차항의 계수(B0 내지 B(N-1)) 및 오프셋(C0 내지 C(N-1))를 선택기(520)에 제공한다.
그리고, 선택기(520)는 복수의 비교기(510 내지 51(N-2)) 각각에서 출력된 구간 결정 데이터(SDD0 내지 SDD(N-2))에 따라 복수의 세그먼트들의 구간 중 입력 값(X)이 속하는 세그먼트의 구간을 결정할 수 있다.
그리고, 선택기(520)는 복수의 프로그래머블 세그먼트들에 대한 2차항의 계수(A0 내지 A(N-1)), 1차항의 계수(B0 내지 B(N-1)), 및 오프셋(C0 내지 C(N-1)) 중 결정된 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 2차항의 계수(A), 1차항의 계수(B), 및 오프셋(C)를 출력할 수 있다.
이에, 선택기(520)는 입력 값(X)이 속하는 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 2차항의 계수(A), 1차항의 계수(B) 및 오프셋(C)을 출력할 수 있다.
한편, 선택기(520)는 구간 결정 데이터(SDD)에 따라 제어되는 복수의 스위칭 소자로 구성되는 멀티플렉서(multiplexer)일 수 있으나, 선택기(520)의 구성은 다양하게 변경될 수 있다.
PAFE 유닛(500')의 프로그램된 활성화 함수 연산부는 입력 값(X), 2차항의 계수(A), 1차항의 계수(B) 및 오프셋(C)을 입력 받아 출력 값(Y)를 연산하도록 구성된 회로부를 의미할 수 있다.
PAFE 유닛(500')의 프로그램된 활성화 함수 연산부는 2차 함수 또는 1차 함수를 처리하기 위해서 복수의 곱셈기(531, 532, 533)와 복수의 가산기(541, 542)를 포함하도록 구성될 수 있다.
PAFE 유닛(500')의 프로그램된 활성화 함수 연산부는 하드-와이어된 회로일 수 있다.
프로그램된 활성화 함수 연산부의 복수의 곱셈기는 제1 곱셈기(531), 제2 곱셈기(532) 및 제3 곱셈기(533)를 포함할 수 있다.
제1 곱셈기(531)는 입력 값(X)이 속하는 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 2차항의 계수(A)와 입력 값(X)을 곱한다.
구체적으로 제1 곱셈기(531)는 적어도 하나의 프로세싱 엘리먼트(400)에서 계산된 입력 값(X)에 선택기(520)에서 출력된 프로그래머블 세그먼트에 대한 2차항의 계수(A)를 곱한다.
이에, 제1 곱셈기(531)는 프로그래머블 세그먼트에 대한 2차항의 계수(A)를 입력 값(X)에 곱하여 출력할 수 있다. 즉, 제1 곱셈기(531)의 출력은
Figure PCTKR2022019376-appb-img-000033
로 표현될 수 있다.
그리고, 제2 곱셈기(532)는 제1 곱셈기(531)에서 출력된 출력 값과 입력 값(X)을 곱한다.
구체적으로 제2 곱셈기(532)는 적어도 하나의 프로세싱 엘리먼트(400)에서 계산된 입력 값(X)에 제2 곱셈기(532)에서 출력된 출력 값을 곱한다.
이에, 제2 곱셈기(532)의 출력은
Figure PCTKR2022019376-appb-img-000034
로 표현될 수 있다. 단, 상술한 구성은
Figure PCTKR2022019376-appb-img-000035
를 구현하기 위한 일 예시일 뿐이며, 다양한 회로 조합을 통해서 변형 실시되는 것도 가능하다.
제3 곱셈기(533)는 입력 값(X)이 속하는 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 1차항의 계수(B)와 입력 값(X)을 곱한다.
구체적으로 제3 곱셈기(533)는 적어도 하나의 프로세싱 엘리먼트(400)에서 계산된 입력 값(X)에 선택기(520)에서 출력된 프로그래머블 세그먼트에 대한 1차항의 계수(B)를 곱한다.
이에, 제3 곱셈기(533)는 프로그래머블 세그먼트에 대한 1차항의 계수(B)를 입력 값(X)에 곱하여 출력할 수 있다. 즉, 제3 곱셈기(533)의 출력은
Figure PCTKR2022019376-appb-img-000036
로 표현될 수 있다.
복수의 가산기는 제1 가산기(541) 및 제2 가산기(542)를 포함할 수 있다.
제1 가산기(541)는 제2 곱셈기(532)의 출력 값에 제3 곱셈기(533)의 출력 값을 더한다.
구체적으로, 제1 가산기(541)는 2차항으로 구성된 복수의 프로그래머블 세그먼트 각각의 2차항과 1차항의 합을 출력할 수 있다. 즉, 제1 가산기(541)의 출력은
Figure PCTKR2022019376-appb-img-000037
로 표현될 수 있다.
그리고, 제2 가산기(542)는 제1 가산기(541)의 출력 값에 입력 값(X)이 속하는 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 오프셋(C)을 더한다.
구체적으로, 가산기(540)는 2차항으로 구성된 프로그래머블 세그먼트의 2차항과 1차항의 합에 프로그래머블 세그먼트에 대한 오프셋(C)을 더한다. 즉, 제2 가산기(542)의 출력은
Figure PCTKR2022019376-appb-img-000038
로 표현될 수 있다.
이에, 가산기(540)는 입력 값(X)인 연산 값에 2차 함수로 프로그램된 활성화 함수가 적용된 활성화 값을 출력할 수 있다.
상술한 구성에 따르면 PAFE 유닛(500')은 2차 다항식을 처리 가능하게끔 동작한다.
한편, 제2 곱셈기(532), 제3 곱셈기(533) 및 제2 가산기(542)는 제1 인에이블 신호(EN1)에 의해서 동작이 제어될 수 있다.
구체적으로 제1 인에이블 신호(EN1)에 의해서 제2 곱셈기(532), 제3 곱셈기(533) 및 제2 가산기(542)가 동작하기 않을 경우, 동작은 아래의 설명과 같다.
제1 곱셈기(531)는 입력 값(X)이 속하는 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 2차항의 계수(A)와 입력 값(X)을 곱한다.
구체적으로 제1 곱셈기(531)는 적어도 하나의 프로세싱 엘리먼트(400)에서 계산된 입력 값(X)에 선택기(520)에서 출력된 프로그래머블 세그먼트에 대한 2차항의 계수(A)를 곱한다.
이에, 제1 곱셈기(531)는 프로그래머블 세그먼트에 대한 2차항의 계수(A)를 입력 값(X)에 곱하여 출력할 수 있다. 즉, 제1 곱셈기(531)의 출력은
Figure PCTKR2022019376-appb-img-000039
로 표현될 수 있다.
그리고, 제2 곱셈기(532) 및 제3 곱셈기(533)는 동작하지 않아, 제1 가산기(541)에 제1 곱셈기(531)의 출력이 그대로 입력된다. 즉, 제1 인에이블 신호(EN1)에 의해서 비활성화된 연산기는 우회(bypass) 될 수 있다.
그리고, 제1 가산기(541)는 제1 곱셈기(531)의 출력 값에 입력 값(X)이 속하는 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 1차항의 계수(B)를 더한다.
구체적으로, 제1 가산기(541)는 프로그래머블 세그먼트에 대한 2차항의 계수(A)를 입력 값(X)에 곱한값에 프로그래머블 세그먼트에 대한 1차항의 계수(B)를 더한다. 즉, 제1 가산기(541)의 출력은
Figure PCTKR2022019376-appb-img-000040
로 표현될 수 있다.
그리고, 제2 가산기(542)는 동작하지 않아, 제1 가산기(541)의 출력이 그대로 출력된다. 즉, 제1 인에이블 신호(EN1)에 의해서 비활성화된 연산기는 우회(bypass) 될 수 있다.
즉, 제1 가산기(541)는 입력 값(X)인 연산 값에 1차 함수로 프로그램된 활성화 함수가 적용된 활성화 값을 출력할 수 있다.
상술한 구성에 따르면 PAFE 유닛(500')은 1차 다항식을 처리 가능하게끔 동작한다.
전술한 바와 같이, 복수의 곱셈기 및 복수의 가산기의 일부 구성은 제1 인에이블 신호(EN1)에 의해서 제어될 수 있다. 이에, 제1 인에이블 신호(EN1)에 따라, PAFE 유닛은 프로그래머블 세그먼트 각각이 2차 다항식일 경우 뿐만 아니라, 프로그래머블 세그먼트 각각은 1차 다항식 경우에도 모두 구동될 수 있다.
부연 설명하면, 본 개시의 일 예시에 따른 적어도 하나의 프로세싱 엘리먼트(400)와 파이프라인 된 PAFE 유닛(500')은 2차 함수 및 1차 함수로 프로그램된 활성화 함수를 모두 구현하도록 구성된 하드-와이어된 회로로 구성되는 것도 가능하다.
따라서, 하나의 PAFE 유닛으로 다양한 경우의 PAF를 처리할 수 있는 이점이 있다.
도 24는 본 개시의 또 다른 예시에 따른 프로그램된 활성화 함수를 처리하기 위한 장치가 Sigmoid 활성화 함수를 프로그래머블 활성화 함수로 근사화 하는 예시를 설명하는 그래프이다
전술한 바와 같이, 본 개시의 또 다른 예시에 따른 활성화 함수 프로그래밍 방법을 수행하기 위한 장치의 PAFE 유닛에서 적용되는 PAF의 복수의 프로그래머블 세그먼트 각각은 2차 다항식이다. 부연 설명하면, Sigmoid 함수의 적어도 일부 영역, 예를 들면 -6.0 내지 2.0 영역만 3개의 세그먼트로 구분하여 근사화 할 수 있다.
예를 들면, Sigmoid 활성화 함수를 PAF로 근사화 할 경우, 아래와 같이 근사화 할 수 있다.
입력 값(X)이 -6.0 크거나 -2.6 보다 작거나 같은 구간(S0)에서, 프로그래머블 세그먼트는
Figure PCTKR2022019376-appb-img-000041
으로 근사화 할 수 있다. 그리고, 입력 값(X)이 -2.6 크거나 -0.6 보다 작거나 같은 구간(S1)에서, 프로그래머블 세그먼트는
Figure PCTKR2022019376-appb-img-000042
으로 근사화 할 수 있다. 그리고, 입력 값(X)이 -0.6 크거나 2 보다 작거나 같은 구간(S2)에서, 프로그래머블 세그먼트는
Figure PCTKR2022019376-appb-img-000043
으로 근사화 할 수 있다.
따라서, 상기 프로그래머블 파라미터들을 <표 6>의 형식에 맞게 대응시킬 수 있다.
예를 들면, <표6>의 A0은 0.07일 수 있다. <표6>의 B0은 0.08일 수 있다. <표6>의 C0은 0.23일 수 있다.
예를 들면, <표6>의 A1은 0.05일 수 있다. <표6>의 B1은 0.3일 수 있다. <표6>의 C1은 0.52일 수 있다.
예를 들면, <표6>의 A2은 -0.03일 수 있다. <표6>의 B2은 0.26일 수 있다. <표6>의 C2은 0.5일 수 있다.
예를 들면, <표6>의 SB0은 -2.6일 수 있다. 표6>의 SB1은 -0.6일 수 있다. SB0은 일 수 있다.
예를 들면, <표6>의 Min은 -6.0일 수 있다. <표6>의 Max는 2.0일 수 있다.
예를 들면, 상기 세그먼트의 세그먼트 경계값(SB), 2차항의 계수(A), 1차항의 계수(B) 및 오프셋(C)은 도 12의 일 예시에 따른 활성화 함수 프로그래밍 방법에서 머신 러닝을 이용하여 각각의 세그먼트를 최적 프로그래머블 세그먼트로 근사화 하는 방식으로 도출되는 것도 가능하다.
도 24에서 계수들은 머신 러닝으로 도출된 일 예시에 불과할 뿐, 다양하게 변형될 수 있다. 예를 들면, 프로그래머블 세그먼트 중 일부(S0 및 S2)는 선형 구간에 해당할 수 있고, 프로그래머블 세그먼트 중 다른 일부(S1)는 비선형 구간에 해당할 수 있다.
이에, 프로그래머블 세그먼트 중 일부(S0 및 S2)는 1차함수로 근사화 될 수 있고, 프로그래머블 세그먼트 중 다른 일부(S1)는 2차 함수로 근사화 될 수 있다.
몇몇의 예시에서는 PAFE 유닛의 출력단에 로그 연산기를 더 포함할 수 있다. 도 25를 참조하여, 로그 연산기를 포함한 PAFE 유닛에 대해서 구체적으로 설명한다.
도 25는 본 개시의 또 다른 예시에 프로그램된 활성화 함수를 처리하기 위한 장치의 NPU의 PAFE 유닛을 설명하는 개념도이다.
도 25를 참조하면, PAFE 유닛(500'')은 복수의 비교기(Comparator 0 to Comparator (N-2))(511 내지 51(N-2)), 선택기(Selector, 520), 복수의 곱셈기(Multiplier)(531, 532, 533) 및 복수의 가산기(Adder)(541, 542)를 포함할 뿐만 아니라, 로그 연산기(550)를 포함할 수 있다.
도 23에서 도시된 PAFE 유닛과 도 25의 PAFE 유닛은 로그 연산기(550) 동작여부에 대해서만 차이점이 존재하므로, 이에 대해서 구체적으로 설명한다.
로그 연산기(550)는 제2 인에이블 신호(EN2)에 의해서 동작이 제어될 수 있다. 로그 연산기(550)에 제2 인에이블 신호(EN2)가 인가되면 로그 계수(D)가 로그 연산기(550)에 입력될 수 있다. 로그 연산기(550)가 활성화되면 2차항의 계수(A), 1차항의 계수(B) 및 오프셋(C)와 관련된 연산기들(531, 532, 533, 541, 542)는 비활성화 되도록 구성될 수 있다.
즉, 로그 연산기(550)의 출력은 logD로 표현될 수 있다.
즉, 로그 연산기(550)는 입력 값(X)인 연산 값에 로그 연산을 포함하는 PAF가 적용된 활성화 값을 출력할 수 있다.
도 25에 도시된 PAFE 유닛에서 적용되는 PAF의 복수의 프로그래머블 세그먼트 각각은 1차 함수, 2차 함수, 또는 로그 함수로 동작할 수 있다. 이에, 상술한 프로그래머블 세그먼트에 대한 계수(A, B, C, D)는 2차항의 계수(A), 1차항의 계수(B), 오프셋(C), 및 로그(D)를 포함할 수 있다.
<표7>
Figure PCTKR2022019376-appb-img-000044
<표7>을 참조하면, 프로그램된 활성화 함수의 구동을 위한 데이터는 활성화 함수 변환 프로그램 유닛(3000)에서 생성되어 NPU의 메모리(300), 예를 들면, 세그먼트 레지스터(310), 제1 레지스터(320), 제2 레지스터(330), 제3 레지스터(340), 및 제4 레지스터(350)에 저장되도록 구성될 수 있다.
예를 들면, 프로그램된 활성화 함수 데이터는 세그먼트 경계값(SB)을 포함하도록 구성될 수 있다. 세그먼트 경계값(SB)은 메모리의 제1 레지스터에 저장될 수 있다.
예를 들면, 프로그램된 활성화 함수 데이터는 각 세그먼트 별 세그먼트(S)의 범위를 포함하도록 구성될 수 있다.
예를 들면, 프로그램된 활성화 함수 데이터는 각 세그먼트 별 2차항의 계수(A)를 포함하도록 구성될 수 있다. 2차항의 계수(A)는 메모리의 제2 레지스터에 저장될 수 있다.
예를 들면, 프로그램된 활성화 함수 데이터는 각 세그먼트 별 1차항의 계수(B)를 포함하도록 구성될 수 있다. 1차항의 계수(B)는 메모리의 제3 레지스터에 저장될 수 있다.
예를 들면, 프로그램된 활성화 함수 데이터는 각 세그먼트 별 오프셋(C)을 포함하도록 구성될 수 있다. 오프셋(C)은 메모리의 제4 레지스터에 저장될 수 있다.
예를 들면, 프로그램된 활성화 함수 데이터는 각 세그먼트 별 로그 계수(D)를 포함하도록 구성될 수 있다. 로그 계수(D)는 메모리의 제5 레지스터에 저장될 수 있다.
상술한 바와 같이, PAFE 유닛에 로그 연산기(550)를 추가하여, 로그 연산을 포함하는 PAF를 적용하는 것을 설명하였다. 다만, PAFE 유닛의 출력단에 더해지는 연산기는 로그 연산기(550) 뿐만 아니라 다양한 형태의 연산기가 추가될 수 있다.
부연 설명하면, 프로그램된 활성화 함수 데이터는 PAFE 유닛의 프로그램된 활성화 함수 연산부의 연산자 회로 구성과 지원 가능한 수식들에 따라 결정될 수 있다.
본 개시의 일 실시예에 따른 신경 프로세싱 유닛은 인공신경망 연산을 통해 연산 값을 출력하도록 구성된 적어도 하나의 프로세싱 엘리먼트, 복수의 프로그래머블 세그먼트들을 포함하는 적어도 하나의 프로그램된 활성화 함수를 상기 연산 값에 적용하여 활성화 값을 생성하도록 구성된 프로그램된 활성화 함수 실행 유닛 및 적어도 하나의 프로세싱 엘리먼트 및 상기 프로그램된 활성화 함수 실행 유닛의 동작을 제어하도록 구성된 제어기를 포함할 수 있다.
본 개시의 다른 특징에 따르면, 신경 프로세싱 유닛은 복수의 프로그래머블 세그먼트들의 구간에 대한 정보를 저장하는 세그먼트 레지스터를 더 포함할 수 있다.
본 개시의 또 다른 특징에 따르면, 신경 프로세싱 유닛은 복수의 프로그래머블 세그먼트들의 세그먼트 경계값을 저장하는 세그먼트 레지스터를 더 포함할 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 프로그램된 활성화 함수 실행 유닛은 복수의 비교기, 선택기, 적어도 하나의 곱셈기 및 적어도 하나의 가산기가 하드-와이어 될 수 있다.
본 개시의 또 다른 특징에 따르면, 신경 프로세싱 유닛은 상기 연산 값을 입력된 복수의 세그먼트 경계값 각각과 비교하여 구간 결정 데이터를 출력하도록 구성된 복수의 비교기를 더 포함할 수 있다.
본 개시의 또 다른 특징에 따르면, 신경 프로세싱 유닛은 비교기 인에이블 신호에 의해서 동작여부가 결정되도록 구성된 복수의 비교기를 더 포함할 수 있다.
본 개시의 또 다른 특징에 따르면, 신경 프로세싱 유닛은 구간 결정 데이터를 출력하도록 구성된 복수의 비교기를 더 포함하고, 프로그램된 활성화 함수 실행 유닛은 상기 구간 결정 데이터에 따라, 상기 복수의 프로그래머블 세그먼트들 중 대응되는 세그먼트의 기울기 및 오프셋을 상기 연산 값에 적용하여 상기 활성화 값을 생성하도록 될 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 적어도 하나의 곱셈기는 선택기에서 출력된 프로그래머블 세그먼트에 대한 기울기와 입력 값을 곱할 수 있다.
본 개시의 또 다른 특징에 따르면, 적어도 하나의 가산기는, 적어도 하나의 곱셈기에서 출력된 프로그래머블 세그먼트에 대한 기울기를 입력 값에 곱한값에 프로그래머블 세그먼트에 대한 오프셋을 더할 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 선택기는 복수의 구간 결정 데이터에 따라, 복수의 프로그래머블 세그먼트들에 대한 기울기 중 입력 값이 속하는 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 2 차항 기울기와 1 차항 기울기 및 오프셋을 출력할 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 적어도 하나의 곱셈기는, 입력 값에 상기 선택기에서 출력된 프로그래머블 세그먼트에 대한 2차항의 계수를 곱하는 제1 곱셈기; 제1 곱셈기에서 출력된 출력 값과 입력 값을 곱하는 제2 곱셈기 및 입력 값에 상기 선택기에서 출력된 프로그래머블 세그먼트에 대한 1차항의 계수를 곱하는 제3 곱셈기를 포함할 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 제2 곱셈기 및 상기 제3 곱셈기는 제1 인에이블 신호에 의해서 동작이 제어될 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 적어도 하나의 가산기는, 제2 곱셈기의 출력 값에 상기 제3 곱셈기의 출력 값을 더하는 제1 가산기, 제1 가산기의 출력 값에 상기 선택기에서 출력된 프로그래머블 세그먼트에 대한 오프셋을 더하는 제2 가산기를 포함할 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 제2 가산기는 제1 인에이블 신호에 의해서 동작이 제어될 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 프로그램된 활성화 함수 실행 유닛은 상기 적어도 하나의 가산기의 출력 값을 로그 연산하는 로그 연산기를 더 포함할 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 로그 연산기는 제2 인에이블 신호에 의해서 동작이 제어될 수 있다.
본 개시의 또 다른 특징에 따르면, 신경 프로세싱 유닛은 프로그래머블 활성화 함수를 구성하는 복수의 프로그래머블 세그먼트들에 대한 기울기 및 오프셋 정보를 저장하는 프로그래머블 활성화 함수 라이브러리를 더 포함할 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 적어도 하나의 프로세싱 엘리먼트들은 멀티플렉서를 통해 프로그램된 활성화 함수 실행 유닛에 연결될 수 있다.
본 개시의 또 다른 특징에 따르면, 장치는 활성화 함수를 상기 적어도 하나의 프로그램된 활성화 함수로 프로그램하는 활성화 함수 변환 프로그램 유닛을 더 포함할 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 활성화 함수 변환 프로그램 유닛은,
기울기 변화 데이터에 따라, 상기 적어도 하나의 프로그램된 활성화 함수의 선형 구간 및 비선형 구간을 우선적으로 결정할 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 활성화 함수 변환 프로그램 유닛은,
기울기 변화 데이터 중 2차 미분값이 임계값보다 낮은 구간을 상기 선형 구간으로 결정할 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 활성화 함수 변환 프로그램 유닛은,
기울기 변화 데이터 중 2차 미분값이 임계값보다 높은 구간을 상기 비선형 구간으로 결정할 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 활성화 함수 변환 프로그램 유닛은 상기 2차 미분값의 적분 값에 기초하여, 상기 비선형 구간을 복수개로 분리시킬 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 활성화 함수 변환 프로그램 유닛은, 상기 적어도 하나의 프로그램된 활성화 함수의 선형 구간을 1차 함수로 근사된 프로그래머블 세그먼트로 변환시킬 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 활성화 함수 변환 프로그램 유닛은, 상기 적어도 하나의 프로그램된 활성화 함수의 비선형 구간을 2차 함수로 근사된 프로그래머블 세그먼트로 변환시킬 수 있다.
본 개시의 또 다른 특징에 따르면, 상기 활성화 함수 변환 프로그램 유닛은, 적어도 하나의 프로그램된 활성화 함수의 비선형 구간을 로그 함수로 근사된 프로그래머블 세그먼트로 변환시킬 수 있다.
본 명세서와 도면에 게시된 본 개시의 예시들은 본 개시의 기술내용을 쉽게 설명하고 본 개시의 이해를 돕기 위해 특정 예를 제시한 것뿐이며, 본 명의 범위를 한정하고자 하는 것은 아니다. 여기에 게시된 예시들 이외에도 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.
[이 발명을 지원한 국가연구개발사업]
[과제고유번호] 1711170646
[과제번호] 2022-0-00957-001
[부처명] 과학기술정보통신부
[과제관리(전문)기관명] 정보통신기획평가원
[연구사업명] PIM인공지능반도체핵심기술개발(설계)
[연구과제명] 엣지용 분산형 온칩메모리-연산기 융합 PIM 반도체 기술개발
[기여율] 1/1
[과제수행기관명] (주)딥엑스
[연구기간]2022.04.01~2022.12.31

Claims (26)

  1. 인공신경망 연산을 통해 연산 값을 출력하도록 구성된 적어도 하나의 프로세싱 엘리먼트;
    복수의 프로그래머블 세그먼트들을 포함하는 적어도 하나의 프로그램된 활성화 함수를 상기 연산 값에 적용하여 활성화 값을 생성하도록 구성된 프로그램된 활성화 함수 실행 유닛; 및
    상기 적어도 하나의 프로세싱 엘리먼트 및 상기 프로그램된 활성화 함수 실행 유닛의 동작을 제어하도록 구성된 제어기를 포함하는, 신경 프로세싱 유닛.
  2. 제 1 항에 있어서,
    상기 복수의 프로그래머블 세그먼트들의 구간에 대한 정보를 저장하는 세그먼트 레지스터를 더 포함하는, 신경 프로세싱 유닛.
  3. 제 1 항에 있어서,
    상기 복수의 프로그래머블 세그먼트들의 세그먼트 경계값을 저장하는 세그먼트 레지스터를 더 포함하는, 신경 프로세싱 유닛.
  4. 제 1 항에 있어서,
    상기 프로그램된 활성화 함수 실행 유닛은 복수의 비교기, 선택기, 적어도 하나의 곱셈기 및 적어도 하나의 가산기가 하드-와이어된, 신경 프로세싱 유닛.
  5. 제 1 항에 있어서,
    상기 연산 값을 입력된 복수의 세그먼트 경계값 각각과 비교하여 구간 결정 데이터를 출력하도록 구성된 복수의 비교기를 더 포함하는, 신경 프로세싱 유닛.
  6. 제 1 항에 있어서,
    비교기 인에이블 신호에 의해서 동작여부가 결정되도록 구성된 복수의 비교기를 더 포함하는, 신경 프로세싱 유닛.
  7. 제 1 항에 있어서,
    구간 결정 데이터를 출력하도록 구성된 복수의 비교기를 더 포함하고,
    상기 프로그램된 활성화 함수 실행 유닛은 상기 구간 결정 데이터에 따라, 상기 복수의 프로그래머블 세그먼트들 중 대응되는 세그먼트의 기울기 및 오프셋을 상기 연산 값에 적용하여 상기 활성화 값을 생성하도록 구성된, 신경 프로세싱 유닛.
  8. 제 4 항에 있어서,
    상기 적어도 하나의 곱셈기는,
    상기 선택기에서 출력된 프로그래머블 세그먼트에 대한 기울기와 입력 값을 곱하는, 신경 프로세싱 유닛.
  9. 제 8 항에 있어서,
    상기 적어도 하나의 가산기는,
    상기 적어도 하나의 곱셈기에서 출력된 프로그래머블 세그먼트에 대한 기울기를 입력 값에 곱한값에 프로그래머블 세그먼트에 대한 오프셋을 더하는, 신경 프로세싱 유닛.
  10. 제 4 항에 있어서,
    상기 선택기는 복수의 구간 결정 데이터에 따라, 복수의 프로그래머블 세그먼트들에 대한 기울기 중 입력 값이 속하는 세그먼트의 구간에 해당하는 프로그래머블 세그먼트에 대한 2 차항 기울기와 1 차항 기울기 및 오프셋을 출력하는, 신경 프로세싱 유닛.
  11. 제 10 항에 있어서,
    상기 적어도 하나의 곱셈기는,
    입력 값에 상기 선택기에서 출력된 프로그래머블 세그먼트에 대한 2차항의 계수를 곱하는 제1 곱셈기;
    제1 곱셈기에서 출력된 출력 값과 입력 값을 곱하는 제2 곱셈기 및
    입력 값에 상기 선택기에서 출력된 프로그래머블 세그먼트에 대한 1차항의 계수를 곱하는 제3 곱셈기를 포함하는, 신경 프로세싱 유닛.
  12. 제 11 항에 있어서,
    상기 제2 곱셈기 및 상기 제3 곱셈기는 제1 인에이블 신호에 의해서 동작이 제어되는, 신경 프로세싱 유닛.
  13. 제 12 항에 있어서,
    상기 적어도 하나의 가산기는,
    상기 제2 곱셈기의 출력 값에 상기 제3 곱셈기의 출력 값을 더하는 제1 가산기;
    상기 제1 가산기의 출력 값에 상기 선택기에서 출력된 프로그래머블 세그먼트에 대한 오프셋을 더하는 제2 가산기를 포함하는, 신경 프로세싱 유닛.
  14. 제 13 항에 있어서,
    상기 제2 가산기는 제1 인에이블 신호에 의해서 동작이 제어되는, 신경 프로세싱 유닛.
  15. 제 4 항에 있어서,
    상기 프로그램된 활성화 함수 실행 유닛은 상기 적어도 하나의 가산기의 출력 값을 로그 연산하는 로그 연산기를 더 포함하는, 신경 프로세싱 유닛.
  16. 제 15 항에 있어서,
    상기 로그 연산기는 제2 인에이블 신호에 의해서 동작이 제어되는, 신경 프로세싱 유닛.
  17. 제 1 항에 있어서,
    프로그래머블 활성화 함수를 구성하는 복수의 프로그래머블 세그먼트들에 대한 기울기 및 오프셋 정보를 저장하는 프로그래머블 활성화 함수 라이브러리를 더 포함하는, 신경 프로세싱 유닛.
  18. 제 1 항에 있어서,
    상기 적어도 하나의 프로세싱 엘리먼트들은 멀티플렉서를 통해 프로그램된 활성화 함수 실행 유닛에 연결되는, 신경 프로세싱 유닛.
  19. 제 1 항에 있어서,
    활성화 함수를 상기 적어도 하나의 프로그램된 활성화 함수로 프로그램하는 활성화 함수 변환 프로그램 유닛을 더 포함하는, 신경 프로세싱 유닛.
  20. 제 19 항에 있어서,
    상기 활성화 함수 변환 프로그램 유닛은,
    기울기 변화 데이터에 따라, 상기 적어도 하나의 프로그램된 활성화 함수의 선형 구간 및 비선형 구간을 우선적으로 결정하는, 신경 프로세싱 유닛.
  21. 제 20 항에 있어서,
    상기 활성화 함수 변환 프로그램 유닛은,
    기울기 변화 데이터 중 2차 미분값이 임계값보다 낮은 구간을 상기 선형 구간으로 결정하는, 신경 프로세싱 유닛.
  22. 제 20 항에 있어서,
    상기 활성화 함수 변환 프로그램 유닛은,
    기울기 변화 데이터 중 2차 미분값이 임계값보다 높은 구간을 상기 비선형 구간으로 결정하는, 신경 프로세싱 유닛.
  23. 제 22 항에 있어서,
    상기 활성화 함수 변환 프로그램 유닛은,
    상기 2차 미분값의 적분 값에 기초하여, 상기 비선형 구간을 복수개로 분리시키는, 신경 프로세싱 유닛.
  24. 제 19 항에 있어서,
    상기 활성화 함수 변환 프로그램 유닛은,
    상기 적어도 하나의 프로그램된 활성화 함수의 선형 구간을 1차 함수로 근사된 프로그래머블 세그먼트로 변환시키는, 신경 프로세싱 유닛.
  25. 제 19 항에 있어서,
    상기 활성화 함수 변환 프로그램 유닛은,
    상기 적어도 하나의 프로그램된 활성화 함수의 비선형 구간을 2차 함수로 근사된 프로그래머블 세그먼트로 변환시키는, 신경 프로세싱 유닛.
  26. 제 19 항에 있어서,
    상기 활성화 함수 변환 프로그램 유닛은,
    상기 적어도 하나의 프로그램된 활성화 함수의 비선형 구간을 로그 함수로 근사된 프로그래머블 세그먼트로 변환시키는, 신경 프로세싱 유닛.
PCT/KR2022/019376 2021-12-01 2022-12-01 프로그램된 활성화 함수 실행 유닛을 포함하는 신경 프로세싱 유닛 WO2023101472A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202280047322.4A CN117677958A (zh) 2021-12-01 2022-12-01 包括编程激活函数执行单元的神经处理单元

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20210170040 2021-12-01
KR10-2021-0170040 2021-12-01
KR10-2022-0165012 2022-11-30
KR1020220165012A KR102651560B1 (ko) 2021-12-01 2022-11-30 프로그램된 활성화 함수 실행 유닛을 포함하는 신경 프로세싱 유닛

Publications (1)

Publication Number Publication Date
WO2023101472A1 true WO2023101472A1 (ko) 2023-06-08

Family

ID=86612780

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/019376 WO2023101472A1 (ko) 2021-12-01 2022-12-01 프로그램된 활성화 함수 실행 유닛을 포함하는 신경 프로세싱 유닛

Country Status (2)

Country Link
KR (1) KR20240041307A (ko)
WO (1) WO2023101472A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5242068B2 (ja) * 2007-03-23 2013-07-24 古河電気工業株式会社 GaN系半導体デバイスおよびその製造方法
JP2016218513A (ja) * 2015-05-14 2016-12-22 国立研究開発法人情報通信研究機構 ニューラルネットワーク及びそのためのコンピュータプログラム
KR20170106338A (ko) * 2015-01-22 2017-09-20 퀄컴 인코포레이티드 모델 압축 및 미세-튜닝
KR20180062910A (ko) * 2016-12-01 2018-06-11 비아 얼라이언스 세미컨덕터 씨오., 엘티디. 신경 메모리 및 신경 메모리로부터 수신된 데이터의 행의 멀티-워드 거리의 회전을 집단적으로 수행하는 신경 처리 유닛들의 어레이를 갖는 신경망 유닛
KR20200002607A (ko) * 2018-06-29 2020-01-08 인텔 아이피 코포레이션 구분적 선형 근사를 이용한 심층 뉴럴 네트워크 아키텍처

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5242068B2 (ja) * 2007-03-23 2013-07-24 古河電気工業株式会社 GaN系半導体デバイスおよびその製造方法
KR20170106338A (ko) * 2015-01-22 2017-09-20 퀄컴 인코포레이티드 모델 압축 및 미세-튜닝
JP2016218513A (ja) * 2015-05-14 2016-12-22 国立研究開発法人情報通信研究機構 ニューラルネットワーク及びそのためのコンピュータプログラム
KR20180062910A (ko) * 2016-12-01 2018-06-11 비아 얼라이언스 세미컨덕터 씨오., 엘티디. 신경 메모리 및 신경 메모리로부터 수신된 데이터의 행의 멀티-워드 거리의 회전을 집단적으로 수행하는 신경 처리 유닛들의 어레이를 갖는 신경망 유닛
KR20200002607A (ko) * 2018-06-29 2020-01-08 인텔 아이피 코포레이션 구분적 선형 근사를 이용한 심층 뉴럴 네트워크 아키텍처

Also Published As

Publication number Publication date
KR20240041307A (ko) 2024-03-29

Similar Documents

Publication Publication Date Title
WO2020197241A1 (en) Device and method for compressing machine learning model
WO2020050499A1 (ko) 객체 정보 획득 방법 및 이를 수행하는 장치
WO2022154471A1 (en) Image processing method, image processing apparatus, electronic device and computer-readable storage medium
WO2013115431A1 (ko) 신경망 컴퓨팅 장치 및 시스템과 그 방법
WO2020222539A1 (en) Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same
EP2272181A2 (en) Multiple antenna communication system including adaptive updating and changing of codebooks
WO2022071727A1 (en) Method for sharing spectrum resources, apparatus, electronic device and storage medium
WO2023153818A1 (en) Method of providing neural network model and electronic apparatus for performing the same
WO2017217656A1 (ko) 동영상 압축방법, 장치 및 이에 대한 컴퓨터 프로그램
WO2020242260A1 (ko) 전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치
WO2021162481A1 (en) Electronic device and control method thereof
WO2015183050A1 (ko) 옵티컬 트래킹 시스템 및 옵티컬 트래킹 시스템의 마커부 자세 및 위치 산출방법
WO2019172685A1 (en) Electronic apparatus and control method thereof
WO2022154457A1 (en) Action localization method, device, electronic equipment, and computer-readable storage medium
WO2016064131A1 (ko) 데이터 처리 방법 및 장치
WO2023101472A1 (ko) 프로그램된 활성화 함수 실행 유닛을 포함하는 신경 프로세싱 유닛
WO2022092416A1 (ko) 인공신경망 데이터 지역성에 기초한 인공 신경망 메모리 시스템
WO2021086127A1 (en) Hub device, multi-device system including the hub device and plurality of devices, and operating method of the hub device and multi-device system
WO2023106723A1 (ko) 영상 융합을 위한 신경 프로세싱 유닛 및 인공신경망 시스템
WO2023043154A1 (ko) Ai를 이용하여 영상을 부호화 및 복호화하는 장치, 및 방법
WO2011002260A2 (en) Rotating reference codebook that is used in a multiple-input multiple-output (mimo) communication system
WO2021066504A1 (ko) 심층 신경망 구조 학습 및 경량화 방법
WO2024010437A1 (ko) 신경 프로세싱 유닛 및 이의 동작 방법
WO2024096381A1 (ko) 신경망 및 액티베이션의 파티션 및 시뮬레이션 방법 및 이를 위한 컴퓨팅 장치
WO2024076163A1 (ko) 신경망 연산방법과 이를 위한 npu 및 컴퓨팅 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22901830

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202280047322.4

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE