WO2023106723A1 - 영상 융합을 위한 신경 프로세싱 유닛 및 인공신경망 시스템 - Google Patents
영상 융합을 위한 신경 프로세싱 유닛 및 인공신경망 시스템 Download PDFInfo
- Publication number
- WO2023106723A1 WO2023106723A1 PCT/KR2022/019243 KR2022019243W WO2023106723A1 WO 2023106723 A1 WO2023106723 A1 WO 2023106723A1 KR 2022019243 W KR2022019243 W KR 2022019243W WO 2023106723 A1 WO2023106723 A1 WO 2023106723A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- neural network
- artificial neural
- network model
- fusion
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 355
- 230000004927 fusion Effects 0.000 title claims abstract description 197
- 238000012545 processing Methods 0.000 title claims abstract description 190
- 230000001537 neural effect Effects 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000008569 process Effects 0.000 claims abstract description 41
- 230000015654 memory Effects 0.000 claims description 151
- 230000006870 function Effects 0.000 claims description 64
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 43
- 238000004364 calculation method Methods 0.000 description 15
- 101710118890 Photosystem II reaction center protein Ycf12 Proteins 0.000 description 12
- 238000013139 quantization Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 241001442055 Vipera berus Species 0.000 description 4
- 230000004297 night vision Effects 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000020169 heat generation Effects 0.000 description 2
- 238000003331 infrared imaging Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000001931 thermography Methods 0.000 description 2
- 208000012661 Dyskinesia Diseases 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- ORQBXQOJMQIAOY-UHFFFAOYSA-N nobelium Chemical compound [No] ORQBXQOJMQIAOY-UHFFFAOYSA-N 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 210000000857 visual cortex Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
- G06N3/065—Analogue means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
- G06F15/7807—System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
- G06F15/7821—Tightly coupled to memory, e.g. computational memory, smart memory, processor in memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/10—Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths
- H04N23/11—Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths for generating image signals from visible and infrared light wavelengths
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/50—Constructional details
- H04N23/54—Mounting of pick-up tubes, electronic image sensors, deviation or focusing coils
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/95—Computational photography systems, e.g. light-field imaging systems
- H04N23/951—Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/28—Indexing scheme for image data processing or generation, in general involving image processing hardware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Definitions
- the present disclosure relates to a neural processing unit and an artificial neural network system for image fusion.
- a thermal image sensor provides a thermal image (thermal image) by collecting radiant energy emitted from an object and visualizing it even without an externally supplied light source during photographing.
- NIR near-infrared
- SWIR short-wave infrared
- MWIR medium-wave infrared
- LWIR long-wave infrared
- the quality of thermal images is very important in object recognition technology at night.
- the price of the thermal image sensor varies greatly depending on the resolution, the high-resolution infrared image sensor is economically burdensome.
- SR super-resolution
- a Neural Processing Unit and an artificial neural network system including the same are created to generate an image in which two features are fused based on images obtained from heterogeneous image sensors, but to minimize the amount of computation. It is required.
- the inventors of the present disclosure have proposed a neural processing unit and an artificial neural network capable of effectively processing an artificial neural network model for generating an image satisfying a higher resolution by combining images having different resolutions and image characteristics for one object. I was trying to develop a system.
- the inventors of the present disclosure performed a concatenation operation and a skip-connection operation capable of effectively processing different data, and a neural processing unit and an artificial neural network system capable of quickly generating high-resolution images. has come to develop
- a neural processing unit for an image fusion artificial neural network model inputs a first image and a second image having different resolutions and image characteristics, and uses machine code of the image fusion artificial neural network model learned to output a new third image.
- a controller configured to receive an input; an input circuit configured to receive a plurality of input signals corresponding to the image fusion artificial neural network model; a processing element array configured to perform a main operation of the image fusion artificial neural network model; a special function unit circuit configured to perform a special function operation of the image fusion artificial neural network model operation; and an on-chip memory configured to store data of the main operation and/or the special function operation of the image fusion artificial neural network model.
- a third resolution of the third image has a value between a first resolution of the first image and a second resolution of the second image;
- the third image characteristic of the 3 images may be at least partially the same as the first image characteristic of the first image or the second image characteristic of the second image.
- a system for an image fusion artificial neural network model may include: a first sensor for acquiring a first image having a first resolution and a first image characteristic; a second sensor configured to acquire a second image having a second resolution smaller than the first resolution and a second image characteristic different from the first image characteristic; and a neural processing unit configured to process an image convergence artificial neural network model trained to output a new third image by inputting the first image and the second image having different resolutions and image characteristics; wherein the third resolution of the third image has a value between the first resolution of the first image and the second resolution of the second image, and the third image characteristic of the third image comprises: The first image characteristic of 1 image or the second image characteristic of the second image may be at least partially the same.
- the present disclosure can generate a high-resolution thermal image through an artificial neural network model.
- the present disclosure can prevent the problem of personal information exposure by generating and storing only high-resolution thermal images in a device for photographing an unspecified number of people, such as a surveillance camera.
- the present disclosure can protect personal information by converging thermal images only in the face region of a person.
- a high-resolution thermal image may be generated by using a high-resolution general visible light image sensor and a low-resolution thermal image sensor built into a general device, not a specialized device. Accordingly, the present disclosure can generate a high-resolution thermal image at low cost. In addition, the present disclosure can improve the night vision of an image not in a device designed for night vision, but in a device owned by a user or a black box of a vehicle, for example.
- the neural processing unit of the present disclosure may be installed in a vehicle to prevent a vehicle safety accident.
- a user's motion may be estimated (skeleton detection or pose estimation) using a high-resolution thermal image.
- the present disclosure may estimate a user's abnormal movement or a user's fall through a device installed in a specific space.
- a neural processing unit for implementing an image convergence artificial neural network model that generates a new image based on images obtained from heterogeneous image sensors can be controlled to operate more efficiently.
- the present disclosure can reduce power consumption even when processing a huge amount of data. Accordingly, the present disclosure can implement an image convergence artificial neural network model in various devices without being limited by battery capacity.
- the present disclosure can effectively process heterogeneous sensing data through a concatenation operation and a skip-connection operation. Therefore, according to the present disclosure, a high-resolution thermal image can be quickly generated while reducing the amount of computation.
- data stored in an on-chip memory can be maximally reused to minimize power consumption while obtaining data necessary for fusing high-resolution images from an external memory.
- 1 and 2 are schematic conceptual diagrams illustrating an image convergence artificial neural network model according to an example of the present disclosure.
- 3 and 4 are schematic conceptual views illustrating an image generated through an image convergence artificial neural network model according to an example of the present disclosure.
- FIG. 5 is a schematic conceptual diagram illustrating a neural processing unit according to an example of the present disclosure.
- FIG. 6 is a schematic conceptual diagram illustrating one processing element of the array of processing elements shown in FIG. 5 .
- FIG. 7 is a conceptual diagram illustrating a modified example of the neural processing unit shown in FIG. 5 .
- FIG. 8 is a conceptual diagram illustrating an image convergence artificial neural network model according to an example of the present disclosure.
- FIG. 9 is a diagram for explaining a partial structure of a GAN neural network constituting an image convergence artificial neural network model according to an example of the present disclosure.
- FIG. 10 is a diagram for explaining input data of the convolution layer shown in FIG. 9 and a kernel used for a convolution operation.
- FIG. 11 is a diagram for explaining the operation of a convolutional neural network that generates a feature map using the kernel shown in FIG. 10 .
- FIG. 12 is a conceptual diagram illustrating an image convergence artificial neural network model according to an example of the present disclosure by way of example.
- FIG. 13 is an exemplary diagram illustrating a fusion method of an NPU according to an example of the present disclosure.
- FIG. 14 is a conceptual diagram illustrating a system including an NPU architecture according to a first example of the present disclosure by way of example.
- 15A is an exemplary diagram for explaining skip-connection included in the image convergence artificial neural network model according to the first example of the present disclosure.
- FIG. 15B is an exemplary diagram illustrating locality information of artificial neural network data of the image convergence artificial neural network model shown in FIG. 15A.
- 16 is a conceptual diagram illustrating a system including an NPU architecture according to a second example of the present disclosure by way of example.
- 17 is a conceptual diagram illustrating a system including an NPU architecture according to a third example of the present disclosure by way of example.
- FIG. 18 is a conceptual diagram illustrating a system including an NPU architecture according to a fourth example of the present disclosure by way of example.
- FIG. 19 shows an example in which the image convergence artificial neural network model shown in FIG. 12 is divided into threads according to the fourth example shown in FIG. 18 .
- 20 is a conceptual diagram illustrating a system including an NPU architecture according to a fifth example of the present disclosure by way of example.
- FIG. 21 is an exemplary view showing a first example of a pipeline structure of the SFU shown in FIG. 20 .
- 22a is an exemplary diagram illustrating an example of the SFU shown in FIG. 20;
- 22b is an exemplary diagram illustrating another example of the SFU shown in FIG. 20;
- FIG. 23 is a conceptual diagram illustrating a system including an NPU architecture according to a sixth example of the present disclosure by way of example.
- FIG. 24 is an exemplary diagram illustrating an example of utilizing a plurality of NPUs according to a seventh example of the present disclosure.
- FIG. 25 is an exemplary diagram illustrating an example of processing the fusion artificial neural network shown in FIG. 12 through a plurality of NPUs shown in FIG. 24 .
- expressions such as “has,” “can have,” “includes,” or “can include” indicate the presence of a corresponding feature (eg, numerical value, function, operation, or component such as a part). , which does not preclude the existence of additional features.
- expressions such as “A or B,” “at least one of A and/and B,” or “one or more of A or/and B” may include all possible combinations of the items listed together.
- first,” “second,” “first,” or “second,” as used in the present disclosure may modify various components regardless of order and/or importance, and refer to one component as It is used only to distinguish it from other components and does not limit the corresponding components.
- a first user device and a second user device may represent different user devices regardless of order or importance.
- a first component may be named a second component without departing from the scope of rights described in the present disclosure, and similarly, the second component may also be renamed to the first component.
- a component e.g., a first component
- another component e.g., a second component
- the certain component may be directly connected to the other component or connected through another component (eg, a third component).
- an element e.g, a first element
- another element e.g., a second element
- the element and the above It may be understood that other components (eg, third components) do not exist between the other components.
- the expression “configured to (or configured to)” as used in this disclosure means, depending on the situation, for example, “suitable for,” “having the capacity to.” ,” “designed to,” “adapted to,” “made to,” or “capable of.”
- the term “configured (or set) to” may not necessarily mean only “specifically designed to” hardware.
- the phrase “device configured to” may mean that the device is “capable of” in conjunction with other devices or components.
- the phrase “a processor configured (or configured) to perform A, B, and C” may include a dedicated processor (e.g., embedded processor) to perform those operations, or by executing one or more software programs stored in a memory device.
- a general-purpose processor eg, CPU or application processor
- Each feature of the various examples of the present disclosure may be partially or wholly combined or combined with each other.
- Each feature of the various examples of the present disclosure can be technically variously interlocked and driven as can be fully understood by those skilled in the art, and each example may be implemented independently of each other or together in an association relationship.
- NPU is an abbreviation of Neural Processing Unit, and may mean a specialized processor for computation of an artificial neural network model, separate from a central processing unit (CPU).
- CPU central processing unit
- ANN is an abbreviation of artificial neural network.
- neurons in the human brain are connected through synapses, and nodes are layered. It can mean a network connected by a structure.
- the artificial neural network model is a model for image convergence and may be a model trained to perform inference such as Image/Video Reconstruction and Image/Video Enhancement.
- artificial neural network models include Transformer, Bisenet, Shelfnet, Alexnet, Densenet, Efficientnet, EfficientDet, Googlenet, Mnasnet, Mobilenet, Resnet, Shufflenet, Squeezenet, VGG, Yolo, RNN, CNN, DBN, RBM, LSTM, etc.
- the present disclosure is not limited thereto, and may be a new artificial neural network model other than those operable in the NPU 100.
- Information on the structure of an artificial neural network includes information on the number of layers, the number of nodes in a layer, the value of each node, information on the calculation method, and information on the weight matrix applied to each node.
- the information on the data locality of the image fusion artificial neural network model is information including an order of data access requests to the memory determined based on the artificial neural network and the structure of a neural processing unit processing the artificial neural network.
- DNN is an abbreviation of deep neural network, and may mean that the number of hidden layers of an artificial neural network is increased in order to implement higher artificial intelligence.
- CNN is an abbreviation of Convolutional Neural Network, which is a neural network that functions similarly to image processing in the visual cortex of the human brain.
- Convolutional neural networks are known to be suitable for image processing, and are known to be easy to extract features of input data and identify patterns of features.
- a kernel may mean a weight matrix applied to CNN.
- the off-chip memory may be a memory arranged in consideration of a limited memory size inside the NPU. That is, a memory may be disposed outside the chip to store large-capacity data.
- the off-chip memory may include one of memories such as ROM, SRAM, DRAM, resistive RAM, magneto-resistive RAM, phase-change RAM, ferroelectric RAM, flash memory, HBM, and the like.
- the off-chip memory may consist of at least one memory unit.
- the off-chip memory may consist of a single (homogeneous) memory unit or a heterogeneous (heterogeneous) memory unit.
- the NPU may include on-chip memory.
- On-chip memory may include volatile memory and/or non-volatile memory.
- the on-chip memory may include one of memories such as ROM, SRAM, DRAM, resistive RAM, magneto-resistive RAM, phase-change RAM, ferroelectric RAM, flash memory, HBM, and the like.
- the on-chip memory may consist of at least one memory unit.
- the on-chip memory may be composed of a single (homogeneous) memory unit or a heterogeneous (heterogeneous) memory unit.
- 1 and 2 are schematic conceptual diagrams illustrating an image convergence artificial neural network model according to an example of the present disclosure.
- a neural processing unit 100 includes a processing element 102 configured to perform an operation of an image fusion artificial neural network model 101 .
- the neural processing unit 100 may generate a new image (third image) based on the two images (first image and second image).
- the first image and the second image are different images of one object, and may be obtained from different types of sensors.
- the heterogeneous sensor may be an image sensor for capturing visible light, an image sensor for capturing infrared light, and the like.
- An image sensor for capturing visible light acquires a color image (first image) in the visible light region through R (Red), G (Green), and B (Blue) pixels.
- the image sensor for infrared imaging may acquire a thermal color map (second image) through pixels.
- an infrared image sensor detects energy having a wavelength greater than that of visible light, the number of pixels, that is, the resolution, is inevitably low even if the sensor has the same size.
- the neural processing unit 100 may be a model learned to output a new third image by inputting the first image and the second image having different resolutions and image characteristics.
- the third resolution of the third image may have a value between the first resolution of the first image and the second resolution of the second image.
- the third resolution of the third image may be the same as the first resolution of the first image.
- the third image characteristic of the third image may be at least partially the same as the image characteristic of the first image or the second image characteristic of the second image.
- the third resolution of the third image is 1024 x 786 can That is, the resolution of the third image is the same as the size and the first resolution of the first image, and a thermal image corresponding to the second image characteristic may be applied to the third image characteristic.
- the neural processing unit 100 may use different input data from the image fusion artificial neural network model 101 .
- the processing speed of the neural processing unit 100 may increase.
- the image convergence artificial neural network model 101 takes only the brightness value of each pixel of the first image as an input, and generates a third image identical to that of the color image as an input, while reducing the processing speed of the neural processing unit 100 can make it
- the image convergence artificial neural network model 101 may be a model configured to input only RGB values (3 channels) of the first image or brightness values (1 channel) for each pixel of the first image.
- the weight parameters of the image convergence artificial neural network model 101 capable of generating a new image by combining characteristics of different images may be learned based on a generative adversarial networks (GAN) structure.
- the GAN structure is composed of a generator that generates virtual or real images and a discriminator that determines whether the image generated by the generator is authentic or not.
- a GAN can be a model in which generators and verifiers compete against each other to improve each other's performance. Specifically, the generator provides real data to the verifier so that the verifier learns to determine the video as real, and secondly inputs the fake data generated by the generator so that the verifier can fake the video. can be learned to discriminate with Then, the generator can then develop to create a harmonious image according to competition with each other by learning to create a virtual image to deceive the verifier.
- the image convergence artificial neural network model 101 may be a model configured such that generators and verifiers constituting the GAN compete with each other to update weights for increasing the third resolution of the third image.
- image generation learning through a generator may be performed in a separate device/server (not shown).
- the image convergence artificial neural network model 101 calculated by the neural processing unit 100 takes different images of one object (eg, 1. high-resolution visible light image, 2. low-resolution thermal image) as inputs to create a new image (eg high-resolution thermal image) may correspond to a generator configured to generate.
- the image fusion artificial neural network model 101 may be learned based on a set of learning data substantially similar to the first image and the second image. That is, an image used for learning may be different from an image received to generate a new image thereafter.
- 3 and 4 are schematic conceptual views illustrating an image generated through an image convergence artificial neural network model according to an example of the present disclosure.
- the image fusion artificial neural network model may take as input images acquired from different types of sensors.
- the heterogeneous sensor may be an image sensor for capturing visible light, an image sensor for capturing infrared light, and the like.
- the image convergence artificial neural network model may take as inputs a first image and a second image obtained by different image sensors for one object.
- the image convergence artificial neural network model may generate an image in which image characteristics of each image sensor are fused based on images acquired from different types of image sensors. That is, the image convergence artificial neural network model can generate a third image in which temperature information (second image characteristics) of the second image is reflected while maintaining the size and resolution of the first image.
- the image fusion artificial neural network model may be a model to which weights are applied to emphasize at least one feature determinable from the first image and at least one feature determinable from the second image.
- the neural processing unit 100 may generate features of the first image and the second image.
- the neural processing unit 100 may generate a feature map by inferring features of high-resolution edge content from a first image, which is a color image.
- a feature map may be referred to as a heat map, an activation map, or a parameter.
- the neural processing unit 100 may generate a feature map by inferring segmentation according to temperature in the second image, which is a thermal image. Subsequently, image fusion of the high-resolution thermal image may be processed based on the high-resolution edge feature map and the low-resolution temperature segmentation feature map.
- the neural processing unit 100 may further detect the presence of an object as a feature of the first image, and may determine a region having a temperature greater than or equal to a threshold value as a feature of the second image. Accordingly, the image convergence artificial neural network model may generate a new image by applying weights to determinable features in each image. For example, as shown in FIG. 4 , the neural processing unit 100 may detect an object (human) in the first image and thermally image only a region having a specific temperature or higher within the region where the object is detected. That is, the neural processing unit 100 may generate a third image to which at least one feature that can be determined from the second image is applied to at least a partial region of the first image.
- the processing element array of the neural processing unit 100 may be configured to process at least one operation among dilated convolution, transposed convolution, and bilinear interpolation operations. .
- the neural processing unit 100 may extract a first partial image and a second partial image corresponding to the face region from the first image and the second image obtained by capturing one object. Accordingly, the neural processing unit 100 may generate a fused image of image features only on the face using an artificial neural network unit configured to input only the first partial image and the second partial image.
- the neural processing unit 100 fusion-generates an image in which different image characteristics are applied only to the human face region, thereby protecting personal information.
- the neural processing unit 100 that performs an operation of an image convergence artificial neural network model will be described.
- FIG. 5 is a schematic conceptual diagram illustrating a neural processing unit according to an example of the present disclosure.
- NPU 100 is a processor specialized to perform an operation for an image convergence artificial neural network model.
- An artificial neural network refers to a network of artificial neurons that multiply and add weights when various inputs or stimuli come in, and transform and transmit the value obtained by adding additional deviations through an activation function.
- the artificial neural network trained in this way can be used to output an inference result from input data.
- the NPU 100 may be a semiconductor implemented as an electric/electronic circuit.
- An electric/electronic circuit may mean including a number of electronic devices (eg, transistors and capacitors).
- the NPU 100 may include a processing element (PE) ray 110, an NPU internal memory 120, an NPU scheduler 130, and an NPU interface 140.
- PE processing element
- Each of the processing element array 110 , NPU internal memory 120 , NPU scheduler 130 , and NPU interface 140 may be a semiconductor circuit to which numerous transistors are connected. Accordingly, some of them may be difficult to discern and distinguish with the naked eye, and may only be identified by motion.
- an arbitrary circuit may operate as the processing element array 110 or as the NPU scheduler 130 .
- the NPU scheduler 130 may be configured to perform a function of a control unit configured to control an artificial neural network inference operation of the NPU 100 .
- NPU scheduler 130 may be part of the control unit.
- the NPU scheduler 130 may also be referred to as a control unit.
- the control unit may include the NPU scheduler 130.
- the controller may be a common name for circuits that perform various control functions of the NPU 100, such as direct memory access (DMA). It is also possible that the controller is defined by the function of the circuit.
- a circuit for controlling the processing element array 110 according to the order of each operation step of the artificial neural network model based on the locality of the artificial neural network data of the artificial neural network model by the controller may be defined as the NPU scheduler 130.
- the NPU 100 includes a processing element array 110, an NPU internal memory 120 configured to store an image fusion artificial neural network model that can be inferred from the processing element array 110, and artificial neural network data locality of the image fusion artificial neural network model. It may include an NPU scheduler 130 configured to control the processing element array 110 and the NPU internal memory 120 based on information or structure information.
- the NPU internal memory 120 may store information on locality or structure of artificial neural network data of an image convergence artificial neural network model. That is, the image convergence artificial neural network model may refer to an AI recognition model learned to perform a specific reasoning function (eg, image convergence, object movement, object posture, motion tracking, etc.).
- the processing element array 110 may perform operations for an artificial neural network.
- the NPU interface 140 may communicate with various components, such as memory, connected to the NPU 100 through a system bus (eg, one or more communication buses or signal lines).
- a system bus eg, one or more communication buses or signal lines.
- the NPU scheduler 130 is configured to control an operation of the processing element array 100 for an inference operation of the neural processing unit 100 and a reading and writing order of the NPU internal memory 120 .
- the NPU scheduler 130 may be configured to control the processing element array 100 and the NPU internal memory 120 based on locality information or structure information of artificial neural network data of an image convergence artificial neural network model.
- the NPU scheduler 130 may analyze the structure of the image fusion artificial neural network model to be operated in the processing element array 100 or may receive previously analyzed information.
- the analyzed information may be included in machine code.
- artificial neural network data that can be included in an image convergence artificial neural network model include node data (i.e., feature map) of each layer, arrangement data of layers, locality information or structure information, and node data of each layer. It may include at least some of the weight data (ie, weight kernel) of each network connecting the .
- Data of the artificial neural network may be stored in memory provided inside the NPU scheduler 130 or in the NPU internal memory 120 .
- NPU scheduler 130 may be operated by machine code.
- the NPU scheduler 130 may schedule an operation order of the image fusion artificial neural network model to be performed by the NPU 100 based on artificial neural network data locality information or structure information of the image fusion artificial neural network model.
- Machine code may include scheduling data.
- NPU scheduler 130 may operate according to scheduling included in machine code. That is, the NPU scheduler 130 may be configured to operate by machine code.
- the NPU scheduler 130 may obtain memory address values at which feature maps and weight data of layers of the image fusion artificial neural network model are stored based on locality information or structure information of artificial neural network data of the image fusion artificial neural network model. For example, the NPU scheduler 130 may obtain a memory address value at which a feature map and weight data of a layer of an image convergence artificial neural network model stored in a memory are stored. Accordingly, the NPU scheduler 130 may retrieve feature maps and weight data of layers of an image convergence artificial neural network model to be driven from the memory 200 and store them in the NPU internal memory 120 .
- a feature map of each layer may have a corresponding memory address value.
- Each weight data may have a corresponding memory address value of the NPU internal memory 120 .
- the NPU scheduler 130 is based on locality information or structure information of the artificial neural network data of the image convergence artificial neural network model, for example, arrangement data locality information or structure information of the layers of the artificial neural network of the image convergence artificial neural network model.
- the order of operations of the processing element array 110 may be scheduled.
- the NPU scheduler 130 Since the NPU scheduler 130 performs scheduling based on locality information or structure information of artificial neural network data of an image convergence artificial neural network model, it may operate differently from a general CPU scheduling concept.
- General CPU scheduling takes into account fairness, efficiency, stability, response time, etc., and operates to achieve the best efficiency. That is, it is scheduled to perform the most processing within the same time considering priority, operation time, and the like.
- a conventional CPU uses an algorithm for scheduling tasks in consideration of data such as the priority order of each processing and operation processing time.
- the NPU scheduler 130 may control the NPU 100 in the processing order of the NPU 100 determined based on information on the locality or structure of the artificial neural network data of the image convergence artificial neural network model.
- the NPU scheduler 130 determines based on the information on the artificial neural network data locality information or structure of the image fusion artificial neural network model and / or the information on the data locality information or structure of the neural processing unit 100 to be used.
- the NPU 100 may be driven in the processing order.
- the present disclosure is not limited to data locality information or structure information of the NPU 100 .
- the NPU scheduler 130 may be configured to store data locality information or structure information of an artificial neural network.
- the NPU scheduler 130 may determine the processing order even when at least using only the locality information or structure information of the artificial neural network data of the image convergence artificial neural network model.
- the NPU scheduler 130 determines the processing order of the NPU 100 in consideration of the artificial neural network data locality information or structure information of the image convergence artificial neural network model and the data locality information or structure information of the NPU 100. can decide In addition, processing optimization of the NPU 100 may be performed according to the determined processing order.
- the processing element array 110 means a configuration in which a plurality of processing elements PE1 to PE12 configured to calculate feature maps and weight data of an artificial neural network are disposed.
- Each processing element may include a multiply and accumulate (MAC) operator and/or an arithmetic logic unit (ALU) operator.
- MAC multiply and accumulate
- ALU arithmetic logic unit
- processing element array 110 may also be referred to as at least one processing element including a plurality of operators.
- the processing element array 110 is configured to include a plurality of processing elements PE1 to PE12.
- the plurality of processing elements PE1 to PE12 shown in FIG. 3 are merely examples for convenience of explanation, and the number of the plurality of processing elements PE1 to PE12 is not limited.
- the size or number of the processing element array 110 may be determined by the number of the plurality of processing elements PE1 to PE12 .
- the size of the processing element array 110 may be implemented in the form of an N x M matrix. where N and M are integers greater than zero.
- Processing element array 110 may include N x M processing elements. That is, there may be one or more processing elements.
- the size of the processing element array 110 may be designed in consideration of the characteristics of an image convergence artificial neural network model in which the NPU 100 operates. Accordingly, a utilization rate % of the processing element array 110 may be improved.
- the processing element array 110 is configured to perform functions such as addition, multiplication, and accumulation required for artificial neural network operations. Stated differently, the processing element array 110 may be configured to perform multiplication and accumulation (MAC) operations.
- MAC multiplication and accumulation
- the processing element array 110 may be configured to quantize and output MAC operation results.
- examples of the present disclosure are not limited thereto.
- the NPU internal memory 120 may store all or part of the image fusion artificial neural network model according to the memory size and the data size of the image fusion artificial neural network model.
- the first processing element PE1 of the processing element array 110 will be described as an example.
- FIG. 6 is a schematic conceptual diagram illustrating one processing element of the array of processing elements shown in FIG. 5 .
- the first processing element PE1 may include a multiplier 111 , an adder 112 , an accumulator 113 , and a bit quantization unit 114 .
- the processing element array 110 may be modified in consideration of the computational characteristics of an artificial neural network.
- the multiplier 111 multiplies the received (N) bit data and (M) bit data.
- the operation value of the multiplier 111 is output as (N+M) bit data.
- the multiplier 111 may be configured to receive input of one variable and one constant.
- the accumulator 113 accumulates the operation value of the multiplier 111 and the operation value of the accumulator 113 by using the adder 112 as many times as the number of (L) loops. Accordingly, the bit width of the data of the output unit of the accumulator 113 and the input circuit may be output as (N+M+log2(L)) bits. where L is an integer greater than zero.
- the accumulator 113 may receive an initialization reset to initialize data stored in the accumulator 113 to 0.
- examples according to the present disclosure are not limited thereto.
- the bit quantization unit 114 may reduce the bit width of data output from the accumulator 113 .
- the bit quantization unit 114 may be controlled by the NPU scheduler 130.
- the bit width of the quantized data may be output as (X) bits. where X is an integer greater than zero.
- the processing element array 110 is configured to perform a MAC operation, and the processing element array 110 has an effect of quantizing and outputting a result of the MAC operation.
- such quantization has an effect of further reducing power consumption as (L) loops increase.
- power consumption is reduced, there is an effect of reducing heat generation.
- reducing heat generation has an effect of reducing the possibility of malfunction due to high temperature of the NPU 100 .
- the output data (X) bits of the bit quantization unit 114 may be node data of the next layer or input data of convolution. If the image fusion artificial neural network model is quantized, the bit quantization unit 114 may be configured to receive quantized feature maps and/or weights from the image fusion artificial neural network model. However, it is not limited thereto, and the NPU scheduler 130 may also be configured to extract quantized information by analyzing the image convergence artificial neural network model. Therefore, to correspond to the size of the quantized data, the output data (X) bits may be converted into a quantized bit width and then output. The output data (X) bits of the bit quantization unit 114 may be stored in the NPU internal memory 120 with a quantized bit width.
- the processing element array 110 of the NPU 100 may include a multiplier 111, an adder 112, an accumulator 113, and a bit quantization unit 114.
- FIG. 7 is a conceptual diagram illustrating a modified example of the neural processing unit shown in FIG. 5 .
- the element array 110 further includes, in addition to the plurality of processing elements PE1 to PE12, respective register files RF1 to RF12 corresponding to each of the processing elements PE1 to PE12. can do.
- the plurality of processing elements PE1 to PE12 and the plurality of register files RF1 to RF12 shown in FIG. 7 are merely examples for convenience of description, and the plurality of processing elements PE1 to PE12 and the plurality of register files RF1 to RF12
- the number of register files (RF1 to RF12) of is not limited.
- the size or number of the processing element array 110 may be determined by the number of the plurality of processing elements PE1 to PE12 and the plurality of register files RF1 to RF12.
- the size of the processing element array 110 and the plurality of register files RF1 to RF12 may be implemented in the form of an NxM matrix. where N and M are integers greater than zero.
- the array size of the processing element array 110 may be designed in consideration of the characteristics of an image convergence artificial neural network model in which the NPU 100 operates.
- the memory size of the register file may be determined in consideration of the data size of the image convergence artificial neural network model to operate, the required operation speed, and the required power consumption.
- the register files RF1 to RF12 of the NPU 100 are static memory units directly connected to the processing elements PE1 to PE12.
- the register files RF1 to RF12 may be composed of, for example, flip-flops and/or latches.
- the register files RF1 to RF12 may be configured to store MAC operation values of corresponding processing elements PE1 to PE12.
- the register files RF1 to RF12 may be configured to provide or receive weight data and/or node data from the NPU internal memory 120 .
- the register files RF1 to RF12 may also be configured to perform the function of the temporary memory of the accumulator during MAC operation.
- power consumption may be reduced by temporarily storing the calculated feature map and then reusing the feature map in the next calculation.
- FIG. 8 is a conceptual diagram illustrating an image convergence artificial neural network model according to an example of the present disclosure.
- the image convergence artificial neural network model 110-10 of FIG. 8 may be an artificial neural network learned in the NPU 100 shown in FIG. 5 or 7 or learned in a separate machine learning device.
- the image convergence artificial neural network model 110 - 10 may be an artificial neural network trained to perform various inference functions such as motion and posture estimation of an object in an image.
- the image fusion artificial neural network model 110 - 10 may be a deep neural network (DNN). However, the image fusion artificial neural network model 110 - 10 according to examples of the present disclosure is not limited to a deep neural network.
- the image convergence artificial neural network model may be a model trained to perform inference such as Image/Video Reconstruction and Image/Video Enhancement.
- artificial neural network models that take fused images as input are Super-resolution, Upscaling, Image fusion, Object Classification, Object Detection, Object Segmentation, Object Tracking, Event Recognition, Event Prediction, Anomaly Detection, Density Estimation, Event Search, It may be a model trained to perform inference such as measurement.
- image fusion artificial neural network models include Transformer, Bisenet, Shelfnet, Alexnet, Densenet, Efficientnet, EfficientDet, Googlenet, Mnasnet, Mobilenet, Resnet, Shufflenet, Squeezenet, VGG, Yolo, RNN, CNN, DBN, RBM, LSTM, etc. can be a model of
- the present disclosure is not limited thereto, and may be a new artificial neural network model other than those operable in the NPU 100.
- the image fusion artificial neural network model 110 - 10 may be an ensemble model based on at least two different models.
- At least some of parameters such as weight values, node values, accumulated values, feature maps, and weights of each layer of the image convergence artificial neural network model 110-10 may be stored in the NPU internal memory 120 of the NPU 100. there is.
- the inference process by the image convergence artificial neural network model 110-10 may be performed by the NPU 100.
- the image fusion artificial neural network model 110-10 includes an input layer 110-11, a first connection network 110-12, a first hidden layer 110-13, a second connection network 110-14, and a second hidden layer.
- An exemplary deep neural network model including a layer 110-15, a third network 110-16, and an output layer 110-17.
- the present disclosure is not limited to the image fusion artificial neural network model shown in FIG. 8 .
- the first hidden layer 110-13 and the second hidden layer 110-15 may also be referred to as a plurality of hidden layers.
- the input layer 110 - 11 may illustratively include x1 and x2 input nodes. That is, the input layer 110-11 may include information on two input values.
- the NPU scheduler 130 shown in FIG. 5 or 7 sets the memory address where the information on the input value from the input layer 110-11 is stored in the NPU internal memory 120 shown in FIG. 5 or 7. can
- the first connection network 110-12 exemplarily provides information about six weight values for connecting each node of the input layer 110-11 to each node of the first hidden layer 110-13.
- the NPU scheduler 130 shown in FIG. 5 or 7 may set a memory address in which information about weight values of the first connection network 110-12 is stored in the NPU internal memory 120. Each weight value is multiplied with the input node value, and the accumulated value of the multiplied values is stored in the first hidden layer 110-13.
- nodes having accumulated values may be referred to as feature maps.
- the first hidden layer 110 - 13 may illustratively include nodes a1 , a2 , and a3 . That is, the first hidden layers 110-13 may include information about three node values.
- the NPU scheduler 130 shown in FIG. 5 or 7 may set a memory address for storing information about node values of the first hidden layers 110-13 in the NPU internal memory 120.
- the NPU scheduler 130 may be configured to schedule an operation order such that the first processing element PE1 performs the MAC operation of the a1 node of the first hidden layer 110 - 13 .
- the NPU scheduler 130 may be configured to schedule an operation sequence so that the second processing element PE2 performs the MAC operation of the a2 node of the first hidden layer 110 - 13 .
- the NPU scheduler 130 may be configured to schedule an operation sequence so that the third processing element PE3 performs the MAC operation of the a3 node of the first hidden layer 110 - 13 .
- the NPU scheduler 130 may pre-schedule an operation sequence such that three processing elements perform MAC operations in parallel and simultaneously.
- the scheduling information may be included in machine code. Accordingly, the NPU scheduler 130 may operate according to scheduling information included in machine code.
- the second network 110-14 is illustratively, for nine weight values for connecting each node of the first hidden layer 110-13 to each node of the second hidden layer 110-15 information may be included.
- the NPU scheduler 130 shown in FIG. 5 or 7 may set a memory address for storing information on the weight value of the second connection network 110-14 in the NPU internal memory 120.
- the weight value of the second network 110-14 is multiplied with the node value input from the first hidden layer 110-13, and the accumulated value of the multiplied values is applied to the second hidden layer 110-15. Saved.
- the second hidden layer 110 - 15 may illustratively include b1, b2, and b3 nodes. That is, the second hidden layers 110-15 may include information about three node values.
- the NPU scheduler 130 may set a memory address for storing information about node values of the second hidden layer 110-15 in the NPU internal memory 120.
- the NPU scheduler 130 may be configured to schedule an operation sequence so that the fourth processing element PE4 performs the MAC operation of the b1 node of the second hidden layer 110 - 15 .
- the NPU scheduler 130 may be configured to schedule an operation sequence so that the fifth processing element PE5 performs the MAC operation of the node b2 of the second hidden layer 110-15.
- the NPU scheduler 130 may be configured to schedule an operation sequence so that the sixth processing element PE6 performs the MAC operation of the b3 node of the second hidden layer 110 - 15 .
- the scheduling information may be included in machine code.
- the NPU scheduler 130 may pre-schedule an operation sequence such that three processing elements perform MAC operations in parallel and simultaneously.
- the NPU scheduler 130 may determine scheduling such that the operation of the second hidden layer 110-15 is performed after the MAC operation of the first hidden layer 110-13 of the image fusion artificial neural network model.
- the NPU scheduler 130 may be configured to control the processing element array 100 and the NPU internal memory 120 based on locality information or structure information of the artificial neural network data of the image convergence artificial neural network model.
- the third network 110-16 illustratively includes information about six weight values connecting each node of the second hidden layer 110-15 and each node of the output layer 110-17. can do.
- the NPU scheduler 130 may set a memory address for storing information about weight values of the third connection networks 110-16 in the NPU internal memory 120.
- the weight value of the third network 110-16 is multiplied with the node value input from the second hidden layer 110-15, and the accumulated value of the multiplied values is stored in the output layer 110-17.
- the output layer 110-17 may illustratively include nodes y1 and y2. That is, the output layers 110-17 may include information about two node values.
- the NPU scheduler 130 may set a memory address in the NPU internal memory 120 to store information on node values of the output layers 110-17.
- the NPU scheduler 130 may be configured to schedule an operation order such that the seventh processing element PE7 performs the MAC operation of the node y1 of the output layer 110-17.
- the NPU scheduler 130 may be configured to schedule an operation order such that the eighth processing element PE8 performs the MAC operation of the y2 node of the output layer 110-15.
- the scheduling information may be included in machine code.
- the NPU scheduler 130 may pre-schedule an operation sequence such that two processing elements perform MAC operations in parallel and simultaneously.
- the NPU scheduler 130 may determine scheduling such that the operation of the output layer 110-17 is performed after the MAC operation of the second hidden layer 110-15 of the image convergence artificial neural network model.
- the NPU scheduler 130 may be configured to control the processing element array 100 and the NPU internal memory 120 based on locality information or structure information of the artificial neural network data of the image convergence artificial neural network model.
- the NPU scheduler 130 may analyze the structure of the image convergence artificial neural network model to be operated in the processing element array 100 or may receive analyzed information.
- the artificial neural network information that can be included in the image convergence artificial neural network model is information on the node value of each layer, information on the locality or structure of the arrangement data of the layers, and the weight value of each network connecting the nodes of each layer. may contain information about
- the NPU scheduler 130 Since the NPU scheduler 130 is provided with information on the artificial neural network data locality information or structure of the exemplary image fusion artificial neural network model 110-10, the NPU scheduler 130 generates the image fusion artificial neural network model 110-10. You can understand the operation sequence from input to output.
- the NPU scheduler 130 may set a memory address at which MAC calculation values of each layer are stored in the NPU internal memory 120 in consideration of a scheduling order.
- the NPU internal memory 120 may be configured to preserve weight data of networks stored in the NPU internal memory 120 while the inference operation of the NPU 100 continues. Accordingly, there is an effect of reducing a memory read/write operation.
- the NPU internal memory 120 may be configured to reuse the MAC operation value stored in the NPU internal memory 120 while the inference operation continues.
- FIG. 9 is a diagram for explaining a partial structure of a GAN constituting an image convergence artificial neural network model according to an example of the present disclosure.
- the GAN neural network structure constituting the image convergence artificial neural network model has a structure corresponding to a generator for generating high-resolution thermal images. That is, the scheduler 130 of the neural processing unit 100 may be configured to process an inference operation by receiving a machine code compiled from an image convergence artificial neural network model excluding a discriminator.
- the image fusion artificial neural network model corresponding to the generator may use a visible light image of 3 RGB channels and a thermal image of 1 channel as input data, and perform a convolution (convolution) operation to which an activation function (ELU) is applied. performed to output a feature map and/or an activation map.
- ELU activation function
- input data of a visible light image may be calculated by sliding 64 3x3 filters for each channel
- input data of a thermal image may be calculated by sliding 64 3x3 filters. That is, the size of the feature map of the input data of the visible light image may be reduced to the same size as that of the feature map output from the input data of the thermal image before image fusion.
- the output feature maps output through each operation may be merged into one filter having a size of 1 ⁇ 1.
- the feature maps merged in this way can transfer output results to other layers through a skip-connection operation, and finally generate a high-resolution thermal image through a plurality of layers.
- 9 is just one example for configuring a generator in a GAN, and is not limited thereto, and configurations of various models may be employed.
- FIG. 10 is a diagram for explaining input data of the convolution layer shown in FIG. 9 and a kernel used for a convolution operation or matrix multiplication.
- input data 300 may be an image or video displayed in a two-dimensional matrix composed of rows 310 of a specific size and columns 320 of a specific size.
- the input data 300 may be referred to as a feature map.
- the input data 300 may have a plurality of channels 330, where the channels 330 may represent color RGB channels of the input data image.
- the kernel 340 may be a weight parameter used in convolution for extracting a feature of a certain portion of the input data 300 while scanning it.
- the kernel 340 may be configured to have rows 350 of a specific size, columns 360 of a specific size, and a specific number of channels 370 .
- the sizes of rows 350 and columns 360 of the kernel 340 are set to be the same, and the number of channels 370 may be the same as the number of channels 330 of the input data image.
- FIG. 11 is a diagram for explaining the operation of a convolutional neural network that generates a feature map using the kernel shown in FIG. 10 .
- the kernel 410 may traverse the input data 420 at designated intervals and perform convolution, thereby finally generating a feature map 430 .
- convolution when the kernel 410 is applied to a portion of the input data 420, the input data values at a specific location of the portion are multiplied by the values at the corresponding location of the kernel 410, and then the generated values are added together. can be executed
- Each component value of the feature map may be converted into an activation map 430 through an activation function of a convolution layer.
- the input data 420 input to the convolution layer is displayed as a 2-dimensional matrix having a size of 4 ⁇ 4, and the kernel 410 is displayed as a 2-dimensional matrix having a size of 3 ⁇ 3.
- the sizes of the input data 420 and the kernel 410 of the convolution layer are not limited thereto, and may be variously changed according to the performance and requirements of the convolution neural network including the convolution layer.
- the kernel 410 assigns the MAC operation value “15” calculated at the specific position 421 of the input data 420 to the corresponding element 431 of the feature map 430.
- the kernel 410 assigns the MAC operation value “16” calculated at the next position 422 of the input data 420 to the corresponding element 432 of the feature map 430.
- the kernel 410 assigns the MAC operation value “6” calculated at the next position 423 of the input data 420 to the corresponding element 433 of the feature map 430.
- the kernel 410 allocates the MAC operation value “15” calculated at the next position 424 of the input data 420 to the corresponding element 434 of the feature map 430.
- the kernel 410 traverses the input data 420 and assigns all MAC calculation values to the feature map 430, the feature map 430 having a size of 2x2 can be completed.
- the same kernel or a different channel for each channel traverses the data for each channel of the input data 420, respectively. and a feature map for each channel can be generated through convolution that proceeds with multiple multiplication and summing.
- the scheduler 130 allocates processing elements (PE1 to PE12) to perform each MAC operation based on a predetermined operation sequence, and assigns a memory address where MAC operation values are stored in consideration of the scheduling sequence. It can be set in the NPU internal memory 120.
- FIG. 12 is a conceptual diagram illustrating an image convergence artificial neural network model according to an example of the present disclosure by way of example.
- FIG. 12 an example of processing signals provided from an RGB camera and a thermal image sensor through parallel processing is illustrated. During parallel processing, different information can be exchanged through transformers.
- the method may be a deep fusion method shown in FIG. 14 to be described later.
- the artificial neural network may include a concatenation operation and a skip-connection operation in order to process different data provided from heterogeneous sensors.
- the concatenation operation means to combine the output results of a specific layer with each other, and the skip-and-connect operation means to pass the output result of a specific layer to another layer while skipping subsequent layers.
- Such a concatenation operation and a skip-and-connect operation may increase control difficulty and usage of the internal memory 120 of the NPU 100 .
- NPU structure suitable for heterogeneous data signal processing (eg, RGB camera + thermal image sensor).
- NPU memory control suitable for heterogeneous input signal processing eg, RGB camera + thermal image sensor
- NPU memory control suitable for multiple input channels is required.
- An NPU for implementing an image fusion artificial neural network model (fusion artificial neural network model) must support the following functions. Expected requirements include:
- CNN function support Must be able to control PE array and memory optimized for convolution.
- Batch mode function support Memory configuration is required to process multiple channels (cameras 1 to 6) and heterogeneous sensors at the same time. (PE array size and memory size must be in an appropriate ratio)
- Concatenation function support The NPU for image convergence artificial neural network model (fusion artificial neural network model) must be able to process heterogeneous input data signals with concatenation function.
- the NPU for the image fusion artificial neural network model has a special function unit (SFU) that can provide the skip function.
- SFU special function unit
- the NPU for image fusion artificial neural network model (fusion artificial neural network model) must be able to provide the function of preprocessing different data signals.
- a compiler capable of efficiently compiling an image fusion artificial neural network model (fusion artificial neural network model) must be provided.
- the NPU 100 having the following characteristics is proposed.
- the NPU 100 is a machine that analyzes ANN data locality information of an image fusion artificial neural network model (fusion artificial neural network model) such as late fusion, early fusion, and deep fusion. code can be processed.
- image fusion artificial neural network model fusion artificial neural network model
- code can be processed.
- the NPU 100 may be configured to control the PE array to process heterogeneous sensor data based on an artificial neural network data locality controller (ADC). That is, the image fusion artificial neural network model (fusion artificial neural network model) is fused into various structures according to the sensor, and PE utilization rate can be improved by providing the NPU 100 corresponding to the structure. .
- ADC artificial neural network data locality controller
- iii It may be configured to appropriately set the size of the on-chip memory 120 to process heterogeneous sensor data based on ANN data locality information. That is, the memory bandwidth of the NPU 100 processing the fusion artificial neural network can be improved by analyzing the artificial neural network data locality information of the image fusion artificial neural network model (fusion artificial neural network model).
- the NPU 100 can efficiently process bilinear interpolation, concatenation, and skip-connection (skip-connection, etc.) required in an image fusion artificial neural network model (fusion artificial neural network model).
- a special function unit (SFU) may be included.
- FIG. 13 is an exemplary diagram illustrating a fusion method of an NPU according to an example of the present disclosure.
- each block means each layer.
- the NPU 100 may perform late fusion, early fusion, and deep fusion.
- Late fusion means performing calculations for each layer and then fusion of the calculation results in the final process.
- Early fusion means performing operations on each layer after fusion of different data at an early stage.
- Deep fusion means that after fusion of different data, calculations are performed in different layers, and calculation results are fused again, and then calculations are performed for each layer.
- two different images may be merged at the beginning of a plurality of layer operation, and operation of a subsequent layer may be performed.
- operations may be performed on two different images for each layer allocated to each of the two images, and then, after merging the operation results, operations on a subsequent layer may be performed.
- the two different images may be an image obtained through a visible ray image sensor and an image obtained through a thermal image sensor, but are not limited thereto.
- FIG. 14 is a conceptual diagram illustrating a system including an NPU architecture according to a first example of the present disclosure by way of example.
- the NPU 100 includes a PE array 110 for an image fusion artificial neural network model, an on-chip memory 120, an NPU scheduler 130, and a special function unit (SFU). (160).
- SFU special function unit
- the PE array 110 for the image fusion artificial neural network model may refer to a PE array 110 configured to process convolution of a multi-layered image fusion artificial neural network model having at least one fusion layer. That is, the fusion layer may be configured to output a feature map in which data from different types of sensors are fused.
- the SFU 160 of the NPU 100 may be configured to receive sensor data from multiple sensors and provide a function of fusion of each sensor input data.
- the PE array 110 for the image fusion artificial neural network model may be configured to receive fusion data from the SFU 160 and process convolution.
- the NPU 100 may receive different data from the M heterogeneous sensors 311 and 312 .
- the heterogeneous sensors may include image sensors having different image characteristics and resolutions.
- the NPU 100 may obtain artificial neural network data locality information of an image fusion artificial neural network model (fusion artificial neural network (ANN)) from the compiler 200 .
- fusion artificial neural network (ANN) fusion artificial neural network
- At least one layer of the image fusion artificial neural network model may be a layer in which input data of a plurality of sensors are fused.
- the NPU 100 may be configured to provide a concatenation function to at least one layer for fusion of heterogeneous sensor input data.
- Each feature map of the heterogeneous sensors of the concatenated layer may be processed to have the same size as at least one axis in order to be concatenated with each other.
- the X-axis size of each of the heterogeneous sensor data may be the same.
- the Y-axis size of each of the heterogeneous sensor data may be the same.
- the size of the Z-axis of each of the heterogeneous sensor data may be the same.
- the size of one of the heterogeneous sensor data may be scaled up or scaled down. Accordingly, it is also possible that the sizes of one axis of the fused data of heterogeneous sensor data are the same.
- the PE utilization rate of the processing element array 100 may vary according to the size of at least one axis of sensor data.
- the NPU scheduler 130 may process inference of an image fusion artificial neural network model (fusion artificial neural network model).
- the NPU scheduler 130 may be included in the controller as shown.
- the NPU scheduler 130 acquires and analyzes artificial neural network data locality information of an image fusion artificial neural network model (fusion artificial neural network) from the compiler 200, and controls the operation of the on-chip memory 120. there is.
- the compiler 200 may generate artificial neural network data locality information of a fusion artificial neural network to be processed by the NPU 100 .
- the NPU scheduler 130 may generate a list of special functions required for the image fusion artificial neural network model (fusion artificial neural network).
- the special function may mean various functions required for artificial neural network operations other than convolution.
- the first output feature map information calculated earlier and the second output feature map information processed later are fused.
- the size and storage period of data to be stored eg, the first output feature map
- a memory map for the on-chip memory 120 can be efficiently prepared in advance. can be set
- the SFU 160 may perform skip-connection and concatenation necessary for an image convergence artificial neural network model (fusion artificial neural network).
- fusion artificial neural network fusion artificial neural network
- junctions can be used to fuse heterogeneous sensor data.
- the size of each sensor data may be readjusted.
- the NPU 100 may be configured to process concatenation of fusion artificial artificial networks by providing functions such as resize and interpolation.
- the chip-internal memory 120 of the NPU 100 selectively preserves specific data according to the PE array 110 or the SFU 160 for a specific period of time based on the artificial neural network data locality information of the image convergence artificial neural network model. can Whether or not to selectively preserve may be controlled by a control unit.
- the PE array 110 may be configured to have the number of threads corresponding to the number of heterogeneous sensors. That is, the array 110 of the NPU 100 configured to receive two sensor data may be configured to have two threads. That is, if one thread is composed of NxM processing elements, two threads may be composed of NxMx2 processing elements.
- each thread of the PE array 110 may be configured to process feature maps of each heterogeneous sensor.
- a plurality of threads of an NPU may be referred to as a multi-core of the NPU.
- the NPU 100 may output an operation result of the image convergence artificial neural network model through an output unit.
- the NPU architecture according to the above-described first example may be variously modified.
- FIG. 15A is an exemplary diagram for explaining skip-connection included in the image convergence artificial neural network model according to the first example of the present disclosure
- FIG. 15B is an example of the image convergence artificial neural network model shown in FIG. 15A. It is an example diagram showing artificial neural network data locality information.
- the compiler 200 uses, for example, an image having a sequence of 16 steps. Artificial neural network data locality information of the convergence artificial neural network model can be created.
- the NPU 100 requests data operations from the on-chip memory 120 in the order of artificial neural network data locality information of the image fusion artificial neural network model.
- the output feature map (OFMAP) of the first layer may be added to the output feature map (OFMAP) of the fourth layer.
- the output feature map of the first layer must be preserved until the fifth layer operation.
- other data may be deleted after operation to utilize memory space.
- the deleted memory area data to be calculated later based on the order of artificial neural network data locality information of the image convergence artificial neural network model may be stored. Therefore, necessary data can be sequentially brought to the chip-internal memory 120 according to the order of data region information of the image convergence artificial neural network model, and data that is not reused can be deleted, so that the on-chip memory ( Operation efficiency of the on-chip memory 120 may be improved even when the memory size of the memory 120 is small.
- the NPU 100 may selectively preserve or delete specific data of the chip-internal memory 120 for a certain period of time based on the artificial neural network data locality information of the image convergence artificial neural network model.
- This mechanism may be applied to various operations such as concatenation, non-maximum suppression (NMS), and bilinear interpolation as well as skip-connection operations.
- NMS non-maximum suppression
- bilinear interpolation as well as skip-connection operations.
- the NPU 100 performs a convolution operation on the second layer for efficient control of the on-chip memory 120, and then data of the first layer excluding the output feature map (OFMAP) of the first layer. can be deleted.
- the NPU 100 performs the operation of the third layer for efficient control of the on-chip memory 120, and then data of the second layer excluding the output feature map (OFMAP) of the first layer. can be deleted.
- the NPU 100 performs the operation of the fourth layer for efficient control of the on-chip memory 120, and then data of the third layer excluding the output feature map (OFMAP) of the first layer. can be deleted.
- the NPU 100 may delete data of the fourth layer including the output feature map (OFMAP) of the first layer after performing the operation of the fifth layer for efficient control of the on-chip memory 120. can
- the artificial neural network data locality information of the image convergence artificial neural network model refers to a data processing sequence generated by the compiler 200 and performed by the NPU 100 in consideration of the conditions listed below.
- ANN model fusion artificial neural networks such as Resnet, YOLO, SSD, etc. designed to receive heterogeneous sensor data.
- the structure of the processor eg architecture of CPU, GPU, NPU, etc.
- the number of PEs the number of PEs, the structure of the PEs (eg, input stationary, output stationary, weight stationary, etc.), SFU structure configured to operate organically with the PE array, and the like.
- On-chip memory 120 size (eg, when cache is smaller than data, tiling algorithm needs to be applied, etc.).
- the NPU 100 determines the order of requesting to read the input feature map (IFMAP) first or request to read the kernel first. This may vary depending on the processor or compiler 200 .
- IFMAP input feature map
- 16 is a conceptual diagram illustrating a system including an NPU architecture according to a second example of the present disclosure by way of example.
- the NPU 100 includes a PE array 110 for an image fusion artificial neural network model, an on-chip memory 120, an NPU scheduler 130, and a special function unit (SFU). (160).
- SFU special function unit
- the NPU scheduler 130 may be included in the controller as shown.
- the NPU 100 may receive different data from the M heterogeneous sensors 311 and 312 .
- the heterogeneous sensors may include a microphone, a touch screen, a camera, an altimeter, a barometer, an optical blood flow measurement sensor, an electrocardiogram measurement sensor, an inertial measurement sensor, a geo-positioning system, an optical sensor, a thermometer, an electromyograph, an electrode measurement device, and the like.
- the NPU 100 may obtain artificial neural network data locality information of an image fusion artificial neural network model from the compiler 200 .
- the NPU 100 may output N results (eg, heterogeneous inference results) through N output units.
- the heterogeneous data output from the NPU 100 may include image fusion, classification, semantic segmentation, object detection, and prediction.
- 17 is a conceptual diagram illustrating a system including an NPU architecture according to a third example of the present disclosure by way of example.
- the NPU 100 includes a PE array 110 for an image convergence artificial neural network model, an on-chip memory 120, an NPU scheduler 130, and a special function unit (SFU) (160).
- SFU special function unit
- the NPU scheduler 130 may be included in the controller as shown.
- the NPU 100 may receive different data from the M heterogeneous sensors 311 and 312 .
- the heterogeneous sensors may include image sensors having different image characteristics and resolutions.
- the NPU 100 may obtain artificial neural network data locality information of an image fusion artificial neural network model from the compiler 200 .
- the NPU 100 may receive data required for operation of an image convergence artificial neural network model from the chip-external memory 500 through an artificial neural network data locality controller (ADC) 400 .
- ADC artificial neural network data locality controller
- the ADC 400 may prefetch data from an on-chip memory to an on-chip memory based on the artificial neural network data locality information of the image convergence artificial neural network model provided from the compiler 200.
- the ADC 400 receives and analyzes artificial neural network data locality information of an image convergence artificial neural network model from the compiler 200 or receives analyzed information from the compiler 200 and uses the chip-external memory ( 500) can be controlled.
- the ADC 400 may read the data stored in the off-chip memory 500 according to the artificial neural network data locality information of the image convergence artificial neural network model and cache it in the on-chip memory in advance.
- the off-chip memory 500 may store all weight kernels of the image convergence artificial neural network model
- the on-chip memory 120 may store the image convergence artificial neural network model among all weight kernels stored in the off-chip memory 500. According to the artificial neural network data locality information of , only at least some weight kernels necessary can be stored.
- the memory capacity of the off-chip memory 500 may be greater than that of the on-chip memory 120 .
- the ADC 400 may prepare data necessary for the NPU 100 in advance from the chip-external memory 500 independently or in conjunction with the NPU 100 based on the artificial neural network data locality information of the image convergence artificial neural network model. there is. Therefore, the latency of the reasoning operation of the NPU 100 may be reduced or the operation speed may be improved.
- the NPU 100 may output N results (eg, heterogeneous inference results) through N output units.
- N results eg, heterogeneous inference results
- FIG. 18 is a conceptual diagram exemplarily illustrating a system including an NPU architecture according to a fourth example of the present disclosure
- FIG. 19 is a threaded image fusion artificial neural network model shown in FIG. 12 according to the fourth example shown in FIG. Indicates an example separated by .
- the NPU 100 includes a PE array 110 for an image convergence artificial neural network model, an on-chip memory 120, an NPU scheduler 130, and a special function unit (SFU) (160).
- a PE array 110 for an image convergence artificial neural network model for an image convergence artificial neural network model
- an on-chip memory 120 for an image convergence artificial neural network model
- an NPU scheduler 130 for an image convergence artificial neural network model
- SFU special function unit
- the NPU scheduler 130 may be included in the controller as shown.
- the NPU 100 may receive different data from the M heterogeneous sensors 311 and 312 .
- the heterogeneous sensors may include image sensors having different image characteristics and resolutions.
- the NPU 100 may obtain artificial neural network data locality information of an image fusion artificial neural network model from the compiler 200 .
- the NPU 100 may output N pieces of heterogeneous data (eg, heterogeneous inference results).
- the heterogeneous data output from the NPU 100 may include image fusion, classification, semantic segmentation, object detection, and prediction.
- the PE array 110 can process multiple threads. As shown in FIG. 19, RGB image data obtained from the camera can be processed through thread #1, Transformer model processing can be processed through thread #2, and data obtained from the thermal image sensor can be processed through thread #3. there is. Multiple threads of the PE array 110 may be referred to as a multi-core of the NPU. That is, each thread may refer to an independent PE array.
- the compiler 200 may analyze the image convergence artificial neural network model and classify threads based on a parallel operation flow.
- the PE array 110 of the NPU 100 can improve computation efficiency through multiple threads of a layer capable of parallel processing computation of an image convergence artificial neural network model.
- Each thread may be configured to include the same or different numbers of processing elements.
- the NPU 100 may control each thread in the PE array 110 to communicate with the on-chip memory 120 .
- the NPU 100 may selectively allocate an internal space of the on-chip memory 120 for each thread.
- the NPU 100 may allocate an appropriate on-chip memory 120 for each thread.
- Memory allocation of the chip-internal memory 120 may be determined by a controller based on artificial neural network data locality information of an image convergence artificial neural network model.
- the NPU 100 may set a thread in the PE array 110 based on a fusion artificial neural network.
- the NPU 100 may output N results (eg, heterogeneous inference results) through N output units.
- N results eg, heterogeneous inference results
- FIG. 20 is a conceptual diagram exemplarily illustrating a system including an NPU architecture according to a fifth example of the present disclosure
- FIG. 21 is an exemplary diagram illustrating a first example of a pipeline structure of the SFU shown in FIG. 20 .
- the NPU 100 includes a PE array 110 for an image convergence artificial neural network model, an on-chip memory 120, an NPU scheduler 130, and a special function unit (SFU) (160).
- a PE array 110 for an image convergence artificial neural network model for an image convergence artificial neural network model
- an on-chip memory 120 for an image convergence artificial neural network model
- an NPU scheduler 130 for an image convergence artificial neural network model
- SFU special function unit
- the NPU 100 may receive different data from the M heterogeneous sensors 311 and 312 .
- the heterogeneous sensors may include image sensors having different image characteristics and resolutions.
- the NPU 100 may obtain artificial neural network data locality information of an image fusion artificial neural network model (fusion artificial neural network (ANN)) from the compiler 200 .
- fusion artificial neural network (ANN) fusion artificial neural network
- the NPU 100 may output N pieces of heterogeneous data (eg, heterogeneous inference results).
- the heterogeneous data output from the NPU 100 may include image fusion, classification, semantic segmentation, object detection, and prediction.
- the SFU 160 includes several functional units. Each functional unit can be operated selectively. Each functional unit can be selectively turned on or turned off. That is, each functional unit can be set.
- the processing element array may refer to circuitry configured to perform a main operation of an image fusion artificial neural network model.
- the main operation may refer to convolution or matrix multiplication. That is, the main operation may refer to most operations in an artificial neural network (ANN) (eg, a fusion artificial neural network).
- ANN artificial neural network
- a special function unit may refer to a set of a plurality of special function circuits configured to selectively perform a special function operation of an image convergence artificial neural network model. That is, the special function unit (SFU) may additionally calculate a special function, and the special function operation may refer to an additional operation in various artificial neural networks (ANNs) (eg, a fusion artificial neural network).
- ANNs artificial neural networks
- the amount of calculation of the main operation of the image convergence artificial neural network model may be relatively greater than the amount of calculation of the special function calculation.
- the SFU 160 may include various functional units required for reasoning of an image convergence artificial neural network model.
- the functional units of the SFU 160 include a functional unit for a skip-connection operation, a functional unit for an activation function operation, a functional unit for a pooling operation, Functional units for quantization operations, functional units for non-maximum suppression (NMS) operations, functional units for integer and floating point conversion (INT to FP32) operations, and functions for batch-normalization operations unit, a functional unit for an interpolation operation, a functional unit for a concatenation operation, and a functional unit for a bias operation.
- NMS non-maximum suppression
- INT to FP32 integer and floating point conversion
- Functional units of the SFU 160 may be selectively turned on or off according to artificial neural network data locality information of an image convergence artificial neural network model.
- the type of special function operations required by each layer of the image convergence artificial neural network model may be different for each layer.
- the artificial neural network data locality information included in the machine code may include control information related to turn-on or turn-off of a corresponding functional unit when an operation for a specific layer is performed.
- FIG. 22a is an exemplary view showing an example of the SFU shown in FIG. 20, and FIG. 22b is an example view showing another example of the SFU shown in FIG.
- activated units among functional units of the SFU 160 may be turned on.
- the SFU 160 may selectively activate a skip-connection operation and a concatenation operation.
- each activated functional unit may be marked with hatching.
- the SFU 160 may concatenate heterogeneous sensor data for a fusion operation.
- the controller may control the chip-internal memory 120 and the SFU 160 for the skip and connect operation of the SFU 160 .
- a quantization operation and a bias operation may be selectively activated.
- the quantization function unit of the SFU 160 receives the feature map output from the PE array 110 and converts the feature map to a specific bit width. can be quantized.
- the quantized feature map may be stored in the chip-internal memory 120 .
- a series of operations may be performed sequentially through the controller, and the NPU scheduler 130 may be configured to control the sequence of operations.
- FIG. 23 is a conceptual diagram illustrating a system including an NPU architecture according to a sixth example of the present disclosure by way of example.
- NPU batch mode may be applied.
- the NPU 100 to which the batch mode is applied includes a PE array 110 for an image convergence artificial neural network model, an on-chip memory 120, an NPU scheduler 130, and a special function (SFU). unit) (160).
- SFU special function
- the NPU scheduler 130 may be included in the controller as shown.
- the NPU 100 may obtain artificial neural network data locality information of an image fusion artificial neural network model from the compiler 200 .
- the batch mode disclosed in this example sequentially processes a plurality of identical sensors with one image fusion artificial neural network model, and reuses the weights of the one image fusion artificial neural network model by the number of the plurality of identical sensors to achieve low power consumption mode configured to do so.
- the controller of the NPU 100 may be configured to control the NPU scheduler 130 so that the weights stored in the on-chip memory are reused as many as the number of sensors input to each batch channel. That is, illustratively, the NPU 100 may be configured to operate in batch mode with M sensors. At this time, the arrangement mode operation of the NPU 100 may be configured to operate as an image fusion artificial neural network model.
- the NPU 100 may be configured to have a plurality of batch channels (BATCH CH#1, BATCH CH#2) for fusion.
- Each deployment channel may be configured to include a plurality of identical sensors.
- the first batch channel (BATCH CH#1) may include a plurality of first sensors. At this time, the number of first sensors may be M.
- the Kth batch channel (BATCH CH#K) may be composed of a plurality of second sensors. At this time, the number of second sensors may be M.
- the NPU 100 reuses and processes corresponding weights in the chip-internal memory 120 for inputs from the sensors 311 and 312 through the first configuration channel. And, the NPU 100 reuses and processes corresponding weights in the chip-internal memory 120 for inputs from the sensors 321 and 322 through the second configuration channel.
- the NPU 100 may receive inputs from various sensors through a plurality of batch channels, reuse weights, and process an image fusion artificial neural network model in batch mode.
- a sensor of at least one channel among the plurality of arrangement channels may be different from a sensor of at least one other channel.
- the on-chip memory 120 in the NPU 100 may be configured to have a storage space corresponding to a plurality of deployment channels.
- the NPU scheduler 130 in the NPU 100 may operate the PE array 110 according to a batch mode.
- the SFU 160 in the NPU 100 may provide a special function for processing at least one fusion operation.
- the NPU 100 may deliver each output through a plurality of batch channels.
- At least one of the plurality of batch channels may be inference data of an image convergence artificial neural network model network.
- FIG. 24 is an exemplary diagram illustrating an example of utilizing a plurality of NPUs according to the seventh example of the present disclosure
- FIG. 25 processes the fusion artificial neural network shown in FIG. 12 through the plurality of NPUs shown in FIG. It is an example diagram showing an example of doing.
- a plurality of illustratively M NPUs may be used to generate a fusion image.
- the first NPU 100-1 may process data provided from, for example, sensor #1 311, and the M-th NPU 100-M may process data provided from, for example, sensor #M 312.
- the plurality of NPUs may access the off-chip memory 500 through ADC/DMA (Direct Memory Access) 400.
- ADC/DMA Direct Memory Access
- the plurality of NPUs may obtain artificial neural network data locality information of an image convergence artificial neural network model from the compiler 200.
- Each NPU may process an image fusion artificial neural network model and transfer an operation for fusion to different NPUs through the ADC/DMA 400.
- the ADC/DMA 400 may obtain data locality information for an artificial neural network of a fusion image fusion artificial neural network model from the compiler 200 .
- the compiler 200 converts the artificial neural network data locality information into data locality information #1 and data locality information so that operations to be processed in parallel among operations according to the artificial neural network data locality information of the image fusion artificial neural network model can be processed in each NPU. It can be created by separating it with information #M.
- the off-chip memory 500 may store data that can be shared by a plurality of NPUs and transfer it to each NPU.
- NPU#1 may be in charge of a first artificial neural network for processing data provided from a camera
- NPU#2 may be in charge of a second artificial neural network for processing data provided from a thermal image sensor.
- the NPU#2 may be in charge of conversion for fusion between the first artificial neural network and the second artificial neural network.
- a high-resolution thermal image may be generated by using a high-resolution general visible light image sensor and a low-resolution thermal image sensor built into a general device, not a specialized device. Accordingly, the present disclosure can generate a high-resolution thermal image at low cost. In addition, the present disclosure can improve the night vision of an image not in a device designed for night vision, but in a device owned by a user or a black box of a vehicle, for example.
- a neural processing unit for an image fusion artificial neural network model inputs a first image and a second image having different resolutions and image characteristics, and uses machine code of the image fusion artificial neural network model learned to output a new third image.
- a controller configured to receive an input; an input circuit configured to receive a plurality of input signals corresponding to the image fusion artificial neural network model; a processing element array configured to perform a main operation of the image fusion artificial neural network model operation; a special function unit circuit configured to perform a special function operation of the image convergence artificial neural network model; and an on-chip memory configured to store data of the main operation and/or the special function operation of the image fusion artificial neural network model.
- a third resolution of the third image has a value between a first resolution of the first image and a second resolution of the second image;
- the third image characteristic of the 3 images may be at least partially the same as the first image characteristic of the first image or the second image characteristic of the second image.
- the first image may be an image obtained through a visible ray image sensor.
- the second image may be an image acquired through a thermal image sensor.
- the first image and the second image include different images of one object, and the image characteristics may be determined by the type of image sensor that acquires the first image and the second image.
- the image convergence artificial neural network model may be an artificial neural name model configured to input only a first partial image and a second partial image corresponding to a face region from objects extracted from the first image and the second image.
- the third image may be an image to which at least one feature that can be determined from the second image is applied to at least a partial region of the first image.
- the image fusion artificial neural network model may be a model to which weights are applied to emphasize at least one feature that can be determined from the first image and at least one feature that can be determined from the second image.
- the image fusion artificial neural network model may be an artificial neural network model configured to input only RGB values of the first image or brightness values of each pixel of the first image.
- the third resolution of the third image may be the same as the first resolution of the first image.
- the image convergence artificial neural network model is learned based on a generative adversarial networks (GAN) structure, and may correspond to a generator configured to generate a new image by using different images of one object as inputs.
- GAN generative adversarial networks
- the image fusion artificial neural network model is configured such that the generator constituting the GAN and a discriminator verifying an image generated by the generator compete with each other to update a weight for increasing the third resolution of the third image. It may be an artificial nerve name model.
- the image fusion artificial neural network model may be learned based on a learning data set having a format substantially similar to that of the first image and the second image.
- the array of processing elements may be configured to handle convolutions and activation function operations.
- the processing element array may be configured to process at least one operation among dilated convolution, transposed convolution, and bilinear interpolation operations for increasing the third resolution of the third image.
- an output unit configured to output a result of the at least one inference operation of the image fusion artificial neural network model learned to process at least one inference operation among classification, semantic segmentation, object detection, and prediction by the processing element array.
- the special function unit circuit may further include at least one function of skip-connection and concatenation for artificial neural network fusion.
- the controller further comprises a scheduler, wherein the scheduler preserves specific data stored in the on-chip memory based on data locality information of the image fusion artificial neural network model until a specific operation step of the image fusion artificial neural network model, It may be configured to control the on-chip memory.
- the processing element array may further include a plurality of threads, and the controller may be configured to control the plurality of threads to process parallel sections of the image fusion artificial neural network model based on data locality of the image fusion artificial neural network model. there is.
- a system for an image fusion artificial neural network model may include: a first sensor for acquiring a first image having a first resolution and a first image characteristic; a second sensor configured to acquire a second image having a second resolution smaller than the first resolution and a second image characteristic different from the first image characteristic; and a neural processing unit configured to process an image convergence artificial neural network model trained to output a new third image by inputting the first image and the second image having different resolutions and image characteristics; wherein the third resolution of the third image has a value between the first resolution of the first image and the second resolution of the second image, and the third image characteristic of the third image comprises: The first image characteristic of one image or the second image characteristic of the second image may be at least partially the same.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Neurology (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
본 개시의 일 개시에 따르면, 영상 융합을 위한 인공신경망 시스템이 제공된다. 상기 인공신경망 시스템은, 제1 해상도 및 제1 영상 특성을 가지는 제1 영상을 획득하는 제1 센서; 상기 제1 해상도보다 작은 제2 해상도 및 상기 제1 영상 특성과 상이한 제2 영상 특성을 가지는 제2 영상을 획득하는 제2 센서; 및 서로 상이한 해상도 및 영상 특성을 가지는 제1 영상 및 제2 영상을 입력하여, 새로운 제3 영상을 출력하도록 학습된 영상 융합 인공신경망 모델을 처리하도록 구성된 신경 프로세싱 유닛; 을 포함하고, 상기 제3 영상의 제3 해상도는, 상기 제1 영상의 제1 해상도와 상기 제2 영상의 제2 해상도 사이의 값을 가지며, 상기 제3 영상의 제3 영상 특성은, 상기 제1 영상의 제1 영상 특성 또는 상기 제2 영상의 제2 영상 특성과 적어도 일부 동일할 수 있다.
Description
본 개시는 영상 융합을 위한 신경 프로세싱 유닛 및 인공신경망 시스템에 관한 것이다.
열화상 이미지 센서는 촬영 시 외부에서 별도로 공급되는 광원이 없더라도 물체가 방사하는 복사 에너지를 모아 가시화하는 방식으로 열화상 영상(열영상)을 제공한다.
열영상은 적외선 주파수 대역에 따라 크게 NIR(near-infrared), SWIR(short-wave infrared), MWIR(medium-wave infrared), LWIR(long-wave infrared) 등으로 나뉜다. LWIR은 과거에 주로 군사용, 의료용과 같은 특수분야에서 많이 사용되었다. 최근에는 열영상의 활용분야가 증가하여 사물 및 자동차의 야간물체 인식 목적으로도 사용되고 있다.
특히, 야간에는 물체에 대한 인식 기술에서 열영상의 화질이 매우 중요하다. 그러나 해상도에 따라, 열화상 이미지 센서의 가격 편차가 크기 때문에, 고해상도 적외선 이미지 센서는 경제적인 측면에서 부담이 된다.
그에 따라, 최근에는 인공 지능 기반의 학습 알고리즘을 통해 저해상도 열화상 센서에서 획득한 영상의 해상도를 확대(upscaling)하는 초고해상도(super-resolution: SR) 기술이 개시되고 있다.
그러나, 열영상을 단일 입력 데이터로 사용할 경우, 일반적인 가시광 이미지 센서에서 획득 가능한 영상의 질감 정보를 고해상도로 표현하기에 한계가 있다. 이에, 이종의 영상을 입력 데이터로 하여, 이를 융합하기 위한 기술이 개발되고 있다. 다만, 종래의 영상 융합 기술은 동기화 및 정합을 프레임 단위로 수행하는 과정에서 그 연산량이 지나치게 커지는 문제점이 있다.
본 개시의 배경이 되는 기술은 본 개시에 대한 이해를 보다 용이하게 하기 위해 작성되었다. 본 개시의 배경이 되는 기술에 기재된 사항들이 선행기술로 존재한다고 인정하는 것으로 이해되어서는 안 된다.
이에, 이종의 이미지 센서로부터 획득되는 영상을 기초로 두 개의 특징을 융합한 하나의 영상을 생성하되, 그 연산량은 최소화하기 위한 신경 프로세싱 유닛(Neural Processing Unit: NPU) 및 이를 포함하는 인공신경망 시스템이 요구된다.
본 개시의 발명자들은 하나의 객체에 대한 서로 다른 해상도 및 영상 특성을 가진 영상들을 조합하여, 상위 해상도를 만족하는 하나의 영상을 생성하기 위한 인공신경망 모델을 효과적으로 처리할 수 있는 신경 프로세싱 유닛 및 인공신경망 시스템을 개발하고자 하였다.
특히, 본 개시의 발명자들은 서로 다른 데이터를 효과적으로 처리 가능한 연접(concatenation) 동작, 건너뛰고 연결하기 (skip-connection) 동작을 수행하여, 고해상도의 영상을 빠르게 생성할 수 있는 신경 프로세싱 유닛 및 인공신경망 시스템을 개발하기에 이르렀다.
본 개시의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 바와 같은 과제를 해결하기 위해 영상 융합 인공신경망 모델을 위한 신경 프로세싱 유닛이 제공된다. 상기 영상 융합 인공신경망 모델을 위한 신경 프로세싱 유닛은, 서로 상이한 해상도 및 영상 특성을 가지는 제1 영상 및 제2 영상을 입력하여, 새로운 제3 영상을 출력하도록 학습된 영상 융합 인공신경망 모델의 머신 코드를 입력받도록 구성된 제어부; 상기 영상 융합 인공신경망 모델에 대응되는 복수의 입력 신호를 수신하도록 구성된 입력 회로; 상기 영상 융합 인공신경망 모델의 주 연산을 수행하도록 구성된 프로세싱 엘리먼트 어레이; 상기 영상 융합 인공신경망 모델 연산의 특수 기능 연산을 수행하도록 구성된 특수 기능 유닛 회로; 및 상기 영상 융합 인공신경망 모델의 상기 주 연산 및/또는 상기 특수 기능 연산의 데이터를 저장하도록 구성된 온-칩 메모리; 를 포함하고, 상기 제어부는, 상기 머신-코드에 포함된 영상 융합 인공신경망 모델의 데이터 지역성 정보에 따라 상기 영상 융합 인공신경망 모델의 연산 순서가 기 설정된 순서대로 처리되도록, 상기 프로세싱 엘리먼트 어레이, 상기 특수 기능 유닛 회로 및 상기 온-칩 메모리를 제어하도록 구성되며, 상기 제3 영상의 제3 해상도는, 상기 제1 영상의 제1 해상도와 상기 제2 영상의 제2 해상도 사이의 값을 가지며, 상기 제3 영상의 제3 영상 특성은, 상기 제1 영상의 제1 영상 특성 또는 상기 제2 영상의 제2 영상 특성과 적어도 일부 동일할 수 있다.
본 개시의 다른 개시에 따르면, 영상 융합 인공신경망 모델을 위한 시스템이 제공된다. 상기 시스템은, 제1 해상도 및 제1 영상 특성을 가지는 제1 영상을 획득하는 제1 센서; 상기 제1 해상도보다 작은 제2 해상도 및 상기 제1 영상 특성과 상이한 제2 영상 특성을 가지는 제2 영상을 획득하는 제2 센서; 및 서로 상이한 해상도 및 영상 특성을 가지는 제1 영상 및 제2 영상을 입력하여, 새로운 제3 영상을 출력하도록 학습된 영상 융합 인공신경망 모델을 처리하도록 구성된 신경 프로세싱 유닛; 을 포함하고, 상기 제3 영상의 제3 해상도는, 상기 제1 영상의 제1 해상도와 상기 제2 영상의 제2 해상도 사이의 값을 가지며, 상기 제3 영상의 제3 영상 특성은, 상기 제1 영상의 제1 영상 특성 또는 상기 제2 영상의 제2 영상 특성과 적어도 일부 동일할 수 있다.
기타 예시의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 개시는 인공신경망 모델을 통해 고해상도의 열영상을 생성할 수 있다. 특히, 본 개시는 감시 카메라와 같이 불특정 다수의 사람을 촬영하기 위한 장치에서 고해상도의 열영상만을 생성하여 저장함으로써, 개인정보가 노출되는 문제를 예방할 수 있다. 뿐만 아니라, 본 개시는, 사람의 얼굴 영역에만 열영상을 융합하여, 개인정보를 보호할 수 있다.
또한, 전문 디바이스가 아닌, 일반 디바이스에 내장되는 고해상도의 일반 가시광 이미지 센서와 저해상도의 열영상 이미지 센서를 활용하여, 고해상도의 열영상을 생성할 수 있다. 이에 본 개시는 저비용으로 고해상도의 열영상을 생성할 수 있다. 뿐만 아니라, 본 개시는 야간 식별을 위해 만들어진 디바이스가 아닌, 예를 들어, 사용자 소지의 디바이스나 차량의 블랙박스 등에서도 영상의 야간 식별력을 향상시킬 수 있다.
또한, 본 개시는 기상 상황이 좋지 않은 날에도, 대상체를 관찰하기 위한 고해상도의 열영상을 생성할 수 있다. 뿐만 아니라, 본 개시는 이미지 센서 외에 대상체를 감지하기 위해 사용되는 레이저 센서, 전자기파 센서 및 초음파 센서 등의 감도가 떨어지는 날에도, 대상체에 대한 고해상도의 열영상을 생성할 수 있다. 이에, 본 개시의 신경 프로세싱 유닛이 차량에 설치되어, 차량의 안전 사고를 예방할 수 있다.
또한, 본 개시는 고해상도의 열영상을 이용하여 사용자의 움직임을 추정(skeleton detection 또는 pose estimation)할 수 있다. 예를 들어, 본 개시는 특정 공간에 설치된 디바이스를 통해 사용자의 비정상적인 움직임을 추정하거나, 사용자의 넘어짐을 추정할 수 있다.
또한, 본 개시는 이종의 이미지 센서로부터 획득한 영상을 토대로 새로운 영상을 생성하는 영상 융합 인공신경망 모델을 구현하기 위한 신경 프로세싱 유닛이 보다 효율적으로 동작할 수 있도록 제어할 수 있다. 이에, 본 개시는 방대한 양의 데이터를 처리함에도 전력 소모를 절감할 수 있다. 이에 본 개시는 배터리 용량에 제한 받지 않고, 다양한 디바이스에서 영상 융합 인공신경망 모델을 구현할 수 있다.
또한, 본 개시는 연접(concatenation) 동작, 건너뛰고 연결하기 (skip-connection) 동작을 통해 이종의 센싱 데이터를 효과적으로 처리할 수 있다. 이에 본 개시는 고해상도의 열영상을 연산량을 절감하면서도 빠르게 생성할 수 있다.
또한, 본 개시는 온-칩 메모리에 저장된 데이터를 최대한 재사용하여, 고해상도의 영상을 융합하기 위해 필요한 데이터를 외부 메모리에서 획득하는 동안 소모되는 전력을 최소화할 수 있다.
본 개시에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 개시 내에 포함되어 있다.
도 1 및 도 2는 본 개시의 일 예시에 따른 영상 융합 인공신경망 모델을 설명하는 개략적인 개념도이다.
도 3 및 도 4는 본 개시의 일 예시에 따른 영상 융합 인공신경망 모델을 통해 생성된 영상을 설명하는 개략적인 개념도이다.
도 5은 본 개시의 일 예시에 따른 신경 프로세싱 유닛을 설명하는 개략적인 개념도이다.
도 6은 도 5에 도시된 프로세싱 엘리먼트 어레이 중 하나의 프로세싱 엘리먼트를 설명하는 개략적인 개념도이다.
도 7은 도 5에 도시된 신경 프로세싱 유닛의 변형 예를 나타낸 개념도이다.
도 8은 본 개시의 일 예시에 따른 영상 융합 인공신경망 모델을 예시적으로 나타낸 개념도이다.
도 9는 본 개시의 일 예시에 따른 영상 융합 인공신경망 모델을 구성하는 GAN 신경망의 일부 구조를 설명하기 위한 도면이다.
도 10은 도 9에 도시된 컨볼루션 레이어의 입력 데이터와 합성곱 연산에 사용되는 커널을 설명하기 위한 도면이다.
도 11는 도 10에 도시된 커널을 사용하여 특징 맵을 생성하는 컨볼루션 신경망의 동작을 설명하기 위한 도면이다.
도 12는 본 개시의 일 예시에 따른 영상 융합 인공신경망 모델을 예시적으로 나타낸 개념도이다.
도 13은 본 개시의 일 예시에 따른 NPU의 퓨전 방식을 나타낸 예시도이다.
도 14는 본 개시의 제1 예시에 따른 NPU 아키텍처를 포함하는 시스템을 예시적으로 나타낸 개념도이다.
도 15a는 본 개시의 제1 예시에 따른 영상 융합 인공신경망 모델이 포함하는 건너뛰고 연결하기(skip-connection)를 설명하기 위한 예시도이다.
도 15b는 도 15a에 도시된 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보를 나타낸 예시도이다.
도 16은 본 개시의 제2 예시에 따른 NPU 아키텍처를 포함하는 시스템을 예시적으로 나타낸 개념도이다.
도 17은 본 개시의 제3 예시에 따른 NPU 아키텍처를 포함하는 시스템을 예시적으로 나타낸 개념도이다.
도 18은 본 개시의 제4 예시에 따른 NPU 아키텍처를 포함하는 시스템을 예시적으로 나타낸 개념도이다.
도 19는 도 12에 도시된 영상 융합 인공신경망 모델을 도 18에 도시된 제4 예시에 따라 쓰레드로 구분한 예를 나타낸다.
도 20은 본 개시의 제5 예시에 따른 NPU 아키텍처를 포함하는 시스템을 예시적으로 나타낸 개념도이다.
도 21은 도 20에 도시된 SFU의 파이프라인 구조의 제1 예시를 나타낸 예시도이다.
도 22a는 도 20에 도시된 SFU의 일 예시를 나타낸 예시도이다.
도 22b는 도 20에 도시된 SFU의 다른 예시를 나타낸 예시도이다.
도 23은 본 개시의 제6 예시에 따른 NPU 아키텍처를 포함하는 시스템을 예시적으로 나타낸 개념도이다.
도 24는 본 개시의 제7 예시에 따라 복수의 NPU를 활용하는 예를 나타낸 예시도이다.
도 25는 도 12에 도시된 퓨전(fusion) 인공신경망을 도 24에 도시된 복수의 NPU를 통해 처리하는 예를 나타낸 예시도이다.
본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 예시들을 참조하면 명확해질 것이다. 그러나, 본 개시는 이하에서 개시되는 예시들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이다. 본 예시들은 본 개시의 개시가 완전하도록 하며, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 본 개시는 청구항의 범주에 의해 정의될 뿐이다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조부호가 사용될 수 있다.
본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제1 사용자 기기와 제2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 개시에 기재된 권리범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~ 를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것 만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된)프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 개시에서 사용된 용어들은 단지 특정한 예시를 설명하기 위해 사용된 것으로, 다른 예시의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 개시에 기재된 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 개시에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있다. 또한, 일반적인 사전에 정의된 용어들은 본 개시에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 개시에서 정의된 용어일지라도 본 개시의 예시들을 배제하도록 해석될 수 없다.
본 개시의 여러 예시들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하다. 본 개시의 여러 예시들의 각각 특징들은 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 예시들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.
본 개시의 해석의 명확함을 위해, 이하에서는 본 개시에서 사용되는 용어들을 정의하기로 한다.
NPU는 신경 프로세싱 유닛(Neural Processing Unit)의 약어로서, CPU(Central processing unit)과 별개로 인공신경망 모델의 연산을 위해 특화된 프로세서를 의미할 수 있다.
ANN은 인공신경망(artificial neural network)의 약어로서, 인간의 지능을 모방하기 위하여, 인간 뇌 속의 뉴런들(Neurons)이 시냅스(Synapse)를 통하여 연결되는 것을 모방하여, 노드들을 레이어(Layer: 계층) 구조로 연결시킨, 네트워크를 의미할 수 있다.
인공신경망 모델은 영상을 융합하기 위한 모델로, Image/Video Reconstruction, Image/Video Enhancement와 같은 추론을 수행하도록 훈련된 모델일 수 있다.
또한, 융합된 영상을 입력으로 하는 다른 인공신경망 모델은 Object Classification, Object Detection, Object Segmentation, Object Tracking, Event Recognition, Event Prediction, Anomaly Detection, Density Estimation, Event Search, Measurement 등의 추론을 수행하도록 훈련된 모델일 수 있다.
예를 들면, 인공신경망 모델은 Transformer, Bisenet, Shelfnet, Alexnet, Densenet, Efficientnet, EfficientDet, Googlenet, Mnasnet, Mobilenet, Resnet, Shufflenet, Squeezenet, VGG, Yolo, RNN, CNN, DBN, RBM, LSTM 등의 모델일 수 있다. 단, 본 개시는 이에 제한되지 않으며, NPU(100)에서 동작 가능한 이 외의 새로운 인공신경망 모델일 수 있다.
인공신경망의 구조에 대한 정보는 레이어의 개수에 대한 정보, 레이어 내의 노드의 개수, 각 노드의 값, 연산 처리 방법에 대한 정보, 각 노드에 적용 되는 가중치 행렬에 대한 정보 등을 포함한다.
영상 융합 인공신경망 모델의 데이터 지역성에 대한 정보는 인공신경망 및 인공신경망을 처리하는 신경 프로세싱 유닛의 구조에 기초하여 결정된 메모리에 요청하는 데이터 접근 요청 순서를 포함하는 정보이다.
DNN은 심층 신경망(Deep Neural Network)의 약어로서, 보다 높은 인공 지능을 구현하기 위하여, 인공신경망의 은닉 레이어의 개수를 늘린 것을 의미할 수 있다.
CNN은 컨볼루션 신경망(Convolutional Neural Network)의 약어로서, 인간 뇌의 시각 피질에서 영상을 처리하는 것과 유사한 기능을 하는 신경망이다. 컨볼루션 신경망은 영상처리에 적합한 것으로 알려져 있으며, 입력 데이터의 특징들을 추출하고, 특징들의 패턴을 파악하기에 용이한 것으로 알려져 있다.
커널은 CNN에 적용되는 가중치 행렬을 의미할 수 있다.
칩-외부 메모리는 NPU 내부에는 메모리 크기가 한정적임을 고려하여 배치된 메모리일 수 있다. 즉, 용량이 큰 데이터 저장을 위해서 칩 외부에 메모리가 배치될 수 있다. 칩-외 부 메모리는 ROM, SRAM, DRAM, Resistive RAM, Magneto-resistive RAM, Phase- change RAM, Ferroelectric RAM, Flash Memory, HBM 등과 같은 메모리 중 하나의 메모리를 포함할 수 있다. 칩-외부 메모리는 적어도 하나의 메모리 유닛으로 구성될 수 있다. 칩-외부 메모리는 단일 (homogeneous) 메모리 유닛 또는 이종 (heterogeneous) 메모리 유닛으로 구성될 수 있다.
칩-내부 메모리는 NPU는 칩-내부 메모리를 포함할 수 있다. 칩-내부 메모리는 휘발성 메모리 및/또는 비휘발성 메모리를 포함할 수 있다. 예를 들면, 칩-내부 메모리는 ROM, SRAM, DRAM, Resistive RAM, Magneto-resistive RAM, Phase-change RAM, Ferroelectric RAM, Flash Memory, HBM 등과 같은 메모리 중 하나의 메모리를 포함할 수 있다. 칩-내부 메모리는 적어도 하나의 메모리 유닛으로 구성될 수 있다. 칩-내부 메모리는 단일(homogeneous) 메모리 유닛 또는 이종 (heterogeneous) 메모리 유닛으로 구성될 수 있다.
이하, 첨부한 도면을 참조하여 본 개시의 일 예시를 상세히 설명하도록 한다.
도 1 및 도 2는 본 개시의 일 예시에 따른 영상 융합 인공신경망 모델을 설명하는 개략적인 개념도이다.
도 1을 참조하면, 신경 프로세싱 유닛(100)은 영상 융합 인공신경망 모델(101)의 연산을 수행하도록 구성된 프로세싱 엘리먼트(102)를 포함한다. 신경 프로세싱 유닛(100)은 두 개의 영상(제1 영상, 제2 영상)을 기초로 새로운 영상(제3 영상)을 생성할 수 있다. 제1 영상 및 제2 영상은 하나의 객체에 대한 서로 다른 영상으로, 이종의 센서에서 획득된 영상일 수 있다. 예를 들어, 이종의 센서는 가시광선 촬영용 이미지 센서, 적외선 촬영용 이미지 센서 등일 수 있다.
가시광선 촬영용 이미지 센서는 R(Red, 적색), G(Green, 녹색), B(Blue, 청색) 픽셀을 통해 가시광 영역의 컬러 영상(color image)(제1 영상)을 획득한다. 적외선 촬영용 이미지 센서는 픽셀을 통해 열영상(Thermal color map)(제2 영상)을 획득할 수 있다. 일반적으로, 적외선 촬영용 이미지 센서는 가시광선보다 파장이 큰 에너지를 감지하기 때문에, 동일한 크기의 센서라도 픽셀 수, 즉 해상도가 낮을 수 밖에 없다. 본 개시에서는 높은 해상도의 적외선 촬영용 이미지 센서를 이용하지 않고도, 영상 융합 인공신경망 모델(101)을 통해 가시광선 촬영용 이미지 센서의 해상도를 만족하는 제3 영상을 생성할 수 있다.
이에, 신경 프로세싱 유닛(100)은 서로 다른 해상도 및 영상 특성을 가지는 제1 영상 및 제2 영상을 입력하여, 새로운 제3 영상을 출력하도록 학습된 모델일 수 있다. 제3 영상은 제3 해상도는 제1 영상의 제1 해상도와 제2 영상의 제2 해상도 사이의 값을 가질 수 있다. 예를 들어, 제3 영상의 제3 해상도는 제1 영상의 제1 해상도와 동일할 수 있다. 또한, 제3 영상의 제3 영상 특성은, 제1 영상의 영상 특성 또는 제2 영상의 제2 영상 특성과 적어도 일부 동일할 수 있다. 예를 들어, 제1 영상의 RGB 채널 각각의 제1 해상도가 1024 x 786이고, 제2 영상의 열화상 채널 제2 해상도가 100 x 60일 때, 제3 영상의 제3 해상도는 1024 x 786일 수 있다. 즉, 제3 영상의 해상도는 제1 영상의 사이즈 및 제1 해상도와 동일하고, 제3 영상 특성에는 제2 영상 특성에 대응되는 열영상이 적용될 수 있다.
다른 예시에서, 신경 프로세싱 유닛(100)은 영상 융합 인공신경망 모델(101)이 상이한 입력 데이터를 이용할 수 있다. 구체적으로, 제1 영상이 컬러 영상인 경우, 신경 프로세싱 유닛(100)의 처리 속도가 증가할 수 있다. 그에 따라, 영상 융합 인공신경망 모델(101)은 제1 영상의 픽셀 별 밝기 값 만을 입력으로 하여, 컬러 영상을 입력으로 한 것과 동일한 제3 영상을 생성하면서도 신경 프로세싱 유닛(100)의 처리 속도를 단축시킬 수 있다. 즉, 영상 융합 인공신경망 모델(101)은 제1 영상의 RGB 값(3 channel) 또는 제1 영상의 픽셀 별 밝기 값(1 channel)만을 입력하도록 구성된 모델일 수 있다.
이와 같이, 서로 다른 영상들의 특성을 조합하여 새로운 영상 생성이 가능한 영상 융합 인공신경망 모델(101)의 가중치 파라미터는 GAN(generative adversarial networks) 구조를 기초로 학습될 수 있다. GAN 구조는 가상의 영상 또는 실제 영상을 생성하는 생성기(generator)와 생성기에서 생성된 영상의 진위 여부를 판별하는 검증기(discriminator)로 구성된다. GAN은 생성기와 검증기가 서로의 성능을 개선하도록 적대적으로 경쟁해 나가는 모델일 수 있다. 구체적으로, 생성기는 실제 영상(real data)를 검증기에 제공하여 검증기가 해당 영상을 진짜로 판별하도록 학습하고, 두 번째로 생성기에서 생성한 가상의 영상(fake data)를 입력하여 검증기가 해당 영상을 가짜로 판별하도록 학습할 수 있다. 그리고, 생성기는 이 후 검증기를 속이기 위한 가상의 영상을 만들어 내도록 학습함으로써, 서로 간의 경쟁에 따라 조화로운 영상을 생성하도록 발전할 수 있다.
즉, 학습 단계에서, 영상 융합 인공신경망 모델(101)은 GAN을 구성하는 생성기 및 검증기가 상호 경쟁하여 제3 영상의 제3 해상도를 높이기 위한 가중치를 업데이트하도록 구성된 모델일 수 있다.
본 개시에서는 신경 프로세싱 유닛(100)의 메모리 사용량을 최소화하기 위해 분류기(generator)를 통한 영상 생성 학습은 별도의 장치/서버(미도시)에서 수행할 수 있다. 그리고, 신경 프로세싱 유닛(100)이 연산하는 영상 융합 인공신경망 모델(101)은 하나의 객체에 대한 서로 다른 영상(예. 1. 고해상도 가시광 영상, 2. 저해상도 열영상)을 입력으로 하여 새로운 영상(예. 고해상도 열영상)을 생성하도록 구성된 생성기(generator)에 대응될 수 있다.
한편, 영상 융합 인공신경망 모델(101)은 제1 영상 및 제2 영상과 실질적으로 유사한 학습 데이터를 세트를 기초로 학습될 수 있다. 즉, 학습에 사용되는 영상과 이후, 새로운 영상 생성을 위해 수신되는 영상은 상이할 수 있다.
이하, 영상 융합 인공신경망 모델을 통해 생성되는 영상을 예시적으로 설명한다.
도 3 및 도 4는 본 개시의 일 예시에 따른 영상 융합 인공신경망 모델을 통해 생성된 영상을 설명하는 개략적인 개념도이다.
도 3을 참조하면, 영상 융합 인공신경망 모델은 이종의 센서에서 획득된 영상들을 입력으로 할 수 있다. 예를 들어, 이종의 센서는 가시광 촬영용 이미지 센서, 적외선 촬영용 이미지 센서 등일 수 있다. 영상 융합 인공신경망 모델은 하나의 객체에 대해 서로 다른 이미지 센서로 획득된 제1 영상 및 제2 영상을 입력으로 할 수 있다. 그리고, 영상 융합 인공신경망 모델은 이종의 이미지 센서에서 획득된 영상들을 기초로 이미지 센서 별 영상 특성이 융합된 영상을 생성할 수 있다. 즉, 영상 융합 인공신경망 모델은 제1 영상의 사이즈, 해상도는 유지하면서, 제2 영상의 온도 정보(제2 영상 특성)가 반영된 제3 영상을 생성할 수 있다.
다른 예시에서, 영상 융합 인공신경망 모델은 제1 영상에서 결정 가능한 적어도 하나의 특징과 제2 영상에서 결정 가능한 적어도 하나의 특징을 강조하기 위한 가중치가 적용된 모델일 수 있다. 구체적으로, 신경 프로세싱 유닛(100)은 제1 영상과 제2 영상의 특징을 생성할 수 있다. 일 예로, 신경 프로세싱 유닛(100)은 컬러 영상인, 제1 영상에서 고해상도의 엣지 컨텐츠의 특징을 추론한 특징맵을 생성할 수 있다. 특징맵은 히트맵(heatmap), 활성화맵, 또는 파라미터 등으로 지칭될 수 있다.
또한, 신경 프로세싱 유닛(100)은 열영상인, 제2 영상에서 온도에 따른 세그멘테이션을 추론한 특징맵을 생성할 수 있다. 이어서 고해상도의 엣지 특징맵과 저해상도의 온도 세그멘테이선 특징맵을 기초로 고해상도의 열영상의 영상 융합을 처리할 수 있다.
몇몇 예시로는, 신경 프로세싱 유닛(100)은 제1 영상의 특징으로 객체의 존재를 더 검출할 수 있고, 제2 영상의 특징으로, 온도가 임계 값 이상인 영역을 결정할 수 있다. 그에 따라, 영상 융합 인공신경망 모델은 각각의 영상에서 결정 가능한 특징에 가중치를 적용한 새로운 영상을 생성할 수 있다. 예를 들어, 도 4와 같이, 신경 프로세싱 유닛(100)은 제1 영상 내 객체(사람)를 검출하고, 객체가 검출된 영역 내에서 특정 온도 이상인 영역만 열 영상화할 수 있다. 즉, 신경 프로세싱 유닛(100)은 제1 영상의 적어도 일부 영역에 제2 영상에서 결정 가능한 적어도 하나의 특징이 적용된 제3 영상 생성할 수 있다.
한편, 이와 같이 일부 영역에 한정된 고해상도의 열 영상을 생성하기 위해, 신경 프로세싱 유닛(100)의 프로세싱 엘리먼트 어레이는 Dilated Convolution, Transposed Convolution, 및 Bilinear Interpolation 연산 중 적어도 하나의 연산을 처리하도록 구성될 수 있다.
또 다른 예시에서, 신경 프로세싱 유닛(100)은 하나의 객체를 촬영한 제1 영상 및 제 2 영상에서 얼굴 영역에 대응되는 제1 부분 영상 및 제2 부분 영상을 추출할 수 있다. 그에 따라, 신경 프로세싱 유닛(100)은 제1 부분 영상 및 제2 부분 영상만을 입력하도록 구성된 인공신경망 유닛을 이용하여 얼굴에만 영상 특징의 융합된 영상을 생성할 수도 있다.
이와 같이, 신경 프로세시 유닛(100)이 사람의 얼굴 영역에만 상이한 영상 특징을 적용시킨 영상을 융합 생성함으로써, 개인정보를 보호할 수 있다.
이하, 영상 융합 인공신경망 모델의 연산을 수행하는 신경 프로세싱 유닛(100)에 대하여 설명한다.
도 5는 본 개시의 일 예시에 따른 신경 프로세싱 유닛을 설명하는 개략적인 개념도이다.
도 5에 도시된, NPU(100)는 영상 융합 인공신경망 모델을 위한 동작을 수행하도록 특화된 프로세서이다.
인공신경망은 여러 입력 또는 자극이 들어오면 각각 가중치를 곱해 더해주고, 추가적으로 편차를 더한 값을 활성화 함수를 통해 변형하여 전달하는 인공 뉴런들이 모인 네트워크를 의미한다. 이렇게 학습된 인공신경망은 입력 데이터로부터 추론(inference) 결과를 출력하는데 사용될 수 있다.
NPU(100)는 전기/전자 회로로 구현된 반도체일 수 있다. 전기/전자 회로라 함은 수많은 전자 소자, (예컨대 트렌지스터, 커패시터)를 포함하는 것을 의미할 수 있다.
도 5를 참조하면, NPU(100)는 프로세싱 엘리먼트(processing element: PE) 레이(110), NPU 내부 메모리(120), NPU 스케줄러(130), 및 NPU 인터페이스(140)를 포함할 수 있다. 프로세싱 엘리먼트 어레이(110), NPU 내부 메모리(120), NPU 스케줄러(130), 및 NPU 인터페이스(140) 각각은 수많은 트렌지스터들이 연결된 반도체 회로일 수 있다. 따라서, 이들 중 일부는 육안으로는 식별되어 구분되기 어려울 수 있고, 동작에 의해서만 식별될 수 있다. 예컨대, 임의 회로는 프로세싱 엘리먼트 어레이(110)으로 동작하기도 하고, 혹은 NPU 스케줄러(130)로 동작될 수도 있다. NPU 스케줄러(130)는 NPU(100)의 인공신경망 추론 동작을 제어하도록 구성된 제어부의 기능을 수행하도록 구성될 수 있다. 부연 설명하면, 제어부의 일부는 스케줄러(130)로 지칭될 수 있다. NPU 스케줄러(130)는 제어부의 일부일 수 있다. NPU 스케줄러(130)는 제어부로 지칭되는 것도 가능하다. 제어부는 NPU 스케줄러(130)를 포함할 수 있다. 제어부는 direct memory access(DMA) 등 NPU(100)의 다양한 제어 기능들을 하는 회로의 통칭일 수 있다. 회로의 기능에 의해서 제어부가 정의되는 것도 가능하다. 부연 설명하면, 제어부가 인공신경망 모델의 인공신경망 데이터 지역성에 기초하여 인공신경망 모델의 각 연산 단계의 순서에 따라 프로세싱 엘리먼트 어레이(110)를 제어하는 회로를 NPU 스케줄러(130)로 정의할 수 있다.
NPU(100)는 프로세싱 엘리먼트 어레이(110), 프로세싱 엘리먼트 어레이(110)에서 추론될 수 있는 영상 융합 인공신경망 모델을 저장하도록 구성된 NPU 내부 메모리(120), 및 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보 또는 구조에 대한 정보에 기초하여 프로세싱 엘리먼트 어레이(110) 및 NPU 내부 메모리(120)를 제어하도록 구성된 NPU 스케줄러(130)를 포함할 수 있다. 여기서, NPU 내부 메모리(120)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보 또는 구조에 대한 정보를 저장할 수 있다. 즉, 영상 융합 인공신경망 모델은 특정 추론 기능(예컨대, 영상 융합, 객체의 움직임, 객체의 자세, 동작 추적 등)을 수행하도록 학습된 AI 인식모델을 의미할 수 있다.
프로세싱 엘리먼트 어레이(110)는 인공신경망을 위한 동작을 수행할 수 있다.
NPU 인터페이스(140)는 시스템 버스(예컨대, 하나 이상의 통신 버스 또는 신호 라인)를 통해서 NPU(100)와 연결된 다양한 컴포넌트들, 예컨대 메모리와 통신할 수 있다.
NPU 스케줄러(130)는 신경 프로세싱 유닛(100)의 추론 연산을 위한 프로세싱 엘리먼트 어레이(100)의 연산 및 NPU 내부 메모리(120)의 읽기 및 쓰기 순서를 제어하도록 구성된다.
NPU 스케줄러(130)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보 또는 구조에 대한 정보에 기초하여 프로세싱 엘리먼트 어레이(100) 및 NPU 내부 메모리(120)을 제어하도록 구성될 수 있다.
NPU 스케줄러(130)는 프로세싱 엘리먼트 어레이(100)에서 작동할 영상 융합 인공신경망 모델의 구조를 분석하거나 또는 이미 분석된 정보를 제공받을 수 있다. 분석된 정보는 머신 코드에 포함될 수 있다. 예를 들면, 영상 융합 인공신경망 모델이 포함할 수 있는 인공신경망의 데이터는 각각의 레이어의 노드 데이터(즉, 특징맵), 레이어들의 배치 데이터, 지역성 정보 또는 구조에 대한 정보, 각각의 레이어의 노드를 연결하는 연결망 각각의 가중치 데이터 (즉, 가중치 커널) 중 적어도 일부를 포함할 수 있다. 인공신경망의 데이터는 NPU 스케줄러(130) 내부에 제공되는 메모리 또는 NPU 내부 메모리(120)에 저장될 수 있다. NPU 스케줄러(130)는 머신 코드에 의해서 동작될 수 있다.
NPU 스케줄러(130)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보 또는 구조에 대한 정보에 기초하여 NPU(100)가 수행할 영상 융합 인공신경망 모델의 연산 순서를 스케줄링 할 수 있다. 머신 코드는 스케줄링 데이터를 포함할 수 있다. NPU 스케줄러(130)는 머신 코드에 포함된 스케줄링에 따라서 동작할 수 있다. 즉, NPU 스케줄러(130)는 머신 코드에 의해서 동작하도록 구성될 수 있다.
NPU 스케줄러(130)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보 또는 구조에 대한 정보에 기초하여 영상 융합 인공신경망 모델의 레이어의 특징맵 및 가중치 데이터가 저장된 메모리 어드레스 값을 획득할 수 있다. 예를 들면, NPU 스케줄러(130)는 메모리에 저장된 영상 융합 인공신경망 모델의 레이어의 특징맵 및 가중치 데이터가 저장된 메모리 어드레스 값을 획득할 수 있다. 따라서 NPU 스케줄러(130)는 구동할 영상 융합 인공신경망 모델의 레이어의 특징맵 및 가중치 데이터를 메모리(200)에서 가져와서 NPU 내부 메모리(120)에 저장할 수 있다.
각각의 레이어의 특징맵은 대응되는 각각의 메모리 어드레스 값을 가질 수 있다.
각각의 가중치 데이터는 대응되는 NPU 내부 메모리(120)의 각각의 메모리 어드레스 값을 가질 수 있다.
NPU 스케줄러(130)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보 또는 구조에 대한 정보, 예를 들면, 영상 융합 인공신경망 모델의 인공신경망의 레이어들의 배치 데이터 지역성 정보 또는 구조에 대한 정보에 기초해서 프로세싱 엘리먼트 어레이(110)의 연산 순서를 스케줄링 할 수 있다.
NPU 스케줄러(130)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보 또는 구조에 대한 정보에 기초하여 스케줄링 하기 때문에, 일반적인 CPU의 스케줄링 개념과 다르게 동작할 수 있다. 일반적인 CPU의 스케줄링은 공평성, 효율성, 안정성, 반응 시간 등을 고려하여, 최상의 효율을 낼 수 있도록 동작한다. 즉, 우선 순위, 연산 시간 등을 고려해서 동일 시간내에 가장 많은 프로세싱을 수행하도록 스케줄링 한다.
종래의 CPU는 각 프로세싱의 우선 순서, 연산 처리 시간 등의 데이터를 고려하여 작업을 스케줄링 하는 알고리즘을 사용하였다.
이와 다르게 NPU 스케줄러(130)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보 또는 구조에 대한 정보에 기초하여 결정된 NPU(100)의 프로세싱 순서대로 NPU(100)를 제어할 수 있다.
더 나아가면, NPU 스케줄러(130)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보 또는 구조에 대한 정보 및/또는 사용하려는 신경 프로세싱 유닛(100)의 데이터 지역성 정보 또는 구조에 대한 정보에 기초하여 결정된 프로세싱 순서대로 NPU(100)를 구동할 수 있다.
단, 본 개시는 NPU(100)의 데이터 지역성 정보 또는 구조에 대한 정보에 제한되지 않는다.
NPU 스케줄러(130)는 인공신경망의 데이터 지역성 정보 또는 구조에 대한 정보를 저장하도록 구성될 수 있다.
즉, NPU 스케줄러(130)는 적어도 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보 또는 구조에 대한 정보만 활용하더라도 프로세싱 순서를 결정할 수 있다.
더 나아가서, NPU 스케줄러(130)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보 또는 구조에 대한 정보 및 NPU(100)의 데이터 지역성 정보 또는 구조에 대한 정보를 고려하여 NPU(100)의 프로세싱 순서를 결정할 수 있다. 또한, 결정된 프로세싱 순서대로 NPU(100)의 프로세싱 최적화도 가능하다.
프로세싱 엘리먼트 어레이(110)는 인공신경망의 특징맵과 가중치 데이터를 연산하도록 구성된 복수의 프로세싱 엘리먼트들(PE1 to PE12)이 배치된 구성을 의미한다. 각각의 프로세싱 엘리먼트는 MAC (multiply and accumulate) 연산기 및/또는 ALU (Arithmetic Logic Unit) 연산기를 포함할 수 있다. 단, 본 개시에 따른 예시들은 이에 제한되지 않는다.
도 5에서는 예시적으로 복수의 프로세싱 엘리먼트들이 도시되었지만, 하나의 프로세싱 엘리먼트 내부에 MAC을 대체하여, 복수의 곱셈기(multiplier) 및 가산기 트리(adder tree)로 구현된 연산기들이 병렬로 배치되어 구성되는 것도 가능하다. 이러한 경우, 프로세싱 엘리먼트 어레이(110)는 복수의 연산기를 포함하는 적어도 하나의 프로세싱 엘리먼트로 지칭되는 것도 가능하다.
프로세싱 엘리먼트 어레이(110)는 복수의 프로세싱 엘리먼트들(PE1 to PE12)을 포함하도록 구성된다. 도 3에 도시된 복수의 프로세싱 엘리먼트들(PE1 to PE12)은 단지 설명의 편의를 위한 예시이며, 복수의 프로세싱 엘리먼트들(PE1 to PE12)의 개수는 제한되지 않는다. 복수의 프로세싱 엘리먼트들(PE1 to PE12)의 개수에 의해서 프로세싱 엘리먼트 어레이(110)의 크기 또는 개수가 결정될 수 있다. 프로세싱 엘리먼트 어레이(110)의 크기는 N x M 행렬 형태로 구현될 수 있다. 여기서 N 과 M은 0보다 큰 정수이다. 프로세싱 엘리먼트 어레이(110)는 N x M 개의 프로세싱 엘리먼트를 포함할 수 있다. 즉, 프로세싱 엘리먼트는 1개 이상일 수 있다.
프로세싱 엘리먼트 어레이(110)의 크기는 NPU(100)이 작동하는 영상 융합 인공신경망 모델의 특성을 고려하여 설계할 수 있다. 따라서, 프로세싱 엘리먼트 어레이(110)의 가동률(utilization rate %)이 향상될 수 있다.
프로세싱 엘리먼트 어레이(110)는 인공신경망 연산에 필요한 덧셈, 곱셈, 누산 등의 기능을 수행하도록 구성된다. 다르게 설명하면, 프로세싱 엘리먼트 어레이(110)는 MAC(multiplication and accumulation) 연산을 수행하도록 구성될 수 있다.
프로세싱 엘리먼트 어레이(110)는 MAC 연산 결과를 양자화해서 출력하도록 구성될 수 있다. 단, 본 개시의 예시들은 이에 제한되지 않는다.
NPU 내부 메모리(120)은 메모리 크기와 영상 융합 인공신경망 모델의 데이터 크기에 따라 영상 융합 인공신경망 모델의 전부 또는 일부를 저장할 수 있다.
이하, 프로세싱 엘리먼트 어레이(110) 중 제1 프로세싱 엘리먼트(PE1)를 예를 들어 설명한다.
도 6은 도 5에 도시된 프로세싱 엘리먼트 어레이 중 하나의 프로세싱 엘리먼트를 설명하는 개략적인 개념도이다.
도 6을 참조하면, 제1 프로세싱 엘리먼트(PE1)는 곱셈기(111), 가산기(112), 누산기(113), 및 비트 양자화 유닛(114)을 포함할 수 있다. 단, 본 개시에 따른 예시들은 이에 제한되지 않으며, 프로세싱 엘리먼트 어레이(110)는 인공신경망의 연산 특성을 고려하여 변형 실시될 수도 있다.
곱셈기(111)는 입력 받은 (N)bit 데이터와 (M)bit 데이터를 곱한다. 곱셈기(111)의 연산 값은 (N+M)bit 데이터로 출력된다.
곱셈기(111)는 하나의 변수와 하나의 상수를 입력 받도록 구성될 수 있다.
누산기(113)는 (L)loops 횟수만큼 가산기(112)를 사용하여 곱셈기(111)의 연산 값과 누산기(113)의 연산 값을 누산 한다. 따라서 누산기(113)의 출력부와 입력 회로의 데이터의 비트 폭은 (N+M+log2(L))bit로 출력될 수 있다. 여기서 L은 0보다 큰 정수이다.
누산기(113)는 누산이 종료되면, 초기화 신호(initialization reset)를 인가받아서 누산기(113) 내부에 저장된 데이터를 0으로 초기화 할 수 있다. 단, 본 개시에 따른 예시들은 이에 제한되지 않는다.
비트 양자화 유닛(114)은 누산기(113)에서 출력되는 데이터의 비트 폭을 저감할 수 있다. 비트 양자화 유닛(114)은 NPU 스케줄러(130)에 의해서 제어될 수 있다. 양자화된 데이터의 비트 폭은 (X)bit로 출력될 수 있다. 여기서 X는 0보다 큰 정수이다. 상술한 구성에 따르면, 프로세싱 엘리먼트 어레이(110)는 MAC 연산을 수행하도록 구성되고, 프로세싱 엘리먼트 어레이(110)는 MAC 연산 결과를 양자화해서 출력할 수 있는 효과가 있다. 특히 이러한 양자화는 (L)loops가 증가할수록 소비 전력을 더 절감할 수 있는 효과가 있다. 또한 소비 전력이 저감되면 발열도 저감할 수 있는 효과가 있다. 특히 발열을 저감하면 NPU(100)의 고온에 의한 오동작 발생 가능성을 저감할 수 있는 효과가 있다.
비트 양자화 유닛(114)의 출력 데이터(X)bit은 다음 레이어의 노드 데이터 또는 합성곱의 입력 데이터가 될 수 있다. 만약 영상 융합 인공신경망 모델이 양자화되었다면, 비트 양자화 유닛(114)은 양자화된 특징맵 및/또는 가중치를 영상 융합 인공신경망 모델에서 제공받도록 구성될 수 있다. 단, 이에 제한되지 않으며, NPU 스케줄러(130)는 영상 융합 인공신경망 모델을 분석하여 양자화된 정보를 추출하도록 구성되는 것도 가능하다. 따라서 양자화된 데이터 크기에 대응되도록, 출력 데이터(X)bit를 양자화 된 비트 폭으로 변환하여 출력될 수 있다. 비트 양자화 유닛(114)의 출력 데이터(X)bit는 양자화된 비트 폭으로 NPU 내부 메모리(120)에 저장될 수 있다.
즉, 본 개시의 일 예시에 따른 NPU(100)의 프로세싱 엘리먼트 어레이(110)는 곱셈기(111), 가산기(112), 누산기(113), 및 비트 양자화 유닛(114)을 포함할 수 있다.
이하, 본 개시의 NPU(100)의 다른 예시에 대하여 설명한다.
도 7은 도 5에 도시된 신경 프로세싱 유닛의 변형 예를 나타낸 개념도이다.
도 7을 설명하기에 앞서, 도 7에 도시된 NPU(100)은 도 5에 예시적으로 도시된 프로세싱 유닛(100)과 비교하면, 프로세싱 엘리먼트 어레이(110)를 제외하곤 실질적으로 동일하기 때문에, 이하 설명의 편의를 위해서 중복 설명은 생략한다.
도 7을 참조하면, 엘리먼트 어레이(110)는 복수의 프로세싱 엘리먼트들(PE1 to PE12) 외에, 각각의 프로세싱 엘리먼트들(PE1 to PE12)에 대응되는 각각의 레지스터 파일들(RF1 to RF12)을 더 포함할 수 있다.
다만, 도 7에 도시된 복수의 프로세싱 엘리먼트들(PE1 to PE12) 및 복수의 레지스터 파일들(RF1 to RF12)은 단지 설명의 편의를 위한 예시이며, 복수의 프로세싱 엘리먼트들(PE1 to PE12) 및 복수의 레지스터 파일들(RF1 to RF12)의 개수는 제한되지 않는다.
복수의 프로세싱 엘리먼트들(PE1 to PE12) 및 복수의 레지스터 파일들(RF1 to RF12)의 개수에 의해서 프로세싱 엘리먼트 어레이(110)의 크기 또는 개수가 결정될 수 있다. 프로세싱 엘리먼트 어레이(110) 및 복수의 레지스터 파일들(RF1 to RF12)의 크기는 N x M 행렬 형태로 구현될 수 있다. 여기서 N 과 M은 0보다 큰 정수이다.
프로세싱 엘리먼트 어레이(110)의 어레이 크기는 NPU(100)이 작동하는 영상 융합 인공신경망 모델의 특성을 고려하여 설계할 수 있다. 부연 설명하면, 레지스터 파일의 메모리 크기는 작동할 영상 융합 인공신경망 모델의 데이터 크기, 요구되는 동작 속도, 요구되는 소비 전력 등을 고려하여 결정될 수 있다.
NPU(100)의 레지스터 파일들(RF1 to RF12)은 프로세싱 엘리먼트들(PE1 to PE12)과 직접 연결된 정적 메모리 유닛이다. 레지스터 파일들(RF1 to RF12)은 예를 들면, 플립플롭, 및/또는 래치 등으로 구성될 수 있다. 레지스터 파일들(RF1 to RF12)은 대응되는 프로세싱 엘리먼트들(PE1 to PE12)의 MAC 연산 값을 저장하도록 구성될 수 있다. 레지스터 파일들(RF1 to RF12)은 NPU 내부 메모리(120)와 가중치 데이터 및/또는 노드 데이터를 제공하거나 제공받도록 구성될 수 있다.
레지스터 파일들(RF1 to RF12)은 MAC 연산 시 누산기의 임시 메모리의 기능을 수행하도록 구성되는 것도 가능하다.
레지스터 파일들(RF1 to RF12)은 연산이 끝난 특징맵을 임시 저장한 다음, 다음 연산에서 상기 특징맵을 재사용하여 전력 소비를 저감하는 것도 가능하다.
이하, NPU(100)에서 작동될 수 있는 예시적인 영상 융합 인공신경망 모델(110-10)의 연산에 대하여 설명한다.
도 8은 본 개시의 일 예시에 따른 영상 융합 인공신경망 모델을 예시적으로 나타낸 개념도이다.
도 8의 영상 융합 인공신경망 모델(110-10)은 도 5 또는 도 7에 도시된 NPU(100)에서 학습되거나 별도의 기계 학습 장치에서 학습된 인공신경망일 수 있다. 영상 융합 인공신경망 모델(110-10)은 영상 속 객체의 움직임, 자세 추정 등 다양한 추론 기능을 수행하도록 학습된 인공신경망일 수 있다.
영상 융합 인공신경망 모델(110-10)은 심층 신경망(DNN, Deep Neural Network)일 수 있다. 단, 본 개시의 예시들에 따른 영상 융합 인공신경망 모델(110-10)은 심층 신경망에 제한되지 않는다.
예를 들면, 영상 융합 인공신경망 모델은 Image/Video Reconstruction, Image/Video Enhancement와 같은 추론을 수행하도록 훈련된 모델일 수 있다.
또한, 융합된 영상을 입력으로 하는 다른 인공신경망 모델은 Super-resolution, Upscaling, Image fusion, Object Classification, Object Detection, Object Segmentation, Object Tracking, Event Recognition, Event Prediction, Anomaly Detection, Density Estimation, Event Search, Measurement 등의 추론을 수행하도록 훈련된 모델일 수 있다.
예를 들면, 영상 융합 인공신경망 모델은 Transformer, Bisenet, Shelfnet, Alexnet, Densenet, Efficientnet, EfficientDet, Googlenet, Mnasnet, Mobilenet, Resnet, Shufflenet, Squeezenet, VGG, Yolo, RNN, CNN, DBN, RBM, LSTM 등의 모델일 수 있다. 단, 단, 본 개시는 이에 제한되지 않으며, NPU(100)에서 동작 가능한 이 외의 새로운 인공신경망 모델일 수 있다.
다양한 예시에서, 영상 융합 인공신경망 모델(110-10)은 적어도 두 개의 서로 다른 모델들에 기초한 앙상블 모델일 수도 있다.
영상 융합 인공신경망 모델(110-10)의 각 레이어의 가중치 값, 노드 값, 누산된 값, 특징맵, 가중치 등의 파라미터의 적어도 일부는 NPU(100)의 NPU 내부 메모리(120)에 저장될 수 있다.
구체적으로, 도 8을 참조하면, 영상 융합 인공신경망 모델(110-10)에 의한 추론 과정은 NPU(100)에 의해서 수행될 수 있다.
영상 융합 인공신경망 모델(110-10)은 입력 레이어(110-11), 제1 연결망(110-12), 제1 은닉 레이어(110-13), 제2 연결망(110-14), 제2 은닉 레이어(110-15), 제3 연결망(110-16), 및 출력 레이어(110-17)을 포함하는 예시적인 심층 신경망 모델이다. 단, 본 개시는 도 8에 도시된 영상 융합 인공신경망 모델에만 제한되는 것은 아니다. 제1 은닉 레이어(110-13) 및 제2 은닉 레이어(110-15)는 복수의 은닉 레이어로 지칭되는 것도 가능하다.
입력 레이어(110-11)는 예시적으로, x1 및 x2 입력 노드를 포함할 수 있다. 즉, 입력 레이어(110-11)는 2개의 입력 값에 대한 정보를 포함할 수 있다. 도 5 또는 도 7에 도시된 NPU 스케줄러(130)는 입력 레이어(110-11)로부터의 입력 값에 대한 정보가 저장되는 메모리 어드레스를 도 5 또는 도 7에 도시된 NPU 내부 메모리(120)에 설정할 수 있다.
제1 연결망(110-12)은 예시적으로, 입력 레이어(110-11)의 각각의 노드를 제1 은닉 레이어(110-13)의 각각의 노드로 연결시키기 위한 6개의 가중치 값에 대한 정보를 포함할 수 있다. 도 5 또는 도 7에 도시된 NPU 스케줄러(130)는 제1 연결망(110-12)의 가중치 값에 대한 정보가 저장되는 메모리 어드레스를 NPU 내부 메모리(120)에 설정할 수 있다. 각각의 가중치 값은 입력 노드 값과 곱해지고, 곱해진 값들의 누산된 값이 제1 은닉 레이어(110-13)에 저장된다. 여기서 누산된 값을 가지는 노드들은 특징맵으로 지칭될 수 있다.
제1 은닉 레이어(110-13)는 예시적으로 a1, a2, 및 a3 노드를 포함할 수 있다. 즉, 제1 은닉 레이어(110-13)는 3개의 노드 값에 대한 정보를 포함할 수 있다. 도 5 또는 도 7에 도시된 NPU 스케줄러(130)는 제1 은닉 레이어(110-13)의 노드 값에 대한 정보를 저장시키기 위한 메모리 어드레스를 NPU 내부 메모리(120)에 설정할 수 있다.
NPU 스케줄러(130)는 제1 프로세싱 엘리먼트(PE1)가 제1 은닉 레이어(110-13)의 a1 노드의 MAC 연산을 수행하도록 연산 순서를 스케줄링 하도록 구성될 수 있다. NPU 스케줄러(130)는 제2 프로세싱 엘리먼트(PE2)가 제1 은닉 레이어(110-13)의 a2 노드의 MAC 연산을 수행하도록 연산 순서를 스케줄링 하도록 구성될 수 있다. NPU 스케줄러(130)는 제3 프로세싱 엘리먼트(PE3)가 제1 은닉 레이어(110-13)의 a3 노드의 MAC 연산을 수행하도록 연산 순서를 스케줄링 하도록 구성될 수 있다. 여기서 NPU 스케줄러(130)는 3개의 프로세싱 엘리먼트들이 병렬로 동시에 MAC 연산을 각각 수행하도록 연산 순서를 미리 스케줄링 할 수 있다. 상기 스케줄링 정보는 머신 코드에 포함될 수 있다. 따라서 NPU 스케줄러(130)는 머신 코드에 포함된 스케줄링 정보에 따라 동작될 수 있다.
제2 연결망(110-14)은 예시적으로, 제1 은닉 레이어(110-13)의 각각의 노드를 제2 은닉 레이어(110-15)의 각각의 노드로 연결시키기 위한 9개의 가중치 값에 대한 정보를 포함할 수 있다. 도 5 또는 도 7에 도시된 NPU 스케줄러(130)는 제2 연결망(110-14)의 가중치 값에 대한 정보를 저장시키기 위한 메모리 어드레스를 NPU 내부 메모리(120)에 설정할 수 있다. 상기 제2 연결망(110-14)의 가중치 값은 제1 은닉 레이어(110-13)로부터 입력되는 노드 값과 각기 곱해지고, 곱해진 값들의 누산된 값이 제2 은닉 레이어(110-15)에 저장된다.
제2 은닉 레이어(110-15)는 예시적으로 b1, b2, 및 b3 노드를 포함할 수 있다. 즉, 제2 은닉 레이어(110-15)는 3개의 노드 값에 대한 정보를 포함할 수 있다. NPU 스케줄러(130)는 제2 은닉 레이어(110-15)의 노드 값에 대한 정보를 저장시키기 위한 메모리 어드레스를 NPU 내부 메모리(120)에 설정할 수 있다.
NPU 스케줄러(130)는 제4 프로세싱 엘리먼트(PE4)가 제2 은닉 레이어(110-15)의 b1 노드의 MAC 연산을 수행하도록 연산 순서를 스케줄링 하도록 구성될 수 있다. NPU 스케줄러(130)는 제5 프로세싱 엘리먼트(PE5)가 제2 은닉 레이어(110-15)의 b2 노드의 MAC 연산을 수행하도록 연산 순서를 스케줄링 하도록 구성될 수 있다. NPU 스케줄러(130)는 제6 프로세싱 엘리먼트(PE6)가 제2 은닉 레이어(110-15)의 b3 노드의 MAC 연산을 수행하도록 연산 순서를 스케줄링 하도록 구성될 수 있다. 상기 스케줄링 정보는 머신 코드에 포함될 수 있다.
여기서 NPU 스케줄러(130)는 3개의 프로세싱 엘리먼트들이 병렬로 동시에 MAC 연산을 각각 수행하도록 연산 순서를 미리 스케줄링 할 수 있다.
여기서, NPU 스케줄러(130)는 영상 융합 인공신경망 모델의 제1 은닉 레이어(110-13)의 MAC 연산 이후 제2 은닉 레이어(110-15)의 연산이 수행되도록 스케줄링을 결정할 수 있다.
즉, NPU 스케줄러(130)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보 또는 구조에 대한 정보에 기초하여 프로세싱 엘리먼트 어레이(100) 및 NPU 내부 메모리(120)을 제어하도록 구성될 수 있다.
제3 연결망(110-16)은 예시적으로, 제2 은닉 레이어(110-15)의 각각의 노드와 출력 레이어(110-17)의 각각의 노드를 연결하는 6개의 가중치 값에 대한 정보를 포함할 수 있다. NPU 스케줄러(130)는 제3 연결망(110-16)의 가중치 값에 대한 정보를 저장시키기 위한 메모리 어드레스를 NPU 내부 메모리(120)에 설정할 수 있다. 제3 연결망(110-16)의 가중치 값은 제2 은닉 레이어(110-15)로부터 입력되는 노드 값과 각기 곱해지고, 곱해진 값들의 누산된 값이 출력 레이어(110-17)에 저장된다.
출력 레이어(110-17)는 예시적으로 y1, 및 y2 노드를 포함할 수 있다. 즉, 출력 레이어(110-17)는 2개의 노드 값에 대한 정보를 포함할 수 있다. NPU 스케줄러(130)는 출력 레이어(110-17)의 노드 값에 대한 정보를 저장시키기 위해 메모리 어드레스를 NPU 내부 메모리(120)에 설정할 수 있다.
NPU 스케줄러(130)는 제7 프로세싱 엘리먼트(PE7)가 출력 레이어(110-17)의 y1 노드의 MAC 연산을 수행하도록 연산 순서를 스케줄링 하도록 구성될 수 있다. NPU 스케줄러(130)는 제8 프로세싱 엘리먼트(PE8)가 출력 레이어(110-15)의 y2 노드의 MAC 연산을 수행하도록 연산 순서를 스케줄링 하도록 구성될 수 있다. 상기 스케줄링 정보는 머신 코드에 포함될 수 있다.
여기서 NPU 스케줄러(130)는 2개의 프로세싱 엘리먼트들이 병렬로 동시에 MAC 연산을 각각 수행하도록 연산 순서를 미리 스케줄링 할 수 있다.
여기서 NPU 스케줄러(130)는 영상 융합 인공신경망 모델의 제2 은닉 레이어(110-15)의 MAC 연산 이후 출력 레이어(110-17)의 연산이 수행되도록 스케줄링을 결정할 수 있다.
즉, NPU 스케줄러(130)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보 또는 구조에 대한 정보에 기초하여 프로세싱 엘리먼트 어레이(100) 및 NPU 내부 메모리(120)을 제어하도록 구성될 수 있다.
즉, NPU 스케줄러(130)는 프로세싱 엘리먼트 어레이(100)에서 작동할 영상 융합 인공신경망 모델의 구조를 분석하거나 또는 분석된 정보를 제공받을 수 있다. 영상 융합 인공신경망 모델이 포함할 수 있는 인공신경망의 정보는 각각의 레이어의 노드 값에 대한 정보, 레이어들의 배치 데이터 지역성 정보 또는 구조에 대한 정보, 각각의 레이어의 노드를 연결하는 연결망 각각의 가중치 값에 대한 정보를 포함할 수 있다.
NPU 스케줄러(130)는 예시적인 영상 융합 인공신경망 모델(110-10)의 인공신경망 데이터 지역성 정보 또는 구조에 대한 정보를 제공받았기 때문에, NPU 스케줄러(130)는 영상 융합 인공신경망 모델(110-10)의 입력부터 출력까지의 연산 순서를 파악할 수 있다.
따라서, NPU 스케줄러(130)는 각각의 레이어의 MAC 연산 값들이 저장되는 메모리 어드레스를 스케줄링 순서를 고려해서 NPU 내부 메모리(120)에 설정할 수 있다.
NPU 내부 메모리(120)는 NPU(100)의 추론 연산이 지속되는 동안 NPU 내부 메모리(120)에 저장된 연결망들의 가중치 데이터를 보존하도록 구성될 수 있다. 따라서 메모리 읽기 쓰기 동작을 저감할 수 있는 효과가 있다.
즉, NPU 내부 메모리(120)는 추론 연산이 지속되는 동안 NPU 내부 메모리(120)에 저장된 MAC 연산 값을 재사용 하도록 구성될 수 있다.
이하, 도 9 내지 도 12을 통해 본 개시의 영상 융합 인공신경망 모델의 구조에 대하여 설명한다.
도 9는 본 개시의 일 예시에 따른 영상 융합 인공신경망 모델을 구성하는 GAN의 일부 구조를 설명하기 위한 도면이다.
도 9를 참조하면, 영상 융합 인공신경망 모델을 구성하는 GAN 신경망 구조는 고해상도의 열 영상을 생성하기 위한 생성기(Generator)에 대응되는 구조를 가지고 있다. 즉, 신경 프로세싱 유닛(100)의 스케줄러(130)는 검증기(discriminator)가 배제된 영상 융합 인공신경망 모델이 컴파일된 머신 코드를 입력 받아 추론 연산을 처리하도록 구성될 수 있다.
일 예시에서, 생성기에 대응되는 영상 융합 인공신경망 모델은 각각 RGB 3 채널의 가시광 영상과 1 채널의 열영상을 입력 데이터로 이용할 수 있으며, 활성화 함수(ELU)가 적용된 합성곱(컨볼루션) 연산을 수행하여 특징맵(feature map) 및/또는 활성화 맵을 출력할 수 있다. 예를 들어, 가시광 영상의 입력 데이터는 채널 각각이 3 x 3 크기의 필터 64개를 슬라이딩하고, 열영상의 입력 데이터는 3 x 3 크기의 필터 64개를 슬라이딩하여 연산될 수 있다. 즉, 가시광 영상의 입력 데이터는 영상 융합 전에 특징맵의 크기를 열영상의 입력 데이터에서 출력되는 특징맵의 크기와 동일한 크기로 줄일 수 있다. 각각의 연산을 통해 출력된 출력 특징맵은 1× 1 크기의 필터 하나에 병합될 수 있다. 이와 같이 병합된 특징맵은 건너뛰고 연결하기 (Skip-connection) 동작을 통해 출력 결과를 다른 레이어로 전달할 수 있으며, 복수의 레이어를 거쳐 최종적으로 고해상도의 열영상을 생성할 수 있다. 도 9는 GAN에서의 생성기를 구성하기 위한 하나의 예시일 뿐이며, 이에 제한되지 않고, 다양한 모델의 구성이 채용될 수 있다.
도 10은 도 9에 도시된 컨볼루션 레이어의 입력 데이터와 합성곱 연산 또는 행렬 곱셈에 사용되는 커널을 설명하기 위한 도면이다.
도 10을 참조하면, 입력 데이터(300)는 특정 크기의 행(310)과 특정 크기의 열(320)로 구성된 2차원적 행렬로 표시되는 이미지 또는 영상일 수 있다. 입력 데이터(300)는 특징맵으로 지칭될 수 있다. 입력 데이터(300)는 복수의 채널(330)을 가질 수 있는데, 여기서 채널(330)은 입력 데이터 이미지의 컬러 RGB채널을 나타낼 수 있다.
한편, 커널(340)은, 입력 데이터(300)의 일정 부분을 스캐닝하면서 해당 부분의 특징을 추출하기 위한 합성곱에 사용되는 가중치 파라미터일 수 있다. 커널(340)은, 입력 데이터 이미지와 마찬가지로 특정 크기의 행(350), 특정 크기의 열(360), 특정 수의 채널(370)을 갖도록 구성될 수 있다. 일반적으로 커널(340)의 행(350), 열(360)의 크기는 동일하도록 설정되며, 채널(370)의 수는 입력 데이터 이미지의 채널(330)의 수와 동일할 수 있다.
도 11은 도 10에 도시된 커널을 사용하여 특징 맵을 생성하는 컨볼루션 신경망의 동작을 설명하기 위한 도면이다.
도 11을 참조하면, 커널(410)은, 입력 데이터(420)를 지정된 간격으로 순회하며 합성곱을 실행함으로써, 최종적으로 특징맵(430)을 생성할 수 있다. 합성곱은, 입력 데이터(420)의 일 부분에 커널(410)을 적용하였을 때, 그 부분의 특정 위치의 입력 데이터 값들과 커널(410)의 해당 위치의 값들을 각각 곱한 뒤 생성된 값들을 모두 더하여 실행될 수 있다.
이러한 합성곱 과정을 통해, 특징맵의 계산 값들이 생성되며, 커널(410)이 입력 데이터(420)를 순회할 때마다 이러한 합성곱의 결과값들이 생성되어 특징맵(430)을 구성할 수 있다.
특징맵의 각 구성요소 값들은 컨볼루션 레이어의 활성화 함수를 통해 활성화맵(430)으로 변환될 수 있다.
도 11에서 컨볼루션 레이어에 입력되는 입력 데이터(420)는 4 x 4의 크기를 갖는 2차원적 행렬로 표시되며, 커널(410)은 3 x 3 크기를 갖는 2차원적 행렬로 표시된다. 그러나, 컨볼루션 레이어의 입력 데이터(420) 및 커널(410)의 크기는, 이에 한정되는 것은 아니며, 컨볼루션 레이어가 포함되는 컨볼루션 신경망의 성능 및 요구사항에 따라 다양하게 변경될 수 있다.
도시된 바와 같이, 컨볼루션 레이어에 입력 데이터(420)가 입력되면, 커널(410)이 입력 데이터(420) 상에서 사전 결정된 간격(예를 들면, stride = 1)으로 순회하며, 입력 데이터(420)와 커널(410)의 동일 위치의 값들을 각각 곱하고 각각의 값들을 더하는 MAC 연산을 수 있다.
구체적으로, 커널(410)이 입력 데이터(420)의 특정 위치(421)에서 계산한 MAC 연산 값 “15”를 특징맵(430)의 대응 요소(431)에 배정한다. 커널(410)이 입력 데이터(420)의 다음 위치(422)에서 계산한 MAC 연산 값 “16”을 특징맵(430)의 대응 요소(432)에 배정한다. 커널(410)이 입력 데이터(420)의 다음 위치(423)에서 계산한 MAC 연산 값 “6”을 특징맵(430)의 대응 요소(433)에 배정한다. 다음으로, 커널(410)이 입력 데이터(420)의 다음 위치(424)에서 계산한 MAC 연산 값 “15”를 특징맵(430)의 대응 요소(434)에 배정한다.
이와 같이 커널(410)이 입력 데이터(420) 상을 순회하면서 계산한 MAC 연산 값들을 특징맵(430)에 모두 배정하면, 2 x 2 크기의 특징맵(430)이 완성될 수 있다.
이때, 입력 데이터(510)가 예를 들어 3가지 채널(R채널, G채널, B채널)로 구성된다면, 동일 커널 또는 채널 별 상이한 채널을 각각 입력 데이터(420)의 각 채널 별 데이터 상을 순회하며 다중 곱과 합을 진행하는 합성곱을 통해 채널 별 특징맵을 생성할 수 있다.
상기 MAC 연산을 위해서 스케줄러(130)는 기 설정된 연산 순서를 기초로 각각의 MAC 연산을 수행할 프로세싱 엘리먼트들(PE1 to PE12)을 할당하고, MAC 연산 값들이 저장되는 메모리 어드레스를 스케줄링 순서를 고려해서 NPU 내부 메모리(120)에 설정할 수 있다.
도 12는 본 개시의 일 예시에 따른 영상 융합 인공신경망 모델을 예시적으로 나타낸 개념도이다.
도 12를 참고하면, 일 예시에서 RGB 카메라와 Thermal 이미지 센서로부터 제공되는 신호를 병렬 프로세싱을 통해 처리하는 예가 나타나 있다. 병렬 프로세싱 도중에, 트랜스포머를 통해서 서로 다른 정보가 교환될 수 있다. 상기 방식은 후술하게 될 도 14에 도시된 심층 퓨전 방식일 수 있다.
한편, 도시되지는 않았으나, 이종 센서로부터 제공되는 서로 다른 데이터를 처리하기 위해 인공신경망은 연접(Concatenation) 동작과 건너뛰고 연결하기 (Skip-connection) 동작을 포함할 수 있다. 연접 동작은 특정 레이어의 출력 결과를 서로 합치는 것을 의미하고, 건너뛰고 연결하기 동작은 특정 레이어의 출력 결과를 후속 레이어를 건너뛰고, 다른 레이어로 전달하는 것을 의미한다.
이러한, 연접 동작과 건너뛰고 연결하기 동작은 NPU(100)의 내부 메모리(120)의 제어 난이도 증가 및 사용량을 증가시킬 수 있다.
지금까지 이종 센서로부터 제공되는 서로 다른 데이터를 퓨전하여 처리하기 위한 인공신경망에 대해서 설명하였으나, 위 설명된 내용들만으로는, 인공신경망의 성능 향상을 꾀할 수 없는 약점이 있었다. 이에, 이하에서는 최적화된 인공신경망 및 NPU 구조에 대해서 설명하기로 한다.
<이종 센서로부터의 서로 다른 데이터를 처리하기 위해 최적화된 퓨전(fusion) 인공신경망 및 NPU 구조>
먼저, 본 특허의 발명자는 이종 센서로부터의 서로 다른 데이터를 처리하기 위한 NPU에 대하여 연구하였다.
상기 NPU의 설계에 있어서 하기의 구성을 고려해야 한다:
i. 이종 데이터 신호 처리(예컨대, RGB 카메라 + Thermal 이미지 센서)에 적합한 NPU 구조를 가지는 것이 필요하다.
ii. 이종 입력 신호 처리(예컨대, RGB 카메라 + Thermal 이미지 센서)에 적합한 NPU 메모리 제어가 필요하다.
iii. 다중 입력 채널에 적합한 NPU 구조를 가지는 것이 필요하다.
iv. 다중 입력 채널에 적합한 NPU 메모리 제어가 필요하다.
v. 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망 모델) 연산에 적합한 NPU 구조를 가지는 것이 필요하다.
vi. 실시간 적용을 위해서 16ms 이하의 빠른 처리 속도가 필요하다
vii. 배터리 구동을 위해서 저소비 전력 달성이 필요하다.
영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망 모델)을 구현하기 위한 NPU는 하기의 기능을 지원해야 한다. 예상되는 요구 사항들은 아래와 같다:
i. CNN 기능 지원: 합성곱에 최적화된 PE 어레이 및 메모리를 제어할 수 있어야 한다.
ii. Depthwise-separable convolution을 효율적으로 처리할 수 있어야 한다. PE 이용률 및 성능(throughput)을 향상시키는 구조를 가져야 한다.
iii. Batch mode 기능 지원: 다중 채널(카메라 1~6), 이종 센서를 동시에 처리할 수 있도록 메모리 구성이 필요하다.(PE 어레이의 크기와 메모리 크기가 적정한 비율이어야 한다)
iv. 연접 (Concatenation) 기능 지원: 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망 모델)을 위한 NPU는 이종 입력 데이터 신호를 연접(Concatenation) 기능으로 처리할 수 있어야 한다.
v. 건너뛰고 연결하기 (Skip-connection) 기능 지원: 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망 모델)을 위한 NPU는 건너뛰고 연결하기(skip) 기능을 제공할 수 있는 SFU(Special Function Unit)를 포함할 수 있다.
vi. 딥러닝 영상 전처리 기능 지원: 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망 모델)을 위한 NPU는 서로 다른 데이터 신호를 전처리하는 기능을 제공할 수 있어야 한다.
vii. 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망 모델)을 효율적으로 컴파일 할 수 있는 컴파일러가 제공되어야 한다.
본 개시의 일 실시예에서는 다음과 같은 특징을 가진 NPU(100)가 제안된다.
i. NPU(100)는 늦은 퓨전(Late Fusion), 조기 퓨전(Early Fusion), 심층 퓨전(Deep Fusion) 등, 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망 모델)의 ANN 데이터 지역성 정보를 분석하는 머신 코드 처리할 수 있다.
ii. NPU(100)는 ADC(artificial neural network data locality controller)에 기초하여 이종의 센서 데이터를 처리하도록 PE 어레이를 제어하도록 구성될 수 있다. 즉, 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망 모델)은 센서에 따라 다양한 구조로 퓨전되며, 상기 구조에 대응되는 NPU(100)를 제공함에 따라 PE 가동률(utilization rate)을 향상 시킬 수 있다.
iii. ANN 데이터 지역성 정보에 기초하여 이종의 센서 데이터를 처리하도록 칩-내부 메모리(120)의 크기를 적절히 설정하도록 구성될 수 있다. 즉, 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망 모델)의 인공신경망 데이터 지역성 정보를 분석하면 퓨전(fusion) 인공신경망을 처리하는 NPU(100)의 메모리 대역폭을 개선할 수 있다.
iv. NPU(100)는 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망 모델)에서 필요한 쌍선형 보간(Bilinear interpolation), 연접(Concatenation) 및 건너뛰고 연결하기(skip-connection 등)을 효율적으로 처리할 수 있는 SFU(Special Function Unit)를 포함할 수 있다.
도 13은 본 개시의 일 예시에 따른 NPU의 퓨전 방식을 나타낸 예시도이다.
도 13을 참조하면, “F”는 퓨전 연산을 의미하며, 각각의 블록은 각각의 레이어를 의미한다. NPU(100)는 늦은 퓨전(Late Fusion), 조기 퓨전(Early Fusion), 심층 퓨전(Deep Fusion)을 수행할 수 있다. 늦은 퓨전은 각 레이어 별로 연산을 수행한 후, 마지막 과정에서 연산 결과를 퓨전 하는 것을 의미한다. 조기 퓨전은 조기에 서로 다른 데이터를 퓨전한 후, 레이어 별로 연산을 수행하는 것을 의미한다. 심층 퓨전은 서로 다른 데이터를 퓨전한 후, 서로 다른 레이어에서 연산을 수행하고, 연산 수행 결과를 다시 퓨전한 후, 레이어 별로 연산을 수행하는 것을 의미한다. 본 개시에서 조기 퓨전 연산을 통해서는 상이한 두 개의 영상을 복수의 레이어 연산 초기에 병합하고, 후속 레이어의 연산을 수행할 수 있다. 이와 다르게, 늦은 퓨전을 통해서는 상이한 두 개의 영상을 각각에 할당된 레이어 별로 연산을 수행한 뒤, 연산 결과를 병합한 후, 후속 레이어의 연산을 수행할 수 있다. 예를 들어, 상이한 두 개의 영상은 가시광선 이미지 센서를 통해 획득되는 영상과 열화상 이미지 센서를 통해 획득되는 영상일 수 있으나 이에 제한되지 않는다.
이하에서는 상기와 같은 특징을 개시할 수 있는 NPU(100)의 구조에 대하여 설명한다.
도 14는 본 개시의 제1 예시에 따른 NPU 아키텍처를 포함하는 시스템을 예시적으로 나타낸 개념도이다.
도 14를 참조하면, 상기 NPU(100)는 영상 융합 인공신경망 모델을 위한 PE 어레이(110), 칩-내부(On-chip) 메모리(120), NPU 스케줄러(130), SFU(special function unit)(160)을 포함할 수 있다. 도 14을 설명함에 있어서 중복되는 설명은 단지 설명의 편의를 위해 생략될 수 있다.
영상 융합 인공신경망 모델을 위한 PE 어레이(110)는 적어도 하나의 퓨전 레이어를 가지는 다층 구조의 영상 융합 인공신경망 모델의 합성곱을 처리하도록 구성된 PE 어레이(110)를 의미할 수 있다. 즉, 퓨전 레이어는 이종 센서의 데이터가 퓨전 된 특징맵을 출력하도록 구성될 수 있다. 부연 설명하면, NPU(100)의 SFU(160)는 다중 센서의 센서 데이터를 입력 받아 각각의 센서 입력 데이터를 퓨전 시키는 기능을 제공하도록 구성될 수 있다. 영상 융합 인공신경망 모델을 위한 PE 어레이(110)는 SFU(160)에서 퓨전된 데이터를 입력 받아 합성곱을 처리하도록 구성될 수 있다.
NPU(100)는 M개의 이종 센서들(311, 312)로부터 서로 다른 데이터를 수신할 수 있다. 상기 이종의 센서들은 서로 다른 영상 특성과 해상도를 가진 이미지 센서들을 포함할 수 있다.
상기 NPU(100)는 컴파일러(200)로부터 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망(ANN))의 인공신경망 데이터 지역성 정보를 획득할 수 있다.
상기 영상 융합 인공신경망 모델의 적어도 하나의 레이어는 복수의 센서의 입력 데이터가 퓨전 된 레이어일 수 있다.
상기 NPU(100)는 이종 센서 입력 데이터의 퓨전을 위해서 적어도 하나의 레이어에 연접 기능을 제공하도록 구성될 수 있다. 연접된 레이어의 이종 센서들의 각각의 특징맵은 서로 연접되기 위해서 적어도 하나의 축의 크기는 서로 동일하게 처리될 수 있다. 예를 들면, X-축으로 이종 센서 데이터의 연접을 위해서 이종 센서 데이터 각각의 X-축의 크기는 서로 동일할 수 있다. 예를 들면, Y-축으로 이종 센서 데이터의 연접을 위해서 이종 센서 데이터 각각의 Y-축의 크기는 서로 동일할 수 있다. 예를 들면, Z-축으로 이종 센서 데이터의 연접을 위해서 이종 센서 데이터 각각의 Z-축의 크기는 서로 동일할 수 있다. NPU(100)의 처리 효율 향상을 위해서 이종 센서 데이터 중 하나의 데이터의 크기를 스케일-업 또는 스케일-다운 처리할 수 있다. 따라서, 이종 센서 데이터의 퓨전된 데이터의 하나의 축의 크기가 서로 동일해지는 것도 가능하다. 부연 설명하면, 프로세싱 엘리먼트 어레이(100)는 N x M 행렬 형태이기 때문에, 센서 데이터의 적어도 하나의 축의 크기에 따라서 프로세싱 엘리먼트 어레이(100) PE 가동률(utilization rate)이 달라질 수 있다.
상기 이종 센서들(311, 312)로부터 서로 다른 데이터를 제공받아 처리하기 위하여, 상기 NPU 스케줄러(130)는 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망 모델)의 추론을 처리할 수 있다.
상기 NPU 스케줄러(130)는 도시된 바와 같이 제어부 내에 포함될 수 있다.
상기 NPU 스케줄러(130)는 컴파일러(200)으로부터 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망)의 인공신경망 데이터 지역성 정보를 획득 분석하고, 상기 칩-내부 메모리(120)의 동작을 제어할 수 있다.
구체적으로 설명하면, 다음과 같다. 상기 컴파일러(200)는 상기 NPU(100)에서 처리할 퓨전(fusion) 인공신경망의 인공신경망 데이터 지역성 정보를 생성할 수 있다.
상기 NPU 스케줄러(130)는 상기 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망)에 필요한 특수 기능(special function)에 대한 목록을 생성할 수 있다. 특수 기능은 합성곱 이외의 인공신경망 연산에 필요한 다양한 기능 등을 의미할 수 있다.
상기 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망)의 인공신경망 데이터 지역성 정보를 활용하면, non-maximum suppression(NMS), 건너뛰고 연결하기(SKIP-CONNECTION), 병목(Bottleneck), 쌍선형 보간(Bilinear interpolation) 등 퓨전(fusion) 인공신경망에서 자주 발생하는 메모리 접근 증가 문제를 효율적으로 제어할 수 있다.
상기 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망)의 인공신경망 데이터 지역성 정보를 활용하면, 먼저 연산된 제1 출력 특징맵 정보와 그리고 더 늦게 처리되는 제2 출력 특징맵 정보가 퓨전될 때까지, 저장해야 하는 데이터(예컨대, 제1 출력 특징맵)의 크기, 저장 기간 등을 컴파일 단계에서 알 수 있기 때문에, 칩-내부(on-chip) 메모리(120)를 위한 메모리 맵을 사전에 효율적으로 설정할 수 있다.
상기 SFU(160)은 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망)에 필요한 건너뛰고 연결하기(skip-connection), 및 연접(concatenation)을 수행할 수 있다. 부연 설명하면, 연접은 이종의 센서 데이터를 퓨전하는데 활용될 수 있다. 연접을 위해서 각각의 센서 데이터의 크기는 재조정될 수 있다. 예를 들면, NPU(100)는 크기조정(resize), 보간법(interpolation) 등의 기능을 제공하여 퓨전 인공신공망의 연접을 처리하도록 구성될 수 있다.
상기 NPU(100)의 칩-내부 메모리(120)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보에 기초하여 PE 어레이(110) 또는 SFU(160)에 따른 특정 데이터를 특정 기간동안 선택적으로 보존할 수 있다. 상기 선택적 보존 여부는 제어부에 의해서 제어될 수 있다.
또한 PE 어레이(110)는 이종 센서의 개수에 대응되는 쓰레드(thread)의 개수를 가지도록 구성될 수 있다. 즉, 2개의 센서 데이터를 입력 받도록 구성된 NPU(100)의 어레이(110)는 2개의 쓰레드를 가지도록 구성될 수 있다. 즉 하나의 쓰레드가 N x M 개의 프로세싱 엘리먼트들로 구성되면, 2개의 쓰레드는 N x M x 2 개의 프로세싱 엘리먼트들로 구성될 수 있다. 예를 들면, PE 어레이(110)의 각각의 쓰레드는 각각의 이종 센서의 특징맵을 처리하도록 구성될 수 있다. NPU의 복수의 쓰레드는 NPU의 멀티코어로 지칭될 수 있다.
상기 NPU(100)는 상기 영상 융합 인공신경망 모델의 연산 결과를 출력부를 통해 출력할 수 있다.
전술한 제1 예시에 따른 NPU 아키텍처는 다양하게 변형될 수 있다.
도 15a는 본 개시의 제1 예시에 따른 영상 융합 인공신경망 모델이 포함하는 건너뛰고 연결하기(skip-connection)를 설명하기 위한 예시도이고, 도 15b는 도 15a에 도시된 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보를 나타낸 예시도이다.
도 15a을 참조하면, 건너뛰고 연결하기(Skip-connection) 동작을 포함하는 5개의 레이어를 연산하기 위해서, 도 15b 도시된 바와 같이 컴파일러(200)는 예를 들면, 16개 단계의 순서를 가지는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보를 생성할 수 있다.
NPU(100)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보 순서 대로 칩-내부(On-chip) 메모리(120)에 데이터 오퍼레이션을 요청한다
건너뛰고 연결하기(Skip-connection) 동작의 경우, 제1 레이어의 출력 특징맵(OFMAP)은 제4 레이어의 출력 특징맵(OFMAP)과 더해질 수 있다.
이와 같은, 건너뛰고 연결하기(Skip-connection) 동작을 위해서 제1 레이어의 출력 특징맵을 제5 레이어 연산까지 보존해야 한다. 하지만, 다른 데이터들은 메모리 공간 활용을 위해서 연산 이후 삭제되어도 무방하다.
삭제된 메모리 영역에는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보 순서를 기초로 이후에 연산 될 데이터가 저장될 수 있다. 따라서, 영상 융합 인공신경망 모델의 데이터 지역 정보 순서를 따라 필요한 데이터를 칩-내부 메모리(120)로 순차적으로 가져오고, 재사용되지 않는 데이터를 삭제할 수 있기 때문에, 칩-내부(On-chip) 메모리(120)의 메모리 크기가 작더라도 칩-내부 메모리(120)의 동작 효율을 향상시킬 수 있다.
따라서 NPU(100)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보에 기초하여 일정 기간 동안 칩-내부 메모리(120)의 특정 데이터를 선택적으로 보존하거나, 삭제할 수 있다.
이러한 메커니즘은 건너뛰고 연결하기(Skip-connection) 동작 뿐만 아니라, 연접(concatenation), non-maximum suppression(NMS), 쌍선형 보간(Bilinear interpolation) 등 다양한 동작에 적용될 수도 있다.
예를 들면, NPU(100)는 칩-내부 메모리(120)의 효율적인 제어를 위해서 제2 레이어의 합성곱 연산을 수행한 후, 제1 레이어의 출력 특징맵(OFMAP)을 제외한 제1 레이어의 데이터가 삭제되도록 할 수 있다. 또 다른 예를 들면, NPU(100)는 칩-내부 메모리(120)의 효율적인 제어를 위해서 제3 레이어의 연산을 수행한 후, 제1 레이어의 출력 특징맵(OFMAP)을 제외한 제2 레이어의 데이터가 삭제되도록 할 수 있다. 또 다른 예를 들면, NPU(100)는 칩-내부 메모리(120)의 효율적인 제어를 위해서 제4 레이어의 연산을 수행한 후, 제1 레이어의 출력 특징맵(OFMAP)을 제외한 제3 레이어의 데이터가 삭제되도록 할 수 있다. 또한, NPU(100)는 칩-내부 메모리(120)의 효율적인 제어를 위해서 제5 레이어의 연산을 수행한 후, 제1 레이어의 출력 특징맵(OFMAP)을 포함한 제4 레이어의 데이터가 삭제되도록 할 수 있다.
상기 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보는 하기에 나열된 조건들을 고려하여 컴파일러(200)가 생성하고 NPU(100)가 수행할 데이터 처리 순서를 의미한다.
1. ANN 모델의 구조 (이종 센서 데이터를 입력 받도록 설계된 Resnet, YOLO, SSD, 등 퓨전(fusion) 인공신경망).
2. 프로세서의 구조 (예컨대, CPU, GPU, NPU 등의 아키텍처).
NPU(100)의 경우 PE 개수, PE의 구조(예컨대, 입력 고정(input stationary), 출력 고정(output stationary), 가중치 고정(weight stationary) 등), PE 어레이와 유기적으로 동작하도록 구성된 SFU 구조 등.
3. 칩-내부 메모리(120) 크기(예컨대, 캐시가 데이터 보다 작을 때, 타일링(tiling) 알고리즘 적용 필요 등).
4. 처리할 영상 융합 인공신경망 모델의 각 레이어의 데이터 사이즈.
5. 프로세싱 정책. 즉, NPU(100)가 입력 특징맵(IFMAP) 먼저 읽기 요청 또는 커널(Kernel) 먼저 읽기 요청할지에 대한 순서 등을 결정. 이는, 프로세서 또는 컴파일러(200)에 따라 다양해질 수 있다.
도 16은 본 개시의 제2 예시에 따른 NPU 아키텍처를 포함하는 시스템을 예시적으로 나타낸 개념도이다.
도 16을 참조하면, 상기 NPU(100)는 영상 융합 인공신경망 모델을 위한 PE 어레이(110), 칩-내부(On-chip) 메모리(120), NPU 스케줄러(130), SFU(special function unit)(160)을 포함할 수 있다. 도 16을 설명함에 있어서 중복되는 설명은 설명의 편의를 위해 생략될 수 있다.
상기 NPU 스케줄러(130)는 도시된 바와 같이 제어부 내에 포함될 수 있다.
상기 NPU(100)는 M개의 이종 센서들(311, 312)로부터 서로 다른 데이터를 수신할 수 있다. 상기 이종의 센서들은 마이크, 터치 스크린, 카메라, 고도계, 기압계, 광혈류 측정센서, 심전도 측정센서, 관성 측정센서, 지오포지셔닝 시스템, 광 센서, 온도계, 근전도 측정기 전극 측정기 등을 포함할 수 있다.
상기 NPU(100)는 컴파일러(200)로부터 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보를 획득할 수 있다.
상기 NPU(100)는 N개의 출력부를 통하여 N개의 결과(예컨대, 이종의 추론 결과)를 출력할 수 있다. 상기 NPU(100)로부터 출력되는 이종의 데이터는 Image fusion, Classification, Semantic segmentation, Object detection, Prediction 등일 수 있다.
도 17은 본 개시의 제3 예시에 따른 NPU 아키텍처를 포함하는 시스템을 예시적으로 나타낸 개념도이다.
도 17을 참조하면, 상기 NPU(100)는 영상 융합 인공신경망 모델을 위한 PE 어레이(110), 칩-내부(On-chip) 메모리(120), NPU 스케줄러(130), SFU(special function unit)(160)을 포함할 수 있다. 도 17을 설명함에 있어서 중복되는 설명은 단지 설명의 편의를 위해 생략될 수 있다.
상기 NPU 스케줄러(130)는 도시된 바와 같이 제어부 내에 포함될 수 있다.
NPU(100)는 M개의 이종 센서들(311, 312)로부터 서로 다른 데이터를 수신할 수 있다. 상기 이종의 센서들은 서로 다른 영상 특성과 해상도를 가진 이미지 센서들을 포함할 수 있다.
상기 NPU(100)는 컴파일러(200)로부터 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보를 획득할 수 있다.
상기 NPU(100)는 ADC(artificial neural network data locality controller)(400)를 통해 칩-외부 메모리(500)로부터 영상 융합 인공신경망 모델의 연산에 필요한 데이터를 제공받을 수 있다.
상기 ADC(400)는 상기 컴파일러(200)로부터 제공되는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보에 기초하여, 칩-외부 메모리에서 칩-내부 메모리로 데이터를 프리패치(prefetch)할 수 있다.
구체적으로, ADC(400)는 상기 컴파일러(200)로부터 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보를 제공받아 분석하거나 또는 상기 컴파일러(200)로부터 분석된 정보를 제공받아, 상기 칩-외부 메모리(500)의 동작을 제어할 수 있다.
상기 ADC(400)는 상기 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보에 따라, 상기 칩-외부 메모리(500) 내에 저장된 데이터를 읽어와서 칩-내부 메모리에 사전에 캐싱할 수 있다. 칩-외부 메모리(500)는 상기 영상 융합 인공신경망 모델의 모든 가중치 커널이 저장될 수 있으며, 칩-내부 메모리(120)는 칩-외부 메모리(500)에 저장된 모든 가중치 커널 중 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보에 따라 필요한 적어도 일부의 가중치 커널만 저장할 수 있다. 칩-외부 메모리(500)의 메모리 용량은 칩-내부 메모리(120)의 메모리 용량보다 더 클 수 있다.
ADC(400)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보에 기초하여 NPU(100)와 연동하거나 또는 독립적으로 NPU(100)에 필요한 데이터를 칩-외부 메모리(500)로부터 사전에 준비할 수 있다. 따라서 NPU(100)의 추론 동작의 레이턴시가 저감되거나 또는 동작 속도가 향상될 수 있다.
상기 NPU(100)는 N개의 출력부를 통하여 N개의 결과(예컨대, 이종의 추론 결과)를 출력할 수 있다.
도 18은 본 개시의 제4 예시에 따른 NPU 아키텍처를 포함하는 시스템을 예시적으로 나타낸 개념도이고, 도 19는 도 12에 도시된 영상 융합 인공신경망 모델을 도 18에 도시된 제4 예시에 따라 쓰레드로 구분한 예를 나타낸다.
도 18을 참조하면, 상기 NPU(100)는 영상 융합 인공신경망 모델을 위한 PE 어레이(110), 칩-내부(On-chip) 메모리(120), NPU 스케줄러(130), SFU(special function unit)(160)을 포함할 수 있다.
상기 NPU 스케줄러(130)는 도시된 바와 같이 제어부 내에 포함될 수 있다.
상기 NPU(100)는 M개의 이종 센서들(311, 312)로부터 서로 다른 데이터를 수신할 수 있다. 상기 이종의 센서들은 서로 다른 영상 특성 및 해상도를 가지는 이미지 센서들을 포함할 수 있다.
상기 NPU(100)는 컴파일러(200)로부터 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보를 획득할 수 있다.
상기 NPU(100)는 N개의 이종 데이터(예컨대, 이종의 추론 결과)를 출력할 수 있다. 상기 NPU(100)로부터 출력되는 이종의 데이터는 Image fusion, Classification, Semantic segmentation, Object detection, Prediction 등일 수 있다.
상기 PE 어레이(110)는 다중 쓰레드를 처리할 수 있다. 도 19에 도시된 바와 같이, 카메라로부터 얻은 RGB 이미지 데이터를 쓰레드 #1을 통해서 처리하고, Transformer 모델 처리는 쓰레드 #2를 통해서 처리하고, Thermal 이미지 센서로부터 얻은 데이터는 쓰레드 #3을 통해서 처리할 수 있다. PE 어레이(110)의 다중 쓰레드는 NPU의 멀티코어로 지칭될 수 있다. 즉, 각각의 쓰레드는 독립적인 PE 어레이를 지칭할 수 있다.
이를 위해, 컴파일러(200)는 영상 융합 인공신경망 모델을 분석하고, 병렬 연산 흐름을 기초로, 쓰레드를 구분할 수 있다.
NPU(100)의 PE 어레이(110)는 영상 융합 인공신경망 모델의 병렬 처리 연산이 가능한 레이어를 다중 쓰레드를 통해서 연산 효율을 향상시킬 수 있다.
각각의 쓰레드는 서로 동일하거나 또는 상이한 개수의 프로세싱 엘리먼트들을 포함하도록 구성될 수 있다.
NPU(100)는 PE 어레이(110) 내의 각 쓰레드가 칩-내부(On-chip) 메모리(120)와 통신할 수 있도록 제어할 수 있다.
NPU(100)는 쓰레드 별 칩-내부(On-chip) 메모리(120) 내부 공간을 선택적으로 할당할 수 있다.
NPU(100)는 쓰레드 별로 적절한 칩-내부(On-chip) 메모리(120)를 할당할 수 있다. 칩-내부 메모리(120)의 메모리 할당은 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보에 기초하여 제어부가 결정할 수 있다.
NPU(100)는 퓨전(fusion) 인공신경망에 기초하여, PE 어레이(110) 내에 쓰레드를 설정할 수 있다.
상기 NPU(100)는 N개의 출력부를 통하여 N개의 결과(예컨대, 이종의 추론 결과)를 출력할 수 있다.
도 20은 본 개시의 제5 예시에 따른 NPU 아키텍처를 포함하는 시스템을 예시적으로 나타낸 개념도이고, 도 21은 도 20에 도시된 SFU의 파이프라인 구조의 제1 예시를 나타낸 예시도이다.
도 20을 참조하면, 상기 NPU(100)는 영상 융합 인공신경망 모델을 위한 PE 어레이(110), 칩-내부(On-chip) 메모리(120), NPU 스케줄러(130), SFU(special function unit)(160)을 포함할 수 있다.
상기 NPU(100)는 M개의 이종 센서들(311, 312)로부터 서로 다른 데이터를 수신할 수 있다. 상기 이종의 센서들은 서로 다른 영상 특성과 해상도를 가진 이미지 센서들을 포함할 수 있다.
상기 NPU(100)는 컴파일러(200)로부터 영상 융합 인공신경망 모델(퓨전(fusion) 인공신경망(ANN))의 인공신경망 데이터 지역성 정보를 획득할 수 있다.
상기 NPU(100)는 N개의 이종 데이터(예컨대, 이종의 추론 결과)를 출력할 수 있다. 상기 NPU(100)로부터 출력되는 이종의 데이터는 Image fusion, Classification, Semantic segmentation, Object detection, Prediction 등일 수 있다.
도 21에 도시된 바와 같이, 상기 SFU(160)은 여러 기능 유닛을 포함한다. 각각의 기능 유닛은 선택적으로 동작될 수 있다. 각각의 기능 유닛은 선택적으로 턴-온되거나 턴-오프될 수 있다. 즉, 각각의 기능 유닛은 설정이 가능하다.
프로세싱 엘리먼트 어레이는 영상 융합 인공신경망 모델의 주 연산을 수행하도록 구성된 회로부를 지칭할 수 있다. 주 연산은 Convolution or matrix multiplication을 지칭할 수 있다. 즉, 주 연산은 인공신경망(ANN)(예컨대, 퓨전(Fusion) 인공신경망)에서의 대부분의 연산을 지칭할 수 있다.
특수 기능 유닛(SFU)은 영상 융합 인공신경망 모델의 특수 기능 연산을 선택적으로 수행하도록 구성된 복수의 특수 기능 회로부들의 집합을 지칭할 수 있다. 즉, 특수 기능 유닛(SFU)은 특수 기능을 추가적으로 연산할 수 있으며, 특수 기능 연산은 다양한 인공신경망(ANN))(예컨대, 퓨전(Fusion) 인공신경망)에서의 부가 연산을 지칭할 수 있다.
영상 융합 인공신경망 모델의 주 연산의 연산량은 특수 기능 연산의 연산량보다 연산량이 상대적으로 더 많을 수 있다.
다시 말해서, 상기 SFU(160)은 영상 융합 인공신경망 모델의 추론에 필요한 다양한 기능 유닛들을 포함할 수 있다.
예를 들면, 상기 SFU(160)의 기능 유닛들은 건너뛰고 연결하기(skip-connection) 동작을 위한 기능 유닛, 활성화 함수(activation function) 동작을 위한 기능 유닛, 풀링(pooling) 동작을 위한 기능 유닛, 양자화(quantization) 동작을 위한 기능 유닛, NMS(non-maximum suppression) 동작을 위한 기능 유닛, 정수 및 부동 소수점 변환(INT to FP32) 동작을 위한 기능 유닛, 배치 정규화(batch-normalization) 동작을 위한 기능 유닛, 보간법(interpolation) 동작을 위한 기능 유닛, 연접(concatenation) 동작을 위한 기능 유닛, 및 바이아스(bias) 동작을 위한 기능 유닛 등을 포함할 수 있다.
상기 SFU(160)의 기능 유닛들은 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보에 의해서 선택적으로 턴-온되거나 혹은 턴-오프될 수 있다. 부연 설명하면, 영상 융합 인공신경망 모델의 각각의 레이어가 필요로 하는 특수 기능 연산들의 종류는 각 레이어마다 상이할 수 있다. 머신 코드에 포함된 인공신경망 데이터 지역성 정보는 특정 레이어를 위한 연산이 수행될 때, 해당 기능 유닛의 턴-온 또는 턴-오프와 관련된 제어 정보를 포함할 수 있다.
도 22a는 도 20에 도시된 SFU의 일 예시를 나타낸 예시도이고, 도 22b는 도 20에 도시된 SFU의 다른 예시를 나타낸 예시도이다.
도 22a 및 도 22b를 참조하면, 상기 SFU(160)의 기능 유닛들 중 활성화된 유닛은 턴-온 될 수 있다.
구체적으로 도 22a에 도시된 바와 같이, SFU(160)는 건너뛰고 연결하기(skip-connection) 동작과 연접(concatenation) 동작을 선택적으로 활성화 할 수 있다. 예시적으로, 활성화된 각각의 기능 유닛은 해칭(hatching)으로 표기될 수 있다.
예를 들면, SFU(160)는 퓨전 동작을 위해서 이종 센서 데이터를 연접할 수 있다. 예를 들면, SFU(160)의 건너뛰고 연결하기 동작을 위해서 제어부는 칩-내부 메모리(120)와 SFU(160)를 제어할 수 있다.
구체적으로 도 22b에 도시된 바와 같이, 양자화(quantization) 동작과 바이아스(bias) 동작을 선택적으로 활성화할 수 있다. 예를 들면, PE 어레이(110)에서 출력되는 특징맵 데이터의 크기를 저감하기 위해서 PE 어레이(110)에서 출력되는 특징맵을 SFU(160)의 양자화 기능 유닛이 입력 받아 특징맵을 특정 비트폭으로 양자화 할 수 있다. 그리고 양자화된 특징맵을 칩-내부 메모리(120)에 저장할 수 있다. 일련의 동작들은 제어부를 통해서 순차적으로 할 수 있으며, NPU 스케쥴러(130)가 상기 동작들의 동작 순서를 제어하도록 구성될 수 있다.
이와 같이 SFU(160)의 일부 기능 유닛을 선택적으로 턴-오프하는 경우, NPU(100)의 소비 전력을 절감할 수 있다. 한편, 일부 기능 유닛을 턴-오프하기 위하여, 파워 게이팅(power gating)을 이용할 수 있다. 또는, 일부 기능 유닛을 턴-오프하기 위하여, 클럭 게이팅(clock gating)을 수행할 수도 있다.
도 23은 본 개시의 제6 예시에 따른 NPU 아키텍처를 포함하는 시스템을 예시적으로 나타낸 개념도이다.
도 23을 참조하면, NPU 배치 모드(Batch mode)가 적용될 수 있다. 배치 모드(Batch mode)가 적용되는 NPU(100)는 영상 융합 인공신경망 모델을 위한 PE 어레이(110), 칩-내부(On-chip) 메모리(120), NPU 스케줄러(130), SFU(special function unit)(160)을 포함할 수 있다.
상기 NPU 스케줄러(130)는 도시된 바와 같이 제어부 내에 포함될 수 있다.
상기 NPU(100)는 컴파일러(200)로부터 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보를 획득할 수 있다.
본 예시에서 개시하는 배치 모드는 하나의 영상 융합 인공신경망 모델로 다수의 동일 센서를 순차적으로 처리하여 상기 하나의 영상 융합 인공신경망 모델의 가중치를 상기 다수의 동일 센서의 개수만큼 재사용하도록 하여 저전력을 달성하도록 구성된 모드를 의미한다.
배치 모드 동작을 위해서 NPU(100)의 제어부는 칩-내부 메모리에 저장되는 가중치가 각각의 배치 채널에 입력되는 센서의 개수만큼 재사용되도록 NPU 스케줄러(130)를 제어하도록 구성될 수 있다. 즉, 예시적으로, NPU(100)가 M개의 센서로 배치 모드로 동작되도록 구성될 수 있다. 이때, NPU(100)의 상기 배치 모드 동작은 영상 융합 인공신경망 모델로 동작하도록 구성될 수 있다.
영상 융합 인공신경망 모델의 동작을 위해서 NPU(100)는 퓨전을 위한 복수의 배치 채널들(BATCH CH#1, BATCH CH#2)을 가지도록 구성될 수 있다. 각각의 배치 채널은 동일한 복수의 센서들을 포함하도록 구성될 수 있다. 제1 배치 채널(BATCH CH#1)은 복수의 제1 센서들로 구성될 수 있다. 이때, 제1 센서들은 M개일 수 있다. 제K 배치 채널(BATCH CH#K)은 복수의 제2 센서들로 구성될 수 있다. 이때, 제2 센서들은 M개일 수 있다.
상기 NPU(100)는 제1 배치 채널을 통해 센서들(311, 312)로부터의 입력을 위해 대응되는 가중치를 칩-내부 메모리(120)에서 재사용하며 처리할 수 있다. 그리고, 상기 NPU(100)는 제2 배치 채널을 통해 센서들(321, 322)로부터의 입력을 위해 대응되는 가중치를 칩-내부 메모리(120)에서 재사용하며 처리할 수 있다.
이와 같이, 상기 NPU(100)는 복수의 배치 채널을 통해 여러 센서들로부터 입력을 제공받고 가중치를 재사용하며 배치 모드로 영상 융합 인공신경망 모델을 처리할 수 있다. 상기 복수의 배치 채널들 중 적어도 하나의 채널의 센서와 다른 적어도 하나의 채널의 센서는 서로 상이할 수 있다.
상기 NPU(100) 내의 칩-내부(On-chip) 메모리(120)는 복수의 배치 채널에 대응되는 저장 공간을 가지도록 설정될 수 있다.
상기 NPU(100) 내의 NPU 스케줄러(130)는 배치 모드에 따라 PE 어레이(110)를 동작시킬 수 있다.
상기 NPU(100) 내의 SFU(160)는 적어도 하나의 퓨전 동작을 처리하기 위한 특수 기능을 제공할 수 있다.
상기 NPU(100)는 복수의 배치 채널들을 통해 각각의 출력을 전달할 수 있다.
상기 복수의 배치 채널들 중 적어도 하나의 채널은 영상 융합 인공신경망 모델망의 추론 데이터일 수 있다.
도 24는 본 개시의 제7 예시에 따라 복수의 NPU를 활용하는 예를 나타낸 예시도이고, 도 25는 도 12에 도시된 퓨전(fusion) 인공신경망을 도 24에 도시된 복수의 NPU를 통해 처리하는 예를 나타낸 예시도이다.
도 24를 참조하면, 퓨전 영상을 생성하기 위하여 복수개의, 예시적으로 M개의 NPU가 사용될 수 있다. M개의 NPU 중에서 제1 NPU(100-1)는 예컨대 센서#1(311)로부터 제공되는 데이터를 처리할 수 있고, M번째 NPU(100-M)는 예컨대 센서#M(312)로부터 제공되는 데이터를 처리할 수 있다. 상기 복수의 NPU(예컨대 100-1, 100-2)는 ADC/DMA(Direct Memory Access)(400)을 통하여 칩-외부 메모리(500)에 접근할 수 있다.
상기 복수의 NPU(예컨대 100-1, 100-2)는 컴파일러(200)로부터 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보를 획득할 수 있다.
각각의 NPU는 영상 융합 인공신경망 모델을 처리하고 퓨전(fusion)을 위한 연산을 ADC/DMA(400)를 통해서 서로 다른 NPU로 전달할 수 있다.
상기 ADC/DMA(400)는 상기 컴파일러(200)로부터 퓨전(fusion) 영상 융합 인공신경망 모델의 인공신경망을 위한 데이터 지역성 정보를 획득할 수 있다.
상기 컴파일러(200)는 영상 융합 인공신경망 모델의 인공신경망 데이터 지역성 정보에 따른 연산들 중에서 병렬 처리되어야 하는 연산들이 각 NPU에서 처리될 수 있도록, 인공신경망 데이터 지역성 정보를 데이터 지역성 정보 #1 그리고 데이터 지역성 정보#M으로 분리하여 생성할 수 있다.
상기 칩-외부 메모리(500)는 복수의 NPU들이 공유가능한 데이터를 저장하고, 각각의 NPU에 전달할 수 있다.
도 25를 참조하면, 카메라로부터 제공되는 데이터를 처리하기 위한 제1 인공신경망을 NPU#1가 담당할 수 있고, Thermal 이미지 센서로부터 제공되는 데이터를 처리하기 제2 인공신경망을 NPU#2가 담당할 수 있다. 또한, 상기 NPU#2는 제1 인공신경망과 제2 인공신경망의 퓨전을 위한 변환을 담당할 수 있다.
지금까지 본 개시의 다양한 예시에 따른 영상 융합 인공신경망 모델을 위한 NPU(100)에 대하여 설명하였다. 본 개시에 따르면, 전문 디바이스가 아닌, 일반 디바이스에 내장되는 고해상도의 일반 가시광 이미지 센서와 저해상도의 열영상 이미지 센서를 활용하여, 고해상도의 열영상을 생성할 수 있다. 이에 본 개시는 저비용으로 고해상도의 열영상을 생성할 수 있다. 뿐만 아니라, 본 개시는 야간 식별을 위해 만들어진 디바이스가 아닌, 예를 들어, 사용자 소지의 디바이스나 차량의 블랙박스 등에서도 영상의 야간 식별력을 향상시킬 수 있다.
<본 개시의 개시들의 간략 정리>
본 개시의 일 개시에 따르면, 영상 융합 인공신경망 모델을 위한 신경 프로세싱 유닛이 제공된다. 상기 영상 융합 인공신경망 모델을 위한 신경 프로세싱 유닛은, 서로 상이한 해상도 및 영상 특성을 가지는 제1 영상 및 제2 영상을 입력하여, 새로운 제3 영상을 출력하도록 학습된 영상 융합 인공신경망 모델의 머신 코드를 입력받도록 구성된 제어부; 상기 영상 융합 인공신경망 모델에 대응되는 복수의 입력 신호를 수신하도록 구성된 입력 회로; 상기 영상 융합 인공신경망 모델 연산의 주 연산을 수행하도록 구성된 프로세싱 엘리먼트 어레이; 상기 영상 융합 인공신경망 모델의 특수 기능 연산을 수행하도록 구성된 특수 기능 유닛 회로; 및 상기 영상 융합 인공신경망 모델의 상기 주 연산 및/또는 상기 특수 기능 연산의 데이터를 저장하도록 구성된 온-칩 메모리; 를 포함하고, 상기 제어부는, 상기 머신-코드에 포함된 영상 융합 인공신경망 모델의 데이터 지역성 정보에 따라 상기 영상 융합 인공신경망 모델의 연산 순서가 기 설정된 순서대로 처리되도록, 상기 프로세싱 엘리먼트 어레이, 상기 특수 기능 유닛 회로 및 상기 온-칩 메모리를 제어하도록 구성되며, 상기 제3 영상의 제3 해상도는, 상기 제1 영상의 제1 해상도와 상기 제2 영상의 제2 해상도 사이의 값을 가지며, 상기 제3 영상의 제3 영상 특성은, 상기 제1 영상의 제1 영상 특성 또는 상기 제2 영상의 제2 영상 특성과 적어도 일부 동일할 수 있다.
상기 제1 영상은, 가시광선 이미지 센서를 통해 획득되는 영상일 수 있다.
상기 제2 영상은, 열화상 이미지 센서를 통해 획득되는 영상일 수 있다.
상기 제1 영상 및 제2 영상은, 하나의 객체에 대한 서로 다른 영상을 포함하며, 상기 영상 특성은, 상기 제1 영상 및 제2 영상을 획득하는 이미지 센서의 종류에 의해 결정될 수 있다.
상기 영상 융합 인공신경망 모델은, 상기 제1 영상 및 제2 영상에서 추출된 객체에서, 얼굴 영역에 대응되는 제1 부분 영상 및 제2 부분 영상만을 입력하도록 구성된 인공신경명 모델일 수 있다.
상기 제3 영상은, 상기 제1 영상의 적어도 일부 영역에 상기 제2 영상에서 결정 가능한 적어도 하나의 특징이 적용된 영상일 수 있다.
상기 영상 융합 인공신경망 모델은, 상기 제1 영상에서 결정 가능한 적어도 하나의 특징과 상기 제2 영상에서 결정 가능한 적어도 하나의 특징을 강조하기 위한 가중치가 적용된 모델일 수 있다.
상기 영상 융합 인공신경망 모델은, 상기 제1 영상의 RGB 값 또는 상기 제1 영상의 픽셀 별 밝기 값만을 입력하도록 구성된 인공신경망 모델일 수 있다.
상기 제3 영상의 상기 제3 해상도는, 상기 제1 영상의 상기 제1 해상도와 동일할 수 있다.
상기 영상 융합 인공신경망 모델은, GAN(generative adversarial networks) 구조를 기초로 학습되며, 하나의 객체에 대한 서로 다른 영상을 입력으로 하여 새로운 영상을 생성하도록 구성된 생성기(generator)에 대응될 수 있다.
상기 영상 융합 인공신경망 모델은, 상기 GAN을 구성하는 상기 생성기 및 상기 생성기에서 생성된 영상을 검증하는 검증기(discriminator)가 상호 경쟁하여 상기 제3 영상의 상기 제3 해상도를 높이기 위한 가중치를 업데이트하도록 구성된 인공신경명 모델일 수 있다.
상기 영상 융합 인공신경망 모델은, 상기 제1 영상 및 상기 제2 영상과 실질적으로 유사한 형식의 학습 데이터 세트를 기초로 학습될 수 있다.
상기 프로세싱 엘리먼트 어레이는, 합성곱, 및 활성화 함수 연산을 처리하도록 구성될 수 있다.
상기 프로세싱 엘리먼트 어레이는, 상기 제3 영상의 상기 제3 해상도를 높이기 위한, Dilated Convolution, Transposed Convolution, 및 Bilinear Interpolation 연산 중 적어도 하나의 연산을 처리하도록 구성될 수 있다.
상기 프로세싱 엘리먼트 어레이에 의해서 Classification, Semantic segmentation, Object detection, 및 Prediction 중 적어도 하나의 추론 연산을 처리하도록 학습된 상기 영상 융합 인공신경망 모델의 상기 적어도 하나의 추론 연산 결과를 출력하도록 구성된 출력부를 더 포함할 수 있다.
상기 특수 기능 유닛 회로는, 인공신경망 퓨전을 위한, Skip-connection 및 Concatenation 중 적어도 하나의 기능을 더 포함할 수 있다.
상기 제어부는 스케줄러를 더 포함하고, 상기 스케줄러는, 상기 영상 융합 인공신경망 모델의 데이터 지역성 정보에 기초하여 상기 온-칩 메모리에 저장된 특정 데이터를 상기 영상 융합 인공신경망 모델의 특정 연산 단계까지 보존하도록, 상기 온-칩 메모리를 제어하도록 구성될 수 있다.
상기 프로세싱 엘리먼트 어레이는 복수의 쓰레드를 더 포함하고, 상기 제어부는 상기 영상 융합 인공신경망 모델의 데이터 지역성에 기초하여 상기 영상 융합 인공신경망 모델의 병렬 구간을 처리하도록 상기 복수의 쓰레드를 제어하도록 구성될 수 있다.
본 개시의 또 다른 개시에 따르면, 영상 융합 인공신경망 모델을 위한 시스템이 제공된다. 상기 시스템은, 제1 해상도 및 제1 영상 특성을 가지는 제1 영상을 획득하는 제1 센서; 상기 제1 해상도보다 작은 제2 해상도 및 상기 제1 영상 특성과 상이한 제2 영상 특성을 가지는 제2 영상을 획득하는 제2 센서; 및 서로 상이한 해상도 및 영상 특성을 가지는 제1 영상 및 제2 영상을 입력하여, 새로운 제3 영상을 출력하도록 학습된 영상 융합 인공신경망 모델을 처리하도록 구성된 신경 프로세싱 유닛; 을 포함하고, 상기 제3 영상의 제3 해상도는, 상기 제1 영상의 제1 해상도와 상기 제2 영상의 제2 해상도 사이의 값을 가지며, 상기 제3 영상의 제3 영상 특성은, 상기 제1 영상의 제1 영상 특성 또는 상기 제2 영상의 제2 영상 특성과 적어도 일부 동일할 수 있다.
이상 첨부된 도면을 참조하여 본 개시의 일 예시들을 더욱 상세하게 설명하였으나, 본 개시는 반드시 이러한 예시로 국한되는 것은 아니고, 본 개시의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서, 본 개시에 개시된 예시들은 본 개시의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 예시에 의하여 본 개시의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 예시들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
[이 발명을 지원한 국가연구개발사업]
[과제고유번호] 1711175834
[과제번호] R-20210401-010439
[부처명] 과학기술정보통신부
[과제관리(전문)기관명] 정보통신산업진흥원
[연구사업명] 인공지능반도체혁신기업집중육성
[연구과제명] 엣지용 인공신경망 프로세서를 위한 컴파일러와 런타임
SW 기술 개발
[기여율] 1/1
[과제수행기관명] (주)딥엑스
[연구기간] 2022.06.01 ~ 2022.12.31
Claims (19)
- 서로 상이한 해상도 및 영상 특성을 가지는 제1 영상 및 제2 영상을 입력하여, 새로운 제3 영상을 출력하도록 학습된 영상 융합 인공신경망 모델의 머신 코드를 입력받도록 구성된 제어부;상기 영상 융합 인공신경망 모델에 대응되는 복수의 입력 신호를 수신하도록 구성된 입력 회로;상기 영상 융합 인공신경망 모델의 주 연산을 수행하도록 구성된 프로세싱 엘리먼트 어레이;상기 영상 융합 인공신경망 모델의 특수 기능 연산을 수행하도록 구성된 특수 기능 유닛 회로; 및상기 영상 융합 인공신경망 모델의 상기 주 연산 및/또는 상기 특수 기능 연산의 데이터를 저장하도록 구성된 온-칩 메모리; 를 포함하고,상기 제어부는, 상기 머신-코드에 포함된 영상 융합 인공신경망 모델의 데이터 지역성 정보에 따라 상기 영상 융합 인공신경망 모델의 연산 순서가 기 설정된 순서대로 처리되도록, 상기 프로세싱 엘리먼트 어레이, 상기 특수 기능 유닛 회로 및 상기 온-칩 메모리를 제어하도록 구성되며,상기 제3 영상의 제3 해상도는, 상기 제1 영상의 제1 해상도와 상기 제2 영상의 제2 해상도 사이의 값을 가지며,상기 제3 영상의 제3 영상 특성은, 상기 제1 영상의 제1 영상 특성 또는 상기 제2 영상의 제2 영상 특성과 적어도 일부 동일한, 영상 융합을 위한 신경 프로세싱 유닛.
- 제1항에 있어서,상기 제1 영상은, 가시광선 이미지 센서를 통해 획득되는 영상인, 영상 융합을 위한 신경 프로세싱 유닛.
- 제1항에 있어서,상기 제2 영상은, 열화상 이미지 센서를 통해 획득되는 영상인, 영상 융합을 위한 신경 프로세싱 유닛.
- 제1항에 있어서,상기 제1 영상 및 상기 제2 영상은, 하나의 객체에 대한 서로 다른 영상을 포함하며,상기 영상 특성은, 상기 제1 영상 및 상기 제2 영상을 획득하는 이미지 센서의 종류에 의해 결정되는, 영상 융합을 위한 신경 프로세싱 유닛.
- 제4항에 있어서,상기 영상 융합 인공신경망 모델은,상기 제1 영상 및 상기 제2 영상에서 추출된 객체에서, 얼굴 영역에 대응되는 제1 부분 영상 및 제2 부분 영상만을 입력하도록 구성된 인공신경명 모델인 것을 특징으로 하는, 영상 융합을 위한 신경 프로세싱 유닛.
- 제1항에 있어서,상기 제3 영상은, 상기 제1 영상의 적어도 일부 영역에 상기 제2 영상에서 결정 가능한 적어도 하나의 특징이 적용된 영상인, 영상 융합을 위한 신경 프로세싱 유닛.
- 제1항에 있어서,상기 영상 융합 인공신경망 모델은,상기 제1 영상에서 결정 가능한 적어도 하나의 특징과 상기 제2 영상에서 결정 가능한 적어도 하나의 특징을 강조하기 위한 가중치가 적용된 모델인 것을 특징으로 하는, 영상 융합을 위한 신경 프로세싱 유닛.
- 제1항에 있어서,상기 영상 융합 인공신경망 모델은,상기 제1 영상의 RGB 값 또는 상기 제1 영상의 픽셀 별 밝기 값만을 입력하도록 구성된 인공신경망 모델인 것을 특징으로 하는, 영상 융합을 위한 신경 프로세싱 유닛.
- 제1항에 있어서,상기 제3 영상의 상기 제3 해상도는,상기 제1 영상의 상기 제1 해상도와 동일한, 영상 융합을 위한 신경 프로세싱 유닛.
- 제1항에 있어서,상기 영상 융합 인공신경망 모델은,GAN(generative adversarial networks) 구조를 기초로 학습되며,하나의 객체에 대한 서로 다른 영상을 입력으로 하여 새로운 영상을 생성하도록 구성된 생성기 (generator) 에 대응되는, 영상 융합을 위한 신경 프로세싱 유닛.
- 제10항에 있어서,상기 영상 융합 인공신경망 모델은,상기 GAN을 구성하는 상기 생성기 및 상기 생성기에서 생성된 영상을 검증하는 검증기 (discriminator) 가 상호 경쟁하여 상기 제3 영상의 상기 제3 해상도를 높이기 위한 가중치를 업데이트하도록 구성된 인공신경명 모델인 것을 특징으로 하는, 영상 융합을 위한 신경 프로세싱 유닛.
- 제1항에 있어서,상기 영상 융합 인공신경망 모델은,상기 제1 영상 및 상기 제2 영상과 실질적으로 유사한 형식의 학습 데이터 세트를 기초로 학습되는, 영상 융합을 위한 신경 프로세싱 유닛.
- 제1항에 있어서,상기 프로세싱 엘리먼트 어레이는,합성곱, 및 활성화 함수 연산을 처리하도록 구성된, 영상 융합을 위한 신경 프로세싱 유닛.
- 제1항에 있어서,상기 프로세싱 엘리먼트 어레이는,상기 제3 영상의 상기 제3 해상도를 높이기 위한, 행렬 곱셈, Dilated Convolution, Transposed Convolution, 및 Bilinear Interpolation 연산 중 적어도 하나의 연산을 처리하도록 구성된, 영상 융합을 위한 신경 프로세싱 유닛.
- 제1항에 있어서,상기 프로세싱 엘리먼트 어레이에 의해서 Classification, Semantic segmentation, Object detection, Pose estimation, 및 Prediction 중 적어도 하나의 추론 연산을 처리하도록 학습된 상기 영상 융합 인공신경망 모델의 상기 적어도 하나의 추론 연산 결과를 출력하도록 구성된 출력부를 더 포함하는, 영상 융합을 위한 신경 프로세싱 유닛.
- 제1항에 있어서,상기 특수 기능 유닛 회로는, 인공신경망 퓨전을 위한, Skip-connection 및 Concatenation 중 적어도 하나의 기능을 더 포함하는, 영상 융합을 위한 신경 프로세싱 유닛.
- 제1항에 있어서,상기 제어부는 스케줄러를 더 포함하고,상기 스케줄러는, 상기 영상 융합 인공신경망 모델의 데이터 지역성 정보에 기초하여 상기 온-칩 메모리에 저장된 특정 데이터를 상기 영상 융합 인공신경망 모델의 특정 연산 단계까지 보존하도록, 상기 온-칩 메모리를 제어하도록 구성된, 영상 융합을 위한 신경 프로세싱 유닛.
- 제1항에 있어서,상기 프로세싱 엘리먼트 어레이는 복수의 쓰레드를 더 포함하고,상기 제어부는 상기 영상 융합 인공신경망 모델의 데이터 지역성에 기초하여 상기 영상 융합 인공신경망 모델의 병렬 구간을 처리하도록 상기 복수의 쓰레드를 제어하도록 구성된 영상 융합을 위한 신경 프로세싱 유닛.
- 제1 해상도 및 제1 영상 특성을 가지는 제1 영상을 획득하는 제1 센서;상기 제1 해상도보다 작은 제2 해상도 및 상기 제1 영상 특성과 상이한 제2 영상 특성을 가지는 제2 영상을 획득하는 제2 센서; 및서로 상이한 해상도 및 영상 특성을 가지는 제1 영상 및 제2 영상을 입력하여, 새로운 제3 영상을 출력하도록 학습된 영상 융합 인공신경망 모델을 처리하도록 구성된 신경 프로세싱 유닛; 을 포함하고,상기 제3 영상의 제3 해상도는, 상기 제1 영상의 제1 해상도와 상기 제2 영상의 제2 해상도 사이의 값을 가지며,상기 제3 영상의 제3 영상 특성은, 상기 제1 영상의 제1 영상 특성 또는 상기 제2 영상의 제2 영상 특성과 적어도 일부 동일한, 영상 융합을 위한 인공신경망 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US18/021,385 US20240265503A1 (en) | 2021-08-12 | 2022-11-30 | Neural processing unit and artificial neural network system for image fusion |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2021-0174869 | 2021-08-12 | ||
KR20210174869 | 2021-12-08 | ||
KR10-2022-0162919 | 2022-11-29 | ||
KR1020220162919A KR102651559B1 (ko) | 2021-12-08 | 2022-11-29 | 영상 융합을 위한 신경 프로세싱 유닛 및 인공신경망 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023106723A1 true WO2023106723A1 (ko) | 2023-06-15 |
Family
ID=86730823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2022/019243 WO2023106723A1 (ko) | 2021-08-12 | 2022-11-30 | 영상 융합을 위한 신경 프로세싱 유닛 및 인공신경망 시스템 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240265503A1 (ko) |
KR (1) | KR20240043735A (ko) |
WO (1) | WO2023106723A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118233895A (zh) * | 2024-04-12 | 2024-06-21 | 山东衡昊信息技术有限公司 | 基于移动通信网络的人脸验证方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190266015A1 (en) * | 2018-02-27 | 2019-08-29 | Microsoft Technology Licensing, Llc | Deep neural network workload scheduling |
KR20190118635A (ko) * | 2017-05-19 | 2019-10-18 | 구글 엘엘씨 | 신경 네트워크 프로세싱을 스케줄링하기 |
KR102294630B1 (ko) * | 2020-03-19 | 2021-08-26 | 한양대학교 산학협력단 | 영상 융합 방법 및 장치 |
-
2022
- 2022-11-30 WO PCT/KR2022/019243 patent/WO2023106723A1/ko active Application Filing
- 2022-11-30 US US18/021,385 patent/US20240265503A1/en active Pending
-
2024
- 2024-03-21 KR KR1020240039241A patent/KR20240043735A/ko unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190118635A (ko) * | 2017-05-19 | 2019-10-18 | 구글 엘엘씨 | 신경 네트워크 프로세싱을 스케줄링하기 |
US20190266015A1 (en) * | 2018-02-27 | 2019-08-29 | Microsoft Technology Licensing, Llc | Deep neural network workload scheduling |
KR102294630B1 (ko) * | 2020-03-19 | 2021-08-26 | 한양대학교 산학협력단 | 영상 융합 방법 및 장치 |
Non-Patent Citations (2)
Title |
---|
CHEN YIRAN, XIE YUAN, SONG LINGHAO, CHEN FAN, TANG TIANQI: "A Survey of Accelerator Architectures for Deep Neural Networks", ENGINEERING, vol. 6, no. 3, 1 March 2020 (2020-03-01), pages 264 - 274, XP055810329, ISSN: 2095-8099, DOI: 10.1016/j.eng.2020.01.007 * |
HUI LI; XIAO-JUN WU; JOSEF KITTLER: "Infrared and Visible Image Fusion using a Deep Learning Framework", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 19 April 2018 (2018-04-19), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081431906, DOI: 10.1109/ICPR.2018.8546006 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118233895A (zh) * | 2024-04-12 | 2024-06-21 | 山东衡昊信息技术有限公司 | 基于移动通信网络的人脸验证方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20240043735A (ko) | 2024-04-03 |
US20240265503A1 (en) | 2024-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020171550A1 (en) | Image processing method and apparatus, electronic device and computer readable storage medium | |
WO2021230708A1 (en) | Image processing method, electronic device and readable storage medium | |
WO2022154471A1 (en) | Image processing method, image processing apparatus, electronic device and computer-readable storage medium | |
WO2020190112A1 (en) | Method, apparatus, device and medium for generating captioning information of multimedia data | |
WO2020197241A1 (en) | Device and method for compressing machine learning model | |
WO2021167394A1 (en) | Video processing method, apparatus, electronic device, and readable storage medium | |
WO2020213750A1 (ko) | 객체를 인식하는 인공 지능 장치 및 그 방법 | |
WO2018088794A2 (ko) | 디바이스가 이미지를 보정하는 방법 및 그 디바이스 | |
WO2023106723A1 (ko) | 영상 융합을 위한 신경 프로세싱 유닛 및 인공신경망 시스템 | |
WO2019135621A1 (ko) | 영상 재생 장치 및 그의 제어 방법 | |
WO2018143707A1 (ko) | 메이크업 평가 시스템 및 그의 동작 방법 | |
WO2022039334A1 (ko) | 신경망 프로세싱 유닛 | |
WO2022154457A1 (en) | Action localization method, device, electronic equipment, and computer-readable storage medium | |
WO2021162359A1 (en) | Image processing method and electronic apparatus | |
WO2020117006A1 (ko) | Ai 기반의 안면인식시스템 | |
WO2019074339A1 (ko) | 신호 변환 시스템 및 신호 변환 방법 | |
WO2019172685A1 (en) | Electronic apparatus and control method thereof | |
WO2022010255A1 (ko) | 기계학습모델을 이용하여 면접영상에 대한 자동화된 평가를 위한 심층질문을 도출하는 방법, 시스템 및 컴퓨터-판독가능 매체 | |
WO2021162481A1 (en) | Electronic device and control method thereof | |
WO2017095195A1 (ko) | 시스템 리소스 관리를 위한 방법 및 장치 | |
WO2019168323A1 (ko) | 이상 개체 검출 장치 및 방법, 이를 포함하는 촬상 장치 | |
EP4097964A1 (en) | Electronic device and controlling method of electronic device | |
WO2023277663A1 (ko) | 인공신경망을 이용한 영상 처리 방법 및 신경 프로세싱 유닛 | |
WO2020017827A1 (ko) | 전자 장치, 및 전자 장치의 제어 방법 | |
EP3997623A1 (en) | Electronic device and control method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WWE | Wipo information: entry into national phase |
Ref document number: 18021385 Country of ref document: US |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22904554 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |