WO2022131399A1 - 변형가능 컨벌루션 네트워크를 정적 계산 기법을 사용하여 최적화한 bsdcn의 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 - Google Patents

변형가능 컨벌루션 네트워크를 정적 계산 기법을 사용하여 최적화한 bsdcn의 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 Download PDF

Info

Publication number
WO2022131399A1
WO2022131399A1 PCT/KR2020/018488 KR2020018488W WO2022131399A1 WO 2022131399 A1 WO2022131399 A1 WO 2022131399A1 KR 2020018488 W KR2020018488 W KR 2020018488W WO 2022131399 A1 WO2022131399 A1 WO 2022131399A1
Authority
WO
WIPO (PCT)
Prior art keywords
convolution
specific
original
learning
offset
Prior art date
Application number
PCT/KR2020/018488
Other languages
English (en)
French (fr)
Inventor
김상범
장하영
Original Assignee
주식회사 써로마인드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 써로마인드 filed Critical 주식회사 써로마인드
Publication of WO2022131399A1 publication Critical patent/WO2022131399A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Definitions

  • the present invention relates to a learning method and a learning apparatus for a Bounded Static Deformable Convolution Network (BSDCN) in which a deformable convolutional network is optimized using a static calculation technique, and a test method and a test apparatus using the same.
  • BSDCN Bounded Static Deformable Convolution Network
  • Two-dimensional convolutional neural networks have found success in several computer vision subproblems, including image classification.
  • the convolutional neural network has a limitation in that it can recognize only patterns that appear in a fixed grid.
  • the pattern recognition algorithm In order for the pattern recognition algorithm to correctly detect and segment various types of atypical objects, it is essential to develop an algorithm that can recognize various types of patterns and can be widely applied.
  • the Deformable Convolution Network is a model that enhances the modeling ability for atypical patterns by allowing the shape of the filter to be deformed out of the lattice.
  • DCN replaced the general Convolution Neural Network (CNN) backbone and showed high recognition performance when applied to various computer vision sub-problems such as object detection and instance segmentation.
  • CNN Convolution Neural Network
  • DCN does not actively take advantage of the optimization and abstraction provided by modern deep learning frameworks.
  • a module In order to run DCN quickly on a hardware accelerator such as GPU, a module must be written in a dedicated low-level programming method such as Compute Unified Device Architecture (CUDA) and compiled according to the environment using a dedicated compiler. This makes it difficult to reproduce the model introduced by DCN and use it in special environments such as edge devices, and requires additional consideration for low-level dependencies when packaging software.
  • CUDA Compute Unified Device Architecture
  • An object of the present invention is to solve the above problems.
  • the present invention introduces a deformable convolution concept to increase the modeling ability for atypical patterns, while reducing the amount of computation and implementing it through a high-level API of a general deep learning framework using a static calculation technique. It aims to provide a Bounded Static Deformable Convolution Network (BSDCN) that optimizes the complexity of .
  • BSDCN Bounded Static Deformable Convolution Network
  • the present invention introduces a deformable convolution concept, but by limiting the range of the offset, not only solves the problem caused by excessive deformation of the filter, but also reduces the amount of computation and the complexity of implementation.
  • Another object of the present invention is to increase the amount of computation and reduce the learning burden due to filter transformation by using the same learned transformation filter for each position on the image.
  • Another object of the present invention is to provide an optimized environment that can be used when actually processing an image using BSDCN by providing a range of offsets that can be used in each step of image processing.
  • the characteristic configuration of the present invention for achieving the object of the present invention as described above and for realizing the characteristic effects of the present invention to be described later is as follows.
  • a deformable convolution concept to increase the modeling ability for an atypical pattern, it can be implemented through a high-level API of a general deep learning framework using a static calculation technique.
  • a learning device when a learning image is input, causes a Deforming unit included in the BSDCN to , (i) at least one original convolutional kernel and (ii) at least one offset parameter corresponding to at least a portion of each original convolutional parameter of the original convolutional kernel, with reference to at least one of the original convolutional kernels, and at least the extended distributed over the original convolutional kernel.
  • the learning device causes, by the learning device, the deformed convolutional layer included in the BSDCN to generate at least one intermediate feature map for learning by applying at least one deformed convolution operation to the training image using the deformed convolution kernel. ; (c) causing, by the learning device, the computation layer included in the BSDCN to generate inference information for learning corresponding to the learning image by applying at least one neural network operation to the intermediate feature map for learning; and (d) the learning device causes the loss layer included in the BSDCN to generate a loss with reference to the inference information for learning and the Ground-Truth inference information, and then perform backpropagation with reference to the loss learning at least a portion of the offset parameter and the original convolutional parameter by performing
  • step (a) the learning device causes the deforming unit to refer to a specific offset parameter corresponding to a specific original convolution parameter that is one of the original convolution parameters, and the specific calculating first to fourth specific interpolation values corresponding to the original convolution parameters; and (a2) the learning device causes the deforming unit to refer to the first to fourth specific interpolation values and the specific original convolution parameter, and first to fourth specific deformations corresponding to the specific original convolution parameter.
  • a method comprising: generating at least a portion of the deformed convolutional kernel by generating a convolutional parameter.
  • the learning device causes the deforming unit to: (i) a specific offset area of a unit size centered on a specific offset coordinate corresponding to the specific offset parameter on a predetermined offset plane; (ii) calculating the first to fourth specific interpolation values by calculating respective first to fourth shared areas between each of the first to fourth specific interpolation regions determined with reference to the specific offset coordinates, characterized in that A method is disclosed.
  • the learning device causes the deforming unit to perform the first bilinear interpolation on the specific original convolution parameter with reference to the first to fourth specific interpolation values. to a fourth specific deformation convolution parameter is disclosed.
  • the learning device causes the deformed convolutional layer to be one of (i) (i-1) first to Nth original convolutional kernels including the original convolutional kernels, where N is an integer of 2 or more.
  • a Kth original convolution kernel corresponding to the Kth convolution stage, where K is an integer of 2 or more and N or less, and (i-2) of the 1st to Nth offset parameters including the offset parameters, the Kth original convolution kernel Referring to a K-th offset parameter whose range is determined according to a preset K-th offset setting value corresponding to
  • the Deforming unit included in the BSDCN causes the (i) at least one original convolutional kernel and (ii) at least one offset parameter corresponding to at least a portion of each original convolutional parameter of the original convolutional kernel as a reference; a process for generating a deformed convolutional kernel of ; (2) causing the deformed convolutional layer included in the BSDCN to generate at least one intermediate feature map for training by applying at least one deformed convolution operation to the training image using the deformed convolution kernel; (3) causing the computation layer included in the BSDCN to generate inference information for learning corresponding to the learning
  • the deforming unit included in the BSDCN causes (i) the original with reference to a convolutional kernel and (ii) the offset parameter corresponding to at least a portion of each of the original convolutional parameters of the original convolutional kernel to generate the deformed convolutional kernel that is expanded and distributed compared to the original convolutional kernel; to do; (b) causing, by the test device, the deform convolutional layer included in the BSDCN to apply the deform convolution operation to the test image using the deform convolution kernel to generate the intermediate feature map for the test; and (c) causing, by the test device, the computation layer included in the BSDCN to generate inference information for testing corresponding to the test image by applying at least one neural network operation to the intermediate feature map for testing.
  • a method comprising:
  • step (a) the test device causes the deforming unit to refer to a specific offset parameter corresponding to a specific original convolution parameter that is one of the original convolution parameters, and the specific calculating first to fourth specific interpolation values corresponding to the original convolution parameters; and (a2) the test device causes the deforming unit to refer to the first to fourth specific interpolation values and the specific original convolutional parameter, and first to fourth specific deformations corresponding to the specific original convolutional parameter.
  • a method comprising: generating at least a portion of the deformed convolutional kernel by generating a convolutional parameter.
  • the test device causes the deforming unit to: (i) a specific offset area of a unit size centered on a specific offset coordinate corresponding to the specific offset parameter on a predetermined offset plane; (ii) calculating the first to fourth specific interpolation values by calculating respective first to fourth shared areas between each of the first to fourth specific interpolation regions determined with reference to the specific offset coordinates, characterized in that A method is disclosed.
  • step (a2) the test device causes the deforming unit to perform the first to fourth specific interpolation values by performing bilinear interpolation on the specific original convolutional parameter with reference to the first to fourth specific interpolation values. to a fourth specific deformation convolution parameter is disclosed.
  • the test device causes the deformed convolutional layer to be one of (i) (i-1) first to Nth original convolutional kernels including the original convolutional kernels, wherein N is an integer greater than or equal to 2, A Kth original convolution kernel corresponding to the Kth convolution stage, where K is an integer of 2 or more and N or less, and (i-2) of the 1st to Nth offset parameters including the offset parameters, the Kth original convolution kernel Referring to a K-th offset parameter whose range is determined according to a preset K-th offset setting value corresponding to Using, by repeating the process of generating an intermediate feature map for the K-th test by applying at least one K-th deform convolution operation to the intermediate feature map for the K-1 test generated from the K-1 convolution stage using Disclosed is a method comprising: generating an intermediate feature map; and (ii) causing the computation layer to generate the inference information for testing by applying the neural network operation to the Nth intermediate feature map for testing.
  • a deformable convolution concept is introduced to increase the modeling ability for atypical patterns, while using a static calculation technique to be implemented through a high-level API of a general deep learning framework.
  • a learning apparatus for a Bounded Static Deformable Convolution Network (BSDCN) that reduces the amount of computation and optimizes implementation complexity by doing so, comprising: one or more memories for storing instructions; and one or more processors configured to perform the instructions, wherein (I) when a training image is input, a Deforming unit included in the BSDCN causes (i) at least one original convolutional kernel and (ii) at least one offset parameter corresponding to at least a portion of each of the original convolutional parameters of the original convolutional kernel as a reference to generate at least one deformed convolutional kernel that is expanded and distributed compared to the original convolutional kernel.
  • BSDCN Bounded Static Deformable Convolution Network
  • an apparatus comprising: performing a process for learning at least some of a parameter and the original convolutional parameter.
  • the (I) process may include: (I1) causing the deforming unit to refer to a specific offset parameter corresponding to a specific original convolution parameter, which is one of the original convolution parameters, by referring to the specific original a process for calculating first to fourth specific interpolation values corresponding to the convolution parameters; and (I2) causing the deforming unit to generate first to fourth specific deformed convolution parameters corresponding to the specific original convolutional parameter with reference to the first to fourth specific interpolation values and the specific original convolutional parameter.
  • the processor causes the deforming unit to: (i) a specific offset area of a unit size centered on a specific offset coordinate corresponding to the specific offset parameter on a predetermined offset plane, and ( ii) calculating the first to fourth specific interpolation values by calculating respective first to fourth shared areas between each of the first to fourth specific interpolation regions determined with reference to the specific offset coordinates, characterized in that The device is disclosed.
  • the processor causes the deforming unit to perform bilinear interpolation on the specific original convolutional parameter with reference to the first to fourth specific interpolation values, whereby the first to fourth An apparatus for generating a fourth specific deform convolution parameter is disclosed.
  • the processor causes the deformed convolutional layer to: (i) one of (i-1) first to Nth original convolutional kernels including the original convolutional kernels, wherein N is an integer greater than or equal to 2, A Kth original convolution kernel corresponding to a K convolution stage, where K is an integer of 2 or more and N or less, and (i-2) of the 1st to Nth offset parameters including the offset parameters, in the Kth original convolution kernel
  • the K-th deformation convolution kernel which is one of the first to N-th deformation convolution kernels including the deformation convolution kernels, is used.
  • the N-th intermediate feature map for learning is obtained. and (ii) causing the computation layer to generate the inference information for learning by applying the neural network operation to the N-th intermediate feature map for learning.
  • a deformable convolution concept is introduced to increase the modeling ability for atypical patterns, while using a static calculation technique to be implemented through a high-level API of a general deep learning framework.
  • a test apparatus for a Bounded Static Deformable Convolution Network (BSDCN) that reduces the amount of computation and optimizes implementation complexity by doing so, comprising: one or more memories for storing instructions; and one or more processors configured to perform the instructions, wherein the processor (I) (1) when a learning image is input, causes a Deforming unit included in the BSDCN to: (i) at least one At least one deformed convolution that is expanded and distributed compared to the original convolutional kernel with reference to the original convolutional kernel and (ii) at least one offset parameter corresponding to at least a portion of each original convolutional parameter of the original convolutional kernel.
  • BSDCN Bounded Static Deformable Convolution Network
  • the deforming unit included in the BSDCN causes (i) the original convolutional kernel and ( ii) a process of generating the deformed convolutional kernel, which is expanded and distributed compared to the original convolutional kernel, with reference to the offset parameter corresponding to at least a portion of each of the original convolutional parameters of the original convolutional kernel; (II) a process for causing the deformed convolutional layer included in the BSDCN to apply the deformed convolutional operation to the test image using the deformed convolutional kernel to generate the intermediate feature map for the test; and (III) causing the computation layer included in the BSDCN to generate test inference information corresponding to the test image by applying at least one neural network computation to the intermediate feature map for testing.
  • An apparatus is disclosed.
  • the (I) process may include: (I1) causing the deforming unit to refer to a specific offset parameter corresponding to a specific original convolution parameter, which is one of the original convolution parameters, by referring to the specific original a process for calculating first to fourth specific interpolation values corresponding to the convolution parameters; and (I2) causing the deforming unit to generate first to fourth specific deformed convolution parameters corresponding to the specific original convolutional parameter with reference to the first to fourth specific interpolation values and the specific original convolutional parameter.
  • the processor causes the deforming unit to: (i) a specific offset area of a unit size centered on a specific offset coordinate corresponding to the specific offset parameter on a predetermined offset plane, and ( ii) calculating the first to fourth specific interpolation values by calculating respective first to fourth shared areas between each of the first to fourth specific interpolation regions determined with reference to the specific offset coordinates, characterized in that The device is disclosed.
  • the processor causes the deforming unit to perform bilinear interpolation on the specific original convolutional parameter with reference to the first to fourth specific interpolation values, whereby the first to fourth An apparatus for generating a fourth specific deform convolution parameter is disclosed.
  • the processor causes the deformed convolutional layer to: (i) one of (i-1) first to Nth original convolutional kernels including the original convolutional kernels, wherein N is an integer greater than or equal to 2, A Kth original convolution kernel corresponding to a K convolution stage, where K is an integer of 2 or more and N or less, and (i-2) of the 1st to Nth offset parameters including the offset parameters, in the Kth original convolution kernel
  • the K-th deformation convolution kernel which is one of the first to N-th deformation convolution kernels including the deformation convolution kernels, is used.
  • the N-th test intermediate Disclosed is an apparatus for generating a feature map, and (ii) causing the computation layer to generate the inference information for testing by applying the neural network operation to the intermediate feature map for the N-th test.
  • the present invention introduces a deformable convolution concept to increase the modeling ability for an atypical pattern, while reducing the amount of computation and reducing the amount of computation by enabling it to be implemented through a high-level API of a general deep learning framework using a static calculation technique.
  • BSDCN Bounded Static Deformable Convolution Network
  • the present invention introduces a deformable convolution concept, but by limiting the range of the offset, it is possible to not only solve the problem of excessive deformation of the filter, but also reduce the amount of computation and the complexity of implementation.
  • the present invention has the effect of reducing the amount of computation and learning burden due to filter transformation by using the same learned transformation filter for each position on the image.
  • the present invention has the effect of providing an optimized environment that can be used when actually processing an image using BSDCN by providing a range of offsets that can be used for each step in image processing.
  • FIG. 1 is a high-level API of a general deep learning framework using a static calculation technique while increasing the modeling ability for an atypical pattern by introducing a deformable convolution concept according to an embodiment of the present invention. It is a diagram showing the configuration of a learning device that performs a learning method of a BSDCN (Bounded Static Deformable Convolution Network) that reduces the amount of computation and optimizes the complexity of implementation.
  • BSDCN Bounded Static Deformable Convolution Network
  • FIG. 2 is a view showing that, by introducing a deformable convolution concept according to an embodiment of the present invention, it can be implemented through a high-level API of a general deep learning framework using a static calculation technique while increasing the modeling ability for an atypical pattern. It is a diagram showing the structure of BSDCN that reduces the amount of computation and optimizes the complexity of implementation.
  • FIG. 3 is a view showing that, by introducing a deformable convolution concept according to an embodiment of the present invention, it can be implemented through a high-level API of a general deep learning framework using a static calculation technique while increasing the modeling ability for an atypical pattern.
  • This is a flow chart showing the learning method of BSDCN by reducing the amount of computation and optimizing the complexity of implementation.
  • FIG. 4 is a view showing that, by introducing a deformable convolution concept according to an embodiment of the present invention, while increasing the modeling ability for an atypical pattern, it can be implemented through a high-level API of a general deep learning framework using a static calculation technique. It is a diagram showing how the deforming unit of BSDCN, which reduces the amount of computation and optimizes the complexity of implementation, generates a deformed convolutional kernel.
  • FIG. 5 is a view showing that by introducing a deformable convolution concept according to an embodiment of the present invention to increase the modeling ability for an atypical pattern, it can be implemented through a high-level API of a general deep learning framework using a static calculation technique. It is a diagram showing an example in which the deforming unit of BSDCN, which reduces the amount of computation and optimizes the complexity of implementation, calculates first to fourth specific interpolation values.
  • FIG. 1 is a high-level API of a general deep learning framework using a static calculation technique while increasing the modeling ability for an atypical pattern by introducing a deformable convolution concept according to an embodiment of the present invention. It is a diagram showing the configuration of a learning device that performs a learning method of a BSDCN (Bounded Static Deformable Convolution Network) that reduces the amount of computation and optimizes the complexity of implementation.
  • BSDCN Bounded Static Deformable Convolution Network
  • a learning apparatus 100 may include a BSDCN 200 .
  • the input/output and calculation processes of the BSDCN 200 may be performed by the communication unit 110 and the processor 120, respectively.
  • a detailed connection relationship between the communication unit 110 and the processor 120 is omitted.
  • the memory 115 may be in a state in which various instructions to be described later are stored, and the processor 120 is configured to execute the instructions stored in the memory, thereby performing processes to be described later to carry out the present invention.
  • the description of the learning apparatus 100 as described above does not exclude a case in which the learning apparatus 100 includes an integrated processor in which a medium, a processor, and a memory are integrated for implementing the present invention.
  • the structure of the BSDCN 200 will be looked at with reference to FIG. 2 .
  • FIG. 2 is a view showing that, by introducing a deformable convolution concept according to an embodiment of the present invention, it can be implemented through a high-level API of a general deep learning framework using a static calculation technique while increasing the modeling ability for an atypical pattern. It is a diagram showing the structure of BSDCN that reduces the amount of computation and optimizes the complexity of implementation.
  • the BSDCN 200 includes at least one deforming unit 210 , at least one deforming convolutional layer 220 , at least one computational layer 230 and at least one loss layer 240 . can do.
  • ... A portion indicated by indicates that there are a plurality of convolutional layers similar to the deformed convolutional layer 220, so that a convolution operation can be applied to the training image for each convolutional stage. Since the structure of such a neural network is widely known to those skilled in the art, it may be fully understood.
  • a plurality of convolutional layers may be included in each convolution stage. For example, in the case of the ResNet structure adopted by Faster R-CNN, a widely used image processing neural net, only the convolutional layer of the first stage is single, and the convolutional layers of subsequent stages are plural.
  • the deforming unit 210 may generate the deformed convolutional kernel with reference to the original convolutional kernel and the offset parameter, and a more detailed process will be described later.
  • the deforming unit 210 may exist for each convolution stage, and each convolution stage may share an offset parameter.
  • each convolutional stage may include a plurality of convolutional layers, and convolutional layers included in the same convolutional stage may share an offset parameter. This will also be described in more detail later.
  • the computation layer 230 may be layers generally used after a convolutional layer in a neural network for image computation.
  • the computation layer 230 may be an ROI pooling layer and FC layers. Since the configuration of the BSDCN 200 of the present invention has been described in general, a learning method of the BSDCN 200 will be described below.
  • FIG. 3 is a view showing that, by introducing a deformable convolution concept according to an embodiment of the present invention, it can be implemented through a high-level API of a general deep learning framework using a static calculation technique while increasing the modeling ability for an atypical pattern.
  • This is a flow chart showing the learning method of BSDCN by reducing the amount of computation and optimizing the complexity of implementation.
  • the learning apparatus 100 causes the deforming unit 210 included in the BSDCN 200 to perform (i) at least one original convolutional kernel 211 and ( ii) At least one deformed convolutional kernel that is expanded and distributed compared to the original convolutional kernel 211 with reference to at least one offset parameter corresponding to at least a portion of each of the original convolutional parameters of the original convolutional kernel 211 . (213) may be generated (S01). Thereafter, the learning device 100 causes the deformed convolutional layer 220 included in the BSDCN 200 to apply at least one deformed convolutional operation to the training image using the deformed convolutional kernel 213 to at least one intermediate for learning. A feature map may be generated (S02).
  • the learning device 100 allows the computation layer 230 included in the BSDCN 200 to generate inference information for learning corresponding to the learning image by applying at least one neural network operation to the intermediate feature map for learning. There is (S03). Finally, the learning device 100 causes the loss layer 240 included in the BSDCN 200 to generate a loss by referring to inference information for learning and Ground-Truth inference information, and then refer to the loss Thus, by performing the backpropagation, it is possible to learn at least some of the offset parameter and the original convolutional parameter (S04).
  • the deforming unit 210 may generate a deformed convolution kernel to be used by the deformed convolutional layer 220 using at least one original convolutional kernel and an offset parameter.
  • the original convolutional kernel may be a lattice-type kernel similar to that generally used in a neural network for image processing.
  • the deforming unit 210 may convert such an original convolutional kernel into a non-lattice deformed deformed convolutional kernel using an offset parameter. Referring to FIG. 4 to look at an example of this.
  • FIG. 4 is a view showing that, by introducing a deformable convolution concept according to an embodiment of the present invention, while increasing the modeling ability for an atypical pattern, it can be implemented through a high-level API of a general deep learning framework using a static calculation technique. It is a diagram showing how the deforming unit of BSDCN, which reduces the amount of computation and optimizes the complexity of implementation, generates a deformed convolutional kernel.
  • the learning apparatus 100 may cause the deforming unit 210 to generate a deformed convolutional kernel with reference to an offset parameter and an original convolutional kernel.
  • the offset parameter indicated by the arrow may be a value indicating how much the position to be multiplied by each parameter is moved when the original convolutional kernel has a size of 3*3. For example, suppose that the original parameter located at the top left of the original convolutional kernel should be multiplied by the value located at the original (1,3) coordinate. At this time, if the corresponding offset parameter is (2,3), the corresponding original parameter will be multiplied by the value located at the (3,6) coordinate that is the sum of the two. In this way, a deformed convolutional kernel can be generated. Since this is also disclosed in a paper related to DCN, which is the aforementioned prior art, a further description will be omitted.
  • the deformed convolutional kernel generated as described above is calculated with the training image input by the deformed convolutional layer 220 , and accordingly, an intermediate feature map for learning may be generated.
  • S may be an offset setting value.
  • the offset set value S is the range of the offset, and when the center of the kernel is viewed as the origin, the position to be multiplied by each parameter can be moved up to, down, left, and right S by the range based on the origin. Therefore, the deformed convolutional kernel may be (2S+1)*(2S+1), which is slightly expanded compared to the original convolutional kernel, which has a size of 3*3.
  • Such an offset setting value may be a preset value. In the case of the conventional DCN, since the range of the offset was not determined as described above, there was a problem of computational efficiency because the size of the kernel was not limited.
  • the offset parameters may be common to all positions to which the corresponding convolutional kernel can be applied.
  • different offsets exist for each position where the convolutional kernel performs a convolution operation and moves, and a lot of computing resources are consumed to learn and calculate them separately.
  • the same offset is used for all positions where the corresponding convolutional kernel moves, which is significant in that it uses much less computing resources without significantly lowering performance compared to the conventional DCN.
  • the learning apparatus 100 causes the deformed convolutional layer 220 to: One of the Kth original convolution kernels corresponding to the Kth convolution stage (K is an integer of 2 or more and N or less) and (i-2) of the 1st to Nth offset parameters including the offset parameters, the Kth original convolution A K-th deformed convolutional kernel, which is one of the first to N-th deformed convolutional kernels including the deformed convolutional kernels, is obtained by referring to a K-th offset parameter whose range is determined according to a preset K-th offset setting value corresponding to the kernel.
  • the computation layer 230 may generate inference information for learning by applying a neural network operation to the N-th intermediate feature map for learning. That is, by sequentially applying operations using the first to N-th original convolutional kernels to the training image, the first to K-th intermediate feature maps for learning are generated, and then input to the computation layer 230 to generate inference information for learning.
  • the range of the offset may vary for each convolution stage, and as will be described later, such setting of the range may be a factor affecting performance. Also, as can be seen from the above description, the offset parameters may be the same for each convolution stage.
  • the learning apparatus 100 When inference information for learning is generated through this process, the learning apparatus 100 causes the loss layer 240 to generate a loss with reference to the inference information for learning and the correct inference information, and then performs backpropagation to offset parameter and The original convolutional parameters can be learned.
  • gradient descent may be used, and since the learning process itself is conventional, the above description will be omitted.
  • the offset parameter is derived as an integer for convenience, but the probability that the offset parameter is not derived as an integer is high due to the nature of the deep learning learning method. Therefore, in such a case, the position at which the corresponding original convolution parameter is multiplied and how to determine the corresponding deformed convolution parameter will be described.
  • the learning device 100 causes the deforming unit 210 to refer to a specific offset parameter corresponding to a specific original convolution parameter, which is one of the original convolution parameters, with reference to the first to first corresponding to the specific original convolution parameter.
  • a fourth specific interpolation value may be calculated.
  • the learning device 100 causes the deforming unit 210 to refer to the first to fourth specific interpolation values and the specific original convolution parameters, and first to fourth specific deformed convolutions corresponding to the specific original convolution parameters.
  • the first to fourth specific interpolation values are the unit size of the learning device 100 centered on the specific offset coordinates corresponding to the specific offset parameters on the predetermined offset plane by the deforming unit 210 . It may be derived by calculating respective first to fourth shared areas between the specific offset region and (ii) each of the first to fourth specific interpolation regions determined with reference to the specific offset coordinates.
  • each of the first to fourth specific interpolation regions determined with reference to the specific offset coordinates may be grid points surrounding the specific offset coordinates. Reference will be made to FIG. 5 to explain this.
  • FIG. 5 is a view showing that by introducing a deformable convolution concept according to an embodiment of the present invention to increase the modeling ability for an atypical pattern, it can be implemented through a high-level API of a general deep learning framework using a static calculation technique. It is a diagram showing an example in which the deforming unit of BSDCN, which reduces the amount of computation and optimizes the complexity of implementation, calculates first to fourth specific interpolation values.
  • a specific offset parameter is (2.25, 1.6)
  • a corresponding specific offset coordinate O(2.25, 1.6) is a grid point (2,1), (3,1), (2,2) ), (3,2)
  • the first to fourth shared areas 1 to 4 between the first to fourth specific interpolation regions and the specific offset region of a unit size centered on the specific offset coordinates are calculated as 0.3, 0.1, 0.15, and 0.45, respectively.
  • such values may be first to fourth specific interpolation values.
  • the learning apparatus 100 causes the deforming unit 200 to perform bilinear interpolation on specific original convolutional parameters with reference to the first to fourth specific interpolation values. It is possible to generate the first to fourth specific deform convolution parameters by performing . If the specific original convolution parameter corresponding to the above-described specific offset coordinate 0(2.25,1.6) is 4, each corresponding to (2,1), (3,1), (3,2), (2,2) is The first to fourth specific deform convolution parameters may be calculated as 1.2, 0.4, 0.6, and 1.8, respectively, by applying bilinear interpolation.
  • the positions at which each original convolutional parameter is to be multiplied move away from the kernel center, and the corresponding parameters may be distributed to lattice points at the corresponding positions.
  • the test apparatus for performing the test method may have a configuration in which the loss layer 240 is excluded when compared with the BSDCN 200 of the learning apparatus.
  • the test device causes the deforming unit 210 included in the BSDCN 200 to (i) at least one original convolutional kernel and (ii) each of the original convolutional kernel when (1) a training image is input. a process of generating at least one deformed convolutional kernel that is expanded and distributed compared to the original convolutional kernel with reference to at least one offset parameter corresponding to at least some of the original convolutional parameters; (2) a process for causing the deformed convolutional layer 220 included in the BSDCN 200 to apply at least one deformed convolutional operation to the training image using the deformed convolution kernel to generate at least one intermediate feature map for training; (3) a process for causing the computation layer 230 included in the BSDCN 200 to generate inference information for learning corresponding to the learning image by applying at least one neural network operation to the intermediate feature map for learning; and (4) causing the loss layer 240 included in the BSDCN 200 to generate a loss by referring to inference information for learning and Ground-Truth inference information, and then performing backpropag
  • test device may cause the deform convolution layer 220 included in the BSDCN 200 to apply a deform convolution operation to the test image using the deform convolution kernel to generate an intermediate feature map for testing.
  • test device may cause the computation layer 230 included in the BSDCN 200 to apply at least one neural network operation to the intermediate feature map for testing to generate inference information for testing corresponding to the test image. .
  • deforming unit 210 Since the above-described deforming unit 210 , the deforming convolutional layer 220 , and the operation layer 230 operate similarly to those in the learning apparatus, a more detailed description will be omitted.
  • the embodiments according to the present invention described above may be implemented in the form of program instructions that can be executed through various computer components and recorded in a computer-readable recording medium.
  • the computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the computer-readable recording medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the computer software field.
  • Examples of the computer-readable recording medium include hard disks, magnetic media such as floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floppy disks. media), and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
  • the hardware device may be configured to operate as one or more software modules for carrying out the processing according to the present invention, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

변형가능 컨벌루션(Deformable Convolution) 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN(Bounded Static Deformable Convolution Network)의 학습 방법이 개시된다.

Description

변형가능 컨벌루션 네트워크를 정적 계산 기법을 사용하여 최적화한 BSDCN의 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
본 발명은 변형가능 컨벌루션 네트워크를 정적 계산 기법을 사용하여 최적화한 BSDCN(Bounded Static Deformable Convolution Network)의 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치에 관한 것이다.
2차원 컨벌루션 신경망은 이미지 분류를 비롯한 여러 컴퓨터 비전 하위 문제들에서 성공을 거두었다. 그러나 컨벌루션 신경망은 고정된 격자 안에 등장하는 패턴만을 인식할 수 있다는 한계를 가진다. 패턴인식 알고리즘이 다양한 종류의 비정형 물체를 올바르게 검출하고 분할하기 위해서는 다양한 형태의 패턴을 인식할 수 있으면서도 널리 적용될 수 있는 알고리즘의 개발이 꼭 필요하다.
변형가능 컨벌루션 신경망(Deformable Convolution Network, DCN)은 필터의 모양이 격자를 벗어나 변형될 수 있도록 하여 비정형 패턴에 대한 모델링 능력을 높인 모델이다. DCN은 일반적인 Convolution Neural Network(CNN) 백본을 대체하여 물체 검출(Object Detection)과 인스턴스 분할(Instance Segmentation) 등 다양한 컴퓨터 비전 하위 문제에 적용되어 높은 인식 성능을 보였다.
그러나 DCN을 사용하는 경우 현대적인 딥러닝 프레임워크가 제공하는 최적화와 추상화의 이점을 적극적으로 활용하지 못한다. DCN을 GPU와 같은 하드웨어 가속기 상에서 빠르게 실행하기 위해서는 Compute Unified Device Architecture(CUDA)와 같은 전용 저수준 프로그래밍 방식으로 모듈을 작성하고 전용 컴파일러를 사용하여 환경에 맞게 컴파일해야만 한다. 이는 DCN이 도입된 모델을 재현하고 엣지 디바이스와 같은 특수한 환경에서 사용하는 것을 어렵게 하며, 소프트웨어 패키징 시 저수준 의존성에 대한 추가적인 고려를 요구한다.
즉, DCN과 같이 높은 인식 성능을 보이면서도 여러 케이스에 범용적으로 적용될 수 있는 인공지능 이미지 처리 기법은 충분히 연구되지 않았다고 볼 수 있다.
본 발명은 상술한 문제점을 해결하는 것을 목적으로 한다.
또한 본 발명은 변형가능 컨벌루션(Deformable Convolution) 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN(Bounded Static Deformable Convolution Network)을 제공하는 것을 목적으로 한다.
또한 본 발명은 변형가능 컨벌루션 개념을 도입하되, 오프셋의 범위를 제한함으로써 필터의 과도한 변형에 따른 문제를 해소할 뿐만 아니라 연산량과 구현의 복잡도를 줄이는 것을 목적으로 한다.
또한 본 발명은 이미지 상의 각각의 위치에 대해 동일하게 학습된 변형 필터를 사용함으로써 필터 변형에 따른 연산량 증가와 학습 부담을 줄이는 것을 목적으로 한다.
또한 본 발명은 이미지 처리시의 각 단계별로 사용될 수 있는 오프셋의 범위를 제공함으로써 실제로 BSDCN을 사용해 이미지를 처리할 때 사용할 수 있는 최적화된 환경을 제공하는 것을 목적으로 한다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한 본 발명의 특징적인 구성은 하기와 같다.
본 발명의 일 태양에 따르면, 변형가능 컨벌루션(Deformable Convolution) 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN(Bounded Static Deformable Convolution Network)의 학습 방법에 있어서, (a) 학습 장치가, 학습 이미지가 입력되면, 상기 BSDCN에 포함된 디포밍(Deforming) 유닛으로 하여금, (i) 적어도 하나의 원본 컨벌루션 커널 및 (ii) 상기 원본 컨벌루션 커널의 각각의 원본 컨벌루션 파라미터 중 적어도 일부에 대응하는 적어도 하나의 오프셋 파라미터를 참조로 하여, 상기 원본 컨벌루션 커널에 비해 확장 분산된 적어도 하나의 디폼(Deformed) 컨벌루션 커널을 생성하도록 하는 단계; (b) 상기 학습 장치가, 상기 BSDCN에 포함된 디폼 컨벌루션 레이어로 하여금, 상기 디폼 컨벌루션 커널을 사용하여 상기 학습 이미지에 적어도 하나의 디폼 컨벌루션 연산을 가하여 적어도 하나의 학습용 중간 피처 맵을 생성하도록 하는 단계; (c) 상기 학습 장치가, 상기 BSDCN에 포함된 연산 레이어로 하여금, 상기 학습용 중간 피처 맵에 적어도 하나의 뉴럴 네트워크 연산을 가하여 상기 학습 이미지에 대응하는 학습용 추론 정보를 생성하도록 하는 단계; 및 (d) 상기 학습 장치가, 상기 BSDCN에 포함된 로스 레이어로 하여금, 상기 학습용 추론 정보 및 정답(Ground-Truth) 추론 정보를 참조하여 로스를 생성하도록 한 후, 상기 로스를 참조하여 백프로퍼게이션을 수행함으로써 상기 오프셋 파라미터 및 상기 원본 컨벌루션 파라미터 중 적어도 일부를 학습하도록 하는 단계를 포함하는 것을 특징으로 하는 방법이 개시된다.
일례로서, 상기 (a) 단계는, (a1) 상기 학습 장치가, 상기 디포밍 유닛으로 하여금, 상기 원본 컨벌루션 파라미터들 중 하나인 특정 원본 컨벌루션 파라미터에 대응하는 특정 오프셋 파라미터를 참조로 하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 단계; 및 (a2) 상기 학습 장치가, 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류 및 상기 특정 원본 컨벌루션 파라미터를 참조하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 함으로써 상기 디폼 컨벌루션 커널의 적어도 일부를 생성하도록 하는 단계를 포함하는 것을 특징으로 하는 방법이 개시된다.
일례로서, 상기 (a1) 단계는, 상기 학습 장치가, 상기 디포밍 유닛으로 하여금, (i) 소정 오프셋 평면상의 상기 특정 오프셋 파라미터에 대응하는 특정 오프셋 좌표를 중심으로 하는 단위 크기의 특정 오프셋 영역 및 (ii) 상기 특정 오프셋 좌표를 참조하여 결정된 각각의 제1 내지 제4 특정 인터폴레이션 영역 간의 각각의 제1 내지 제4 공유 넓이들을 계산함으로써 상기 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 것을 특징으로 하는 방법이 개시된다.
일례로서, 상기 (a2) 단계는, 상기 학습 장치가, 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류들을 참조로 하여 상기 특정 원본 컨벌루션 파라미터에 이중선형 보간을 실시함으로써 상기 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 하는 것을 특징으로 하는 방법이 개시된다.
일례로서, 상기 학습 장치가, 상기 디폼 컨벌루션 레이어로 하여금, (i) (i-1) 상기 원본 컨벌루션 커널들을 포함하는 제1 내지 제N 원본 컨벌루션 커널들 - N은 2 이상의 정수임 - 중 하나인, 제K 컨벌루션 스테이지에 대응하는 제K 원본 컨벌루션 커널 - K는 2 이상 N 이하의 정수임 - 및 (i-2) 상기 오프셋 파라미터들을 포함하는 제1 내지 제N 오프셋 파라미터들 중, 상기 제K 원본 컨벌루션 커널에 대응하는, 기설정된 제K 오프셋 설정값에 따라 그 범위가 결정된 제K 오프셋 파라미터를 참조하여, 상기 디폼 컨벌루션 커널들을 포함하는 제1 내지 제N 디폼 컨벌루션 커널들 중 하나인 제K 디폼 컨벌루션 커널을 사용하여, 제K-1 컨벌루션 스테이지로부터 생성된 제K-1 학습용 중간 피처 맵에 적어도 하나의 제K 디폼 컨벌루션 연산을 가하여 제K 학습용 중간 피처 맵을 생성하는 과정을 반복함으로써 제N 학습용 중간 피처 맵을 생성하도록 하고, (ii) 상기 연산 레이어로 하여금, 상기 제N 학습용 중간 피처 맵에 상기 뉴럴 네트워크 연산을 가하여 상기 학습용 추론 정보를 생성하도록 하는 것을 특징으로 하는 방법이 개시된다.
본 발명의 다른 태양에 따르면, 변형가능 컨벌루션(Deformable Convolution) 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN(Bounded Static Deformable Convolution Network)의 테스트 방법에 있어서, (a) (1) 학습 이미지가 입력되면, 상기 BSDCN에 포함된 디포밍(Deforming) 유닛으로 하여금, (i) 적어도 하나의 원본 컨벌루션 커널 및 (ii) 상기 원본 컨벌루션 커널의 각각의 원본 컨벌루션 파라미터 중 적어도 일부에 대응하는 적어도 하나의 오프셋 파라미터를 참조로 하여, 상기 원본 컨벌루션 커널에 비해 확장 분산된 적어도 하나의 디폼(Deformed) 컨벌루션 커널을 생성하도록 하는 프로세스; (2) 상기 BSDCN에 포함된 디폼 컨벌루션 레이어로 하여금, 상기 디폼 컨벌루션 커널을 사용하여 상기 학습 이미지에 적어도 하나의 디폼 컨벌루션 연산을 가하여 적어도 하나의 학습용 중간 피처 맵을 생성하도록 하는 프로세스; (3) 상기 BSDCN에 포함된 연산 레이어로 하여금, 상기 학습용 중간 피처 맵에 적어도 하나의 뉴럴 네트워크 연산을 가하여 상기 학습 이미지에 대응하는 학습용 추론 정보를 생성하도록 하는 프로세스; 및 (4) 상기 BSDCN에 포함된 로스 레이어로 하여금, 상기 학습용 추론 정보 및 정답(Ground-Truth) 추론 정보를 참조하여 로스를 생성하도록 한 후, 상기 로스를 참조하여 백프로퍼게이션을 수행함으로써 상기 오프셋 파라미터 및 상기 원본 컨벌루션 파라미터 중 적어도 일부를 학습하도록 하는 프로세스를 수행함으로써 학습이 완료된 상태에서, 테스트 장치가, 테스트 이미지가 입력되면, 상기 BSDCN에 포함된 상기 디포밍 유닛으로 하여금, (i) 상기 원본 컨벌루션 커널 및 (ii) 상기 원본 컨벌루션 커널의 각각의 상기 원본 컨벌루션 파라미터 중 적어도 일부에 대응하는 상기 오프셋 파라미터를 참조로 하여, 상기 원본 컨벌루션 커널에 비해 확장 분산된 상기 디폼(Deformed) 컨벌루션 커널을 생성하도록 하는 단계; (b) 상기 테스트 장치가, 상기 BSDCN에 포함된 상기 디폼 컨벌루션 레이어로 하여금, 상기 디폼 컨벌루션 커널을 사용하여 상기 테스트 이미지에 상기 디폼 컨벌루션 연산을 가하여 상기 테스트용 중간 피처 맵을 생성하도록 하는 단계; 및 (c) 상기 테스트 장치가, 상기 BSDCN에 포함된 연산 레이어로 하여금, 상기 테스트용 중간 피처 맵에 적어도 하나의 뉴럴 네트워크 연산을 가하여 상기 테스트 이미지에 대응하는 테스트용 추론 정보를 생성하도록 하는 단계를 포함하는 것을 특징으로 하는 방법이 개시된다.
일례로서, 상기 (a) 단계는, (a1) 상기 테스트 장치가, 상기 디포밍 유닛으로 하여금, 상기 원본 컨벌루션 파라미터들 중 하나인 특정 원본 컨벌루션 파라미터에 대응하는 특정 오프셋 파라미터를 참조로 하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 단계; 및 (a2) 상기 테스트 장치가, 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류 및 상기 특정 원본 컨벌루션 파라미터를 참조하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 함으로써 상기 디폼 컨벌루션 커널의 적어도 일부를 생성하도록 하는 단계를 포함하는 것을 특징으로 하는 방법이 개시된다.
일례로서, 상기 (a1) 단계는, 상기 테스트 장치가, 상기 디포밍 유닛으로 하여금, (i) 소정 오프셋 평면상의 상기 특정 오프셋 파라미터에 대응하는 특정 오프셋 좌표를 중심으로 하는 단위 크기의 특정 오프셋 영역 및 (ii) 상기 특정 오프셋 좌표를 참조하여 결정된 각각의 제1 내지 제4 특정 인터폴레이션 영역 간의 각각의 제1 내지 제4 공유 넓이들을 계산함으로써 상기 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 것을 특징으로 하는 방법이 개시된다.
일례로서, 상기 (a2) 단계는, 상기 테스트 장치가, 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류들을 참조로 하여 상기 특정 원본 컨벌루션 파라미터에 이중선형 보간을 실시함으로써 상기 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 하는 것을 특징으로 하는 방법이 개시된다.
일례로서, 상기 테스트 장치가, 상기 디폼 컨벌루션 레이어로 하여금, (i) (i-1) 상기 원본 컨벌루션 커널들을 포함하는 제1 내지 제N 원본 컨벌루션 커널들 - N은 2 이상의 정수임 - 중 하나인, 제K 컨벌루션 스테이지에 대응하는 제K 원본 컨벌루션 커널 - K는 2 이상 N 이하의 정수임 - 및 (i-2) 상기 오프셋 파라미터들을 포함하는 제1 내지 제N 오프셋 파라미터들 중, 상기 제K 원본 컨벌루션 커널에 대응하는, 기설정된 제K 오프셋 설정값에 따라 그 범위가 결정된 제K 오프셋 파라미터를 참조하여, 상기 디폼 컨벌루션 커널들을 포함하는 제1 내지 제N 디폼 컨벌루션 커널들 중 하나인 제K 디폼 컨벌루션 커널을 사용하여, 제K-1 컨벌루션 스테이지로부터 생성된 제K-1 테스트용 중간 피처 맵에 적어도 하나의 제K 디폼 컨벌루션 연산을 가하여 제K 테스트용 중간 피처 맵을 생성하는 과정을 반복함으로써 제N 테스트용 중간 피처 맵을 생성하도록 하고, (ii) 상기 연산 레이어로 하여금, 상기 제N 테스트용 중간 피처 맵에 상기 뉴럴 네트워크 연산을 가하여 상기 테스트용 추론 정보를 생성하도록 하는 것을 특징으로 하는 방법이 개시된다.
본 발명의 또다른 태양에 따르면, 변형가능 컨벌루션(Deformable Convolution) 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN(Bounded Static Deformable Convolution Network)의 학습 장치에 있어서, 인스트럭션들을 저장하는 하나 이상의 메모리; 및 상기 인스트럭션들을 수행하도록 설정된 하나 이상의 프로세서를 포함하되, 상기 프로세서는, (I) 학습 이미지가 입력되면, 상기 BSDCN에 포함된 디포밍(Deforming) 유닛으로 하여금, (i) 적어도 하나의 원본 컨벌루션 커널 및 (ii) 상기 원본 컨벌루션 커널의 각각의 원본 컨벌루션 파라미터 중 적어도 일부에 대응하는 적어도 하나의 오프셋 파라미터를 참조로 하여, 상기 원본 컨벌루션 커널에 비해 확장 분산된 적어도 하나의 디폼(Deformed) 컨벌루션 커널을 생성하도록 하는 프로세스; (II) 상기 BSDCN에 포함된 디폼 컨벌루션 레이어로 하여금, 상기 디폼 컨벌루션 커널을 사용하여 상기 학습 이미지에 적어도 하나의 디폼 컨벌루션 연산을 가하여 적어도 하나의 학습용 중간 피처 맵을 생성하도록 하는 프로세스; (III) 상기 BSDCN에 포함된 연산 레이어로 하여금, 상기 학습용 중간 피처 맵에 적어도 하나의 뉴럴 네트워크 연산을 가하여 상기 학습 이미지에 대응하는 학습용 추론 정보를 생성하도록 하는 프로세스; 및 (IV) 상기 BSDCN에 포함된 로스 레이어로 하여금, 상기 학습용 추론 정보 및 정답(Ground-Truth) 추론 정보를 참조하여 로스를 생성하도록 한 후, 상기 로스를 참조하여 백프로퍼게이션을 수행함으로써 상기 오프셋 파라미터 및 상기 원본 컨벌루션 파라미터 중 적어도 일부를 학습하도록 하는 프로세스를 수행하는 것을 특징으로 하는 장치가 개시된다.
일례로서, 상기 (I) 프로세스는, 상기 프로세서가, (I1) 상기 디포밍 유닛으로 하여금, 상기 원본 컨벌루션 파라미터들 중 하나인 특정 원본 컨벌루션 파라미터에 대응하는 특정 오프셋 파라미터를 참조로 하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 프로세스; 및 (I2) 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류 및 상기 특정 원본 컨벌루션 파라미터를 참조하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 함으로써 상기 디폼 컨벌루션 커널의 적어도 일부를 생성하도록 하는 프로세스를 수행하는 것을 특징으로 하는 장치가 개시된다.
일례로서, 상기 (I1) 프로세스는, 상기 프로세서가, 상기 디포밍 유닛으로 하여금, (i) 소정 오프셋 평면상의 상기 특정 오프셋 파라미터에 대응하는 특정 오프셋 좌표를 중심으로 하는 단위 크기의 특정 오프셋 영역 및 (ii) 상기 특정 오프셋 좌표를 참조하여 결정된 각각의 제1 내지 제4 특정 인터폴레이션 영역 간의 각각의 제1 내지 제4 공유 넓이들을 계산함으로써 상기 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 것을 특징으로 하는 장치가 개시된다.
일례로서, 상기 (I2) 프로세스는, 상기 프로세서가, 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류들을 참조로 하여 상기 특정 원본 컨벌루션 파라미터에 이중선형 보간을 실시함으로써 상기 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 하는 것을 특징으로 하는 장치가 개시된다.
일례로서, 상기 프로세서가, 상기 디폼 컨벌루션 레이어로 하여금, (i) (i-1) 상기 원본 컨벌루션 커널들을 포함하는 제1 내지 제N 원본 컨벌루션 커널들 - N은 2 이상의 정수임 - 중 하나인, 제K 컨벌루션 스테이지에 대응하는 제K 원본 컨벌루션 커널 - K는 2 이상 N 이하의 정수임 - 및 (i-2) 상기 오프셋 파라미터들을 포함하는 제1 내지 제N 오프셋 파라미터들 중, 상기 제K 원본 컨벌루션 커널에 대응하는, 기설정된 제K 오프셋 설정값에 따라 그 범위가 결정된 제K 오프셋 파라미터를 참조하여, 상기 디폼 컨벌루션 커널들을 포함하는 제1 내지 제N 디폼 컨벌루션 커널들 중 하나인 제K 디폼 컨벌루션 커널을 사용하여, 제K-1 컨벌루션 스테이지로부터 생성된 제K-1 학습용 중간 피처 맵에 적어도 하나의 제K 디폼 컨벌루션 연산을 가하여 제K 학습용 중간 피처 맵을 생성하는 과정을 반복함으로써 제N 학습용 중간 피처 맵을 생성하도록 하고, (ii) 상기 연산 레이어로 하여금, 상기 제N 학습용 중간 피처 맵에 상기 뉴럴 네트워크 연산을 가하여 상기 학습용 추론 정보를 생성하도록 하는 것을 특징으로 하는 장치가 개시된다.
본 발명의 또다른 태양에 따르면, 변형가능 컨벌루션(Deformable Convolution) 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN(Bounded Static Deformable Convolution Network)의 테스트 장치에 있어서, 인스트럭션들을 저장하는 하나 이상의 메모리; 및 상기 인스트럭션들을 수행하도록 설정된 하나 이상의 프로세서를 포함하되, 상기 프로세서는, (I) (1) 학습 이미지가 입력되면, 상기 BSDCN에 포함된 디포밍(Deforming) 유닛으로 하여금, (i) 적어도 하나의 원본 컨벌루션 커널 및 (ii) 상기 원본 컨벌루션 커널의 각각의 원본 컨벌루션 파라미터 중 적어도 일부에 대응하는 적어도 하나의 오프셋 파라미터를 참조로 하여, 상기 원본 컨벌루션 커널에 비해 확장 분산된 적어도 하나의 디폼(Deformed) 컨벌루션 커널을 생성하도록 하는 프로세스; (2) 상기 BSDCN에 포함된 디폼 컨벌루션 레이어로 하여금, 상기 디폼 컨벌루션 커널을 사용하여 상기 학습 이미지에 적어도 하나의 디폼 컨벌루션 연산을 가하여 적어도 하나의 학습용 중간 피처 맵을 생성하도록 하는 프로세스; (3) 상기 BSDCN에 포함된 연산 레이어로 하여금, 상기 학습용 중간 피처 맵에 적어도 하나의 뉴럴 네트워크 연산을 가하여 상기 학습 이미지에 대응하는 학습용 추론 정보를 생성하도록 하는 프로세스; 및 (4) 상기 BSDCN에 포함된 로스 레이어로 하여금, 상기 학습용 추론 정보 및 정답(Ground-Truth) 추론 정보를 참조하여 로스를 생성하도록 한 후, 상기 로스를 참조하여 백프로퍼게이션을 수행함으로써 상기 오프셋 파라미터 및 상기 원본 컨벌루션 파라미터 중 적어도 일부를 학습하도록 하는 프로세스를 수행함으로써 학습이 완료된 상태에서, 테스트 이미지가 입력되면, 상기 BSDCN에 포함된 상기 디포밍 유닛으로 하여금, (i) 상기 원본 컨벌루션 커널 및 (ii) 상기 원본 컨벌루션 커널의 각각의 상기 원본 컨벌루션 파라미터 중 적어도 일부에 대응하는 상기 오프셋 파라미터를 참조로 하여, 상기 원본 컨벌루션 커널에 비해 확장 분산된 상기 디폼(Deformed) 컨벌루션 커널을 생성하도록 하는 프로세스; (II) 상기 BSDCN에 포함된 상기 디폼 컨벌루션 레이어로 하여금, 상기 디폼 컨벌루션 커널을 사용하여 상기 테스트 이미지에 상기 디폼 컨벌루션 연산을 가하여 상기 테스트용 중간 피처 맵을 생성하도록 하는 프로세스; 및 (III) 상기 BSDCN에 포함된 연산 레이어로 하여금, 상기 테스트용 중간 피처 맵에 적어도 하나의 뉴럴 네트워크 연산을 가하여 상기 테스트 이미지에 대응하는 테스트용 추론 정보를 생성하도록 하는 프로세스를 수행하는 것을 특징으로 하는 장치가 개시된다.
일례로서, 상기 (I) 프로세스는, 상기 프로세서가, (I1) 상기 디포밍 유닛으로 하여금, 상기 원본 컨벌루션 파라미터들 중 하나인 특정 원본 컨벌루션 파라미터에 대응하는 특정 오프셋 파라미터를 참조로 하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 프로세스; 및 (I2) 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류 및 상기 특정 원본 컨벌루션 파라미터를 참조하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 함으로써 상기 디폼 컨벌루션 커널의 적어도 일부를 생성하도록 하는 프로세스를 수행하는 것을 특징으로 하는 장치가 개시된다.
일례로서, 상기 (I1) 프로세스는, 상기 프로세서가, 상기 디포밍 유닛으로 하여금, (i) 소정 오프셋 평면상의 상기 특정 오프셋 파라미터에 대응하는 특정 오프셋 좌표를 중심으로 하는 단위 크기의 특정 오프셋 영역 및 (ii) 상기 특정 오프셋 좌표를 참조하여 결정된 각각의 제1 내지 제4 특정 인터폴레이션 영역 간의 각각의 제1 내지 제4 공유 넓이들을 계산함으로써 상기 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 것을 특징으로 하는 장치가 개시된다.
일례로서, 상기 (I2) 프로세스는, 상기 프로세서가, 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류들을 참조로 하여 상기 특정 원본 컨벌루션 파라미터에 이중선형 보간을 실시함으로써 상기 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 하는 것을 특징으로 하는 장치가 개시된다.
일례로서, 상기 프로세서가, 상기 디폼 컨벌루션 레이어로 하여금, (i) (i-1) 상기 원본 컨벌루션 커널들을 포함하는 제1 내지 제N 원본 컨벌루션 커널들 - N은 2 이상의 정수임 - 중 하나인, 제K 컨벌루션 스테이지에 대응하는 제K 원본 컨벌루션 커널 - K는 2 이상 N 이하의 정수임 - 및 (i-2) 상기 오프셋 파라미터들을 포함하는 제1 내지 제N 오프셋 파라미터들 중, 상기 제K 원본 컨벌루션 커널에 대응하는, 기설정된 제K 오프셋 설정값에 따라 그 범위가 결정된 제K 오프셋 파라미터를 참조하여, 상기 디폼 컨벌루션 커널들을 포함하는 제1 내지 제N 디폼 컨벌루션 커널들 중 하나인 제K 디폼 컨벌루션 커널을 사용하여, 제K-1 컨벌루션 스테이지로부터 생성된 제K-1 테스트용 중간 피처 맵에 적어도 하나의 제K 디폼 컨벌루션 연산을 가하여 제K 테스트용 중간 피처 맵을 생성하는 과정을 반복함으로써 제N 테스트용 중간 피처 맵을 생성하도록 하고, (ii) 상기 연산 레이어로 하여금, 상기 제N 테스트용 중간 피처 맵에 상기 뉴럴 네트워크 연산을 가하여 상기 테스트용 추론 정보를 생성하도록 하는 것을 특징으로 하는 장치가 개시된다.
본 발명은 변형가능 컨벌루션(Deformable Convolution) 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN(Bounded Static Deformable Convolution Network)을 제공할 수 있는 효과가 있다.
또한 본 발명은 변형가능 컨벌루션 개념을 도입하되, 오프셋의 범위를 제한함으로써 필터의 과도한 변형에 따른 문제를 해소할 뿐만 아니라 연산량과 구현의 복잡도를 줄일 수 있는 효과가 있다.
또한 본 발명은 이미지 상의 각각의 위치에 대해 동일하게 학습된 변형 필터를 사용함으로써 필터 변형에 따른 연산량 증가와 학습 부담을 줄일 수 있는 효과가 있다.
또한 본 발명은 이미지 처리시의 각 단계별로 사용될 수 있는 오프셋의 범위를 제공함으로써 실제로 BSDCN을 사용해 이미지를 처리할 때 사용할 수 있는 최적화된 환경을 제공할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른, 변형가능 컨벌루션(Deformable Convolution) 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN(Bounded Static Deformable Convolution Network)의 학습 방법을 수행하는 학습 장치의 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른, 변형가능 컨벌루션 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN의 구조를 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른, 변형가능 컨벌루션 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN의 학습 방법을 나타낸 흐름도이다.
도 4는 본 발명의 일 실시예에 따른, 변형가능 컨벌루션 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN의 디포밍 유닛이 디폼 컨벌루션 커널을 생성하는 방식을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른, 변형가능 컨벌루션 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN의 디포밍 유닛이 제1 내지 제4 특정 인터폴레이션 밸류를 계산하는 예시를 나타낸 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른, 변형가능 컨벌루션(Deformable Convolution) 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN(Bounded Static Deformable Convolution Network)의 학습 방법을 수행하는 학습 장치의 구성을 나타낸 도면이다.
도 1을 참조하면, 학습 장치(100)는 BSDCN(200)을 포함할 수 있다. 이 때, BSDCN(200)의 입출력 및 연산 과정은 각각 통신부(110) 및 프로세서(120)에 의해 이루어질 수 있다. 다만, 도 1에서는 통신부(110) 및 프로세서(120)의 구체적인 연결 관계를 생략하였다. 또한, 메모리(115)는 후술할 여러 가지 인스트럭션들을 저장한 상태일 수 있고, 프로세서(120)는 메모리에 저장된 인스트럭션들을 수행하도록 됨으로써 추후 설명할 프로세스들을 수행하여 본 발명을 수행할 수 있다. 이와 같이 학습 장치(100)가 묘사되었다고 하여, 학습 장치(100)가 본 발명을 실시하기 위한 미디엄, 프로세서 및 메모리가 통합된 형태인 integrated 프로세서를 포함하는 경우를 배제하는 것은 아니다. 이하 BSDCN(200)의 구조에 대해 도 2를 참조하여 살피도록 한다.
도 2는 본 발명의 일 실시예에 따른, 변형가능 컨벌루션 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN의 구조를 나타낸 도면이다.
도 2를 참조하면, BSDCN(200)은 적어도 하나의 디포밍 유닛(210), 적어도 하나의 디폼 컨벌루션 레이어(220), 적어도 하나의 연산 레이어(230) 및 적어도 하나의 로스 레이어(240)를 포함할 수 있다. 도면에서 …로 표시된 부분은, 디폼 컨벌루션 레이어(220)와 유사한 컨벌루션 레이어가 복수 개 존재하여, 학습 이미지에 컨벌루션 스테이지별로 컨벌루션 연산이 적용될 수 있음을 나타낸 것이다. 이와 같은 뉴럴 네트워크의 구조는 통상의 기술자에게 널리 알려져 있는 것이므로 충분히 이해될 수 있을 것이다. 또한, 각 컨벌루션 스테이지에 복수 개의 컨벌루션 레이어가 포함될 수 있음 역시 통상의 기술자에게 이해될 수 있을 것이다. 일례로, 널리 쓰이는 이미지 처리 뉴럴넷인 Faster R-CNN에서 채택한 ResNet 구조의 경우, 첫 번째 스테이지의 컨벌루션 레이어만 단일하고, 그 이후 스테이지의 컨벌루션 레이어는 복수 개이다.
도 2를 다시 참조하면, 디폼 컨벌루션 레이어(220)가 디포밍 유닛(210)으로부터 디폼 컨벌루션 커널을 획득하여 학습 이미지에 디폼 컨벌루션 연산을 가하는 구조를 확인할 수 있다. 여기서 디포밍 유닛(210)은 원본 컨벌루션 커널 및 오프셋 파라미터를 참조하여 디폼 컨벌루션 커널을 생성할 수 있는데, 더욱 자세한 과정에 대해서는 추후 설명할 것이다. 또한, 디포밍 유닛(210)은, 각각의 컨벌루션 스테이지별로 존재할 수 있으며, 각각의 컨벌루션 스테이지는 오프셋 파라미터를 공유할 수 있다. 전술한 바와 같이, 각각의 컨벌루션 스테이지는 복수 개의 컨벌루션 레이어를 포함할 수 있고, 같은 컨벌루션 스테이지에 포함된 컨벌루션 레이어들은 오프셋 파라미터를 공유할 수 있다. 이에 대해서도 추후 더욱 자세히 설명될 것이다. 연산 레이어(230)는, 일반적으로 이미지 연산용 뉴럴 네트워크에서 컨벌루션 레이어 뒤에 사용되는 레이어들일 수 있다. 가령, Faster R-CNN을 기반으로 본 발명을 적용할 경우, 연산 레이어(230)는 ROI 풀링 레이어 및 FC 레이어들일 수 있다. 이상 본 발명의 BSDCN(200)의 구성에 대해 전반적으로 설명한 바, 이하 BSDCN(200)의 학습 방법에 대해 설명하도록 한다.
도 3은 본 발명의 일 실시예에 따른, 변형가능 컨벌루션 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN의 학습 방법을 나타낸 흐름도이다.
도 3을 참조하면, 학습 장치(100)는, 학습 이미지가 입력되면, 상기 BSDCN(200)에 포함된 디포밍 유닛(210)으로 하여금, (i) 적어도 하나의 원본 컨벌루션 커널(211) 및 (ii) 원본 컨벌루션 커널(211)의 각각의 원본 컨벌루션 파라미터 중 적어도 일부에 대응하는 적어도 하나의 오프셋 파라미터를 참조로 하여, 원본 컨벌루션 커널(211)에 비해 확장 분산된 적어도 하나의 디폼(Deformed) 컨벌루션 커널(213)을 생성하도록 할 수 있다(S01). 이후, 학습 장치(100)는, BSDCN(200)에 포함된 디폼 컨벌루션 레이어(220)로 하여금, 디폼 컨벌루션 커널(213)을 사용하여 학습 이미지에 적어도 하나의 디폼 컨벌루션 연산을 가하여 적어도 하나의 학습용 중간 피처 맵을 생성하도록 할 수 있다(S02). 또한, 학습 장치(100)는, BSDCN(200)에 포함된 연산 레이어(230)로 하여금, 학습용 중간 피처 맵에 적어도 하나의 뉴럴 네트워크 연산을 가하여 학습 이미지에 대응하는 학습용 추론 정보를 생성하도록 할 수 있다(S03). 마지막으로, 학습 장치(100)는, BSDCN(200)에 포함된 로스 레이어(240)로 하여금, 학습용 추론 정보 및 정답(Ground-Truth) 추론 정보를 참조하여 로스를 생성하도록 한 후, 로스를 참조하여 백프로퍼게이션을 수행함으로써 오프셋 파라미터 및 원본 컨벌루션 파라미터 중 적어도 일부를 학습하도록 할 수 있다(S04).
이하 각각의 단계에 대해 더욱 구체적으로 설명하도록 한다.
전술한 바와 같이, 디포밍 유닛(210)은, 적어도 하나의 원본 컨벌루션 커널 및 오프셋 파라미터를 이용해, 디폼 컨벌루션 레이어(220)가 사용할 디폼 컨벌루션 커널을 생성할 수 있다. 여기서 원본 컨벌루션 커널은, 일반적으로 이미지 처리용 뉴럴 네트워크에서 사용하는 것과 유사한 격자형의 커널일 수 있다. 디포밍 유닛(210)은, 이와 같은 원본 컨벌루션 커널을 오프셋 파라미터를 사용해 격자형이 아닌 비정형의 디폼 컨벌루션 커널로 변환할 수 있다. 이에 대한 일 예시를 살피기 위해 도 4를 참조하도록 한다.
도 4는 본 발명의 일 실시예에 따른, 변형가능 컨벌루션 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN의 디포밍 유닛이 디폼 컨벌루션 커널을 생성하는 방식을 나타낸 도면이다.
도 4를 참조하면, 학습 장치(100)는, 디포밍 유닛(210)으로 하여금, 오프셋 파라미터 및 원본 컨벌루션 커널을 참조하여 디폼 컨벌루션 커널을 생성하도록 할 수 있다. 도면에서 확인할 수 있듯, 화살표로 표시된 오프셋 파라미터는, 원본 컨벌루션 커널이 3*3의 크기일 때, 각각의 파라미터가 곱할 위치를 얼마만큼 옮길지를 나타내는 값일 수 있다. 예를 들어, 원본 컨벌루션 커널에서 가장 좌측 상단에 위치하는 원본 파라미터는 원래 (1,3) 좌표에 위치한 값과 곱해져야 한다고 가정하자. 이 때 이에 대응하는 오프셋 파라미터가 (2,3) 이라면, 해당 원본 파라미터는 그 둘을 더한 (3,6) 좌표에 위치한 값과 곱해지게 될 것이다. 이와 같은 방식으로 디폼 컨벌루션 커널이 생성될 수 있는데, 이는 전술한 종래 기술인 DCN과 관련된 논문에서도 개시하고 있는 사항이므로 더 이상의 설명은 생략하도록 한다.
이와 같이 생성된 디폼 컨벌루션 커널은, 디폼 컨벌루션 레이어(220)에 의해 입력된 학습 이미지와 연산되고, 이에 따라 학습용 중간 피처 맵이 생성될 수 있다. 여기서, 도 4를 다시 참조하면 디폼 컨벌루션 커널의 가로세로 크기가 각각 2S+1 인 것으로 표시되어 있는데, 여기서 S는 오프셋 설정값일 수 있다. 오프셋 설정값 S는 오프셋의 범위로서, 커널의 중심을 원점으로 보았을 때, 각 파라미터가 곱해질 위치가 원점을 기준으로 상하좌우 S만큼의 범위까지 움직일 수 있다는 것을 의미한다. 따라서 디폼 컨벌루션 커널은 본디 3*3의 크기인 원본 컨벌루션 커널에 비해 다소 확장된, (2S+1)*(2S+1) 일 수 있다. 이와 같은 오프셋 설정값은 기설정된 것일 수 있다. 종래의 DCN의 경우 오프셋의 범위가 이와 같이 결정된 것이 없어서 커널의 크기가 제한이 없었던 바 연산 효율성 문제가 있었으나, 이와 같이 오프셋 설정값을 둠으로써 해당 문제를 해결할 수 있게 되었다.
또한, 본 발명의 경우, 오프셋 파라미터들이 해당 컨벌루션 커널이 적용될 수 있는 모든 위치에 공통된 것일 수 있다. 종래의 DCN의 경우, 컨벌루션 커널이 컨벌루션 연산을 하며 움직이는 위치마다 다른 오프셋이 존재하여, 이들을 따로 학습하고 연산하는 데에 많은 컴퓨팅 리소스가 소모되었다. 하지만 본 발명의 경우, 해당 컨벌루션 커널이 움직이는 모든 위치에 대해 동일한 오프셋을 사용하는데, 이는 종래의 DCN에 비해 성능이 크게 떨어지지 않으면서도 훨씬 적은 컴퓨팅 리소스를 사용하는 방식이라는 점에서 의의가 있다.
이하 본 발명의 BSDCN 구조를 Faster R-CNN과 같이 컨벌루션을 여러 번 반복하는 종래의 이미지 처리 뉴럴넷에 접목한 실시예에 대해 설명하도록 한다. 이 경우, 학습 장치(100)가, 디폼 컨벌루션 레이어(220)로 하여금, (i) (i-1) 원본 컨벌루션 커널들을 포함하는 제1 내지 제N 원본 컨벌루션 커널들(N은 2 이상의 정수임) 중 하나인, 제K 컨벌루션 스테이지에 대응하는 제K 원본 컨벌루션 커널(K는 2 이상 N 이하의 정수임)및 (i-2) 오프셋 파라미터들을 포함하는 제1 내지 제N 오프셋 파라미터들 중, 제K 원본 컨벌루션 커널에 대응하는, 기설정된 제K 오프셋 설정값에 따라 그 범위가 결정된 제K 오프셋 파라미터를 참조하여, 디폼 컨벌루션 커널들을 포함하는 제1 내지 제N 디폼 컨벌루션 커널들 중 하나인 제K 디폼 컨벌루션 커널을 사용하여, 제K-1 컨벌루션 스테이지로부터 생성된 제K-1 학습용 중간 피처 맵에 적어도 하나의 제K 디폼 컨벌루션 연산을 가하여 제K 학습용 중간 피처 맵을 생성하는 과정을 반복함으로써 제N 학습용 중간 피처 맵을 생성하도록 하고, (ii) 연산 레이어(230)로 하여금, 제N 학습용 중간 피처 맵에 뉴럴 네트워크 연산을 가하여 학습용 추론 정보를 생성하도록 할 수 있다. 즉, 학습 이미지에 제1 내지 제N 원본 컨벌루션 커널들을 이용한 연산을 순차적으로 가함으로써 제1 내지 제K 학습용 중간 피처 맵을 생성한 후, 이를 연산 레이어(230)에 입력해 학습용 추론 정보를 생성할 수 있다는 것이다. 여기서 각각의 컨벌루션 스테이지별로 오프셋 설정값이 다르게 설정됨으로써, 각각의 컨벌루션 스테이지별로 오프셋의 범위가 달라질 수 있고, 추후 설명하겠지만 이와 같은 범위 설정은 성능에 영향을 주는 요소가 될 수 있다. 또한, 상기 설명에서 확인할 수 있듯, 오프셋 파라미터들은 각각의 컨벌루션 스테이지별로 동일할 수 있다.
이와 같은 과정을 통해 학습용 추론 정보가 생성되면, 학습 장치(100)는 로스 레이어(240)로 하여금 학습용 추론 정보 및 정답 추론 정보를 참조로 하여 로스를 생성한 후 백프로퍼게이션을 수행함으로써 오프셋 파라미터 및 원본 컨벌루션 파라미터를 학습하도록 할 수 있다. 이 경우 경사 하강법이 사용될 수 있으며, 이와 같은 학습의 프로세스 자체는 종래의 것이므로 이상의 설명은 생략하도록 한다.
다만 여기서, 전술한 오프셋 파라미터 관련 예시에서는 편의상 오프셋 파라미터가 정수로 도출된 경우를 가정하였는데, 딥 러닝 학습 방법의 특성상 오프셋 파라미터는 정수로 도출되지 않을 확률이 높다. 따라서 이와 같은 경우에 해당 원본 컨벌루션 파라미터가 어느 위치의 값과 곱해질지 및 이에 대응하는 디폼 컨벌루션 파라미터를 어떻게 결정할 수 있을지 설명하도록 한다.
즉, 학습 장치(100)가, 디포밍 유닛(210)으로 하여금, 원본 컨벌루션 파라미터들 중 하나인 특정 원본 컨벌루션 파라미터에 대응하는 특정 오프셋 파라미터를 참조로 하여, 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 할 수 있다. 이후, 학습 장치(100)가, 디포밍 유닛(210)으로 하여금, 제1 내지 제4 특정 인터폴레이션 밸류 및 특정 원본 컨벌루션 파라미터를 참조하여, 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 함으로써 디폼 컨벌루션 커널의 적어도 일부를 생성하도록 할 수 있다.
여기서 제1 내지 제4 특정 인터폴레이션 밸류는, 학습 장치(100)가, 디포밍 유닛(210)으로 하여금, (i) 소정 오프셋 평면상의 특정 오프셋 파라미터에 대응하는 특정 오프셋 좌표를 중심으로 하는 단위 크기의 특정 오프셋 영역 및 (ii) 특정 오프셋 좌표를 참조하여 결정된 각각의 제1 내지 제4 특정 인터폴레이션 영역 간의 각각의 제1 내지 제4 공유 넓이들을 계산함으로써 도출될 수 있다. 여기서, 특정 오프셋 좌표를 참조하여 결정된 각각의 제1 내지 제4 특정 인터폴레이션 영역은 특정 오프셋 좌표를 둘러싸는 격자점일 수 있다. 이에 대해 설명하기 위해 도 5를 참조하도록 한다.
도 5는 본 발명의 일 실시예에 따른, 변형가능 컨벌루션 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN의 디포밍 유닛이 제1 내지 제4 특정 인터폴레이션 밸류를 계산하는 예시를 나타낸 도면이다.
도 5를 참조하면, 특정 오프셋 파라미터가 (2.25, 1.6) 인 경우에, 이에 대응하는 특정 오프셋 좌표 O(2.25, 1.6)가 격자점 (2,1),(3,1),(2,2),(3,2)에 둘러싸인 것을 확인할 수 있다. 이 경우에는, 특정 오프셋 좌표를 중심으로 하는 단위 크기의 특정 오프셋 영역과 제1 내지 제4 특정 인터폴레이션 영역 간의 제1 내지 제4 공유 넓이들인 ①~④가 각각 0.3, 0.1, 0.15, 0.45로 계산될 수 있다. 일 실시예에 따르면, 이와 같은 값들이 제1 내지 제4 특정 인터폴레이션 밸류일 수 있다.
이와 같이 제1 내지 제4 특정 인터폴레이션 밸류가 계산되면, 학습 장치(100)는, 디포밍 유닛(200)으로 하여금, 제1 내지 제4 특정 인터폴레이션 밸류들을 참조로 하여 특정 원본 컨벌루션 파라미터에 이중선형 보간을 실시함으로써 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 할 수 있다. 만일 전술한 특정 오프셋 좌표 0(2.25,1.6)에 대응하는 특정 원본 컨벌루션 파라미터가 4라면, (2,1),(3,1),(3,2),(2,2)에 각각 대응하는 제1 내지 제4 특정 디폼 컨벌루션 파라미터는, 이중선형 보간이 적용되어 각각 1.2, 0.4, 0.6, 1.8로 계산될 수 있다. 이와 같이 원본 컨벌루션 커널을 디폼 컨벌루션 커널로 변환하면, 각각의 원본 컨벌루션 파라미터가 곱해질 위치는 커널 중심으로부터 멀어지게 되고, 또한 해당 파라미터가 해당 위치의 격자점들에 분산될 수 있다.
이상 본 발명의 일 실시예에 따른 학습 방법에 대해 알아본 바, 이하 본 발명의 일 실시예에 따른 테스트 방법에 대해 설명하도록 한다. 여기서 테스트 방법을 수행하는 테스트 장치는, 학습 장치의 BSDCN(200)과 비교하였을 때, 로스 레이어(240)이 제외된 구성일 수 있다.
즉, 테스트 장치는, (1) 학습 이미지가 입력되면, BSDCN(200)에 포함된 디포밍 유닛(210)으로 하여금, (i) 적어도 하나의 원본 컨벌루션 커널 및 (ii) 원본 컨벌루션 커널의 각각의 원본 컨벌루션 파라미터 중 적어도 일부에 대응하는 적어도 하나의 오프셋 파라미터를 참조로 하여, 원본 컨벌루션 커널에 비해 확장 분산된 적어도 하나의 디폼(Deformed) 컨벌루션 커널을 생성하도록 하는 프로세스; (2) BSDCN(200)에 포함된 디폼 컨벌루션 레이어(220)로 하여금, 디폼 컨벌루션 커널을 사용하여 학습 이미지에 적어도 하나의 디폼 컨벌루션 연산을 가하여 적어도 하나의 학습용 중간 피처 맵을 생성하도록 하는 프로세스; (3) BSDCN(200)에 포함된 연산 레이어(230)로 하여금, 학습용 중간 피처 맵에 적어도 하나의 뉴럴 네트워크 연산을 가하여 학습 이미지에 대응하는 학습용 추론 정보를 생성하도록 하는 프로세스; 및 (4) BSDCN(200)에 포함된 로스 레이어(240)로 하여금, 학습용 추론 정보 및 정답(Ground-Truth) 추론 정보를 참조하여 로스를 생성하도록 한 후, 로스를 참조하여 백프로퍼게이션을 수행함으로써 오프셋 파라미터 및 원본 컨벌루션 파라미터 중 적어도 일부를 학습하도록 하는 프로세스를 수행함으로써 학습이 완료된 상태에서, 테스트 이미지가 입력되면, BSDCN(200)에 포함된 디포밍 유닛(210)으로 하여금, (i) 원본 컨벌루션 커널 및 (ii) 원본 컨벌루션 커널의 각각의 원본 컨벌루션 파라미터 중 적어도 일부에 대응하는 오프셋 파라미터를 참조로 하여, 원본 컨벌루션 커널에 비해 확장 분산된 디폼(Deformed) 컨벌루션 커널을 생성하도록 할 수 있다.
또한, 테스트 장치가, BSDCN(200)에 포함된 디폼 컨벌루션 레이어(220)로 하여금, 디폼 컨벌루션 커널을 사용하여 테스트 이미지에 디폼 컨벌루션 연산을 가하여 테스트용 중간 피처 맵을 생성하도록 할 수 있다.
그리고, 테스트 장치가, BSDCN(200)에 포함된 연산 레이어(230)로 하여금, 테스트용 중간 피처 맵에 적어도 하나의 뉴럴 네트워크 연산을 가하여 테스트 이미지에 대응하는 테스트용 추론 정보를 생성하도록 할 수 있다.
이상의 디포밍 유닛(210), 디폼 컨벌루션 레이어(220) 및 연산 레이어(230)의 동작 방식은 학습 장치에서의 그것과 유사할 것이므로 더욱 자세한 설명은 생략하도록 한다.
이하 본 발명의 BSDCN 구조를 Faster R-CNN에 적용한 경우와 적용하지 않은 경우의 물체 검출 성능을 비교한 테스트 결과에 대해 설명하도록 한다.
Figure PCTKR2020018488-appb-img-000001
상기 표를 참조하면, 본 발명의 BSDCN을 적용한 경우의 AP 값이 적용하지 않은 경우에 비해 모두 높음을 확인할 수 있으며, 이는 본 발명의 BSDCN 구조를 적용하는 것이 물체 검출에 더 유리함을 나타내는 것이라고 볼 수 있다. 또한, 표의 (7-7-7) 및 (5-5-7)의 각 값들은, ResNet의 3, 4 및 5단계에서의 오프셋 파라미터의 범위를 나타낸 것일 수 있다. 즉, 7=2*3+1에서, 7은 S가 3인 경우를 의미할 수 있다. DCN에 비해 매개변수가 훨씬 적어 연산량이 적음에도 불구하고 이와 같은 성능 향상을 이루어 낸 것은 고무적인 일이라 할 수 있다.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기계로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (20)

  1. 변형가능 컨벌루션(Deformable Convolution) 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN(Bounded Static Deformable Convolution Network)의 학습 방법에 있어서,
    (a) 학습 장치가, 학습 이미지가 입력되면, 상기 BSDCN에 포함된 디포밍(Deforming) 유닛으로 하여금, (i) 적어도 하나의 원본 컨벌루션 커널 및 (ii) 상기 원본 컨벌루션 커널의 각각의 원본 컨벌루션 파라미터 중 적어도 일부에 대응하는 적어도 하나의 오프셋 파라미터를 참조로 하여, 상기 원본 컨벌루션 커널에 비해 확장 분산된 적어도 하나의 디폼(Deformed) 컨벌루션 커널을 생성하도록 하는 단계;
    (b) 상기 학습 장치가, 상기 BSDCN에 포함된 디폼 컨벌루션 레이어로 하여금, 상기 디폼 컨벌루션 커널을 사용하여 상기 학습 이미지에 적어도 하나의 디폼 컨벌루션 연산을 가하여 적어도 하나의 학습용 중간 피처 맵을 생성하도록 하는 단계;
    (c) 상기 학습 장치가, 상기 BSDCN에 포함된 연산 레이어로 하여금, 상기 학습용 중간 피처 맵에 적어도 하나의 뉴럴 네트워크 연산을 가하여 상기 학습 이미지에 대응하는 학습용 추론 정보를 생성하도록 하는 단계; 및
    (d) 상기 학습 장치가, 상기 BSDCN에 포함된 로스 레이어로 하여금, 상기 학습용 추론 정보 및 정답(Ground-Truth) 추론 정보를 참조하여 로스를 생성하도록 한 후, 상기 로스를 참조하여 백프로퍼게이션을 수행함으로써 상기 오프셋 파라미터 및 상기 원본 컨벌루션 파라미터 중 적어도 일부를 학습하도록 하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 (a) 단계는,
    (a1) 상기 학습 장치가, 상기 디포밍 유닛으로 하여금, 상기 원본 컨벌루션 파라미터들 중 하나인 특정 원본 컨벌루션 파라미터에 대응하는 특정 오프셋 파라미터를 참조로 하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 단계; 및
    (a2) 상기 학습 장치가, 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류 및 상기 특정 원본 컨벌루션 파라미터를 참조하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 함으로써 상기 디폼 컨벌루션 커널의 적어도 일부를 생성하도록 하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 (a1) 단계는,
    상기 학습 장치가, 상기 디포밍 유닛으로 하여금, (i) 소정 오프셋 평면상의 상기 특정 오프셋 파라미터에 대응하는 특정 오프셋 좌표를 중심으로 하는 단위 크기의 특정 오프셋 영역 및 (ii) 상기 특정 오프셋 좌표를 참조하여 결정된 각각의 제1 내지 제4 특정 인터폴레이션 영역 간의 각각의 제1 내지 제4 공유 넓이들을 계산함으로써 상기 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 것을 특징으로 하는 방법.
  4. 제2항에 있어서,
    상기 (a2) 단계는,
    상기 학습 장치가, 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류들을 참조로 하여 상기 특정 원본 컨벌루션 파라미터에 이중선형 보간을 실시함으로써 상기 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 하는 것을 특징으로 하는 방법.
  5. 제1항에 있어서,
    상기 학습 장치가, 상기 디폼 컨벌루션 레이어로 하여금, (i) (i-1) 상기 원본 컨벌루션 커널들을 포함하는 제1 내지 제N 원본 컨벌루션 커널들 - N은 2 이상의 정수임 - 중 하나인, 제K 컨벌루션 스테이지에 대응하는 제K 원본 컨벌루션 커널 - K는 2 이상 N 이하의 정수임 - 및 (i-2) 상기 오프셋 파라미터들을 포함하는 제1 내지 제N 오프셋 파라미터들 중, 상기 제K 원본 컨벌루션 커널에 대응하는, 기설정된 제K 오프셋 설정값에 따라 그 범위가 결정된 제K 오프셋 파라미터를 참조하여, 상기 디폼 컨벌루션 커널들을 포함하는 제1 내지 제N 디폼 컨벌루션 커널들 중 하나인 제K 디폼 컨벌루션 커널을 사용하여, 제K-1 컨벌루션 스테이지로부터 생성된 제K-1 학습용 중간 피처 맵에 적어도 하나의 제K 디폼 컨벌루션 연산을 가하여 제K 학습용 중간 피처 맵을 생성하는 과정을 반복함으로써 제N 학습용 중간 피처 맵을 생성하도록 하고, (ii) 상기 연산 레이어로 하여금, 상기 제N 학습용 중간 피처 맵에 상기 뉴럴 네트워크 연산을 가하여 상기 학습용 추론 정보를 생성하도록 하는 것을 특징으로 하는 방법.
  6. 변형가능 컨벌루션(Deformable Convolution) 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN(Bounded Static Deformable Convolution Network)의 테스트 방법에 있어서,
    (a) (1) 학습 이미지가 입력되면, 상기 BSDCN에 포함된 디포밍(Deforming) 유닛으로 하여금, (i) 적어도 하나의 원본 컨벌루션 커널 및 (ii) 상기 원본 컨벌루션 커널의 각각의 원본 컨벌루션 파라미터 중 적어도 일부에 대응하는 적어도 하나의 오프셋 파라미터를 참조로 하여, 상기 원본 컨벌루션 커널에 비해 확장 분산된 적어도 하나의 디폼(Deformed) 컨벌루션 커널을 생성하도록 하는 프로세스; (2) 상기 BSDCN에 포함된 디폼 컨벌루션 레이어로 하여금, 상기 디폼 컨벌루션 커널을 사용하여 상기 학습 이미지에 적어도 하나의 디폼 컨벌루션 연산을 가하여 적어도 하나의 학습용 중간 피처 맵을 생성하도록 하는 프로세스; (3) 상기 BSDCN에 포함된 연산 레이어로 하여금, 상기 학습용 중간 피처 맵에 적어도 하나의 뉴럴 네트워크 연산을 가하여 상기 학습 이미지에 대응하는 학습용 추론 정보를 생성하도록 하는 프로세스; 및 (4) 상기 BSDCN에 포함된 로스 레이어로 하여금, 상기 학습용 추론 정보 및 정답(Ground-Truth) 추론 정보를 참조하여 로스를 생성하도록 한 후, 상기 로스를 참조하여 백프로퍼게이션을 수행함으로써 상기 오프셋 파라미터 및 상기 원본 컨벌루션 파라미터 중 적어도 일부를 학습하도록 하는 프로세스를 수행함으로써 학습이 완료된 상태에서, 테스트 장치가, 테스트 이미지가 입력되면, 상기 BSDCN에 포함된 상기 디포밍 유닛으로 하여금, (i) 상기 원본 컨벌루션 커널 및 (ii) 상기 원본 컨벌루션 커널의 각각의 상기 원본 컨벌루션 파라미터 중 적어도 일부에 대응하는 상기 오프셋 파라미터를 참조로 하여, 상기 원본 컨벌루션 커널에 비해 확장 분산된 상기 디폼(Deformed) 컨벌루션 커널을 생성하도록 하는 단계;
    (b) 상기 테스트 장치가, 상기 BSDCN에 포함된 상기 디폼 컨벌루션 레이어로 하여금, 상기 디폼 컨벌루션 커널을 사용하여 상기 테스트 이미지에 상기 디폼 컨벌루션 연산을 가하여 상기 테스트용 중간 피처 맵을 생성하도록 하는 단계; 및
    (c) 상기 테스트 장치가, 상기 BSDCN에 포함된 연산 레이어로 하여금, 상기 테스트용 중간 피처 맵에 적어도 하나의 뉴럴 네트워크 연산을 가하여 상기 테스트 이미지에 대응하는 테스트용 추론 정보를 생성하도록 하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  7. 제6항에 있어서,
    상기 (a) 단계는,
    (a1) 상기 테스트 장치가, 상기 디포밍 유닛으로 하여금, 상기 원본 컨벌루션 파라미터들 중 하나인 특정 원본 컨벌루션 파라미터에 대응하는 특정 오프셋 파라미터를 참조로 하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 단계; 및
    (a2) 상기 테스트 장치가, 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류 및 상기 특정 원본 컨벌루션 파라미터를 참조하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 함으로써 상기 디폼 컨벌루션 커널의 적어도 일부를 생성하도록 하는 단계
    를 포함하는 것을 특징으로 하는 방법.
  8. 제7항에 있어서,
    상기 (a1) 단계는,
    상기 테스트 장치가, 상기 디포밍 유닛으로 하여금, (i) 소정 오프셋 평면상의 상기 특정 오프셋 파라미터에 대응하는 특정 오프셋 좌표를 중심으로 하는 단위 크기의 특정 오프셋 영역 및 (ii) 상기 특정 오프셋 좌표를 참조하여 결정된 각각의 제1 내지 제4 특정 인터폴레이션 영역 간의 각각의 제1 내지 제4 공유 넓이들을 계산함으로써 상기 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 것을 특징으로 하는 방법.
  9. 제7항에 있어서,
    상기 (a2) 단계는,
    상기 테스트 장치가, 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류들을 참조로 하여 상기 특정 원본 컨벌루션 파라미터에 이중선형 보간을 실시함으로써 상기 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 하는 것을 특징으로 하는 방법.
  10. 제6항에 있어서,
    상기 테스트 장치가, 상기 디폼 컨벌루션 레이어로 하여금, (i) (i-1) 상기 원본 컨벌루션 커널들을 포함하는 제1 내지 제N 원본 컨벌루션 커널들 - N은 2 이상의 정수임 - 중 하나인, 제K 컨벌루션 스테이지에 대응하는 제K 원본 컨벌루션 커널 - K는 2 이상 N 이하의 정수임 - 및 (i-2) 상기 오프셋 파라미터들을 포함하는 제1 내지 제N 오프셋 파라미터들 중, 상기 제K 원본 컨벌루션 커널에 대응하는, 기설정된 제K 오프셋 설정값에 따라 그 범위가 결정된 제K 오프셋 파라미터를 참조하여, 상기 디폼 컨벌루션 커널들을 포함하는 제1 내지 제N 디폼 컨벌루션 커널들 중 하나인 제K 디폼 컨벌루션 커널을 사용하여, 제K-1 컨벌루션 스테이지로부터 생성된 제K-1 테스트용 중간 피처 맵에 적어도 하나의 제K 디폼 컨벌루션 연산을 가하여 제K 테스트용 중간 피처 맵을 생성하는 과정을 반복함으로써 제N 테스트용 중간 피처 맵을 생성하도록 하고, (ii) 상기 연산 레이어로 하여금, 상기 제N 테스트용 중간 피처 맵에 상기 뉴럴 네트워크 연산을 가하여 상기 테스트용 추론 정보를 생성하도록 하는 것을 특징으로 하는 방법.
  11. 변형가능 컨벌루션(Deformable Convolution) 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN(Bounded Static Deformable Convolution Network)의 학습 장치에 있어서,
    인스트럭션들을 저장하는 하나 이상의 메모리; 및
    상기 인스트럭션들을 수행하도록 설정된 하나 이상의 프로세서를 포함하되, 상기 프로세서는, (I) 학습 이미지가 입력되면, 상기 BSDCN에 포함된 디포밍(Deforming) 유닛으로 하여금, (i) 적어도 하나의 원본 컨벌루션 커널 및 (ii) 상기 원본 컨벌루션 커널의 각각의 원본 컨벌루션 파라미터 중 적어도 일부에 대응하는 적어도 하나의 오프셋 파라미터를 참조로 하여, 상기 원본 컨벌루션 커널에 비해 확장 분산된 적어도 하나의 디폼(Deformed) 컨벌루션 커널을 생성하도록 하는 프로세스; (II) 상기 BSDCN에 포함된 디폼 컨벌루션 레이어로 하여금, 상기 디폼 컨벌루션 커널을 사용하여 상기 학습 이미지에 적어도 하나의 디폼 컨벌루션 연산을 가하여 적어도 하나의 학습용 중간 피처 맵을 생성하도록 하는 프로세스; (III) 상기 BSDCN에 포함된 연산 레이어로 하여금, 상기 학습용 중간 피처 맵에 적어도 하나의 뉴럴 네트워크 연산을 가하여 상기 학습 이미지에 대응하는 학습용 추론 정보를 생성하도록 하는 프로세스; 및 (IV) 상기 BSDCN에 포함된 로스 레이어로 하여금, 상기 학습용 추론 정보 및 정답(Ground-Truth) 추론 정보를 참조하여 로스를 생성하도록 한 후, 상기 로스를 참조하여 백프로퍼게이션을 수행함으로써 상기 오프셋 파라미터 및 상기 원본 컨벌루션 파라미터 중 적어도 일부를 학습하도록 하는 프로세스를 수행하는 것을 특징으로 하는 장치.
  12. 제11항에 있어서,
    상기 (I) 프로세스는,
    상기 프로세서가,
    (I1) 상기 디포밍 유닛으로 하여금, 상기 원본 컨벌루션 파라미터들 중 하나인 특정 원본 컨벌루션 파라미터에 대응하는 특정 오프셋 파라미터를 참조로 하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 프로세스; 및
    (I2) 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류 및 상기 특정 원본 컨벌루션 파라미터를 참조하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 함으로써 상기 디폼 컨벌루션 커널의 적어도 일부를 생성하도록 하는 프로세스
    를 수행하는 것을 특징으로 하는 장치.
  13. 제12항에 있어서,
    상기 (I1) 프로세스는,
    상기 프로세서가, 상기 디포밍 유닛으로 하여금, (i) 소정 오프셋 평면상의 상기 특정 오프셋 파라미터에 대응하는 특정 오프셋 좌표를 중심으로 하는 단위 크기의 특정 오프셋 영역 및 (ii) 상기 특정 오프셋 좌표를 참조하여 결정된 각각의 제1 내지 제4 특정 인터폴레이션 영역 간의 각각의 제1 내지 제4 공유 넓이들을 계산함으로써 상기 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 것을 특징으로 하는 장치.
  14. 제12항에 있어서,
    상기 (I2) 프로세스는,
    상기 프로세서가, 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류들을 참조로 하여 상기 특정 원본 컨벌루션 파라미터에 이중선형 보간을 실시함으로써 상기 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 하는 것을 특징으로 하는 장치.
  15. 제11항에 있어서,
    상기 프로세서가, 상기 디폼 컨벌루션 레이어로 하여금, (i) (i-1) 상기 원본 컨벌루션 커널들을 포함하는 제1 내지 제N 원본 컨벌루션 커널들 - N은 2 이상의 정수임 - 중 하나인, 제K 컨벌루션 스테이지에 대응하는 제K 원본 컨벌루션 커널 - K는 2 이상 N 이하의 정수임 - 및 (i-2) 상기 오프셋 파라미터들을 포함하는 제1 내지 제N 오프셋 파라미터들 중, 상기 제K 원본 컨벌루션 커널에 대응하는, 기설정된 제K 오프셋 설정값에 따라 그 범위가 결정된 제K 오프셋 파라미터를 참조하여, 상기 디폼 컨벌루션 커널들을 포함하는 제1 내지 제N 디폼 컨벌루션 커널들 중 하나인 제K 디폼 컨벌루션 커널을 사용하여, 제K-1 컨벌루션 스테이지로부터 생성된 제K-1 학습용 중간 피처 맵에 적어도 하나의 제K 디폼 컨벌루션 연산을 가하여 제K 학습용 중간 피처 맵을 생성하는 과정을 반복함으로써 제N 학습용 중간 피처 맵을 생성하도록 하고, (ii) 상기 연산 레이어로 하여금, 상기 제N 학습용 중간 피처 맵에 상기 뉴럴 네트워크 연산을 가하여 상기 학습용 추론 정보를 생성하도록 하는 것을 특징으로 하는 장치.
  16. 변형가능 컨벌루션(Deformable Convolution) 개념을 도입하여 비정형 패턴에 대한 모델링 능력을 높이면서도, 정적 계산 기법을 사용하여 일반적인 딥러닝 프레임워크의 고수준 API를 통해 구현될 수 있도록 함으로써 연산량을 줄이고 구현의 복합도를 최적화한 BSDCN(Bounded Static Deformable Convolution Network)의 테스트 장치에 있어서,
    인스트럭션들을 저장하는 하나 이상의 메모리; 및
    상기 인스트럭션들을 수행하도록 설정된 하나 이상의 프로세서를 포함하되, 상기 프로세서는, (I) (1) 학습 이미지가 입력되면, 상기 BSDCN에 포함된 디포밍(Deforming) 유닛으로 하여금, (i) 적어도 하나의 원본 컨벌루션 커널 및 (ii) 상기 원본 컨벌루션 커널의 각각의 원본 컨벌루션 파라미터 중 적어도 일부에 대응하는 적어도 하나의 오프셋 파라미터를 참조로 하여, 상기 원본 컨벌루션 커널에 비해 확장 분산된 적어도 하나의 디폼(Deformed) 컨벌루션 커널을 생성하도록 하는 프로세스; (2) 상기 BSDCN에 포함된 디폼 컨벌루션 레이어로 하여금, 상기 디폼 컨벌루션 커널을 사용하여 상기 학습 이미지에 적어도 하나의 디폼 컨벌루션 연산을 가하여 적어도 하나의 학습용 중간 피처 맵을 생성하도록 하는 프로세스; (3) 상기 BSDCN에 포함된 연산 레이어로 하여금, 상기 학습용 중간 피처 맵에 적어도 하나의 뉴럴 네트워크 연산을 가하여 상기 학습 이미지에 대응하는 학습용 추론 정보를 생성하도록 하는 프로세스; 및 (4) 상기 BSDCN에 포함된 로스 레이어로 하여금, 상기 학습용 추론 정보 및 정답(Ground-Truth) 추론 정보를 참조하여 로스를 생성하도록 한 후, 상기 로스를 참조하여 백프로퍼게이션을 수행함으로써 상기 오프셋 파라미터 및 상기 원본 컨벌루션 파라미터 중 적어도 일부를 학습하도록 하는 프로세스를 수행함으로써 학습이 완료된 상태에서, 테스트 이미지가 입력되면, 상기 BSDCN에 포함된 상기 디포밍 유닛으로 하여금, (i) 상기 원본 컨벌루션 커널 및 (ii) 상기 원본 컨벌루션 커널의 각각의 상기 원본 컨벌루션 파라미터 중 적어도 일부에 대응하는 상기 오프셋 파라미터를 참조로 하여, 상기 원본 컨벌루션 커널에 비해 확장 분산된 상기 디폼(Deformed) 컨벌루션 커널을 생성하도록 하는 프로세스; (II) 상기 BSDCN에 포함된 상기 디폼 컨벌루션 레이어로 하여금, 상기 디폼 컨벌루션 커널을 사용하여 상기 테스트 이미지에 상기 디폼 컨벌루션 연산을 가하여 상기 테스트용 중간 피처 맵을 생성하도록 하는 프로세스; 및 (III) 상기 BSDCN에 포함된 연산 레이어로 하여금, 상기 테스트용 중간 피처 맵에 적어도 하나의 뉴럴 네트워크 연산을 가하여 상기 테스트 이미지에 대응하는 테스트용 추론 정보를 생성하도록 하는 프로세스를 수행하는 것을 특징으로 하는 장치.
  17. 제16항에 있어서,
    상기 (I) 프로세스는,
    상기 프로세서가,
    (I1) 상기 디포밍 유닛으로 하여금, 상기 원본 컨벌루션 파라미터들 중 하나인 특정 원본 컨벌루션 파라미터에 대응하는 특정 오프셋 파라미터를 참조로 하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 프로세스; 및
    (I2) 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류 및 상기 특정 원본 컨벌루션 파라미터를 참조하여, 상기 특정 원본 컨벌루션 파라미터에 대응하는 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 함으로써 상기 디폼 컨벌루션 커널의 적어도 일부를 생성하도록 하는 프로세스
    를 수행하는 것을 특징으로 하는 장치.
  18. 제17항에 있어서,
    상기 (I1) 프로세스는,
    상기 프로세서가, 상기 디포밍 유닛으로 하여금, (i) 소정 오프셋 평면상의 상기 특정 오프셋 파라미터에 대응하는 특정 오프셋 좌표를 중심으로 하는 단위 크기의 특정 오프셋 영역 및 (ii) 상기 특정 오프셋 좌표를 참조하여 결정된 각각의 제1 내지 제4 특정 인터폴레이션 영역 간의 각각의 제1 내지 제4 공유 넓이들을 계산함으로써 상기 제1 내지 제4 특정 인터폴레이션 밸류를 계산하도록 하는 것을 특징으로 하는 장치.
  19. 제17항에 있어서,
    상기 (I2) 프로세스는,
    상기 프로세서가, 상기 디포밍 유닛으로 하여금, 상기 제1 내지 제4 특정 인터폴레이션 밸류들을 참조로 하여 상기 특정 원본 컨벌루션 파라미터에 이중선형 보간을 실시함으로써 상기 제1 내지 제4 특정 디폼 컨벌루션 파라미터를 생성하도록 하는 것을 특징으로 하는 장치.
  20. 제16항에 있어서,
    상기 프로세서가, 상기 디폼 컨벌루션 레이어로 하여금, (i) (i-1) 상기 원본 컨벌루션 커널들을 포함하는 제1 내지 제N 원본 컨벌루션 커널들 - N은 2 이상의 정수임 - 중 하나인, 제K 컨벌루션 스테이지에 대응하는 제K 원본 컨벌루션 커널 - K는 2 이상 N 이하의 정수임 - 및 (i-2) 상기 오프셋 파라미터들을 포함하는 제1 내지 제N 오프셋 파라미터들 중, 상기 제K 원본 컨벌루션 커널에 대응하는, 기설정된 제K 오프셋 설정값에 따라 그 범위가 결정된 제K 오프셋 파라미터를 참조하여, 상기 디폼 컨벌루션 커널들을 포함하는 제1 내지 제N 디폼 컨벌루션 커널들 중 하나인 제K 디폼 컨벌루션 커널을 사용하여, 제K-1 컨벌루션 스테이지로부터 생성된 제K-1 테스트용 중간 피처 맵에 적어도 하나의 제K 디폼 컨벌루션 연산을 가하여 제K 테스트용 중간 피처 맵을 생성하는 과정을 반복함으로써 제N 테스트용 중간 피처 맵을 생성하도록 하고, (ii) 상기 연산 레이어로 하여금, 상기 제N 테스트용 중간 피처 맵에 상기 뉴럴 네트워크 연산을 가하여 상기 테스트용 추론 정보를 생성하도록 하는 것을 특징으로 하는 장치.
PCT/KR2020/018488 2020-12-15 2020-12-16 변형가능 컨벌루션 네트워크를 정적 계산 기법을 사용하여 최적화한 bsdcn의 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 WO2022131399A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200175868A KR102427634B1 (ko) 2020-12-15 2020-12-15 변형가능 컨벌루션 네트워크를 정적 계산 기법을 사용하여 최적화한 BSDCN(Bounded Static Deformable Convolution Network)의 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
KR10-2020-0175868 2020-12-15

Publications (1)

Publication Number Publication Date
WO2022131399A1 true WO2022131399A1 (ko) 2022-06-23

Family

ID=82057663

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/018488 WO2022131399A1 (ko) 2020-12-15 2020-12-16 변형가능 컨벌루션 네트워크를 정적 계산 기법을 사용하여 최적화한 bsdcn의 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치

Country Status (2)

Country Link
KR (1) KR102427634B1 (ko)
WO (1) WO2022131399A1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564025A (zh) * 2018-04-10 2018-09-21 广东电网有限责任公司 一种基于可变形卷积神经网络的红外图像物体识别方法
WO2019232836A1 (zh) * 2018-06-04 2019-12-12 江南大学 基于改进全卷积网络的多尺度感知行人检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564025A (zh) * 2018-04-10 2018-09-21 广东电网有限责任公司 一种基于可变形卷积神经网络的红外图像物体识别方法
WO2019232836A1 (zh) * 2018-06-04 2019-12-12 江南大学 基于改进全卷积网络的多尺度感知行人检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HUGUES THOMAS; CHARLES R. QI; JEAN-EMMANUEL DESCHAUD; BEATRIZ MARCOTEGUI; FRAN\C{C}OIS GOULETTE; LEONIDAS J. GUIBAS: "KPConv: Flexible and Deformable Convolution for Point Clouds", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 18 April 2019 (2019-04-18), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081171229 *
JIFENG DAI; HAOZHI QI; YUWEN XIONG; YI LI; GUODONG ZHANG; HAN HU; YICHEN WEI: "Deformable Convolutional Networks", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 17 March 2017 (2017-03-17), 201 Olin Library Cornell University Ithaca, NY 14853 , XP080757888, DOI: 10.1109/ICCV.2017.89 *
KIM MINJONG, LEE YOUNGSEOP, LIM CHANGWON: "Deformable convolutional networks based Mask R-CNN", JOURNAL OF THE KOREAN DATA & INFORMATION SCIENCE SOCIETY, vol. 31, no. 6, 31 October 2020 (2020-10-31), Korea, pages 993 - 1008, XP009537651, ISSN: 1598-9402, DOI: 10.7465/jkdi.2020.31.6.993 *
WU HAORAN; XU ZHIYONG; ZHANG JIANLIN; JIA GE: "Offset-Adjustable Deformable Convolution and Region Proposal Network for Visual Tracking", IEEE ACCESS, IEEE, USA, vol. 7, 1 January 1900 (1900-01-01), USA , pages 85158 - 85168, XP011734347, DOI: 10.1109/ACCESS.2019.2925737 *

Also Published As

Publication number Publication date
KR102427634B1 (ko) 2022-08-02
KR20220085642A (ko) 2022-06-22

Similar Documents

Publication Publication Date Title
CN111967468B (zh) 一种基于fpga的轻量级目标检测神经网络的实现方法
WO2022050473A1 (ko) 카메라 포즈 추정 장치 및 방법
CN109870983B (zh) 处理托盘堆垛图像的方法、装置及用于仓储拣货的系统
WO2018217019A1 (ko) 신경망 학습 기반의 변종 악성 코드를 탐지하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
WO2019098538A1 (en) Device and method for processing convolution operation using kernel
WO2017150878A1 (en) Leveraging multi cues for fine-grained object classification
CN109086663B (zh) 基于卷积神经网络的尺度自适应的自然场景文本检测方法
WO2015119325A1 (ko) 지형 렌더링 방법
WO2022131497A1 (ko) 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법
CN110263855B (zh) 一种利用共基胶囊投影进行图像分类的方法
WO2024085366A1 (ko) 가상 카메라를 이용한 카메라 움직임 구현 방법
CN110503651A (zh) 一种图像显著对象分割方法及装置
CN111241326B (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
US11347916B1 (en) Increasing positive clock skew for systolic array critical path
WO2022131399A1 (ko) 변형가능 컨벌루션 네트워크를 정적 계산 기법을 사용하여 최적화한 bsdcn의 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN112115986B (zh) 一种基于轻量级神经网络的输电线路场景分类方法
CN117392697A (zh) 基于yolo目标检测框架的图元符号检测方法
CN116246062A (zh) 使用图像/文本对执行语义分割训练
CN113487713B (zh) 一种点云特征提取方法、装置及电子设备
WO2021020848A2 (ko) 인공 신경망을 위한 행렬 연산기 및 행렬 연산 방법
Le et al. An opencl-based sift accelerator for image features extraction on fpga in mobile edge computing environment
CN114612758A (zh) 一种基于深度分组可分离卷积的目标检测方法
WO2020175729A1 (ko) 가우시안 특징점맵과 회귀 기법을 이용한 얼굴 특징점 검출 장치 및 방법
WO2023095934A1 (ko) 객체 탐지기의 헤드 신경망 경량화 방법 및 시스템
WO2016027912A1 (ko) 레이 트레이싱 방법, 이를 수행하는 레이 트레이싱 장치 및 이를 저장하는 기록매체

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20966053

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20966053

Country of ref document: EP

Kind code of ref document: A1