WO2021040287A1 - 사람 재식별 장치 및 방법 - Google Patents

사람 재식별 장치 및 방법 Download PDF

Info

Publication number
WO2021040287A1
WO2021040287A1 PCT/KR2020/010753 KR2020010753W WO2021040287A1 WO 2021040287 A1 WO2021040287 A1 WO 2021040287A1 KR 2020010753 W KR2020010753 W KR 2020010753W WO 2021040287 A1 WO2021040287 A1 WO 2021040287A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
partial
global
features
person
Prior art date
Application number
PCT/KR2020/010753
Other languages
English (en)
French (fr)
Inventor
함범섭
박현종
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Publication of WO2021040287A1 publication Critical patent/WO2021040287A1/ko
Priority to US17/667,462 priority Critical patent/US20220165048A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices

Definitions

  • the present invention relates to an apparatus and method for re-identifying a person, and a person re-identification capable of accurately re-identifying a person by using a relationship characteristic between a plurality of partial presenters extracted from an image and a characteristic of the entire plurality of partial presenters together. It relates to an apparatus and a method.
  • Person re-identification is a technique that detects the same person photographed under different conditions. An image containing the same person even when various environmental conditions change, such as a change in posture, a change in background, a change in lighting, and a change in shooting distance and angle. It aims to detect accurately.
  • Such a person re-identification technology can be used in various fields for searching and tracking a specific person in a number of images, such as searching for missing persons or searching for criminals.
  • 1 is a diagram for explaining the concept of a person re-identification technique for extracting partial features.
  • a plurality of feature maps as shown in (b) are extracted using a pre-learned artificial neural network. do.
  • the extracted feature map as shown in (c) is divided and pooled into a predetermined size to extract the partial feature vector (g) of (d).
  • the features of the extracted partial feature vector g are re-extracted to obtain a partial feature h in which the features of the partial feature vector g are implied as shown in (e).
  • the identifier of the person included in the image is recognized as shown in (f).
  • the partial feature may provide a precise representation of the feature of a human body part.
  • the relationship between the partial features that is, the relationship between the body parts
  • the relationship between the parts of the body is considered by utilizing the relationship between the parts of the features and the features of the parts together. Even if some of the body parts of a person are omitted in the image, the relationship between the features of each part and the features of each part is based. Attempts are being made to ensure that people can be accurately re-identified.
  • An object of the present invention is to provide a person re-identification apparatus and method capable of accurately re-identifying a person from an image photographed under various environmental conditions.
  • Another object of the present invention is to re-identify a person based on the relationship between the partial features of each part of the person included in the image and the difference between the maximum and average of the partial features, so that only an image in which a part of the body is missing from the image. Rather, it is to provide a person re-identification apparatus and method capable of accurately re-identifying a person even in an image including a person having similar characteristics for each part.
  • a person re-identification apparatus for achieving the above object receives a plurality of images including a person to be re-identified, extracts features of each image according to a pre-learned pattern estimation method, A feature extraction division unit that obtains a feature vector and divides it into a predetermined size unit to obtain a plurality of partial feature vectors; A unit for obtaining a plurality of local relationship features by estimating the relationship between each of the plurality of partial feature vectors and the remaining partial feature vectors according to a pre-learned pattern estimation method, and reflecting the estimated relationship to each of the plurality of partial feature vectors.
  • a global collation pooling unit for acquiring a global collation feature by performing global collation pooling in which the relationship between the maximum feature and the average feature of all of the plurality of partial feature vectors is reflected back to the maximum feature according to a pre-learned pattern estimation method; And a person who is a search target by comparing the plurality of local relational features and the global contrast feature as a final presenter of a corresponding image and comparing with a reference presenter, which is a final presenter obtained in advance from an image including a person to be searched. Includes a person re-identification unit that determines whether or not.
  • the one-to-many relationship inference unit combines the reinforced partial features obtained by sequentially extracting features for each of the plurality of partial feature vectors and the residual partial reinforced average features extracted from the average pooling result of the remaining partial feature vectors from which the features are not extracted, After the features are extracted again for the combined residual partial enhanced average features, the plurality of local relational features may be obtained by adding corresponding enhanced partial features.
  • the one-to-many relationship inference unit selects one of the plurality of partial feature vectors in a predetermined order, and extracts features of the selected partial feature vector according to a pre-learned pattern estimation method to obtain the reinforced partial feature.
  • a residual partial average sampling unit for obtaining a residual partial average feature by performing average pooling on a partial feature vector not selected by the partial feature extraction unit among the plurality of partial feature vectors
  • a residual partial average feature extractor configured to extract the features of the residual partial average feature according to a pre-learned pattern estimation method to obtain the residual partial enhanced average feature
  • a reinforced partial feature combiner for combining the reinforced partial feature and the remaining partial reinforced average feature to produce a combined partial feature
  • a combined partial feature extraction unit that extracts features of the combined partial features according to a pre-learned pattern estimation method to obtain reinforced combined partial features
  • And a local relationship feature acquisition unit for obtaining a local relationship feature corresponding to the selected partial feature vector by adding the reinforced combined partial feature and the enhanced partial feature.
  • the global matching pooling unit performs maximum pooling and average pooling on all of the plurality of partial feature vectors, and extracts the global matching feature and each feature of the maximum pooling result, which is a difference between the maximum pooling result and the average pooling result, and reinforced contrast feature.
  • the reinforced global maximum feature is obtained, and after a feature is extracted for a result of combining the reinforced contrast feature and the reinforced global maximum feature, the global contrast feature may be obtained by adding the reinforced global maximum feature again.
  • the global matching pooling unit may include a global maximum sampling unit for obtaining a global maximum feature by performing global maximum pooling on all of the plurality of partial feature vectors; A global average sampling unit for obtaining a global average feature by performing a global average pooling on all of the plurality of partial feature vectors; A matching feature acquisition unit for obtaining a matching feature by calculating a difference between the global maximum feature and the global average feature; A reinforced maximum feature extractor configured to extract a feature of the global maximum feature according to a pre-learned pattern estimation method to obtain an enhanced global maximum feature; An enhancement contrast feature extracting unit that extracts features of the contrast feature according to a pre-learned pattern estimation method to obtain an enhancement contrast feature; A reinforced global feature combining unit that combines the reinforced global maximum feature and the reinforced contrast feature to generate a combined global feature; A combined global feature extraction unit that extracts features of the combined global feature according to a pre-learned pattern estimation method to obtain a reinforced combined global feature; And a global matching feature obtaining unit configured to obtain the global matching feature by adding the enhanced
  • the person re-identification device receives the learning image labeled with the identifier during learning, and calculates a triplet loss and a cross entropy loss from the difference between the identifier labeled on the learning image and the final presenter obtained from the learning image. It may further include a learning unit that obtains the total loss and backpropagates the obtained total loss.
  • a method for re-identifying a person for achieving the above object includes: performing learning by receiving a plurality of learning images labeled with the included person's identifier; Obtaining a 3D feature vector by receiving a plurality of images including a person to be re-identified and extracting features of each image according to a previously learned pattern estimation method; Dividing the 3D feature vector into a predetermined size unit to obtain a plurality of partial feature vectors; Estimating a relationship between each of the plurality of partial feature vectors and the remaining partial feature vectors according to a pre-learned pattern estimation method, and obtaining a plurality of local relationship features by reflecting the estimated relationship to each of the plurality of partial feature vectors ; Acquiring global matching features by performing global contrast pooling in which the relationship between the maximum feature and the average feature of the entire plurality of partial feature vectors is reflected back to the maximum feature according to a pre-learned pattern estimation method; And a person who is a search target by comparing the plurality of learning images labeled
  • the apparatus and method for re-identifying a person obtains the enhanced partial feature by using the relationship between the partial features for each part of the person included in the image, and between the maximum and the average of the partial features.
  • 1 is a diagram for explaining the concept of a person re-identification technique for extracting partial features.
  • FIG. 2 shows a schematic structure of a person re-identification apparatus according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a concept of obtaining a final presenter by the apparatus for re-identifying a person according to the present embodiment illustrated in FIG. 2.
  • FIG. 4 shows an example of a detailed configuration of a one-to-many relationship inference unit of FIG. 2.
  • FIG. 5 shows an example of a detailed configuration of the global collation pooling unit of FIG. 2.
  • FIG. 6 shows a method for re-identifying a person according to an embodiment of the present invention.
  • FIG. 2 shows a schematic structure of a person re-identification apparatus according to an embodiment of the present invention
  • FIG. 3 is a view for explaining a concept in which the person re-identification apparatus according to the present embodiment shown in FIG. 2 obtains a final presenter. to be.
  • 4 and 5 show an example of a detailed configuration of the one-to-many relationship inferring unit and the global collation pooling unit of FIG. 2.
  • the apparatus for re-identifying a person includes an image acquisition unit 110, a feature extraction unit 120, a feature division unit 130, a one-to-many relationship inference unit 140, and a global collation pooling unit. 150 and a person re-identification unit 160 may be included.
  • the image acquisition unit 110 acquires a plurality of images including a person to be re-identified, as shown in (a) of FIG. 3.
  • the image acquisition unit 110 may acquire a training image from a database (not shown) in which a plurality of images are stored or an image acquisition device such as a camera, or may acquire a training image by obtaining authorization through an external device and a network.
  • the image acquisition unit 110 may acquire a plurality of training images in which an identifier of an included person is pre-labeled when the person re-identification device is trained.
  • the feature extraction unit 120 obtains a plurality of feature maps by extracting features of an image applied by the image acquisition unit 110 by implementing an artificial neural network in which a pattern estimation method is learned in advance.
  • the feature extraction unit 120 can be learned together when the human re-identification device is trained, but since various artificial neural networks for obtaining feature maps by extracting features from images have already been studied and published, artificial neural networks that have been previously learned and published. It is also possible to obtain a feature map by using.
  • the feature extraction unit 120 uses ResNet-50, which is one of the learned artificial neural networks for image classification, as shown in FIG. 3B.
  • the feature extraction unit 120 may extract features from the applied image to obtain C feature maps of H ⁇ W size. That is, a 3D feature vector of size H ⁇ W ⁇ C can be obtained.
  • the feature division unit 130 divides the 3D feature vector obtained from the feature extraction unit 120 into a predetermined size unit, and samples each of the divided feature vectors to obtain a plurality of partial feature vectors (p 1 to p n ). ).
  • the feature division unit 130 may divide a 3D feature vector into various forms according to a predetermined method, but FIG. 3C shows a case of dividing a 3D feature vector into six according to a horizontal grid as an example. I did.
  • the feature division unit 130 samples each of the six divided 3D vectors in a global maximum pooling method as shown in (d) of FIG. 3 to obtain a size of 1 ⁇ 1 ⁇ C, respectively. It is possible to obtain 6 partial feature vectors (p 1 to p 6) having.
  • the plurality of partial feature vectors p 1 to p n obtained by the feature division unit 130 are transferred to the one- to-many relationship inferring unit 140 and the global matching pooling unit 150, respectively.
  • the feature extraction unit 120 and the feature division unit 130 may be integrated into a feature extraction division unit.
  • the one-to-many relationship inference unit 140 is configured as shown in (e) in FIG. 3, and receives a plurality of partial feature vectors (p 1 ⁇ p n ) from the feature division unit 130, and uses a pre-learned pattern estimation method. Accordingly, the relationship between each of the applied partial feature vectors (p 1 to p 6 ) and the remaining partial feature vectors is estimated and reinforced so that the estimated relationship is reflected in the plurality of partial feature vectors (p 1 to p n ).
  • the one-to-many relationship inference unit 140 acquires a plurality of local relational features (q 1 to q n ), which are reinforced partial feature vectors, as shown in FIG. 3(f).
  • the one-to-many relationship inference unit 140 includes a number of local relational features each having a size of 1 ⁇ 1 ⁇ c (where c ⁇ C) from a plurality of partial feature vectors (p 1 to p n) having a size of 1 ⁇ 1 ⁇ C. (q 1 ⁇ q n ) can be obtained.
  • the one-to-many relationship inference unit 140 includes a partial feature extraction unit 141, a residual partial average sampling unit 142, a residual partial average feature extraction unit 143, and an enhanced partial feature combination unit 144.
  • a combined partial feature extraction unit 145 and a local relational feature acquisition unit 146 may be included.
  • the partial enhancement feature extraction unit 141 selects a plurality of partial feature vectors (p 1 to p n ) in a predetermined order, and selects partial feature vectors (p 1 to p n ) according to a previously learned pattern estimation method.
  • the features are extracted and the reinforced partial features ( ). Where the reinforced part features ( ) Each can have 1 ⁇ 1 ⁇ c.
  • the reinforcing part as an example feature extraction unit 141, a partial feature vector (p 1), the presumed when selected by the city, and the other part characterized in enhanced part feature extraction unit 141 is not selected vector (p 2 ⁇ Also for p n ), the reinforcement part features ( ).
  • the partial enhancement feature extraction unit 141 selects one (p i ) from a plurality of partial feature vectors (p 1 to p n) ), the residual partial average sampling unit 142 performs average pooling on the remaining partial feature vectors (p 2 ⁇ p n ) excluding the partial feature vector selected by the partial enhancement feature extraction unit 141 Obtain the partial average feature r i.
  • the residual partial average sampling unit 142 obtains the residual partial average feature r i according to Equation 1.
  • n is the number of partial feature vectors
  • i is the index of the partial feature vector
  • j is the index of the partial feature vector selected by the partial enhancement feature extraction unit 141.
  • the residual partial average feature extraction unit 143 extracts the features of the residual partial average feature r i according to a previously learned pattern estimation method, and ). In the residual partial average feature extraction unit 143, the partial enhancement feature extraction unit 141 is While obtaining ), the corresponding residual partial enhancement average feature ( ).
  • the reinforced partial feature combining unit 144 is a reinforced partial feature obtained from the partial reinforced feature extracting unit 141 ( ) And the remaining partial reinforced average features ( ) To create a combined partial feature.
  • the combined partial feature extraction unit 145 obtains the reinforced combined partial feature by receiving the combined partial feature and extracting the features of the combined partial feature according to a previously learned pattern estimation method.
  • the local relational feature acquisition unit 146 includes the enhanced partial features obtained from the partial enhanced feature extraction unit 141 ( ) And the reinforced combined partial feature obtained by the combined partial feature extraction unit 145 to obtain a local relational feature q i .
  • one-to-many relationship inference section 140 includes a plurality of partial feature vector (p 1 ⁇ p n) for each part feature combines the average characteristics of the remaining plurality of partial feature vector for each feature vector (p 1 ⁇ p n) and A plurality of local relational features (q 1 to q n ) including relations between the remaining partial feature vectors are obtained.
  • a method in which the one-to-many relationship inference unit 140 acquires a plurality of local relationship features (q 1 to q n ) including a relationship between each of the plurality of partial feature vectors (p 1 to p n) and the remaining partial feature vectors Can be expressed as in Equation 2.
  • T is a combination function representing the combination of features
  • R p is a relationship function mathematically expressing the combined partial feature extraction unit 145 from which the pattern estimation method is learned.
  • the one-to-many relationship inference unit 140 basically acquires a number of local relationship features (q 1 to q n ) based on a plurality of partial feature vectors (p 1 to p n ), so that a part of the human body is omitted. Even in cases where occlusion occurs due to occlusion, human features can be extracted robustly.
  • each of the partial feature extraction unit 141, the residual partial average feature extraction unit 143, and the combined partial feature extraction unit 145 may be implemented as a convolutional neural network as an example.
  • the global collation pooling unit 150 has a configuration shown as (e) in FIG. 3, and, like the one-to-many relationship inference unit 140, a plurality of partial feature vectors (p 1 to p n ) from the feature division unit 130 Is applied, and global collation pooling is performed to express the difference between the maximum sampling result and the average sampling result of the applied plurality of partial feature vectors (p 1 ⁇ p n) according to the previously learned pattern estimation method.
  • the global contrast pooling unit 150 performs global contrast pooling from a plurality of partial feature vectors (p 1 to p n ), as shown in (h) of FIG. 3, one global contrastive feature ( q 0 ) is obtained.
  • the global contrast pooling unit 150 includes one global contrast feature (q) having a size of 1 ⁇ 1 ⁇ c (where c ⁇ C) from a plurality of partial feature vectors (p 1 to p n) of size 1 ⁇ 1 ⁇ C. 0 ) can be obtained.
  • the global collation pooling unit 150 includes a global maximum sampling unit 151, a global average sampling unit 152, a matching feature acquisition unit 153, an enhanced maximum feature extraction unit 154, and an enhanced contrast feature extraction.
  • a unit 155, an enhanced global feature combining unit 156, a combined global feature extracting unit 157, and a global matching feature obtaining unit 158 may be included.
  • the global maximum sampling unit 151 obtains a global maximum feature p max by performing a global maximum pooling on all of the plurality of partial feature vectors p 1 to p n. Meanwhile, the global average sampling unit 152 obtains the global average feature p avg by performing a global average pooling on all of the plurality of partial feature vectors p 1 to p n.
  • the contrast feature acquisition unit 153 obtains a contrast feature p cont by calculating a difference between the global maximum feature p max and the global average feature p avg . That is, the contrast feature (p cont ) is obtained by calculating the difference between the maximum value and the average value of a plurality of partial feature vectors (p 1 to p n ).
  • the reinforcement maximum feature extraction unit 154 receives the global maximum feature (p max ), extracts the feature according to a previously learned pattern estimation method, and extracts the reinforcement global maximum feature ( ).
  • the reinforcement contrast feature extraction unit 155 receives the contrast feature (p cont ), extracts the feature according to the previously learned pattern estimation method, and extracts the reinforcement contrast feature ( ).
  • the reinforced global feature coupling unit 156 is the reinforced global maximum feature ( ) And reinforced contrast features ( ) Is combined to generate a combined global feature, and the combined global feature extraction unit 157 extracts features of the combined global feature according to a previously learned pattern estimation method to obtain the reinforced combined global feature.
  • the global matching feature acquisition unit 158 includes the enhanced global maximum feature obtained from the enhanced maximum feature extraction unit 154 ( ) And the combined global feature extraction unit 157 add the reinforced combined global feature to obtain the global matching feature q 0.
  • Global contrast pooling unit 150 reflects the control value representing the difference between the number of partial feature vector (p 1 ⁇ p n) a plurality of portions on the maximum value of the feature vector (p 1 ⁇ p n) maximum values and average values of
  • a method of obtaining the global matching feature (q 0 ) may be expressed as Equation 3.
  • T is a combination function representing the combination of features
  • R p is a relational function mathematically expressing the combined global feature extraction unit 157 from which the pattern estimation method is learned.
  • Global contrast pooling portion 150 includes a plurality of partial feature vector (p 1 ⁇ p n) is to obtain a global control feature (q 0) is based on the relationship between the maximum value and the average number of parts of the feature vector (p 1 If maximum pooling is performed for ⁇ p n ), there is an advantage in that the most important feature can be extracted from the entire image, while the variety of features that can be expressed is limited. On the other hand, when average pooling is performed on a plurality of partial feature vectors (p 1 to p n ), the weight of including unnecessary information in the feature increases.
  • the global contrast pooling unit 150 applies contrast pooling obtained by adding the maximum pooling result to the difference between the maximum pooling and the average pooling for a plurality of partial feature vectors (p 1 to p n ). At the same time, unnecessary information is not included in the features excessively.
  • Each of the enhanced maximum feature extraction unit 154, the enhanced contrast feature extraction unit 155, and the combined global feature extraction unit 157 in the global matching pooling unit 150 may be implemented as a convolutional neural network as an example.
  • the person re-identification unit 160 receives a plurality of local relationship features (q 1 to q n ) and global contrast features (q 0 ) obtained from the one-to-many relationship inference unit 140 as a final presenter, and the approved final expression Re-identify the person included in the image using the ruler (q 0 ⁇ q n ).
  • the person re-identification unit 160 acquires and stores a reference presenter, which is the final presenter (q 0 ⁇ q n ) for the image containing the person to be searched, and then determines whether or not the person to be searched is included.
  • a reference presenter which is the final presenter (q 0 ⁇ q n ) for the image containing the person to be searched.
  • the similarity between the final presenter (q 0 ⁇ q n ) and the reference presenter for the re-identified image is analyzed and included in the re-identified image. You can re-identify the person who has been lost.
  • the person re-identification unit 160 determines that the search target is included in the re-identification image, and the reference similarity is If it is less than, it can be determined that the search target is not included.
  • the apparatus for re-identifying a person may further include a learning unit 170.
  • the learning unit 170 is a configuration for learning the one-to-many relationship inference unit 140 and the global collation pooling unit 150 and may be omitted when learning is completed.
  • the learning unit 170 is a loss (L) based on a triplet loss (L triplet ) and a cross-entropy loss (L ce ), which are losses already known in the field of artificial neural networks. Can be calculated as in Equation 4.
  • represents the loss weight
  • Equation 4 the cross entropy loss (L ce ) is defined by Equation 5.
  • N represents the number of images in a mini-batch
  • y n represents an identifier labeled on the training image.
  • K is the number of identification labels
  • w i k represents the final presenter (q i ) and the classifier of the identification label (k).
  • N K is the number of identifiers in a mini-batch
  • is a margin variable that controls the distance between positive and negative pairs in the feature space.
  • q A i,j , q P i,j , q N i,j denote anchor, positive, and negative human expressions, respectively, and i and j denote identifiers and image indexes. Show.
  • the learning unit 170 backpropagates the calculated loss to the one-to-many relationship inference unit 140 and the global collation pooling unit 150 to learn. have.
  • FIG. 6 shows a method for re-identifying a person according to an embodiment of the present invention.
  • a method for re-identifying a person according to the present embodiment when a method for re-identifying a person according to the present embodiment is described, first, a plurality of images including a person to be re-identified are acquired (S11). However, in the case of a learning step in which learning is performed, a plurality of learning images with pre-labeled identifiers of the included persons are acquired.
  • a 3D feature vector is obtained by extracting features according to a previously learned pattern estimation method (S12).
  • a plurality of partial feature vectors p 1 to p n are obtained by dividing the 3D feature vector in units of a predetermined size (S13).
  • a plurality of local relational features are reinforced partial features obtained by sequentially extracting features for each of a plurality of partial feature vectors (p 1 ⁇ p n ). ) And the residual partial reinforced average feature ( ), extract the features again, and then the corresponding enhanced partial feature ( Can be obtained by adding ).
  • global collation pooling is performed to reflect the relationship between the maximum feature and the average feature of the entire plurality of partial feature vectors (p 1 ⁇ p n ) acquired according to the pre-learned method back to the maximum feature, and the global collation feature (q 0 ) is obtained (S15).
  • the global matching feature (q 0 ) performs maximum pooling and average pooling on the entire plurality of partial feature vectors (p 1 to p n ), and the global contrast feature and the maximum pooling result, which are the differences between the maximum pooling result and the average pooling result.
  • Each feature is extracted and the enhanced contrast feature ( ) And the maximum features ( ), and the reinforced contrast feature ( ) And the maximum features ( ) For the result of combining the features, and then the reinforcement global maximum feature ( Can be obtained by adding ).
  • the final presenter of the acquired image is acquired, it is determined whether it is a learning step (S17). If it is not in the learning stage, the obtained final presenter (q 0 ⁇ q n ) is compared with the reference presenter, which is the final presenter (q 0 ⁇ q n ) obtained in advance from the image containing the person to be searched. Analyze (S18).
  • the loss (L) is calculated according to Equations 4 to 7 using the obtained final presenters (q 0 to q n) and the identifier labeled on the training image (S20). Then, the calculated loss is backpropagated to perform learning (S21).
  • the method according to the present invention may be implemented as a computer program stored in a medium for execution on a computer.
  • the computer-readable medium may be any available medium that can be accessed by a computer, and may also include all computer storage media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data, and ROM (Read Dedicated memory), RAM (random access memory), CD (compact disk)-ROM, DVD (digital video disk)-ROM, magnetic tape, floppy disk, optical data storage device, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 이미지에 포함된 사람의 각 부분에 대한 부분 특징들 사이의 관계를 이용하여 강화된 부분 특징을 획득하고, 부분 특징들의 최대 및 평균 사이의 차를 기반으로 전체 부분 특징들의 대조 특징을 함께 추출하여 사람을 재식별 함으로써, 이미지에 신체의 일부가 누락된 이미지뿐만 아니라 부분별로 유사한 특징을 갖는 사람이 포함된 이미지에서도 정확하게 사람을 재식별할 수 있는 사람 재식별 장치 및 방법을 제공한다.

Description

사람 재식별 장치 및 방법
본 발명은 사람 재식별 장치 및 방법에 관한 것으로, 이미지에서 추출되는 다수의 부분 표현자 사이의 관계 특징과 다수의 부분 표현자 전체의 특징을 함께 이용하여 정확하게 사람을 재식별할 수 있는 사람 재식별 장치 및 방법에 관한 것이다.
최근에 서로 다른 환경에서 촬영된 동일한 사람을 탐색하는 사람 재식별(Person Re-identification: reID 라고 함)에 대한 연구가 활발하게 이루어지고 있다.
사람 재식별은 서로 다른 조건에서 촬영된 동일한 사람을 검출하는 기법으로서, 자세의 변화, 배경의 변화, 조명의 변화, 촬영 거리 및 각도 변화와 같이 여러 환경 조건이 변화하여도 동일한 사람이 포함된 이미지를 정확하게 검출하는 것을 목적으로 한다.
이러한 사람 재식별 기술은 실종자 탐색 또는 범죄자 탐색 등 다수의 이미지에서 특정인을 탐색 및 추적하는 다양한 분야에 이용될 수 있다.
그러나 상기한 바와 같이 환경 조건이 다양하게 가변되어 촬영된 이미지에 대해서는 동일한 사람일지라도 재식별이 어렵다. 이에 사람 재식별은 주로 인공 신경망을 이용하여 이미지에 포함된 사람의 특징을 추출하여 비교하는 방식으로 연구되고 있다.
기존에는 이미지의 전체적인 특징을 추출하고 비교하여 사람을 재식별하거나, 사람의 신체 부위의 특징을 표현하는 부분 특징을 추출하고 비교하여 사람을 재식별하는 연구가 주로 수행되었다. 여기서 부분 특징을 추출하여 비교하는 기법은 이미지에서 신체의 일부 또는 중요한 정보가 누락되는 경우에도 각 부위별 특징에 기반하여 강력하게 사람을 재식별할 수 있도록 한다.
도 1은 부분 특징을 추출하는 사람 재식별 기법의 개념을 설명하기 위한 도면이다.
도 1을 참조하면, 부분 특징을 추출하는 사람 재식별 기법에서는 (a)와 같이 W × H 크기의 이미지가 획득되면, 미리 학습된 인공 신경망을 이용하여 (b)와 같이 다수의 특징맵을 추출한다. 그리고 (c)와 같이 추출된 특징맵을 기지정된 크기로 분할 및 풀링하여 (d)의 부분 특징 벡터(g)를 추출한다. 그리고 추출된 부분 특징 벡터(g)의 특징을 다시 추출하여, (e)와 같이 부분 특징 벡터(g)의 특징의 특징이 함축된 부분 특징(h)을 획득한다. 이후 획득된 부분 특징을 분류함으로써 (f)와 같이 이미지에 포함된 사람의 식별자를 인식한다.
도 1에 도시된 바와 같이, 부분 특징은 사람의 신체 부위의 특징에 대해 정밀한 표현을 제공할 수 있다. 그러나 부분 특징간의 관계, 즉 신체 부위 간의 관계를 고려하지 않으므로, 다수의 부분 특징을 결합하더라도 사람 개개인의 정체성을 차별적으로 표현할 수 없다는 한계가 있다. 즉 사람의 전체적인 특징을 표현할 수 없다는 한계가 있다. 이로 인해, 서로 다른 사람이 같은 종류의 복장을 하고 있는 경우와 같이 신체의 부분적 특징만으로 구분하기 용이하지 않은 경우에 사람을 잘못 식별하는 경우가 빈번하게 발생하는 한계가 있다.
이에 최근에는 부분 특징과 부분 특징 사이의 관계를 함께 활용하여 신체 부위간 관계를 고려하도록 함으로써, 이미지에 사람의 일부 신체 부위가 누락된 경우에도 각 부분별 특징과 각 부분별 특징의 관계를 기초로 정확하게 사람을 재식별할 수 있도록 하는 시도가 이어지고 있다.
본 발명의 목적은 다양한 환경 조건에서 촬영된 이미지에서 정확하게 사람을 재식별할 수 있는 사람 재식별 장치 및 방법을 제공하는데 있다.
본 발명의 다른 목적은 이미지에 포함된 사람의 각 부분에 대한 부분 특징들 사이의 관계와 부분 특징들의 최대 및 평균 사이의 차를 기반으로 사람을 재식별하여 이미지에 신체의 일부가 누락된 이미지뿐만 아니라 부분별로 유사한 특징을 갖는 사람이 포함된 이미지에서도 정확하게 사람을 재식별할 수 있는 사람 재식별 장치 및 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 사람 재식별 장치는 재식별되어야 하는 사람이 포함된 다수의 이미지를 인가받아 미리 학습된 패턴 추정 방식에 따라 각 이미지의 특징을 추출하여 3차원 특징 벡터를 획득하고, 기지정된 크기 단위로 분할하여 다수의 부분 특징 벡터를 획득하는 특징 추출 분할부; 미리 학습된 패턴 추정 방식에 따라 상기 다수의 부분 특징 벡터 각각과 나머지 부분 특징 벡터 사이의 관계를 추정하고, 추정된 관계를 상기 다수의 부분 특징 벡터 각각에 반영하여 다수의 로컬 관계 특징을 획득하는 일대다 관계 추론부; 미리 학습된 패턴 추정 방식에 따라 상기 다수의 부분 특징 벡터 전체의 최대 특징과 평균 특징 사이의 관계를 다시 최대 특징에 반영하는 전역 대조 풀링을 수행하여 전역 대조 특징을 획득하는 전역 대조 풀링부; 및 상기 다수의 로컬 관계 특징과 상기 전역 대조 특징을 대응하는 이미지의 최종 표현자로 인가받고, 탐색 대상이 되는 사람이 포함된 이미지에서 미리 획득된 최종 표현자인 기준 표현자와 비교하여 탐색 대상인 사람이 포함되어 있는지를 판별하는 사람 재식별부를 포함한다.
상기 일대다 관계 추론부는 상기 다수의 부분 특징 벡터 각각에 대해 순차적으로 특징을 추출한 강화 부분 특징과 특징이 추출되지 않은 나머지 부분 특징 벡터의 평균 풀링 결과 대해 특징을 추출한 잔여 부분 강화 평균 특징을 결합하고, 결합된 잔여 부분 강화 평균 특징에 대해 다시 특징을 추출한 후, 대응하는 강화 부분 특징을 더하여 상기 다수의 로컬 관계 특징을 획득할 수 있다.
상기 일대다 관계 추론부는 상기 다수의 부분 특징 벡터 중 하나를 기지정된 순서로 선택하고, 미리 학습된 패턴 추정 방식에 따라 선택된 부분 특징 벡터의 특징을 추출하여 상기 강화 부분 특징을 획득하는 부분 특징 추출부; 상기 다수의 부분 특징 벡터 중 상기 부분 특징 추출부에서 선택되지 않은 부분 특징 벡터에 대해 평균 풀링을 수행하여 잔여 부분 평균 특징을 획득하는 잔여 부분 평균 샘플링부; 미리 학습된 패턴 추정 방식에 따라 상기 잔여 부분 평균 특징의 특징을 추출하여 상기 잔여 부분 강화 평균 특징을 획득하는 잔여 부분 평균 특징 추출부; 상기 강화 부분 특징과 상기 잔여 부분 강화 평균 특징을 결합하여 결합 부분 특징을 생성하는 강화 부분 특징 결합부; 미리 학습된 패턴 추정 방식에 따라 상기 결합 부분 특징의 특징을 추출하여 강화 결합 부분 특징을 획득하는 결합 부분 특징 추출부; 및 상기 강화 결합 부분 특징과 상기 강화 부분 특징을 더하여 선택된 부분 특징 벡터에 대응하는 로컬 관계 특징을 획득하는 로컬 관계 특징 획득부를 포함할 수 있다.
상기 전역 대조 풀링부는 상기 다수의 부분 특징 벡터 전체에 대해 최대 풀링 및 평균 풀링을 수행하고, 최대 풀링 결과와 평균 풀링 결과 사이의 차이인 전역 대조 특징과 최대 풀링 결과 각각의 특징을 추출하여 강화 대조 특징과 강화 전역 최대 특징을 획득하며, 상기 강화 대조 특징과 상기 강화 전역 최대 특징을 결합한 결과에 대해 특징을 추출한 후, 다시 강화 전역 최대 특징을 더하여 상기 전역 대조 특징을 획득할 수 있다.
상기 전역 대조 풀링부는 상기 다수의 부분 특징 벡터 전체에 대해 전역 최대 풀링을 수행하여 전역 최대 특징을 획득하는 전역 최대 샘플링부; 상기 다수의 부분 특징 벡터 전체에 대해 전역 평균 풀링을 수행하여 전역 평균 특징을 획득하는 전역 평균 샘플링부; 상기 전역 최대 특징과 상기 전역 평균 특징 사이의 차를 계산하여 대조 특징을 획득하는 대조 특징 획득부; 미리 학습된 패턴 추정 방식에 따라 상기 전역 최대 특징의 특징을 추출하여 강화 전역 최대 특징을 획득하는 강화 최대 특징 추출부; 미리 학습된 패턴 추정 방식에 따라 상기 대조 특징의 특징을 추출하여 강화 대조 특징을 획득하는 강화 대조 특징 추출부; 상기 강화 전역 최대 특징과 상기 강화 대조 특징을 결합하여, 결합 전역 특징을 생성하는 강화 전역 특징 결합부; 미리 학습된 패턴 추정 방식에 따라 결합 전역 특징의 특징을 추출하여 강화 결합 전역 특징을 획득하는 결합 전역 특징 추출부; 및 상기 강화 전역 최대 특징과 상기 강화 결합 전역 특징을 더하여 상기 전역 대조 특징을 획득하는 전역 대조 특징 획득부를 포함할 수 있다.
상기 사람 재식별 장치는 학습 시에 식별자가 레이블된 상기 학습 이미지를 인가받고, 학습 이미지에 레이블된 식별자와 상기 학습 이미지로부터 획득되는 최종 표현자 사이의 차이로부터 삼중항 손실과 크로스 엔트로피 손실을 계산하여 총 손실을 획득하고, 획득된 총 손실을 역전파하는 학습부를 더 포함할 수 있다.
상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 사람 재식별 방법은 포함된 사람의 식별자가 레이블된 다수의 학습 이미지를 인가받아 학습을 수행하는 단계; 재식별되어야 하는 사람이 포함된 다수의 이미지를 인가받아 미리 학습된 패턴 추정 방식에 따라 각 이미지의 특징을 추출하여 3차원 특징 벡터를 획득하는 단계; 상기 3차원 특징 벡터를 기지정된 크기 단위로 분할하여 다수의 부분 특징 벡터를 획득하는 단계; 미리 학습된 패턴 추정 방식에 따라 상기 다수의 부분 특징 벡터 각각과 나머지 부분 특징 벡터 사이의 관계를 추정하고, 추정된 관계를 상기 다수의 부분 특징 벡터 각각에 반영하여 다수의 로컬 관계 특징을 획득하는 단계; 미리 학습된 패턴 추정 방식에 따라 상기 다수의 부분 특징 벡터 전체의 최대 특징과 평균 특징 사이의 관계를 다시 최대 특징에 반영하는 전역 대조 풀링을 수행하여 전역 대조 특징을 획득하는 단계; 및 상기 다수의 로컬 관계 특징과 상기 전역 대조 특징을 대응하는 이미지의 최종 표현자로 인가받고, 탐색 대상이 되는 사람이 포함된 이미지에서 미리 획득된 최종 표현자인 기준 표현자와 비교하여 탐색 대상인 사람이 포함되어 있는지를 판별하는 단계를 포함한다.
따라서, 본 발명의 실시예에 따른 사람 재식별 장치 및 방법은 이미지에 포함된 사람의 각 부분에 대한 부분 특징들 사이의 관계를 이용하여 강화된 부분 특징을 획득하고, 부분 특징들의 최대 및 평균 사이의 차를 기반으로 전체 부분 특징들의 대조 특징을 함께 추출하여 사람을 재식별 함으로써, 이미지에 신체의 일부가 누락된 이미지뿐만 아니라 부분별로 유사한 특징을 갖는 사람이 포함된 이미지에서도 정확하게 사람을 재식별할 수 있다.
도 1은 부분 특징을 추출하는 사람 재식별 기법의 개념을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 사람 재식별 장치의 개략적 구조를 나타낸다.
도 3은 도 2에 도시된 본 실시예에 따른 사람 재식별 장치가 최종 표현자를 획득하는 개념을 설명하기 위한 도면이다.
도 4는 도 2의 일대다 관계 추론부의 상세 구성의 일예를 나타낸다.
도 5는 도 2의 전역 대조 풀링부의 상세 구성의 일예를 나타낸다.
도 6은 본 발명의 일 실시예에 따른 사람 재식별 방법을 나타낸다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 2는 본 발명의 일 실시예에 따른 사람 재식별 장치의 개략적 구조를 나타내고, 도 3은 도 2에 도시된 본 실시예에 따른 사람 재식별 장치가 최종 표현자를 획득하는 개념을 설명하기 위한 도면이다. 그리고 도 4 및 도 5는 도 2의 일대다 관계 추론부와 전역 대조 풀링부의 상세 구성의 일예를 나타낸다.
도 2를 참조하면, 본 실시예에 따른 사람 재식별 장치는 이미지 획득부(110), 특징 추출부(120), 특징 분할부(130), 일대다 관계 추론부(140), 전역 대조 풀링부(150) 및 사람 재식별부(160)를 포함할 수 있다.
이미지 획득부(110)는 도 3의 (a)에 도시된 바와 같이, 재식별되어야 하는 사람이 포함된 다수의 이미지를 획득한다. 이미지 획득부(110)는 다수의 이미지가 저장된 데이터베이스(미도시)나 카메라 등의 이미지 획득 장치로부터 학습 이미지를 획득하거나, 외부의 장치와 네트워크를 통해 학습 이미지를 인가받아 획득할 수도 있다.
그리고 이미지 획득부(110)는 사람 재식별 장치의 학습 시에는 포함된 사람의 식별자가 미리 레이블된 다수의 학습 이미지를 획득할 수 있다.
특징 추출부(120)는 패턴 추정 방식이 미리 학습된 인공 신경망으로 구현되어 이미지 획득부(110)에서 인가되는 이미지의 특징을 추출하여 다수의 특징맵을 획득한다.
특징 추출부(120)는 사람 재식별 장치의 학습시에 함께 학습될 수 있으나, 이미지로부터 특징을 추출하여 특징맵을 획득하는 다양한 인공 신경망이 이미 연구되어 공개되어 있으므로, 미리 학습되어 공개된 인공 신경망을 이용하여 특징맵을 획득할 수도 있다. 여기서는 일예로 특징 추출부(120)가 도 3의 (b)에 도시된 바와 같이, 이미지 분류를 위해 학습된 인공 신경망의 하나인 ResNet-50을 이용하는 것으로 가정한다.
특징 추출부(120)는 인가된 이미지에서 특징을 추출하여 H × W 크기의 C개의 특징맵을 획득할 수 있다. 즉 H × W × C 크기의 3차원 특징 벡터를 획득할 수 있다.
특징 분할부(130)는 특징 추출부(120)에서 획득된 3차원 특징 벡터를 기지정된 크기 단위로 분할하고, 분할된 다수의 특징 벡터 각각을 샘플링하여 다수의 부분 특징 벡터(p 1 ~ p n)를 획득한다.
특징 분할부(130)는 미리 지정된 방식에 따라 다양한 형태로 3차원 특징 벡터를 분할할 수 있으나, 도 3의 (c)에서는 일예로 3차원 특징 벡터를 수평 그리드에 따라 6개로 분할하는 경우를 도시하였다. 그리고 특징 분할부(130)는 분할된 6개의 3차원 벡터 각각에 대해 도 3의 (d)에 도시된 바와 같이, 전역 최대 풀링(Globla max pooling) 방식으로 샘플링하여 각각 1 × 1 × C 크기를 갖는 6개의 부분 특징 벡터(p 1 ~ p 6)를 획득할 수 있다.
특징 분할부(130)에서 획득된 다수의 부분 특징 벡터(p 1 ~ p n)는 일대다 관계 추론부(140) 및 전역 대조 풀링부(150) 각각으로 전달된다.
여기서 특징 추출부(120)와 특징 분할부(130)는 특징 추출 분할부로 통합될 수 있다.
일대다 관계 추론부(140)는 도 3에서 (e)로 나타난 구성으로, 특징 분할부(130)로부터 다수의 부분 특징 벡터(p 1 ~ p n)를 인가받고, 미리 학습된 패턴 추정 방식에 따라 인가된 다수의 부분 특징 벡터(p 1 ~ p 6) 각각과 나머지 부분 특징 벡터 사이의 관계를 추정하여 다수의 부분 특징 벡터(p 1 ~ p n)에 추정된 관계가 반영되도록 강화한다. 일대다 관계 추론부(140)는 도 3의 (f)와 같이, 강화된 부분 특징 벡터인 다수의 로컬 관계 특징(local relational feature)(q 1 ~ q n)을 획득한다.
여기서 일대다 관계 추론부(140)는 1 × 1 × C 크기의 다수의 부분 특징 벡터(p 1 ~ p n)로부터 각각 1 × 1 × c(여기서 c ≤ C) 크기를 갖는 다수의 로컬 관계 특징(q 1 ~ q n)을 획득할 수 있다.
도 4를 참조하면, 일대다 관계 추론부(140)는 부분 특징 추출부(141), 잔여 부분 평균 샘플링부(142), 잔여 부분 평균 특징 추출부(143), 강화 부분 특징 결합부(144), 결합 부분 특징 추출부(145) 및 로컬 관계 특징 획득부(146)를 포함할 수 있다.
우선 부분 강화 특징 추출부(141)는 다수의 부분 특징 벡터(p 1 ~ p n)를 기지정된 순서로 선택하고, 미리 학습된 패턴 추정 방식에 따라 선택된 부분 특징 벡터(p 1 ~ p n)의 특징을 추출하여 강화 부분 특징(
Figure PCTKR2020010753-appb-img-000001
)를 획득한다. 여기서 강화 부분 특징(
Figure PCTKR2020010753-appb-img-000002
) 각각은 1 × 1 × c를 가질 수 있다.
도 4에서는 일예로 부분 강화 특징 추출부(141)가 부분 특징 벡터(p 1)를 선택한 경우를 가정하여 도시하였으나, 부분 강화 특징 추출부(141)는 선택되지 않은 나머지 부분 특징 벡터(p 2 ~ p n)에 대해서도 기지정된 순서에 따라 선택하여 강화 부분 특징(
Figure PCTKR2020010753-appb-img-000003
)을 획득한다.
부분 강화 특징 추출부(141)가 다수의 부분 특징 벡터(p 1 ~ p n) 중 하나(p i)를 선택하여 강화 부분 특징(
Figure PCTKR2020010753-appb-img-000004
)을 각각 획득하는 동안 잔여 부분 평균 샘플링부(142)는 부분 강화 특징 추출부(141)에 의해 선택된 부분 특징 벡터를 제외한 나머지 부분 특징 벡터(p 2 ~ p n)에 대해 평균 풀링을 수행하여 잔여 부분 평균 특징(r i)을 획득한다.
즉 잔여 부분 평균 샘플링부(142)는 수학식 1에 따라 잔여 부분 평균 특징(r i)을 획득한다.
Figure PCTKR2020010753-appb-img-000005
여기서 n은 부분 특징 벡터의 개수이고 i는 부분 특징 벡터의 인덱스이고, j는 부분 강화 특징 추출부(141)에서 선택된 부분 특징 벡터의 인덱스이다.
잔여 부분 평균 특징 추출부(143)는 미리 학습된 패턴 추정 방식에 따라 잔여 부분 평균 특징(r i)의 특징을 추출하여 잔여 부분 강화 평균 특징(
Figure PCTKR2020010753-appb-img-000006
)을 획득한다. 잔여 부분 평균 특징 추출부(143)는 부분 강화 특징 추출부(141)가 강화 부분 특징(
Figure PCTKR2020010753-appb-img-000007
)을 획득하는 동안, 대응하는 잔여 부분 강화 평균 특징(
Figure PCTKR2020010753-appb-img-000008
)을 획득한다.
강화 부분 특징 결합부(144)는 부분 강화 특징 추출부(141)에서 획득된 강화 부분 특징(
Figure PCTKR2020010753-appb-img-000009
)과 잔여 부분 강화 평균 특징(
Figure PCTKR2020010753-appb-img-000010
)을 결합(concatenate)하여 결합 부분 특징을 생성한다. 결합 부분 특징 추출부(145)는 결합 부분 특징을 인가받고 미리 학습된 패턴 추정 방식에 따라 결합 부분 특징의 특징을 추출하여 강화 결합 부분 특징을 획득한다.
로컬 관계 특징 획득부(146)는 부분 강화 특징 추출부(141)에서 획득된 강화 부분 특징(
Figure PCTKR2020010753-appb-img-000011
)과 결합 부분 특징 추출부(145)에서 획득된 강화 결합 부분 특징을 더하여 로컬 관계 특징(q i)을 획득한다.
즉 일대다 관계 추론부(140)는 다수의 부분 특징 벡터(p 1 ~ p n) 각각의 특징에 나머지 다수의 부분 특징 벡터들의 평균 특징을 결합하여 각 부분 특징 벡터(p 1 ~ p n)과 나머지 부분 특징 벡터들 사이의 관계가 포함된 다수의 로컬 관계 특징(q 1 ~ q n)을 획득한다.
일대다 관계 추론부(140)가 다수의 부분 특징 벡터(p 1 ~ p n) 각각과 나머지 부분 특징 벡터들 사이의 관계가 포함된 다수의 로컬 관계 특징(q 1 ~ q n)을 획득하는 방식은 수학식 2와 같이 표현될 수 있다.
Figure PCTKR2020010753-appb-img-000012
여기서 T는 특징의 결합을 나타내는 결합 함수이고, R p는 패턴 추정 방식이 학습된 결합 부분 특징 추출부(145)를 수학적으로 표현한 관계 함수이다.
일대다 관계 추론부(140)는 기본적으로 다수의 부분 특징 벡터(p 1 ~ p n)를 기반으로 다수의 로컬 관계 특징(q 1 ~ q n)을 획득하므로, 사람의 신체의 일부가 누락된 경우나 가려져 폐색(occlusion)이 발생된 경우에도 강인하게 사람의 특징을 추출할 수 있다.
일대다 관계 추론부(140)에서 부분 특징 추출부(141), 잔여 부분 평균 특징 추출부(143) 및 결합 부분 특징 추출부(145) 각각은 일예로 컨볼루션 신경망으로 구현될 수 있다.
한편, 전역 대조 풀링부(150)는 도 3에서 (e)로 나타난 구성으로, 일대다 관계 추론부(140)와 마찬가지로 특징 분할부(130)로부터 다수의 부분 특징 벡터(p 1 ~ p n)를 인가받고, 미리 학습된 패턴 추정 방식에 따라 인가된 다수의 부분 특징 벡터(p 1 ~ p n) 전체의 최대 샘플링 결과와 평균 샘플링 결과의 차를 표출하는 전역 대조 풀링을 수행한다. 전역 대조 풀링부(150)는 전역 대조 풀링을 수행함으로써 다수의 부분 특징 벡터(p 1 ~ p n)로부터 도 3의 (h)에 도시된 바와 같이, 하나의 전역 대조 특징(global contrastive feature)(q 0)을 획득한다.
여기서 전역 대조 풀링부(150)는 1 × 1 × C 크기의 다수의 부분 특징 벡터(p 1 ~ p n)로부터 1 × 1 × c(여기서 c ≤ C) 크기를 갖는 하나의 전역 대조 특징(q 0)을 획득할 수 있다.
도 5를 참조하면 전역 대조 풀링부(150)는 전역 최대 샘플링부(151), 전역 평균 샘플링부(152), 대조 특징 획득부(153), 강화 최대 특징 추출부(154), 강화 대조 특징 추출부(155), 강화 전역 특징 결합부(156), 결합 전역 특징 추출부(157) 및 전역 대조 특징 획득부(158)를 포함할 수 있다.
전역 최대 샘플링부(151)는 다수의 부분 특징 벡터(p 1 ~ p n) 전체에 대해 전역 최대 풀링을 수행하여 전역 최대 특징(p max)을 획득한다. 한편, 전역 평균 샘플링부(152)는 다수의 부분 특징 벡터(p 1 ~ p n) 전체에 대해 전역 평균 풀링을 수행하여 전역 평균 특징(p avg)을 획득한다.
대조 특징 획득부(153)는 전역 최대 특징(p max)과 전역 평균 특징(p avg) 사이의 차를 계산하여 대조 특징(p cont)을 획득한다. 즉 다수의 부분 특징 벡터(p 1 ~ p n)의 최대값과 평균값 사이의 차를 계산하여 대조 특징(p cont)을 획득한다.
강화 최대 특징 추출부(154)는 전역 최대 특징(p max)을 인가받고, 미리 학습된 패턴 추정 방식에 따라 특징을 추출하여 강화 전역 최대 특징(
Figure PCTKR2020010753-appb-img-000013
)을 획득한다. 그리고 강화 대조 특징 추출부(155)는 대조 특징(p cont)을 인가받고, 미리 학습된 패턴 추정 방식에 따라 특징을 추출하여 강화 대조 특징(
Figure PCTKR2020010753-appb-img-000014
)을 획득한다.
강화 전역 특징 결합부(156)는 강화 전역 최대 특징(
Figure PCTKR2020010753-appb-img-000015
)과 강화 대조 특징(
Figure PCTKR2020010753-appb-img-000016
)을 결합하여, 결합 전역 특징을 생성하고, 결합 전역 특징 추출부(157)는 미리 학습된 패턴 추정 방식에 따라 결합 전역 특징의 특징을 추출하여 강화 결합 전역 특징을 획득한다.
전역 대조 특징 획득부(158)는 강화 최대 특징 추출부(154)에서 획득된 강화 전역 최대 특징(
Figure PCTKR2020010753-appb-img-000017
)과 결합 전역 특징 추출부(157)에서 강화 결합 전역 특징을 더하여 전역 대조 특징(q 0)을 획득한다.
전역 대조 풀링부(150)는 다수의 부분 특징 벡터(p 1 ~ p n)의 최대값에 다수의 부분 특징 벡터(p 1 ~ p n)의 최대값과 평균값 사이의 차를 나타내는 대조값을 반영하여 전역 대조 특징(q 0)을 획득하는 방식은 수학식 3과 같이 표현될 수 있다.
Figure PCTKR2020010753-appb-img-000018
여기서 T는 특징의 결합을 나타내는 결합 함수이고, R p는 패턴 추정 방식이 학습된 결합 전역 특징 추출부(157)를 수학적으로 표현한 관계 함수이다.
전역 대조 풀링부(150)는 다수의 부분 특징 벡터(p 1 ~ p n)의 최대값 및 평균값 사이의 관계를 기반으로 전역 대조 특징(q 0)을 획득하는 것은 다수의 부분 특징 벡터(p 1 ~ p n)에 대해 최대 풀링을 수행하게 되면, 이미지 전체에서 가장 핵심이 되는 특징을 추출할 수 있다는 장점이 있는 반면, 표현할 수 있는 특징의 다양성이 제한된다. 반면, 다수의 부분 특징 벡터(p 1 ~ p n)에 대해 평균 풀링을 수행하게 되면, 불필요한 정보가 특징에 포함되는 비중이 높아지게 된다.
이에 본 실시예에 따른 전역 대조 풀링부(150)는 다수의 부분 특징 벡터(p 1 ~ p n)에 대해 최대 풀링 및 평균 풀링의 차에 최대 풀링 결과를 더한 대조 풀링을 적용함으로써 특징 표현의 다양성을 높일 수 있도록 함과 동시에 불필요한 정보가 과도하게 특징에 포함되지 않도록 한다.
전역 대조 풀링부(150)에서 강화 최대 특징 추출부(154), 강화 대조 특징 추출부(155) 및 결합 전역 특징 추출부(157) 각각은 일예로 컨볼루션 신경망으로 구현될 수 있다.
사람 재식별부(160)는 일대다 관계 추론부(140)에서 획득된 다수의 로컬 관계 특징(q 1 ~ q n)와 전역 대조 특징(q 0)을 최종 표현자로 인가받고, 인가된 최종 표현자(q 0 ~ q n)를 이용하여 이미지에 포함된 사람을 재식별한다.
사람 재식별부(160)는 탐색 대상이 되는 사람이 포함된 이미지에 대한 최종 표현자(q 0 ~ q n)인 기준 표현자를 미리 획득하여 저장하고, 이후 탐색 대상인 사람이 포함되었는지 여부가 판별되어야 하는 재식별 이미지에 대한 최종 표현자(q 0 ~ q n)가 획득되면, 재식별 이미지에 대한 최종 표현자(q 0 ~ q n)와 기준 표현자 사이의 유사도를 분석하여 재식별 이미지에 포함된 사람을 재식별할 수 있다.
일예로 사람 재식별부(160)는 최종 표현자(q 0 ~ q n)와 기준 표현자 사이의 유사도가 기지정된 기준 유사도 이상이면, 재식별 이미지에 탐색 대상이 포함된 것으로 판별하고, 기준 유사도 미만이면 탐색 대상이 포함되지 않은 것으로 판별할 수 있다.
한편, 본 실시예에 따른 사람 재식별 장치는 학습부(170)를 더 포함할 수 있다. 학습부(170)는 일대다 관계 추론부(140) 및 전역 대조 풀링부(150)를 학습시키기 위한 구성으로 학습이 완료되면 생략될 수 있다.
사람 재식별 장치의 학습 시에는 상기한 바와 같이, 사람의 식별자가 미리 레이블된 다수의 학습 이미지가 인가된다.
본 실시예에서 학습부(170)는 인공 신경망 분야에 이미 공지된 손실인 삼중항 손실(triplet losses)(L triplet)과 크로스 엔트로피(cross-entropy) 손실(L ce)을 기반으로 손실(L)을 수학식 4와 같이 계산할 수 있다.
Figure PCTKR2020010753-appb-img-000019
여기서 λ는 손실 가중치를 나타낸다.
수학식 4에서 크로스 엔트로피 손실(L ce)은 수학식 5로 정의된다.
Figure PCTKR2020010753-appb-img-000020
여기서 N은 미니 배치(mini-batch)에서 이미지의 개수를 나타내고, y n은 학습 이미지에 레이블된 식별자를 나타낸다. 그리고
Figure PCTKR2020010753-appb-img-000021
은 최종 표현자(q i)에 대해 예측된 식별자로서 수학식 6으로 정의된다.
Figure PCTKR2020010753-appb-img-000022
여기서 K는 식별 레이블의 개수이고, w i k는 최종 표현자(q i)와 식별 레이블(k)의 분류자를 나타낸다.
한편 삼중항 손실(L triplet)은 수학식 7로 정의된다.
Figure PCTKR2020010753-appb-img-000023
여기서 N K는 미니 배치(mini-batch)에서 식별자의 개수이고, N M은 각 식별자에 대한 이미지의 개수이다(여기서 N = N KN M). α는 특징 공간에서 양수와 음수 쌍 사이의 거리를 제어하는 마진 변수이다. 그리고 q A i,j, q P i,j, q N i,j는 각각 앵커(anchor), 포지티브(positive), 및 네거티브 이미지(negative) 사람 표현을 나타내고, i, j는 식별자와 이미지 인덱스를 나타낸다.
학습부(170)는 수학식 4 내지 수학식 7에 따라 손실(L)이 계산되면, 계산된 손실을 일대다 관계 추론부(140) 및 전역 대조 풀링부(150)로 역전파하여 학습시킬 수 있다.
도 6은 본 발명의 일 실시예에 따른 사람 재식별 방법을 나타낸다.
도 2 내지 도 5를 참조하여, 본 실시예에 따른 사람 재식별 방법을 설명하면, 우선 재식별되어야 하는 사람이 포함된 다수의 이미지를 획득한다(S11). 다만 학습이 수행되는 학습 단계인 경우에는 포함된 사람의 식별자가 미리 레이블된 다수의 학습 이미지를 획득한다.
그리고 획득된 이미지 각각에 대해 미리 학습된 패턴 추정 방식에 따라 특징을 추출하여 3차원 특징 벡터를 획득한다(S12). 3차원 특징 벡터가 획득되면, 기지정된 크기 단위로 3차원 특징 벡터를 분할하여 다수의 부분 특징 벡터(p 1 ~ p n)를 획득한다(S13).
이후, 미리 학습된 방식에 따라 획득된 다수의 부분 특징 벡터(p 1 ~ p n) 각각과 나머지 부분 특징 벡터들 사이의 관계를 추정하고, 추정된 관계를 다수의 부분 특징 벡터(p 1 ~ p n) 각각에 반영하여 강화된 부분 특징 벡터인 다수의 로컬 관계 특징(q 1 ~ q n)을 획득한다(S14).
다수의 로컬 관계 특징(q 1 ~ q n)은 다수의 부분 특징 벡터(p 1 ~ p n) 각각에 대해 순차적으로 특징을 추출한 강화 부분 특징(
Figure PCTKR2020010753-appb-img-000024
)과 특징이 추출되지 않은 나머지 부분 특징 벡터의 평균 풀링 결과 대해 특징을 추출한 잔여 부분 강화 평균 특징(
Figure PCTKR2020010753-appb-img-000025
)을 결합하고, 다시 특징을 추출한 후, 대응하는 강화 부분 특징(
Figure PCTKR2020010753-appb-img-000026
)을 더하여 획득될 수 있다.
이와 함께 미리 학습된 방식에 따라 획득된 다수의 부분 특징 벡터(p 1 ~ p n) 전체의 최대 특징과 평균 특징 사이의 관계를 다시 최대 특징에 반영하는 전역 대조 풀링을 수행하여 전역 대조 특징(q 0)을 획득한다(S15).
전역 대조 특징(q 0)은 다수의 부분 특징 벡터(p 1 ~ p n) 전체에 대해 최대 풀링 및 평균 풀링을 수행하고, 최대 풀링 결과와 평균 풀링 결과 사이의 차이인 전역 대조 특징과 최대 풀링 결과 각각의 특징을 추출하여 강화 대조 특징(
Figure PCTKR2020010753-appb-img-000027
)과 강화 전역 최대 특징(
Figure PCTKR2020010753-appb-img-000028
)을 획득하고, 강화 대조 특징(
Figure PCTKR2020010753-appb-img-000029
)과 강화 전역 최대 특징(
Figure PCTKR2020010753-appb-img-000030
)을 결합한 결과에 대해 특징을 추출한 후, 다시 강화 전역 최대 특징(
Figure PCTKR2020010753-appb-img-000031
)을 더하여 획득될 수 있다.
그리고 획득된 전역 대조 특징(q 0)과 다수의 로컬 관계 특징(q 1 ~ q n)을 해당 이미지에 대한 최종 표현자(q 0 ~ q n)로 획득한다(S16).
획득된 이미지에 대한 최종 표현자가 획득되면, 학습 단계인지 아닌지 판별한다(S17). 만일 학습 단계가 아니면, 획득된 최종 표현자(q 0 ~ q n)를 탐색 대상이 되는 사람이 포함된 이미지에서 미리 획득된 최종 표현자(q 0 ~ q n)인 기준 표현자와 비교하여 유사도를 분석한다(S18).
그리고 유사도 분석 결과에 따라 획득된 이미지에 탐색 대상인 사람이 포함되었는지 여부를 판별하여 사람을 재식별한다(S19).
한편, 학습 단계인 것으로 판별되면, 획득된 최종 표현자(q 0 ~ q n)와 학습 이미지에 레이블된 식별자를 이용하여 손실(L)을 수학식 4 내지 7에 따라 계산한다(S20). 그리고 계산된 손실을 역전파하여 학습을 수행한다(S21).
본 발명에 따른 방법은 컴퓨터에서 실행 시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (10)

  1. 포함된 사람의 식별자가 레이블된 다수의 학습 이미지를 인가받아 학습이 수행되어 이미지에 포함된 사람을 재식별하는 사람 재식별 장치에 있어서,
    재식별되어야 하는 사람이 포함된 다수의 이미지를 인가받아 미리 학습된 패턴 추정 방식에 따라 각 이미지의 특징을 추출하여 3차원 특징 벡터를 획득하고, 기지정된 크기 단위로 분할하여 다수의 부분 특징 벡터를 획득하는 특징 추출 분할부;
    미리 학습된 패턴 추정 방식에 따라 상기 다수의 부분 특징 벡터 각각과 나머지 부분 특징 벡터 사이의 관계를 추정하고, 추정된 관계를 상기 다수의 부분 특징 벡터 각각에 반영하여 다수의 로컬 관계 특징을 획득하는 일대다 관계 추론부;
    미리 학습된 패턴 추정 방식에 따라 상기 다수의 부분 특징 벡터 전체의 최대 특징과 평균 특징 사이의 관계를 다시 최대 특징에 반영하는 전역 대조 풀링을 수행하여 전역 대조 특징을 획득하는 전역 대조 풀링부; 및
    상기 다수의 로컬 관계 특징과 상기 전역 대조 특징을 대응하는 이미지의 최종 표현자로 인가받고, 탐색 대상이 되는 사람이 포함된 이미지에서 미리 획득된 최종 표현자인 기준 표현자와 비교하여 탐색 대상인 사람이 포함되어 있는지를 판별하는 사람 재식별부를 포함하는 사람 재식별 장치.
  2. 제1 항에 있어서, 상기 일대다 관계 추론부는
    상기 다수의 부분 특징 벡터 각각에 대해 순차적으로 특징을 추출한 강화 부분 특징과 특징이 추출되지 않은 나머지 부분 특징 벡터의 평균 풀링 결과 대해 특징을 추출한 잔여 부분 강화 평균 특징을 결합하고, 결합된 잔여 부분 강화 평균 특징에 대해 다시 특징을 추출한 후, 대응하는 강화 부분 특징을 더하여 상기 다수의 로컬 관계 특징을 획득하는 사람 재식별 장치.
  3. 제2 항에 있어서, 상기 일대다 관계 추론부는
    상기 다수의 부분 특징 벡터 중 하나를 기지정된 순서로 선택하고, 미리 학습된 패턴 추정 방식에 따라 선택된 부분 특징 벡터의 특징을 추출하여 상기 강화 부분 특징을 획득하는 부분 특징 추출부;
    상기 다수의 부분 특징 벡터 중 상기 부분 특징 추출부에서 선택되지 않은 부분 특징 벡터에 대해 평균 풀링을 수행하여 잔여 부분 평균 특징을 획득하는 잔여 부분 평균 샘플링부;
    미리 학습된 패턴 추정 방식에 따라 상기 잔여 부분 평균 특징의 특징을 추출하여 상기 잔여 부분 강화 평균 특징을 획득하는 잔여 부분 평균 특징 추출부;
    상기 강화 부분 특징과 상기 잔여 부분 강화 평균 특징을 결합하여 결합 부분 특징을 생성하는 강화 부분 특징 결합부;
    미리 학습된 패턴 추정 방식에 따라 상기 결합 부분 특징의 특징을 추출하여 강화 결합 부분 특징을 획득하는 결합 부분 특징 추출부; 및
    상기 강화 결합 부분 특징과 상기 강화 부분 특징을 더하여 선택된 부분 특징 벡터에 대응하는 로컬 관계 특징을 획득하는 로컬 관계 특징 획득부를 포함하는 사람 재식별 장치.
  4. 제1 항에 있어서, 상기 전역 대조 풀링부는
    상기 다수의 부분 특징 벡터 전체에 대해 최대 풀링 및 평균 풀링을 수행하고, 최대 풀링 결과와 평균 풀링 결과 사이의 차이인 전역 대조 특징과 최대 풀링 결과 각각의 특징을 추출하여 강화 대조 특징과 강화 전역 최대 특징을 획득하며, 상기 강화 대조 특징과 상기 강화 전역 최대 특징을 결합한 결과에 대해 특징을 추출한 후, 다시 강화 전역 최대 특징을 더하여 상기 전역 대조 특징을 획득하는 사람 재식별 장치.
  5. 제4 항에 있어서, 상기 전역 대조 풀링부는
    상기 다수의 부분 특징 벡터 전체에 대해 전역 최대 풀링을 수행하여 전역 최대 특징을 획득하는 전역 최대 샘플링부;
    상기 다수의 부분 특징 벡터 전체에 대해 전역 평균 풀링을 수행하여 전역 평균 특징을 획득하는 전역 평균 샘플링부;
    상기 전역 최대 특징과 상기 전역 평균 특징 사이의 차를 계산하여 대조 특징을 획득하는 대조 특징 획득부;
    미리 학습된 패턴 추정 방식에 따라 상기 전역 최대 특징의 특징을 추출하여 강화 전역 최대 특징을 획득하는 강화 최대 특징 추출부;
    미리 학습된 패턴 추정 방식에 따라 상기 대조 특징의 특징을 추출하여 강화 대조 특징을 획득하는 강화 대조 특징 추출부;
    상기 강화 전역 최대 특징과 상기 강화 대조 특징을 결합하여, 결합 전역 특징을 생성하는 강화 전역 특징 결합부;
    미리 학습된 패턴 추정 방식에 따라 결합 전역 특징의 특징을 추출하여 강화 결합 전역 특징을 획득하는 결합 전역 특징 추출부; 및
    상기 강화 전역 최대 특징과 상기 강화 결합 전역 특징을 더하여 상기 전역 대조 특징을 획득하는 전역 대조 특징 획득부를 포함하는 사람 재식별 장치.
  6. 제1 항에 있어서, 상기 사람 재식별 장치는
    학습 시에 식별자가 레이블된 상기 학습 이미지를 인가받고, 학습 이미지에 레이블된 식별자와 상기 학습 이미지로부터 획득되는 최종 표현자 사이의 차이로부터 삼중항 손실과 크로스 엔트로피 손실을 계산하여 총 손실을 획득하고, 획득된 총 손실을 역전파하는 학습부를 더 포함하는 사람 재식별 장치.
  7. 포함된 사람의 식별자가 레이블된 다수의 학습 이미지를 인가받아 학습을 수행하는 단계;
    재식별되어야 하는 사람이 포함된 다수의 이미지를 인가받아 미리 학습된 패턴 추정 방식에 따라 각 이미지의 특징을 추출하여 3차원 특징 벡터를 획득하는 단계;
    상기 3차원 특징 벡터를 기지정된 크기 단위로 분할하여 다수의 부분 특징 벡터를 획득하는 단계;
    미리 학습된 패턴 추정 방식에 따라 상기 다수의 부분 특징 벡터 각각과 나머지 부분 특징 벡터 사이의 관계를 추정하고, 추정된 관계를 상기 다수의 부분 특징 벡터 각각에 반영하여 다수의 로컬 관계 특징을 획득하는 단계;
    미리 학습된 패턴 추정 방식에 따라 상기 다수의 부분 특징 벡터 전체의 최대 특징과 평균 특징 사이의 관계를 다시 최대 특징에 반영하는 전역 대조 풀링을 수행하여 전역 대조 특징을 획득하는 단계; 및
    상기 다수의 로컬 관계 특징과 상기 전역 대조 특징을 대응하는 이미지의 최종 표현자로 인가받고, 탐색 대상이 되는 사람이 포함된 이미지에서 미리 획득된 최종 표현자인 기준 표현자와 비교하여 탐색 대상인 사람이 포함되어 있는지를 판별하는 단계를 포함하는 사람 재식별 방법.
  8. 제7 항에 있어서, 상기 다수의 로컬 관계 특징을 획득하는 단계는
    상기 다수의 부분 특징 벡터 중 하나를 기지정된 순서로 선택하고, 미리 학습된 패턴 추정 방식에 따라 선택된 부분 특징 벡터의 특징을 추출하여 강화 부분 특징을 획득하는 단계;
    상기 다수의 부분 특징 벡터 중 선택되지 않은 부분 특징 벡터에 대해 평균 풀링을 수행하여 잔여 부분 평균 특징을 획득하는 단계;
    미리 학습된 패턴 추정 방식에 따라 상기 잔여 부분 평균 특징의 특징을 추출하여 잔여 부분 강화 평균 특징을 획득하는 단계;
    상기 강화 부분 특징과 상기 잔여 부분 강화 평균 특징을 결합하여 결합 부분 특징을 생성하는 단계;
    미리 학습된 패턴 추정 방식에 따라 상기 결합 부분 특징의 특징을 추출하여 강화 결합 부분 특징을 획득하는 단계; 및
    상기 강화 결합 부분 특징과 상기 강화 부분 특징을 더하여 선택된 부분 특징 벡터에 대응하는 로컬 관계 특징을 획득하는 단계를 포함하는 사람 재식별 방법.
  9. 제7 항에 있어서, 상기 전역 대조 특징을 획득하는 단계는
    상기 다수의 부분 특징 벡터 전체에 대해 전역 최대 풀링을 수행하여 전역 최대 특징을 획득하는 단계;
    상기 다수의 부분 특징 벡터 전체에 대해 전역 평균 풀링을 수행하여 전역 평균 특징을 획득하는 단계;
    상기 전역 최대 특징과 상기 전역 평균 특징 사이의 차를 계산하여 대조 특징을 획득하는 단계;
    미리 학습된 패턴 추정 방식에 따라 상기 전역 최대 특징의 특징을 추출하여 강화 전역 최대 특징을 획득하는 단계;
    미리 학습된 패턴 추정 방식에 따라 상기 대조 특징의 특징을 추출하여 강화 대조 특징을 획득하는 단계;
    상기 강화 전역 최대 특징과 상기 강화 대조 특징을 결합하여, 결합 전역 특징을 생성하는 단계;
    미리 학습된 패턴 추정 방식에 따라 결합 전역 특징의 특징을 추출하여 강화 결합 전역 특징을 획득하는 단계; 및
    상기 강화 전역 최대 특징과 상기 강화 결합 전역 특징을 더하여 상기 전역 대조 특징을 획득하는 단계를 포함하는 사람 재식별 방법.
  10. 제7 항에 있어서, 상기 학습을 수행하는 단계는
    식별자가 레이블된 상기 학습 이미지를 인가받는 단계;
    상기 학습 이미지에 대한 최종 표현자를 획득하는 단계;
    상기 학습 이미지에 레이블된 식별자와 상기 학습 이미지로부터 획득되는 최종 표현자 사이의 차이로부터 삼중항 손실과 크로스 엔트로피 손실을 계산하여 총 손실을 획득하는 단계; 및
    획득된 총 손실을 역전파하는 단계를 포함하는 사람 재식별 방법.
PCT/KR2020/010753 2019-08-30 2020-08-13 사람 재식별 장치 및 방법 WO2021040287A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/667,462 US20220165048A1 (en) 2019-08-30 2022-02-08 Person re-identification device and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190107457A KR102225613B1 (ko) 2019-08-30 2019-08-30 사람 재식별 장치 및 방법
KR10-2019-0107457 2019-08-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/667,462 Continuation US20220165048A1 (en) 2019-08-30 2022-02-08 Person re-identification device and method

Publications (1)

Publication Number Publication Date
WO2021040287A1 true WO2021040287A1 (ko) 2021-03-04

Family

ID=74683551

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/010753 WO2021040287A1 (ko) 2019-08-30 2020-08-13 사람 재식별 장치 및 방법

Country Status (3)

Country Link
US (1) US20220165048A1 (ko)
KR (1) KR102225613B1 (ko)
WO (1) WO2021040287A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269070A (zh) * 2021-05-18 2021-08-17 重庆邮电大学 融合全局和局部特征的行人重识别方法、存储器及处理器

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657167A (zh) * 2021-07-19 2021-11-16 浙江大华技术股份有限公司 图像重识别方法、设备、电子装置和存储介质
KR102533091B1 (ko) 2022-03-04 2023-05-26 주식회사 한국공간데이터 사람을 재인식하는 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005050285A (ja) * 2003-07-31 2005-02-24 Toyota Motor Corp 画像処理装置および画像処理方法
JP2017142736A (ja) * 2016-02-12 2017-08-17 日本電信電話株式会社 ジェスチャ認識装置、方法およびプログラム
KR20180086548A (ko) * 2017-01-22 2018-08-01 계명대학교 산학협력단 사용자 인터랙션을 위한 제스처 인식 방법 및 시스템
JP2018147392A (ja) * 2017-03-08 2018-09-20 日本電信電話株式会社 モデル学習装置、スコア計算装置、方法、データ構造、及びプログラム
KR20190050639A (ko) * 2017-11-03 2019-05-13 주식회사 케이티 컨볼루션 신경망에 기반한 제스처 분류장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102044914B1 (ko) 2018-01-02 2019-11-14 중앙대학교 산학협력단 영상 처리에 있어서의 객체 재인식을 위한 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005050285A (ja) * 2003-07-31 2005-02-24 Toyota Motor Corp 画像処理装置および画像処理方法
JP2017142736A (ja) * 2016-02-12 2017-08-17 日本電信電話株式会社 ジェスチャ認識装置、方法およびプログラム
KR20180086548A (ko) * 2017-01-22 2018-08-01 계명대학교 산학협력단 사용자 인터랙션을 위한 제스처 인식 방법 및 시스템
JP2018147392A (ja) * 2017-03-08 2018-09-20 日本電信電話株式会社 モデル学習装置、スコア計算装置、方法、データ構造、及びプログラム
KR20190050639A (ko) * 2017-11-03 2019-05-13 주식회사 케이티 컨볼루션 신경망에 기반한 제스처 분류장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269070A (zh) * 2021-05-18 2021-08-17 重庆邮电大学 融合全局和局部特征的行人重识别方法、存储器及处理器

Also Published As

Publication number Publication date
US20220165048A1 (en) 2022-05-26
KR102225613B1 (ko) 2021-03-08

Similar Documents

Publication Publication Date Title
WO2021040287A1 (ko) 사람 재식별 장치 및 방법
WO2020022704A1 (en) Method for training and testing obfuscation network capable of processing data to be concealed for privacy, and training device and testing device using the same
WO2011096651A2 (ko) 얼굴 식별 방법 및 그 장치
US10839228B2 (en) Method and system for tracking an object in a defined area
WO2020040391A1 (ko) 결합심층네트워크에 기반한 보행자 인식 및 속성 추출 시스템
WO2013048160A1 (ko) 얼굴 인식 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
WO2020196985A1 (ko) 비디오 행동 인식 및 행동 구간 탐지 장치 및 방법
WO2022086146A1 (en) Method for training and testing obfuscation network capable of obfuscating data for privacy, and training device and testing device using the same
WO2018151357A1 (ko) 향상된 다중채널 가버 필터 기반 휴먼 얼굴 인식 방법
WO2015141892A1 (ko) 사용자 인식 방법 및 장치
WO2022149894A1 (ko) 병리 검체에 대한 판단 결과를 제공하는 인공 뉴럴 네트워크의 학습 방법, 및 이를 수행하는 컴퓨팅 시스템
WO2021153861A1 (ko) 다중 객체 검출 방법 및 그 장치
WO2022086147A1 (en) Method for training and testing user learning network to be used for recognizing obfuscated data created by obfuscating original data to protect personal information and user learning device and testing device using the same
WO2022086145A1 (en) Method for training and testing obfuscation network capable of processing data to be obfuscated for privacy, and training device and testing device using the same
WO2021230457A1 (en) Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same
WO2010041836A2 (en) Method of detecting skin-colored area using variable skin color model
WO2016108327A1 (ko) 차량검출방법, 차량검출을 위한 데이터베이스의 구조, 및 차량검출을 위한 데이터베이스 구축방법
CN114998934B (zh) 基于多模态智能感知和融合的换衣行人重识别和检索方法
WO2023027340A1 (en) Method for training and testing obfuscation network capable of obfuscating data to protect personal information, and learning device and testing device using the same
WO2021118072A1 (ko) 음성 및 영상 정보를 활용한 의미있는 구간을 검출하기 위한 방법 및 이를 위한 장치
WO2014133251A1 (ko) 엘에스에이치 알고리즘의 자료조회결과의 특징점을 이용한 매칭포인트 추출시스템 및 그 방법
WO2021215710A1 (en) Method for preventing breach of original data for deep learning and data breach preventing device using them
WO2022146050A1 (ko) 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템
CN112417986B (zh) 一种基于深度神经网络模型的半监督在线人脸识别方法及系统
WO2020204610A1 (ko) 딥러닝 기반 컬러링 방법, 시스템 및 프로그램

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20858789

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20858789

Country of ref document: EP

Kind code of ref document: A1