KR20220098310A - 관련 대상 검출 방법 및 장치 - Google Patents
관련 대상 검출 방법 및 장치 Download PDFInfo
- Publication number
- KR20220098310A KR20220098310A KR1020217019168A KR20217019168A KR20220098310A KR 20220098310 A KR20220098310 A KR 20220098310A KR 1020217019168 A KR1020217019168 A KR 1020217019168A KR 20217019168 A KR20217019168 A KR 20217019168A KR 20220098310 A KR20220098310 A KR 20220098310A
- Authority
- KR
- South Korea
- Prior art keywords
- target
- matching
- detection
- group
- matching target
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 263
- 230000000007 visual effect Effects 0.000 claims abstract description 90
- 238000000034 method Methods 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims description 40
- 230000004927 fusion Effects 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 238000007499 fusion processing Methods 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 230000036544 posture Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F3/00—Board games; Raffle games
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
- G06T7/0014—Biomedical image inspection using an image reference approach
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07F—COIN-FREED OR LIKE APPARATUS
- G07F17/00—Coin-freed apparatus for hiring articles; Coin-freed facilities or services
- G07F17/32—Coin-freed apparatus for hiring articles; Coin-freed facilities or services for games, toys, sports, or amusements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Biodiversity & Conservation Biology (AREA)
- Physiology (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 관련 대상 검출 방법 및 장치를 제공한다. 검출 방법은 검출 대기 이미지 내에서 적어도 두 개의 목표 대상을 포함하는 매칭 대상 그룹을 적어도 하나 검출하여 얻는 것; 각 상기 매칭 대상 그룹 중의 각 상기 목표 대상의 시각 정보 및 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 공간 정보를 취득하는 것; 및 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 시각 정보 및 상기 공간 정보에 기반하여, 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하는 것을 포함한다. 본 발명의 검출 방법은 관련 대상의 검출 정밀도를 향상시킨다.
Description
[관련 출원들의 상호 참조 인용]
본 발명은 출원일이 2020년 12월 29일이고, 출원 번호가 10202013169Q이며, 발명의 명칭이 "관련 대상 검출 방법 및 장치"인 싱가포르 특허 출원의 우선권을 주장하는바, 당해 싱가포르 특허 출원의 모든 내용이 참조로서 본원에 통합된다.
[기술분야]
본 발명은 컴퓨터 시각 기술의 분야에 관한 것인바, 구체적으로는 관련 대상 검출 방법 및 장치에 관한 것이다.
목표 검출은 지능형 비디오 분석의 중요한 부분으로서, 예를 들면 비디오 프레임 또는 장면 이미지 내의 인체나 사람 얼굴을 검출한다. 관련 기술에서는 Faster RCNN(Region-CNN, 영역 컨볼루션 뉴럴 네트워크) 등의 목표 검출기를 사용하여 비디오 프레임 또는 장면 이미지 내의 목표 검출 프레임을 취득하며, 또한 목표 검출을 실현할 수 있다.
그러나, 밀집한 장면에서는 서로 다른 목표 사이가 서로 차폐될 가능성이 있다. 사람들이 비교적 밀집해 있는 장면을 예로 들면, 서로 다른 사람들 사이에 몸의 부위가 차폐될 가능성이 있기에, 이러한 경우에 목표 검출기는 정밀도가 높은 장면의 검출 요건을 충족시킬 수 없다.
본 발명의 실시 형태는 관련 대상 검출 방법, 장치, 전자 디바이스 및 기록 매체를 제공한다.
제1 양태에 따르면, 본 발명의 실시 형태는 관련 대상 검출 방법을 제공하는바, 상기 방법은 검출 대기 이미지 내에서 적어도 두 개의 목표 대상을 포함하는 매칭 대상 그룹을 적어도 하나 검출하여 얻는 것; 각 상기 매칭 대상 그룹 중의 각 상기 목표 대상의 시각 정보 및 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 공간 정보를 취득하는 것; 및 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 시각 정보 및 상기 공간 정보에 기반하여, 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하는 것을 포함한다.
몇몇의 실시 형태에 있어서, 검출 대기 이미지 내에서 매칭 대상 그룹을 적어도 하나 검출하여 얻는 것은, 상기 검출 대기 이미지 내에서 각 상기 목표 대상 및 각 상기 목표 대상의 대상 타입을 검출하여 얻는 것; 및 상기 각 대상 타입에 대해, 상기 대상 타입 중의 각 목표 대상을 각각 기타 상기 대상 타입 중의 각 상기 목표 대상과 결합시켜 상기 매칭 대상 그룹을 적어도 하나 얻는 것을 포함한다.
몇몇의 실시 형태에 있어서, 각 상기 매칭 대상 그룹 중의 각 상기 목표 대상의 시각 정보를 취득하는 것은, 상기 매칭 대상 그룹 중의 각 목표 대상에 대해 시각 특징 추출을 실행하여 상기 목표 대상의 시각 정보를 얻는 것을 포함한다.
몇몇의 실시 형태에 있어서, 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 공간 정보를 취득하는 것은, 상기 검출 대기 이미지 내에서 각 상기 목표 대상의 검출 프레임을 검출하여 얻는 것; 및 각 상기 매칭 대상 그룹에 대해, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 검출 프레임의 위치 정보에 기반하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 공간 정보를 생성하는 것을 포함한다.
몇몇의 실시 형태에 있어서, 각 상기 매칭 대상 그룹에 대해, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 검출 프레임의 위치 정보에 기반하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 공간 정보를 생성하는 것은, 상기 매칭 대상 그룹 중의 각 목표 대상의 검출 프레임을 커버하는 상기 매칭 대상 그룹의 보조 바운딩 프레임을 생성하는 것; 상기 보조 바운딩 프레임 및 각 목표 대상의 검출 프레임에 기반하여, 상기 매칭 대상 그룹 중의 각 목표 대상의 위치 특징 정보를 각각 확정하는 것; 및 같은 매칭 대상 그룹 중의 각 목표 대상의 상기 위치 특징 정보를 융합하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 공간 정보를 얻는 것을 포함한다.
몇몇의 실시 형태에 있어서, 상기 보조 바운딩 프레임은 상기 매칭 대상 그룹 중의 각 목표 대상을 커버하는 바운딩 프레임 중의 최소 면적을 가지는 바운딩 프레임이다.
몇몇의 실시 형태에 있어서, 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 시각 정보 및 상기 공간 정보에 기반하여, 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하는 것은, 각 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 시각 정보 및 상기 공간 정보에 대해 융합 처리를 실행하여, 각 매칭 대상 그룹의 융합 특징을 얻는 것; 및 각 매칭 대상 그룹의 융합 특징에 대해 관련성 분류 처리를 실행하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하는 것을 포함한다.
몇몇의 실시 형태에 있어서, 각 매칭 대상 그룹의 융합 특징에 대해 관련성 분류 처리를 실행하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하는 것은, 각 매칭 대상 그룹의 융합 특징에 대해 관련성 분류 처리를 실행하여, 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상들 사이의 관련도 스코어를 얻는 것; 같은 목표 대상이 속해 있는 복수의 매칭 대상 그룹에 대해, 상기 관련도 스코어가 가장 높은 매칭 대상 그룹을 목표 매칭 대상 그룹으로 확정하는 것; 및 상기 목표 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상을 관련 목표 대상으로 확정하는 것을 포함한다.
몇몇의 실시 형태에 있어서, 상기 목표 대상이 인체 부위일 경우, 상기 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하는 것은, 같은 매칭 대상 그룹 중의 각 인체 부위가 하나의 인체에 속하는지 여부를 확정하는 것을 포함한다.
몇몇의 실시 형태에 있어서, 상기 방법은 샘플 이미지 세트를 취득하는 것 - 상기 샘플 이미지 세트는 적어도 하나의 샘플 이미지를 포함하고, 각 상기 샘플 이미지는 적어도 하나의 샘플 매칭 대상 그룹 및 상기 샘플 매칭 대상 그룹에 대응하는 라벨 정보를 포함하며, 각 상기 샘플 매칭 대상 그룹은 적어도 두 개의 샘플 목표 대상을 포함하고, 상기 라벨 정보는 상기 샘플 매칭 대상 그룹 중의 각 샘플 목표 대상의 관련 결과를 나타냄 -; 트레이닝 대기의 관련 검출 네트워크를 이용하여 상기 샘플 이미지에 대해 처리를 실행하고, 상기 샘플 이미지 내에서 상기 샘플 매칭 대상 그룹을 검출하여 얻는 것; 트레이닝 대기의 대상 검출 네트워크를 이용하여 상기 샘플 이미지에 대해 처리를 실행하여, 각 상기 샘플 매칭 대상 그룹 중의 각 상기 샘플 목표 대상의 시각 정보를 얻고, 트레이닝 대기의 상기 관련 검출 네트워크를 이용하여 상기 샘플 이미지에 대해 처리를 실행하여, 각 상기 샘플 매칭 대상 그룹 중의 상기 적어도 두 개의 샘플 목표 대상의 공간 정보를 얻는 것; 트레이닝 대기의 상기 관련 검출 네트워크를 이용하여 각 상기 샘플 매칭 대상 그룹 중의 상기 적어도 두 개의 샘플 목표 대상의 상기 시각 정보 및 상기 공간 정보에 기반하여, 각 상기 샘플 매칭 대상 그룹의 관련성 검출 결과를 얻는 것; 및 각 상기 샘플 매칭 대상 그룹의 상기 관련성 검출 결과와 대응하는 라벨 정보 사이의 오차를 확정하고, 상기 오차가 수렴될 때까지, 상기 오차에 기반하여 상기 관련 검출 네트워크 및 상기 대상 검출 네트워크 중의 적어도 하나의 네트워크 파라미터를 조정하는 것을 더 포함한다.
제2 양태에 따르면, 본 발명의 실시 형태는 관련 대상 검출 장치를 제공하는바, 당해 장치는 검출 대기 이미지 내에서 적어도 두 개의 목표 대상을 포함하는 매칭 대상 그룹을 적어도 하나 검출하여 얻기 위한 검출 모듈; 각 상기 매칭 대상 그룹 중의 각 상기 목표 대상의 시각 정보 및 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 공간 정보를 취득하기 위한 취득 모듈; 및 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 시각 정보 및 상기 공간 정보에 기반하여, 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하기 위한 확정 모듈을 구비한다.
몇몇의 실시 형태에 있어서, 상기 검출 모듈은, 상기 검출 대기 이미지 내에서 각 상기 목표 대상 및 각 상기 목표 대상의 대상 타입을 검출하여 얻기 위한 검출 서브 모듈; 및 상기 각 대상 타입에 대해, 상기 대상 타입 중의 각 목표 대상을 각각 기타 상기 대상 타입 중의 각 상기 목표 대상과 결합시켜 상기 매칭 대상 그룹을 적어도 하나 얻기 위한 조합 서브 모듈을 구비한다.
몇몇의 실시 형태에 있어서, 상기 취득 모듈은 또한, 상기 매칭 대상 그룹 중의 각 목표 대상에 대해 시각 특징 추출을 실행하여 상기 목표 대상의 시각 정보를 얻는다.
몇몇의 실시 형태에 있어서, 상기 취득 모듈은 또한, 상기 검출 대기 이미지 내에서 각 상기 목표 대상의 검출 프레임을 검출하여 얻고, 각 상기 매칭 대상 그룹에 대해, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 검출 프레임의 위치 정보에 기반하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 공간 정보를 생성한다.
몇몇의 실시 형태에 있어서, 상기 취득 모듈은 또한, 상기 매칭 대상 그룹 중의 각 목표 대상의 검출 프레임을 커버하는 상기 매칭 대상 그룹의 보조 바운딩 프레임을 생성하고, 상기 보조 바운딩 프레임 및 각 목표 대상의 검출 프레임에 기반하여, 상기 매칭 대상 그룹 중의 각 목표 대상의 위치 특징 정보를 각각 확정하며, 같은 매칭 대상 그룹 중의 각 목표 대상의 상기 위치 특징 정보를 융합하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 공간 정보를 얻는다.
몇몇의 실시 형태에 있어서, 상기 보조 바운딩 프레임은 상기 매칭 대상 그룹 중의 각 목표 대상을 커버하는 바운딩 프레임 중의 최소 면적을 가지는 바운딩 프레임이다.
몇몇의 실시 형태에 있어서, 상기 확정 모듈은 각 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 시각 정보 및 상기 공간 정보에 대해 융합 처리를 실행하여, 각 매칭 대상 그룹의 융합 특징을 얻기 위한 융합 서브 모듈; 및 각 매칭 대상 그룹의 융합 특징에 대해 관련성 분류 처리를 실행하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하기 위한 확정 서브 모듈을 구비한다.
몇몇의 실시 형태에 있어서, 상기 확정 서브 모듈은 또한, 각 매칭 대상 그룹의 융합 특징에 대해 관련성 분류 처리를 실행하여, 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상들 사이의 관련도 스코어를 얻고, 같은 목표 대상이 속해 있는 복수의 매칭 대상 그룹에 대해, 상기 관련도 스코어가 가장 높은 매칭 대상 그룹을 목표 매칭 대상 그룹으로 확정하며, 상기 목표 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상을 관련 목표 대상으로 확정한다.
몇몇의 실시 형태에 있어서, 상기 목표 대상이 인체 부위일 경우, 상기 확정 모듈은 또한, 같은 상기 매칭 대상 그룹 중의 각 인체 부위가 하나의 인체에 속하는지 여부를 확정한다.
제3 양태에 따르면, 본 발명의 실시 형태는 전자 디바이스를 제공하는바, 당해 전자 디바이스는 프로세서; 및 상기 프로세서와 통신 가능하게 접속되고, 상기 프로세서에 의해 액세스 가능한 컴퓨터 명령이 기억되어 있는 메모리를 구비하며, 상기 컴퓨터 명령이 상기 프로세서에 의해 액세스될 때에, 상기 프로세서가 제1 양태의 임의의 실시 형태에 기재된 방법을 실행하도록 한다.
제4 양태에 따르면, 본 발명의 실시 형태는 컴퓨터 판독 가능 명령이 기억되어 있는 기록 매체를 제공하는바, 상기 컴퓨터 판독 가능 명령은 컴퓨터가 제1 양태의 임의의 실시 형태에 기재된 방법을 실행하도록 한다.
제5 양태에 따르면, 본 발명의 실시 형태는 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램을 제공하는바, 상기 컴퓨터 판독 가능 코드가 전자 디바이스에 의해 실행될 때에, 상기 전자 디바이스의 프로세서가 제1 양태의 임의의 실시 형태에 기재된 방법을 실행하도록 한다.
본 발명의 실시 형태의 관련 대상 검출 방법에 따르면, 검출 대기 이미지 내에서 적어도 두 개의 목표 대상을 포함하는 매칭 대상 그룹을 적어도 하나 검출하여 얻고, 각 매칭 대상 그룹의 각 목표 대상의 시각 정보 및 각 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 공간 정보를 취득함으로써, 시각 정보 및 공간 정보에 기반하여 각 매칭 대상 그룹 중의 각 목표 대상들 사이가 관련 목표 대상인지 여부를 확정한다. 같은 매칭 대상 그룹 중의 목표 대상들 사이의 관련 특징을 이용하여 목표 검출을 보조함으로써, 복잡한 장면에서의 목표 검출 정밀도를 향상시킬 수 있는바, 예를 들면 사람 얼굴과 인체의 관련 검출에 의해 복수의 사람 장면에서의 인체 검출을 실현하고, 검출의 정확성을 향상시킨다. 또한, 관련 검출에 있어서, 목표 대상의 시각 정보와 공간 정보를 결합시켜 목표 대상의 관련 검출 정밀도를 향상시키는바, 예를 들면 사람 얼굴과 인체의 관련 검출에서, 사람 얼굴 및 인체의 시각 특징 정보를 채용할 뿐만 아니라, 또한 사람 얼굴과 인체의 공간적 위치 특징 정보도 고려하여, 공간적 위치 특징을 이용하여 사람 얼굴과 인체의 관련을 보조하고, 사람 얼굴과 인체의 관련 정확성을 향상시키며, 또한 목표 검출의 정밀도를 향상시킨다.
이하, 본 발명이 구체적인 실시 형태의 기술적 해결책을 더 명확히 설명하기 위하여, 구체적인 실시 형태의 설명에 사용할 필요가 있는 도면을 간단히 소개한다. 분명히, 이하의 설명에 있어서의 도면은 본 발명의 몇몇의 실시 형태에 있어서, 당업자는 발명적인 노력을 가하지 않고 이러한 도면에 기반하여 기타 도면을 얻을 수 있다.
도 1은 본 발명의 몇몇의 실시 형태에 관한 관련 대상 검출 방법의 플로우 차트이다.
도 2는 본 발명의 몇몇의 실시 형태에 관한 매칭 대상 그룹을 검출하는 방법의 플로우 차트이다.
도 3은 본 발명의 몇몇의 실시 형태에 관한 시각 정보 추출 방법의 플로우 차트이다.
도 4는 본 발명의 몇몇의 실시 형태에 관한 검출 네트워크의 구성을 나타내는 모식도이다.
도 5는 본 발명의 몇몇의 실시 형태에 관한 관련 대상 검출 방법의 원리 모식도이다.
도 6은 본 발명의 몇몇의 실시 형태에 관한 관련 검출 네트워크의 모식도이다.
도 7은 본 발명의 몇몇의 실시 형태에 관한 매칭 대상 그룹 중의 목표 대상이 관련되어 있는지 여부를 확정하는 방법의 플로우 차트이다.
도 8은 본 발명의 몇몇의 실시 형태에 관한 관련 대상의 검출 결과의 시각적 출력의 모식도이다.
도 9는 본 발명의 몇몇의 실시 형태에 관한 검출 관련 대상의 뉴럴 네트워크 트레이닝 플로우 모식도이다.
도 10은 본 발명의 몇몇의 실시 형태에 관한 관련 대상 검출 장치의 구성 블록도이다.
도 11은 본 발명의 몇몇의 실시 형태에 관한 관련 대상 검출 장치의 검출 모듈의 구성 블록도이다.
도 12는 본 발명의 몇몇의 실시 형태에 관한 관련 대상 검출 장치의 확정 모듈의 구성 블록도이다.
도 13은 본 발명의 관련 대상 검출 방법의 구현에 적합한 컴퓨터 시스템의 구성도이다.
도 1은 본 발명의 몇몇의 실시 형태에 관한 관련 대상 검출 방법의 플로우 차트이다.
도 2는 본 발명의 몇몇의 실시 형태에 관한 매칭 대상 그룹을 검출하는 방법의 플로우 차트이다.
도 3은 본 발명의 몇몇의 실시 형태에 관한 시각 정보 추출 방법의 플로우 차트이다.
도 4는 본 발명의 몇몇의 실시 형태에 관한 검출 네트워크의 구성을 나타내는 모식도이다.
도 5는 본 발명의 몇몇의 실시 형태에 관한 관련 대상 검출 방법의 원리 모식도이다.
도 6은 본 발명의 몇몇의 실시 형태에 관한 관련 검출 네트워크의 모식도이다.
도 7은 본 발명의 몇몇의 실시 형태에 관한 매칭 대상 그룹 중의 목표 대상이 관련되어 있는지 여부를 확정하는 방법의 플로우 차트이다.
도 8은 본 발명의 몇몇의 실시 형태에 관한 관련 대상의 검출 결과의 시각적 출력의 모식도이다.
도 9는 본 발명의 몇몇의 실시 형태에 관한 검출 관련 대상의 뉴럴 네트워크 트레이닝 플로우 모식도이다.
도 10은 본 발명의 몇몇의 실시 형태에 관한 관련 대상 검출 장치의 구성 블록도이다.
도 11은 본 발명의 몇몇의 실시 형태에 관한 관련 대상 검출 장치의 검출 모듈의 구성 블록도이다.
도 12는 본 발명의 몇몇의 실시 형태에 관한 관련 대상 검출 장치의 확정 모듈의 구성 블록도이다.
도 13은 본 발명의 관련 대상 검출 방법의 구현에 적합한 컴퓨터 시스템의 구성도이다.
이하, 도면을 참조하여 본 발명의 기술적 해결책을 명확하고 완전히 설명한다. 분명히, 설명되는 실시 형태는 모든 실시 형태가 아니라, 본 발명의 일부 실시 형태에 지나지 않는다. 본 발명의 실시 형태에 기반하여, 당업자가 발명적인 노력을 가하지 않고 얻은 기타의 모든 실시 형태는 본 공개의 보호 범위 내에 포함될 것이다. 한편, 이하에 설명되는 본 발명의 다른 실시 형태에 언급되는 기술적 특징은 서로 모순되지 않는 한, 서로 조합시킬 수 있다.
관련 대상의 검출은 지능형 비디오 분석에 있어서 중요한 연구 의의를 가지고 있다. 인체 검출을 예로 들면, 사람이 상대적으로 많은 복잡한 장면에서, 사람들 사이가 서로 차폐되기에, 단일 인체에 대한 검출 방법을 채용하면, 그 오검출률이 상대적으로 높고, 요건을 충족시키는 것이 어렵다. 관련 대상의 검출은 "사람 얼굴-인체 관련"을 이용하여 매칭 대상 그룹을 확정하고, 같은 매칭 대상 그룹에 포함된 사람 얼굴 및 인체가 한 사람에게 속하는지 여부를 확정함으로써, 목표 대상(즉, 사람 얼굴 및 인체)의 검출을 실현하여, 복잡한 장면에서의 목표 검출 정밀도를 향상시킬 수 있다.
목표 대상의 검출은 Faster RCNN(Region-CNN, 영역 컨볼루션 뉴럴 네트워크)등의 목표 검출기를 채용하여 비디오 프레임 또는 장면 이미지 내의 사람 얼굴 및 인체의 검출 프레임을 취득할 수 있으며, 또한 사람 얼굴 및 인체의 시각 특징에 기반하여 분류기를 트레이닝하여, 분류기를 사용하여 예측 관련 결과를 얻을 수 있다. 유사한 방법에서는 관련 검출 정밀도에 한계가 있는바, 예를 들면 멀티 플레이어 게임 장면 등의 높은 정밀도의 검출 장면의 경우, 장면 내의 인물이 부분적으로 차폐되는 경우가 많을 뿐만 아니라, 사용자의 사람 얼굴, 인체, 손, 또한 게임 도구가 관련되어 있는지 여부를 확정할 필요가 있으며, 이렇게 하여 어느 사용자가 관련 동작을 채용했는지를 인식하는바, 일단 관련에 실패되면 큰 손실을 발생시킬 수 있다. 따라서, 관련 기술 중의 관련 검출 정밀도는 정밀도가 높은 장면의 사용 요구를 충족시키기 어렵다.
본 발명의 실시 형태는 관련 대상 검출 방법, 장치, 전자 디바이스 및 기록 매체를 제공하는바, 관련 대상의 검출 정밀도를 향상시킨다.
제1 양태에 따르면, 본 발명의 실시 형태는 관련 대상 검출 방법을 제공한다. 본 발명의 실시 형태의 검출 방법의 실행 주체는 단말 디바이스, 서버, 또는 기타 처리 디바이스일 수 있는바, 예를 들면 단말 디바이스는 사용자 디바이스, 모바일 디바이스, 사용자 단말, 휴대전화, 차량용 디바이스, 개인 디지털 보조, 핸드 헬드 디바이스, 컴퓨팅 디바이스, 웨어러블 디바이스 등일 수 있다. 몇몇의 실시 형태에 있어서, 당해 검출 방법은 또한 프로세서에 의해 메모리에 저장된 컴퓨터 판독 가능 명령을 호출하는 방법을 통해 구현될 수 있는바, 본 발명은 이에 대해 한정하지 않는다.
도 1은 본 발명의 몇몇의 실시 형태에 관한 관련 대상 검출 방법을 나타내며, 이하 도 1을 참조하여 본 발명의 방법을 설명한다.
도 1에 나타낸 바와 같이, 몇몇의 실시 형태에 있어서, 본 발명의 관련 대상 검출 방법은 이하의 단계를 포함한다.
S110에 있어서, 검출 대기 이미지 내에서 적어도 두 개의 목표 대상을 포함하는 매칭 대상 그룹을 적어도 하나 검출하여 얻는다.
구체적으로 말하면, 검출 대기 이미지는 하나의 자연적의 장면 이미지일 수 있으며, 당해 이미지로부터 소정의 관련 목표 대상을 검출하려 한다. 본 발명에 기재된 "관련 목표 대상"은, 우리들이 주목하고 있는 장면에 있어서, 관련성을 가지는 두 개 또는 더 많은 목표 대상을 나타냄을 이해해야 한다. 예를 들면, 인체 검출에서의 사람 얼굴과 인체의 관련의 예를 들면, 검출 대기 이미지 내에는 복수의 사람 얼굴 및 복수의 인체가 포함되어 있으며, 한 사람에 속하는 "사람 얼굴" 및 "인체"를 관련 목표 대상이라고 부를 수 있다. 또한 예를 들면, 복수 사람의 승마의 엔터테인먼트 장면에 있어서, 검출 대기 이미지 내에는 복수의 인체 및 복수의 말이 포함되어 있으며, 타는 관계를 가지는 "인체"와 "말"을 관련 목표 대상이라고 부를 수 있다. 당업자는 이에 대해 이해할 수 있으며, 본 발명은 반복적으로 설명하지 않는다.
검출 대기 이미지는 예를 들면 카메라 등 이미지 수집 디바이스를 이용하여 수집하여 얻을 수 있다. 구체적으로 말하면, 검출 대기 이미지는 이미지 수집 디바이스에 의해 촬영된 단일 프레임의 이미지일 수 있고, 또한 이미지 수집 디바이스에 의해 촬영된 비디오 스트림 중의 프레임의 이미지를 포함할 수 있는바, 본 발명은 이에 대해 한정하지 않는다.
본 발명의 실시 형태에 있어서, 검출 대기 이미지 내에서 적어도 두 개의 목표 대상을 포함하는 매칭 대상 그룹을 적어도 하나 검출하여 얻을 수 있다. 상기 매칭 대상 그룹이란, 관련되어 있는지 여부를 확인할 필요가 있는 적어도 두 개의 목표 대상으로 구성된 세트를 가리킨다.
도 2에 나타낸 바와 같이, 몇몇의 실시 형태에 있어서, 검출 대기 이미지 내에서 매칭 대상 그룹을 적어도 하나 검출하여 얻는 것은 이하의 단계를 포함할 수 있다.
S111에 있어서, 검출 대기 이미지 내에서 각 목표 대상 및 각 목표 대상의 대상 타입을 검출하여 얻는다.
S112에 있어서, 상기 각 대상 타입에 대해, 상기 대상 타입 중의 각 목표 대상을 각각 다른 대상 타입 중의 각 목표 대상과 결합시켜 적어도 같은 매칭 대상 그룹을 얻는다.
일 예에 있어서, "사람 얼굴-인체"의 관련 검출의 예를 들면, 검출 대기 이미지 내에서 복수의 목표 대상 및 각 목표 대상의 대상 타입을 검출하여 얻는다. 대상 타입은 "사람 얼굴 타입" 및 "인체 타입"이며, "사람 얼굴 타입"의 목표 대상은 m개의 사람 얼굴을 포함하고, "인체 타입"의 목표 대상은 n개의 인체를 포함한다. m개의 사람 얼굴 중의 각각의 사람 얼굴에 대해, 각각 n개의 인체와 둘둘씩 결합시켜 합계 m*n개의 사람 얼굴 인체 쌍을 얻는다. 여기서, "사람 얼굴" 및 "인체"가 검출하여 얻은 목표 대상이며, 사람 얼굴 및 인체를 두 개씩 조합시켜 얻은 m*n개의 "사람 얼굴 인체 쌍"이 상기 매칭 대상 그룹이며, 여기서 m 및 n은 양의 정수이다.
또 일 예에 있어서, 멀티 플레이어 게임 장면에 있어서, 각각의 사람에는 승마의 엔터테인먼트 장면 중의 말, 탁상 게임 장면 중의 게임 도구 등의 관련 물체가 더 관련되며, 본 발명의 방법은 "인체-물체"의 관련 검출에도 마찬가지로 적용된다. 승마의 엔터테인먼트 장면의 예를 들면, 검출 대기 이미지 내에서 복수의 목표 대상 및 각 목표 대상의 대상 타입을 검출하여 얻고, 대상 타입은 "인체 타입" 및 "물체 타입"이며, "인체 타입"의 목표 대상은 p개의 인체를 포함하고, "물체 타입"의 목표 대상은 q개의 말을 포함한다. p개의 인체 중의 각각의 인체에 대해, 각각 q개의 말과 둘둘씩 결합시켜 합계 p*q개의 인체 물체 쌍을 얻는다. 여기서, "인체" 및 "물체"가 검출하여 얻는 상기 목표 대상이며, 인체 및 말을 두 개씩 조합시켜 얻은 p*q개의 "인체 물체 쌍"이 상기 매칭 대상 그룹이고, 여기서 p 및 q는 양의 정수이다.
또 다른 일 예에 있어서, "사람 손-사람 얼굴-인체"의 관련 검출의 예를 들면, 검출 대기 이미지 내에서 복수의 목표 대상 및 각 목표 대상의 대상 타입을 검출하여 얻으며, 대상 타입은 "사람 손 타입", "사람 얼굴 타입" 및 "인체 타입"이며, 여기서 각 대상 타입은 모두 당해 타입에 속하는 적어도 하나의 목표 대상을 포함한다. 각 대상 타입 중의 각 목표 대상을 각각 다른 두 개의 대상 타입 중의 목표 대상과 셋셋씩 결합시키는바, 즉 하나의 사람 손, 하나의 사람 얼굴 및 하나의 인체를 셋셋씩 조합시켜 얻은 복수의 "사람 손-사람 얼굴-인체 그룹"이 상기 매칭 대상 그룹이다. 예를 들어 말하면, 사람 손 타입의 목표 대상은 k개의 사람 손을 포함하고, 사람 얼굴 타입의 목표 대상은 m개의 사람 얼굴을 포함하며, 인체 타입의 목표 대상은 n개의 인체를 포함한다. k개의 사람 손 중의 각각의 사람 손에 대해, 각각 m개의 사람 얼굴 및 n개의 인체와 셋셋씩 결합시켜 합계 k*m*n개의 사람 손-사람 얼굴-인체 그룹을 얻으며, 여기서 k, m 및 n은 양의 정수다.
상기의 예로부터 이해할 수 있듯이, 본 발명의 실시 형태에 있어서 매칭 대상 그룹 중의 목표 대상의 수를 한정할 필요가 없으며, 목표 대상의 타입을 한정할 필요도 없다. 매칭 대상 그룹에는 적어도 두 개의 목표 대상이 포함될 수 있는바, 예를 들면 2개, 3개, 4개, 또는 더 많은 목표 대상이 포함될 수 있다. 목표 대상은 인체 또는 각 인체 부위일 수 있고, 또한 인체와 관련되는 물체일 수도 있으며, 장면에서의 인체와 관련이 없는 실체일 수도 있는바, 본 발명은 이에 대해 한정하지 않는다.
일 예에 있어서, 관련 검출 네트워크를 이용하여 검출 대기 이미지에 대해 처리를 실행하여, 검출 대기 이미지 내에서 적어도 같은 매칭 대상 그룹을 얻는다. 세부 사항에 대해서는 후술하는바, 여기에서는 일단 생략한다.
S120에 있어서, 각 매칭 대상 그룹 중의 각 목표 대상의 시각 정보 및 각 매칭 대상 그룹 중의 적어도 두 개의 목표 대상의 공간 정보를 취득한다.
구체적으로 말하면, 시각 정보란, 이미지 내의 각 목표 대상의 시각적 특징 정보를 의미하며, 일반적으로는 이미지의 픽셀값에 기반하여 얻어진 이미지 특징이다. 예를 들면, 검출 대기 이미지에 대해 시각 특징 추출을 실행하여, 이미지 내의 사람 얼굴, 사람 손, 인체 또는 물체의 이미지 특징 정보를 얻는다. 공간 정보는 매칭 대상 그룹 중의 목표 대상의 공간적 위치에서의 특징 정보 및/또는 매칭 대상 그룹 중의 목표 대상의 자세 정보를 포함할 수 있다. 또는 공간 정보는 매칭 대상 그룹 중의 각 목표 대상들 사이의 공간적 위치 관계 정보 또는 상대적 자세 정보를 포함할 수 있는바, 예를 들면 이미지 내의 사람 얼굴과 인체, 사람 얼굴과 사람 손, 인체와 물체 등의 공간 상대적 위치 특징 정보 및/또는 상대적 대상 정보 등을 포함할 수 있다.
일 예에 있어서, 검출 대기 이미지 내의 각 목표 대상이 위치하고 있는 영역에 대해 시각 특징 추출을 실행하는바, 예를 들면 특징점을 추출하고, 특징점의 픽셀값을 목표 대상의 시각 특징으로 변환한다. 각 목표 대상의 경계 이미지 내의 위치에 기반하여 목표 대상의 위치 특징 정보를 생성하고, 목표 대상의 표준 자세 모델에 따라 각 목표 대상의 자세를 분석하며, 목표 대상의 자세 정보를 얻음으로써, 목표 대상의 공간 정보를 얻을 수 있다. 옵션으로서, 매칭 대상 그룹 중의 각 목표 대상들 사이의 상대적 위치 및/또는 상대적 자세에 대해 분석을 실행하여 얻어진 공간 정보는 각 목표 대상과 기타 목표 대상 사이의 상대적 위치 정보 및/또는 상대적 자세 정보를 더 포함할 수 있다.
일 예에 있어서, 검출 대기 이미지를 처리하는 과정에서, 대상 검출 네트워크를 이용하여 먼저 검출 대기 이미지에 대해 시각 특징 추출을 실행하여 특징 맵을 얻고, 또한 특징 맵에 기반하여 각 목표 대상의 시각 정보를 추출하여 얻을 수 있다.
일 예에 있어서, 검출 대기 이미지를 처리하는 과정에서, 관련 검출 네트워크를 이용하여 검출 대기 이미지에 대해 처리를 실행하여, 각 매칭 대상 그룹 중의 적어도 두 개의 목표 대상의 공간 정보를 얻을 수 있다.
상기의 예 중의 네트워크 구성 및 구현 원리는 후속으로 상세하게 설명하는바, 여기에서는 일단 상술하지 않는다.
S130에 있어서, 각 매칭 대상 그룹 중의 적어도 두 개의 목표 대상의 시각 정보 및 공간 정보에 기반하여, 각 매칭 대상 그룹 중의 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정한다.
특정의 같은 매칭 대상 그룹의 경우, 예를 들면 사람 얼굴 인체 매칭 대상 그룹의 경우, 당해 매칭 대상 그룹 중의 인체와 사람 얼굴에 관련이 존재하는지 여부를 확정하는 것을 목적으로 하는바, 즉 인체와 사람 얼굴이 같은 사람에게 속하는지를 확정한다. 매칭 대상 그룹 중의 적어도 두 개의 목표 대상의 시각 정보 및 공간 정보를 얻은 후, 시각 정보와 공간 정보를 결합시켜 당해 매칭 대상 그룹 중의 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정한다.
본 발명의 방법 적어도 하나의 발명 개념은 시각 정보에 기반하여 매칭 대상 그룹 중의 목표 대상의 공간 정보를 결합시켜 목표 대상의 관련성을 확정하는 것임을 설명할 필요가 있다. 사람 얼굴과 인체의 관련 검출의 예를 들면, 사람 얼굴의 인체에 있어서의 위치 분포가 고정되어 있기 때문에, 인체와 사람 얼굴의 시각 정보를 고려하여, 사람 얼굴과 인체의 공간적 위치 정보를 결합시켜 관련 처리를 보조함으로써, 복수의 사람 복잡한 장면에서의 차폐 문제에 대처할 경우, 더 좋은 러버스트성을 가지며, 인체와 사람 얼굴의 관련 정밀도를 향상시킨다.
또한, 상기의 발명 개념에 기반하여, 본 발명의 방법 중의 관련 목표 대상은 공간적 위치에 있어서 관련성을 가지는 대상을 나타내며, 따라서 검출 대기 이미지 내에서 신뢰성이 높은 공간 정보를 추출하여 얻을 수 있고, 매칭 대상 그룹 중의 목표 대상의 수량 및 타입에 대해 한정할 필요가 없으며, 당해 타입은 인체 부위, 동물, 도구 등의 기타 임의의 공간적 위치의 관련성을 가지는 대상일 수 있는바, 본 발명은 이에 대해 반복적으로 설명하지 않음을 이해해야 한다.
일 예에 있어서, 관련 검출 네트워크를 이용하여(예를 들면, 도 4 중의 "Pair Head") 각각의 매칭 대상 그룹 중의 적어도 두 개의 목표 대상의 시각 정보 및 공간 정보에 대해 융합 처리를 실행하여, 융합 특징에 기반하여 관련성 분류 처리를 실행함으로써, 특정 매칭 대상 그룹 중의 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정할 수 있다. 후속으로 상세하게 설명하는바, 여기에서는 일단 상세히 서술하지 않는다.
상기로부터 알 수 있듯이, 본 발명의 관련 대상 검출 방법에 따르면, 같은 매칭 대상 그룹 중의 목표 대상들 사이의 관련 특징을 이용하여 목표 검출을 보조하고, 복잡한 장면에서의 목표 검출 정밀도를 향상시키는바, 예를 들면 사람 얼굴과 인체의 관련 검출에 의해 복수의 사람 장면에서의 인체 검출을 실현하고, 검출의 정확성을 향상시킨다. 또한, 관련 검출에 있어서, 목표 대상의 시각 정보와 공간 정보를 결합시켜 목표 대상의 관련 검출 정밀도를 향상시키는바, 예를 들면 사람 얼굴과 인체의 관련 검출에서, 사람 얼굴 및 인체의 시각 특징 정보를 채용할 뿐만 아니라, 또한 사람 얼굴과 인체의 공간적 위치 특징 정보도 고려하여, 공간적 위치 특징을 이용하여 사람 얼굴과 인체의 관련을 보조하고, 사람 얼굴과 인체의 관련 정확성을 향상시키며, 또한 목표 검출의 정밀도를 향상시킨다.
몇몇의 실시 형태에 있어서, 매칭 대상 그룹 중의 각 목표 대상에 대해 시각 특징 추출을 실행하고, 목표 대상의 시각 정보를 얻을 수 있다.
구체적으로 말하면, 도 3은 목표 대상에 대해 시각 정보 추출을 실행하는 과정을 나타내며, 도 4는 본 발명의 방법의 검출 네트워크의 아키텍처를 나타내며, 이하, 도 3 및 도 4를 결합시켜 본 발명의 방법을 더 설명한다.
도 3에 나타낸 바와 같이, 몇몇의 실시 형태에 있어서, 상기 관련 대상 검출 방법은 이하의 단계를 포함한다.
S310에 있어서, 검출 대기 이미지에 대해 시각 특징 추출을 실행하여, 검출 대기 이미지의 특징 맵을 얻는다.
구체적으로 말하면, 도 4에 나타낸 바와 같이, 본 발명의 검출 네트워크는 대상 검출 네트워크(100)와 관련 검출 네트워크(200)를 포함하며, 대상 검출 네트워크(100)는 트레이닝을 거친 뉴럴 네트워크일 수 있고, 검출 대기 이미지 내의 목표 대상에 대해 시각 특징 추출을 실행하여 목표 대상의 시각 정보를 얻기 위하여 사용된다.
본 실시 형태에 있어서, 대상 검출 네트워크(100)는 백본 네트워크(backbone)와 FPN(Feature Pyramid Networks, 특징 피라미드 네트워크)을 포함할 수 있다. 검출 대기 이미지가 백본 네트워크 및 FPN에 의해 순서대로 처리되어 검출 대기 이미지의 특징 맵(feature)을 얻을 수 있다.
일 예에 있어서, 백본 네트워크는 VGGNet, ResNet등을 사용할 수 있다. FPN은 백본 네트워크에서 얻어진 특징 맵에 기반하여, 복수 층의 피라미드 구조의 특징 맵으로 변환할 수 있다. 백본 네트워크 backbone는 이미지 특징을 추출하는 부분이고, FPN은 특징 강조 처리를 실행하며, backbone에 의해 추출된 얕은 특징을 강조할 수 있다. 상기의 네트워크는 일 예에 지나지 않으며, 본 발명의 기술적 해결책을 한정하지 않는다. 예를 들면, 기타 실시 형태에 있어서, 백본 네트워크는 기타 임의 형식의 특징 추출 네트워크를 채용할 수 있으며, 또한 예를 들면, 기타 실시 형태에 있어서, 도 4 중의 FPN을 사용하지 않고, 백본 네트워크에 의해 추출된 특징 맵을 직접 검출 대기 이미지의 특징 맵(feature)으로 사용할 수 있는바, 본 발명은 이에 대해 한정하지 않음을 이해해야 한다.
S320에 있어서, 특징 맵에 기반하여 각 목표 대상의 검출 프레임을 검출하여 얻는다.
S330에 있어서, 검출 프레임에 기반하여 각 매칭 대상 그룹 중의 각 목표 대상의 시각 정보를 추출하여 얻는다.
구체적으로 말하면, 계속하여 도 4을 참조하면, 대상 검출 네트워크(100)는 RPN(Region Proposal Network, 영역 생성 네트워크)을 더 포함한다. 검출 대기 이미지의 특징 맵을 얻은 후, RPN은 FPN에 의해 출력된 특징 맵(feature)에 기반하여 각 목표 대상의 검출 프레임(anchor) 및 목표 대상의 대상 타입을 예측하여 얻을 수 있다. 예를 들면, 사람 얼굴과 인체의 관련 검출의 경우, RPN네트워크는 특징 맵에 기반하여 검출 대기 이미지 내의 인체 및 사람 얼굴의 검출 프레임 및 당해 검출 프레임 영역의 목표 대상이 속해 있는 "사람 얼굴" 또는 "인체"의 타입을 계산할 수 있다.
본 실시 형태에 있어서, 대상 검출 네트워크(100)는 RCNN(Region Convolutional Neural Networks, 영역 컨볼루션 뉴럴 네트워크)을 더 포함하며, RCNN은 특징 맵에 기반하여 각 목표 대상 검출 프레임에 대한 바운딩 프레임(bbox, bounding box)의 오프셋 량을 계산할 수 있으며, bbox의 오프셋 량에 기반하여 목표 대상의 검출 프레임에 대해 경계 회귀 처리를 실행함으로써, 더 정확한 목표 대상의 검출 프레임을 얻는다.
각 목표 대상의 검출 프레임을 얻은 후, 특징 맵 및 각 검출 프레임에 기반하여 각 목표 대상의 시각 특징 정보를 추출하여 얻는다. 예를 들면, 특징 맵에 기반하여 각 검출 프레임에 대해 각각 한층 더 특징 추출을 실행하여, 각 검출 프레임의 특징 정보를 얻음으로써, 대응하는 목표 대상의 시각 특징 정보로 사용할 수 있다. 또는 특징 맵 및 각 검출 프레임을 시각 특징 추출 네트워크에 입력하여, 각 검출 프레임의 시각 특징 정보를 얻는바, 즉 각 목표 대상의 시각 특징을 얻는다.
일 예에 있어서, 사람 얼굴과 인체의 관련 검출의 예를 들면, 입력된 검출 대기 이미지는 도 5에 나타낸 바와 같다. RPN 및 RCNN 네트워크는 검출 대기 이미지의 특징 맵에 기반하여, 검출 대기 이미지 내의 각 사람 얼굴 및 각 인체의 검출 프레임을 얻는바, 여기서 검출 프레임은 직사각형일 수 있다.
도 5에 나타낸 바와 같이, 검출 대기 이미지 내에는 합계 3개의 인체 및 3개의 사람 얼굴이 포함되어 있으며, RPN 및 RCNN의 처리를 통하여 3개의 사람 얼굴 검출 프레임(201, 202, 203) 및 3개의 인체 검출 프레임(211, 212, 213)을 얻고, 각 인체 및 사람 얼굴의 검출 프레임에 기반하여 각 인체 및 사람 얼굴의 시각 정보를 추출하여 얻는다.
관련 검출 네트워크(예를 들면, 도 4의 "Pair Head")(200)도 트레이닝을 거친 뉴럴 네트워크일 수 있으며, 얻어진 목표 대상의 검출 프레임 및 대상 타입에 기반하여, 서로 다른 타입의 목표 대상을 결합시켜 각 매칭 대상 그룹을 얻는다. 예를 들면, 사람 얼굴과 인체의 관련 검출의 장면에 있어서, 얻어진 사람 얼굴과 인체의 검출 프레임 및 대상 타입에 기반하여, 각 사람 얼굴 및 인체를 랜덤으로 결합시켜 각 사람 얼굴 인체 매칭 대상 그룹을 얻는다. 도 5의 예를 들면, 3개의 사람 얼굴 검출 프레임(201, 202, 203) 및 3개의 인체 검출 프레임(211, 212, 213)을 각각 두 개씩 결합시켜 합계 9개의 사람 얼굴 인체 매칭 대상 그룹을 얻는다. 계속하여 각 사람 얼굴 인체 매칭 대상 그룹의 위치 특징을 확정할 필요가 있다.
각 매칭 대상 그룹에 대해, 먼저 매칭 대상 그룹 중의 각 목표 대상의 검출 프레임에 기반하여 보조 바운딩 프레임을 구축한다. 도 5 중의 사람 얼굴 검출 프레임(201) 및 인체 검출 프레임(212)으로 구성된 매칭 대상 그룹의 예를 들면, 먼저 이 두 검출 프레임에 기반하여, 이 두 검출 프레임을 동시에 포함할 수 있는 동시에 면적이 최소인 하나의 union 프레임(유니온 박스)을 보조 바운딩 프레임으로 확정하는바, 즉 도 5에서 점선으로 나타낸 보조 바운딩 프레임(231)을 확정한다.
여기서 보조 바운딩 프레임의 목적은, 후속에서 매칭 대상 그룹 중의 각 목표 대상의 공간 정보를 계산하기 위한 것이며, 본 실시 형태에서는 매칭 대상 그룹 중의 각 목표 대상의 검출 프레임을 커버하는 보조 바운딩 프레임을 선택하고, 후속에서 얻어진 각 목표 대상의 공간 정보에 자체가 속해 있는 매칭 대상 그룹 중의 기타 목표 대상의 공간 정보가 융합되도록 하며, 실제로 관련된 목표 대상 사이의 잠재적인 공간적 위치 관계에 기반하여 관련 대상 검출을 실행할 수 있으므로, 정보가 더 콤팩트해지고, 다른 위치의 간섭 정보가 줄어들며, 계산량이 줄어듦을 설명할 필요가 있다. 또한 매칭 대상 그룹 중의 각 목표 대상의 검출 프레임을 커버하는 보조 바운딩 프레임 중에서 최소 면적을 가지는 보조 바운딩 프레임을 선택할 수 있다. 기타 실시 형태에 있어서, 보조 바운딩 프레임(231)에 의해 매칭 대상 그룹 중의 목표 대상이 적어도 커버되는 것이 보증되기만 하면 되는바, 당업자는 이것을 이해해야 한다.
보조 바운딩 프레임을 얻은 후, 목표 대상의 검출 프레임 및 보조 바운딩 프레임에 기반하여 목표 대상의 위치 특징 정보를 생성한다. 도 5에서, 사람 얼굴 검출 프레임(201) 및 보조 바운딩 프레임(231)에 기반하여 사람 얼굴 마스크 정보를 생성하며, 사람 얼굴 마스크 정보는 매칭 대상 그룹 중의 사람 얼굴 검출 프레임(201)의 보조 바운딩 프레임(231)에 대한 공간적 위치 특징 정보를 나타낸다. 마찬가지로, 인체 검출 프레임(212) 및 보조 바운딩 프레임(231)에 기반하여 인체 마스크 정보를 생성하며, 인체 마스크 정보는 매칭 대상 그룹 중의 인체 검출 프레임(212)의 보조 바운딩 프레임(231)에 대한 공간적 위치 특징 정보를 나타낸다.
일 예에 있어서, 사람 얼굴 및 인체의 위치 특징 정보를 계산할 때에, 사람 얼굴 검출 프레임(201) 및 인체 검출 프레임(212)에 위치하는 픽셀값을 1로 설정하고, 보조 바운딩 프레임(231)에 위치하는 초기 픽셀값을 0으로 설정함으로써, 픽셀값을 검출하여 사람 얼굴 및 인체의 보조 바운딩 프레임에 대한 위치 특징 정보를 얻을 수 있다.
목표 대상의 위치 특징 정보를 얻은 후, 매칭 대상 그룹 중의 적어도 두 개의 목표 대상의 위치 특징 정보에 대해 접합 또는 기타 방법의 융합을 실행함으로써, 매칭 대상 그룹 중의 목표 대상의 공간 정보를 얻을 수 있다.
상술한바와 같이, 사람 얼굴 검출 프레임(201) 내의 사람 얼굴 및 인체의 검출 프레임(212) 내의 인체로 구성된 매칭 대상 그룹을 설명했다. 기타 매칭 대상 그룹의 위치 특징의 계산은 상기와 마찬가지인바, 순서대로 상기의 과정을 실행함으로써 각 매칭 대상 그룹의 위치 특징을 얻을 수 있으며, 본 발명은 이에 대해 반복적으로 설명하지 않는다.
사람 얼굴 대상과 인체 대상으로 구성된 매칭 대상 그룹의 예를 들면, 시각 정보 및 공간 정보를 얻은 후, 관련 검출 네트워크(예를 들면, 도 4 중의 "Pair Head")는 당해 매칭 대상 그룹의 시각 정보 및 공간 정보에 기반하여 목표 대상이 관련되어 있는지 여부를 확정한다.
관련 검출 네트워크(Pair Head)의 네트워크 구성은 도 6에 나타낸 바와 같다. 사람 얼굴 검출 프레임(201) 및 인체 검출 프레임(212)의 시각 정보를 관심 영역 풀링 계층 (Region of interest pooling, Roi pooling)을 이용하여 처리하여 각각 사람 얼굴 시각 특징(131) 및 인체 시각 특징(132)을 얻고, 공간 정보 특징에 기반하여 공간 특징(133)을 변환하여 얻는다. 본 실시 형태에 있어서, 사람 얼굴 시각 특징(131)은 사이즈가 64*7*7인 특징 맵에 의해 나타내며, 인체 시각 특징(132)도 마찬가지로 사이즈가 64*7*7인 특징 맵에 의해 나타내고, 공간 특징(133)은 사이즈가 2*7*7인 특징 맵에 의해 나타낸다.
사람 얼굴 시각 특징(131), 인체 시각 특징(132) 및 공간 특징(133)을 융합하여, 당해 매칭 대상 그룹의 융합 특징을 얻고, 각 매칭 대상 그룹의 융합 특징에 대해 관련성 분류 처리를 실행함으로써, 매칭 대상 그룹 중의 목표 대상의 사이가 관련되어 있는지 여부를 확정할 수 있다.
몇몇의 실시 형태에 있어서, 도 7에 나타낸 바와 같이, 매칭 대상 그룹 중의 목표 대상이 관련되어 있는지 여부를 확정하는 것은 이하의 단계를 포함할 수 있다.
S710에 있어서, 각 매칭 대상 그룹의 융합 특징에 대해 관련성 분류 처리를 실행하여, 각 매칭 대상 그룹 중의 적어도 두 개의 목표 대상들 사이의 관련도 스코어를 얻는다.
S720에 있어서, 같은 목표 대상이 속해 있는 복수의 매칭 대상 그룹에 대해, 관련도 스코어가 가장 높은 매칭 대상 그룹을 목표 매칭 대상 그룹으로 확정한다.
S730에 있어서, 목표 매칭 대상 그룹 중의 적어도 두 개의 목표 대상을 관련 목표 대상으로 확정한다.
구체적으로 여전히 도 4 내지 도 6에 나타낸 네트워크 구성의 예를 들어 설명한다. 각 매칭 대상 그룹의 융합 특징을 얻은 후, 융합 특징에 대해 완전 결합 계층 (Fully Connected Layer, FCL, 140)을 이용하여 관련성 분류 처리를 실행함으로써, 각 매칭 대상 그룹 중의 목표 대상들 사이의 관련도 스코어를 얻을 수 있다.
예를 들면, 도 5에 나타낸 바와 같이, 완전 결합 계층(140)을 이용하여 분류 처리를 실행한 후, 합계 9개의 매칭 대상 그룹의 예측 스코어를 얻는다. 하나의 사람 얼굴 또는 인체의 경우, 각각 3개의 매칭 대상 그룹에 속하는바, 예를 들면 201은 각각 인체(211, 212, 213)로 구성된 3개의 매칭 대상 그룹에 속하며, 이 3개의 매칭 대상 그룹 중에서 관련도 스코어가 가장 높은 매칭 대상 그룹을 목표 매칭 대상 그룹으로 선택한다. 예를 들면, 본 예에 있어서, 사람 얼굴(201)과 인체(211)로 구성된 매칭 대상 그룹의 관련도 스코어가 가장 높으면, 당해 매칭 대상 그룹을 목표 매칭 대상 그룹으로 사용하며, 사람 얼굴(201)과 인체(211)를 관련 목표 대상으로 확정하는바, 즉 사람 얼굴(201)과 인체(211)가 한 사람에게 속한다.
또, 몇몇의 실시 형태에 있어서, 모델의 시각적 출력을 고려하여, 관련 목표 대상을 확정한 후, 이미지 내에서 관련 목표 대상을 시각적 출력할 수 있다.
일 예에 있어서, 이미지의 시각적 출력은 도 8에 나타낸 바와 같다. 도 8의 예에 있어서, 멀티 플레이어 탁상 게임의 장면 예를 들면 관련 대상의 검출은 "사람 얼굴-인체-사람 손"의 관련 검출을 포함하고, 당업자는 상기를 참조하여 상기의 실시 형태를 이용하여 복수의 "사람 얼굴 인체 사람 손"의 목표 매칭 대상 그룹을 얻을 수 있는바, 본 발명은 이에 대해 반복적으로 설명하지 않는다.
목표 매칭 대상 그룹을 얻은 후, 목표 매칭 대상 그룹에 포함된 사람 얼굴, 인체 및 사람 손의 검출 프레임을 이미지 내에 표시할 수 있다. 예를 들면, 도 8에는 3개의 사람 얼굴 검출 프레임(201, 202, 203), 3개의 인체 검출 프레임(211, 212, 213), 5개의 사람 손 검출 프레임(221, 222, 223, 224, 225)이 포함되어 있다. 일 예에 있어서, 서로 다른 타입의 검출 프레임을 각각 서로 다른 색상으로 나타낸다. 도 8은 그레이 스케일 이미지이기 때문에, 색상을 명확히 표시할 수 없지만, 당업자는 이를 이해할 수 있으며, 본 발명은 반복적으로 설명하지 않는다.
같은 목표 매칭 대상 그룹 중의 관련 목표 대상의 경우, 연결선을 이용하여 관련 목표 대상을 연결하여 표시할 수 있다. 예를 들면, 도 8의 예에 있어서, 같은 목표 매칭 대상 그룹 중의 사람 손 검출 프레임의 중심점 및 사람 얼굴 검출 프레임의 중심점을 인체 검출 프레임의 중심점과 점선으로 연결함으로써, 이미지 내의 관련되어 있는 목표 대상을 명확히 나타낼 수 있으며, 직관적인 시각적 결과를 가질 수 있다.
몇몇의 실시 형태에 있어서, 매칭 대상 그룹의 시각 정보 및 공간 정보에 대해 특징 융합을 실행하기 전에, 또한 각각 1층의 완전 결합 계층을 이용하여 차원 축소 처리를 실행하며, 특징을 고정 길이 특징으로 매핑한 후 융합을 실행할 수 있는바, 본 발명은 이에 대해 반복적으로 설명하지 않는다.
몇몇의 실시 형태에 있어서, 본 발명의 방법은 도 4에 나타낸 뉴럴 네트워크의 트레이닝 과정을 더 포함하며, 트레이닝 과정은 도 9에 나타낸 바와 같다. 이하, 도 4 및 도 9을 참조하여 뉴럴 네트워크의 트레이닝 과정을 설명한다.
S910에 있어서, 샘플 이미지 세트를 취득한다.
S920에 있어서, 트레이닝 대기의 관련 검출 네트워크를 이용하여 샘플 이미지 세트 중의 샘플 이미지에 대해 처리를 실행하여, 샘플 이미지 내에서 적어도 하나의 샘플 매칭 대상 그룹을 검출하여 얻는다.
S930에 있어서, 트레이닝 대기의 대상 검출 네트워크를 이용하여 샘플 이미지에 대해 처리를 실행하여, 각 샘플 매칭 대상 그룹의 각 샘플 목표 대상의 시각 정보를 얻고, 트레이닝 대기의 관련 검출 네트워크를 이용하여 샘플 이미지에 대해 처리를 실행하여, 각 샘플 매칭 대상 그룹 중의 적어도 두 개의 샘플 목표 대상의 공간 정보를 얻는다.
S940에 있어서, 트레이닝 대기의 관련 검출 네트워크를 이용하여 각 샘플 매칭 대상 그룹 중의 적어도 두 개의 샘플 목표 대상의 시각 정보 및 공간 정보에 기반하여 각 샘플 매칭 대상 그룹의 관련성 검출 결과를 얻는다.
S950에 있어서, 각 샘플 매칭 대상 그룹의 관련성 검출 결과와 라벨 정보 사이의 오차를 확정하고, 오차가 수렴될 때까지, 오차에 기반하여 관련 검출 네트워크 및 대상 검출 네트워크 중의 적어도 하나의 네트워크 파라미터를 조정한다.
구체적으로 말하면, 샘플 이미지 세트는 적어도 하나의 샘플 이미지를 포함하고, 각 샘플 이미지는 적어도 하나의 검출할 수 있는 샘플 매칭 대상 그룹을 포함하는바, 예를 들면 적어도 하나의 "사람 얼굴-인체 쌍", "사람 얼굴-사람 손 쌍", "인체-물체 쌍", "사람 손-사람 얼굴-인체 그룹" 등을 포함한다. 각 샘플 매칭 대상 그룹은 적어도 두 개의 샘플 목표 대상을 포함하고, 샘플 목표 대상은 적어도 두 개의 대상 타입에 대응하며, 샘플 목표 대상은 사람 얼굴, 사람 손, 인체, 몸, 또는 물체 등이며, 대응하는 대상 타입은 사람 얼굴 타입, 사람 손 타입, 물체 타입 등이다. 동시에, 샘플 이미지는 각 샘플 매칭 대상 그룹의 라벨 정보를 포함하고, 라벨 정보는 샘플 매칭 대상 그룹의 실제값이며, 당해 샘플 매칭 대상 그룹 중의 각 샘플 목표 대상의 실제 관련성을 나타내는바, 즉 샘플 매칭 대상 그룹 중의 샘플 목표 대상이 실제로 관련되어 있는 목표 대상인지 여부를 나타내고, 라벨 정보는 수동 라벨링 또는 뉴럴 네트워크 라벨링 등의 방법을 통해 얻을 수 있다.
샘플 이미지 세트를 도 4에 나타낸 네트워크에 입력하며, 순서대로 트레이닝 대기의 대상 검출 네트워크(100) 및 관련 검출 네트워크(200)를 경과하여, 최종적으로 각 샘플 매칭 대상 그룹의 관련성 검출 결과의 출력값이 출력된다. 대상 검출 네트워크 및 관련 검출 네트워크의 처리 과정은 상기를 참조할 수 있는바, 여기에서는 반복적으로 설명하지 않는다.
각 샘플 매칭 대상 그룹의 관련성 검출 결과의 출력값을 얻은 후, 출력값과 라벨 정보 사이의 오차를 확정할 수 있고, 오차가 수렴될 때까지, 오차 역 전파를 통해 네트워크 파라미터를 조정함으로써, 대상 검출 네트워크 및 관련 검출 네트워크의 트레이닝을 완료할 수 있다.
상기의 예를 참조하여 본 발명의 방법을 상세하게 설명했지만, 본 발명의 관련 대상 검출 방법은 상기의 예의 장면에 한정되지 않고, 또한 기타 임의의 공간적 위치 관련성을 가지는 목표 대상 관련 검출에 적용될 수 있는바, 본 발명은 이에 대해 반복적으로 설명하지 않는 것을 당업자는 이해해야 한다.
상기로부터 알 수 있듯이, 본 발명의 관련 대상 검출 방법에 따르면, 같은 매칭 대상 그룹 중의 목표 대상들 사이의 관련 특징을 이용하여 목표 검출을 보조하고, 복잡한 장면에서의 목표 검출 정밀도를 향상시키는바, 예를 들면 사람 얼굴과 인체의 관련 검출에 의해 복수의 사람 장면에서의 인체 검출을 실현하고, 검출의 정확성을 향상시킨다. 또한, 관련 검출에 있어서, 목표 대상의 시각 정보와 공간 정보를 결합시켜 목표 대상의 관련 검출 정밀도를 향상시키는바, 예를 들면 사람 얼굴과 인체의 관련 검출에서, 사람 얼굴 및 인체의 시각 특징 정보를 채용할 뿐만 아니라, 또한 사람 얼굴과 인체의 공간적 위치 특징 정보도 고려하여, 공간적 위치 특징을 이용하여 사람 얼굴과 인체의 관련을 보조하고, 사람 얼굴과 인체의 관련 정확성을 향상시키며, 또한 목표 검출의 정밀도를 향상시킨다.
제2 양태에 따르면, 본 발명의 실시 형태는 관련 대상 검출 장치를 제공한다. 도 10은 본 발명의 몇몇의 실시 형태에 관한 관련 대상 검출 장치를 나타낸다.
도 10에 나타낸 바와 같이, 몇몇의 실시 형태에 있어서, 본 발명의 검출 장치는,
검출 대기 이미지 내에서 적어도 두 개의 목표 대상을 포함하는 매칭 대상 그룹을 적어도 하나 검출하여 얻기 위한 검출 모듈(410);
각 매칭 대상 그룹 중의 각 목표 대상의 시각 정보 및 각 매칭 대상 그룹 중의 적어도 두 개의 목표 대상의 공간 정보를 취득하기 위한 취득 모듈(420); 및
각 매칭 대상 그룹 중의 적어도 두 개의 목표 대상의 시각 정보 및 공간 정보에 기반하여, 각 매칭 대상 그룹 중의 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하기 위한 확정 모듈(430)을 구비한다.
도 11에 나타낸 바와 같이, 몇몇의 실시 형태에 있어서, 검출 모듈(410)은,
검출 대기 이미지 내에서 각 목표 대상 및 각 목표 대상의 대상 타입을 검출하여 얻기 위한 검출 서브 모듈(411); 및
각 대상 타입에 대해, 상기 대상 타입 중의 각 목표 대상을 각각 다른 대상 타입 중의 각 목표 대상과 결합시켜 적어도 같은 매칭 대상 그룹을 얻기 위한 조합 서브 모듈(412)을 구비할 수 있다.
몇몇의 실시 형태에 있어서, 취득 모듈(420)은 또한,
매칭 대상 그룹 중의 각 목표 대상에 대해 시각 특징 추출을 실행하고, 목표 대상의 시각 정보를 얻는다.
몇몇의 실시 형태에 있어서, 취득 모듈(420)은 또한,
검출 대기 이미지 내에서 각 목표 대상의 검출 프레임을 검출하여 얻고,
각 매칭 대상 그룹에 대해, 매칭 대상 그룹 중의 적어도 두 개의 목표 대상의 검출 프레임의 위치 정보에 기반하여, 매칭 대상 그룹 중의 적어도 두 개의 목표 대상의 공간 정보를 생성한다.
몇몇의 실시 형태에 있어서, 취득 모듈(420)은 또한,
매칭 대상 그룹의 보조 바운딩 프레임을 생성하고, 여기서 보조 바운딩 프레임은 매칭 대상 그룹 중의 각 목표 대상의 검출 프레임을 커버하며,
보조 바운딩 프레임 및 각 목표 대상의 검출 프레임에 기반하여, 매칭 대상 그룹 중의 각 목표 대상의 위치 특징 정보를 각각 확정하고,
같은 매칭 대상 그룹 중의 각 목표 대상의 위치 특징 정보를 융합하여, 매칭 대상 그룹 중의 적어도 두 개의 목표 대상의 공간 정보를 얻는다.
몇몇의 실시 형태에 있어서, 보조 바운딩 프레임은 매칭 대상 그룹 중의 각 목표 대상을 커버하는 바운딩 프레임 중의 최소 면적을 가지는 바운딩 프레임이다.
도 12에 나타낸 바와 같이, 몇몇의 실시 형태에 있어서, 확정 모듈(430)은,
각 매칭 대상 그룹 중의 적어도 두 개의 목표 대상의 시각 정보 및 공간 정보에 대해 융합 처리를 실행하여, 각 매칭 대상 그룹의 융합 특징을 얻기 위한 융합 서브 모듈(431); 및
각 매칭 대상 그룹의 융합 특징에 대해 관련성 분류 처리를 실행하여, 매칭 대상 그룹 중의 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하기 위한 확정 서브 모듈(432)과 구비할 수 있다.
몇몇의 실시 형태에 있어서, 확정 서브 모듈(432)은 구체적으로,
각 매칭 대상 그룹의 융합 특징에 대해 관련성 분류 처리를 실행하여, 각 매칭 대상 그룹 중의 적어도 두 개의 목표 대상들 사이의 관련도 스코어를 얻고,
같은 목표 대상이 속해 있는 복수의 매칭 대상 그룹에 대해, 관련도 스코어가 가장 높은 매칭 대상 그룹을 목표 매칭 대상 그룹으로 확정하며,
목표 매칭 대상 그룹 중의 적어도 두 개의 목표 대상을 관련 목표 대상으로 확정한다.
몇몇의 실시 형태에 있어서, 목표 대상이 인체 부위일 경우, 확정 모듈(430)은 구체적으로,
같은 매칭 대상 그룹 중의 각 인체 부위가 하나의 인체에 속하는지 여부를 확정한다.
상기로부터 알 수 있듯이, 본 발명의 관련 대상 검출 장치에 따르면, 같은 매칭 대상 그룹 중의 목표 대상들 사이의 관련 특징을 이용하여 목표 검출을 보조하고, 복잡한 장면에서의 목표 검출 정밀도를 향상시키는바, 예를 들면 사람 얼굴과 인체의 관련 검출에 의해 복수의 사람 장면에서의 인체 검출을 실현하고, 검출의 정확성을 향상시킨다. 또한, 관련 검출에 있어서, 목표 대상의 시각 정보와 공간 정보를 결합시켜 목표 대상의 관련 검출 정밀도를 향상시키는바, 예를 들면 사람 얼굴과 인체의 관련 검출에서, 사람 얼굴 및 인체의 시각 특징 정보를 채용할 뿐만 아니라, 또한 사람 얼굴과 인체의 공간적 위치 특징 정보도 고려하여, 공간적 위치 특징을 이용하여 사람 얼굴과 인체의 관련을 보조하고, 사람 얼굴과 인체의 관련 정확성을 향상시키며, 또한 목표 검출의 정밀도를 향상시킨다.
제3 양태에 따르면, 본 발명의 실시 형태는 전자 디바이스를 제공하는바, 당해 전자 디바이스는,
프로세서; 및
프로세서와 통신 가능하게 접속되고, 프로세서에 의해 액세스 가능한 컴퓨터 명령이 기억되어 있는 메모리를 구비하며, 컴퓨터 명령이 프로세서에 의해 액세스되면, 프로세서가 제1 양태의 임의의 실시 형태의 방법을 실행하도록 한다.
제4 양태에 따르면, 본 발명의 실시 형태는 컴퓨터 판독 가능 명령이 기억되어 있는 기록 매체를 제공하는바, 컴퓨터 판독 가능 명령은 컴퓨터가 제1 양태의 임의의 실시 형태의 방법을 실행하도록 한다.
구체적으로 말하면, 도 13은 본 발명의 방법을 구현하는데도 알맞은 컴퓨터 시스템(600)의 구성을 나타낸 모식도이며, 도 13에 나타낸 시스템은 상기의 프로세서 및 기록 매체에 당해 하는 기능을 구현할 수 있다.
도 13에 나타낸 바와 같이, 컴퓨터 시스템(600)은 프로세서(CPU, 601)를 포함하며, 판독 전용 메모리(ROM, 602) 내에 기억되어 있는 프로그램 또는 기억부(608)로부터 랜덤 액세스 메모리(RAM, 603)에 로드한 프로그램을 통해, 다양한 적절한 동작 및 처리를 실행한다. RAM(603)에는 시스템(600)의 조작에 필요한 다양한 프로그램 및 데이터가 기억되어 있다. CPU(601), ROM(602) 및 RAM(603)은 버스(604)를 통해 서로 접속된다. 입력/출력(I/O)인터페이스(605)도 버스(604)에 접속된다.
키보드, 마우스 등을 포함하는 입력부(606), 캐소드 광선관(CRT), 액정 모니터(LDC) 등 및 스피커 등을 포함하는 출력부(607), 하드 디스크 등을 포함하는 기억부(608) 및 LAN카드, 모뎀 등의 네트워크 인터페이스 카드를 포함하는 통신부(609)가, I/O인터페이스(605)에 접속된다. 통신부(609)는 인터넷 등의 네트워크를 통해 통신 처리를 실행한다. 드라이버(610)도 필요에 따라 I/O인터페이스(605)에 접속된다. 자기 디스크, 광학 디스크, 자기광학 디스크, 반도체 메모리 등의 탈착 가능한 매체(611)는 필요에 따라 드라이버(610)에 장착되며, 판독된 컴퓨터 프로그램이 필요에 따라 기억부(608)에 인스톨된다.
특히, 본 발명의 실시 형태에 따르면, 상기의 방법은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들면, 본 발명의 실시 형태는 컴퓨터 프로그램 제품을 포함하며, 당해 컴퓨터 프로그램 제품은 기계 판독 가능 매체에 유형에 포함된 컴퓨터 프로그램을 포함하고, 컴퓨터 프로그램은 상기의 방법을 실행하기 위한 프로그램 코드를 포함한다. 이러한 실시 형태에 있어서, 당해 컴퓨터 프로그램은 통신부(609)를 통해 네트워크로 다운로드되어 인스톨되거나, 및/또는 탈착 가능한 매체(611)로부터 인스톨될 수 있다.
도면에 있어서의 플로우 차트 및 블록도는 본 발명의 복수의 실시 형태에 관한 시스템, 방법 및 컴퓨터 프로그램 제품의 실시 가능한 체계 아키텍처, 기능 및 조작을 나타낸다. 이러한 관점에서 플로우 차트 또는 블록도에 있어서의 각 블록은 하나의 모듈; 프로그램 세그먼트 또는 명령의 일부를 대표할 수도 있다. 상기 모듈, 프로그램 세그먼트 또는 명령의 일부는 규정된 논리 기능을 실시하기 위한 하나 또는 복수의 실행 가능 명령을 포함한다. 몇몇의 대체의 실시 형태에 있어서, 블록 중에 마크된 기능은 도면에 나타내진 순번과 다른 순번으로 구현될 수도 있다. 예를 들면, 두 개의 연속된 블록은 실제로 기본적으로 병행으로 실행될 수도 있고, 그리고 반대 순번으로 실행될 수도 있으며, 이는 관련된 기능에 따라 정해진다. 주의해야할 점은 블록도 및/또는 플로우 차트에 있어서의 각 블록, 및 블록도 및/또는 플로우 차트에 있어서의 블록의 조합은 규정의 기능 또는 동작을 실행하는 전용의 하드웨어에 기반한 시스템으로 구현될 수도 있고, 전용 하드웨어와 컴퓨터 명령의 조합으로 실현될 수도 있다.
분명히, 상기의 실시 형태는 명확한 설명을 위한 예에 지나지 않으며, 실시 형태를 한정하는 것을 의도하는 것이 아니다. 당업자에 있어서, 상기의 설명에 기반하여 기타 형태의 기타 변경 또는 수정을 행할 수 있다. 여기서 모든 구현 방법을 리스팅하는 것은 불필요하며 또한 불가능하다. 이에 기인한 자명한 변경 또는 변동은 여전히 본 공개의 보호 범위 내에 있다.
Claims (20)
- 관련 대상 검출 방법으로서,
검출 대기 이미지 내에서 적어도 두 개의 목표 대상을 포함하는 매칭 대상 그룹을 적어도 하나 검출하여 얻는 것;
각 상기 매칭 대상 그룹 중의 각 상기 목표 대상의 시각 정보 및 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 공간 정보를 취득하는 것; 및
각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 시각 정보 및 상기 공간 정보에 기반하여, 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하는 것을 포함하는
것을 특징으로 하는, 관련 대상 검출 방법. - 제1항에 있어서,
검출 대기 이미지 내에서 매칭 대상 그룹을 적어도 하나 검출하여 얻는 것은,
상기 검출 대기 이미지 내에서 각 상기 목표 대상 및 각 상기 목표 대상의 대상 타입을 검출하여 얻는 것; 및
상기 각 대상 타입에 대해, 상기 대상 타입 중의 각 목표 대상을 각각 기타 상기 대상 타입 중의 각 상기 목표 대상과 결합시켜 상기 매칭 대상 그룹을 적어도 하나 얻는 것을 포함하는
것을 특징으로 하는, 관련 대상 검출 방법. - 제1항에 있어서,
각 상기 매칭 대상 그룹 중의 각 상기 목표 대상의 시각 정보를 취득하는 것은,
상기 매칭 대상 그룹 중의 각 목표 대상에 대해 시각 특징 추출을 실행하여 상기 목표 대상의 시각 정보를 얻는 것을 포함하는
것을 특징으로 하는, 관련 대상 검출 방법. - 제1항에 있어서,
각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 공간 정보를 취득하는 것은,
상기 검출 대기 이미지 내에서 각 상기 목표 대상의 검출 프레임을 검출하여 얻는 것; 및
각 상기 매칭 대상 그룹에 대해, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 검출 프레임의 위치 정보에 기반하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 공간 정보를 생성하는 것을 포함하는
것을 특징으로 하는, 관련 대상 검출 방법. - 제4항에 있어서,
각 상기 매칭 대상 그룹에 대해, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 검출 프레임의 위치 정보에 기반하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 공간 정보를 생성하는 것은,
상기 매칭 대상 그룹 중의 각 목표 대상의 검출 프레임을 커버하는 상기 매칭 대상 그룹의 보조 바운딩 프레임을 생성하는 것;
상기 보조 바운딩 프레임 및 각 목표 대상의 검출 프레임에 기반하여, 상기 매칭 대상 그룹 중의 각 목표 대상의 위치 특징 정보를 각각 확정하는 것; 및
같은 매칭 대상 그룹 중의 각 목표 대상의 상기 위치 특징 정보를 융합하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 공간 정보를 얻는 것을 포함하는
것을 특징으로 하는, 관련 대상 검출 방법. - 제5항에 있어서,
상기 보조 바운딩 프레임은 상기 매칭 대상 그룹 중의 각 목표 대상을 커버하는 바운딩 프레임 중의 최소 면적을 가지는 바운딩 프레임인
것을 특징으로 하는, 관련 대상 검출 방법. - 제1항 내지 제6항 중 어느 한 항에 있어서,
각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 시각 정보 및 상기 공간 정보에 기반하여, 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하는 것은,
각 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 시각 정보 및 상기 공간 정보에 대해 융합 처리를 실행하여, 각 매칭 대상 그룹의 융합 특징을 얻는 것; 및
각 매칭 대상 그룹의 융합 특징에 대해 관련성 분류 처리를 실행하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하는 것을 포함하는
것을 특징으로 하는, 관련 대상 검출 방법. - 제7항에 있어서,
각 매칭 대상 그룹의 융합 특징에 대해 관련성 분류 처리를 실행하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하는 것은,
각 매칭 대상 그룹의 융합 특징에 대해 관련성 분류 처리를 실행하여, 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상들 사이의 관련도 스코어를 얻는 것;
같은 목표 대상이 속해 있는 복수의 매칭 대상 그룹에 대해, 상기 관련도 스코어가 가장 높은 매칭 대상 그룹을 목표 매칭 대상 그룹으로 확정하는 것; 및
상기 목표 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상을 관련 목표 대상으로 확정하는 것을 포함하는
것을 특징으로 하는, 관련 대상 검출 방법. - 제1항에 있어서,
상기 목표 대상이 인체 부위일 경우, 상기 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하는 것은,
같은 상기 매칭 대상 그룹 중의 각 인체 부위가 하나의 인체에 속하는지 여부를 확정하는 것을 포함하는
것을 특징으로 하는, 관련 대상 검출 방법. - 제1항에 있어서,
샘플 이미지 세트를 취득하는 것 - 상기 샘플 이미지 세트는 적어도 하나의 샘플 이미지를 포함하고, 각 상기 샘플 이미지는 적어도 하나의 샘플 매칭 대상 그룹 및 상기 샘플 매칭 대상 그룹에 대응하는 라벨 정보를 포함하며, 각 상기 샘플 매칭 대상 그룹은 적어도 두 개의 샘플 목표 대상을 포함하고, 상기 라벨 정보는 상기 샘플 매칭 대상 그룹 중의 각 샘플 목표 대상의 관련 결과를 나타냄 -;
트레이닝 대기의 관련 검출 네트워크를 이용하여 상기 샘플 이미지에 대해 처리를 실행하고, 상기 샘플 이미지 내에서 상기 샘플 매칭 대상 그룹을 검출하여 얻는 것;
트레이닝 대기의 대상 검출 네트워크를 이용하여 상기 샘플 이미지에 대해 처리를 실행하여, 각 상기 샘플 매칭 대상 그룹 중의 각 상기 샘플 목표 대상의 시각 정보를 얻고, 트레이닝 대기의 상기 관련 검출 네트워크를 이용하여 상기 샘플 이미지에 대해 처리를 실행하여, 각 상기 샘플 매칭 대상 그룹 중의 상기 적어도 두 개의 샘플 목표 대상의 공간 정보를 얻는 것;
트레이닝 대기의 상기 관련 검출 네트워크를 이용하여 각 상기 샘플 매칭 대상 그룹 중의 상기 적어도 두 개의 샘플 목표 대상의 상기 시각 정보 및 상기 공간 정보에 기반하여, 각 상기 샘플 매칭 대상 그룹의 관련성 검출 결과를 얻는 것; 및
각 상기 샘플 매칭 대상 그룹의 상기 관련성 검출 결과와 대응하는 라벨 정보 사이의 오차를 확정하고, 상기 오차가 수렴될 때까지, 상기 오차에 기반하여 상기 관련 검출 네트워크 및 상기 대상 검출 네트워크 중의 적어도 하나의 네트워크 파라미터를 조정하는 것을 더 포함하는
것을 특징으로 하는, 관련 대상 검출 방법. - 관련 대상 검출 장치로서,
검출 대기 이미지 내에서 적어도 두 개의 목표 대상을 포함하는 매칭 대상 그룹을 적어도 하나 검출하여 얻기 위한 검출 모듈;
각 상기 매칭 대상 그룹 중의 각 상기 목표 대상의 시각 정보 및 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 공간 정보를 취득하기 위한 취득 모듈; 및
각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 시각 정보 및 상기 공간 정보에 기반하여, 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하기 위한 확정 모듈을 구비하는
것을 특징으로 하는, 관련 대상 검출 장치. - 제11항에 있어서,
상기 검출 모듈은,
상기 검출 대기 이미지 내에서 각 상기 목표 대상 및 각 상기 목표 대상의 대상 타입을 검출하여 얻기 위한 검출 서브 모듈; 및
상기 각 대상 타입에 대해, 상기 대상 타입 중의 각 목표 대상을 각각 기타 상기 대상 타입 중의 각 상기 목표 대상과 결합시켜 상기 매칭 대상 그룹을 적어도 하나 얻기 위한 조합 서브 모듈을 구비하는
것을 특징으로 하는, 관련 대상 검출 장치. - 제11항에 있어서,
상기 취득 모듈은 또한,
상기 매칭 대상 그룹 중의 각 목표 대상에 대해 시각 특징 추출을 실행하여 상기 목표 대상의 시각 정보를 얻는
것을 특징으로 하는, 관련 대상 검출 장치. - 제11항에 있어서,
상기 취득 모듈은 또한,
상기 검출 대기 이미지 내에서 각 상기 목표 대상의 검출 프레임을 검출하여 얻고,
각 상기 매칭 대상 그룹에 대해, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 검출 프레임의 위치 정보에 기반하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 공간 정보를 생성하는
것을 특징으로 하는, 관련 대상 검출 장치. - 제14항에 있어서,
상기 취득 모듈은 또한,
상기 매칭 대상 그룹 중의 각 목표 대상의 검출 프레임을 커버하는 상기 매칭 대상 그룹의 보조 바운딩 프레임을 생성하고,
상기 보조 바운딩 프레임 및 각 목표 대상의 검출 프레임에 기반하여, 상기 매칭 대상 그룹 중의 각 목표 대상의 위치 특징 정보를 각각 확정하며,
같은 매칭 대상 그룹 중의 각 목표 대상의 상기 위치 특징 정보를 융합하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 공간 정보를 얻는
것을 특징으로 하는, 관련 대상 검출 장치. - 제11항 내지 제15항 중 어느 한 항에 있어서,
상기 확정 모듈은,
각 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상의 상기 시각 정보 및 상기 공간 정보에 대해 융합 처리를 실행하여, 각 매칭 대상 그룹의 융합 특징을 얻기 위한 융합 서브 모듈; 및
각 매칭 대상 그룹의 융합 특징에 대해 관련성 분류 처리를 실행하여, 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상이 관련되어 있는지 여부를 확정하기 위한 확정 서브 모듈을 구비하는
것을 특징으로 하는, 관련 대상 검출 장치. - 제16항에 있어서,
상기 확정 서브 모듈은 또한,
각 매칭 대상 그룹의 융합 특징에 대해 관련성 분류 처리를 실행하여, 각 상기 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상들 사이의 관련도 스코어를 얻고,
같은 목표 대상이 속해 있는 복수의 매칭 대상 그룹에 대해, 상기 관련도 스코어가 가장 높은 매칭 대상 그룹을 목표 매칭 대상 그룹으로 확정하며,
상기 목표 매칭 대상 그룹 중의 상기 적어도 두 개의 목표 대상을 관련 목표 대상으로 확정하는
것을 특징으로 하는, 관련 대상 검출 장치. - 전자 디바이스로서,
프로세서; 및
상기 프로세서와 통신 가능하게 접속되고, 상기 프로세서에 의해 액세스 가능한 컴퓨터 명령이 기억되어 있는 메모리를 구비하고,
상기 컴퓨터 명령이 상기 프로세서에 의해 액세스될 때에, 상기 프로세서가 제1항 내지 제10항 중 어느 한 항에 기재된 방법을 실행하도록 하는
것을 특징으로 하는, 전자 디바이스. - 컴퓨터 판독 가능 명령이 기억되어 있는 기록 매체로서,
상기 컴퓨터 판독 가능 명령은 컴퓨터가 제1항 내지 제10항 중 어느 한 항에 기재된 방법을 실행하도록 하는
것을 특징으로 하는, 기록 매체. - 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램으로서,
상기 컴퓨터 판독 가능 코드가 전자 디바이스에 의해 실행될 때에, 상기 전자 디바이스의 프로세서가 제1항 내지 제10항 중 어느 한 항에 기재된 방법을 구현하도록 하는
것을 특징으로 하는, 컴퓨터 프로그램.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SG10202013169Q | 2020-12-29 | ||
SG10202013169Q | 2020-12-29 | ||
PCT/IB2021/053488 WO2022144601A1 (en) | 2020-12-29 | 2021-04-28 | Method and apparatus for detecting associated objects |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220098310A true KR20220098310A (ko) | 2022-07-12 |
KR102580281B1 KR102580281B1 (ko) | 2023-09-18 |
Family
ID=78092818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217019168A KR102580281B1 (ko) | 2020-12-29 | 2021-04-28 | 관련 대상 검출 방법 및 장치 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220207261A1 (ko) |
JP (1) | JP2023512359A (ko) |
KR (1) | KR102580281B1 (ko) |
CN (1) | CN113544701B (ko) |
AU (1) | AU2021203870A1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114973334A (zh) * | 2022-07-29 | 2022-08-30 | 浙江大华技术股份有限公司 | 人体部件关联方法、装置、电子装置和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200136034A (ko) * | 2018-09-10 | 2020-12-04 | 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 | 이미지 처리 방법, 장치, 단말 기기, 서버 및 시스템 |
KR20200137129A (ko) * | 2019-05-29 | 2020-12-09 | 에스케이텔레콤 주식회사 | 관계형 질의를 이용한 객체 검출방법 및 그 장치 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080263592A1 (en) * | 2007-04-18 | 2008-10-23 | Fuji Xerox Co., Ltd. | System for video control by direct manipulation of object trails |
WO2012014590A1 (ja) * | 2010-07-28 | 2012-02-02 | パイオニア株式会社 | 映像処理装置及び方法 |
JP5865784B2 (ja) * | 2012-06-05 | 2016-02-17 | 日立アプライアンス株式会社 | 空気調和機 |
JP2015176253A (ja) * | 2014-03-13 | 2015-10-05 | オムロン株式会社 | ジェスチャ認識装置およびジェスチャ認識装置の制御方法 |
JP6364101B1 (ja) * | 2017-01-31 | 2018-07-25 | 森ビル株式会社 | 空中監視装置、空中監視方法及びプログラム |
US10740617B2 (en) * | 2017-12-19 | 2020-08-11 | Intel Corporation | Protection and recovery of identities in surveillance camera environments |
CN108710885B (zh) * | 2018-03-29 | 2021-07-23 | 百度在线网络技术(北京)有限公司 | 目标对象的检测方法和装置 |
CN110163889A (zh) * | 2018-10-15 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 目标跟踪方法、目标跟踪装置、目标跟踪设备 |
JP7192582B2 (ja) * | 2019-03-11 | 2022-12-20 | オムロン株式会社 | 物体追跡装置および物体追跡方法 |
CN110533685B (zh) * | 2019-08-30 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 对象跟踪方法和装置、存储介质及电子装置 |
CN110705478A (zh) * | 2019-09-30 | 2020-01-17 | 腾讯科技(深圳)有限公司 | 人脸跟踪方法、装置、设备及存储介质 |
CN110717476A (zh) * | 2019-10-22 | 2020-01-21 | 上海眼控科技股份有限公司 | 图像处理方法、装置、计算机设备和计算机可读存储介质 |
CN111091091A (zh) * | 2019-12-16 | 2020-05-01 | 北京迈格威科技有限公司 | 目标对象重识别特征的提取方法、装置、设备及存储介质 |
CN111178261B (zh) * | 2019-12-30 | 2023-05-16 | 武汉恩智电子科技有限公司 | 一种基于视频编码技术的人脸检测加速方法 |
CN111754368A (zh) * | 2020-01-17 | 2020-10-09 | 天津师范大学 | 一种高校教学评估方法及基于边缘智能的高校教学评估系统 |
CN111275002A (zh) * | 2020-02-18 | 2020-06-12 | 上海商汤临港智能科技有限公司 | 一种图像处理方法、装置及电子设备 |
US10846857B1 (en) * | 2020-04-20 | 2020-11-24 | Safe Tek, LLC | Systems and methods for enhanced real-time image analysis with a dimensional convolution concept net |
CN111709974B (zh) * | 2020-06-22 | 2022-08-02 | 苏宁云计算有限公司 | 基于rgb-d图像的人体跟踪方法及装置 |
US20230222844A1 (en) * | 2020-12-26 | 2023-07-13 | Xi'an Creation Keji Co., Ltd. | Parking lot management and control method based on object activity prediction, and electronic device |
-
2021
- 2021-04-28 AU AU2021203870A patent/AU2021203870A1/en not_active Abandoned
- 2021-04-28 CN CN202180001429.0A patent/CN113544701B/zh active Active
- 2021-04-28 JP JP2021536266A patent/JP2023512359A/ja not_active Ceased
- 2021-04-28 KR KR1020217019168A patent/KR102580281B1/ko active IP Right Grant
- 2021-06-11 US US17/345,469 patent/US20220207261A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200136034A (ko) * | 2018-09-10 | 2020-12-04 | 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 | 이미지 처리 방법, 장치, 단말 기기, 서버 및 시스템 |
KR20200137129A (ko) * | 2019-05-29 | 2020-12-09 | 에스케이텔레콤 주식회사 | 관계형 질의를 이용한 객체 검출방법 및 그 장치 |
Also Published As
Publication number | Publication date |
---|---|
US20220207261A1 (en) | 2022-06-30 |
CN113544701A (zh) | 2021-10-22 |
JP2023512359A (ja) | 2023-03-27 |
KR102580281B1 (ko) | 2023-09-18 |
CN113544701B (zh) | 2024-06-14 |
AU2021203870A1 (en) | 2022-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460338B (zh) | 人体姿态估计方法和装置、电子设备、存储介质、程序 | |
CN108629306B (zh) | 人体姿态识别方法及装置、电子设备、存储介质 | |
CN108229353B (zh) | 人体图像的分类方法和装置、电子设备、存储介质、程序 | |
CN107784282A (zh) | 对象属性的识别方法、装置及系统 | |
CN105095853B (zh) | 图像处理装置及图像处理方法 | |
CN108229300B (zh) | 视频分类方法、装置、计算机可读存储介质和电子设备 | |
CN112200056B (zh) | 人脸活体检测方法、装置、电子设备及存储介质 | |
CN112329663B (zh) | 一种基于人脸图像序列的微表情时刻检测方法及装置 | |
CN111080670A (zh) | 图像提取方法、装置、设备及存储介质 | |
CN113348465B (zh) | 图像中对象的关联性预测方法、装置、设备和存储介质 | |
CN108229494B (zh) | 网络训练方法、处理方法、装置、存储介质和电子设备 | |
CN111784658B (zh) | 一种用于人脸图像的质量分析方法和系统 | |
CN111986163A (zh) | 人脸图像选择方法和装置 | |
KR102580281B1 (ko) | 관련 대상 검출 방법 및 장치 | |
CN111488779A (zh) | 视频图像超分辨率重建方法、装置、服务器及存储介质 | |
CN111709269B (zh) | 一种深度图像中基于二维关节信息的人手分割方法和装置 | |
CN111723688A (zh) | 人体动作识别结果的评价方法、装置和电子设备 | |
CN111784660A (zh) | 一种用于人脸图像的正脸程度的分析方法和系统 | |
CN116311518A (zh) | 一种基于人体交互意图信息的层级人物交互检测方法 | |
CN115345927A (zh) | 展品导览方法及相关装置、移动终端和存储介质 | |
CN114694209A (zh) | 视频处理方法、装置、电子设备及计算机存储介质 | |
WO2022144601A1 (en) | Method and apparatus for detecting associated objects | |
CN112348112A (zh) | 图像识别模型的训练方法、训练装置及终端设备 | |
Guesdon et al. | Multitask Metamodel for Keypoint Visibility Prediction in Human Pose Estimation | |
CN116433939B (zh) | 样本图像生成方法、训练方法、识别方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |