KR20220098309A - 대상 검출 방법, 장치 및 전자 디바이스 - Google Patents

대상 검출 방법, 장치 및 전자 디바이스 Download PDF

Info

Publication number
KR20220098309A
KR20220098309A KR1020217019138A KR20217019138A KR20220098309A KR 20220098309 A KR20220098309 A KR 20220098309A KR 1020217019138 A KR1020217019138 A KR 1020217019138A KR 20217019138 A KR20217019138 A KR 20217019138A KR 20220098309 A KR20220098309 A KR 20220098309A
Authority
KR
South Korea
Prior art keywords
human body
human face
detection
human
matching
Prior art date
Application number
KR1020217019138A
Other languages
English (en)
Inventor
쉐썬 장
춘야 류
바이룬 왕
징환 천
Original Assignee
센스타임 인터내셔널 피티이. 리미티드.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 센스타임 인터내셔널 피티이. 리미티드. filed Critical 센스타임 인터내셔널 피티이. 리미티드.
Priority claimed from PCT/IB2021/053446 external-priority patent/WO2022144600A1/en
Publication of KR20220098309A publication Critical patent/KR20220098309A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F1/00Card games
    • A63F1/06Card games appurtenances
    • A63F1/18Score computers; Miscellaneous indicators
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F3/00Board games; Raffle games
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07FCOIN-FREED OR LIKE APPARATUS
    • G07F17/00Coin-freed apparatus for hiring articles; Coin-freed facilities or services
    • G07F17/32Coin-freed apparatus for hiring articles; Coin-freed facilities or services for games, toys, sports, or amusements
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07FCOIN-FREED OR LIKE APPARATUS
    • G07F17/00Coin-freed apparatus for hiring articles; Coin-freed facilities or services
    • G07F17/32Coin-freed apparatus for hiring articles; Coin-freed facilities or services for games, toys, sports, or amusements
    • G07F17/3202Hardware aspects of a gaming system, e.g. components, construction, architecture thereof
    • G07F17/3216Construction aspects of a gaming system, e.g. housing, seats, ergonomic aspects
    • G07F17/322Casino tables, e.g. tables having integrated screens, chip detection means
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07FCOIN-FREED OR LIKE APPARATUS
    • G07F17/00Coin-freed apparatus for hiring articles; Coin-freed facilities or services
    • G07F17/32Coin-freed apparatus for hiring articles; Coin-freed facilities or services for games, toys, sports, or amusements
    • G07F17/3225Data transfer within a gaming system, e.g. data sent between gaming machines and users
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F9/00Games not otherwise provided for
    • A63F9/24Electric games; Games using electronic circuits not otherwise provided for
    • A63F2009/2401Detail of input, input devices
    • A63F2009/243Detail of input, input devices with other kinds of input
    • A63F2009/2435Detail of input, input devices with other kinds of input using a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 실시예는 대상 검출 방법, 장치 및 전자 디바이스를 제공하는바, 당해 방법은 처리 대기 이미지 내의 사람 얼굴 대상 및 인체 대상을 검출하는 것, 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것, 및 상기 매칭 관계에 기반하여 상기 인체 대상과 상기 사람 얼굴 대상이 매칭되는 것으로 확정된 것에 응답하여, 상기 인체 대상을 검출된 목표 대상으로 확정하는 것을 포함한다. 본 발명의 실시예는 인체 대상의 검출 정밀도를 향상시켰다.

Description

대상 검출 방법, 장치 및 전자 디바이스
[관련 출원의 상호 참조 인용]
본 발명은 출원일이 2020년12월29일이고, 출원 번호가 10202013165P이며, 발명의 명칭이 "대상 검출 방법, 장치 및 전자 디바이스”인 싱가포르 특허 출원의 우선권을 주장하는바, 당해 싱가포르 특허 출원의 모든 내용이 참조로서 본 원에 통합된다.
[기술분야]
본 발명은 기계 학습 기술의 분야에 관한 것인바, 구체적으로는 대상 검출 방법, 장치 및 전자 디바이스에 관한 것이다.
목표 검출은 지능형 비디오 분석에 있어서 중요한 부분으로서, 예를 들면 비디오 프레임 또는 장면의 이미지 내의 인체나 동물을 검출 목표로 검출할 수 있다. 관련 기술에서는 Faster RCNN(Region Convolutional Neural Network, 영역 컨볼루션 뉴럴 네트워크)등의 목표 검출기를 사용하여 비디오 프레임 또는 장면의 이미지 내의 목표 검출 프레임을 취득할 수 있다.
그러나, 밀집된 장면에서는 서로 다른 목표 사이가 서로 차폐될 가능성이 있다. 사람이 비교적 밀집해 있는 장면을 예로 들면, 서로 다른 사람 사이에 팔, 손, 발 등의 인체의 부위가 차폐될 가능성이 있다. 이러한 경우에 종래의 검출기를 사용하면, 인체의 오검출 문제가 발생될 가능성이 있는바, 예를 들면 원래 장면의 이미지 내에는 2명밖에 없으나, 3명의 인체 프레임이 검출될 가능성이 있으며, 이러한 상황을 통상 오검출이라고 부른다. 목표 검출이 부정확하면, 검출된 목표에 기반한 후속의 처리에 에러가 발생할 가능성이 있다.
본 발명은 이를 감안하여, 적어도 대상 검출 방법, 장치 및 전자 디바이스를 제공하는바, 밀집한 장면에서의 목표 검출의 정밀도를 향상시킨다.
제1 양태에 따르면, 대상 검출 방법을 제공하는바, 상기 방법은 처리 대기 이미지 내의 사람 얼굴 대상 및 인체 대상을 검출하는 것, 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것, 및 상기 매칭 관계에 기반하여 상기 인체 대상과 상기 사람 얼굴 대상이 매칭되는 것으로 확정된 것에 응답하여, 상기 인체 대상을 검출된 목표 대상으로 확정하는 것을 포함한다.
몇몇의 실시예에 있어서, 상기 처리 대기 이미지 내의 사람 얼굴 대상 및 인체 대상을 검출하는 것은, 상기 처리 대기 이미지에 대해 대상 검출을 실행하여, 상기 처리 대기 이미지 내의 사람 얼굴 대상의 검출 프레임 및 인체 대상의 검출 프레임을 얻는 것을 포함한다.
몇몇의 실시예에 있어서, 상기 방법은, 상기 매칭 관계에 기반하여 상기 처리 대기 이미지 내에 상기 인체 대상에 매칭되는 사람 얼굴 대상이 존재하지 않는 것으로 확정된 것에 응답하여, 상기 인체 대상의 검출 프레임을 제거하는 것을 더 포함한다.
몇몇의 실시예에 있어서, 상기 방법은, 상기 매칭 관계에 기반하여 상기 처리 대기 이미지 내에 상기 인체 대상에 매칭되는 사람 얼굴 대상이 존재하지 않는 것으로 확정되고, 또한 상기 인체 대상이 상기 처리 대기 이미지의 소정의 에지 영역에 위치하는 것에 응답하여, 상기 인체 대상을 검출된 목표 대상으로 확정하는 것을 더 포함한다.
몇몇의 실시예에 있어서, 상기 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것은, 상기 사람 얼굴 대상 및 상기 인체 대상의 검출 결과에 기반하여, 상기 사람 얼굴 대상 및 상기 인체 대상의 위치 정보 및/또는 시각 정보를 확정하는 것, 및 상기 위치 정보 및/또는 상기 시각 정보에 기반하여 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것을 포함한다.
몇몇의 실시예에 있어서, 상기 위치 정보는 검출 프레임의 위치 정보를 포함하고, 상기 위치 정보 및/또는 상기 시각 정보에 기반하여 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것은, 각 상기 사람 얼굴 대상에 대해, 상기 검출 프레임의 위치 정보에 기반하여, 상기 사람 얼굴 대상의 검출 프레임과의 사이가 소정의 위치 중첩 관계를 충족시키는 인체 대상의 검출 프레임을 목표 검출 프레임으로 확정하는 것, 및 상기 목표 검출 프레임 내의 인체 대상을 상기 사람 얼굴 대상에 매칭되는 인체 대상으로 확정하는 것을 포함한다.
몇몇의 실시예에 있어서, 상기 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것은, 검출된 사람 얼굴 대상이 검출된 인체 대상 및 기타 사람 얼굴 대상에 의해 차폐되지 않은 것에 응답하여, 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것을 포함한다.
몇몇의 실시예에 있어서, 검출된 상기 사람 얼굴 대상은 적어도 하나의 사람 얼굴 대상을 포함하고, 검출된 상기 인체 대상은 적어도 하나의 인체 대상을 포함하며, 상기 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것은, 검출된 각 사람 얼굴 대상을 각각 검출된 각 인체 대상과 결합시켜 적어도 하나의 사람 얼굴 인체 조합을 얻고, 각 조합에 대해 상기 매칭 관계를 확정하는 것을 포함한다.
몇몇의 실시예에 있어서, 상기 처리 대기 이미지 내의 사람 얼굴 대상 및 인체 대상을 검출하는 것은 대상 검출 네트워크를 채용하여, 상기 처리 대기 이미지에 대해 대상 검출을 실행하여, 상기 처리 대기 이미지 내의 사람 얼굴 대상의 검출 프레임 및 인체 대상의 검출 프레임을 얻는 것을 포함하고, 상기 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것은 매칭 검출 네트워크를 채용하여 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것을 포함하며, 여기서, 트레이닝 대기의 상기 대상 검출 네트워크를 이용하여 샘플 이미지 내의 적어도 하나의 사람 얼굴 프레임 및 적어도 하나의 인체 프레임을 검출하는 것, 트레이닝 대기의 상기 매칭 검출 네트워크를 이용하여 검출된 사람 얼굴 프레임과 인체 프레임 사이의 매칭 관계의 예측값을 취득하는 것, 및 상기 매칭 관계의 예측값과 라벨값 사이의 차이에 기반하여, 상기 대상 검출 네트워크 및 매칭 검출 네트워크 중의 적어도 하나의 네트워크 파라미터를 조정하는 것을 통해, 상기 대상 검출 네트워크 및 상기 매칭 검출 네트워크를 트레이닝한다.
제2 양태에 따르면, 대상 검출 장치를 제공하는바, 상기 장치는 처리 대기 이미지 내의 사람 얼굴 대상 및 인체 대상을 검출하기 위한 검출 처리 모듈, 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하기 위한 매칭 처리 모듈, 및 상기 매칭 관계에 기반하여 상기 인체 대상과 상기 사람 얼굴 대상이 매칭되는 것으로 확정된 것에 응답하여, 상기 인체 대상을 검출된 목표 대상으로 확정하기 위한 목표 대상 확정 모듈을 구비한다.
몇몇의 실시예에 있어서, 상기 검출 처리 모듈은 또한, 상기 처리 대기 이미지에 대해 대상 검출을 실행하여, 상기 처리 대기 이미지 내의 사람 얼굴 대상의 검출 프레임 및 인체 대상의 검출 프레임을 얻는다.
몇몇의 실시예에 있어서, 상기 목표 대상 확정 모듈은 또한, 상기 매칭 관계에 기반하여 상기 처리 대기 이미지 내에 상기 인체 대상에 매칭되는 사람 얼굴 대상이 존재하지 않는 것으로 확정된 것에 응답하여, 상기 인체 대상의 검출 프레임을 제거한다.
몇몇의 실시예에 있어서, 상기 목표 대상 확정 모듈은 또한, 상기 매칭 관계에 기반하여 상기 처리 대기 이미지 내에 상기 인체 대상에 매칭되는 사람 얼굴 대상이 존재하지 않는 것으로 확정되고, 또한 상기 인체 대상이 상기 처리 대기 이미지의 소정의 에지 영역에 위치하는 것에 응답하여, 상기 인체 대상을 검출된 목표 대상으로 확정한다.
몇몇의 실시예에 있어서, 상기 매칭 처리 모듈은 또한, 상기 사람 얼굴 대상 및 상기 인체 대상의 검출 결과에 기반하여, 상기 사람 얼굴 대상 및 상기 인체 대상의 위치 정보 및/또는 시각 정보를 확정하고, 또한 상기 위치 정보 및/또는 상기 시각 정보에 기반하여 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정한다.
몇몇의 실시예에 있어서, 상기 위치 정보는 검출 프레임의 위치 정보를 포함하고, 상기 매칭 처리 모듈은 또한, 각 상기 사람 얼굴 대상에 대해, 검출 프레임의 위치 정보에 기반하여, 상기 사람 얼굴 대상의 검출 프레임과의 사이가 소정의 위치 중첩 관계를 충족시키는 인체 대상의 검출 프레임을 목표 검출 프레임으로 확정하고, 또한 상기 목표 검출 프레임 내의 인체 대상을 상기 사람 얼굴 대상에 매칭되는 인체 대상으로 확정한다.
몇몇의 실시예에 있어서, 상기 매칭 처리 모듈은 또한, 검출된 사람 얼굴 대상이 검출된 인체 대상 및 기타 사람 얼굴 대상에 의해 차폐되지 않은 것에 응답하여, 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정한다.
몇몇의 실시예에 있어서, 검출된 상기 사람 얼굴 대상은 적어도 하나의 사람 얼굴 대상을 포함하고, 검출된 상기 인체 대상은 적어도 하나의 인체 대상을 포함하며, 상기 매칭 처리 모듈은 또한, 검출된 각 사람 얼굴 대상을 각각 검출된 각 인체 대상과 결합시켜 적어도 하나의 사람 얼굴 인체 조합을 얻고, 각 조합에 대해 상기 매칭 관계를 확정한다.
몇몇의 실시예에 있어서, 상기 검출 처리 모듈은 또한, 대상 검출 네트워크를 채용하여, 상기 처리 대기 이미지에 대해 대상 검출을 실행하여, 상기 처리 대기 이미지 내의 사람 얼굴 대상의 검출 프레임 및 인체 대상의 검출 프레임을 얻고, 상기 매칭 처리 모듈은 또한, 매칭 검출 네트워크를 채용하여 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하며, 상기 장치는 트레이닝 대기의 상기 대상 검출 네트워크를 이용하여 샘플 이미지 내의 적어도 하나의 사람 얼굴 프레임 및 적어도 하나의 인체 프레임을 검출하고, 또, 트레이닝 대기의 상기 매칭 검출 네트워크를 이용하여 검출된 사람 얼굴 프레임과 인체 프레임 사이의 매칭 관계의 예측값을 취득하고, 또한 상기 매칭 관계의 예측값과 라벨값 사이의 차이에 기반하여, 상기 대상 검출 네트워크 및 매칭 검출 네트워크 중의 적어도 하나의 네트워크 파라미터를 조정하기 위한 네트워크 트레이닝 모듈을 더 구비한다.
제3 양태에 따르면, 전자 디바이스를 제공하는바, 상기 전자 디바이스는 메모리 및 프로세서를 구비하며, 상기 메모리는 프로세서 상에서 운행 가능한 컴퓨터 명령을 저장하고, 상기 프로세서는 상기 컴퓨터 명령을 실행할 때에, 본 발명이 임의의 실시예의 방법을 구현한다.
제4 양태에 따르면, 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체를 제공하는바, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때에 상기 프로세서가 본 발명이 임의의 실시예의 방법을 구현하도록 한다.
제5 양태에 따르면, 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램을 제공하는바, 상기 컴퓨터 판독 가능 코드가 전자 디바이스에 의해 운행될 때에, 상기 전자 디바이스의 프로세서가 본 발명이 임의의 실시예의 방법을 구현하도록 한다.
본 발명의 실시예에 의해 제공되는 대상 검출 방법, 장치 및 전자 디바이스에 따르면, 인체 대상과 사람 얼굴 대상 사이의 매칭 관계의 검출을 이용하여 인체 대상의 검출을 보조함으로써, 매칭되는 사람 얼굴 대상이 존재하는 인체 대상을 검출하여 얻은 목표 대상으로 설정한다. 한편으로는, 사람 얼굴 대상의 검출 정밀도가 상대적으로 높기 때문에, 당해 사람 얼굴 대상을 이용하여 인체 대상의 검출을 보조할 수 있고, 또한 인체 대상의 검출 정밀도를 향상시킬 수 있으며, 다른 한편으로는, 당해 사람 얼굴 대상이 인체 대상에 속하므로, 사람 얼굴 대상의 검출은 인체 대상의 위치 결정을 보조하는 역할을 발휘할 수 있다. 당해 해결방안은 오검출을 감소시킬 수 있고, 인체 대상의 검출 정밀도를 향상시켰다.
이하, 본 발명의 하나 또는 복수의 실시예의 기술적 해결방안을 더 명확히 설명하기 위하여, 실시예의 설명에 필요한 도면을 간단히 소개한다. 분명히, 이하의 설명에 있어서의 도면은 본 발명의 하나 또는 복수의 실시예에 기재된 몇몇의 실시예에 지나지 않으며, 당업자는 발명적인 노력을 가하지 않고 이러한 도면에 기반하여 다른 도면을 얻을 수 있다.
도 1은 본 발명의 적어도 하나의 실시예에 의해 제공되는 대상 검출 방법을 나타내는 플로우 챠트이다.
도 2는 본 발명의 적어도 하나의 실시예에 의해 제공되는 인체 대상 및 사람 얼굴 대상의 검출 프레임을 나타내는 모식도이다.
도 3은 본 발명의 적어도 하나의 실시예에 의해 제공되는 대상 검출 방법에 사용되는 네트워크 아키텍쳐를 나타내는 모식도이다.
도 4는 본 발명의 적어도 하나의 실시예에 의해 제공되는 대상 검출 장치의 구성을 나타내는 모식도이다.
도 5는 본 발명의 적어도 하나의 실시예에 의해 제공되는 대상 검출 장치의 구성을 나타내는 모식도이다.
이하, 당업자가 본 발명의 하나 또는 복수의 실시예의 기술적 해결방안을 더 잘 이해하도록 하기 위하여, 본 발명의 하나 또는 복수의 실시예의 도면과 결합시켜, 본 발명의 하나 또는 복수의 실시예의 기술적 해결방안을 명확하고 완전히 설명한다. 분명히, 설명되는 실시예는 모든 실시예가 아닌바, 본 발명의 일부 실시예에 지나지 않는다. 본 발명의 하나 또는 복수의 실시예에 기반하여, 당업자가 발명적인 노력을 가하지 않고 얻은 기타의 모든 실시 형태는 본 공개의 보호 범위 내에 포함될 것이다.
밀집한 장면에서 목표를 검출할 때에, 오검출이 발생할 경우가 있다. 예를 들면, 사람이 비교적 밀집해 있는 게임장에서는 많은 사람이 당해 게임장에 모여서 게임을 플레이하기 때문에, 당해 게임장에 대해 수집한 이미지 내에는 발의 차폐, 팔의 차폐 등과 같은 사람들의 사이에 서로 차폐되는 상황이 존재한다. 이러한 인체 사이의 차폐는 오검출의 발생을 초래할 가능성이 있다. 본 발명의 실시예는 밀집한 장면에 있어서의 목표 검출의 정확성을 향상시키기 위한 대상 검출 방법을 제공하는바, 당해 방법은 사람이 밀집해 있는 장면에 있어서의 각 인체를 목표 대상으로 검출하는데 적용된다.
도 1은 본 발명의 적어도 하나의 실시예에 의해 제공되는 대상 검출 방법을 나타내는 플로우 챠트이다. 도 1에 나타낸 바와 같이, 당해 방법은 이하의 처리를 포함할 수 있다.
단계 100에 있어서, 처리 대기 이미지 내의 사람 얼굴 대상 및 인체 대상을 검출한다.
상기의 처리 대기 이미지는 하나의 밀집한 장면의 이미지이며, 당해 이미지로부터 소정의 목표 대상을 검출하려 한다. 예시적으로, 당해 처리 대기 이미지는 멀티 플레이어 게임의 장면의 이미지일 수 있다. 검출 목적은 당해 처리 대기 이미지 내의 사람 수를 검출하는 것이기 때문에, 이미지 내의 각 사람을 하나의 검출 대기의 목표 대상이라고 부를 수 있다.
본 단계에 있어서, 당해 처리 대기 이미지 내에 포함되어 있는 각 사람 얼굴 대상 및 인체 대상을 검출할 수 있다. 일 예에 있어서, 처리 대기 이미지 내의 사람 얼굴 대상 및 인체 대상을 검출할 때에, 당해 처리 대기 이미지 대상에 대해 검출을 실행하여, 이미지 내의 사람 얼굴 대상의 검출 프레임 및 인체 대상의 검출 프레임을 얻을 수 있다. 예를 들면, 처리 대기 이미지에 대해 특징 추출을 실행하여 이미지 특징을 얻고, 또한 당해 이미지 특징에 기반하여 대상 검출을 실행하여, 상기의 사람 얼굴 대상의 검출 프레임 및 인체 대상의 검출 프레임을 얻을 수 있다.
도 2는 이미 검출하여 얻은 복수의 검출 프레임을 모식적으로 나타낸다. 도 2에 나타낸 바와 같이, 검출 프레임(21)에는 하나의 인체 대상이 포함되어 있으며, 검출 프레임(22)에는 다른 하나의 인체 대상이 포함되어 있다. 검출 프레임(23)에는 하나의 사람 얼굴 대상이 포함되어 있으며, 검출 프레임(24)에는 다른 하나의 사람 얼굴 대상이 포함되어 있다.
단계 102에 있어서, 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정한다.
본 단계에 있어서, 검출된 상기 사람 얼굴 대상은 적어도 하나의 사람 얼굴 대상을 포함할 수 있고, 검출된 상기 인체 대상은 적어도 하나의 인체 대상을 포함할 수 있다. 단계 100에서 검출하여 얻은 각 검출 프레임에 기반하여, 검출된 각 사람 얼굴 대상을 각각 검출된 각 인체 대상과 결합시켜 적어도 하나의 사람 얼굴 인체 조합을 얻고, 각 조합에 대해 상기 매칭 관계를 확정할 수 있다. 예를 들면, 도 2의 예에 있어서, 검출 프레임(21)과 검출 프레임(23) 사이의 매칭 관계를 검출할 수도 있고, 상기의 검출 프레임(22)과 검출 프레임(24) 사이의 매칭 관계를 검출할 수도 있으며, 검출 프레임(21)과 검출 프레임(24) 사이의 매칭 관계를 검출할 수도 있고, 또한 검출 프레임(22)과 검출 프레임(23) 사이의 매칭 관계를 검출할 수도 있다.
상기의 매칭 관계는 사람 얼굴 대상과 인체 대상이 매칭되는지 여부를 나타낸다. 예를 들면, 한 사람에 속하는 사람 얼굴 대상과 인체 대상이 매칭되는 것으로 확정할 수 있다. 예시적으로, 검출 프레임(21)에 포함된 인체 대상과 검출 프레임(23)에 포함된 사람 얼굴 대상은 이미지 내의 한 사람에게 속하기에, 이 양자는 매칭된다. 반대로, 검출 프레임(21)에 포함된 인체 대상과 검출 프레임(24)에 포함된 사람 얼굴 대상은 한 사람에게 속하지 않기에, 이 양자는 매칭되지 않는다.
실제로 실시할 때에, 다양한 방법으로 상기의 매칭 관계를 검출할 수 있는바, 예시적인 일 실시 형태에 있어서, 사람 얼굴 대상 및 인체 대상의 검출 결과에 기반하여, 사람 얼굴 대상 및 상기 인체 대상의 위치 정보 및/또는 시각 정보를 확정할 수 있고, 또한 당해 위치 정보 및/또는 시각 정보에 기반하여 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정할 수 있다.
여기서, 상기의 위치 정보는 사람 얼굴 대상 및 인체 대상의 이미지 내의 공간적 위치, 또는 사람 얼굴 대상과 인체 대상 사이의 공간 분포 관계를 나타낼 수 있다. 시각 정보는 이미지 내의 각 대상의 시각적 특징 정보를 나타내며, 일반적으로는 이미지 특징인바, 예를 들면 이미지에 대해 시각 특징 추출을 실행하여 얻은 이미지 내의 사람 얼굴 대상이나 인체 대상의 이미지 특징일 수 있다.
일 예에 있어서, 각 상기 사람 얼굴 대상에 대해, 검출된 인체 대상 및 사람 얼굴 대상의 검출 프레임의 위치 정보에 기반하여, 사람 얼굴 대상의 검출 프레임 사이가 소정의 위치 중첩 관계를 충족시키는 인체 대상의 검출 프레임을 목표 검출 프레임으로 확정하고, 목표 검출 프레임 내의 인체 대상을 사람 얼굴 대상과 매칭되는 인체 대상으로 확정할 수 있다. 예시적으로, 소정의 위치 중첩 관계는 사람 얼굴 대상의 검출 프레임과 인체 대상의 검출 프레임 사이에 중첩이 존재하고, 또한 중첩 면적이 사람 얼굴 대상의 검출 프레임 면적을 차지하는 비례가 90%이상에 달하는 것일 수 있다. 단계 100에서 검출된 각 사람 얼굴 대상의 검출 프레임과 각 인체 대상의 검출 프레임을 각각 쌍으로 결합시켜 각 쌍의 두 개의 검출 프레임이 상기의 소정의 중복 관계를 충족시키는지 여부를 검출하고, 이 두 개의 검출 프레임이 상기의 소정의 중복 관계를 충족시키면, 이 두 개의 검출 프레임 내에 포함된 사람 얼굴 대상과 인체 대상이 매칭되는 것으로 확정한다.
다른 일 예에 있어서, 사람 얼굴 대상 및 인체 대상의 시각 정보에 기반하여 양자의 매칭 관계를 확정할 수 있다. 예를 들면, 검출된 사람 얼굴 대상 및 인체 대상에 기반하여, 이러한 대상의 이미지 특징 즉 시각 정보를 취득하고, 양자의 시각 정보를 종합하여 사람 얼굴 대상과 인체 대상이 매칭되는지 여부를 확정할 수 있다. 예시적으로, 뉴럴 네트워크를 트레이닝하여 상기의 시각 정보에 기반하여 매칭 관계의 검출을 실행하고, 트레이닝이 완료된 상기 뉴럴 네트워크를 이용하여 입력된 양자의 시각 정보에 기반하여 사람 얼굴 대상과 인체 대상이 매칭되는지 여부의 결과를 얻을 수 있다.
또 다른 일 예에 있어서, 사람 얼굴 대상 및 인체 대상의 위치 정보와 시각 정보를 조합시켜 사람 얼굴 대상과 인체 대상 사이의 매칭 관계를 검출할 수 있다. 예시적으로, 사람 얼굴 대상 및 인체 대상의 시각 정보에 기반하여, 사람 얼굴 대상과 인체 대상 사이가 매칭되는지 여부를 확정할 수 있고, 양자의 위치 정보를 결합시켜 사람 얼굴 대상과 인체 대상 사이가 매칭되는지 여부를 확정할 수 있다. 예를 들면, 사람 얼굴 대상과 인체 대상의 공간 상 분포 관계 및 양자의 시각 정보를 조합시키거나, 사람 얼굴 대상과 인체 대상의 검출 프레임 사이의 위치 중첩 관계 및 양자의 시각 정보를 결합시켜 트레이닝을 거친 뉴럴 네트워크를 사용하여, 사람 얼굴 대상과 인체 대상 사이가 매칭되는지 여부를 종합적으로 확정할 수 있다. 당해 트레이닝을 거친 뉴럴 네트워크는 시각 정보 매칭 분기 및 위치 정보 매칭 분기를 포함할 수 있으며, 시각 정보 매칭 분기를 이용하여 사람 얼굴 대상과 인체 대상의 시각 정보를 매칭하고, 위치 정보 매칭 분기를 이용하여 사람 얼굴 대상과 인체 대상의 위치 정보를 매칭하며, 두 개의 분기의 매칭 결과를 종합하여 사람 얼굴 대상과 인체 대상이 매칭되는지 여부의 결과를 얻을 수 있다. 또는 당해 트레이닝을 거친 뉴럴 네트워크는 "종단 간” 모드를 채용하여, 사람 얼굴 대상의 시각 정보 및 위치 정보와 인체 대상의 시각 정보 및 위치 정보에 대해 처리를 실행하여, 사람 얼굴 대상과 인체 대상의 매칭 관계를 얻을 수 있다.
단계 104에 있어서, 상기 매칭 관계에 기반하여 상기 인체 대상과 상기 사람 얼굴 대상이 매칭되는 것으로 확정된 것에 응답하여, 상기 인체 대상을 검출된 목표 대상으로 확정한다.
본 단계에 있어서, 단계 102에서 매칭 관계를 검출한 후, 하나의 인체 대상의 경우, 이미지 내에 당해 인체 대상에 매칭되는 사람 얼굴 대상이 존재하면, 당해 인체 대상을 검출된 목표 대상으로 확정할 수 있다. 반대로, 하나의 인체 대상의 경우, 이미지 내에 당해 인체 대상에 매칭되는 사람 얼굴 대상이 존재하지 않으면, 당해 인체 대상을 최종적으로 검출하여 얻은 목표 대상으로 확정하지 않는다.
한편, 사람 얼굴 대상과 인체 대상 사이의 매칭 관계를 검출한 후, 검출된 매칭 관계에 기반하여, 특정 인체 대상에 대해 당해 인체 대상에 매칭되는 사람 얼굴 대상이 존재하지 않는 것으로 확정되면, 당해 인체 대상의 검출 프레임을 제거할 수 있다. 예를 들면, 이미지 내에서 하나의 인체 대상의 검출 프레임이 검출되고, 당해 검출 프레임이 이미지의 소정의 에지 영역에 위치하며(상기의 소정의 에지 영역은 미리 정의된 이미지 에지와의 거리가 있는 범위 내에 있는 영역일 수 있음), 또한 이미지 내에 당해 검출 프레임 내의 인체 대상에 매칭되는 사람 얼굴 대상이 존재하지 않는다고 가정하면, 당해 검출 프레임 내의 인체 대상을 검출된 목표 대상으로 검출하지 않는다. 옵션으로서, 이미지의 소정의 에지 영역에 위치하는 이 검출 프레임을 제거할 수 있다.
기타 예에 있어서, 인체 대상의 검출 프레임이 이미지 에지에 위치하기에 당해 인체 대상에 매칭되는 사람 얼굴 대상이 없으면, 검출 프레임 내의 인체 대상을 목표 대상으로 확정할 수 있다. 예를 들면, 매칭 관계의 검출을 통해 검출 프레임 내의 인체 대상에 대해 당해 인체 대상에 매칭되는 사람 얼굴 대상이 존재하지 않는 것으로 확정되었을 경우, 또한 당해 검출 프레임이 이미지의 소정의 에지 영역에 위치하고 있는지 여부를 판단하고, 당해 검출 프레임이 상기 소정의 에지 영역에 위치하는 것이 확정되면, 이미지 내에 당해 인체 대상에 매칭되는 사람 얼굴 대상이 존재하지 않을지라도, 당해 인체 대상을 검출된 목표 대상으로 확정할 수 있다. 실제로 실시할 때에, 이러한 경우의 인체 대상을 최종적으로 검출된 목표 대상으로 검출할지 여부는 실제의 비즈니스 요건에 따라 유연하게 확정할 수 있다. 예를 들면, 인원수를 통계하는 장면에 있어서, 이러한 경우의 인체 대상을 최종적으로 검출된 목표 대상으로 유지할 수 있다.
한편, 상기의 매칭 관계를 검출하기 전에, 또한 사람 얼굴 대상이 다른 사람 얼굴 대상 또는 임의의 인체 대상에 의해 차폐되었는지 여부를 검출할 수 있다. 사람 얼굴 대상이 다른 사람 얼굴 대상 및 임의의 인체 대상에 의해 차폐되지 않았을 경우, 당해 사람 얼굴 대상과 검출된 인체 대상 사이의 매칭 관계를 확정하는 조작을 실행한다. 반대로, 검출된 특정 사람 얼굴 대상이 다른 사람 얼굴 대상에 의해 차폐되었거나, 검출된 당해 사람 얼굴 대상이 이미지 내의 임의의 인체 대상에 의해 차폐되었을 경우, 검출 결과에서 당해 사람 얼굴 대상을 삭제할 수 있다. 예를 들면, 멀티 플레어 탁상 게임의 장면에 있어서, 게임에 참가하는 인원수가 일반적으로 비교적 많으며, 몸의 차폐 또는 사람 얼굴의 일부의 차폐 등 서로 다른 사람들이 서로 차폐되는 경우가 존재한다. 이러한 경우, 사람 얼굴이 다른 사람의 몸 또는 사람 얼굴에 의해 차폐되면, 사람 얼굴 대상의 검출 정밀도가 저하될 가능성이 있기에, 당해 사람 얼굴 대상에 기반하여 인체 대상 검출을 보조하면 인체 대상의 검출 정밀도도 영향을 받게 된다. 상술한 바와 같이, 사람 얼굴 대상이 다른 인체 또는 사람 얼굴에 의해 차폐되지 않은 것으로 확정되었을 경우, 사람 얼굴 대상 자체의 검출이 상대적으로 높은 정밀도를 가지며, 당해 사람 얼굴 대상을 사용하여 인체 대상의 검출을 보조하면, 인체 대상의 검출 정밀도의 향상을 지원할 수 있다.
또한 특정 사람 얼굴 대상의 검출 프레임과 인체 대상의 검출 프레임 사이가 소정의 위치 중첩 관계를 충족시키고, 또한 당해 사람 얼굴 대상이 다른 사람 얼굴 대상 및 인체 대상에 의해 차폐되지 않은 것이 검출되면, 당해 사람 얼굴 대상과 인체 대상이 매칭되는 것으로 확정할 수 있다. 예를 들면, 도 2을 참조하면, 검출 프레임(21) 내의 인체 대상과 검출 프레임(23) 내의 사람 얼굴 대상이 소정의 위치 중첩 관계를 충족시키고, 프레임(23) 내의 사람 얼굴 대상이 다른 사람 얼굴 대상 및 인체 대상에 의해 차폐되지 않은 것이 검출되면, 상기의 두 개의 검출 프레임 내의 인체 대상과 사람 얼굴 대상 사이가 매칭되고, 또한 당해 검출 프레임(21) 내의 인체 대상이 검출된 목표 대상인 것으로 확정할 수 있다.
본 발명의 실시예의 대상 검출 방법에 따르면, 인체 대상과 사람 얼굴 대상 사이의 매칭 관계의 검출을 이용하여 인체 대상의 검출을 보조함으로써, 매칭되는 사람 얼굴 대상이 존재하는 인체 대상을 검출하여 얻은 목표 대상으로 설정한다. 한편으로는, 사람 얼굴 대상의 검출 정밀도가 상대적으로 높기 때문에, 당해 사람 얼굴 대상을 이용하여 인체 대상의 검출을 보조할 수 있고, 또한 인체 대상의 검출 정밀도를 향상시킬 수 있으며, 다른 한편으로는, 당해 사람 얼굴 대상이 인체 대상에 속하므로, 사람 얼굴 대상의 검출은 인체 대상의 위치 결정을 보조하는 역할을 발휘할 수 있다. 당해 해결방안은 오검출을 감소시킬 수 있고, 목표 대상의 검출 정밀도를 향상시켰다.
한편, 사람이 밀집해 있는 장면에 있어서, 복수의 인체 사이에 교차 또는 차폐가 존재하고, 종래의 인체 검출 방법에서는 다른 사람의 서로 교차된 몸을 인체 대상으로 검출할 가능성이 있지만, 본 실시예의 대상 검출 방법에서는 검출된 인체 대상에 대해 사람 얼굴 대상 매칭을 실행함으로써, 이러한 오검출되는 인체 대상을 효과적으로 필터링할 수 있고, 더 정확한 인체 대상 검출 결과를 제공할 수 있다.
도 3은 본 발명의 적어도 하나의 실시예에 의해 제공되는 대상 검출 방법에 사용되는 네트워크 아키텍쳐를 나타내는 모식도이다. 도 3에 나타낸 바와 같이, 목표 검출을 실행하기 위한 당해 네트워크는 특징 추출 네트워크(31), 대상 검출 네트워크(32) 및 매칭 검출 네트워크(33)를 구비할 수 있다.
특징 추출 네트워크(31)는 처리 대기 이미지(도 3 중의 입력 이미지)에 대해 특징 추출을 실행하여, 이미지 특징 맵을 얻는다. 일 예에 있어서, 당해 특징 추출 네트워크(31)는 백본 네트워크(backbone) 및 FPN(Feature Pyramid Networks, 특징 피라미드 네트워크)을 포함할 수 있다. 처리 대기 이미지가 백본 네트워크 및 FPN에 의해 순서대로 처리되어 특징 맵이 추출될 수 있다.
예를 들면, 백본 네트워크는 VGGNet, ResNet등을 사용할 수 있고, FPN은 백본 네트워크에서 얻어진 특징 맵에 기반하여, 다층 피라미드 구조의 특징 맵으로 변환할 수 있다. 상기의 백본 네트워크는 목표 검출 네트워크 이미지 특징을 추출하는 부분인 backbone이며, FPN은 목표 검출 네트워크의 neck의 부분에 상당하고, 특징 강조 처리를 실행하여 backbone에 의해 추출된 얕은 특징을 강조할 수 있다.
대상 검출 네트워크(32)는 상기 이미지 특징 맵에 기반하여 대상 검출을 실행하고, 상기 처리 대기 이미지 내의 적어도 하나의 사람 얼굴 프레임 및 적어도 하나의 인체 프레임을 검출하여 취득하며, 상기의 사람 얼굴 프레임은 사람 얼굴 대상의 검출 프레임을 포함하고, 상기의 인체 프레임은 인체 대상의 검출 프레임을 포함한다.
도 3에 나타낸 바와 같이, 당해 대상 검출 네트워크(32)는 RPN(Region Proposal Network, 영역 생성 네트워크) 및 RCNN(영역 컨볼루션 뉴럴 네트워크)을 포함할 수 있고, 여기서, RPN은 FPN에 의해 출력된 이미지 특징 맵에 기반하여 각 대상의 앵커 프레임(anchor)을 예측하여 얻을 수 있고, RCNN은 앵커 프레임 및 FPN에 의해 출력된 이미지 특징 맵에 기반하여 복수의 바운딩 프레임(bbox)을 예측하여 얻을 수 있고, 당해 바운딩 프레임은 인체 대상 또는 사람 얼굴 대상을 포함할 수 있다. 상술한 바와 같이, 인체를 포함하는 대상의 bbox가 인체 프레임이며, 사람 얼굴 대상을 포함하는 bbox가 사람 얼굴 프레임이다.
매칭 검출 네트워크(33)는 RCNN에 의해 출력된 바운딩 프레임 내의 인체 대상, 사람 얼굴 대상 및 이미지 특징 맵에 기반하여, 사람 얼굴 대상과 인체 대상 사이의 매칭 관계를 검출한다.
상기의 대상 검출 네트워크(32) 및 매칭 검출 네트워크(33)는 대상 검출 태스크 중의 검출기에 상당하며, 검출 결과를 출력하기 위하여 사용된다. 본 발명의 실시예의 검출 결과는 인체 대상, 사람 얼굴 대상 및 매칭 쌍을 포함한다. 상기의 매칭 쌍이 매칭되는 한 쌍의 인체 대상과 사람 얼굴 대상이다.
본 발명의 실시예는 상기의 특징 추출 네트워크(31), 대상 검출 네트워크(32) 및 매칭 검출 네트워크(33)의 네트워크 구성에 대해 한정하지 않으며, 도 3에 나타낸 구성은 일 예에 지나지 않음을 설명할 필요가 있다. 예를 들면, 도 3 내의 FPN을 사용하지 않고, backbone에 의해 추출된 특징 맵에 대해 직접 RPN/RCNN등을 이용하여 대상 위치의 예측을 실행할 수도 있다. 또한 예를 들면, 도 3에 예시한 것은 2 스테이지(two stage)을 채용하여 목표 검출을 실행하는 네트워크 프레임 워크이며, 특징 추출 네트워크 및 대상 검출 네트워크를 사용하여 대상 검출을 실행하지만, 실제로 실시할 때에는 1 스테이지(one stage)의 목표 검출 네트워크를 채용할 수도 있는바, 즉 독립된 특징 추출 네트워크를 설정할 필요가 없고, 1 스테이지의 목표 검출 네트워크를 본 실시예의 대상 검출 네트워크로 사용하여, 특징 추출 및 대상 검출을 구현할 수 있다. 1 스테이지의 목표 검출 네트워크를 채용할 경우, 인체 대상 및 사람 얼굴 대상을 예측하여 얻은 후, 또한 당해 인체 대상 및 사람 얼굴 대상에 기반하여 그 중의 매칭 쌍을 예측할 수 있다.
도 3에 나타낸 네트워크 구성에 대해, 먼저 당해 네트워크를 트레이닝하고, 또한 트레이닝된 네트워크를 이용하여 처리 대기 이미지 내의 목표 대상을 검출할 수 있다. 이하, 당해 네트워크의 트레이닝 및 적용 과정을 설명한다.
샘플 이미지를 이용하여 네트워크 트레이닝을 실행할 수 있다. 예를 들면, 샘플 이미지 세트를 취득하고, 당해 샘플 이미지 세트 중의 각각의 샘플 이미지를 도 3에 나타낸 특징 추출 네트워크(31)에 입력하여, 추출된 이미지 특징 맵을 얻는다. 그 다음, 대상 검출 네트워크(32)를 이용하여 상기 이미지 특징 맵에 기반하여, 상기 샘플 이미지 내의 적어도 하나의 사람 얼굴 프레임 및 적어도 하나의 인체 프레임을 검출하여 취득한다. 매칭 검출 네트워크(33)를 이용하여 검출된 사람 얼굴 프레임과 인체 프레임 사이의 매칭 관계를 취득하며, 예를 들면 임의 사람 얼굴 프레임과 임의의 인체 프레임을 조합시켜 사람 얼굴 인체 조합을 형성하고, 당해 조합 중의 사람 얼굴 대상과 인체 대상이 매칭되는지 여부를 검출하며, 매칭 관계의 검출 결과를 매칭 관계의 예측값이라고 부르고, 매칭 관계의 실제값을 매칭 관계의 라벨값이라고 부를 수 있다. 마지막으로, 매칭 관계의 라벨값과 상기 예측값 사이의 차이에 기반하여, 상기 특징 추출 네트워크, 대상 검출 네트워크 및 매칭 검출 네트워크 중의 적어도 하나의 네트워크 파라미터를 조정한다. 소정의 네트워크 트레이닝 종료 조건에 달한 후에, 네트워크 트레이닝을 종료하고, 트레이닝된 당해 도 3에 나타낸 목표 검출을 위한 네트워크 구성을 얻는다.
네트워크 트레이닝이 완료된 후에, 예를 들면 특정 처리 대기 이미지 내에 포함된 몇 개의 인체를 검출하려고 하며, 여기서, 당해 처리 대기 이미지 내의 다른 각 사람 사이에는 차폐가 존재한다. 이 경우, 당해 처리 대기 이미지에 대해 도 3에 나타낸 네트워크 아키텍쳐를 따라 처리를 실행할 수 있다. 먼저, 트레이닝된 특징 추출 네트워크(31)를 이용하여 이미지 특징 맵을 추출하여 얻고, 계속하여 트레이닝된 대상 검출 네트워크(32)를 이용하여 이미지 내의 사람 얼굴 프레임 및 인체 프레임을 취득하며, 또한 트레이닝된 매칭 검출 네트워크(33)를 이용하여 매칭되는 사람 얼굴 대상과 인체 대상을 검출하여 매칭 쌍을 취득한다. 그 다음, 사람 얼굴 대상의 매칭에 실패한 인체 대상에 제거하여, 당해 인체 대상을 검출된 목표 대상으로 검출하지 않는다. 인체 대상에 당해 인체 대상에 매칭되는 사람 얼굴 대상이 없으면, 당해 인체 대상이 인체 오검출에 속한다고 간주할 수 있다. 이렇게 하여, 정밀도가 상대적으로 높은 사람 얼굴 대상의 검출 결과를 이용하여 인체 대상의 검출 결과를 필터링함으로써, 인체 대상 검출 정밀도를 향상시킬 수 있고, 특히 복수의 사람 장면 인체 대상의 사이가 차폐되는 경우에 적용하면 오검출을 감소시킬 수 있다.
본 발명의 실시예의 대상 검출 방법에 따르면, 정밀도가 상대적으로 높은 사람 얼굴 대상의 검출 및 사람 얼굴 대상과 인체 대상 사이의 관련 관계를 이용하여 인체 대상의 검출을 보조함으로써, 인체 대상의 검출 정밀도를 향상시켜, 대상 사이가 차폐되어 야기되는 오검출 문제를 해결했다.
몇몇의 실시예에 있어서, 처리 대기 이미지 내의 목표 대상의 검출 결과를 보존할 수 있으며, 예를 들면 1회의 멀티 플레이어 게임에서, 당해 검출 결과를 당해 회의 멀티 플레이어 게임의 캐쉬에 보존하고, 캐쉬의 정보를 이용하여 게임 상태나 사람들의 변화 상황을 분석할 수 있다. 또는 처리 대기 이미지 내의 목표 대상의 검출 결과를 시각적으로 표시할 수 있는바, 예를 들면 처리 대기의 이미지 내에 검출된 목표 대상의 검출 프레임을 그려 표시할 수 있다.
본 발명이 임의의 실시예의 대상 검출 방법을 구현하기 위하여, 도 4는 본 발명의 적어도 하나의 실시예에 의해 제공되는 대상 검출 장치의 구성을 나타내는 모식도를 나타낸다. 도 4에 나타낸 바와 같이, 당해 장치는 검출 처리 모듈(41), 매칭 처리 모듈(42) 및 목표 대상 확정 모듈(43)을 구비할 수 있다.
검출 처리 모듈(41)은 처리 대기 이미지 내의 사람 얼굴 대상 및 인체 대상을 검출한다.
매칭 처리 모듈(42)은 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정한다.
목표 대상 확정 모듈(43)은 상기 매칭 관계에 기반하여 상기 인체 대상과 상기 사람 얼굴 대상이 매칭되는 것으로 확정된 것에 응답하여, 상기 인체 대상을 검출된 목표 대상으로 확정한다.
일 예에 있어서, 검출 처리 모듈(41)은 또한 상기 처리 대기 이미지에 대해 대상 검출을 실행하여, 상기 처리 대기 이미지 내의 사람 얼굴 대상의 검출 프레임 및 인체 대상의 검출 프레임을 얻는다.
일 예에 있어서, 목표 대상 확정 모듈(43)은 또한 상기 매칭 관계에 기반하여 상기 처리 대기 이미지 내에 상기 인체 대상에 매칭되는 사람 얼굴 대상이 존재하지 않는 것으로 확정된 것에 응답하여, 상기 인체 대상의 검출 프레임을 제거한다.
일 예에 있어서, 목표 대상 확정 모듈(43)은 또한 상기 매칭 관계에 기반하여 상기 처리 대기 이미지 내에 상기 인체 대상에 매칭되는 사람 얼굴 대상이 존재하지 않는 것으로 확정되고, 또한 상기 인체 대상이 상기 처리 대기 이미지의 소정의 에지 영역에 위치하는 것에 응답하여, 상기 인체 대상을 검출된 목표 대상으로 확정한다.
일 예에 있어서, 매칭 처리 모듈(42)은 또한 상기 사람 얼굴 대상 및 상기 인체 대상의 검출 결과에 기반하여, 상기 사람 얼굴 대상 및 상기 인체 대상의 위치 정보 및/또는 시각 정보를 확정하고, 상기 위치 정보 및/또는 시각 정보에 기반하여 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정한다.
일 예에 있어서, 상기 위치 정보는 검출 프레임의 위치 정보를 포함하고, 매칭 처리 모듈(42)은 또한 각 상기 사람 얼굴 대상에 대해, 검출 프레임의 위치 정보에 기반하여, 상기 사람 얼굴 대상의 검출 프레임과의 사이가 소정의 위치 중첩 관계를 충족시키는 인체 대상의 검출 프레임을 목표 검출 프레임으로 확정하고, 목표 검출 프레임 내의 인체 대상을 상기 사람 얼굴 대상에 매칭되는 인체 대상으로 확정한다.
일 예에 있어서, 매칭 처리 모듈(42)은 또한 검출된 사람 얼굴 대상이 검출된 인체 대상 및 기타 사람 얼굴 대상에 의해 차폐되지 않은 것에 응답하여, 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정한다.
일 예에 있어서, 검출된 상기 사람 얼굴 대상은 적어도 하나의 사람 얼굴 대상을 포함할 수 있고, 검출된 상기 인체 대상은 적어도 하나의 인체 대상을 포함할 수 있고, 매칭 처리 모듈(42)은 또한 검출된 각 사람 얼굴 대상을 각각 검출된 각 인체 대상과 결합시켜 적어도 하나의 사람 얼굴 인체 조합을 얻고, 각 조합에 대해 상기 매칭 관계를 확정한다.
일 예에 있어서, 도 5에 나타낸 바와 같이, 당해 장치는 네트워크 트레이닝 모듈(44)을 더 구비할 수 있다.
검출 처리 모듈(41)은 또한 대상 검출 네트워크를 채용하여, 상기 처리 대기 이미지에 대해 대상 검출을 실행하여, 상기 처리 대기 이미지 내의 사람 얼굴 대상의 검출 프레임 및 인체 대상의 검출 프레임을 얻는다.
매칭 처리 모듈(42)은 또한 매칭 검출 네트워크를 채용하여 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정한다.
네트워크 트레이닝 모듈(44)은 트레이닝 대기의 상기 대상 검출 네트워크를 이용하여 샘플 이미지 내의 적어도 하나의 사람 얼굴 프레임 및 적어도 하나의 인체 프레임을 검출하고, 트레이닝 대기의 상기 매칭 검출 네트워크를 이용하여 검출된 사람 얼굴 프레임과 인체 프레임 사이의 매칭 관계의 예측값을 취득하고, 상기 매칭 관계의 예측값과 라벨값 사이의 차이에 기반하여, 상기 대상 검출 네트워크 및 매칭 검출 네트워크 중의 적어도 하나의 네트워크 파라미터를 조정한다.
본 발명의 실시예의 대상 검출 장치에 따르면, 인체 대상과 사람 얼굴 대상 사이의 매칭 관계의 검출을 이용하여 인체 대상의 검출을 보조함으로써, 매칭되는 사람 얼굴 대상이 존재하는 인체 대상을 검출하여 얻은 목표 대상으로 검출하므로, 인체 대상의 검출 정밀도가 상대적으로 높아진다.
본 발명은 전자 디바이스를 더욱 제공하는바, 당해 전자 디바이스는 메모리 및 프로세서를 구비하며, 상기 메모리는 프로세서 상에서 운행 가능한 컴퓨터 명령을 저장하고, 상기 프로세서는 상기 컴퓨터 명령을 실행할 때에, 본 발명이 임의의 실시예의 방법을 구현한다.
본 발명은 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체를 더욱 제공하는바, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때에 상기 프로세서가 본 발명이 임의의 실시예에 기재된 방법을 구현하도록 한다.
본 발명은 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램을 더욱 제공하는바, 상기 컴퓨터 판독 가능 코드가 전자 디바이스에 의해 운행될 때에, 상기 전자 디바이스의 프로세서가 본 발명이 임의의 실시예에 기재된 방법을 구현하도록 한다.
당업자는 본 발명의 하나 또는 복수의 실시예는 방법, 시스템, 또는 컴퓨터 프로그램 제품으로 제공될 수 있음을 이해해야 한다. 따라서, 본 발명의 하나 또는 복수의 실시예는 완전한 하드웨어의 실시예, 완전한 소프트웨어의 실시예, 또는 소프트웨어와 하드웨어를 조합시키는 실시예의 형식을 채용할 수 있다. 또한 본 발명의 하나 또는 복수의 실시예는 컴퓨터 이용 가능한 프로그램 코드를 포함하는 하나 또는 복수의 컴퓨터 이용 가능한 기억 매체(디스크 메모리, CD-ROM, 광학 메모리 등을 포함하지만, 이에 한정되지 않음) 상에서 실시되는 컴퓨터 프로그램 제품의 형식을 사용할 수 있다.
본 명세서에 기재된 "및/또는”은 적어도 양자 중의 하나를 포함하는 것을 나타내며, 예를 들면, "A 및/또는 B"는 A, B 및 "A 및 B"와 같은 3개의 경우를 포함한다.
본 발명에 있어서의 각 실시예는 모두 점진적인 방식을 통해 서술되었고, 각 실시예 간의 동일 또는 유사한 부분은 서로 참조할 수 있으며, 각 실시예에서는 기타 실시예와의 차이점에 초점을 맞춰 설명했다. 특히, 데이터 처리 디바이스의 실시예의 경우, 방법의 실시예와 기본상 유사하기 때문에, 상대적으로 간단히 서술했지만, 관련된 부분은 방법의 실시예의 부분 설명을 참조할 수 있다.
상기에서 본 발명의 특정 실시예를 서술했다. 기타 실시예는 첨부된 "특허청구의 범위”의 범위 내에 있다. 몇몇의 경우, 특허청구의 범위에 기재된 행위 또는 단계는 실시예와 다른 순서에 따라 실행될 수 있으며, 이 경우에도 여전히 기대하는 결과가 실현될 수 있다. 또한 도면에 나타낸 과정은, 기대하는 결과를 얻기 위하여 반드시 도면에 나타낸 특정 순서 또는 연속적인 순서를 필요로 하지 않는다. 몇몇의 실시 형태에 있어서, 멀티 태스크 처리 및 병렬 처리도 가능하거나 또는 유익할 수 있다.
본 발명의 보호대상 및 기능 조작의 실시예는 디지털 전자 회로, 유형 컴퓨터 소프트웨어 또는 펌웨어, 본 발명에 개시되는 구성 및 그 구조적 동등물을 포함하는 컴퓨터 하드웨어, 또는 이들의 하나 또는 복수의 조합을 통해 실현될 수 있다. 본 발명의 보호대상의 실시예는 하나 또는 복수의 컴퓨터 프로그램으로 실현될 수 있는바, 즉 유형의 비일시적 프로그램 캐리어 상에 부호화되어 데이터 처리 장치에 의해 실행되거나, 또는 데이터 처리 장치의 조작을 제어하기 위한 컴퓨터 프로그램 명령 중의 하나 또는 복수의 모듈에 의해 실현될 수 있다. 대체적 또는 추가적으로, 프로그램 명령은 수작업으로 생성하는 전파 신호 상에 부호화될 수 있는바, 예를 들면 기계가 생성하는 전기 신호, 광 신호, 또는 전자 신호 상에 부호화될 수 있다. 정보를 부호화하여 적절한 수신기 장치에 전송하며, 데이터 처리 장치에 의해 실행되도록 하기 위하여, 당해 신호가 생성된다. 컴퓨터 기억 매체는 기계 판독 가능 기억 디바이스, 기계 판독 가능 기억 기판, 랜덤 또는 시리얼 액세스 메모리 디바이스, 또는 이들의 하나 또는 복수의 조합일 수 있다.
본 발명 중의 처리와 논리 플로우는 하나 또는 복수의 컴퓨터 프로그램을 실행하는 하나 또는 복수의 프로그램 가능한 컴퓨터에 의해 실행될 수 있으며, 입력 데이터에 기반하여 조작을 실행하여 출력을 생성함으로써 해당하는 기능을 실행한다. 상기 처리와 논리 플로우는 또한 예를 들면 FPGA(필드 프로그래밍 가능 게이트 어레이) 또는 ASIC(전용 집적 회로) 등의 전용 논리 회로에 의해 실행될 수 있고, 또한 장치도 전용 논리 회로를 통해 실현될 수 있다.
컴퓨터 프로그램의 실행에 적합한 컴퓨터는 예를 들면 범용 및/또는 전용 마이크로 프로세서, 또는 임의의 기타 종류의 중앙 처리 유닛을 포함한다. 일반적으로 중앙 처리 유닛은 판독 전용 메모리 및/또는 랜덤 액세스 메모리로부터 명령과 데이터를 수신하게 된다. 컴퓨터의 기본 컴포넌트는 명령을 실시 또는 실행하기 위한 중앙 처리 유닛 및 명령과 데이터를 기억하기 위한 하나 또는 복수의 메모리 디바이스를 포함한다. 일반적으로 컴퓨터는 자기 디스크, 자기 광학 디스크, 또는 광학 디스크 등과 같은, 데이터를 기억하기 위한 하나 또는 복수의 대용량 기억 디바이스를 더 포함하거나, 또는 조작 가능하게 당해 대용량 기억 디바이스와 결합되어 데이터를 수신하거나, 데이터를 전송하거나, 또는 양자를 모두 포함한다. 하지만, 컴퓨터는 반드시 이러한 디바이스를 포함하는 것은 아니다. 한편, 컴퓨터는 다른 일 디바이스에 내장될 수 있는바, 예를 들면 휴대 전화, 개인용 디지털 처리 장치(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기, 또는 범용 직렬 버스(USB), 플래시 드라이브 등의 휴대용 기억 디바이스에 내장될 수 있으며, 이러한 디바이스는 몇몇의 예에 지나지 않는다.
컴퓨터 프로그램 명령과 데이터의 기억에 적합한 컴퓨터 판독 가능 매체는 모든 형식의 불휘발성 메모리, 매개 및 메모리 디바이스를 포함하는바, 예를 들면 반도체 메모리 디바이스(예를 들면 EPROM, EEPROM 및 플래시 디바이스), 자기 디스크(예를 들면 내부 하드 디스크 또는 이동 가능 디스크), 자기 광학 디스크 및 CD ROM와 DVD-ROM 디스크를 포함한다. 프로세서와 메모리는 전용 논리 회로에 의해 보완되거나 또는 전용 논리 회로에 구비될 수 있다.
본 발명은 다양한 구체적인 실시 세부 사항을 포함하지만, 이를 본 발명의 범위 또는 보호하려고 하는 범위를 한정하는 것으로 해석해서는 안되며, 이는 주로 본 발명의 몇몇의 실시예의 특징을 서술하기 위하여 사용된다. 본 발명의 복수 실시예 중의 특정 특징은 단일 실시예에 결합되어 실시될 수도 있다. 반면에, 단일 실시예 중의 각 특징은 복수의 실시예에 나뉘어 실시되거나 또는 임의의 적절한 서브 조합에 의해 실시될 수도 있다. 한편, 특징이 상기와 같이 특정 조합으로 역할을 발휘하고, 또한 처음부터 이렇게 보호된다고 주장했지만, 보호한다고 주장한 조합 중의 하나 또는 복수의 특징은 경우에 따라 당해 조합으로부터 제외될 수도 있고, 또한 보호한다고 주장한 조합은 서브 조합 또는 서브 조합의 변형을 지향할 수 있다.
마찬가지로, 도면에서는 조작이 특정 순서로 나타나 있지만, 이는 이러한 조작을 나타낸 특정 순서로 실행되거나 순서로 실행될 필요가 있고, 또는 예시한 모든 조작을 전부 실행하여 기대하는 결과를 구현할 필요가 있는 것으로 해석하면 안된다. 경우에 따라 멀티 태스크와 병렬 처리가 더 유리할 경우가 있다. 한편, 상기의 실시예에 있어서의 다양한 시스템 모듈 및 컴포넌트의 분리는 모든 실시예에 있어서 반드시 그러한 분리를 필요로 하는 것으로서 이해해서는 안되며, 설명된 프로그램 컴포넌트 및 시스템은 일반적으로 하나 또는 복수의 소프트웨어 제품에 함께 통합될 수 있음을 이해해야 한다.
상기는 본 발명의 몇몇의 실시예에 불과할 뿐, 본 발명을 한정하려는 것이 아니다. 본 발명의 정신과 원칙의 범위 내에서 행하여진 어떠한 수정, 동등의 치환, 개량 등은 모두 본 발명의 범위에 포함되어야 한다.

Claims (20)

  1. 대상 검출 방법으로서,
    처리 대기 이미지 내의 사람 얼굴 대상 및 인체 대상을 검출하는 것,
    검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것, 및
    상기 매칭 관계에 기반하여 상기 인체 대상과 상기 사람 얼굴 대상이 매칭되는 것으로 확정된 것에 응답하여, 상기 인체 대상을 검출된 목표 대상으로 확정하는 것을 포함하는
    것을 특징으로 하는, 대상 검출 방법.
  2. 제1항에 있어서,
    상기 처리 대기 이미지 내의 사람 얼굴 대상 및 인체 대상을 검출하는 것은,
    상기 처리 대기 이미지에 대해 대상 검출을 실행하여, 상기 처리 대기 이미지 내의 사람 얼굴 대상의 검출 프레임 및 인체 대상의 검출 프레임을 얻는 것을 포함하는
    것을 특징으로 하는, 대상 검출 방법.
  3. 제2항에 있어서,
    상기 매칭 관계에 기반하여 상기 처리 대기 이미지 내에 상기 인체 대상에 매칭되는 사람 얼굴 대상이 존재하지 않는 것으로 확정된 것에 응답하여, 상기 인체 대상의 검출 프레임을 제거하는 것을 더 포함하는
    것을 특징으로 하는, 대상 검출 방법.
  4. 제1항에 있어서,
    상기 매칭 관계에 기반하여 상기 처리 대기 이미지 내에 상기 인체 대상에 매칭되는 사람 얼굴 대상이 존재하지 않는 것으로 확정되고, 또한 상기 인체 대상이 상기 처리 대기 이미지의 소정의 에지 영역에 위치하는 것에 응답하여, 상기 인체 대상을 검출된 목표 대상으로 확정하는 것을 더 포함하는
    것을 특징으로 하는, 대상 검출 방법.
  5. 제1항에 있어서,
    상기 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것은,
    상기 사람 얼굴 대상 및 상기 인체 대상의 검출 결과에 기반하여, 상기 사람 얼굴 대상 및 상기 인체 대상의 위치 정보 및/또는 시각 정보를 확정하는 것, 및
    상기 위치 정보 및/또는 상기 시각 정보에 기반하여 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것을 포함하는
    것을 특징으로 하는, 대상 검출 방법.
  6. 제5항에 있어서,
    상기 위치 정보는 검출 프레임의 위치 정보를 포함하고,
    상기 위치 정보 및/또는 상기 시각 정보에 기반하여 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것은,
    각 상기 사람 얼굴 대상에 대해, 상기 검출 프레임의 위치 정보에 기반하여, 상기 사람 얼굴 대상의 검출 프레임과의 사이가 소정의 위치 중첩 관계를 충족시키는 인체 대상의 검출 프레임을 목표 검출 프레임으로 확정하는 것, 및
    상기 목표 검출 프레임 내의 인체 대상을 상기 사람 얼굴 대상에 매칭되는 인체 대상으로 확정하는 것을 포함하는
    것을 특징으로 하는, 대상 검출 방법.
  7. 제1항에 있어서,
    상기 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것은,
    검출된 사람 얼굴 대상이 검출된 인체 대상 및 기타 사람 얼굴 대상에 의해 차폐되지 않은 것에 응답하여, 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것을 포함하는
    것을 특징으로 하는, 대상 검출 방법.
  8. 제1항에 있어서,
    검출된 상기 사람 얼굴 대상은 적어도 하나의 사람 얼굴 대상을 포함하고, 검출된 상기 인체 대상은 적어도 하나의 인체 대상을 포함하며,
    상기 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것은,
    검출된 각 사람 얼굴 대상을 각각 검출된 각 인체 대상과 결합시켜 적어도 하나의 사람 얼굴 인체 조합을 얻고, 각 조합에 대해 상기 매칭 관계를 확정하는 것을 포함하는
    것을 특징으로 하는, 대상 검출 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 처리 대기 이미지 내의 사람 얼굴 대상 및 인체 대상을 검출하는 것은,
    대상 검출 네트워크를 채용하여, 상기 처리 대기 이미지에 대해 대상 검출을 실행하여, 상기 처리 대기 이미지 내의 사람 얼굴 대상의 검출 프레임 및 인체 대상의 검출 프레임을 얻는 것을 포함하고,
    상기 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것은,
    매칭 검출 네트워크를 채용하여 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는 것을 포함하며,
    상기 대상 검출 네트워크 및 상기 매칭 검출 네트워크는,
    트레이닝 대기의 상기 대상 검출 네트워크를 이용하여 샘플 이미지 내의 적어도 하나의 사람 얼굴 프레임 및 적어도 하나의 인체 프레임을 검출하는 것,
    트레이닝 대기의 상기 매칭 검출 네트워크를 이용하여 검출된 사람 얼굴 프레임과 인체 프레임 사이의 매칭 관계의 예측값을 취득하는 것, 및
    상기 매칭 관계의 예측값과 라벨값 사이의 차이에 기반하여, 상기 대상 검출 네트워크 및 매칭 검출 네트워크 중의 적어도 하나의 네트워크 파라미터를 조정하는 것에 의해 트레이닝되는
    것을 특징으로 하는, 대상 검출 방법.
  10. 대상 검출 장치로서,
    처리 대기 이미지 내의 사람 얼굴 대상 및 인체 대상을 검출하기 위한 검출 처리 모듈,
    검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하기 위한 매칭 처리 모듈, 및
    상기 매칭 관계에 기반하여 상기 인체 대상과 상기 사람 얼굴 대상이 매칭되는 것으로 확정된 것에 응답하여, 상기 인체 대상을 검출된 목표 대상으로 확정하기 위한 목표 대상 확정 모듈을 구비하는
    것을 특징으로 하는, 대상 검출 장치.
  11. 제10항에 있어서,
    상기 검출 처리 모듈은 또한, 상기 처리 대기 이미지에 대해 대상 검출을 실행하여, 상기 처리 대기 이미지 내의 사람 얼굴 대상의 검출 프레임 및 인체 대상의 검출 프레임을 얻는
    것을 특징으로 하는, 대상 검출 장치.
  12. 제11항에 있어서,
    상기 목표 대상 확정 모듈은 또한, 상기 매칭 관계에 기반하여 상기 처리 대기 이미지 내에 상기 인체 대상에 매칭되는 사람 얼굴 대상이 존재하지 않는 것으로 확정된 것에 응답하여, 상기 인체 대상의 검출 프레임을 제거하는
    것을 특징으로 하는, 대상 검출 장치.
  13. 제10항에 있어서,
    상기 목표 대상 확정 모듈은 또한, 상기 매칭 관계에 기반하여 상기 처리 대기 이미지 내에 상기 인체 대상에 매칭되는 사람 얼굴 대상이 존재하지 않는 것으로 확정되고, 또한 상기 인체 대상이 상기 처리 대기 이미지의 소정의 에지 영역에 위치하는 것에 응답하여, 상기 인체 대상을 검출된 목표 대상으로 확정하는
    것을 특징으로 하는, 대상 검출 장치.
  14. 제10항에 있어서,
    상기 매칭 처리 모듈은 또한, 상기 사람 얼굴 대상 및 상기 인체 대상의 검출 결과에 기반하여, 상기 사람 얼굴 대상 및 상기 인체 대상의 위치 정보 및/또는 시각 정보를 확정하고, 또한 상기 위치 정보 및/또는 상기 시각 정보에 기반하여 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하는
    것을 특징으로 하는, 대상 검출 장치.
  15. 제14항에 있어서,
    상기 위치 정보는 검출 프레임의 위치 정보를 포함하고,
    상기 매칭 처리 모듈은 또한,
    각 상기 사람 얼굴 대상에 대해, 검출 프레임의 위치 정보에 기반하여, 상기 사람 얼굴 대상의 검출 프레임과의 사이가 소정의 위치 중첩 관계를 충족시키는 인체 대상의 검출 프레임을 목표 검출 프레임으로 확정하고,
    상기 목표 검출 프레임 내의 인체 대상을 상기 사람 얼굴 대상에 매칭되는 인체 대상으로 확정하는
    것을 특징으로 하는, 대상 검출 장치.
  16. 제10항에 있어서,
    상기 매칭 처리 모듈은 또한, 검출된 사람 얼굴 대상이 검출된 인체 대상 및 기타 사람 얼굴 대상에 의해 차폐되지 않은 것에 응답하여, 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하고, 및/또는,
    검출된 상기 사람 얼굴 대상이 적어도 하나의 사람 얼굴 대상을 포함하고, 검출된 상기 인체 대상이 적어도 하나의 인체 대상을 포함할 경우, 상기 매칭 처리 모듈은 또한, 검출된 각 사람 얼굴 대상을 각각 검출된 각 인체 대상과 결합시켜 적어도 하나의 사람 얼굴 인체 조합을 얻고, 각 조합에 대해 상기 매칭 관계를 확정하는
    것을 특징으로 하는, 대상 검출 장치.
  17. 제10항 내지 제16항 중 어느 한 항에 있어서,
    상기 검출 처리 모듈은 또한, 대상 검출 네트워크를 채용하여, 상기 처리 대기 이미지에 대해 대상 검출을 실행하여, 상기 처리 대기 이미지 내의 사람 얼굴 대상의 검출 프레임 및 인체 대상의 검출 프레임을 얻고,
    상기 매칭 처리 모듈은 또한, 매칭 검출 네트워크를 채용하여 검출된 상기 사람 얼굴 대상과 상기 인체 대상 사이의 매칭 관계를 확정하며,
    상기 대상 검출 장치는,
    트레이닝 대기의 상기 대상 검출 네트워크를 이용하여 샘플 이미지 내의 적어도 하나의 사람 얼굴 프레임 및 적어도 하나의 인체 프레임을 검출하고, 또한 트레이닝 대기의 상기 매칭 검출 네트워크를 이용하여 검출된 사람 얼굴 프레임과 인체 프레임 사이의 매칭 관계의 예측값을 취득하고, 또한 상기 매칭 관계의 예측값과 라벨값 사이의 차이에 기반하여, 상기 대상 검출 네트워크 및 매칭 검출 네트워크 중의 적어도 하나의 네트워크 파라미터를 조정하기 위한 네트워크 트레이닝 모듈을 더 구비하는
    것을 특징으로 하는, 대상 검출 장치.
  18. 전자 디바이스로서,
    메모리 및 프로세서를 구비하며,
    상기 메모리는 프로세서 상에서 운행 가능한 컴퓨터 명령을 저장하고,
    상기 프로세서는 상기 컴퓨터 명령을 실행할 때에 제1항 내지 제9항 중 어느 한 항에 기재된 방법을 구현하는
    것을 특징으로 하는, 전자 디바이스.
  19. 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체로서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때에 상기 프로세서가 제1항 내지 제9항 중 어느 한 항에 기재된 방법을 구현하도록 하는
    것을 특징으로 하는, 컴퓨터 판독 가능 기록 매체.
  20. 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램으로서,
    상기 컴퓨터 판독 가능 코드가 전자 디바이스에 의해 실행될 때에, 상기 전자 디바이스의 프로세서가 제1항 내지 제9항 중 어느 한 항에 기재된 방법을 구현하도록 하는
    것을 특징으로 하는, 컴퓨터 프로그램.
KR1020217019138A 2020-12-29 2021-04-27 대상 검출 방법, 장치 및 전자 디바이스 KR20220098309A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10202013165P 2020-12-29
SG10202013165P 2020-12-29
PCT/IB2021/053446 WO2022144600A1 (en) 2020-12-29 2021-04-27 Object detection method and apparatus, and electronic device

Publications (1)

Publication Number Publication Date
KR20220098309A true KR20220098309A (ko) 2022-07-12

Family

ID=76976925

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217019138A KR20220098309A (ko) 2020-12-29 2021-04-27 대상 검출 방법, 장치 및 전자 디바이스

Country Status (6)

Country Link
US (1) US20220207259A1 (ko)
JP (1) JP2023511238A (ko)
KR (1) KR20220098309A (ko)
CN (1) CN113196292A (ko)
AU (1) AU2021203818A1 (ko)
PH (1) PH12021551364A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901911B (zh) * 2021-09-30 2022-11-04 北京百度网讯科技有限公司 图像识别、模型训练方法、装置、电子设备及存储介质
US11810345B1 (en) * 2021-10-04 2023-11-07 Amazon Technologies, Inc. System for determining user pose with an autonomous mobile device

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079220A (ja) * 2004-09-08 2006-03-23 Fuji Photo Film Co Ltd 画像検索装置および方法
US20090290791A1 (en) * 2008-05-20 2009-11-26 Holub Alex David Automatic tracking of people and bodies in video
JP5001930B2 (ja) * 2008-11-21 2012-08-15 富士通株式会社 動作認識装置及び方法
JP6700661B2 (ja) * 2015-01-30 2020-05-27 キヤノン株式会社 画像処理装置、画像処理方法、及び画像処理システム
CN108206941A (zh) * 2017-09-27 2018-06-26 深圳市商汤科技有限公司 目标跟踪方法、系统、终端设备及存储介质
CN108154171B (zh) * 2017-12-20 2021-04-23 北京奇艺世纪科技有限公司 一种人物识别方法、装置及电子设备
CN108363982B (zh) * 2018-03-01 2023-06-02 腾讯科技(深圳)有限公司 确定对象数量的方法及装置
US11048919B1 (en) * 2018-05-30 2021-06-29 Amazon Technologies, Inc. Person tracking across video instances
CN110889315B (zh) * 2018-09-10 2023-04-28 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及系统
CN113272816A (zh) * 2019-01-25 2021-08-17 谷歌有限责任公司 进行脸部筛选的全人关联
CN110427908A (zh) * 2019-08-08 2019-11-08 北京百度网讯科技有限公司 一种人物检测的方法、装置及计算机可读存储介质
CN111753611A (zh) * 2019-08-30 2020-10-09 北京市商汤科技开发有限公司 图像检测方法及装置和系统、电子设备和存储介质
CN110674719B (zh) * 2019-09-18 2022-07-26 北京市商汤科技开发有限公司 目标对象匹配方法及装置、电子设备和存储介质
CN111144215B (zh) * 2019-11-27 2023-11-24 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质
CN111275002A (zh) * 2020-02-18 2020-06-12 上海商汤临港智能科技有限公司 一种图像处理方法、装置及电子设备
CN111709382A (zh) * 2020-06-19 2020-09-25 腾讯科技(深圳)有限公司 人体轨迹处理方法、装置、计算机存储介质以及电子设备
CN111738181A (zh) * 2020-06-28 2020-10-02 浙江大华技术股份有限公司 对象关联方法及装置、对象检索方法及装置

Also Published As

Publication number Publication date
AU2021203818A1 (en) 2022-07-14
JP2023511238A (ja) 2023-03-17
US20220207259A1 (en) 2022-06-30
CN113196292A (zh) 2021-07-30
PH12021551364A1 (en) 2021-12-13

Similar Documents

Publication Publication Date Title
CN109086734B (zh) 一种对人眼图像中瞳孔图像进行定位的方法及装置
WO2020073860A1 (zh) 一种视频裁剪方法及装置
CN108875465B (zh) 多目标跟踪方法、多目标跟踪装置以及非易失性存储介质
CN111104925B (zh) 图像处理方法、装置、存储介质和电子设备
WO2021115345A1 (zh) 图像处理方法、装置、计算机设备及存储介质
KR20220098309A (ko) 대상 검출 방법, 장치 및 전자 디바이스
US10674066B2 (en) Method for processing image and electronic apparatus therefor
CN109859250B (zh) 一种航空红外视频多目标检测与跟踪方法及装置
KR101519576B1 (ko) 비디오 프레임의 회전을 보정하는 방법 및 장치
WO2012137621A1 (ja) 画像処理方法及び装置
KR20220098311A (ko) 조작 이벤트 인식 방법 및 장치
CN112446333A (zh) 基于重检测的球类目标跟踪方法及系统
CN110516572B (zh) 一种识别体育赛事视频片段的方法、电子设备及存储介质
US11587202B2 (en) Method, apparatus or computer program for controlling image processing of a captured image of a scene to adapt the captured image
Rongved et al. Using 3D convolutional neural networks for real-time detection of soccer events
US11244154B2 (en) Target hand tracking method and apparatus, electronic device, and storage medium
US10902607B1 (en) Fast instance segmentation
CN110807368B (zh) 一种注入攻击的识别方法、装置及设备
CN114998283A (zh) 一种镜头遮挡物检测方法及装置
CN113438468B (zh) 视频质量的动态控制方法、装置、存储介质及电子设备
CN115004245A (zh) 目标检测方法、装置、电子设备和计算机存储介质
WO2022144600A1 (en) Object detection method and apparatus, and electronic device
CN113657219A (zh) 一种视频对象检测跟踪方法、装置及计算设备
CN112862855A (zh) 图像标注方法、装置、计算设备及存储介质
CN116433939B (zh) 样本图像生成方法、训练方法、识别方法以及装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application