KR20220098314A - 뉴럴 네트워크의 트레이닝 방법과 장치 및 관련 대상 검출 방법과 장치 - Google Patents

뉴럴 네트워크의 트레이닝 방법과 장치 및 관련 대상 검출 방법과 장치 Download PDF

Info

Publication number
KR20220098314A
KR20220098314A KR1020217019337A KR20217019337A KR20220098314A KR 20220098314 A KR20220098314 A KR 20220098314A KR 1020217019337 A KR1020217019337 A KR 1020217019337A KR 20217019337 A KR20217019337 A KR 20217019337A KR 20220098314 A KR20220098314 A KR 20220098314A
Authority
KR
South Korea
Prior art keywords
type
type object
group
neural network
target
Prior art date
Application number
KR1020217019337A
Other languages
English (en)
Inventor
쉐썬 장
춘야 류
바이룬 왕
징환 천
Original Assignee
센스타임 인터내셔널 피티이. 리미티드.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 센스타임 인터내셔널 피티이. 리미티드. filed Critical 센스타임 인터내셔널 피티이. 리미티드.
Priority claimed from PCT/IB2021/053493 external-priority patent/WO2022144603A1/en
Publication of KR20220098314A publication Critical patent/KR20220098314A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2133Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on naturality criteria, e.g. with non-negative factorisation or negative correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 뉴럴 네트워크의 트레이닝 방법과 장치 및 관련 대상 검출 방법과 장치를 제공하는바, 당해 뉴럴 네트워크의 트레이닝 방법은, 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출하는 것; 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 후보 대상 그룹을 생성하는 것 - 상기 후보 대상 그룹은 적어도 하나의 상기 제1 타입 대상 및 적어도 두 개의 상기 제2 타입 대상을 포함함 -; 뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하는 것; 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도에 기반하여, 상기 후보 대상 그룹의 그룹 관련 손실을 확정하는 것 - 상기 그룹 관련 손실은 상기 제1 타입 대상과, 당해 제1 타입 대상과 관련되지 않는 제2 타입 대상 사이의 매칭도와 양의 상관 관계가 있음 -; 및 상기 그룹 관련 손실에 기반하여 상기 뉴럴 네트워크의 네트워크 파라미터를 조정하는 것을 포함한다.

Description

뉴럴 네트워크의 트레이닝 방법과 장치 및 관련 대상 검출 방법과 장치
[관련 출원들의 상호 참조 인용]
본 발명은 출원일이 2020년12월31일이고, 출원 번호가 10202013245S인 싱가포르 특허 출원의 우선권을 주장하며, 당해 싱가포르 특허 출원의 모든 내용을 참조로서 본 원에 병합시켜, 다양한 목적으로 사용한다.
본 발명은 컴퓨터 시각 기술의 분야에 관한 것인바, 구체적으로는 뉴럴 네트워크의 트레이닝 방법과 장치 및 관련 대상 검출 방법과 장치에 관한 것이다.
지능형 장면 검출에 있어서, 대상의 검출 및 인식은 중요한 연구 방향이다. 다차원의 대상 분석은 풍부한 대상 정보를 얻을 수 있고, 또한 대상의 상태와 변화의 경향 연구에 도움이 된다. 대상의 검출 및 인식이 구체적인 장면에 있어서, 이미지 내의 대상 사이의 관련 관계를 분석하여, 대상 사이가 잠재적인 관계를 자동적으로 추출하며, 대상 자신의 속성 이외의 더 많은 관련 정보를 얻을 수 있다.
복수의 대상이 존재하는 장면에 있어서, 특히 이미지 내의 복수의 대상 사이에 차폐 또는 중첩이 존재하는 장면에 있어서, 대상 사이의 관련 관계를 분석하는 것이 매우 어렵다. 대상 사이 위치 관계 등의 사전 지식에만 기반하여 관련 대상을 확정하면, 정확한 검출 결과를 얻기 어려운데, 예를 들면 검출 누락 또는 오검출의 경우가 존재할 가능성이 있다. 예를 들면, 멀티 플레이어 게임에 대해 지능형 검출을 실행하는 장면에 있어서, 비디오 내의 서로 다른 사람 손, 사람 얼굴 등의 신체 부위와 대응하는 인체를 관련시키고, 서로 다른 사람의 동작을 인식할 필요가 있지만, 복수의 인체 사이에 차폐 또는 중첩이 존재할 가능성이 있고, 인체 부위와 인체 사이의 관련 관계의 검출이 어려워진다.
본 발명은 뉴럴 네트워크의 트레이닝 방법과 장치 및 관련 대상 검출 방법과 장치를 제공한다.
본 발명의 실시예의 제1 양태에 따르면, 뉴럴 네트워크의 트레이닝 방법을 제공하는바, 상기 방법은 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출하는 것; 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 후보 대상 그룹을 생성하는 것 - 상기 후보 대상 그룹은 적어도 하나의 상기 제1 타입 대상 및 적어도 두 개의 상기 제2 타입 대상을 포함함 -; 뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하는 것; 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도에 기반하여, 상기 후보 대상 그룹의 그룹 관련 손실을 확정하는 것 - 상기 그룹 관련 손실은 상기 제1 타입 대상과, 당해 제1 타입 대상과 관련되지 않는 제2 타입 대상 사이의 매칭도와 양의 상관 관계가 있음 -; 및 상기 그룹 관련 손실에 기반하여 상기 뉴럴 네트워크 네트워크 파라미터를 조정하는 것을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 그룹 관련 손실은 또한 후보 대상 그룹 중의 상기 제1 타입 대상과, 당해 제1 타입 대상과 관련된 제2 타입 대상 사이의 매칭도와 음의 상관 관계를 가진다.
몇몇의 옵션의 실시예에 있어서, 상기 방법은, 상기 그룹 관련 손실이 소정의 손실값보다 작으면, 상기 뉴럴 네트워크의 트레이닝이 완료된 것으로 확정하는 것을 더 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출하는 것은, 상기 이미지의 특징 맵을 추출하는 것; 및 상기 특징 맵에 기반하여 상기 이미지 내의 제1 타입 대상 및 제2 타입 대상을 확정하는 것을 포함하고, 상기 뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하는 것은, 상기 특징 맵에 기반하여 상기 제1 타입 대상의 제1 특징을 확정하는 것; 상기 특징 맵에 기반하여 상기 후보 대상 그룹 중의 각 제 2타입 대상의 제2 특징을 확정하여, 상기 제1 특징에 대응하는 제2 특징 세트를 얻는 것; 상기 제2 특징 세트 중의 각 제 2특징을 각각 상기 제1 특징에 접합하여, 접합 특징 세트를 얻는 것; 및 상기 뉴럴 네트워크에 기반하여, 상기 접합 특징 세트 중의 접합 특징에 대응하는 제2 타입 대상과 제1 타입 대상 사이의 매칭도를 확정하는 것을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 후보 대상 그룹 중의 각 상기 제2 타입 대상과 상기 제1 타입 대상이 소정의 상대적 위치 관계를 충족시키거나, 또는 상기 후보 대상 그룹 중의 각 상기 제2 타입 대상의 검출 프레임과 상기 제1 타입 대상의 검출 프레임 사이에 중첩 영역이 존재한다.
몇몇의 옵션의 실시예에 있어서, 상기 제1 타입 대상은 제1 인체 부위 대상을 포함하고 상기 제2 타입 대상은 인체 대상을 포함하거나, 또는 상기 제1 타입 대상은 인체 대상을 포함하고 상기 제2 타입 대상은 제1 인체 부위 대상을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 제1 인체 부위 대상은 사람 얼굴 대상 또는 사람 손 대상을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 방법은, 상기 이미지 내의 제3 타입 대상을 검출하는 것을 더 포함하며, 상기 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 후보 대상 그룹을 생성하는 것은, 검출된 제1 타입 대상, 제2 타입 대상 및 제3 타입 대상에 기반하여, 적어도 하나의 후보 대상 그룹을 생성하는 것 - 각 후보 대상 그룹은 적어도 두 개의 상기 제3 타입 대상을 더 포함함 -을 포함하고, 상기 방법은 뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 3타입 대상 사이의 각각의 매칭도를 확정하는 것을 더 포함하며, 상기 그룹 관련 손실은 또한 상기 제1 타입 대상과, 당해 제1 타입 대상과 관련되지 않는 제3 타입 대상 사이의 매칭도와 양의 상관 관계가 있다.
몇몇의 옵션의 실시예에 있어서, 상기 제3 타입 대상은 제2 인체 부위 대상을 포함한다.
본 발명의 실시예의 제2 양태에 따르면, 관련 대상 검출 방법을 제공하는바, 상기 방법은 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출하는 것; 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성하는 것 - 상기 대상 그룹은 하나의 제1 타입 대상 및 적어도 두 개의 제2 타입 대상을 포함함 -; 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하는 것; 및 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도에 기반하여, 상기 제1 타입 대상과 관련된 제2 타입 대상을 확정하는 것을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성하는 것은, 검출된 제1 타입 대상에 대해 조합 조작을 실행하는 것을 포함하고, 상기 조합 조작은, 상기 제1 타입 대상과 검출된 임의의 적어도 두 개의 제2 타입 대상을 하나의 대상 그룹에 조합시키는 것; 또는 상기 제1 타입 대상과 검출된 각 제 2타입 대상을 하나의 대상 그룹에 조합시키는 것을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성하는 것은, 검출된 제1 타입 대상 및 제2 타입 대상의 위치 정보에 기반하여, 상기 제1 타입 대상과 소정의 상대적 위치 관계를 충족시키는 적어도 두 개의 제2 타입 대상을 상기 제1 타입 대상의 후보 관련 대상으로 확정하는 것; 및 상기 제1 타입 대상과 상기 제1 타입 대상의 각 후보 관련 대상을 하나의 대상 그룹에 조합시키는 것을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 제1 타입 대상은 제1 인체 부위 대상을 포함하고 상기 제2 타입 대상은 인체 대상을 포함하거나, 또는 상기 제1 타입 대상은 인체 대상을 포함하고 상기 제2 타입 대상은 제1 인체 부위 대상을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 제1 인체 부위 대상은 사람 얼굴 대상 또는 사람 손 대상을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 방법은 이미지 내의 제3 타입 대상을 검출하는 것을 더 포함하며, 상기 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성하는 것은, 검출된 제1 타입 대상, 제2 타입 대상 및 제3 타입 대상에 기반하여, 적어도 하나의 대상 그룹을 생성하는 것 - 상기 대상 그룹은 적어도 두 개의 제3 타입 대상을 더 포함함 -을 포함하고, 상기 방법은, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹의 각 제 3타입 대상의 사이 각각의 매칭도를 확정하는 것; 및 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 3타입 대상의 사이 각각의 매칭도에 기반하여, 상기 제1 타입 대상과 관련된 제3 타입 대상을 확정하는 것을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 제3 타입 대상은 제2 인체 부위 대상을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하는 것은, 사전에 트레이닝한 뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하는 것을 포함하고, 여기서, 상기 뉴럴 네트워크는 제1 양태에 의해 제공되는 임의 방법을 통해 트레이닝하여 얻어진 것이다.
본 발명의 실시예의 제3 양태에 따르면, 뉴럴 네트워크의 트레이닝 장치를 제공하는바, 상기 장치는 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출하기 위한 대상 검출 모듈; 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 후보 대상 그룹을 생성하기 위한 후보 대상 그룹 생성 모듈 - 상기 후보 대상 그룹은 적어도 하나의 상기 제1 타입 대상 및 적어도 두 개의 상기 제2 타입 대상을 포함함 -; 뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하기 위한 매칭도 확정 모듈; 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도에 기반하여, 상기 후보 대상 그룹의 그룹 관련 손실을 확정하기 위한 그룹 관련 손실 확정 모듈 - 상기 그룹 관련 손실은 상기 제1 타입 대상과, 당해 제1 타입 대상과 관련되지 않는 제2 타입 대상 사이의 매칭도와 양의 상관 관계가 있음 -; 및 상기 그룹 관련 손실에 기반하여 상기 뉴럴 네트워크 네트워크 파라미터를 조정하기 위한 네트워크 파라미터 조정 모듈을 구비한다.
본 발명의 실시예의 제4 양태에 따르면, 관련 대상 검출 장치를 제공하는바, 당해 장치는 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출하기 위한 검출 모듈; 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성하기 위한 대상 그룹 생성 모듈 - 상기 대상 그룹은 하나의 제1 타입 대상 및 적어도 두 개의 제2 타입 대상을 포함함 -; 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하기 위한 확정 모듈; 및 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도에 기반하여, 상기 제1 타입 대상과 관련된 제2 타입 대상을 확정하기 위한 관련 대상 확정 모듈을 구비한다.
본 발명의 실시예의 제5 양태에 따르면, 컴퓨터 디바이스를 제공하는바, 상기 디바이스는 메모리 및 프로세서; 및 메모리에 저장된, 프로세서 상에서 실행 가능한 컴퓨터 프로그램을 포함하고, 상기 프로세서가 상기 프로그램을 실행하면, 제1 양태 중 어느 한 항에 기재된 뉴럴 네트워크의 트레이닝 방법 또는 제2 양태 중 어느 한 항에 기재된 관련 대상 검출 방법이 구현된다.
본 발명의 실시예의 제6 양태에 따르면, 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체를 제공하는바, 상기 프로그램이 프로세서에 의해 실행되면, 제1 양태 중 어느 한 항에 기재된 뉴럴 네트워크의 트레이닝 방법 또는 제2 양태 중 어느 한 항에 기재된 관련 대상 검출 방법이 구현된다.
본 발명의 실시예의 제7 양태에 따르면, 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 제공하는바, 상기 프로그램이 프로세서에 의해 실행되면, 제1 양태 중 어느 한 항에 기재된 뉴럴 네트워크의 트레이닝 방법 또는 제2 양태 중 어느 한 항에 기재된 관련 대상 검출 방법이 구현된다.
본 발명의 실시예에 있어서, 이미지 내에서 제1 타입 대상 및 제2 타입 대상을 검출한 후, 적어도 하나의 제1 타입 대상 및 적어도 두 개의 제2 타입 대상에 기반하여 후보 대상 그룹을 생성하고, 또한 뉴럴 네트워크에 기반하여 제1 타입 대상 각각과 제2 타입 대상의 매칭도를 확정하고, 또한 확정한 복수의 매칭도에 기반하여 대응하는 후보 대상 그룹의 그룹 관련 손실을 얻고, 그룹 관련 손실에 기반하여 뉴럴 네트워크 네트워크 파라미터를 조정함으로써, 뉴럴 네트워크에 대한 트레이닝을 완료한다. 당해 트레이닝 방법에 있어서, 손실 함수(그룹 관련 손실)는 후보 대상 그룹 중의 제1 타입 대상과 제2 타입 대상으로 구성된 복수의 매칭 쌍의 매칭도에 기반하여 얻어진 것이며, 또한 후보 대상 그룹에 대응하는 손실 함수에 의해 얻어진 그룹 관련 손실에 기반하여 뉴럴 네트워크 네트워크 파라미터를 조정한다. 당해 트레이닝 방법에서는 복수의 매칭 쌍을 이용하여 뉴럴 네트워크의 전역 최적화를 실현한다. 손실 함수를 최소화함으로써, 틀린 매칭 쌍에 대한 매칭도를 억제하고, 틀린 매칭 쌍 중의 각 대상 사이의 거리를 길게 늘이고, 정확한 매칭 쌍에 대한 매칭도의 촉진을 실현하며, 정확한 매칭 쌍 중의 각 대상 사이의 거리를 단축시킨다. 따라서, 당해 방법을 통해 트레이닝하여 얻어진 뉴럴 네트워크가, 이미지 내의 제1 타입 대상과 제2 타입 대상 사이의 매칭 쌍을 더 정확하게 검출하여 확정하도록 하고, 제1 타입 대상과 제2 타입 대상 사이의 관련 관계를 더 정확하게 확정하도록 한다.
상기의 일반적인 서술과 이하의 세부 서술은 예시적 및 설명적인 것에 지나지 않으며, 본 발명에 대한 한정이 아님을 이해해야 한다.
여기에서의 도면은 명세서에 병합되어 본 명세서의 일부를 구성한다. 이러한 도면은 본 발명에 부합되는 실시예를 나타내며, 명세서와 함께 본 발명의 실시예를 설명하는 데에 이용될 수 있다.
도 1은 예시적인 일 실시예에 따른 뉴럴 네트워크의 트레이닝 방법을 나타내는 플로우 챠트이다.
도 2는 예시적인 일 실시예에 따른 피검출 이미지를 나타내는 모식도이다.
도 3은 예시적인 일 실시예에 따른 뉴럴 네트워크 프레임 워크를 나타내는 모식도이다.
도 4는 예시적인 일 실시예에 따른 매칭도 확정 방법을 나타내는 플로우 챠트이다.
도 5는 예시적인 일 실시예에 따른 관련 대상 검출 방법을 나타낸다.
도 6은 예시적인 일 실시예에 따른 뉴럴 네트워크의 트레이닝 장치를 나타낸다.
도 7은 예시적인 다른 일 실시예에 따른 뉴럴 네트워크의 트레이닝 장치를 나타낸다.
도 8은 예시적인 일 실시예에 따른 관련 대상 검출 장치를 나타낸다.
도 9는 예시적인 일 실시예에 따른 컴퓨터 디바이스의 구성을 나타내는 모식도이다.
여기서 예시적인 실시예를 상세하게 설명하며, 그 예를 도면에 나타낸다. 이하의 설명에서 도면이 언급될 경우, 특별히 명기하지 않는 한, 서로 다른 도면 중의 동일한 숫자는 동일 또는 유사한 요소를 나타낸다. 이하의 예시적인 실시예에서 서술되는 실시 형태는 본 발명과 일치하는 모든 실시 형태를 대표하지 않는다. 반대로, 이들은 첨부된 특허 청구의 범위에 기재된 본 발명의 몇몇의 양태와 일치하는 장치 및 방법의 예에 지나지 않는다.
본 발명에서 사용되는 용어는 특정 실시예를 설명하는 것만을 목적으로 할 뿐, 본 발명을 한정하려는 것을 의도하는 것이 아니다. 본 발명 및 첨부된 특허 청구의 범위에서 사용되는 "일종”, "상기”, "당해" 등의 단수형은 문맥이 다른 의미를 명확히 나타내지 않는 한, 복수형도 포함하는 것을 의도한다. 본 명세서에서 사용되는 "및/또는”이라는 용어는 하나 또는 복수가 관련되게 열거된 아이템의 임의의 하나 또는 모든 가능한 조합을 포함하는 것을 나타냄을 이해해야 한다.
본 발명에서는 제1, 제2, 제3 등의 용어를 사용하여 다양한 정보를 기술하지만, 이러한 정보는 이러한 용어에 의해 한정되지 않음을 이해해야 한다. 이러한 용어는 같은 종류의 정보를 서로 구별하기 위하여서만 사용된다. 예를 들면, 본 개시의 범위에서 일탈하지 않는 전제 하에서, 제1의 정보는 제2의 정보라고도 불릴 수 있으며, 마찬가지로, 제2의 정보는 제1의 정보라고도 불릴 수 있다. 문맥에 따라 본 명세서로 사용되는 "만약”이라는 단어는 "...경우”, "...면”, 또는 "... 것에 응답하여”로 해석될 수 있다.
인체 부위와 인체를 관련시키는 것은 지능형 비디오 분석이 중요한 부분이다. 예를 들면, 멀티 플레이어 보드 게임 과정에 대해 스마트 모니터링을 실행하는 장면에 있어서, 시스템은 비디오 중의 서로 다른 사람 손에 대해 대응하는 인체를 관련시켜, 서로 다른 인체가 실행한 동작을 확정함으로써, 멀티 플레이어 보드 게임 과정에서 서로 다른 인체에 대한 스마트 모니터링을 실현할 필요가 있다.
본 발명은 뉴럴 네트워크의 트레이닝 방법을 제공하는바, 당해 트레이닝 방법은 뉴럴 네트워크 네트워크 파라미터를 더 적절하게 조정함으로써, 트레이닝하여 얻어진 뉴럴 네트워크가 인체 부위와 인체 사이의 매칭도를 더 정확하게 검출할 수 있도록 하고, 이미지 내의 인체 부위와 인체 사이의 관련 관계를 확정하도록 한다. 여기서, 뉴럴 네트워크에 대한 트레이닝 과정에 있어서, 이미지 내에서 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 후보 대상 그룹을 생성하고, 뉴럴 네트워크에 기반하여 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하며, 확정한 복수의 매칭도를 이용하여 대응되는 후보 대상 그룹의 그룹 관련 손실을 얻음으로써, 그룹 관련 손실에 기반하여 뉴럴 네트워크 네트워크 파라미터를 조정한다.
이하, 본 발명에 의해 제공되는 뉴럴 네트워크의 트레이닝 방법을 더 명확히 하기 위하여, 도면 및 구체적인 실시예를 참조하여, 본 발명에 의해 제공되는 기술적 해결방안의 실행 과정을 상세하게 설명한다.
도 1을 참조하면, 도 1은 본 발명에 의해 제공되는 실시예에 나타낸 뉴럴 네트워크의 트레이닝 방법을 나타내는 플로우 챠트이다. 도 1에 나타낸 바와 같이, 당해 플로우는 이하의 단계를 포함한다.
단계 101에 있어서, 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출한다.
검출된 이미지는 복수의 타입 대상을 포함하는 이미지일 수 있다. 여기서, 대상의 타입은 미리 정의된 것이며, 예를 들면 사람 및 물품과 같은 두 개의 타입을 포함하고, 또한 예를 들면 사람의 성별, 연령 등의 속성의 특징에 따라 구분한 타입을 포함하며, 또한 예를 들면, 물품의 색상, 기능 등의 특성에 따라 구분한 타입을 포함한다.
몇몇의 실시 형태에 있어서, 이미지 내의 대상은 인체 부위 대상 및 인체 대상을 포함한다. 즉, 상기의 제1 타입 대상 및 제2 타입 대상은 인체 부위 대상 또는 인체 대상일 수 있다. 여기서, 인체 부위 대상은 사람 손, 사람 얼굴, 사람 발 등의 인체의 국소적인 부위일 수 있다. 예시적으로, 스마트 모니터링 디바이스를 이용하여 멀티 플레이어 보드 게임의 과정을 모니터링할 경우, 당해 스마트 모니터링 디바이스에 의해 수집된 이미지를 본 단계에서 검출된 이미지로 사용할 수 있다.
도 2에 나타낸 바와 같이, 도 2는 스마트 모니터링 디바이스에 의해 수집된 멀티 플레이어 게임 장면 이미지이며, 본 발명의 실시예에서는 검출된 이미지로 사용할 수 있다. 수집한 당해 이미지 내에는 인체 B1, 인체 B2 및 인체 B3 등의 게임에 참가한 복수의 인체 대상 및 인체 B1에 대응하는 사람 손 H1 및 사람 손 H2, 인체 B2에 대응하는 사람 손 H3, 인체 B3에 대응하는 사람 손 H4 및 H5 등의, 대응하는 사람 손 대상(인체 부위 대상)이 존재한다. 도 2에 있어서, 인체 대상은 인체 검출 프레임으로 나타내며, 사람 손 대상은 사람 손 검출 프레임으로 나타낸다.
본 발명의 실시예에 있어서, 이미지 내의 제1 타입 대상은 제2 타입 대상과 구별되며, 또한 제1 타입 대상과 제2 타입 대상 사이에는 일정한 관련 관계가 존재한다. 여기서, 제1 타입 대상이 인체 부위 대상을 포함할 경우, 제2 타입 대상은 제1 타입 대상에 포함된 인체 부위 대상과 타입이 다른 인체 부위 대상을 포함거나, 또는 제2 타입 대상은 인체 대상을 포함할 수 있다. 또는 제2 타입 대상이 인체 부위 대상을 포함할 경우, 제1 타입 대상은 제2 타입 대상에 포함된 인체 부위와 대상 타입이 다른 인체 부위 대상을 포함하거나, 또는 제1 타입 대상은 인체 대상을 포함할 수 있다. 여기서, 인체 부위 대상의 타입은 그 자신이 나타내는 신체 부위에 대응되는바, 예를 들면 사람 얼굴 대상, 사람 손 대상 및 팔꿈치 대상은 각각 사람 얼굴, 사람 손 및 팔꿈치에 대응되며, 그 타입이 서로 다르다.
몇몇의 옵션의 실시예에 있어서, 상기 제1 타입 대상은 제1 인체 부위 대상을 포함하고 상기 제2 타입 대상은 인체 대상을 포함하거나, 또는 상기 제1 타입 대상은 인체 대상을 포함하고 상기 제2 타입 대상은 제1 인체 부위 대상을 포함한다. 여기서, 상기 제1 인체 부위 대상은 사람 얼굴 대상 또는 사람 손 대상을 포함한다.
예시적으로, 사람 손 대상을 제1 타입 대상이라고 하고, 인체 대상을 제2 타입 대상이라고 하며, 본 단계에서는 이미지 내의 사람 손 대상 및 인체 대상을 검출할 수 있다. 도 2에 나타낸 바와 같이, 본 단계는 도 2로부터, 사람 손 H1, 사람 손 H2, 사람 손 H3, 사람 손 H4, 사람 손 H5 등의 제1 타입 대상 및 인체 B1, 인체 B2, 인체 B3 등의 제2 타입 대상을 검출할 수 있다.
본 단계에서 검출되는 이미지는, 다양한 방법으로 얻을 수 있으며, 뉴럴 네트워크에 대한 트레이닝을 실현할 수 있는바, 본 발명의 실시예는 이에 대해 한정하지 않음을 이해해야 한다. 예시적으로, 스마트 모니터링 디바이스를 이용하여 서로 다른 장면에서의 이미지를 수집할 수 있다. 예를 들면, 스마트 모니터링 디바이스를 이용하여 멀티 플레이어 보드 게임의 이미지를 수집할 수 있다. 예시적으로, 서로 다른 화상 데이터베이스를 이용하여 인체 부위 대상 및 인체 대상이 존재하는 이미지를 선별할 수 있다.
본 단계에서 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출하는 방법은, 다양한 형태를 포함할 수 있으며, 본 실시예는 이에 대해 한정하지 않음을 설명할 필요가 있다. 예시적으로, 먼저 이미지 내의 제1 타입 대상을 검출하여 얻고, 그 다음 이미지 내의 제2 타입 대상을 검출하여 얻으며, 최종적으로 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출하여 얻을 수 있다. 또는 1회의 검출을 통해 동시에 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출하여 얻을 수 있다.
몇몇의 가능의 구현 형태에 있어서, 이미지 내의 제1 타입 대상과 제2 타입 대상을 동시에 검출할 수 있는 검출 네트워크를 사전에 트레이닝할 수 있으며, 트레이닝하여 얻어진 당해 검출 네트워크를 이용하여 이미지 내에서 제1 타입 대상 및 제2 타입 대상을 1회로 검출하여 얻을 수 있다. 예를 들면, 사람 얼굴과 인체의 공동 검출 뉴럴 네트워크를 사전에 트레이닝하여 얻을 수 있으며, 본 실시예에서는 당해 트레이닝하여 얻어진 사람 얼굴과 인체의 공동 검출 뉴럴 네트워크를 이용하여 이미지 내에서 사람 얼굴 대상과 인체 대상을 동시에 검출하여 얻을 수 있다.
단계 102에 있어서, 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 후보 대상 그룹을 생성하며, 여기서 상기 후보 대상 그룹은 적어도 하나의 상기 제1 타입 대상 및 적어도 두 개의 상기 제2 타입 대상을 포함한다.
이미지 내의 제1 타입 대상 및 제2 타입 대상이 검출되었을 경우, 본 단계에서는 검출된 하나의 제1 타입 대상 및 적어도 두 개의 제2 타입 대상에 기반하여 하나의 후보 대상 그룹을 생성할 수 있거나, 또는 본 단계에서는 적어도 두 개의 제1 타입 대상 및 적어도 두 개의 제2 타입 대상에 기반하여 하나의 후보 대상 그룹을 생성할 수 있다. 이미지 내에서 검출된 제1 타입 대상이 복수 개 있을 가능성이 있기 때문에, 제1 타입 대상에 기반하여 생성한 후보 대상 그룹도 복수 개 있을 가능성이 있다.
여전히, 도 2에서 사람 손 H1, 사람 손 H2, 사람 손 H3, 사람 손 H4, 사람 손 H5 등의 제1 타입 대상 및 인체 B1, 인체 B2, 인체 B등의 제2 타입 대상이 검출된 예를 든다. 본 단계에서는 도 2에서 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 대응하는 후보 대상 그룹을 생성할 수 있다. 예시적으로, 사람 손 H1, 인체 B1, 인체 B2 및 인체 B3을 결합시켜 하나의 후보 대상 그룹을 얻거나, 또는 사람 손 H1, 사람 손 H2, 인체 B1, 인체 B2 및 인체 B3을 결합시켜 또 하나의 후보 대상 그룹을 얻을 수 있다. 기타 조합 방법을 통해 더 많은 다른 후보 대상 그룹을 생성할 수 있는바, 여기에 완전히 열거하지 않는 것을 이해해야 한다.
몇몇의 옵션의 실시예에 있어서, 상기 후보 대상 그룹 중의 각 상기 제2 타입 대상과 상기 제1 타입 대상이 소정의 상대적 위치 관계를 충족시키거나, 또는 상기 후보 대상 그룹 중의 각 상기 제2 타입 대상의 검출 프레임과 상기 제1 타입 대상의 검출 프레임 사이에 중첩 영역이 존재한다.
상기의 실시예에 있어서, 상대적 위치 관계를 사전에 설정할 수 있다. 검출된 임의의 하나의 제1 타입 대상에 대해, 당해 제1 타입 대상과 소정의 상대적 위치 관계를 충족시키는 제2 타입 대상을, 당해 제1 타입 대상이 위치하는 후보 대상 그룹에 추가한다. 이렇게 하여, 같은 후보 대상 그룹 중의 제1 타입 대상과 제2 타입 대상이 소정의 상대적 위치 관계를 충족시키도록 보장할 수 있다. 여기서, 소정의 상대적 위치 관계는 제1 타입 대상과 제2 타입 대상 사이의 위치 거리가 소정의 한계값 미만인 것 및 검출 프레임에 중첩 영역이 존재하는 것 중의 임의의 적어도 하나를 포함할 수 있다. 이 경우, 같은 후보 대상 그룹 중의 제1 타입 대상과 제2 타입 대상 사이의 거리가 소정의 한계값 미만이거나, 및/또는 같은 후보 대상 그룹 중의 제1 타입 대상의 검출 프레임과 제2 타입 대상의 검출 프레임에 중첩 영역이 존재한다.
당해 옵션의 실시예에 있어서, 당해 상대적 위치 관계를 충족시키는 것으로 미리 설정함으로써, 같은 후보 대상 그룹 중의 제1 타입 대상과 제2 타입 대상이 일정한 관련이 존재할 가능성이 있는 대상이 되도록 하고, 따라서 후보 대상 그룹 중에서 제1 타입 대상과 관련되어 있는 제2 타입 대상을 더욱 정확하게 확정하도록 한다. 당해 방법은 이미지 내에서 검출된 제1 타입 대상 및 제2 타입 대상 중에서, 관련 관계가 존재할 가능성이 있는 대상을 같은 후보 대상 그룹에 초보적으로 생성함으로써, 또한 후보 대상 그룹 중에서 제1 타입 대상과 정확하게 관련되어 있는 제2 타입 대상을 구체적으로 확정할 수 있고, 제1 타입 대상과 제2 타입 대상 사이의 매칭도의 계산 결과의 정확성을 향상시켰다.
도 2의 예를 들면, 상대적 위치 관계가 검출 프레임에 중첩이 존재하는 것인 것으로 미리 설정할 수 있고, 이 경우, 같은 후보 대상 그룹 중으로, 제1 타입 대상의 사람 손 H5의 검출 프레임이 각각 제2 타입 대상의 인체 B2 및 인체 B3의 검출 프레임과 중첩 영역이 존재한다.
단계 103에 있어서, 뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정한다.
본 단계에서는 제1 타입 대상과 제2 타입 대상의 사이 매칭도를 검출하기 위한 뉴럴 네트워크를 미리 설정할 수 있다. 예를 들면, 사전에 트레이닝 샘플을 이용하여 대상 사이 관련성 검출에 이용할 수 있는 이미 알려진 뉴럴 네트워크를 트레이닝하여, 본 단계에서 이용 가능한 뉴럴 네트워크를 얻을 수 있다. 본 단계에서는 미리 설정한 뉴럴 네트워크에 기반하여, 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 검출하여 확정할 수 있다. 여기서, 매칭도는 검출된 제1 타입 대상과 제2 타입 대상 사이의 관련 정도를 나타낸다. 여기서, 매칭도의 구체적인 표시 형태는 여러가지 있을 수 있으며, 본 발명의 실시예는 이에 대해 한정하지 않는다. 예시적으로, 수치의 형태, 백분률의 형태, 수준의 형태 등을 이용할 수 있다.
도 2의 예를 들면, 후보 대상 그룹 G1에는 사람 손 H5 등의 제1 타입 대상 및 인체 B2, 인체 B3 등의 제2 타입 대상이 포함되어 있다. 본 단계에서는 미리 설정된 뉴럴 네트워크에 기반하여, 후보 대상 그룹 G1 중의 사람 손 H5과 인체 B2 사이의 매칭도 M1 및 사람 손 H5과 인체 B3 사이의 매칭도 M2을 확정할 수 있다.
단계 104에 있어서, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도에 기반하여, 상기 후보 대상 그룹의 그룹 관련 손실을 확정하고, 여기서, 상기 그룹 관련 손실은 상기 제1 타입 대상과, 당해 제1 타입 대상과 관련되지 않는 제2 타입 대상 사이의 매칭도와 양의 상관 관계가 있다.
본 실시예에 있어서, 제1 타입 대상과 제2 타입 대상 사이의 관련 관계는 사전에 라벨링 한 것일 수 있다. 제1 타입 대상과 제2 타입 대상이 관련되어 있는 것은, 양자 사이에 특정의 유사한 관계, 같은 귀속 관계 등이 존재하는 것을 가리킨다. 검출된 이미지 내의 제1 타입 대상과 제2 타입 대상 사이의 관련 관계에 대해 수동 라벨링을 실행하여, 라벨링 정보를 취득할 수 있다. 같은 후보 그룹 중의 제1 타입 대상과 관련된 제2 타입 대상과, 제1 타입 대상과 관련되지 않는 제2 타입 대상을 구분할 수 있다.
상기의 도 2을 참조하면, 후보 대상 그룹 G1로부터, 매칭도 M1, 매칭도 M2 등이 대응하는 두 개의 매칭도를 얻는다. 본 단계에서는 얻어진 두 개의 매칭도에 기반하여, 당해 후보 대상 그룹 G1에 대응하는 그룹 관련 손실 Group loss 1을 확정할 수 있다. 또한, 제1 타입 대상의 사람 손 H5와 제2 타입 대상의 인체 B2는 관련되어 있지 않으며, 이에 따라 그룹 관련 손실 Group loss 1은 매칭도 M1과 양의 상관 관계를 가진다.
그룹 관련 손실이, 제1 타입 대상과, 당해 제1 타입 대상과 관련되지 않는 제2 타입 대상 사이의 매칭도와 양의 상관 관계를 가지기 때문에, 그룹 관련 손실을 최소화함으로써, 제1 타입 대상과, 당해 제1 타입 대상과 관련되지 않는 제2 타입 대상 사이의 매칭도를 억제하고, 제1 타입 대상과, 당해 제1 타입 대상과 관련되지 않는 제2 타입 대상 사이의 거리를 길게 늘이며, 뉴럴 네트워크가 트레이닝된 후에 제1 타입 대상과 당해 제1 타입 대상과 관련되지 않는 제2 타입 대상을 더 잘 인식하는 능력을 가지도록 할 수 있다.
몇몇의 옵션의 실시예에 있어서, 상기 그룹 관련 손실은 또한 후보 대상 그룹 중의 상기 제1 타입 대상과, 당해 제1 타입 대상과 관련된 제2 타입 대상 사이의 매칭도와 음의 상관 관계를 가진다. 예를 들면, 제1 타입 대상의 사람 손 H5과 제2 타입 대상의 인체 B3이 관련되어 있기 때문에, 그룹 관련 손실 1은 매칭도 M2과 음의 상관 관계를 가진다.
그룹 관련 손실이, 제1 타입 대상과, 당해 제1 타입 대상과 관련된 제2 타입 대상 사이의 매칭도와 음의 상관 관계를 가지기 때문에, 그룹 관련 손실을 최소화함으로써, 대 제1 타입 대상과, 당해 제1 타입 대상과 관련된 제2 타입 대상 사이의 매칭도를 촉진하고, 제1 타입 대상과, 당해 제1 타입 대상과 관련된 제2 타입 대상 사이의 거리를 단축하며, 뉴럴 네트워크가 트레이닝된 후에 제1 타입 대상과 당해 제1 타입 대상과 관련된 제2 타입 대상을 더 잘 인식하는 능력을 가지도록 할 수 있고, 또한 뉴럴 네트워크가 전역 최적화를 실현할 수 있으며, 제1 타입 대상과 제2 타입 대상 사이의 매칭도의 계산 결과의 정확성을 향상시킬 수 있다.
이하, 하나의 구체적인 실례를 이용하여 어떻게 손실 함수를 설정함(그룹 관련 손실을 얻음)으로써, 그룹 관련 손실이 제1 타입 대상과 당해 제1 타입 대상과 관련되지 않는 제2 타입 대상 사이의 매칭도와 양의 상관 관계를 가지며, 제1 타입 대상과 당해 제1 타입 대상과 관련된 제2 타입 대상 사이의 매칭도와 음의 상관 관계를 가지도록 하는지를 설명한다.
도 2에 나타낸 이미지를 참조하면, 미리 설정된 손실 함수에 대해 예시적으로 설명한다. 여기서, 후보 대상 그룹 G2에는 사람 손 H3 등의 제1 타입 대상 및 인체 B1, 인체 B2, 인체 B3 등의 제2 타입 대상이 포함되어 있다. 여기서, 사람 손 H3과 인체 B2가 관련되어 있다(즉, 사람 손 H3과 인체 B2가 한 사람에게 속함). 예를 들면, 사람 손 H3과 인체 B2의 매칭도를
Figure pct00001
로 하고, 사람 손 H3과 인체 B1의 매칭도를
Figure pct00002
로 하며, 사람 손 H3과 인체 B3의 매칭도를
Figure pct00003
로 하고, 그룹 관련 손실을
Figure pct00004
로 한다. 예시적으로 손실 함수를 다음과 같이 미리 설정할 수 있다.
Figure pct00005
상기의 손실 함수에 기반하여 후보 대상 그룹의 그룹 관련 손실을 계산한다. 당해 손실 함수는 그룹 중에서 관련되어 있는 제1 타입 대상과 제2 타입 대상 사이의 매칭도와 음의 상관 관계를 가지며, 그룹 중에서 관련되지 않는 제1 타입 대상과 제2 타입 대상 사이의 매칭도와 양의 상관 관계를 가지는 한편 뉴럴 네트워크가 빠르게 수렴하도록 할 수 있다.
단계 105에 있어서, 상기 그룹 관련 손실에 기반하여 상기 뉴럴 네트워크 네트워크 파라미터를 조정한다.
몇몇의 옵션의 실시예에 있어서, 대량의 샘플 이미지를 본 실시예에서 검출된 이미지로 이용하여 소정의 트레이닝 요구에 도달할 때까지, 뉴럴 네트워크를 트레이닝할 수 있다. 가능한 일 구현 형태에 있어서, 상기 그룹 관련 손실이 소정의 손실값보다 작으면, 상기 뉴럴 네트워크의 트레이닝이 완료된 것으로 확정한다. 이러한 구현 형태에 따르면, 손실 함수를 최소화함으로써, 제1 타입 대상과 당해 제1 타입 대상과 관련되지 않는 제2 타입 대상 사이의 매칭도를 억제하고, 제1 타입 대상과 당해 제1 타입 대상과 관련되지 않는 제2 타입 대상 사이의 거리를 길게 늘이며, 대 제1 타입 대상과 당해 제1 타입 대상과 관련된 제2 타입 대상 사이의 매칭도를 촉진하고, 제1 타입 대상과 당해 제1 타입 대상과 관련된 제2 타입 대상 사이의 거리를 단축할 수 있다. 가능한 다른 일 구현 형태에 있어서, 뉴럴 네트워크의 트레이닝 회수가 소정의 회수 한계값에 도달했을 경우, 뉴럴 네트워크의 트레이닝이 완료된 것으로 확정한다.
본 발명의 실시예에 있어서, 이미지 내에서 제1 타입 대상 및 제2 타입 대상을 검출한 후, 적어도 하나의 제1 타입 대상 및 적어도 두 개의 제2 타입 대상에 기반하여 후보 대상 그룹을 생성하고, 또한 뉴럴 네트워크에 기반하여 제1 타입 대상 각각과 제2 타입 대상의 매칭도를 확정하며, 또한 확정한 복수의 매칭도에 기반하여 대응하는 후보 대상 그룹의 그룹 관련 손실을 얻고, 그룹 관련 손실에 기반하여 뉴럴 네트워크 네트워크 파라미터를 조정함으로써, 뉴럴 네트워크에 대한 트레이닝을 완료한다.
당해 트레이닝 방법에 있어서, 손실 함수(그룹 관련 손실)은 후보 대상 그룹 중의 제1 타입 대상과 제2 타입 대상으로 구성된 복수의 매칭 쌍의 매칭도에 기반하여 얻어진 것이며, 또한 후보 대상 그룹에 대응하는 손실 함수에 의해 얻어진 그룹 관련 손실에 기반하여 뉴럴 네트워크 네트워크 파라미터를 조정한다. 제1 타입 대상과 제2 타입 대상으로 구성된 하나의 매칭 쌍의 매칭도에만 기반하여 손실 함수의 값을 얻는 방법과 비교하면, 당해 트레이닝 방법에서는 복수의 매칭 쌍을 이용하여 뉴럴 네트워크의 전역 최적화를 실현한다. 손실 함수를 최소화함으로써, 틀린 매칭 쌍에 대한 매칭도를 억제하고, 틀린 매칭 쌍 중의 각 대상 사이의 거리를 길게 늘이며, 정확한 매칭 쌍에 대한 매칭도의 촉진을 실현하며, 정확한 매칭 쌍 중의 각 대상 사이의 거리를 단축시킨다. 따라서, 당해 방법을 통해 트레이닝하여 얻어진 뉴럴 네트워크가, 이미지 내의 제1 타입 대상과 제2 타입 대상 사이의 매칭 쌍을 더 정확하게 검출하여 확정하도록 하고, 제1 타입 대상과 제2 타입 대상 사이의 관련 관계를 더 정확하게 확정하도록 한다.
복수의 대상 장면 경우, 특히 이미지 내의 복수의 대상 사이에 차폐 또는 중첩이 존재하는 장면의 경우, 이미지 내 대상 사이의 관련 관계를 분석하기 어렵다. 관련 기술에서는 대상 사이의 위치 관계 등의 사전 지식에만 기반하여 관련 관계를 확정하므로, 검출 누락 또는 오검출이 존재할 가능성이 있기에, 정확한 검출 결과를 얻기 어렵다. 이에 대해, 본 실시예에 의해 제공되는 트레이닝 방법을 통해 얻어진 뉴럴 네트워크는 후보 대상 그룹의 형태를 이용하여 이미지 내의 복수의 관련 관계가 존재할 가능성 있는 제1 타입 대상 및 제2 타입 대상을 같은 그룹 중의 검출 대상으로 하여 설정하고, 후보 대상 그룹에 기반하여 이미지 내의 제1 타입 대상 및 제2 타입 대상으로 구성된 복수의 매칭 쌍에 대한 관련 관계 검출의 전역 최적화를 실현하고, 제1 타입 대상과 제2 타입 대상 사이의 매칭도의 계산 결과의 정확성을 향상시킬 수 있다.
도 3은 본 발명의 적어도 하나의 실시예에 의해 제공되는 관련 검출 네트워크의 네트워크 아키텍쳐 모식도를 나타내며, 당해 관련 검출 네트워크에 기반하여 뉴럴 네트워크에 대한 트레이닝 또는 이미지 내에서 제1 타입 대상과 제2 타입 대상 사이의 관련 관계에 대한 검출을 실현할 수 있다. 도 3에 나타낸 바와 같이, 당해 관련 검출 네트워크는 이하의 네트워크를 포함할 수 있다.
특징 추출 네트워크(31)는 이미지에 대해 특징 추출을 실행하여 특징 맵을 얻는다. 일 예에 있어서, 당해 특징 추출 네트워크(31)는 백본 네트워크(backbone)와 FPN(Feature Pyramid Networks, 특징 피라미드 네트워크)을 포함할 수 있다. 이미지가 백본 네트워크 및 FPN에 의해 순서대로 처리되어 특징 맵이 추출될 수 있다.
예를 들면, 백본 네트워크는 VGGNet, ResNet등을 사용할 수 있으며, FPN은 백본 네트워크에서 얻어진 특징 맵에 기반하여 다층 피라미드 구조의 특징 맵으로 변환할 수 있다. 상기의 백본 네트워크는 관련 검출 네트워크 이미지 특징 추출 부분backbone이며, FPN은 네트워크 아키텍쳐중의 Neck부분에 상당하고, 특징 강조 처리를 실행하며, Backbone에 의해 추출된 얕은 특징을 강조할 수 있다.
대상 검출 네트워크(32)는 이미지 내에서 추출된 특징 맵에 기반하여, 상기 이미지 내의 제1 타입 대상 및 제2 타입 대상을 확정한다.
도 3에 나타낸 바와 같이, 당해 대상 검출 네트워크(32)는 RPN(Region Proposal Network, 영역 생성 네트워크) 및 RCNN(Region-CNN, 영역 컨볼 루션 뉴럴 네트워크)을 포함할 수 있고, 여기서, RPN은 FPN에 의해 출력된 특징 맵에 기반하여 앵커 프레임(anchor)을 예측하여 얻을 수 있고, RCNN은 앵커 프레임 및 FPN에 의해 출력된 특징 맵에 기반하여 검출 프레임(bbox)을 예측하여 얻을 수 있고, 당해 검출 프레임은 제1 타입 대상 또는 제2 타입 대상을 포함할 수 있다. RCNN에 의해 출력된 검출 프레임은 복수일 수 있다.
매칭 검출 네트워크(33)(Pair Head)는 본 발명의 실시예에서 트레이닝하려고 하는 뉴럴 네트워크이며, RCNN에 의해 출력된 검출 프레임 내의 제1 타입 대상 또는 제2 타입 대상 및 FPN에 의해 출력된 특징 맵에 기반하여, 제1 타입 대상에 대응하는 제1 특징을 확정하고, 제2 타입 대상에 대응하는 제2 특징을 확정한다.
상기의 대상 검출 네트워크(32) 및 매칭 검출 네트워크(33)는 모두 관련 검출 네트워크의 Head부분에 위치하며, 이 부분이 검출기에서 검출 결과를 출력하기 위하여 사용된다. 본 발명의 실시예의 검출 결과는 제1 타입 대상, 제2 타입 대상 및 대응하는 관련 관계를 포함한다.
본 발명의 실시예는 상기의 특징 추출 네트워크(31), 대상 검출 네트워크(32) 및 매칭 검출 네트워크(33)로 구성된 관련 검출 네트워크에 대해 한정하지 않으며, 도 3에 나타낸 구성은 예시적인 설명에 지나지 않는 것을 설명할 필요가 있다. 예를 들면, 도 3 중의 FPN을 사용하지 않고, backbone에 의해 추출된 특징 맵에 대해 직접 RPN/RCNN 등을 이용하여 제1 타입 대상 또는 제2 타입 대상의 확정을 실행할 수 있다. 또한 예를 들면, 도 3에 예시한 것은 2 스테이지(two stage)을 채용하여 검출을 실행하는 프레임 워크이며, 실제로 실시할 때에는 또한 1 스테이지(one stage)을 채용하여 검출을 실행할 수 있다.
도 3에 나타낸 관련 검출 네트워크의 네트워크 구성에 기반하여, 이하의 실시예에 있어서, 예시적으로 당해 관련 검출 네트워크를 이용하여 뉴럴 네트워크(매칭 검출 네트워크(33))에 대해 트레이닝하는 과정을 상세하게 설명한다.
본 발명의 실시예에 있어서, 이미지를 관련 검출 네트워크에 입력하고, 특징 추출 네트워크(31)에 의해 이미지에 대해 특징 추출을 실행하여 특징 맵을 얻으며, 대상 검출 네트워크(32)에 의해 특징 맵에 기반하여 이미지 내의 제1 타입 대상에 대응하는 검출 프레임 및 제2 타입 대상에 대응하는 검출 프레임을 검출하여 확정함으로써, 이미지 내의 제1 타입 대상 및 제2 타입 대상을 확정할 수 있다. 매칭 검출 네트워크(33)에 의해, 즉 뉴럴 네트워크에 의해, 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 후보 대상 그룹을 생성하고, 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정한다.
여기서, 매칭 검출 네트워크(33)에 의해 매칭도를 확정하는 구체적인 실현, 즉, 단계 103에서, 뉴럴 네트워크에 기반하여 상기 제1 타입 대상과 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하는 것은, 도 4에 나타낸 바와 같이, 이하의 단계를 포함할 수 있다.
단계 401에 있어서, 상기 특징 맵에 기반하여 상기 제1 타입 대상의 제1 특징을 확정한다.
매칭 검출 네트워크(33)는 특징 추출 네트워크(31)에 의해 추출된 특징 맵에 기반하여, 대상 검출 네트워크(32)에 의해 출력된 제1 타입 대상에 대응하는 검출 프레임을 결합시켜 제1 타입 대상의 제1 특징을 확정한다.
단계 402에 있어서, 상기 특징 맵에 기반하여 상기 후보 대상 그룹 중의 각 제 2타입 대상의 제2 특징을 확정하고, 상기 제1 특징에 대응하는 제2 특징 세트를 얻을 수 있다.
매칭 검출 네트워크(33)는 특징 추출 네트워크(31)에 의해 출력된 특징 맵에 기반하여, 대상 검출 네트워크(32)에 의해 출력된 제2 타입 대상에 대응하는 검출 프레임을 결합시켜 제2 타입 대상에 대응하는 제2 특징을 확정할 수 있다. 같은 원리에 기반하여, 후보 대상 그룹 중의 각각의 제2 타입 대상의 제2 특징을 얻고, 대응하는 당해 후보 대상 그룹의 제2 특징 세트를 구성할 수 있다.
단계 403에 있어서, 상기 제2 특징 세트 중의 각 제 2특징을 각각 상기 제1 특징에 접합하여 접합 특징 세트를 얻는다.
제2 특징 세트 중의 각각의 제2 특징에 대해, 매칭 검출 네트워크(33)는 당해 제2 특징에 대해 제1 특징과 특징 접합을 실행하여, "제1 특징-제2 특징”의 접합 특징을 얻을 수 있다. 여기서, 본 발명의 실시예는 제1 특징과 제2 특징에 대해 특징 접합을 실행하는 구체적인 접합 방식에 대해 한정하지 않는다. 가능한 일 구현 형태에 있어서, 특징 벡터를 이용하여 제1 특징 및 제2 특징을 나타낼 경우, 제1 특징에 대응하는 특징 벡터와 제2 특징에 대응하는 특징 벡터를 직접 접합하여, 접합된 특징 벡터를 제1 타입 대상과 제2 타입 대상의 접합 특징으로 사용할 수 있다.
단계 404에 있어서, 상기 뉴럴 네트워크에 기반하여, 상기 접합 특징 세트 중의 접합 특징에 대응하는 제2 타입 대상과 제1 타입 대상 사이의 매칭도를 확정한다.
매칭 검출 네트워크(33)는 제1 타입 대상과 제2 타입 대상의 접합 특징에 기반하여, 대응하는 제1 타입 대상과 제2 타입 대상 사이의 매칭도를 확정할 수 있다. 가능한 일 구현 형태에 있어서, 접합된 특징 벡터를 미리 설정된 매칭도 계산 함수에 입력하여, 대응하는 제1 타입 대상과 제2 타입 대상 사이의 매칭도를 계산하여 얻을 수 있다. 가능한 다른 일 구현 형태에 있어서, 사전에 트레이닝 샘플을 이용하여 요건을 충족시키는 매칭도 계산 뉴럴 네트워크를 트레이닝하여 얻으며, 매칭도를 계산할 필요가 있을 경우에, 접합된 특징 벡터를 당해 매칭도 계산 뉴럴 네트워크에 입력하여, 당해 매칭도 계산 뉴럴 네트워크에 의해 제1 타입 대상과 제2 타입 대상 사이의 매칭도를 출력할 수 있다.
본 발명의 실시예에 있어서, 이미지의 특징 맵을 추출하고, 추출한 특징 맵에 기반하여 이미지 내의 제1 타입 대상 및 제2 타입 대상을 확정한다. 제1 타입 대상과 제2 타입 대상 사이의 매칭도를 확정할 때에, 특징 맵에 의해 확정된 제1 특징과 제2 특징을 접합하여 접합 특징을 얻고, 또한 뉴럴 네트워크에 기반하여 접합 특징에 대응하는 제1 타입 대상과 제2 타입 대상 사이의 매칭도를 확정할 수 있다. 따라서, 후보 대상 그룹의 형태로, 이미지 내의 제1 타입 대상과 제2 타입 대상 사이의 관련 관계를 검출하여 확정함으로써, 검출 효율을 향상시킬 수 있다.
제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 매칭도를 확정한 후, 본 발명의 실시예는 또한 확정한 복수의 매칭도에 기반하여, 미리 설정된 손실 함수를 이용하여 그룹 관련 손실을 계산하여 얻을 수 있다. 그 다음, 그룹 관련 손실에 기반하여 관련 검출 네트워크 중의 매칭 검출 네트워크(33)의 네트워크 파라미터를 조정하고, 뉴럴 네트워크에 대한 트레이닝을 실현할 수 있다. 가능한 일 구현 형태에 있어서, 그룹 관련 손실에 기반하여 관련 검출 네트워크 중의 특징 추출 네트워크(31), 대상 검출 네트워크(32) 및 매칭 검출 네트워크(33) 중의 하나 또는 복수의 네트워크 파라미터를 조정함으로써, 일부 또는 모두의 관련 검출 네트워크에 대한 트레이닝을 실현할 수 있다.
몇몇의 옵션의 실시예에 있어서, 상기의 관련 검출 네트워크에 대한 트레이닝 과정의 구체적인 방법을 통해, 충분한 수량의 이미지를 트레이닝 샘플로 이용하여 관련 검출 네트워크를 트레이닝하여, 요건을 충족시키는 관련 검출 네트워크를 얻을 수 있다. 관련 검출 네트워크에 대한 트레이닝이 완료된 후, 특정 검출 대기 이미지 내의 제1 타입 대상과 제2 타입 대상의 관련 관계를 검출할 필요가 있을 경우, 검출 대기 이미지를 사전에 트레이닝하여 얻어진 관련 검출 네트워크에 입력하고, 상기 관련 검출 네트워크를 이용하여 상기 검출 대기 이미지 내의 제1 타입 대상과 제2 타입 대상 사이의 매칭도를 출력하여, 제1 타입 대상과 제2 타입 대상의 관련 결과를 얻을 수 있다. 여기서, 관련 검출 네트워크는 본 발명의 임의의 실시예의 트레이닝 방법을 통해 트레이닝하여 얻어진 네트워크이다.
관련 검출 네트워크에 의해 출력된 관련 결과는 다른 형태로 표시할 수 있음을 이해해야 한다. 예시적으로, 도 2를 검출 대기 이미지로 가정하면, 사람 손 H1, H2-인체 B1, 사람 손 H3-인체 B2, 및 사람 손 H4, H5-인체 B3의 관련 결과를 출력할 수 있다. 예시적으로, 도 2를 검출 대기 이미지로 가정하면, 사람 손 H3-인체 B1의 매칭도가 0.01이고, 사람 손 H3-인체 B2의 매칭도가 0.99이며, 사람 손 H3-인체 B3의 매칭도가 0.02이고, …, 등과 같은 관련 결과를 출력할 수 있으며, 상기의 관련 결과의 표시 형태는 예시적인 설명일뿐, 관련 결과에 대한 한정이 아니다.
몇몇의 옵션의 실시예에 있어서, 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출한 후, 또한 이미지 내에서 제3 타입 대상을 검출할 수 있다. 여기서, 제3 타입 대상은 제1 타입 대상 또는 제2 타입 대상과 구별되는 인체 부위 대상이다. 예를 들면, 제1 타입 대상이 사람 손 대상이고, 제2 타입 대상이 인체 대상일 경우, 제3 타입 대상은 사람 얼굴 대상일 수 있다. 본 실시예에 있어서, 이미지 내에서 사람 손 대상, 인체 대상 및 사람 얼굴 대상을 검출할 수 있다.
가능한 일 구현 형태에 있어서, 상기 제3 타입 대상은 제2 인체 부위 대상을 포함한다. 여기서, 제2 인체 부위 대상은 제1 인체 부위 대상의 인체 부위와 서로 구별된다. 예를 들면, 상기 제2 인체 부위 대상은 사람 손 대상 또는 사람 얼굴 대상일 수 있다. 예시적으로, 제1 인체 부위 대상이 사람 손 대상일 경우, 제2 인체 부위 대상은 사람 얼굴 대상 또는 사람 발 대상일 수 있다.
이미지 내에서 제1 타입 대상, 제2 타입 대상 및 제3 타입 대상이 검출되었을 경우, 본 실시예는 검출된 제1 타입 대상, 제2 타입 대상 및 제3 타입 대상에 기반하여, 적어도 하나의 후보 대상 그룹을 생성할 수 있으며, 여기서 각 후보 대상 그룹에는 적어도 두 개의 제3 타입 대상이 포함되어 있다.
예를 들면, 하나의 제1 타입 대상, 적어도 두 개의 제2 타입 대상 및 적어도 두 개의 제3 타입 대상에 기반하여, 하나의 후보 대상 그룹을 생성할 수 있다. 또는 적어도 두 개의 제1 타입 대상, 적어도 두 개의 제2 타입 대상 및 적어도 두 개의 제3 타입 대상에 기반하여, 하나의 후보 대상 그룹을 생성할 수 있다.
뉴럴 네트워크에 기반하여 제1 타입 대상과 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정한 후, 본 실시예는 또한 뉴럴 네트워크에 기반하여, 제1 타입 대상과 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 3타입 대상 사이의 각각의 매칭도를 확정할 수 있다.
후보 대상 그룹에 대응하는 그룹 관련 손실을 확정할 때에, 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상의 각각의 매칭도에 기반하여, 또한 제1 타입 대상과 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 3타입 대상 사이의 각각의 매칭도를 결합시켜 그룹 관련 손실을 확정할 수 있다. 여기서, 그룹 관련 손실은, 제1 타입 대상과 당해 제1 타입 대상과 관련되지 않는 제3 타입 대상 사이의 매칭도와 양의 상관 관계를 가진다. 따라서, 손실 함수를 최소화함으로써, 제1 타입 대상과 당해 제1 타입 대상과 관련되지 않는 제3 타입 대상 사이의 매칭도를 억제하고, 제1 타입 대상과 당해 제1 타입 대상과 관련되지 않는 제3 타입 대상 사이의 거리를 연장시킬 수 있다.
가능한 일 구현 형태에 있어서, 그룹 관련 손실은 또한 제1 타입 대상과 당해 제1 타입 대상과 관련된 제3 타입 대상 사이의 매칭도와 음의 상관 관계를 가진다. 손실 함수를 최소화함으로써, 제1 타입 대상과 당해 제1 타입 대상과 관련된 제3 타입 대상 사이의 매칭도를 촉진하고, 제1 타입 대상과 당해 제1 타입 대상과 관련된 제3 타입 대상 사이의 거리를 단축할 수 있다.
본 발명의 실시예에 있어서, 이미지 내에서 검출된 제1 타입 대상, 제2 타입 대상 및 제3 타입 대상을 이용하여 후보 대상 그룹을 생성하고, 제1 타입 대상과 제2 타입 대상 및 제3 타입 대상 사이의 각각의 매칭도에 기반하여, 후보 대상 그룹에 대응하는 그룹 관련 손실을 확정함으로써, 뉴럴 네트워크 네트워크 파라미터를 조정한다. 당해 방법을 통해 트레이닝하여 얻어진 뉴럴 네트워크는 제1 타입 대상과 제2 타입 대상 및 제3 타입 대상 사이의 각각의 매칭도를 동시에 검출할 수 있기 때문에, 제1 타입 대상, 제2 타입 대상 및 제3 타입 대상 사이의 관련 관계를 동시에 확정할 수 있다.
도 2의 예를 들면, 본 실시예로 트레이닝하여 얻은 뉴럴 네트워크에 기반하여, 도 2로부터 사람 손 대상, 인체 대상 및 사람 얼굴 대상 사이의 관련 관계를 동시에 검출하여 확정할 수 있다. 예를 들면, 제1 타입 대상의 사람 손 H1, H2, 제2 타입 대상의 인체 B1, 제3 타입 대상의 사람 얼굴F1과 같은 3개의 사이에 양의 관련 관계가 존재하고, 또한 제1 타입 대상의 사람 손 H3, 제2 타입 대상의 인체 B2, 제3 타입 대상의 사람 얼굴F2와 같은 3개의 사이에 양의 관련 관계가 존재하며, 또한 제1 타입 대상의 사람 손 H4, H5, 제2 타입 대상의 인체 B3, 제3 타입 대상의 사람 얼굴F3과 같은 3개의 사이에 정확한 관련 관계가 존재하는 것으로, 동시에 확정할 수 있다.
상기에 개시한 실시예의 뉴럴 네트워크를 트레이닝하는 방법 개념에 기반하여, 도 5를 참조로, 본 발명은 관련 대상 검출 방법을 더 제공한다. 도 5에 나타낸 바와 같이, 당해 방법은 이하의 단계를 포함한다.
단계 501에 있어서, 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출한다.
본 단계는 관련 대상 검출을 실행할 필요가 있는 이미지 내에서 제1 타입 대상 및 제2 타입 대상을 검출할 수 있다.
몇몇의 옵션의 실시예에 있어서, 상기 제1 타입 대상은 제1 인체 부위 대상을 포함하고 상기 제2 타입 대상은 인체 대상을 포함하거나, 또는 상기 제1 타입 대상은 인체 대상을 포함하고 상기 제2 타입 대상은 제1 인체 부위 대상을 포함한다. 가능한 일 구현 형태에 있어서, 상기 제1 인체 부위 대상은 사람 얼굴 대상 또는 사람 손 대상을 포함한다.
단계 502에 있어서, 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성하되, 여기서, 상기 대상 그룹은 하나의 제1 타입 대상 및 적어도 두 개의 제2 타입 대상을 포함한다.
이미지 내의 제1 타입 대상 및 제2 타입 대상이 검출되었을 경우, 본 단계에서는 하나의 제1 타입 대상 및 적어도 두 개의 제2 타입 대상에 기반하여 하나의 대상 그룹을 생성할 수 있다. 이미지 내에서 검출된 제1 타입 대상이, 복수 개 있을 가능성이 있기 때문에, 제1 타입 대상에 기반하여 생성한 대상 그룹도 복수 개 있을 가능성이 있다.
여기서, 제1 타입 대상 및 제2 타입 대상에 기반하여 대상 그룹을 생성하는 생성 방법은 복수의 실현 방법을 포함하지만, 이 실시예로 한정되는 것은 아니다. 몇몇의 옵션의 실시예에 있어서, 상기 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성하는 것은, 검출된 제1 타입 대상에 대해 조합 조작을 실행하는 것을 포함하고, 상기 조합 조작은, 상기 제1 타입 대상과 검출된 임의의 적어도 두 개의 제2 타입 대상을 하나의 대상 그룹에 조합시키는 것; 또는 상기 제1 타입 대상과 검출된 각 제 2타입 대상을 하나의 대상 그룹에 조합시키는 것을 포함한다.
상기의 옵션의 실시예에 있어서, 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출한 후, 조합 조작을 실행함으로써 대응하는 대상 그룹을 얻을 수 있다. 예를 들면, 제1 타입 대상과 검출된 임의의 적어도 두 개의 제2 타입 대상을 결합시켜 대응하는 하나의 대상 그룹을 얻을 수 있다. 또는 제1 타입 대상과 검출된 각 제 2타입 대상을 결합시켜 대응하는 하나의 대상 그룹을 얻을 수 있다.
도 2의 예를 들어 설명하면, 도 2로부터 사람 손 H1, 사람 손 H2, 사람 손 H3, 사람 손 H4, 사람 손 H5 등의 제1 타입 대상 및 인체 B1, 인체 B2, 인체 B3 등의 제2 타입 대상을 검출했다. 상기의 실시예에 있어서, 제1 타입 대상의 사람 손 H5에 대해 조합 조작을 실행한다. 예를 들면, 제2 타입 대상에서 인체 B2 및 인체 B3를 임의로 선택하여, 제1 타입 대상의 사람 손 H5와 조합을 실행하여, 대상 그룹 Group1(사람 손 H5, 인체 B2 및 인체 B3)을 얻는다. 또는 제1 타입 대상의 사람 손 H5를 검출하여 얻은 각 제 2타입 대상(인체 B1, 인체 B2 및 인체 B3)을 결합시켜 대상 그룹 Group2(사람 손 H5, 인체 B1, 인체 B2 및 인체 B3)을 얻을 수 있다.
몇몇의 옵션의 실시예에 있어서, 상기 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성하는 것은, 검출된 제1 타입 대상 및 제2 타입 대상의 위치 정보에 기반하여, 상기 제1 타입 대상과 소정의 상대적 위치 관계를 충족시키는 적어도 두 개의 제2 타입 대상을 상기 제1 타입 대상의 후보 관련 대상으로 확정하는 것; 및 상기 제1 타입 대상과 상기 제1 타입 대상의 각 후보 관련 대상을 하나의 대상 그룹에 조합시키는 것을 포함한다.
상기의 실시예에 있어서, 상대적 위치 관계를 미리 설정하고, 제1 타입 대상과 제2 타입 대상의 위치 정보에 기반하여, 제1 타입 대상과 상대적 위치 관계를 충족시키는 적어도 두 개의 제2 타입 대상을, 제1 타입 대상의 후보 관련 대상으로 확정할 수 있다. 도 2의 예를 들면, 상대적 위치 관계를, 제1 타입 대상과 제2 타입 대상의 검출 프레임 사이에 중첩 영역이 존재하는 것으로 미리 설정할 수 있다. 사람 손 H5의 검출 프레임과 인체 B2의 검출 프레임 및 인체 B3의 검출 프레임 사이에 각각 중첩 영역이 존재하기 때문에, 본 실시예에서는 인체 B2 및 인체 B3을 사람 손 H5의 후보 관련 대상으로 확정할 수 있다. 또한 사람 손 H5, 인체 B2 및 인체 B3을 하나의 후보 대상 그룹에 조합시킬 수 있다.
단계 503에 있어서, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정한다.
제1 타입 대상 및 제2 타입 대상에 기반하여 대상 그룹을 생성한 후, 본 단계에서는 같은 대상 그룹 중의 제1 타입 대상과 각 제2 타입 대상 사이의 각각의 매칭도를 확정할 수 있다.
몇몇의 옵션의 실시예에 있어서, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하는 것은, 사전에 트레이닝한 뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하는 것을 포함하되, 여기서, 상기 뉴럴 네트워크는 본 발명이 임의 실시예에 의해 제공되는 뉴럴 네트워크의 트레이닝 방법을 통해 트레이닝하여 얻어진 것이다. 예시적으로, 관련 대상 검출을 실행할 필요가 있는 이미지를, 도 3에 나타낸 관련 검출 네트워크에 입력하고, 뉴럴 네트워크(매칭 검출 네트워크(33))에 의해 같은 대상 그룹 중의 제1 타입 대상과 각 제2 타입 대상 사이의 각각의 매칭도를 출력할 수 있다.
단계 504에 있어서, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도에 기반하여, 상기 제1 타입 대상과 관련된 제2 타입 대상을 확정한다.
도 2의 예를 들면, 같은 대상 그룹 중에는 사람 손 H5, 인체 B2 및 인체 B3이 포함되어 있으며, 본 실시예에서는 사람 손 H5과 인체 B2 및 인체 B3 사이의 각각의 매칭도인 매칭도 M1 및 매칭도 M2를 얻을 수 있다. 본 단계에서는 확정한 두 개의 매칭도에 기반하여, 사람 손 H5과 인체 B3의 대응 관련을 확정할 수 있다. 가능한 일 구현 형태에 있어서, 같은 대상 그룹 중의 매칭도의 값이 가장 큰 제1 타입 대상과 제2 타입 대상이 대응 관련 관계를 가지는 것으로 확정할 수 있다. 도 2를 참조하면, 매칭도 M2가 매칭도 M1보다 크면, 사람 손 H5와 인체 B3이 대응 관련된다고 확정할 수 있다.
본 발명의 실시예에 있어서, 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출한 후, 하나의 제1 타입 대상 및 적어도 두 개의 제2 타입 대상에 기반하여 대상 그룹을 생성하고, 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상과의 각각의 매칭도를 확정하며, 대상 그룹 중의 확정한 복수의 매칭도에 기반하여 제1 타입 대상과 관련된 제2 타입 대상을 확정할 수 있다.
당해 관련 대상 검출 방법에 따르면, 대상 그룹의 형태로, 복수의 제2 타입 대상 중에서 제1 대상과 관련된 제2 타입 대상을 확정하기 때문에, 제1 타입 대상과 제2 타입 대상으로 구성된 하나의 매칭 쌍의 관련 관계를 직접 검출하는 방법과 비교하면, 대상 그룹의 형태로 복수의 매칭 쌍이 전역 최적화를 실현할 수 있고, 제1 타입 대상과 관련된 제2 타입 대상을 더 정확하게 확정할 수 있다.
복수의 대상의 장면의 경우, 특히 이미지 내의 복수의 대상 사이에 차폐 또는 중첩이 존재하는 장면의 경우, 본 실시예에 의해 제공되는 관련 대상 검출 방법에 따르면, 대상 그룹의 형태로 이미지 내의 관련 관계가 존재할 가능성이 있는 복수의 제1 타입 대상 및 제2 타입 대상을 같은 그룹 중의 검출 대상으로 설정하고, 대상 그룹에 기반하여 이미지 내의 제1 타입 대상 및 제2 타입 대상으로 구성된 복수의 매칭 쌍에 대한 관련 관계 검출의 전역 최적화를 실현할 수 있으며, 제1 타입 대상과 제2 타입 대상 사이의 매칭도의 계산 결과의 정확성을 향상시킬 수 있다.
몇몇의 옵션의 실시예에 있어서, 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출한 후, 또한 이미지 내의 제3 타입 대상을 검출할 수 있다. 여기서, 상기 제3 타입 대상은 제2 인체 부위 대상을 포함한다. 예를 들면, 상기 제2 인체 부위 대상은 사람 얼굴 대상 또는 사람 손 대상을 포함한다.
이미지에 기반하여 안에서 검출된 하나의 제1 타입 대상, 적어도 두 개의 제2 타입 대상 및 적어도 두 개의 제3 타입 대상에 기반하여, 하나의 대상 그룹을 생성한다. 그 다음, 같은 대상 그룹 중에서, 제1 타입 대상과 각 제2 타입 대상과의 각각의 매칭도를 확정하고, 제1 타입 대상과 각 제3 타입 대상과의 각각의 매칭도를 확정한다. 제1 타입 대상과 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도에 기반하여, 제1 타입 대상과 관련된 제2 타입 대상을 확정하고, 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 3타입 대상 사이의 각각의 매칭도에 기반하여, 제1 타입 대상과 관련된 제3 타입 대상을 확정한다.
상기의 옵션의 실시예에 있어서, 관련 대상의 검출을 실행할 때에, 이미지 내의 제1 타입 대상과 관련된 제2 타입 대상 및 제1 타입 대상과 관련된 제3 타입 대상을 동시에 확정할 수 있고, 즉, 당해 관련 검출 방식은 이미지 내의 제1 타입 대상과 제2 타입 대상과 제3 타입 대상 사이의 관련 관계를 동시에 확정할 수 있는바, 이미지 내의 제1 타입 대상과 제2 타입 대상 사이의 관련 관계 및 제1 타입 대상과 제3 타입 대상 사이의 관련 관계를 각각 별도로 검출할 필요가 없다. 복수의 대상 장면 경우, 특히 이미지 내의 복수의 대상 사이에 차폐 또는 중첩이 존재하는 장면의 경우, 본 실시예에서는 대상 그룹의 형태로 이미지 내의 관련 관계가 존재할 가능성이 있는 제1 타입 대상, 제2 타입 대상 및 제3 타입 대상을 같은 그룹 중의 검출 대상으로 설정하고, 대상 그룹에 기반하여 이미지 내에서 제1 타입 대상과 제2 타입 대상과 제3 타입 대상 사이의 관련 관계를 동시에 확정한다.
도 6에 나타낸 바와 같이, 본 발명은 뉴럴 네트워크의 트레이닝 장치를 제공하는바, 당해 장치는 본 발명의 임의의 실시예의 뉴럴 네트워크 트레이닝 방법을 실행할 수 있다. 당해 장치는 대상 검출 모듈(601), 후보 대상 그룹 생성 모듈(602), 매칭도 확정 모듈(603), 그룹 관련 손실 확정 모듈(604) 및 네트워크 파라미터 조정 모듈(605)을 구비할 수 있다.
대상 검출 모듈(601)은 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출한다.
후보 대상 그룹 생성 모듈(602)은 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 후보 대상 그룹을 생성하되, 여기서 상기 후보 대상 그룹은 적어도 하나의 상기 제1 타입 대상 및 적어도 두 개의 상기 제2 타입 대상을 포함한다.
매칭도 확정 모듈(603)은 뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정한다.
그룹 관련 손실 확정 모듈(604)은 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도에 기반하여, 상기 후보 대상 그룹의 그룹 관련 손실을 확정하되, 여기서 상기 그룹 관련 손실은 상기 제1 타입 대상과, 당해 제1 타입 대상과 관련되지 않는 제2 타입 대상 사이의 매칭도와 양의 상관 관계가 있다.
네트워크 파라미터 조정 모듈(605)은 상기 그룹 관련 손실에 기반하여 상기 뉴럴 네트워크 네트워크 파라미터를 조정한다.
몇몇의 옵션의 실시예에 있어서, 상기 그룹 관련 손실은 또한 후보 대상 그룹 중의 상기 제1 타입 대상과, 당해 제1 타입 대상과 관련된 제2 타입 대상 사이의 매칭도와 음의 상관 관계를 가진다.
몇몇의 옵션의 실시예에 있어서, 도 7에 나타낸 바와 같이, 상기 장치는 상기 그룹 관련 손실이 소정의 손실값보다 작으면, 상기 뉴럴 네트워크의 트레이닝이 완료된 것으로 확정하기 위한 트레이닝 완료 확정 모듈(701)을 더 구비한다.
몇몇의 옵션의 실시예에 있어서, 상기 대상 검출 모듈(601)은 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출할 때에, 상기 이미지의 특징 맵을 추출하고, 상기 특징 맵에 기반하여 상기 이미지 내의 제1 타입 대상 및 제2 타입 대상을 확정한다. 상기 매칭도 확정 모듈(603)은 뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정할 때에, 상기 특징 맵에 기반하여 상기 제1 타입 대상의 제1 특징을 확정하고, 상기 특징 맵에 기반하여 상기 후보 대상 그룹 중의 각 제 2타입 대상의 제2 특징을 확정하며, 상기 제1 특징에 대응하는 제2 특징 세트를 얻고, 상기 제2 특징 세트 중의 각 제 2특징을 각각 상기 제1 특징에 접합하여, 접합 특징 세트를 얻으며, 상기 뉴럴 네트워크에 기반하여, 상기 접합 특징 세트 중의 접합 특징에 대응하는 제2 타입 대상과 제1 타입 대상 사이의 매칭도를 확정한다.
몇몇의 옵션의 실시예에 있어서, 상기 후보 대상 그룹 중의 각 상기 제2 타입 대상과 상기 제1 타입 대상이 소정의 상대적 위치 관계를 충족시키거나, 또는 상기 후보 대상 그룹 중의 각 상기 제2 타입 대상의 검출 프레임과 상기 제1 타입 대상의 검출 프레임 사이에 중첩 영역이 존재한다.
몇몇의 옵션의 실시예에 있어서, 상기 제1 타입 대상은 제1 인체 부위 대상을 포함하고 상기 제2 타입 대상은 인체 대상을 포함하거나, 또는 상기 제1 타입 대상은 인체 대상을 포함하고 상기 제2 타입 대상은 제1 인체 부위 대상을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 제1 인체 부위 대상은 사람 얼굴 대상 또는 사람 손 대상을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 대상 검출 모듈(601)은 또한 상기 이미지 내의 제3 타입 대상을 검출하고, 상기 후보 대상 그룹 생성 모듈(602)은 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 후보 대상 그룹을 생성할 때에, 검출된 제1 타입 대상, 제2 타입 대상 및 제3 타입 대상에 기반하여 적어도 하나의 후보 대상 그룹을 생성하고, 여기서 각 후보 대상 그룹은 적어도 두 개의 상기 제3 타입 대상을 더 포함하는 것을 포함한다. 상기 매칭도 확정 모듈(603)은 또한 뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 3타입 대상 사이의 각각의 매칭도를 확정하며, 여기서 상기 그룹 관련 손실은 상기 제1 타입 대상과, 당해 제1 타입 대상과 관련되지 않는 제3 타입 대상 사이의 매칭도와 양의 상관 관계가 있다.
몇몇의 옵션의 실시예에 있어서, 상기 제3 타입 대상은 제2 인체 부위 대상을 포함한다.
도 8에 나타낸 바와 같이, 본 발명은 관련 대상 검출 장치를 제공하는바, 당해 장치는 본 발명의 임의의 실시예의 관련 대상 검출 방법을 실행할 수 있다. 당해 장치는 검출 모듈(801), 대상 그룹 생성 모듈(802), 확정 모듈(803) 및 관련 대상 확정 모듈(804)을 구비할 수 있다.
검출 모듈(801)은 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출한다.
대상 그룹 생성 모듈(802)은 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성하며, 여기서 상기 대상 그룹은 하나의 제1 타입 대상 및 적어도 두 개의 제2 타입 대상을 포함한다.
확정 모듈(803)은 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정한다.
관련 대상 확정 모듈(804)은 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도에 기반하여, 상기 제1 타입 대상과 관련된 제2 타입 대상을 확정한다.
몇몇의 옵션의 실시예에 있어서, 상기 대상 그룹 생성 모듈(802)는 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성할 때에, 검출된 제1 타입 대상에 대해 조합 조작을 실행하며, 여기서 상기 조합 조작은 상기 제1 타입 대상과 검출된 임의의 적어도 두 개의 제2 타입 대상을 하나의 대상 그룹에 조합시키거나; 또는 상기 제1 타입 대상과 검출된 각 제 2타입 대상을 하나의 대상 그룹에 조합시킨다.
몇몇의 옵션의 실시예에 있어서, 상기 대상 그룹 생성 모듈(802)는 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성할 때에, 검출된 제1 타입 대상 및 제2 타입 대상의 위치 정보에 기반하여, 상기 제1 타입 대상과 소정의 상대적 위치 관계를 충족시키는 적어도 두 개의 제2 타입 대상을 상기 제1 타입 대상의 후보 관련 대상으로 확정하며, 상기 제1 타입 대상과 상기 제1 타입 대상의 각 후보 관련 대상을 하나의 대상 그룹에 조합시킨다.
몇몇의 옵션의 실시예에 있어서, 상기 제1 타입 대상은 제1 인체 부위 대상을 포함하고 상기 제2 타입 대상은 인체 대상을 포함하거나, 또는 상기 제1 타입 대상은 인체 대상을 포함하고 상기 제2 타입 대상은 제1 인체 부위 대상을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 제1 인체 부위 대상은 사람 얼굴 대상 또는 사람 손 대상을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 검출 모듈(801)은 또한 이미지 내의 제3 타입 대상을 검출하고, 상기 대상 그룹 생성 모듈(802)는 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성할 때에, 검출된 제1 타입 대상, 제2 타입 대상 및 제3 타입 대상에 기반하여, 적어도 하나의 대상 그룹을 생성하고, 여기서 상기 대상 그룹은 적어도 두 개의 제3 타입 대상을 더 포함한다. 상기 확정 모듈(803)은 또한 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹의 각 제 3타입 대상의 사이 각각의 매칭도를 확정하고, 상기 관련 대상 확정 모듈(804)은 또한 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 3타입 대상의 사이 각각의 매칭도에 기반하여, 상기 제1 타입 대상과 관련된 제3 타입 대상을 확정한다.
몇몇의 옵션의 실시예에 있어서, 상기 제3 타입 대상은 제2 인체 부위 대상을 포함한다.
몇몇의 옵션의 실시예에 있어서, 상기 확정 모듈(803)은 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정할 때에, 사전에 트레이닝한 뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하며, 여기서 상기 뉴럴 네트워크는 본 발명이 임의 실시예에 의해 제공되는 뉴럴 네트워크의 트레이닝 방법을 통해 얻어진 것이다.
장치의 실시예의 경우, 기본적으로 방법의 실시예에 대응되며, 관련된 부분은 방법의 실시예 부분의 설명을 참조할 수 있다. 상기에 설명된 장치의 실시예는 단순한 예시인바, 분리된 컴포넌트로 설명된 유닛은 물리적으로 분리되고 있을 수도 있고, 물리적으로 분리되지 않을 수도 있으며, 유닛으로 나타낸 컴포넌트는 물리적인 유닛일 수도 있고, 물리적인 유닛이 아닐 수도 있다. 즉, 하나의 위치에 배치되어 있을 수도 있고, 복수의 네트워크 유닛에 분산되어 배치될 수도 있다. 모듈의 일부 또는 전체는 본 개시의 적어도 하나의 실시 형태의 목적을 달성하기 위한 실제 필요에 따라 선택될 수도 있다. 당업자는 발명적인 노력이 없이 이해하고 실시할 수 있다.
본 발명은 컴퓨터 디바이스를 더욱 제공하는바, 당해 컴퓨터 디바이스는 메모리 및 프로세서; 및 메모리에 저장된, 프로세서 상에서 실행 가능한 컴퓨터 프로그램을 포함하며, 상기 프로세서가 상기 프로그램을 실행하면, 본 발명의 임의의 실시예의 뉴럴 네트워크 트레이닝 방법 또는 본 발명의 임의의 실시예의 관련 대상 검출 방법을 구현할 수 있다.
도 10은 본 명세서의 실시예에 의해 제공되는 더 구체적인 컴퓨터 디바이스의 하드웨어의 구성의 모식도이며, 당해 디바이스는 프로세서(1010); 메모리(1020); 입출력 인터페이스(1030); 통신 인터페이스(1040); 및 버스(1050)를 구비할 수 있다. 여기서, 프로세서(1010), 메모리(1020), 입출력 인터페이스(1030) 및 통신 인터페이스(1040)는 버스(1050)를 통하여 디바이스 내의 상호의 통신 접속을 실현한다.
프로세서(1010)는 일반적인 CPU(Central Processing Unit, 중앙 처리 장치), 마이크로 프로세서, 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 또는 하나 또는 복수의 집적 회로 등에 의해 구현될 수 있으며, 당해 프로세서(1010)는 관련된 프로그램을 실행함으로써 본 명세서의 실시예에 의해 제공되는 기술적 해결 방안을 구현한다.
메모리(1020)는 ROM(Read Only Memory, 판독 전용 메모리), RAM(Random Access Memory, 랜덤 액세스 메모리), 정적 기억 디바이스, 동적 기억 디바이스 등에 의해 구현될 수 있다. 메모리(1020)는 오퍼레이팅 시스템 및 기타 애플리케이션 프로그램을 기억할 수 있다. 소프트웨어 또는 펌웨어를 이용하여 본 명세서의 실시예에 의해 제공되는 기술적 해결 방안을 구현할 경우, 관련된 프로그램 코드는 메모리(1020)에 기록되어 있으며, 프로세서(1010)에 의해 호출되어 실행된다.
입출력 인터페이스(1030)는 입출력 모듈에 접속됨으로써, 정보의 입력과 출력을 실현한다. 입출력 모듈은 구성 요소로서 디바이스 내에 배치될 수도 있고(도면에 나타내지 않음), 디바이스에 접속되어 해당하는 기능을 제공할 수도 있다. 여기서, 입력 디바이스는 키보드, 마우스, 터치스크린, 마이크로폰, 다양한 센서 등을 포함할 수 있고, 출력 디바이스는 디스플레이, 스피커, 진동기, 표시 등 등을 포함할 수 있다.
통신 인터페이스(1040)은 통신 모듈(도면에 나타내지 않음)에 접속됨으로써, 본 디바이스와 기타 디바이스 사이의 통신 인터렉티브를 실현한다. 여기서, 통신 모듈은 유선 수단(예를 들면 USB, network cable 등)으로 통신을 실현할 수도 있고, 무선 수단(예를 들면 모바일 네트워크, WIFI, 블루투스 등)으로 통신을 실현할 수도 있다.
버스(1050)는 하나의 경로를 포함하며, 디바이스의 각 구성 요소(예를 들면 프로세서(1010), 메모리(1020), 입출력 인터페이스(1030) 및 통신 인터페이스(1040)) 사이에서 정보를 전송한다.
상기의 디바이스에 대해, 프로세서(1010), 메모리(1020), 입출력 인터페이스(1030), 통신 인터페이스(1040) 및 버스(1050)만을 나타냈지만, 구체적인 실시 과정에 있어서, 당해 디바이스는 정상적인 실행을 실현하는 데에 필요한 기타 구성 요소를 더 포함할 수 있음을 설명할 필요가 있다. 한편, 당업자는 상기의 디바이스가 본 명세서의 실시예의 해결 방안을 실현하는 데에 필요한 구성 요소만을 포함할 수 있고, 도면에 나타낸 모든 구성 요소를 포함할 필요가 없음을 이해해야 한다.
본 발명은 컴퓨터 프로그램이 기억되어 있는 비일시적 컴퓨터 판독 가능 기록 매체를 더 제공하는바, 상기 프로그램이 프로세서에 의해 실행되면, 본 발명의 임의의 실시예의 뉴럴 네트워크 트레이닝 방법 또는 본 발명의 임의의 실시예의 관련 대상 검출 방법을 구현할 수 있다.
여기서, 상기 비일시적 컴퓨터 판독 가능 기록 매체는 ROM, random access memory(RAM), CD-ROM, 자기 테이프, 플로피디스크 및 광 데이터 기억 디바이스 등일 수 있는바, 본 발명은 이에 대해 한정하지 않는다.
몇몇의 옵션의 실시예에 있어서, 본 발명의 실시예는 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램 제품을 제공하는바, 컴퓨터 판독 가능 코드가 디바이스 상에서 실행될 때에, 디바이스의 프로세서에 의해, 본 발명의 임의의 실시예를 구현하기 위한 뉴럴 네트워크 트레이닝 방법 또는 본 발명의 임의의 실시예를 구현하기 위한 관련 대상 검출 방법이 실행된다. 당해 컴퓨터 프로그램 제품은 구체적으로 하드웨어, 소프트웨어 또는 양자의 조합에 의해 구현될 수 있다.
당업자는 명세서를 고려하여 본 명세서에 적용되는 본 발명을 실시한 후, 본 발명의 기타 기술적 해결방안을 용이하게 생각할 수 있다. 본 발명은 본 발명의 임의의 변형, 용도, 또는 적응적 변경을 커버하는 것을 의도하고 있는바, 이러한 변형, 용도 또는 적응적 변경은 본 발명의 일반 원칙을 따르며, 본 발명의 기술 분야의 상식 또는 종래의 기술적 수단을 포함한다. 명세서 및 실시예는 단순한 예로 간주되어야 하며, 본 발명의 실제 범위 및 정신은 이하의 특허 청구의 범위에 의해 지적된다.
본 발명은, 상기에 이미 설명되고 또한 도면에 나타내진 정확한 구성에 의해 한정되지 않으며, 그 범위에서 일탈하지 않는 전제 하에서 다양한 수정 및 변경을 실행할 수 있음을 이해해야 한다. 본 발명의 범위는 첨부의 특허청구의 범위에 의해서만 한정된다.
상기는 본 발명의 몇몇의 실시예에 지나지 않으며, 본 발명을 한정하기 위하여 사용되는 것이 아니다. 본 발명의 사상과 원리의 범위 내에서 행하여진 어떠한 수정, 동등의 치환, 개량 등은 모두 본 발명의 범위에 포함된다 할 것이다.

Claims (22)

  1. 뉴럴 네트워크의 트레이닝 방법으로서,
    이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출하는 것;
    검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 후보 대상 그룹을 생성하는 것 - 상기 후보 대상 그룹은 적어도 하나의 상기 제1 타입 대상 및 적어도 두 개의 상기 제2 타입 대상을 포함함 -;
    뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하는 것;
    상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도에 기반하여, 상기 후보 대상 그룹의 그룹 관련 손실을 확정하는 것 - 상기 그룹 관련 손실은 상기 제1 타입 대상과, 당해 제1 타입 대상과 관련되지 않는 제2 타입 대상 사이의 매칭도와 양의 상관 관계가 있음 -; 및
    상기 그룹 관련 손실에 기반하여 상기 뉴럴 네트워크의 네트워크 파라미터를 조정하는 것을 포함하는
    것을 특징으로 하는, 뉴럴 네트워크의 트레이닝 방법.
  2. 제1항에 있어서,
    상기 그룹 관련 손실은 또한 후보 대상 그룹 중의 상기 제1 타입 대상과, 당해 제1 타입 대상과 관련된 제2 타입 대상 사이의 매칭도와 음의 상관 관계가 있는
    것을 특징으로 하는, 뉴럴 네트워크의 트레이닝 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 그룹 관련 손실이 소정의 손실값보다 작으면, 상기 뉴럴 네트워크의 트레이닝이 완료된 것으로 확정하는 것을 더 포함하는
    것을 특징으로 하는, 뉴럴 네트워크의 트레이닝 방법.
  4. 제1항 내지 제3 항 중 어느 한 항에 있어서,
    상기 이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출하는 것은,
    상기 이미지의 특징 맵을 추출하는 것; 및
    상기 특징 맵에 기반하여 상기 이미지 내의 제1 타입 대상 및 제2 타입 대상을 확정하는 것을 포함하고,
    상기 뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하는 것은,
    상기 특징 맵에 기반하여 상기 제1 타입 대상의 제1 특징을 확정하는 것;
    상기 특징 맵에 기반하여 상기 후보 대상 그룹 중의 각 제 2타입 대상의 제2 특징을 확정하여, 상기 제1 특징에 대응하는 제2 특징 세트를 얻는 것;
    상기 제2 특징 세트 중의 각 제 2특징을 각각 상기 제1 특징에 접합하여, 접합 특징 세트를 얻는 것; 및
    상기 뉴럴 네트워크에 기반하여, 상기 접합 특징 세트 중의 접합 특징에 대응하는 제2 타입 대상과 제1 타입 대상 사이의 매칭도를 확정하는 것을 포함하는
    것을 특징으로 하는, 뉴럴 네트워크의 트레이닝 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 후보 대상 그룹 중의 각 상기 제2 타입 대상과 상기 제1 타입 대상이 소정의 상대적 위치 관계를 충족시키거나, 또는,
    상기 후보 대상 그룹 중의 각 상기 제2 타입 대상의 검출 프레임과 상기 제1 타입 대상의 검출 프레임 사이에 중첩 영역이 존재하는
    것을 특징으로 하는, 뉴럴 네트워크의 트레이닝 방법.
  6. 제1항 내재 제5항 중 어느 한 항에 있어서,
    상기 제1 타입 대상은 제1 인체 부위 대상을 포함하고 상기 제2 타입 대상은 인체 대상을 포함하거나, 또는 상기 제1 타입 대상은 인체 대상을 포함하고 상기 제2 타입 대상은 제1 인체 부위 대상을 포함하는
    것을 특징으로 하는, 뉴럴 네트워크의 트레이닝 방법.
  7. 제6항에 있어서,
    상기 제1 인체 부위 대상은 사람 얼굴 대상 또는 사람 손 대상을 포함하는
    것을 특징으로 하는, 뉴럴 네트워크의 트레이닝 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 뉴럴 네트워크의 트레이닝 방법은,
    상기 이미지 내의 제3 타입 대상을 검출하는 것을 더 포함하며,
    상기 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 후보 대상 그룹을 생성하는 것은,
    검출된 제1 타입 대상, 제2 타입 대상 및 제3 타입 대상에 기반하여 적어도 하나의 후보 대상 그룹을 생성하는 것 - 각 후보 대상 그룹은 적어도 두 개의 상기 제3 타입 대상을 더 포함함 -을 포함하고,
    상기 뉴럴 네트워크의 트레이닝 방법은,
    뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 3타입 대상 사이의 각각의 매칭도를 확정하는 것을 더 포함하며,
    상기 그룹 관련 손실은 또한 상기 제1 타입 대상과, 당해 제1 타입 대상과 관련되지 않는 제3 타입 대상 사이의 매칭도와 양의 상관 관계가 있는
    것을 특징으로 하는, 뉴럴 네트워크의 트레이닝 방법.
  9. 제8항에 있어서,
    상기 제3 타입 대상은 제2 인체 부위 대상을 포함하는
    것을 특징으로 하는, 뉴럴 네트워크의 트레이닝 방법.
  10. 관련 대상 검출 방법으로서,
    이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출하는 것;
    검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성하는 것 - 상기 대상 그룹은 하나의 제1 타입 대상 및 적어도 두 개의 제2 타입 대상을 포함함 -;
    상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하는 것; 및
    상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도에 기반하여, 상기 제1 타입 대상과 관련된 제2 타입 대상을 확정하는 것을 포함하는
    것을 특징으로 하는, 관련 대상 검출 방법.
  11. 제10항에 있어서,
    상기 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성하는 것은,
    검출된 제1 타입 대상에 대해 조합 조작을 실행하는 것을 포함하고,
    상기 조합 조작은,
    상기 제1 타입 대상과 검출된 임의의 적어도 두 개의 제2 타입 대상을 하나의 대상 그룹에 조합시키는 것; 또는 상기 제1 타입 대상과 검출된 각 제 2타입 대상을 하나의 대상 그룹에 조합시키는 것을 포함하는
    것을 특징으로 하는, 관련 대상 검출 방법.
  12. 제10항 또는 제11항에 있어서,
    상기 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성하는 것은,
    검출된 제1 타입 대상 및 제2 타입 대상의 위치 정보에 기반하여, 상기 제1 타입 대상과 소정의 상대적 위치 관계를 충족시키는 적어도 두 개의 제2 타입 대상을 상기 제1 타입 대상의 후보 관련 대상으로 확정하는 것; 및
    상기 제1 타입 대상과 상기 제1 타입 대상의 각 후보 관련 대상을 하나의 대상 그룹에 조합시키는 것을 포함하는
    것을 특징으로 하는, 관련 대상 검출 방법.
  13. 제10항 또는 제11항에 있어서,
    상기 제1 타입 대상은 제1 인체 부위 대상을 포함하고 상기 제2 타입 대상은 인체 대상을 포함하거나, 또는 상기 제1 타입 대상은 인체 대상을 포함하고 상기 제2 타입 대상은 제1 인체 부위 대상을 포함하는
    것을 특징으로 하는, 관련 대상 검출 방법.
  14. 제13항에 있어서,
    상기 제1 인체 부위 대상은 사람 얼굴 대상 또는 사람 손 대상을 포함하는
    것을 특징으로 하는, 관련 대상 검출 방법.
  15. 제10항에 있어서,
    상기 관련 대상 검출 방법은,
    이미지 내의 제3 타입 대상을 검출하는 것을 더 포함하며,
    상기 검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성하는 것은,
    검출된 제1 타입 대상, 제2 타입 대상 및 제3 타입 대상에 기반하여, 적어도 하나의 대상 그룹을 생성하는 것 - 상기 대상 그룹은 적어도 두 개의 제3 타입 대상을 더 포함함 -을 포함하고,
    상기 관련 대상 검출 방법은,
    상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹의 각 제 3타입 대상의 사이 각각의 매칭도를 확정하는 것; 및
    제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 3타입 대상의 사이 각각의 매칭도에 기반하여, 상기 제1 타입 대상과 관련된 제3 타입 대상을 확정하는 것을 포함하는
    것을 특징으로 하는, 관련 대상 검출 방법.
  16. 제15항에 있어서,
    상기 제3 타입 대상은 제2 인체 부위 대상을 포함하는
    것을 특징으로 하는, 관련 대상 검출 방법.
  17. 제10항 내지 제16항 중 어느 한 항에 있어서,
    상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하는 것은,
    사전에 트레이닝한 뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하는 것을 포함하고,
    상기 뉴럴 네트워크는 제1항 내지 제9항 중 어느 한 항에 기재된 관련 대상 검출 방법을 통해 트레이닝하여 얻어진 것인
    것을 특징으로 하는, 관련 대상 검출 방법.
  18. 뉴럴 네트워크의 트레이닝 장치로서,
    이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출하기 위한 대상 검출 모듈;
    검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 후보 대상 그룹을 생성하기 위한 후보 대상 그룹 생성 모듈 - 상기 후보 대상 그룹은 적어도 하나의 상기 제1 타입 대상 및 적어도 두 개의 상기 제2 타입 대상을 포함함 -;
    뉴럴 네트워크에 기반하여, 상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하기 위한 매칭도 확정 모듈;
    상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 후보 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도에 기반하여, 상기 후보 대상 그룹의 그룹 관련 손실을 확정하기 위한 그룹 관련 손실 확정 모듈 - 상기 그룹 관련 손실은 상기 제1 타입 대상과, 당해 제1 타입 대상과 관련되지 않는 제2 타입 대상 사이의 매칭도와 양의 상관 관계가 있음 -; 및
    상기 그룹 관련 손실에 기반하여 상기 뉴럴 네트워크의 네트워크 파라미터를 조정하기 위한 네트워크 파라미터 조정 모듈을 구비하는
    것을 특징으로 하는, 뉴럴 네트워크의 트레이닝 장치.
  19. 관련 대상 검출 장치로서,
    이미지 내의 제1 타입 대상 및 제2 타입 대상을 검출하기 위한 검출 모듈;
    검출된 제1 타입 대상 및 제2 타입 대상에 기반하여 적어도 하나의 대상 그룹을 생성하기 위한 대상 그룹 생성 모듈 - 상기 대상 그룹은 하나의 제1 타입 대상 및 적어도 두 개의 제2 타입 대상을 포함함 -;
    상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도를 확정하기 위한 확정 모듈; 및
    상기 제1 타입 대상과, 당해 제1 타입 대상과 같은 대상 그룹 중의 각 제 2타입 대상 사이의 각각의 매칭도에 기반하여, 상기 제1 타입 대상과 관련된 제2 타입 대상을 확정하기 위한 관련 대상 확정 모듈을 구비하는
    것을 특징으로 하는, 관련 대상 검출 장치.
  20. 컴퓨터 디바이스로서,
    메모리 및 프로세서; 및 메모리에 저장된, 프로세서 상에서 실행 가능한 컴퓨터 프로그램을 포함하고,
    상기 프로세서가 상기 프로그램을 실행하면, 제1항 내지 제17항 중 어느 한 항에 기재된 방법이 구현되는
    것을 특징으로 하는, 컴퓨터 디바이스.
  21. 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체로서,
    상기 프로그램이 프로세서에 의해 실행되면, 제1항 내지 제17항 중 어느 한 항에 기재된 방법이 구현되는
    것을 특징으로 하는, 컴퓨터 판독 가능 기록 매체.
  22. 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램으로서,
    상기 컴퓨터 판독 가능 코드가 전자 디바이스에 의해 실행될 때에, 상기 전자 디바이스의 프로세서가 제1항 내지 제17 중 어느 한 항에 기재된 방법을 구현하도록 하는
    것을 특징으로 하는, 컴퓨터 프로그램.
KR1020217019337A 2020-12-31 2021-04-28 뉴럴 네트워크의 트레이닝 방법과 장치 및 관련 대상 검출 방법과 장치 KR20220098314A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10202013245S 2020-12-31
SG10202013245S 2020-12-31
PCT/IB2021/053493 WO2022144603A1 (en) 2020-12-31 2021-04-28 Methods and apparatuses for training neural network, and methods and apparatuses for detecting correlated objects

Publications (1)

Publication Number Publication Date
KR20220098314A true KR20220098314A (ko) 2022-07-12

Family

ID=78092805

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217019337A KR20220098314A (ko) 2020-12-31 2021-04-28 뉴럴 네트워크의 트레이닝 방법과 장치 및 관련 대상 검출 방법과 장치

Country Status (6)

Country Link
US (1) US20220207377A1 (ko)
JP (1) JP2023511241A (ko)
KR (1) KR20220098314A (ko)
CN (1) CN113544700A (ko)
AU (1) AU2021203544A1 (ko)
PH (1) PH12021551259A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11948358B2 (en) * 2021-11-16 2024-04-02 Adobe Inc. Self-supervised hierarchical event representation learning

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7001265B2 (ja) * 2018-03-05 2022-01-19 国立大学法人 鹿児島大学 映像修復システム、映像修復方法及びプログラム
CN108766440B (zh) * 2018-05-28 2020-01-14 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
KR102565279B1 (ko) * 2018-08-23 2023-08-09 삼성전자주식회사 객체 검출 방법, 객체 검출을 위한 학습 방법 및 그 장치들
CN109241888B (zh) * 2018-08-24 2022-01-28 北京旷视科技有限公司 神经网络训练与对象识别方法、装置和系统及存储介质
CN111274811B (zh) * 2018-11-19 2023-04-18 阿里巴巴集团控股有限公司 地址文本相似度确定方法以及地址搜索方法
CN110766724B (zh) * 2019-10-31 2023-01-24 北京市商汤科技开发有限公司 目标跟踪网络训练、跟踪方法及装置、电子设备及介质
CN111738174B (zh) * 2020-06-25 2022-09-20 中国科学院自动化研究所 基于深度解耦的人体实例解析方法、系统

Also Published As

Publication number Publication date
PH12021551259A1 (en) 2021-11-03
AU2021203544A1 (en) 2022-07-14
CN113544700A (zh) 2021-10-22
JP2023511241A (ja) 2023-03-17
US20220207377A1 (en) 2022-06-30

Similar Documents

Publication Publication Date Title
CN109255352B (zh) 目标检测方法、装置及系统
CN107784282B (zh) 对象属性的识别方法、装置及系统
US10395103B2 (en) Object detection method, object detection apparatus, and program
KR101507662B1 (ko) 비디오 내 객체들의 시맨틱 파싱
US8879803B2 (en) Method, apparatus, and computer program product for image clustering
JP5554984B2 (ja) パターン認識方法およびパターン認識装置
Zhou et al. Semi-supervised salient object detection using a linear feedback control system model
US10146992B2 (en) Image processing apparatus, image processing method, and storage medium that recognize an image based on a designated object type
JP2019109709A (ja) 画像処理装置、画像処理方法およびプログラム
JP2010072723A (ja) 追跡装置及び追跡方法
KR20220098312A (ko) 이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체
EP3647997A1 (en) Person searching method and apparatus and image processing device
CN111126358A (zh) 人脸检测方法、装置、存储介质及设备
KR20220098314A (ko) 뉴럴 네트워크의 트레이닝 방법과 장치 및 관련 대상 검출 방법과 장치
CN111126159A (zh) 用于实时跟踪行人的方法、装置、电子设备和介质
KR101743169B1 (ko) 얼굴 정보를 이용한 실종 가족 찾기 시스템 및 방법 그리고 이를 구현하는 프로그램을 기록한 기록 매체
JP7370050B2 (ja) 読唇装置及び読唇方法
JP6308011B2 (ja) 同一対象検出装置、同一対象検出方法、及び同一対象検出プログラム
CN113822871A (zh) 基于动态检测头的目标检测方法、装置、存储介质及设备
JP6717769B2 (ja) 情報処理装置及びプログラム
CN111598882A (zh) 器官检测方法、装置及计算机设备
CN112115740A (zh) 用于处理图像的方法和装置
US20230377188A1 (en) Group specification apparatus, group specification method, and computer-readable recording medium
WO2023007730A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
JP7388188B2 (ja) 発話者認識システム、発話者認識方法、及び発話者認識プログラム