KR20220053670A - 목표 대상물 매칭 방법 및 장치, 전자 기기 및 기억 매체 - Google Patents

목표 대상물 매칭 방법 및 장치, 전자 기기 및 기억 매체 Download PDF

Info

Publication number
KR20220053670A
KR20220053670A KR1020227011057A KR20227011057A KR20220053670A KR 20220053670 A KR20220053670 A KR 20220053670A KR 1020227011057 A KR1020227011057 A KR 1020227011057A KR 20227011057 A KR20227011057 A KR 20227011057A KR 20220053670 A KR20220053670 A KR 20220053670A
Authority
KR
South Korea
Prior art keywords
target object
image
matching
target
feature
Prior art date
Application number
KR1020227011057A
Other languages
English (en)
Inventor
쿤 얀
쿤린 양
준 호우
슈아이 이
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20220053670A publication Critical patent/KR20220053670A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 목표 대상물 매칭 방법 및 장치, 전자 기기 및 기억 매체에 관한 것으로, 상기 방법은 입력 이미지 내의 매칭 대상인 인체를 포함하는 제1 목표 대상물과, 사람의 손 및 사람의 얼굴 중 하나 이상을 포함하는 제2 목표 대상물을 취득하는 것과, 상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것과, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프를 작성하는 것과, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 대응하는 제1 목표 대상물과 제2 목표 대상물을 결정하는 것을 포함하고, 본 발명의 실시예는 목표 대상물의 매칭 정밀도를 향상시킬 수 있다.

Description

목표 대상물 매칭 방법 및 장치, 전자 기기 및 기억 매체
본 발명은 2019년 9월 18일에 중국 국가지식산권국에 제출된, 출원번호 201910882691.5이고, 발명의 명칭 「목표 대상물 매칭 방법 및 장치, 전자 기기 및 기억 매체」인 중국 특허 출원의 우선권을 주장하고, 그 모든 내용은 원용함으로써 본 발명에 포함된다.
본 발명은 컴퓨터 시각 기술 분야에 관한 것으로, 특히 목표 대상물 매칭 방법 및 장치, 전자 기기 및 기억 매체에 관한 것이다.
사람의 얼굴과 인체의 매칭 또는 사람의 손과 인체의 매칭은 한 장의 이미지 내의 인체와 사람의 얼굴 또는 사람의 손이 대응되는지 여부를 결정한다. 한 장의 이미지에는 많은 사람이 존재하고, 각 사람의 동작과 크기가 상이한 경우가 있고, 추가로 사람과 사람이 서로 겹치는 경우도 있다. 이러한 다양한 원인으로 인체와 사람의 얼굴의 매칭 및 인체와 사람의 손의 매칭은 매우 곤란하다.
본 발명은 목표 대상물 매칭 기술을 제공한다.
본 발명의 일 측면에 의하면, 입력 이미지 내의 매칭 대상인 인체를 포함하는 제1 목표 대상물과, 사람의 손 및 사람의 얼굴 중 하나 이상을 포함하는 제2 목표 대상물을 취득하는 것과, 상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것과, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프를 작성하는 것과, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 대응하는 제1 목표 대상물과 제2 목표 대상물을 결정하는 것을 포함하는 목표 대상물 매칭 방법을 제공된다. 상기 구성에 의하면, 목표 대상물끼리의 매칭 정밀도를 향상시킬 수 있고, 몇 명이 겹치는 영역이 있는 장면에 적용할 수 있어, 보다 양호한 적용성을 갖는다.
일부 가능한 실시형태에서는 상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것은 상기 제1 이미지와 상기 제2 이미지에 대해 특징 추출 처리를 실행하고, 상기 제1 이미지의 제1 특징과 상기 제2 이미지의 제2 특징을 각각 얻는 것과, 상기 제1 특징과 상기 제2 특징의 접속 특징에 대해 분류 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것을 포함한다. 상기 구성에 의하면, 2개의 목표 대상물의 매칭 정도를 용이하게 얻을 수 있고, 그 과정에는 고정밀도의 특징 및 정확한 매칭 정도를 얻을 수 있다.
일부 가능한 실시형태에서는 상기 제1 특징과 상기 제2 특징의 접속 특징에 대해 분류 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것은 상기 제1 특징과 상기 제2 특징의 접속 특징에 대해 특징 융합 처리를 실행하여, 융합 특징을 얻는 것과, 상기 융합 특징을 전체 접속층에 입력하여 상기 분류 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것을 포함한다. 상기 구성에 의하면, 융합 처리에 의해 분류 효율 및 분류 정밀도를 향상시킬 수 있다.
일부 가능한 실시형태에서는 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 제2 목표 대상물의 매칭 정도에 기초하여 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프를 작성하는 것은 상기 제2 목표 대상물이 사람의 얼굴만을 포함함에 따라, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 인체와 사람의 얼굴의 2부 그래프를 작성하는 것과, 상기 제2 목표 대상물이 사람의 손만을 포함함에 따라, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여 인체와 사람의 손의 2부 그래프를 작성하는 것과, 상기 제2 목표 대상물이 사람의 얼굴 및 사람의 손을 포함함에 따라, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여 인체와 사람의 얼굴의 2부 그래프 및 인체와 사람의 손의 2부 그래프를 작성하는 것을 포함하고, 인체와 사람의 얼굴의 매칭 정도를 상기 인체와 사람의 얼굴의 2부 그래프 내의 인체와 사람의 얼굴의 접속 가중치로 하고, 인체와 사람의 손의 매칭 정도를 상기 인체와 사람의 손의 2부 그래프 내의 인체와 사람의 손의 접속 가중치로 한다. 상기 구성에 의하면, 2부 그래프를 작성함으로써, 목표 대상물끼리의 관계를 용이하게 작성할 수 있다.
일부 가능한 실시형태에서는 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프를 작성하는 것은 매칭 정도가 제1 임계값보다 높은 제1 목표 대상물과 제2 목표 대상물에 기초하여, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프를 작성하는 것을 포함한다. 상기 구성에 의하면, 2부 그래프의 구성을 간소화하여, 매칭 효율을 향상시킬 수 있다.
일부 가능한 실시형태에서는 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 대응하는 제1 목표 대상물과 제2 목표 대상물을 결정하는 것은 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 그리디 알고리즘을 이용하고, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 매칭 정도가 높은 순서로, 상기 제1 목표 대상물과의 매칭 정도가 가장 높은 소정 수의 상기 제2 목표 대상물을 상기 제1 목표 대상물에 대응하는 제2 목표 대상물로 하는 것을 포함한다. 상기 구성에 의하면, 대응하는 목표 대상물을 편리하고 정확하게 결정할 수 있다.
일부 가능한 실시형태에서는 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 대응하는 제1 목표 대상물과 제2 목표 대상물을 결정하는 것은 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프가 인체와 사람의 손의 2부 그래프를 포함함에 따라, 그리디 알고리즘(Greedy Algorithm)을 이용하고, 상기 제1 목표 대상물과의 매칭 정도가 가장 높고, 종류가 사람의 손인 많아도 2개의 제2 목표 대상물을 선출하는 것과, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프가 인체와 사람의 얼굴의 2부 그래프를 포함함에 따라, 그리디 알고리즘을 이용하고, 상기 제1 목표 대상물과의 매칭 정도가 가장 높고, 종류가 사람의 얼굴인 제2 목표 대상물을 선출하는 것을 추가로 포함한다. 상기 구성에 의하면, 상이한 종류의 제2 목표 대상물에 대해 상이한 매칭수를 적응적으로 설정할 수 있어, 적응성이 한층 좋다.
일부 가능한 실시형태에서는 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 대응하는 제1 목표 대상물과 제2 목표 대상물을 결정하는 것은 제1 목표 대상물 중 어느 것에 대해, 대응하는 소정 수의 제2 목표 대상물을 결정함에 따라, 상기 제1 목표 대상물에 나머지 제2 목표 대상물을 대응시키지 않는 것과, 제2 목표 대상물 중 어느 것에 대해, 대응하는 제1 목표 대상물을 결정함에 따라, 상기 제2 목표 대상물에 나머지 제1 목표 대상물을 대응시키지 않는 것을 추가로 포함한다. 상기 구성에 의하면, 동일한 목표 대상물이 복수의 목표 대상물에 대응할 확률을 낮게 하여, 매칭 정밀도를 향상시킬 수 있다.
일부 가능한 실시형태에서는 입력 이미지 내의 매칭 대상인 제1 목표 대상물과 제2 목표 대상물을 취득하는 것은 검출된 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물에 대한 프레임 선택 조작에 기초하여, 상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물을 결정하는 것과, 목표 검출 뉴럴 네트워크를 이용하여 상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물을 검출하는 것과, 상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물을 결정하는 것 중 하나 이상을 포함한다. 상기 구성에 의하면, 상이한 방법으로 매칭 대상인 목표 대상물을 결정할 수 있어, 보다 우수한 사용자 체험을 제공한다.
일부 가능한 실시형태에서는 상기 방법은 상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하기 전에, 상기 제1 이미지와 상기 제2 이미지 각각을 미리 설정된 사양으로 조정하는 것을 추가로 포함하고, 상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것은 미리 설정된 사양으로 조정된 상기 제1 이미지와 상기 제2 이미지에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것을 포함한다. 상기 구성에 의하면, 상이한 사양의 이미지에 적응할 수 있다.
일부 가능한 실시형태에서는 상기 방법은 대응하는 상기 제1 목표 대상물과 상기 제2 목표 대상물을 상기 입력 이미지에 표시하는 것을 추가로 포함한다. 상기 구성에 의하면, 매칭 결과를 직감적으로 표시할 수 있고, 사용자 체험이 한층 좋다.
일부 가능한 실시형태에서는 상기 방법은 상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것을 샴 뉴럴 네트워크에 의해 실행하는 것을 추가로 포함한다. 상기 구성에 의하면, 특징 처리의 정밀도를 향상시킬 수 있고, 매칭 정도를 추가로 향상시킬 수 있다.
일부 가능한 실시형태에서는 상기 방법은 상기 샴 뉴럴 네트워크를 트레이닝하는 단계를 추가로 포함하고, 상기 단계는 인체 이미지인 복수의 제1 트레이닝 이미지 및 사람의 얼굴 이미지 또는 사람의 손 이미지인 복수의 제2 트레이닝 이미지를 포함하는 트레이닝 샘플을 취득하는 것과, 상기 제1 트레이닝 이미지 및 상기 제2 트레이닝 이미지를 상기 샴 뉴럴 네트워크에 입력하여 상기 제1 트레이닝 이미지와 상기 제2 트레이닝 이미지의 추정 매칭 결과를 얻는 것과, 상기 제1 트레이닝 이미지와 상기 제2 트레이닝 이미지의 추정 매칭 결과에 기초하여 네트워크 손실을 결정하고, 상기 네트워크 손실에 따라 상기 샴 뉴럴 네트워크의 네트워크 파라미터를 조정하는 것을 트레이닝 요구를 만족할 때까지 행하는 것을 포함한다. 상기 구성에 의하면, 샴 뉴럴 네트워크를 최적화하여 매칭 정도를 향상시킬 수 있다.
본 발명의 제2 측면에 의하면, 입력 이미지 내의 매칭 대상인 인체를 포함하는 제1 목표 대상물과, 사람의 손 및 사람의 얼굴 중 하나 이상을 포함하는 제2 목표 대상물을 취득하는 취득 모듈과, 상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 특징 처리 모듈과, 상기 제1 이미지 내의 상기 제1 목표 대상물과 2부 그래프를 작성하는 이부화 모듈과, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 대응하는 제1 목표 대상물과 제2 목표 대상물을 결정하는 매칭 모듈을 포함하는 목표 대상물 매칭 장치를 제공한다.
일부 가능한 실시형태에서는 상기 특징 처리 모듈은 추가로, 상기 제1 이미지와 상기 제2 이미지에 대해 특징 추출 처리를 실행하고, 상기 제1 이미지의 제1 특징과 상기 제2 이미지의 특징을 각각 얻고, 상기 제1 특징과 상기 제2 특징의 접속 특징에 대해 분류 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는다.
일부 가능한 실시형태에서는 상기 특징 처리 모듈은 상기 제1 특징과 상기 제2 특징의 접속 특징에 대해 특징 융합 처리를 실행하여 융합 특징을 얻고, 상기 융합 특징을 전체 접속층에 입력하여 상기 분류 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는다.
일부 가능한 실시형태에서는 상기 이부화 모듈은 추가로, 상기 제2 목표 대상물이 사람의 얼굴만을 포함하는 경우, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 인체와 사람의 얼굴의 2부 그래프를 작성하고, 상기 제2 목표 대상물이 사람의 손만을 포함하는 경우, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 인체와 사람의 손의 2부 그래프를 작성하고, 상기 제2 목표 대상물이 사람의 얼굴 및 사람의 손을 포함하는 경우, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여 인체와 사람의 얼굴의 2부 그래프 및 인체와 사람의 손의 2부 그래프를 작성하고, 인체와 사람의 얼굴의 매칭 정도를 상기 인체와 사람의 얼굴의 2부 그래프 내의 인체와 사람의 얼굴의 접속 가중치로 하고, 인체와 사람의 손의 매칭 정도를 상기 인체와 사람의 손의 2부 그래프 내의 인체와 사람의 손의 접속 가중치로 한다.
일부 가능한 실시형태에서는 상기 이부화 모듈은 추가로, 매칭 정도가 제1 임계값보다 높은 제1 목표 대상물과 제2 목표 대상물에 기초하여 상기 제1 목표 대상물과 제2 목표 대상물의 2부 그래프를 작성한다.
일부 가능한 실시형태에서는 상기 매칭 모듈은 추가로, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여 그리디 알고리즘을 이용하고, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 매칭 정도가 높은 순서로, 상기 제1 목표 대상물과의 매칭 정도가 가장 높은 소정 수의 상기 제2 목표 대상물을 상기 제1 목표 대상물에 대응하는 제2 목표 대상물로 한다.
일부 가능한 실시형태에서는 상기 매칭 모듈은 추가로, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프가 인체와 사람의 얼굴의 2부 그래프를 추가로 포함하는 경우, 그리디 알고리즘을 이용하고, 상기 제1 목표 대상물과의 매칭 정도가 가장 높고, 종류가 사람의 얼굴인 제2 목표 대상물을 선출한다.
일부 가능한 실시형태에서는 상기 매칭 모듈은 추가로, 상기 제1 목표 대상물 중 어느 것에 대해, 대응하는 소정 수의 제2 목표 대상물이 결정된 경우, 상기 제1 목표 대상물에 나머지 제2 목표 대상물을 대응시키지 않고, 제2 목표 대상물 중 어느 것에 대해, 대응하는 제1 목표 대상물이 결정된 경우, 상기 제2 목표 대상물에 나머지 제1 목표 대상물을 대응시키지 않는다.
일부 가능한 실시형태에서는 상기 취득 모듈이 입력 이미지 내의 매칭 대상인 제1 목표 대상물과 제2 목표 대상물을 취득하는 것은 검출된 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물에 대한 프레임 선택 조작에 기초하여, 상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물을 결정하는 것과, 목표 검출 뉴럴 네트워크를 이용하여 상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물을 검출하는 것과, 상기 입력 이미지 내의 제1 목표 대상물과 상기 제2 목표 대상물의 위치 정보를 수신하고, 상기 위치 정보에 기초하여 상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물을 결정하는 것 중 하나 이상을 포함한다.
일부 가능한 실시형태에서는 상기 특징 처리 모듈은 추가로, 상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하기 전에, 상기 제1 이미지와 상기 제2 이미지 각각을 미리 설정된 사양으로 조정하고,
상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것은
미리 설정된 사양으로 조정된 상기 제1 이미지와 상기 제2 이미지에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것을 포함한다.
일부 가능한 실시형태에서는 상기 장치는 대응하는 상기 제1 목표 대상물과 상기 제2 목표 대상물을 상기 입력 이미지에 표시하는 표시 모듈을 추가로 포함한다.
일부 가능한 실시형태에서는 상기 특징 처리 모듈은 추가로, 상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것을 샴 뉴럴 네트워크에 의해 실행한다.
몇몇 가능한 실시형태에서는 상기 장치는 상기 샴 뉴럴 네트워크를 트레이닝하는 트레이닝 모듈을 추가로 포함하고, 상기 샴 뉴럴 네트워크를 트레이닝하는 단계는 인체 이미지인 복수의 제1 트레이닝 이미지 및 사람의 얼굴 이미지 또는 사람의 손 이미지인 복수의 제2 트레이닝 이미지를 포함하는 트레이닝 샘플을 취득하는 것과, 상기 제1 트레이닝 이미지 및 상기 제2 트레이닝 이미지를 상기 샴 뉴럴 네트워크에 입력하여, 상기 제1 트레이닝 이미지와 상기 제2 트레이닝 이미지의 추정 매칭 결과를 얻는 것과, 상기 제1 트레이닝 이미지와 상기 제2 트레이닝 이미지의 추정 매칭 결과에 기초하여 네트워크 손실을 결정하고, 상기 네트워크 손실에 따라 상기 샴 뉴럴 네트워크의 네트워크 파라미터를 조정하는 것을 트레이닝 요구를 만족시킬 때까지 행하는 것을 포함한다.
본 발명의 제3 측면에 의하면, 프로세서와, 프로세서에 의해 실행 가능한 명령을 기억하기 위한 메모리를 포함하고, 상기 프로세서는 상기 메모리에 기억되어 있는 명령을 불러냄으로써 제1 측면 중 어느 한 항의 방법을 실행시키도록 구성되는 전자 기기를 제공한다.
본 발명의 제4 측면에 의하면, 컴퓨터 프로그램 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체에서, 상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행되면, 제1 측면 중 어느 한 항의 방법을 실현시키는 컴퓨터 판독 가능 기억 매체를 제공한다.
본 발명의 제5 측면에 의하면, 전자 기기 내에서 실행되면, 상기 전자 기기 내의 프로세서에 제1 측면 중 어느 한 항의 방법을 실행시키는 컴퓨터 판독 가능 코드를 제공한다.
본 발명의 실시예에서는 우선, 매칭 대상인 제1 목표 대상물의 제1 이미지와 제2 목표 대상물의 제2 이미지를 취득해도 된다. 제1 목표 대상물은 인체여도 되고, 제2 목표 대상물은 사람의 얼굴 및/또는 사람의 손이어도 된다. 그 후, 제1 이미지와 제2 이미지에 대해 특징 처리를 실행함으로써, 제1 이미지 내의 제1 목표 대상물과 제2 이미지 내의 제2 목표 대상물의 매칭 정도를 얻을 수 있다. 또한, 2부 그래프를 작성함으로써, 제1 이미지 내의 제1 목표 대상물과 제2 이미지 내의 제2 목표 대상물의 매칭 결과를 결정한다. 본 발명의 실시예에서는 우선 각 제1 목표 대상물과 각 제2 목표 대상물의 매칭 정도를 검출하고, 2부 그래프를 작성함으로써, 검출한 매칭 정도를 제한하고, 최종적으로 제1 목표 대상물에 대응하는 제2 목표 대상물을 결정하고, 이에 의해 최종적인 관련 매칭 결과의 정밀도가 한층 높아진다.
이상의 일반적인 설명과 이하의 상세한 설명은 예시적이거나 해석적인 것에 불과하고, 본 발명을 제한하는 것은 아님을 이해해야 한다.
이하, 도면을 참조하면서 예시적인 실시예를 상세하게 설명함으로써, 본 발명의 다른 특징 및 측면은 명확해진다.
명세서의 일부로서 포함되는 도면은 본 발명의 실시예를 나타내고, 명세서와 함께 본 발명의 기술적 수단을 설명하는 것이다.
도 1은 본 발명의 실시예에 따른 목표 대상물 매칭 방법의 흐름도를 나타낸다.
도 2는 본 발명의 실시예에 의해 얻어진 입력 이미지 내의 각 목표 대상물의 위치 에어리어의 모식도를 나타낸다.
도 3은 본 발명의 실시예에 따라 뉴럴 네트워크에 의해 제1 목표 대상물과 제2 목표 대상물의 매칭 정도를 얻는 흐름도를 나타낸다.
도 4는 본 발명의 실시예에 따른 샴 뉴럴 네트워크의 구조 모식도를 나타낸다.
도 5는 본 발명의 실시예에 따라 작성된 인체와 사람의 손의 2부 그래프 및 매칭 결과의 모식도를 나타낸다.
도 6은 본 발명의 실시예에 따라 샴 뉴럴 네트워크를 트레이닝하는 흐름도를 나타낸다.
도 7은 본 발명의 실시예에 따른 목표 대상물 매칭 장치의 잠금도를 나타낸다.
도 8은 본 발명의 실시예에 따른 전자 기기의 블록도를 나타낸다.
도 9는 본 발명의 실시예에 따른 다른 전자 기기의 블록도를 나타낸다.
이하에 도면을 참조하면서 본 발명의 다양한 예시적인 실시예, 특징 및 측면을 상세하게 설명한다. 도면에서 동일한 부호가 동일하거나 또는 유사한 기능의 요소를 나타낸다. 도면에서 실시예의 다양한 측면을 나타냈지만, 특별히 언급하지 않는 한, 비례에 따라 도면을 그릴 필요가 없다.
여기서의 용어 「예시적」이란 「예, 실시예로서 사용되는 것 또는 설명적인 것」을 의미한다. 여기서, 「예시적」으로 설명되는 어떤 실시예는 다른 실시예보다 바람직하거나 또는 우수한 것으로 이해해서는 안된다.
본 명세서에서의 용어 「및/또는」은 관련 대상과의 연관 관계를 기술하는 것에 불과하고, 3개의 관계가 존재 가능함을 나타내고, 예를 들면, A 및/또는 B는 A만이 존재하거나, A와 B 양방이 존재하거나, B만이 존재한다는 3개의 경우를 나타내도 된다. 또한, 본 명세서에서의 용어 「하나 이상」은 복수 중 어느 하나, 또는 복수 중 적어도 2개의 임의의 조합을 나타내고, 예를 들면, A, B 및 C 중 하나 이상을 포함하는 것은 A, B 및 C로 이루어지는 집합에서 선택된 어느 하나 또는 복수의 요소를 포함하는 것을 나타낼 수 있다.
또한, 본 발명을 보다 효과적으로 설명하기 위해 이하의 구체적인 실시형태에서 다양한 구체적인 상세를 나타낸다. 당업자라면 본 발명은 어떤 구체적인 상세가 없어도, 동일하게 실시할 수 있음을 이해해야 한다. 일부 실시예에서는 본 발명의 취지를 강조하기 위해 당업자가 숙지하고 있는 방법, 수단, 요소 및 회로에 대해 상세한 설명을 생략한다.
본 발명의 실시예는 목표 대상물 매칭 방법을 제공한다. 이 방법은 2개의 이미지 내의 대상물이 대응되는지 여부를 편리하게 판단할 수 있다. 예를 들면, 인체 대상물과 인체 대상물이 대응되는지 여부, 또는 인체 대상물과 인체 대상물이 대응되는지 여부를 검출할 수 있다. 이 방법은 예를 들면, 전자 기기 또는 서버 등의 임의의 이미지 처리 기기에 적용할 수 있다. 전자 기기는 휴대 전화, 노트북 컴퓨터, PAD 등의 단말 기기여도 되고, 스마트 팔찌, 스마트 워치 등의 장착 가능한 기기여되고, 다른 휴대용 기기 등이어도 된다. 서버는 클라우드 서버 또는 로컬 서버 등을 포함해도 된다. 이미지 처리를 실행할 수 있는 것이면, 본 발명의 실시예의 목표 대상물 매칭 방법의 실행 본체로서 사용할 수 있다.
도 1은 본 발명의 실시예에 따른 목표 대상물 매칭 방법의 흐름도를 나타낸다. 도 1에 나타내는 바와 같이, 목표 대상물 매칭 방법은 단계(S10), 단계(S20), 단계(S30) 및 단계 (S40)을 포함한다.
단계(S10)에서는 입력 이미지 내의 매칭 대상인 인체를 포함하는 제1 목표 대상물과, 사람의 손 및 사람의 얼굴 중 하나 이상을 포함하는 제2 목표 대상물을 취득한다.
일부 가능한 실시형태에서는 본 발명의 실시예는 사람의 얼굴과 인체의 매칭 및 사람의 손과 인체의 매칭을 실현할 수 있고, 즉 입력 이미지 내의 사람의 얼굴과 인체가 동일한 사람에 대응하는지 여부 및 사람의 손과 인체가 동일한 사람에 대응하는지 여부를 결정할 수 있고, 인물 대상물마다 사람의 얼굴, 사람의 손 및 인체의 매칭을 실현할 수 있다. 우선, 입력 이미지 내의 매칭 대상인 목표 대상물의 이미지를 취득할 수 있다. 목표 대상물은 인체와, 사람의 손 및 사람의 얼굴 중 하나 이상을 포함해도 된다. 예를 들면, 입력 이미지에 대해 대상 검출 처리를 실행하여 입력 이미지 내의 각 목표 대상물을 검출하고, 즉, 우선 입력 이미지 내의 제1 목표 대상물과 제2 목표 대상물의 위치를 취득하고, 예를 들면, 입력 이미지 내의 제1 목표 대상물과 제2 목표 대상물의 위치를 취득할 수 있다. 추가로, 제1 목표 대상물에 대응하는 이미지과 제2 목표 대상물에 대응하는 이미지 영역을 결정할 수 있다. 제1 목표 대상물은 인체를 포함하고, 제2 목표 대상물은 사람의 얼굴 및 사람의 손 중 하나 이상을 포함한다.
단계(S20)에서는 상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 제1 목표 대상물과 제2 이미지 내의 제2 목표 대상물의 매칭 정도를 얻는다.
일부 가능한 실시형태에서는 입력 이미지 내의 매칭 대상인 제1 목표 대상물과 제2 목표 대상물을 취득한 경우, 즉 입력 이미지 내의 매칭 대상인 제1 목표 대상물과 제2 목표 대상물 각각의 위치를 알 수 있는 경우, 입력 이미지 내의 제1 목표 대상물과 제2 목표 대상물에 대응하는 이미지 영역을 결정할 수 있다. 즉, 입력 이미지 내의 제1 목표 대상물의 위치에 대응하는 제1 이미지 및 입력 이미지 내의 제2 목표 대상물의 위치에 대응하는 제2 이미지를 결정할 수 있다. 제1 이미지와 제2 이미지는 각각 입력 이미지 내의 일부 이미지 영역이다.
제1 이미지와 제2 이미지를 얻은 경우, 제1 이미지와 제2 이미지 각각에 대해 특징 처리를 실행함으로써, 제1 이미지 내의 제1 목표 대상물과 제2 이미지 내의 제2 목표 대상물의 매칭 상황을 검출하고, 대응하는 매칭 정도를 얻을 수 있다.
일부 가능한 실시형태에서는 뉴럴 네트워크에 의해 상기 제1 목표 대상물과 제2 목표 대상물의 매칭 정도를 취득해도 된다. 제1 이미지와 제2 이미지의 이미지 특징을 각각 얻고, 추가로 이미지 특징에 기초하여 제1 목표 대상물과 제2 목표 대상물의 매칭 정도를 결정해도 된다. 하나의 예에서는 뉴럴 네트워크는 특징 추출 모듈, 특징 융합 모듈 및 전체 접속 모듈을 포함해도 된다. 특징 추출 모듈에 의해 입력된 제1 이미지와 제2 이미지에 대해 특징 추출 처리를 실행하고, 특징 융합 모듈에 의해 제1 이미지와 제2 이미지의 특징 정보의 특징 융합을 실현하고, 전체 접속 모듈에 의해, 제1 목표 대상물과 제2 목표 대상물의 이부화 결과, 즉 제1 목표 대상물과 제2 목표 대상물의 매칭 정도를 얻을 수 있다. 이 매칭 정도는 0 이상 1 이하의 수치여도 되고, 매칭 정도가 높을수록 제1 목표 대상물과 제2 목표 대상물이 동일한 인물 대상물에 대응할 가능성이 높다.
하나의 예에서는 뉴럴 네트워크는 샴 뉴럴 네트워크여도 된다. 특징 추출 모듈은 2개의 특징 추출 브랜치를 포함해도 되고, 2개의 특징 추출 브랜치에서의 처리 조작 및 파라미터는 전부 동일하다. 이 2개의 특징 추출 브랜치에 의해, 제1 이미지와 제2 이미지의 특징 정보를 각각 추출할 수 있다. 샴 뉴럴 네트워크에 의해 매칭 정도의 검출을 실현하고, 검출된 매칭 정도의 정밀도를 향상시킬 수 있다.
단계(S30)에서는 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프를 작성한다.
일부 가능한 실시형태에서는 제1 목표 대상물과 제2 목표 대상물의 매칭 정도를 얻은 경우, 제1 목표 대상물과 제2 목표 대상물의 2부 그래프를 작성할 수 있다. 입력 이미지에 하나 이상의 인물 대상물을 포함해도 되고, 예를 들면, 하나 이상의 제1 목표 대상물과 하나 이상의 제2 목표 대상물을 포함해도 된다. 각각의 제1 목표 대상물과 각각의 제2 목표 대상물의 매칭 정도에 기초하여, 각각의 제1 목표 대상물과 각각의 제2 목표 대상물의 2부 그래프를 작성할 수 있다. 제1 목표 대상물과 제2 목표 대상물은 2부 그래프의 2개의 점 세트여도 되고, 제1 목표 대상물과 제2 목표 대상물의 매칭 정도는 2개의 점 세트간의 각 접속 가중치로 한다.
예를 들면, 제2 목표 대상물의 타입에 따라 상이한 2부 그래프를 작성해도 된다. 제2 목표 대상물의 타입이 사람의 얼굴인 경우, 얻어진 2부 그래프는 인체와 사람의 얼굴의 2부 그래프이고, 제2 목표 대상물의 타입이 사람의 손인 경우에 얻어진 2부 그래프는 인체와 사람의 손의 2부 그래프이고, 제2 목표 대상물이 사람의 얼굴과 사람의 손을 포함하는 경우, 얻어진 2부 그래프는 인체와 사람의 얼굴의 2부 그래프 및 인체와 사람의 손의 2부 그래프이다.
단계(S40)에서는 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 대응하는 제1 목표 대상물과 제2 목표 대상물을 결정한다.
일부 가능한 실시형태에서는 제1 목표 대상물과 제2 목표 대상물의 2부 그래프를 얻은 경우, 이 2부 그래프에 기초하여 제1 목표 대상물에 대응하는 제2 목표 대상물을 결정하고, 즉, 제1 목표 대상물과 함께 동일한 인물 대상물에 대응하는 제2 목표 대상물을 결정해도 된다.
상술한 바와 같이, 2부 그래프 내의 제1 목표 대상물과 제2 목표 대상물의 접속 가중치는 제1 목표 대상물과 제2 목표 대상물의 매칭 정도이다. 본 발명의 실시예에서는 매칭 정도가 높은 순서로 제1 목표 대상물에 대응하는 제2 목표 대상물을 결정해도 된다.
하나의 예로는, 2부 그래프가 인체와 사람의 얼굴의 2부 그래프인 경우, 매칭 정도가 높은 순서로, 각 인체(제1 목표 대상물)에 대해 매칭 정도가 가장 높은 사람의 얼굴(제2 목표 대상물)을 결정해도 된다. 2부 그래프가 인체와 사람의 손의 2부 그래프인 경우, 매칭 정도가 높은 순서로, 각 인체(제1 목표 대상물)에 대해 매칭 정도가 가장 높은 많아도 2개의 사람의 손(제2 목표 대상물)을 결정해도 된다.
본 발명의 실시예에서는 그리디 알고리즘을 이용하여 상기 제1 목표 대상물에 대응하는 제2 목표 대상을 얻도록 해도 된다. 제1 목표 대상물 중 어느 하나에 대해 대응하는 제2 목표 대상물이 결정된 경우, 상기 제1 목표 대상물과 제2 목표 대상물에 대해 다른 대상물에 대응시키지 않는다.
상기 구성에 의하면, 본 발명의 실시예에서는 우선, 입력 이미지 내의 각 제1 목표 대상물과 각 제2 목표 대상물의 매칭 정도를 추정하고, 나중에 2부 그래프를 작성함으로써 제1 목표 대상물과 제2 목표 대상물의 매칭 결과를 결정하고, 보다 고정밀도의 매칭 결과를 얻을 수 있다.
이하, 도면을 참조하면서 본 발명의 실시예를 상세히 설명한다. 본 발명의 실시예에서는 우선, 입력 이미지를 얻도록 해도 되고, 입력 이미지는 인물 대상물을 포함하는 임의의 이미지여도 된다. 입력 이미지를 얻는 방법으로서, 이미지 취득 장치에 의해 입력 이미지를 취득하는 방법, 다른 장치로부터 전송된 입력 이미지를 접수하는 방법, 메모리로부터 입력 이미지를 판독하는 방법 중 하나 이상을 포함해도 된다. 이미지 취득 장치는 이미지 취득 기능을 갖는 임의의 장치, 예를 들면, 카메라, 비디오 카메라, 휴대 전화 또는 컴퓨터 등이어도 되지만, 본 발명은 이것을 구체적으로 한정하지 않는다. 또한, 메모리는 로컬 메모리 또는 클라우드 메모리여도 된다. 이상은 입력 이미지를 얻는 방법의 예시적인 설명에 지나지 않고, 다른 실시예에서는 입력 이미지를 얻기 위해 다른 방법을 사용해도 되고, 본 발명은 이것을 구체적으로 한정하지 않는다.
입력 이미지를 얻은 경우, 입력 이미지 내의 매칭 대상인 제1 목표 대상물과 제2 목표 대상물, 예를 들면, 제1 목표 대상물과 제2 목표 대상물의 위치 에어리어를 추가로 얻을 수 있다. 본 발명의 실시예에서는 입력 이미지를, 인체, 사람의 얼굴, 사람의 손을 포함할 수 있는 목표 대상물의 검출을 실현할 수 있는 뉴럴 네트워크에 입력되어도 된다. 예를 들면, 입력 이미지를 목표 대상물의 검출을 실행할 수 있는 뉴럴 네트워크에 입력하고, 이 뉴럴 네트워크의 검출에 의해 입력 이미지 내의 제1 목표 대상물의 위치 에어리어 및 제2 목표 대상물의 위치 에어리어를 얻을 수 있다. 또한, 입력 이미지에 있어서 검출 프레임의 형태로 각 제1 목표 대상물과 각 제2 목표 대상물의 위치 에어리어를 나타내도 된다. 또한, 각 검출 프레임에 대응하는 목표 대상물의 분류 정보(인체, 사람의 얼굴 또는 사람의 손)를 포함해도 된다. 상기 검출 프레임에 대응하는 위치에 의해, 제1 목표 대상물과 제2 목표 대상물의 위치 에어리어를 결정할 수 있고, 마크에 의해, 제1 목표 대상물과 제2 목표 대상물의 타입을 결정할 수 있다. 예를 들면, 본 발명의 실시예에서는 목표 대상물의 검출을 실행하는 뉴럴 네트워크는 리전 프로포절 네트워크(RPN)여도 되고, 목표 인식 합성곱 뉴럴 네트워크(RCNN)여도 된다. 그러나, 본 발명은 이를 구체적으로 한정하지 않는다. 이와 같이 하여, 입력 이미지 내의 모든 제1 목표 대상물과 제2 목표 대상물을 편리하고 정확하게 인식할 수 있다.
일부 가능한 실시형태에서는 수신된 입력 이미지에 대한 프레임 선택 조작에 따라 입력 이미지 내의 제1 목표 대상물과 제2 목표 대상을 결정해도 된다. 즉, 본 발명의 실시예에서는 사용자가 입력한 프레임 선택 조작을 접수해도 된다. 이 프레임 선택 조작은 입력 이미지로부터 매칭 대상인 제1 목표 대상물과 제2 목표 대상물, 즉 제1 목표 대상물과 제2 목표 대상물에 대응하는 위치 에어리어를 프레임으로 선택하는 것이다. 프레임 선택 조작에 의해 결정된 위치 에어리어의 형상은 직사각형이어도 되고, 다른 형상이어도 된다. 본 발명은 이것을 구체적으로 한정하지 않는다. 프레임 선택 조작을 접수할 때, 각 프레임 선택 에어리어에 대응하는 대상물의 분류, 예를 들면, 인체, 사람의 얼굴 또는 사람의 손을 접수해도 된다. 이와 같이 하여, 사용자의 선택에 기초하여, 매칭 대상인 제1 목표 대상물과 제2 목표 대상물을 결정하고, 예를 들면, 입력 이미지 내의 하나 이상의 제1 목표 대상물과 하나 이상의 제2 목표 대상물을 매칭 대상인 제1 목표 대상물과 제2 목표 대상물로서 결정할 수 있고, 보다 우수한 유연성 및 적용성을 갖는다.
일부 가능한 실시형태에서는 제1 목표 대상물과 제2 목표 대상물에 대한 위치 정보를 직접 수신해도 되고, 예를 들면, 제1 목표 대상물과 제2 목표 대상물의 각각의 위치 에어리어의 정점 좌표 및 높이 값을 접수해도 된다. 이에 의해, 각각의 위치 에어리어를 결정할 수 있다. 혹은, 각각의 위치 에어리어에 대응하는 2개의 꼭지각의 좌표를 접수해도 된다 이것에 의해, 입력 이미지 내의 제1 목표 대상물과 제2 목표 대상물의 위치 에어리어를 결정할 수 있고, 입력 이미지 내의 제1 목표 대상물과 제2 목표 대상물을 얻을 수 있다. 이상은 예시적인 설명에 지나지 않고, 다른 실시예에서는 다른 방법으로 위치 에어리어의 위치 정보를 나타내도 된다. 이와 같이 하여, 사용자로부터 전송된 위치 정보에 기초하여, 매칭 대상인 제1 목표 대상물과 제2 목표 대상물을 결정하고, 예를 들면, 입력 이미지 내의 하나 이상의 제1 목표 대상물과 하나 이상의 제2 목표 대상물은 매칭 대상인 제1 목표 대상물과 제2 목표 대상물로 결정될 수 있고, 보다 우수한 유연성 및 적용성을 갖는다.
상기 구성에 의하면, 입력 이미지 내의 목표 대상물의 위치 에어리어를 결정할 수 있고, 이 위치 에어리어에 기초하여 입력 이미지 내의 각 제1 목표 대상물의 제1 이미지 및 각 제2 목표 대상물의 제2 이미지를 얻을 수 있다. 도 2는 본 발명의 실시예에 의해 얻어진 입력 이미지 내의 각 목표 대상물의 위치 에어리어의 모식도를 나타낸다. A1, B1은 각각 제1 목표 대상물(A, B)의 위치 에어리어를 나타내고, 제1 목표 대상물이 인체이다. A2, B2는 각각 타입이 사람의 얼굴인 제2 목표 대상물의 위치 에어리어를 나타내고, A3, A4는 타입이 사람의 손인 제2 목표 대상물의 위치 에어리어를 나타낸다. 도 2에서는 모든 인체, 사람의 얼굴 및 사람의 손을 매칭 대상인 제1 목표 대상물과 제2 목표 대상물로 해도 된다. 본 발명의 실시예에서는 입력 이미지 내의 일부의 제1 목표 대상물과 제2 목표 대상물을 매칭 대상인 제1 목표 대상물과 제2 목표 대상물로 해도 된다. 여기서 예를 들어 설명하지 않는다.
매칭 대상인 제1 목표 대상물과 제2 목표 대상물을 얻은 경우, 제1 목표 대상물과 제2 목표 대상물에 대응하는 이미지 영역에 대해 특징 처리를 행함으로써, 제1 목표 대상물과 제2 목표 대상물의 매칭 정도를 추정할 수 있다. 본 발명의 실시예에서는 뉴럴 네트워크에 의해 상기 특징 처리를 실행하고, 대응하는 제1 목표 대상물과 제2 목표 대상물의 매칭 정도를 얻을 수 있다. 도 3은 본 발명의 실시예에 따라 뉴럴 네트워크에 의해 제1 목표 대상물과 제2 목표 대상물의 매칭 정도를 얻는 흐름도를 나타낸다.
도 3에 나타내는 바와 같이, 본 발명의 실시예에서는 상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 제1 목표 대상물과 제2 이미지 내의 제2 목표 대상물의 매칭 정도를 얻는 것은 단계(S21, S22)를 포함할 수 있다.
단계(S21)에서는 상기 제1 이미지와 상기 제2 이미지에 대해 특징 추출 처리를 실행하고, 상기 제1 이미지의 제1 특징과 상기 제2 이미지의 제2 특징을 각각 얻는다.
일부 가능한 실시형태에서는 제1 목표 대상물과 제2 목표 대상물의 입력 이미지 내의 이미지 영역에 대해 특징 추출 처리를 실행해도 된다. 제1 목표 대상물의 위치에 대응하는 이미지 영역은 제1 이미지로서, 제2 목표 대상물의 위치에 대응하는 이미지 영역은 제2 이미지이다. 제1 이미지와 제2 이미지가 결정된 경우, 제1 이미지와 제2 이미지의 특징 추출 처리를 실행해도 된다. 뉴럴 네트워크의 특징 추출 모듈에 의해 특징 추출 처리를 실행해도 된다. 특징 추출 모듈은 하나의 특징 추출 브랜치를 포함해도 되고, 이 특징 추출 브랜치에 의해 제1 이미지와 제2 이미지의 특징 추출 처리를 각각 실행해도 된다. 복수의 제1 목표 대상물과 복수의 제2 목표 대상물을 포함하는 경우, 복수의 제1 이미지와 제2 이미지에 대해 특징 추출 처리를 실행해도 된다. 또한, 특징 추출 모듈은 2개의 특징 추출 브랜치를 포함해도 된다. 이들 2개의 특징 추출 브랜치는 동일한 네트워크 구성을 가져도 되고, 상이한 네트워크 구성을 가져도 된다. 특징 추출 처리를 실행할 수 있으면, 본 발명의 실시예로서 이용할 수 있다. 2개의 특징 추출 브랜치를 포함하는 경우, 제1 이미지와 제2 이미지를 일일히 대응하도록 2개의 특징 추출 브랜치에 입력해도 된다. 예를 들면, 일방의 특징 추출 브랜치에 의해 제1 이미지에 대해 특징 추출 처리를 실행하고, 제1 이미지에 대응하는 제1 특징을 얻고, 타방의 특징 추출 브랜치에 의해 제2 이미지에 대해 특징 추출 처리를 실행하고, 제2 이미지에 대응하는 제2 특징을 얻는다. 다른 실시예에서는 제1 이미지와 제2 이미지의 특징 추출 처리를 실행하기 위한 3개 이상의 특징 추출 브랜치를 포함해도 된다. 본 발명은 이것을 구체적으로 한정하지 않는다. 이와 같이 하여, 특징 처리 및 매칭 정도의 결정을 정확하게 실현할 수 있다.
이하, 샴 뉴럴 네트워크를 예로서 설명한다. 도 4는 본 발명의 실시예에 따른 샴 뉴럴 네트워크의 구조 모식도를 나타낸다. 본 발명의 실시예에 따른 특징 추출 모듈은 2개의 특징 추출 브랜치를 포함해도 되고, 샴 뉴럴 네트워크의 2개의 특징 추출 브랜치의 구성 및 파라미터가 완전히 동일하다. 특징 추출 브랜치는 잔차 네트워크를 포함해도 된다. 즉, 본 발명의 실시예에 따른 특징 추출 모듈은 잔차 네트워크로 구성되고, 잔차 모듈에 의해 제1 이미지와 제2 이미지에 대해 특징 추출 처리를 실행하고 이미지 내의 특징 정보를 추출해도 된다. 잔차 네트워크는 resnet(18)이어도 되지만, 본 발명은 이를 구체적으로 한정하지 않는다. 또한, 특징 추출 모듈은 특징 추출을 실행 가능한 다른 네트워크 모듈이어도 되고, 본 발명은 이것도 구체적으로 한정하지 않는다. 도 4에 나타내는 바와 같이, 제1 이미지(I1)는 인체 영역에 대응하는 이미지여도 되고, 제2 이미지(I2)는 사람의 얼굴 영역에 대응하는 이미지 또는 사람의 손 영역에 대응하는 이미지여도 된다. 복수의 제1 이미지와 제2 이미지가 존재하는 경우, 각 제1 이미지와 각 제2 이미지를 각각 2개의 특징 추출 브랜치에 입력하여 특징 추출 처리를 실행해도 된다. 혹은, 본 발명의 실시예에서는 특징 추출 브랜치에 이미지를 하나씩 입력하고, 2개의 이미지의 특징 추출을 실행하고, 2개의 이미지 내의 목표 대상물의 매칭 정도를 얻는 경우, 다음에 매칭 페어 검출의 필요가 있는 제1 이미지와 제2 이미지를 입력해도 된다.
또한, 본 발명의 실시예에서는 각 이미지에 마크를 할당해도 되고, 그와 동시에 이미지 내의 목표 대상물의 타입에 마크를 할당해도 된다. 즉, 본 발명의 실시예에서는 각 제1 이미지와 각 제2 이미지 중 어느 것도 후속 처리에서 각 이미지 및 이미지 중의 목표 대상물의 타입을 구분하기 위해 마크 및 타입 마크를 포함해도 된다.
또한, 일부 가능한 실시형태에서는 각 제1 목표 대상물의 제1 이미지 및 각 제2 목표 대상물의 제2 이미지를 얻었을 때, 제1 이미지와 제2 이미지를 미리 설정된 사양의 이미지로 조정해도 된다. 예를 들면, 축소 처리, 확대 처리, 업 샘플링 또는 다운 샘플링 처리 등에 의해, 제1 이미지와 제2 이미지를 미리 설정된 사양의 치수, 예를 들면 224*224(본 발명의 구체적인 한정은 아님)로 조정한 후, 미리 설정된 사양으로 조정된 제1 이미지와 제2 이미지를 뉴럴 네트워크에 입력하고 특징 추출을 실행하여 제1 특징과 제2 특징을 얻도록 해도 된다.
단계(S22)에서는 상기 제1 특징과 상기 제2 특징의 접속 특징에 대해 분류 처리를 실행하여, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는다.
일부 가능한 실시형태에서는 본 발명의 실시예는 제1 특징과 제2 특징 사이의 접속 특징에 대해 특징 융합 처리를 실행하여 융합 특징을 얻을 수 있고, 상기 융합 특징을 전체 접속층에 입력하여 상기 분류 처리를 실행하고, 상기 제1 이미지 내의 제1 목표 대상물과 상기 제2 이미지 내의 제2 목표 대상물의 매칭 정도를 얻을 수 있다.
본 발명의 실시예에서 얻어진 제1 특징 및 제2 특징은 각각 매트릭스 또는 벡터의 형태로서 나타내도 된다. 이 제1 특징 및 제2 특징의 스케일은 동일해도 된다. 그 후, 얻어진 제1 특징 및 제2 특징을 접속하고, 예를 들면, 채널 방향으로 접속하여 접속 특징을 얻도록 해도 된다. 접속은 접속 함수(concat 함수)에 의해 실행해도 된다. 제1 특징과 제2 특징의 접속 특징을 얻은 경우, 이 접속 특징에 대해 특징 융합 처리를 실행하고, 예를 들면, 적어도 1층의 합성곱 조작을 실행하여 이 특징 융합 처리를 실현해도 된다. 예를 들면, 본 발명의 실시예에서는 잔차 블록(resnet_block)에 의해 접속 특징의 잔차 처리를 실행하여 특징 융합 처리를 실행하여 융합 특징을 얻도록 해도 된다. 그 후, 융합 특징에 기초하여 매칭 정도의 분류 추정을 실행함으로써, 제1 목표 대상물과 제2 목표 대상물이 대응되는지 여부의 분류 결과 및 대응하는 매칭 정도를 얻을 수 있다.
하나의 예에서는 매칭의 분류 추정을 실행하는 것은 전체 접속층(FC)에 의해 실현될 수 있다. 즉, 융합 특징을 전체 접속층에 입력하고, 전체 접속층에 의한 처리에 의해 상기 추정 결과, 즉 제1 목표 대상물과 제2 목표 대상물의 매칭 정도, 및 이 매칭 정도에 기초한 양자가 대응되는지 여부의 매칭 결과를 얻을 수 있다. 매칭 정도가 제1 임계치보다 높은 경우, 제1 목표 대상물과 제2 목표 대상물이 대응하는 것으로 결정하고, 이 때의 매칭 결과가 제1 마크, 예를 들면 「1」이어도 된다. 매칭 정도가 제1 임계치 미만인 경우, 제1 목표 대상물과 제2 목표 대상물이 대응하지 않는 것으로 결정하고, 이 때의 매칭 결과가 제2 마크, 예를 들면 「0」이어도 된다. 상기 제1 마크와 제2 마크는 제1 목표 대상물과 제2 목표 대상물이 동일한 인물 대상물에 속하는 매칭 결과 및 동일한 인물 대상물에 속하지 않는 매칭 결과를 각각 나타내는 상이한 마크이면 된다.
입력 이미지 내의 매칭 대상인 각 제1 목표 대상물과 각 제2 목표 대상물의 매칭 정도를 얻은 경우, 이 매칭 정도에 기초하여 제1 목표 대상물과 제2 목표 대상물의 2부 그래프를 작성할 수 있다.
G=(V, E)는 무방향 그래프이고, 정점 세트를 2개의 교차하지 않는 서브 세트로 분할해도 되고, 그래프 중의 각 변의 2개의 정점이 이 2개의 교차하지 않는 서브 세트에 각각 속한다. 본 발명의 실시예에서는 제1 목표 대상물과 제2 목표 대상물은 2부 그래프 내의 정점 세트(V, E)로서 구성해도 되고, 각 정점 사이의 접속, 즉 2부 그래프 내의 각 변은 2개의 정점에 대응하는 제1 목표 대상물과 제2 목표 대상물의 매칭 정도여도 된다.
일부 가능한 실시형태에서는 매칭 처리를 실행하는 입력 이미지 내의 제2 목표 대상물의 타입에 따라 2부 그래프를 작성해도 된다. 예를 들면, 입력 이미지 내의 매칭 대상인 제2 목표 대상물이 사람의 얼굴만을 포함하는 경우, 제1 이미지 내의 제1 목표 대상물과 제2 이미지 내의 제2 목표 대상물의 매칭 정도에 기초하여, 인체와 사람의 얼굴의 2부 그래프를 작성해도 된다. 입력 이미지 내의 매칭 대상인 제2 목표 대상물이 사람의 손만을 포함하는 경우, 제1 이미지 내의 제1 목표 대상물과 제2 이미지 내의 제2 목표 대상물의 매칭 정도에 기초하여, 인체와 사람의 손의 2부 그래프를 작성해도 된다. 입력 이미지 내의 매칭 대상인 제2 목표 대상물이 사람의 얼굴 및 사람의 손을 포함하는 경우, 제1 이미지 내의 제1 목표 대상물과 제2 이미지 내의 제2 목표 대상물의 매칭 정도에 기초하여, 인체와 사람의 얼굴의 2부 그래프 및 인체와 사람의 손의 2부 그래프를 작성해도 된다. 즉, 각 제1 목표 대상물과 타입이 사람의 손인 제2 목표 대상물을 이용하여 인체와 사람의 손의 2부 그래프를 작성하고, 각 제1 목표 대상물과 타입이 사람의 얼굴인 제2 목표 대상물을 이용하여 인체와 사람의 얼굴의 2부 그래프를 작성해도 된다. 각 2부 그래프에 있어서, 인체와 사람의 얼굴의 매칭 정도를 인체와 사람의 얼굴의 2부 그래프 내의 인체와 사람의 얼굴의 접속 가중치로 하고, 인체와 사람의 손의 매칭 정도를 인체와 사람의 손의 2부 그래프 내의 인체와 사람의 손의 접속 가중치로서 좋다.
즉, 본 발명의 실시예에서는 제1 목표 대상물과 제2 목표 대상물을 2부 그래프 내의 각 정점의 점 세트로 해도 되고, 이 점 세트는 인체, 사람의 얼굴, 사람의 손의 3종류로 나누어진다. 또한, 인체와 사람의 얼굴, 인체와 사람의 손에 대해 각각 2부 그래프를 작성해도 되고, 2개의 정점 사이의 변의 가중치는 뉴럴 네트워크로부터 출력된, 2개의 정점에 대응하는 제1 목표 대상물과 제2 목표 대상물의 매칭 정도이다.
또한, 본 발명의 실시예에서는 각각의 제1 목표 대상물과 각각의 제2 목표 대상물의 매칭 정도를 얻은 경우, 매칭 정도가 제1 임계값보다 높은 각 제1 목표 대상물과 각 제2 목표 대상물을 선택하고, 매칭 정도가 제1 임계값보다 높은 제1 목표 대상물과 제2 목표 대상물에 기초하여, 제1 목표 대상물과 제2 목표 대상물의 2부 그래프를 결정할 수 있다.
각각의 제1 목표 대상물에 대해, 모든 제1 목표 대상물과의 매칭 정도가 제1 임계값 미만인 하나의 제2 목표 대상물이 있는 경우, 이 제2 목표 대상물은 2부 그래프의 형성에 사용되지 않는다. 반대로, 모든 사람의 얼굴 타입의 제2 목표 대상물의 매칭 정도가 제1 임계값 미만인 하나의 제1 목표 대상물이 있는 경우, 이 제1 목표 대상물은 인체와 사람의 얼굴의 2부 그래프의 형성에 사용되지 않는다. 모든 인체 타입의 제2 목표 대상물과의 매칭 정도가 제1 임계값 미만인 1개의 제1 목표 대상물이 있는 경우, 이 제1 목표 대상물은 인체와 사람의 손의 2부 그래프의 형성에 사용되지 않는다.
제1 임계값의 설정에 의해, 2부 그래프의 구조를 간소화할 수 있고, 제1 목표 대상물과 제2 목표 대상물의 매칭 효율을 향상시킬 수 있다.
제1 목표 대상물과 제2 목표 대상물의 2부 그래프를 얻은 경우, 제1 목표 대상물과 제2 목표 대상물의 2부 그래프에 기초하여 그리디 알고리즘을 이용하여 각 인체 타입의 제1 목표 대상물에 대응하는 많아도 소정 수의 제2 목표 대상물을 얻을 수 있다. 상이한 타입의 제2 목표 대상물에 대해, 소정 수는 상이한 수치여도 된다. 예를 들면, 제2 목표 대상물이 사람의 손인 경우, 소정 수를 2로 해도 되고, 제2 목표 대상물이 사람의 얼굴인 경우, 소정 수를 1로 해도 된다. 상이한 목표 대상물의 타입에 따라 상이한 소정 수의 수치를 선택해도 되고, 본 발명은 이를 구체적으로 한정하지 않는다.
매칭 정도가 높은 순서로, 제1 목표 대상물에 대응되는 많아도 소정 수의 제2 목표 대상물을 결정해도 된다. 본 발명의 실시예에서는 그리디 알고리즘을 이용하여 제1 목표 대상물과 제2 목표 대상물의 매칭 상황을 결정해도 된다. 즉, 제1 목표 대상물에 대해, 매칭 정도가 높은 순서로 제2 목표 대상물을 대응시킨다. 하나의 제1 목표 대상물에 대응하는 제2 목표 대상물의 수가 소정 수에 도달하면, 상기 제1 목표 대상물에 대한 제2 목표 대상물의 매칭 프로그램을 종료하고, 즉, 상기 제1 목표 대상물에 대해 나머지 어느 제2 목표 대상물을 대응시키지 않는다. 제2 목표 대상물에 대해 어느 하나의 제1 목표 대상물에 대응하는 것으로 결정된 경우, 상기 제2 목표 대상물에 대한 매칭 프로그램을 종료하고, 즉 상기 제2 목표 대상물에 대해 나머지 어느 것의 제1 목표 대상물을 대응시키지 않는다.
일부 가능한 실시형태에서는 매칭 정도가 높은 순서로 제1 목표 대상물에 대응하는 제2 목표 대상물을 결정하는 과정에서, 상기 순서를 반복하여 제1 목표 대상물과 제2 목표 대상물의 매칭 정도가 제1 임계값 미만이 되면, 매칭 프로그램을 종료해도 된다. 예를 들면, 인체와 사람의 얼굴의 2부 그래프를 예로 하여, 매칭 정도가 높은 순서로, X1과 Y1의 매칭 정도가 90%, X2와 Y2의 매칭 정도가 80%, X2와 Y1의 매칭 정도가 50%, X1과 Y2의 매칭 정도가 30%, 제1 임계값이 60%로 하고, X1과 X2가 2개의 제1 목표 대상물을 나타내고, Y1과 Y2가 2개의 제2 목표 대상물을 나타낸다고 하면, 매칭 정도가 높은 순서로, 매칭 정도가 90%인 제1 목표 대상물(X1)과 제2 목표 대상물(Y1)이 대응한다고 결정하고, 매칭 정도가 80%인 제1 목표 대상물(X2)과 제2 목표 대상물(Y2)이 대응한다고 결정해도 되지만, 다음의 매칭 정도가 50%로 제1 임계값 미만이기 때문에, 매칭을 종료해도 된다. 이와 같이 하여, 제1 목표 대상물(X1, X2)과 각각 대응하는 사람의 얼굴은 (Y1, Y2)인 것으로 판정할 수 있다.
이상, 제1 임계치의 설정에 의해 매칭을 종료하는 순서는 예시적인 설명에 지나지 않으며, 본 발명의 구체적인 한정은 아니다. 다른 실시예에서는 각 제1 목표 대상물과 제2 목표 대상물의 매칭 정도가 높은 순서로, 각 제1 목표 대상물에 대해 많아도 소정 수의 제2 목표 대상물을 대응시켜도 된다. 많아도 소정 수의 제2 목표 대상물이란, 제2 목표 대상물이 사람의 손인 경우, 각각의 인물 대상물에 대해 양 손이 대응될 수 있지만, 매칭할 때 제1 임계값의 설정 및 입력 이미지 내의 제2 목표 대상물의 수의 영향에 의해, 제1 목표 대상물에 대해 사람의 손 타입 중 하나의 제2 목표 대상물만이 대응될 가능성이 있다.
이하, 제2 목표 대상물이 사람의 손인 경우를 예로서 설명한다. 도 5는 본 발명의 실시예에 따라 작성된 인체와 사람의 손의 2부 그래프 및 매칭 결과의 모식도를 나타낸다. 도 5는 제1 목표 대상물과 제2 목표 대상물의 매칭 정도에 기초하여 작성된 인체와 사람의 손의 2부 그래프이다. 인체와 사람의 손의 각각을 2부 그래프의 2종류의 정점의 집합으로 해도 된다. P1, P2, P3은 3개의 제1 목표 대상물, 즉 3개의 인체를 나타낸다. H1, H2, H3, H4, H5는 타입이 사람의 손인 5개의 제2 목표 대상물을 나타낸다. 임의의 2개의 제1 목표 대상물과 제2 목표 대상물 사이의 접속선은 제1 목표 대상물과 제2 목표 대상물의 매칭 정도로 나타내도 된다.
인체와 사람의 손의 2부 그래프에 기초하여, 매칭 정도가 높은 순서로, 각 제1 목표 대상물에 대해 대응하는 제2 목표 대상물을 할당해도 되고, 각각의 제1 목표 대상물에 대해 많아도 2개의 제2 목표 대상물을 대응시킨다. 하나의 제2 목표 대상물은 매칭 정도가 높은 순서로 하나의 제1 목표 대상물에 대응하는 것으로 확인되면, 나머지 제1 목표 대상물에 대해 이 제2 목표 대상물을 대응시키지 않아도 된다. 이와 동시에, 이 제1 목표 대상물에 대응하는 제2 목표 대상물의 수가 소정 수에 도달하는지 여부를 판단하고, 소정 수에 도달한 경우, 이 제1 목표 대상물에 대해 나머지 제2 목표 대상물을 대응시키지 않고 소정 수에 도달하지 않은 경우, 매칭 정도가 높은 순서로, 다음의 매칭 정도의 제2 목표 대상물과 제1 목표 대상물의 매칭을 실행할 때, 제2 목표 대상물이 나머지 제1 목표 대상물과 대응된 것인지 여부 및 상기 제1 목표 대상물에 대응하는 제2 목표 대상물의 수가 소정 수에 도달하는지 여부를 결정하도록 해도 된다. 제2 목표 대상물이 어떠한 제1 목표 대상물에 대응되지 않고, 제1 목표 대상물에 대응하는 제2 목표 대상물의 수가 소정 수 미만인 경우, 제1 목표 대상물과 제2 목표 대상물이 대응한다고 판단한다. 각각의 매칭 정도에 대응하는 제1 목표 대상물과 제2 목표 대상물에 대해, 종료 조건을 만족할 때까지, 상기 순서를 반복해도 된다. 종료 조건은 각각의 제1 목표 대상물은 제2 목표 대상물이 대응지어진 것, 매칭 정도가 가장 낮은 제1 목표 대상물과 제2 목표 대상물에 기초하여 상기 매칭 순서를 실행하여 종료하는 것, 및 매칭 정도가 제1 임계값 미만인 것 중 하나 이상을 포함할 수 있다.
인체와 사람의 얼굴의 2부 그래프에 기초하여 제1 목표 대상물에 대응시키는 제2 목표 대상물을 결정하는 과정은 상기와 유사하기 때문에 여기서 설명을 생략한다.
또한, 본 발명의 실시예에서는 각 제1 목표 대상물에 대응하는 제2 목표 대상을 얻은 경우, 대응하는 제1 목표 대상물과 제2 목표 대상물의 위치 에어리어를 표시해도 된다. 예를 들면, 본 발명의 실시예에서는 동일한 표시 상태에서 대응하는 제1 목표 대상물과 제2 목표 대상물의 위치 에어리어의 경계 프레임을 표시해도 되고, 이 경계 프레임이 단계(S10)에서 얻어진 각 위치 에어리어의 검출 프레임이어도 된다. 하나의 예에서는 동일한 색으로 대응하는 제1 목표 대상물과 제2 목표 대상물의 위치 에어리어의 경계 프레임을 표시해도 되지만, 이는 본 발명의 구체적인 한정이 아니다. 도 2에 나타내는 바와 같이, 각각의 인물 대상물에 대해, 매칭 결과를 용이하게 구분하기 위해, 표시 프레임의 선폭으로 상이한 인물 대상물에 대응하는 인체 프레임, 사람의 손 프레임 및 사람의 얼굴 프레임을 구분해도 된다.
본 발명의 실시예의 상기 구성에 의하면, 2부 그래프를 작성함으로써, 각 제1 목표 대상물의 매칭 정도가 가장 높은 제2 목표 대상물을 선택하고, 목표 대상물끼리의 매칭 정밀를 향상시킬 수 있다.
상술한 바와 같이, 본 발명의 실시예는 뉴럴 네트워크, 예를 들어 샴 뉴럴 네트워크에 적응할 수 있다. 예를 들면, 본 발명의 실시예는 상기 제1 목표 대상물의 위치 에어리어에 대응하는 제1 이미지 및 상기 제2 목표 대상물의 위치 에어리어에 대응하는 제2 이미지에 대해 샴 뉴럴 네트워크에 의해 각각 특징 처리를 실행한다. 이에 의해, 상기 제1 이미지 내의 제1 목표 대상물과 상기 제2 이미지 내의 제2 목표 대상물의 매칭 정도를 얻을 수 있다.
도 6은 본 발명의 실시예에 따라 샴 뉴럴 네트워크를 트레이닝하는 흐름도를 나타낸다. 샴 뉴럴 네트워크를 트레이닝하는 단계는 S51, S52, S53을 포함할 수 있다.
(S51)에서는 인체 이미지인 복수의 제1 트레이닝 이미지 및 사람의 얼굴 이미지 또는 사람의 손 이미지인 복수의 제2 트레이닝 이미지를 포함하는 트레이닝 샘플을 취득한다.
일부 가능한 실시형태에서는 제1 트레이닝 이미지와 제2 트레이닝 이미지는 복수의 이미지로부터 잘라낸 이미지 영역이어도 되고, 대상 검출에 의해 복수의 이미지로부터 인식한 대응 타입의 목표 대상물의 이미지 영역이어도 되고, 임의의 인체, 사람의 손 또는 사람의 얼굴을 포함하는 이미지여도 되고, 본 발명은 이를 구체적으로 한정하지 않는다.
(S52)에서는 상기 제1 트레이닝 이미지 및 상기 제2 트레이닝 이미지를 상기 샴 뉴럴 네트워크에 입력하여 상기 제1 트레이닝 이미지와 상기 제2 트레이닝 이미지의 추정 매칭 결과를 얻는다.
일부 가능한 실시형태에서는 샴 뉴럴 네트워크에 의해 제1 트레이닝 이미지와 제2 트레이닝 이미지의 특징 추출, 특징 접속, 특징 융합 및 분류 처리를 실행하여 최종적으로 제1 트레이닝 이미지와 제2 트레이닝 이미지의 매칭 정도를 추정하고, 그 후, 이 매칭 정도에 기초하여 제1 트레이닝 이미지와 제2 트레이닝 이미지의 매칭 결과를 결정할 수 있다. 이 매칭 결과는 제1 마크 및 제2 마크로서 나타내도 되고, 예를 들면, 제1 마크가 1, 제2 마크가 0인 경우는 제1 트레이닝 이미지와 제2 트레이닝 이미지가 대응되거나, 또는 대응되지 않는 매칭 결과를 나타낸다. 매칭 정도와 제1 임계값의 비교 결과에 기초하여 매칭 결과를 결정해도 된다. 매칭 정도가 제1 임계값보다 높은 경우, 제1 트레이닝 이미지와 제2 트레이닝 이미지의 매칭 결과가 대응한다고 판단하고, 이 때, 제1 마크로서 나타내도 되고, 반대로 제2 마크로서 나타낸다.
단계(S53)에서는 상기 제1 트레이닝 이미지와 상기 제2 트레이닝 이미지의 추정 매칭 결과에 기초하여 샴 뉴럴 네트워크의 네트워크 파라미터를 조정하는 것을 트레이닝 요구를 만족시킬 때까지 행한다.
본 발명의 실시예에서는 제1 트레이닝 이미지와 제2 트레이닝 이미지의 진실한 매칭 결과를 교사로 하고, 추가로 제1 트레이닝 이미지와 제2 트레이닝 이미지의 추정 매칭 결과 및 진실한 매칭 결과에 기초하여 네트워크 손실을 결정할 수 있다. 이 네트워크 손실은 2개의 매칭 결과의 차이에 기초하여 결정할 수 있다.
네트워크 손실을 얻은 경우, 네트워크 손실에 기초하여 샴 뉴럴 네트워크의 합성곱 파라미터 등의 파라미터를 조정할 수 있다. 네트워크 손실이 손실 임계값 미만인 경우, 트레이닝 요구를 만족한다고 판단하고, 트레이닝을 종료해도 된다. 네트워크 손실이 손실 임계값 이상이 되는 경우, 이 네트워크 손실에 기초하여 네트워크 파라미터를 조정하고, 네트워크 손실이 손실 임계값 미만이 될 때까지 각 제1 트레이닝 이미지와 제2 트레이닝 이미지의 매칭 결과를 새롭게 추정한다. 손실 임계값은 미리 설정된 값, 예를 들면, 1%여도 되지만, 본 발명의 구체적인 한정이 아니고, 다른 수치여도 된다. 이렇게 하여 샴 뉴럴 네트워크의 최적화를 실현할 수 있고, 특징 처리 및 매칭의 정밀도를 향상시킬 수 있다.
본 발명의 실시예를 보다 명확하게 반영하기 위해, 이하, 예를 들어 본 발명의 실시예의 구체적인 과정을 설명한다. 먼저, 입력 이미지로부터 잘라낸 인체 픽처 및 사람의 얼굴 픽처/사람의 손 픽처를 일정한 치수, 예를 들면, 224*224로 조정하고, 그 후, 각 픽처를 샴 네트워크의 2개의 특징 추출 브랜치 각각에 입력해도 된다. 네트워크의 2개의 브랜치는 각각 인체 및 사람의 얼굴 또는 사람의 손의 특징을 추출하고, 2개의 브랜치의 최종 부분에서 추출한 인체 및 사람의 얼굴 또는 사람의 손의 특징 맵을 접속하고, 추가로 네트워크에 액세스하여 이부화 스코어링을 행한다. 스코어가 0∼1의 범위 내이다. 인체가 사람의 얼굴 또는 사람의 손에 대응하면, 스코어가 1에 가깝고, 반대로는 0에 가깝다. 도 4를 예로 들어, 네트워크의 2개의 브랜치는 resnet18을 추출 특징으로 하고, 얻어진 특징 맵을 병합하고, 1개의 resnet_block 합성곱층을 통해, 마지막으로 1개의 전체 접속층에 의해 분류를 행하고, 매칭 정도를 얻는다. 그 후, 점 세트를 3개의 종류, 즉 인체, 사람의 얼굴, 사람의 손으로 나눈다. 인체와 사람의 얼굴, 인체와 사람의 손에 대해 각각 전체 접속 2부 그래프를 작성하고, 이러한 변의 가중치가 네트워크 출력의 스코어(매칭 정도)이다. 2부 그래프에 대해, 1개의 인체에 대해 많아도 2개의 사람의 손을 대응시키고, 1개의 인체에 대해 많아도 1개의 사람의 얼굴을 대응시키도록, 규칙 제약을 행한다. 스코어를 순위 매김하고, 그리디 알고리즘을 이용하고, 스코어가 높은 순서로 매칭을 실행하고, 규칙에 합지되지 않는 여분의 변을 전부 제거한다. 매칭 종료까지 상기 순서를 반복한다. 본 발명의 실시예서는 샴 네트워크를 사용하여 보다 많은 장면에서의 관련 관계를 학습할 수 있다. 또한, 본 발명의 실시예에서는 최종적인 연관 관계에서 2부 그래프를 사용하여 네트워크 출력의 결과를 제약하기 때문에, 최종적인 결과의 정밀도가 더욱 높아진다.
이상으로부터, 본 발명의 실시예에서는 우선, 매칭 대상인 제1 목표 대상물의 제1 이미지와 제2 목표 대상물의 제2 이미지를 취득해도 된다. 제1 목표 대상물은 인체여도 되고, 제2 목표 대상물은 사람의 얼굴 및/또는 사람의 손이어도 된다. 그 후, 제1 이미지와 제2 이미지에 대해 특징 처리를 실행함으로써, 제1 이미지 내의 제1 목표 대상물과 제2 이미지 내의 제2 목표 대상물의 매칭 정도를 얻을 수 있다. 또한, 2부 그래프를 작성함으로써, 제1 이미지 내의 제1 목표 대상물과 제2 이미지 내의 제2 목표 대상물의 매칭 결과를 결정한다. 본 발명의 실시예에서는 우선, 각 제1 목표 대상물과 각 제2 목표 대상물의 매칭 정도를 검출하고, 또한 2부 그래프를 작성함으로써, 검출한 매칭 정도를 제한하고, 최종적으로 제1 목표 대상물에 매칭하는 제2 목표 대상물을 결정하여, 이에 의해 최종적인 관련 매칭 결과의 정밀도가 더욱 높아진다.
본 발명에서 언급되는 상기 각 방법의 실시예는 원리와 논리를 위반하지 않는 한, 서로 조합하여 실시예를 형성할 수 있음을 이해해야 한다. 분량에 한계가 있기 때문에, 본 발명에서는 상세한 설명을 생략한다.
또한, 본 발명은 추가로 목표 대상물 장치, 전자 기기, 컴퓨터 판독 가능 기억 매체 및 프로그램을 제공한다. 이들 전부 본 발명에 따른 어느 목표 대상물 매칭 방법을 실현할 수 있다. 이러한 기술적 수단 및 설명은 방법에 관한 설명의 관련된 설명을 참조해도 되고, 상세한 설명은 생략한다.
실시형태의 상기 방법에서, 각 단계의 기재 순서는 엄밀한 실행 순서를 의미하지 않고, 실시 순서에 대한 한정이 아니고, 각 단계의 구체적인 실행 순서는 그 기능과, 가능한 내재적 논리에 따라 결정되어야 하는 것을 당업자는 이해해야 한다.
도 7은 본 발명의 실시예에 따른 목표 대상물 매칭 장치의 잠금도를 나타낸다. 도 7에 나타내는 바와 같이, 목표 대상물 매칭 장치는 입력 이미지 내의 매칭 대상인 인체를 포함하는 제1 목표 대상물과, 사람의 손 및 사람의 얼굴 중 하나 이상을 포함하는 제2 목표 대상물을 취득하는 취득 모듈(10)과, 상기 입력 이미지에서, 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 특징 처리 모듈(20)과, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프를 작성하는 이부화 모듈(30)과, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 대응하는 제1 목표 대상물과 제2 목표 대상물을 결정하는 매칭 모듈(40)을 포함한다.
일부 가능한 실시형태에서는 상기 특징 처리 모듈은 추가로, 상기 제1 이미지와 상기 제2 이미지에 대해 특징 추출 처리를 실행하고 상기 제1 이미지의 제1 특징과 상기 제2 이미지를 각각 얻고, 상기 제1 특징과 상기 제2 특징의 접속 특징에 대해 분류 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는다.
일부 가능한 실시형태에서는 상기 특징 처리 모듈은 추가로, 상기 제1 특징과 상기 제2 특징의 접속 특징에 대해 특징 융합 처리를 실행하여 융합 특징을 얻고, 상기 융합 특징을 전체 접속층에 입력하여 상기 분류 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는다.
일부 가능한 실시형태에서는 상기 이부화 모듈은 추가로, 상기 제2 목표 대상물이 사람의 얼굴만을 포함하는 경우, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여 인체와 사람의 얼굴의 2부 그래프를 작성하고, 상기 제2 목표 대상물이 사람의 손만을 포함하는 경우, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 인체와 사람의 손의 2부 그래프를 작성하고, 상기 제2 목표 대상물이 사람의 얼굴 및 사람의 손을 포함하는 경우, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여 인체와 사람의 얼굴의 2부 그래프 및 인체와 사람의 손의 2부 그래프를 작성하고, 인체와 사람의 얼굴의 매칭 정도를 상기 인체와 사람의 얼굴의 2부 그래프 내의 인체와 사람의 얼굴의 접속 가중치로 하고, 인체와 사람의 손의 매칭 정도를 상기 인체와 사람의 손의 2부 그래프 내의 인체와 사람의 손의 접속 가중치로 한다.
일부 가능한 실시형태에서는 상기 이부화 모듈은 매칭 정도가 제1 임계값보다 높은 제1 목표 대상물과 제2 목표 대상물에 기초하여 상기 제1 목표 대상물과 제2 목표 대상물의 2부 그래프를 작성한다.
일부 가능한 실시형태에서는 상기 매칭 모듈은 추가로, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여 그리디 알고리즘을 이용하고, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 매칭 정도가 높은 순서로, 상기 제1 목표 대상물의 매칭 정도가 가장 높은 소정 수의 상기 제2 목표 대상물을 상기 제1 목표 대상물에 대응시키는 제2 목표 대상물로 한다.
일부 가능한 실시형태에서는 상기 매칭 모듈은 추가로, 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프가 인체와 사람의 얼굴의 2부 그래프를 추가로 포함하는 경우, 그리디 알고리즘을 이용하고, 상기 제1 목표 대상물의 매칭 정도가 가장 높고, 종류가 사람의 얼굴인 제2 목표 대상물을 선택한다.
일부 가능한 실시형태에서는 상기 매칭 모듈은 추가로, 제1 목표 대상물 중 어느 것에 대해, 대응하는 소정 수의 제2 목표 대상물이 결정된 경우, 상기 제1 목표 대상물에 나머지 제2 목표 대상물을 대응시키지 않고, 제2 목표 대상물 중 어느 것에 대해, 대응하는 제1 목표 대상물이 결정된 경우, 상기 제2 목표 대상물에 나머지 제1 목표 대상물을 대응시키지 않는다.
일부 가능한 실시형태에서는 상기 취득 모듈이 입력 이미지 내의 매칭 대상인 제1 목표 대상물 및 제2 목표 대상물을 취득하는 것은 검출된 입력 이미지 내의 제1 목표 대상물과 상기 제2 목표 대상물에 대한 프레임 선택 조작에 기초하여, 상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물을 결정하는 것과, 목표 검출 뉴럴 네트워크를 이용하여 상기 입력 이미지 내의 제1 목표 대상물과 상기 제2 목표 대상물을 검출하는 것과, 상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물의 위치 정보를 수신하고, 상기 위치 정보에 기초하여 상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물을 결정하는 것 중 하나 이상을 포함한다.
일부 가능한 실시형태에서는 상기 특징 처리 모듈은 추가로, 상기 입력 이미지에서 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하기 전에, 상기 제1 이미지와 상기 제2 이미지 각각을 미리 설정된 사양으로 조정하고,
상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 제2 이미지 내의 제2 목표 대상물의 매칭 정도를 얻는 것은 미리 설정된 사양으로 조정된 상기 제1 이미지와 상기 제2 이미지에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것을 포함한다.
일부 가능한 실시형태에서는 상기 장치는 대응하는 상기 제1 목표 대상물과 상기 제2 목표 대상물을 상기 입력 이미지에 표시하는 표시 모듈을 추가로 포함한다.
일부 가능한 실시형태에서는 상기 특징 처리 모듈은 추가로, 상기 입력 이미지에서 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것을 샴 뉴럴 네트워크에 의해 실행한다.
일부 가능한 실시형태에서는 상기 장치는 상기 샴 뉴럴 네트워크를 트레이닝하는 트레이닝 모듈을 추가로 포함하고, 상기 샴 뉴럴 네트워크를 트레이닝하는 단계는 인체 이미지인 복수의 제1 트레이닝 이미지 및 사람의 얼굴 이미지 또는 사람의 손 이미지인 복수의 제2 트레이닝 이미지를 포함하는 트레이닝 샘플을 취득하는 것과, 상기 제1 트레이닝 이미지 및 상기 제2 트레이닝 이미지를 상기 샴 뉴럴 네트워크에 입력하여, 상기 제1 트레이닝 이미지와 상기 제2 트레이닝 이미지의 추정 매칭 결과를 얻는 것과, 상기 제1 트레이닝 이미지와 상기 제2 트레이닝 이미지의 추정 매칭 결과에 기초하여 네트워크 손실을 결정하고, 상기 네트워크 손실에 따라 상기 샴 뉴럴 네트워크의 네트워크 파라미터를 조정하는 것을 트레이닝 요구를 만족시킬 때까지 행하는 것을 포함한다.
일부 실시예에서는 본 발명의 실시예에서 제공된 장치에 구비된 기능 또는 모듈은 상기 방법 실시예에 기술된 방법을 실행하기 위해 사용될 수 있다. 구체적인 실시형태에 대해서는 상기 방법 실시예의 설명을 참조하면 되고, 간소화를 위해, 여기서 중복 설명은 생략한다.
본 발명의 실시예는 컴퓨터 프로그램 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체에서 상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행되면, 상기 방법을 실현시키는 컴퓨터 판독 가능 기억 매체를 추가로 제공한다. 컴퓨터 판독 가능 기억 매체는 비휘발성 컴퓨터 판독 가능 기억 매체여도 된다.
본 발명의 실시예는 프로세서와, 프로세서에 의해 실행 가능한 명령을 기억하기 위한 메모리를 포함하고, 상기 프로세서가 상기 방법을 실행시키도록 구성된되는 전자 기기를 추가로 제공한다.
전자 기기는 단말, 서버 또는 다른 형태의 장치로서 제공되어도 된다.
본 발명의 실시예는 전자 기기에서 실행되면, 상기 전자 기기에서의 프로세서가 상기 방법을 실행하는 컴퓨터 판독 가능 코드를 추가로 제공한다.
도 8은 본 발명의 실시예에 따른 전자 기기의 블록도이다. 예를 들면, 장치 (800)는 휴대 전화, 컴퓨터, 디지털 방송 단말, 메시지 송수신 기기, 게임 콘솔, 태블릿형 기기, 의료 기기, 피트니스 기기, 퍼스널 디지털 어시턴트 등의 단말이어도 된다.
도 8을 참조하면, 전자 기기(800)는 처리 컴포넌트(802), 메모리(804), 전원 컴포넌트(806), 멀티미디어 컴포넌트(808), 오디오 컴포넌트(810), 입력/출력(I/O) 인터페이스(812), 센서 컴포넌트(814) 및 통신 컴포넌트(816) 중 하나 이상을 포함해도 된다.
처리 컴포넌트(802)는 통상 전자 기기(800)의 전체적인 동작, 예를 들면, 표시, 전화의 호출, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작을 제어한다. 처리 컴포넌트(802)는 상기 방법의 전부 또는 일부 단계를 실행하기 위해, 명령을 실행하는 하나 이상의 프로세서(820)를 포함해도 된다. 또한, 처리 컴포넌트(802)는 다른 컴포넌트와의 상호 작용을 위한 하나 이상의 모듈을 포함해도 된다. 예를 들면, 처리 컴포넌트(802)는 멀티미디어 컴포넌트(808)와의 상호 작용을 위해 멀티미디어 모듈을 포함해도 된다.
메모리(804)는 전자 기기(800)에서의 동작을 서포트하기 위한 다양한 타입의 데이터를 기억하도록 구성된다. 이들 데이터는 예로서, 전자 기기(800)에서 조작하는 다양한 애플리케이션 프로그램 또는 방법의 명령, 연락처 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(804)는 예를 들면, 정적 랜덤 액세스 메모리(SRAM), 전기적 소거 가능 프로그래머블 판독 전용 메모리(EEPROM), 소거 가능한 프로그래머블 판독 전용 메모리(EPROM), 프로그래머블 판독 전용 메모리(PROM), 판독 전용 메모리(ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광디스크 등의 다양한 타입의 휘발성 또는 불휘발성 기억 장치 또는 이들의 조합에 의해 실현할 수 있다.
전원 컴포넌트(806)는 전자 기기(800)의 각 컴포넌트에 전력을 공급한다. 전원 컴포넌트(806)는 전원 관리 시스템, 하나 이상의 전원 및 전자 기기(800)를 위한 전력 생성, 관리 및 배분에 관련된 다른 컴포넌트를 포함해도 된다.
멀티미디어 컴포넌트(808)는 상기 전자 기기(800)와 사용자 사이에서 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에서는 스크린은 액정 디스플레이(LCD) 및 터치 패널(TP)을 포함해도 된다. 스크린이 터치 패널을 포함하는 경우, 사용자로부터의 입력 신호를 수신하는 터치 스크린으로서 실현해도 된다. 터치 패널은 터치, 슬라이드 및 터치 패널에서의 제스처를 검지하도록, 하나 이상의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 검지할 뿐만 아니라, 상기 터치 또는 슬라이드 조작에 관련되는 지속 시간 및 압력을 검출하도록 해도 된다. 일부 실시예에서는 멀티미디어 컴포넌트(808)는 전면 카메라 및/또는 배면 카메라를 포함한다. 전자 기기(800)가 동작 모드, 예를 들면, 촬영 모드 또는 촬상 모드가 되는 경우, 전면 카메라 및/또는 배면 카메라는 외부의 멀티미디어 데이터를 수신하도록 해도 된다. 각 전면 카메라 및 배면 카메라는 고정된 광학 렌즈계 또는 초점 거리 및 광학 줌 능력을 갖는 것이어도 된다.
오디오 컴포넌트(810)는 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들면, 오디오 컴포넌트(810)는 하나의 마이크(MIC)를 포함하고, 마이크(MIC)는 전자 기기(800)가 동작 모드, 예를 들면, 호출 모드, 기록 모드 및 음성 인식 모드가 되는 경우, 외부의 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 추가로 메모리(804)에 기억되거나 또는 통신 컴포넌트(816)를 통해 송신되어도 된다. 일부 실시예에서는 오디오 컴포넌트(810)는 추가로 오디오 신호를 출력하기 위한 스피커를 포함한다.
I/O 인터페이스(812)는 처리 컴포넌트(802)와 주변 인터페이스 모듈 사이에서 인터페이스를 제공하고, 상기 주변 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등이어도 된다. 이들 버튼은 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼을 포함해도 되지만, 이들에 한정되지 않는다.
센서 컴포넌트(814)는 전자 기기(800)의 각 측면에서의 상태 평가를 위해 하나 이상의 센서를 포함한다. 예를 들면, 센서 컴포넌트(814)는 전자 기기(800)의 온/오프 상태, 예를 들면, 전자 기기(800)의 표시 장치 및 키패드와 같은 컴포넌트의 상대적 위치 결정을 검출할 수 있고, 센서 컴포넌트(814)는 추가로 전자 기기(800) 또는 전자 기기(800)가 있는 컴포넌트의 위치 변화, 사용자와 전자 기기(800)의 접촉 유무, 전자 기기(800)의 방위 또는 가감속 및 전자 기기(800)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(814)는 어떠한 물리적 접촉도 없는 경우에 근방의 물체의 존재를 검출하도록 구성되는 근접 센서를 포함한다. 센서 컴포넌트(814)는 추가로 CMOS 또는 CCD 이미지 센서와 같은 이미징 애플리케이션에서 사용하기 위한 광센서를 포함해도 된다. 일부 실시예에서는 상기 센서 컴포넌트(814)는 추가로 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 포함해도 된다.
통신 컴포넌트(816)는 전자 기기(800)와 다른 기기의 유선 또는 무선 통신을 실현하도록 구성된다. 전자 기기(800)는 통신 규격에 기초하는 무선 네트워크, 예를 들면, WiFi, 2G, 또는 3G 또는 이들의 조합에 액세스할 수 있다. 일 예시적 실시예에서는 통신 컴포넌트(816)는 방송 채널을 통해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 일 예시적 실시예에서는 상기 통신 컴포넌트(816)는 추가로 근거리 통신을 촉진시키기 위해 근거리 무선 통신(NFC) 모듈을 포함한다. 예를 들면, NFC 모듈은 무선 주파수 식별(RFID) 기술, 적외선 데이터 협회(IrDA) 기술, 초광대역(UWB) 기술, 블루투스(BT) 기술 및 다른 기술에 의해 실현할 수 있다.
예시적인 실시예에서는 전자 기기(800)는 하나 이상의 특정 용도용 집적 회로(ASIC), 디지털 신호 프로세서(DSP), 디지털 시그널 프로세서(DSPD), 프로그래머블 로직 디바이스(PLD), 필드 프로그래머블 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 요소에 의해 실현되고, 상기 방법을 실행하기 위해 사용될 수 있다.
예시적인 실시예에서는 추가로 불휘발성 컴퓨터 판독 가능 기억 매체, 예를 들면, 컴퓨터 프로그램 명령을 포함하는 메모리(804)가 제공되고, 상기 컴퓨터 프로그램 명령은 전자 기기(800)의 프로세서(820)에 의해 실행되면, 상기 방법을 실행시킬 수 있다.
도 9는 본 발명의 실시예에 따른 다른 전자 기기의 블록도를 나타낸다. 예를 들면, 전자 기기(1900)는 서버로서 제공되어도 된다. 도 9를 참조하면, 전자 기기(1900)는 하나 이상의 프로세서를 포함하는 처리 컴포넌트(1922) 및 처리 컴포넌트(1922)에 의해 실행 가능한 명령, 예를 들면, 애플리케이션 프로그램을 기억하기 위한 메모리(1932)를 대표로 하는 메모리 자원을 추가로 포함한다. 메모리(1932)에 기억되어 있는 애플리케이션 프로그램은 각각이 하나의 명령군에 대응하는 하나 이상의 모듈을 포함해도 된다. 또한, 처리 컴포넌트(1922)는 명령을 실행함으로써 상기 방법을 실행하도록 구성된다.
전자 기기(1900)는 추가로, 전자 기기(1900)의 전원 관리를 실행하도록 구성되는 전원 컴포넌트(1926), 전자 기기(1900)를 네트워크에 접속하도록 구성되는 유선 또는 무선 네트워크 인터페이스(1950) 및 입출력(I/O) 인터페이스(1958)를 포함해도 된다. 전자 기기(1900)는 메모리(1932)에 기억되어 있는 오퍼레이팅 시스템, 예를 들면, Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 것에 기초하여 동작할 수 있다.
예시적인 실시예에서는 추가로, 불휘발성 컴퓨터 판독 가능 기억 매체, 예를 들면, 컴퓨터 프로그램 명령을 포함하는 메모리(1932)가 제공되고, 상기 컴퓨터 프로그램 명령은 전자 기기(1900)의 처리 컴포넌트(1922)에 의해 실행되면, 상기 방법을 실행시킬 수 있다.
본 발명은 시스템, 방법 및/또는 컴퓨터 프로그램 제품이어도 된다. 컴퓨터 프로그램 제품은 프로세서에 본 발명의 각 측면을 실현시키기 위한 컴퓨터 판독 가능 프로그램 명령을 갖고 있는 컴퓨터 판독 가능 기억 매체를 포함해도 된다.
컴퓨터 판독 가능 기억 매체는 명령 실행 장치에 사용되는 명령을 저장 및 기억 가능한 실체가 있는 장치여도 된다. 컴퓨터 판독 가능 기억 매체는 예를 들면, 전기 기억 장치, 자기 기억 장치, 광 기억 장치, 전자 기억 장치, 반도체 기억 장치, 또는 상기의 임의의 적당한 조합이어도 되지만, 이들에 한정되지 않는다. 컴퓨터 판독 가능 기억 매체의 보다 구체적인 예(비망라적 리스트)로는 휴대형 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 정적 랜덤 액세스 메모리(SRAM), 휴대형 콤팩트 디스크 판독 전용 메모리(CD-ROM), 디지털 다용도 디스크(DVD), 메모리 스틱, 플로피 디스크, 예를 들면, 명령이 기억되어 있는 천공 카드 또는 슬롯 내 돌기 구조와 같은 기계적 부호화 장치, 및 상기의 임의의 적당한 조합을 포함한다. 여기에서 사용되는 컴퓨터 판독 가능 기억 매체는 일시적인 신호 자체, 예를 들면, 무선 전파 또는 기타 자유롭게 전파되는 전자파, 도파로 또는 다른 전송 매체를 경유하여 전파되는 전자파(예를 들면, 광파이버 케이블을 통과하는 광펄스), 또는 전선을 경유하여 전송되는 전기 신호로 해석되는 것은 아니다.
여기서 기술한 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 기억 매체에서 각 계산/처리 기기에 다운로드되어도 되고, 또는 네트워크, 예를 들면, 인터넷, 로컬 에어리어 네트워크, 광역 네트워크 및/또는 무선 네트워크를 경유하여 외부의 컴퓨터 또는 외부 기억 장치에 다운로드되어도 된다. 네트워크는 구리 전송 케이블, 광파이버 전송, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터 및/또는 에지 서버를 포함해도 된다. 각 계산/처리 기기 내의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크에서 컴퓨터 판독 가능 프로그램 명령을 수신하고, 상기 컴퓨터 판독 가능 프로그램 명령을 전송하고, 각 계산/처리 기기 내의 컴퓨터 판독 가능 기억 매체에 기억시킨다.
본 발명의 동작을 실행하기 위한 컴퓨터 프로그램 명령은 어셈블러 명령, 명령 세트 아키텍처(ISA) 명령, 기계어 명령, 기계 의존 명령, 마이크로 코드, 펌웨어 명령, 상태 설정 데이터 또는 Smalltalk, C++ 등의 오브젝트 지향 프로그래밍 언어, 및 「C」언어 또는 유사한 프로그래밍 언어 등의 일반적인 절차형 프로그래밍 언어를 포함하는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 목표 코드여도 된다. 컴퓨터 판독 가능 프로그램 명령은 완전히 사용자의 컴퓨터에서 실행되어도 되고, 부분적으로 사용자의 컴퓨터에서 실행되어도 되고, 독립형 소프트웨어 패키지로서 실행되어도 되고, 부분적으로 사용자의 컴퓨터에서 또한 부분적으로 리모트 컴퓨터에서 실행되어도 되고, 또는 완전히 리모트 컴퓨터 혹은 서버에서 실행되어도 된다. 리모트 컴퓨터의 경우, 리모트 컴퓨터는 로컬 에어리어 네트워크(LAN) 또는 광역 네트워크(WAN)를 포함하는 임의의 종류의 네트워크를 경유하여 사용자의 컴퓨터에 접속되어도 되고, 또는 (예를 들면, 인터넷 서비스 프로바이더를 이용해 인터넷을 경유하여) 외부 컴퓨터에 접속되어도 된다. 일부 실시예에서는 컴퓨터 판독 가능 프로그램 명령의 상태 정보를 이용하여, 예를 들면, 프로그래머블 논리 회로, 필드 프로그래머블 게이트 어레이(FPGA) 또는 프로그래머블 논리 어레이(PLA) 등의 전자 회로를 맞춤 제조하고, 상기 전자 회로에 의해 컴퓨터 판독 가능 프로그램 명령을 실행함으로써 본 발명의 각 측면을 실현하도록 해도 된다.
여기서, 본 발명의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하면서 본 발명의 각 양태를 설명했지만, 흐름도 및/또는 블록도의 각 블록, 및 흐름도 및/또는 블록도의 각 블록의 조합은 모두 컴퓨터 판독 가능 프로그램 명령에 의해 실현할 수 있음을 이해해야 한다.
이들 컴퓨터 판독 가능 프로그램 명령은 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서에 제공되고, 이들 명령이 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서에 의해 실행되면, 흐름도 및/또는 블록도의 하나 이상의 블록에서 지정된 기능/동작을 실현시키도록 장치를 제조해도 된다. 이들 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 기억 매체에 기억되고, 컴퓨터, 프로그래머블 데이터 처리 장치 및/또는 다른 기기를 특정 방식으로 동작시키도록 해도 된다. 이에 의해, 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체는 흐름도 및/또는 블록도 중 하나 이상의 블록에서 지정된 기능/동작의 각 측면을 실현하는 명령을 갖는 제품을 포함한다.
컴퓨터 판독 가능 프로그램 명령은 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 기타 기기에 로드되고, 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 기타 기기에 일련의 동작 단계를 실행시킴으로써, 컴퓨터에 의해 실시되는 프로세스를 생성하고, 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 기타 기기에서 실행되는 명령에 의해 흐름도 및/또는 블록도 중 하나 이상의 블록에서 지정된 기능/동작을 실현한다.
도면 중 흐름도 및 블록도는 본 발명의 복수의 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 실현 가능한 시스템 아키텍처, 기능 및 동작을 나타낸다. 이 점에서는 흐름도 또는 블록도에서의 각 블록은 하나의 모듈, 프로그램 세그먼트 또는 명령의 일부분을 대표할 수 있고, 상기 모듈, 프로그램 세그먼트 또는 명령의 일부분은 지정된 논리 기능을 실현하기 위한 하나 이상의 실행 가능한 명령을 포함한다. 일부 대체로서의 실현형태에서는 블록에 표기되는 기능은 도면에 붙인 순서와 상이한 순서로 실현해도 된다. 예를 들면, 연속적인 2개의 블록은 실질적으로 병렬로 실행해도 되고, 또한 관련된 기능에 따라 반대 순서로 실행해도 되는 경우가 있다. 또한, 블록도 및/또는 흐름도에서의 각 블록 및 블록도 및/또는 흐름도에서의 블록의 조합은 지정되는 기능 또는 동작을 실행하는 하드웨어에 기초하는 전용 시스템에 의해 실현해도 되며, 또는 전용 하드웨어와 컴퓨터 명령의 조합에 의해 실현해도 된다는 점에도 주의해야 한다.
이상, 본 발명의 각 실시예를 기술했지만, 상기 설명은 예시적인 것에 불과하고, 망라적인 것이 아니며, 또한 개시된 각 실시예에 한정되는 것도 아니다. 당업자에게 있어서, 설명된 각 실시예의 범위 및 정신에서 벗어나지 않고, 다양한 수정 및 변경이 자명하다. 본 명세서에 선택된 용어는 각 실시예의 원리, 실제 적용 또는 종래 기술에 대한 개선을 바람직하게 해석하거나, 또는 다른 당업자에게 본 명세서에 개시된 각 실시예를 이해시키기 위한 것이다.

Claims (29)

  1. 입력 이미지 내의 매칭 대상인 인체를 포함하는 제1 목표 대상물과, 사람의 손 및 사람의 얼굴 중 하나 이상을 포함하는 제2 목표 대상물을 취득하는 것과,
    상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것과,
    상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프를 작성하는 것과,
    상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 대응하는 제1 목표 대상물과 제2 목표 대상물을 결정하는 것을 포함하는, 목표 대상물 매칭 방법.
  2. 제 1 항에 있어서,
    상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것은
    상기 제1 이미지와 상기 제2 이미지에 대해 특징 추출 처리를 실행하고, 상기 제1 이미지의 제1 특징과 상기 제2 이미지의 제2 특징을 각각 얻는 것과,
    상기 제1 특징과 상기 제2 특징의 접속 특징에 대해 분류 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것을 포함하는, 목표 대상물 매칭 방법.
  3. 제 2 항에 있어서,
    상기 제1 특징과 상기 제2 특징의 접속 특징에 대해 분류 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것은
    상기 제1 특징과 상기 제2 특징의 접속 특징에 대해 특징 융합 처리를 실행하여, 융합 특징을 얻는 것과,
    상기 융합 특징을 전체 접속층에 입력하여 상기 분류 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것을 포함하는, 목표 대상물 매칭 방법.
  4. 제 1 항 내지 제 3 항에 있어서,
    상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프를 작성하는 것은
    상기 제2 목표 대상물이 사람의 얼굴만을 포함함에 따라, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 인체와 사람의 얼굴의 2부 그래프를 작성하는 것과,
    상기 제2 목표 대상물이 사람의 손만을 포함함에 따라, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여 인체와 사람의 손의 2부 그래프를 작성하는 것과,
    상기 제2 목표 대상물이 사람의 얼굴 및 사람의 손을 포함함에 따라, 상기 제1 이미지 내의 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 인체와 사람의 얼굴의 2부 그래프 및 인체와 사람의 손의 2부 그래프를 작성하는 것을 포함하고,
    인체와 사람의 얼굴의 매칭 정도를 상기 인체와 사람의 얼굴의 2부 그래프 내의 인체와 사람의 얼굴의 접속 가중치로 하고, 인체와 사람의 손의 매칭 정도를 상기 인체와 사람의 손의 2부 그래프 내의 인체와 사람의 손의 접속 가중치로 하는, 목표 대상물 매칭 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프를 작성하는 것은
    매칭 정도가 제1 임계값보다 높은 제1 목표 대상물과 제2 목표 대상물에 기초하여, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프를 작성하는 것을 포함하는, 목표 대상물 매칭 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 대응하는 제1 목표 대상물과 제2 목표 대상물을 결정하는 것은
    상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 그리디 알고리즘을 이용하고, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 매칭 정도가 높은 순서로, 상기 제1 목표 대상물과의 매칭 정도가 가장 높은 소정 수의 상기 제2 목표 대상물을 상기 제1 목표 대상물에 대응하는 제2 목표 대상물로 하는 것을 포함하는, 목표 대상물 매칭 방법.
  7. 제 6 항에 있어서,
    상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 대응하는 제1 목표 대상물과 제2 목표 대상물을 결정하는 것은
    상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프가 인체와 사람의 손의 2부 그래프를 포함함에 따라, 그리디 알고리즘을 이용하고, 상기 제1 목표 대상물과의 매칭 정도가 가장 높고, 종류가 사람의 손인 많아도 2개의 제2 목표 대상물을 선출하는 것과,
    상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프가 인체와 사람의 얼굴의 2부 그래프를 포함함에 따라, 그리디 알고리즘을 이용하고, 상기 제1 목표 대상물과의 매칭 정도가 가장 높고, 종류가 사람의 얼굴인 제2 목표 대상물을 선출하는 것을 추가로 포함하는, 목표 대상물 매칭 방법.
  8. 제 6 항 또는 제 7 항에 있어서,
    상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 대응하는 제1 목표 대상물과 제2 목표 대상물을 결정하는 것은
    제1 목표 대상물 중 어느 것에 대해, 대응하는 소정 수의 제2 목표 대상물이 결정됨에 따라, 상기 제1 목표 대상물에 나머지 제2 목표 대상물을 대응시키지 않는 것과,
    제2 목표 대상물 중 어느 것에 대해, 대응하는 제1 목표 대상물이 결정됨에 따라, 상기 제2 목표 대상물에 나머지 제1 목표 대상물을 대응시키지 않는 것을 추가로 포함하는, 목표 대상물 매칭 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    입력 이미지 내의 매칭 대상인 제1 목표 대상물과 제2 목표 대상물을 취득하는 것은
    검출된 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물에 대한 프레임 선택 조작에 기초하여, 상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물을 결정하는 것과,
    목표 검출 뉴럴 네트워크를 이용하여 상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물을 검출하는 것과,
    상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물의 위치 정보를 수신하고, 상기 위치 정보에 기초하여 상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물을 결정하는 것 중 하나 이상을 포함하는, 목표 대상물 매칭 방법.
  10. 제1 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하기 전에,
    상기 제1 이미지와 상기 제2 이미지 각각을 미리 설정된 사양으로 조정하는 것을 추가로 포함하고,
    상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것은
    미리 설정된 사양으로 조정된 상기 제1 이미지와 상기 제2 이미지에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것을 포함하는, 목표 대상물 매칭 방법.
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
    대응하는 상기 제1 목표 대상물과 상기 제2 목표 대상물을 상기 입력 이미지에 표시하는 것을 추가로 포함하는, 목표 대상물 매칭 방법.
  12. 제 1 항 내지 제 11 항 중 어느 한 항에 있어서,
    상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것을 샴 뉴럴 네트워크에 의해 실행하는 것을 추가로 포함하는, 목표 대상물 매칭 방법.
  13. 제 12 항에 있어서,
    상기 샴 뉴럴 네트워크를 트레이닝하는 단계를 추가로 포함하고,
    상기 단계는
    인체 이미지인 복수의 제1 트레이닝 이미지 및 사람의 얼굴 이미지 또는 사람의 손 이미지인 복수의 제2 트레이닝 이미지를 포함하는 트레이닝 샘플을 취득하는 것과,
    상기 제1 트레이닝 이미지 및 상기 제2 트레이닝 이미지를 상기 샴 뉴럴 네트워크에 입력하여 상기 제1 트레이닝 이미지와 상기 제2 트레이닝 이미지의 추정 매칭 결과를 얻는 것과,
    상기 제1 트레이닝 이미지와 상기 제2 트레이닝 이미지의 추정 매칭 결과에 기초하여 네트워크 손실을 결정하고, 상기 네트워크 손실에 따라 상기 샴 뉴럴 네트워크의 네트워크 파라미터를 조정하는 것을 트레이닝 요구를 만족할 때까지 행하는 것을 포함하는, 목표 대상물 매칭 방법.
  14. 입력 이미지 내의 매칭 대상인 인체를 포함하는 제1 목표 대상물과, 사람의 손 및 사람의 얼굴 중 하나 이상을 포함하는 제2 목표 대상물을 취득하는 취득 모듈과,
    상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 특징 처리 모듈과,
    상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프를 작성하는 이부화 모듈과,
    상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 대응하는 제1 목표 대상물과 제2 목표 대상물을 결정하는 매칭 모듈을 포함하는, 목표 대상물 매칭 장치.
  15. 제 14 항에 있어서,
    상기 특징 처리 모듈은 추가로,
    상기 제1 이미지와 상기 제2 이미지에 대해 특징 추출 처리를 실행하고, 상기 제1 이미지의 제1 특징과 상기 제2 이미지의 제2 특징을 각각 얻고,
    상기 제1 특징과 상기 제2 특징의 접속 특징에 대해 분류 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는, 목표 대상물 매칭 장치.
  16. 제 15 항에 있어서,
    상기 특징 처리 모듈은 추가로,
    상기 제1 특징과 상기 제2 특징의 접속 특징에 대해 특징 융합 처리를 실행하여, 융합 특징을 얻고,
    상기 융합 특징을 전체 접속층에 입력하여 상기 분류 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는, 목표 대상물 매칭 장치.
  17. 제 14 항 내지 제 16 항 중 어느 한 항에 있어서,
    상기 이부화 모듈은 추가로,
    상기 제2 목표 대상물이 사람의 얼굴만을 포함하는 경우, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 인체와 사람의 얼굴의 2부 그래프를 작성하고,
    상기 제2 목표 대상물이 사람의 손만을 포함하는 경우, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여, 인체와 사람의 손의 2부 그래프를 작성하고,
    상기 제2 목표 대상물이 사람의 얼굴 및 사람의 손을 포함하는 경우, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도에 기초하여 인체와 사람의 얼굴의 2부 그래프 및 인체와 사람의 손의 2부 그래프를 작성하고,
    인체와 사람의 얼굴의 매칭 정도를 인체와 사람의 얼굴 사이의 2부 그래프의 인체와 사람의 얼굴 사이의 접속 가중치로 설정하고, 인체와 사람의 손의 매칭 정도를 상기 인체와 사람의 손의 2부 그래프 내의 인체와 사람의 손 사이의 접속 가중치로 하는, 목표 대상물 매칭 장치.
  18. 제 14 항 내지 제 17 항 중 어느 한 항에 있어서,
    상기 이부화 모듈은 추가로, 매칭 정도가 제1 임계값보다 높은 제1 목표 대상물과 제2 목표 대상물에 기초하여, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프를 작성하는, 목표 대상물 매칭 장치.
  19. 제 14 항 내지 제 18 항 중 어느 한 항에 있어서,
    상기 매칭 모듈은 추가로,
    상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프에 기초하여, 그리디 알고리즘을 이용하고, 상기 제1 목표 대상물과 상기 제2 목표 대상물의 매칭 정도가 높은 순서로, 상기 제1 목표 대상물과의 매칭 정도가 가장 높은 소정 수의 상기 제2 목표 대상물을 상기 제1 목표 대상물에 대응하는 제2 목표 대상물로 하는, 목표 대상물 매칭 장치.
  20. 제 19 항에 있어서,
    상기 매칭 모듈은 추가로,
    상기 제1 목표 대상물과 상기 제2 목표 대상물의 2부 그래프가 인체와 사람의 얼굴의 2부 그래프를 포함하는 경우, 그리디 알고리즘을 이용하고, 상기 제1 목표 대상물과의 매칭 정도가 가장 높고, 종류가 사람의 얼굴인 제2 목표 대상물을 선출하는, 목표 대상물 매칭 장치.
  21. 제 19 항 또는 제 20 항에 있어서,
    상기 매칭 모듈은 추가로,
    제1 목표 대상물 중 어느 것에 대해, 대응하는 소정 수의 제2 목표 대상물이 결정된 경우, 상기 제1 목표 대상물에 나머지 제2 목표 대상물을 대응시키지 않고,
    제2 목표 대상물 중 어느 것에 대해, 대응하는 제1 목표 대상물이 결정된 경우, 상기 제2 목표 대상물에 나머지 제1 목표 대상물을 대응시키지 않는, 목표 대상물 매칭 장치.
  22. 제 14 항 내지 제 21 항 중 어느 한 항에 있어서,
    상기 취득 모듈이 입력 이미지 내의 매칭 대상인 제1 목표 대상물과 제2 목표 대상물을 취득하는 것은
    검출된 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물에 대한 프레임 선택 조작에 기초하여, 상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물을 결정하는 것과,
    목표 검출 뉴럴 네트워크를 이용하여 상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물을 검출하는 것과,
    상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물의 위치 정보를 수신하고, 상기 위치 정보에 기초하여 상기 입력 이미지 내의 상기 제1 목표 대상물과 상기 제2 목표 대상물을 결정하는 것 중 하나 이상을 포함하는, 목표 대상물 매칭 장치.
  23. 제 14 항 내지 제 22 항 중 어느 한 항에 있어서,
    상기 특징 처리 모듈은 추가로, 상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하기 전에, 상기 제1 이미지와 상기 제2 이미지 각각을 미리 설정된 사양으로 조정하고,
    상기 입력 이미지에서 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것은
    미리 설정된 사양으로 조정된 상기 제1 이미지와 상기 제2 이미지에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것을 포함하는, 목표 대상물 매칭 장치.
  24. 제 14 항 내지 제 23 항 중 어느 한 항에 있어서,
    대응하는 상기 제1 목표 대상물과 상기 제2 목표 대상물을 상기 입력 이미지에 표시하는 표시 모듈을 추가로 포함하는, 목표 대상물 매칭 장치.
  25. 제 14 항 내지 제 24 항 중 어느 한 항에 있어서,
    상기 특징 처리 모듈은 추가로, 상기 제1 목표 대상물에 대응하는 제1 이미지와 상기 제2 목표 대상물에 대응하는 제2 이미지 각각에 대해 특징 처리를 실행하고, 상기 제1 이미지 내의 상기 제1 목표 대상물과 상기 제2 이미지 내의 상기 제2 목표 대상물의 매칭 정도를 얻는 것을 샴 뉴럴 네트워크에 의해 실행하는, 목표 대상물 매칭 장치.
  26. 제 25 항에 있어서,
    상기 샴 뉴럴 네트워크를 트레이닝하는 트레이닝 모듈을 추가로 포함하고,
    상기 샴 뉴럴 네트워크를 트레이닝하는 단계는
    인체 이미지인 복수의 제1 트레이닝 이미지 및 사람의 얼굴 이미지 또는 사람의 손 이미지인 복수의 제2 트레이닝 이미지를 포함하는 트레이닝 샘플을 취득하는 것과,
    상기 제1 트레이닝 이미지 및 상기 제2 트레이닝 이미지를 상기 샴 뉴럴 네트워크에 입력하여 상기 제1 트레이닝 이미지와 상기 제2 트레이닝 이미지의 추정 매칭 결과를 얻는 것과,
    상기 제1 트레이닝 이미지와 상기 제2 트레이닝 이미지의 추정 매칭 결과에 기초하여 네트워크 손실을 결정하고, 상기 네트워크 손실에 따라 상기 샴 뉴럴 네트워크의 네트워크 파라미터를 조정하는 것을 트레이닝 요구를 만족할 때까지 행하는 것을 포함하는, 목표 대상물 매칭 장치.
  27. 프로세서와,
    프로세서에 의해 실행 가능한 명령을 기억하기 위한 메모리를 포함하고,
    상기 프로세서는 상기 메모리에 기억되어 있는 명령을 불러냄으로써, 제 1 항 내지 제 13 항 중 어느 한 항의 목표 대상물 매칭 방법을 실행시키도록 구성되는, 전자 기기.
  28. 컴퓨터 프로그램 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체에서, 상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행되면, 제 1 항 내지 제 13 항 중 어느 한 항의 목표 대상물 매칭 방법을 실현시키는, 컴퓨터 판독 가능 기억 매체
  29. 상기 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램으로서, 상기 컴퓨터 판독 가능 코드가 전자 기기 내에서 실행되면, 상기 전자 기기 내의 프로세서에 제 1 항 내지 제 13 항 중 어느 한 항의 목표 대상물 매칭 방법을 실행시키는, 컴퓨터 프로그램.
KR1020227011057A 2019-09-18 2020-05-26 목표 대상물 매칭 방법 및 장치, 전자 기기 및 기억 매체 KR20220053670A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910882691.5A CN110674719B (zh) 2019-09-18 2019-09-18 目标对象匹配方法及装置、电子设备和存储介质
CN201910882691.5 2019-09-18
PCT/CN2020/092332 WO2021051857A1 (zh) 2019-09-18 2020-05-26 目标对象匹配方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
KR20220053670A true KR20220053670A (ko) 2022-04-29

Family

ID=69076784

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227011057A KR20220053670A (ko) 2019-09-18 2020-05-26 목표 대상물 매칭 방법 및 장치, 전자 기기 및 기억 매체

Country Status (6)

Country Link
JP (1) JP7262659B2 (ko)
KR (1) KR20220053670A (ko)
CN (1) CN110674719B (ko)
SG (1) SG11202110892SA (ko)
TW (1) TWI747325B (ko)
WO (1) WO2021051857A1 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674719B (zh) * 2019-09-18 2022-07-26 北京市商汤科技开发有限公司 目标对象匹配方法及装置、电子设备和存储介质
CN111476214A (zh) * 2020-05-21 2020-07-31 北京爱笔科技有限公司 一种图像区域匹配方法和相关装置
CN111680646B (zh) * 2020-06-11 2023-09-22 北京市商汤科技开发有限公司 动作检测方法及装置、电子设备和存储介质
US11544509B2 (en) * 2020-06-30 2023-01-03 Nielsen Consumer Llc Methods, systems, articles of manufacture, and apparatus to classify labels based on images using artificial intelligence
AU2021203818A1 (en) * 2020-12-29 2022-07-14 Sensetime International Pte. Ltd. Object detection method and apparatus, and electronic device
KR20220098312A (ko) * 2020-12-31 2022-07-12 센스타임 인터내셔널 피티이. 리미티드. 이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체
CN112801141B (zh) * 2021-01-08 2022-12-06 吉林大学 基于模板匹配和孪生神经网络优化的异源图像匹配方法
KR20220130567A (ko) * 2021-03-17 2022-09-27 센스타임 인터내셔널 피티이. 리미티드. 이미지에 포함된 상관된 객체들을 검출하기 위한 방법들, 장치들, 디바이스들, 및 저장 매체
WO2022195338A1 (en) * 2021-03-17 2022-09-22 Sensetime International Pte. Ltd. Methods, apparatuses, devices and storage media for detecting correlated objects involved in image
CN113205138B (zh) * 2021-04-30 2024-07-09 四川云从天府人工智能科技有限公司 人脸人体匹配方法、设备和存储介质
JP2023504319A (ja) 2021-06-22 2023-02-03 センスタイム インターナショナル ピーティーイー.リミテッド 人体と人手を関連付ける方法、装置、機器及び記憶媒体
WO2022096957A1 (en) * 2021-06-22 2022-05-12 Sensetime International Pte. Ltd. Body and hand association method and apparatus, device, and storage medium
CN115731436B (zh) * 2022-09-21 2023-09-26 东南大学 基于深度学习融合模型的高速公路车辆图像检索方法
CN115827925A (zh) * 2023-02-21 2023-03-21 中国第一汽车股份有限公司 一种目标关联方法、装置、电子设备及存储介质
CN116309449B (zh) * 2023-03-14 2024-04-09 浙江医准智能科技有限公司 图像处理方法、装置、设备及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101077379B1 (ko) * 2009-03-13 2011-10-26 노틸러스효성 주식회사 불법 금융 거래 방지용 금융 자동화 기기 및 그 제어 방법
JP2011070629A (ja) * 2009-08-25 2011-04-07 Dainippon Printing Co Ltd 広告効果測定システム及び広告効果測定装置
US8564534B2 (en) * 2009-10-07 2013-10-22 Microsoft Corporation Human tracking system
US8543598B2 (en) * 2010-03-01 2013-09-24 Microsoft Corporation Semantic object characterization and search
CN104143076B (zh) * 2013-05-09 2016-08-03 腾讯科技(深圳)有限公司 人脸形状的匹配方法和系统
CN109657524B (zh) * 2017-10-11 2021-03-05 阿里巴巴(中国)有限公司 一种图像匹配方法及装置
US20190213798A1 (en) * 2018-01-07 2019-07-11 Unchartedvr Inc. Hybrid hand and finger movement blending to create believable avatars
JP7094702B2 (ja) * 2018-01-12 2022-07-04 キヤノン株式会社 画像処理装置及びその方法、プログラム
CN110110189A (zh) * 2018-02-01 2019-08-09 北京京东尚科信息技术有限公司 用于生成信息的方法和装置
CN108388888B (zh) * 2018-03-23 2022-04-05 腾讯科技(深圳)有限公司 一种车辆识别方法、装置和存储介质
CN108509896B (zh) * 2018-03-28 2020-10-13 腾讯科技(深圳)有限公司 一种轨迹跟踪方法、装置和存储介质
CN109190454A (zh) * 2018-07-17 2019-01-11 北京新唐思创教育科技有限公司 用于识别视频中的目标人物的方法、装置、设备及介质
CN109740516B (zh) * 2018-12-29 2021-05-14 深圳市商汤科技有限公司 一种用户识别方法、装置、电子设备及存储介质
CN110070005A (zh) * 2019-04-02 2019-07-30 腾讯科技(深圳)有限公司 图像目标识别方法、装置、存储介质及电子设备
CN110427908A (zh) * 2019-08-08 2019-11-08 北京百度网讯科技有限公司 一种人物检测的方法、装置及计算机可读存储介质
CN110674719B (zh) * 2019-09-18 2022-07-26 北京市商汤科技开发有限公司 目标对象匹配方法及装置、电子设备和存储介质
CN111275002A (zh) * 2020-02-18 2020-06-12 上海商汤临港智能科技有限公司 一种图像处理方法、装置及电子设备

Also Published As

Publication number Publication date
JP7262659B2 (ja) 2023-04-21
CN110674719B (zh) 2022-07-26
TWI747325B (zh) 2021-11-21
WO2021051857A1 (zh) 2021-03-25
SG11202110892SA (en) 2021-10-28
CN110674719A (zh) 2020-01-10
JP2022542668A (ja) 2022-10-06
TW202113757A (zh) 2021-04-01

Similar Documents

Publication Publication Date Title
KR20220053670A (ko) 목표 대상물 매칭 방법 및 장치, 전자 기기 및 기억 매체
JP7238141B2 (ja) 顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
CN110688951B (zh) 图像处理方法及装置、电子设备和存储介质
KR102421820B1 (ko) 키포인트 검출 방법, 장치, 전자 기기 및 기억 매체
KR20210102180A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
TWI706379B (zh) 圖像處理方法及裝置、電子設備和儲存介質
KR20200139229A (ko) 위치 자세 추정 방법, 장치, 전자 기기 및 기억 매체
JP2021526698A (ja) 画像生成方法および装置、電子機器、並びに記憶媒体
US12008167B2 (en) Action recognition method and device for target object, and electronic apparatus
KR20220011207A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN111401230B (zh) 姿态估计方法及装置、电子设备和存储介质
WO2019205605A1 (zh) 人脸特征点的定位方法及装置
CN109903252B (zh) 图像处理方法及装置、电子设备和存储介质
JP7316456B2 (ja) 点群マップ構築方法及びその装置、電子機器、記憶媒体並びにプログラム
CN111339880A (zh) 一种目标检测方法及装置、电子设备和存储介质
KR20210040435A (ko) 제스처 인식 방법, 제스처 처리 방법 및 장치
US11810336B2 (en) Object display method and apparatus, electronic device, and computer readable storage medium
CN112734015B (zh) 网络生成方法及装置、电子设备和存储介质
CN114519794A (zh) 特征点匹配方法及装置、电子设备和存储介质
CN117148957A (zh) 界面显示方法、装置、设备及介质

Legal Events

Date Code Title Description
A201 Request for examination