KR20220042356A - 타깃 재식별 방법, 장치, 기기, 저장 매체 및 프로그램 제품 - Google Patents

타깃 재식별 방법, 장치, 기기, 저장 매체 및 프로그램 제품 Download PDF

Info

Publication number
KR20220042356A
KR20220042356A KR1020227002689A KR20227002689A KR20220042356A KR 20220042356 A KR20220042356 A KR 20220042356A KR 1020227002689 A KR1020227002689 A KR 1020227002689A KR 20227002689 A KR20227002689 A KR 20227002689A KR 20220042356 A KR20220042356 A KR 20220042356A
Authority
KR
South Korea
Prior art keywords
image
target
candidate
images
determining
Prior art date
Application number
KR1020227002689A
Other languages
English (en)
Inventor
데이 지
웨이하오 간
Original Assignee
상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20220042356A publication Critical patent/KR20220042356A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명 실시예는 타깃 재식별 방법, 장치, 기기, 저장 매체 및 프로그램 제품에 관한 것으로서, 상기 방법은 두번의 이미지 삭제 및 선택을 포함하고, 즉 타깃 대상 이미지의 제1 특징값 및 처리될 이미지 세트에 대응되는 제2 특징값 세트에 따라 처리될 이미지 세트에서 후보 이미지 세트를 초보적으로 결정하는 단계 - 상기 후보 이미지 세트에서의 임의의 두개 이미지 간의 유사값은 기설정된 유사값보다 크거나 같음 - ; 및 훈련된 이미지 연관 식별 네트워크에 기반하여 제1 특징값 및 제2 특징값 세트를 식별하여, 후보 이미지 세트에서 타깃 대상 이미지에서 타깃 대상과 비교적 유사한 타깃 이미지 세트를 결정하는 단계를 포함한다.

Description

타깃 재식별 방법, 장치, 기기, 저장 매체 및 프로그램 제품
[관련 출원에 대한 상호 참조]
본 발명은 출원 번호가 202011022834.4이고, 출원일이 2020년 9월 25일인 중국 특허 출원에 기반하여 제출하였고, 상기 중국 특허 출원의 모든 내용은 참조로서 본 출원에 인용된다.
타깃 재식별은 컴퓨터 시각 및 스마트 비디오 모니터링 분야의 중요한 문제이며, 그 목적은 동일한 타깃이 동일한 또는 상이한 카메라에 나타나는 위치를 결정하기 위함이다. 도시화가 진행되고 도시 지역의 카메라 수가 증가함에 따라, 타깃 재식별 문제는 많은 영역에서 중요하게 실제적으로 적용되고 있고, 예를 들어 보행자의 걷는 행위의 분석, 교차 카메라의 보행자 및 차량 추적, 및 보행자 차량의 이상 행위의 검출 등등에 적용된다. 그러나 실제 적용에서는, 시나리오에서 다른 타깃에 의해 간섭받을 수 있고, 타깃과 타깃 사이에 극도로 유사한 외관 특징 등 요인이 존재할 수 있으므로, 이러한 요인은 타깃 재식별 과정에 부정적인 영향을 미친다.
본 발명의 실시예는 타깃 재식별 기술 방안을 제기한다.
본 발명의 일 측면에 따르면, 타깃 재식별 방법을 제공하고, 상기 방법은, 타깃 대상 이미지 및 처리될 이미지 세트를 획득하는 단계 - 타깃 대상 이미지는 타깃 대상을 포함함- ; 타깃 대상 이미지의 제1 특징값 및 처리될 이미지 세트에 대응되는 제2 특징값 세트에 따라 처리될 이미지 세트에서 후보 이미지 세트를 결정하는 단계 - 후보 이미지 세트에서의 임의의 두개 이미지 간의 유사값은 기설정된 유사값보다 크거나 같음 - ; 훈련된 이미지 연관 식별 네트워크에 기반하여, 제1 특징값 및 제2 특징값 세트를 식별하여, 후보 이미지 세트에서 타깃 이미지 세트를 결정하는 단계 - 타깃 이미지 세트에서의 이미지가 포함한 대상과 타깃 대상의 제1 유사도 값은, 타깃이 아닌 이미지가 포함한 대상과 타깃 대상의 제1 유사값보다 크거나 같으며, 후보 이미지 세트는 타깃 이미지 세트 및 타깃이 아닌 이미지를 포함함 - 를 포함한다. 이로써 처리될 이미지 세트에서 더욱 정확한 양의 샘플을 결정하고, 및 음의 샘플의 간섭을 감소시켜, 타깃 이미지 세트를 얻음으로써, 후속 타깃 이미지 세트에서의 이미지 속성 정보에 기반하여 포함된 대상을 행위 분석한 결과의 정확성으로 하여금 향상되도록 한다.
일부 가능한 실시형태에 있어서, 상기 이미지 연관 식별 네트워크는 제1 이미지 구조 설정 서브 네트워크, 이미지 연관 업데이트 서브 네트워크 및 분류기를 포함하고; 제1 이미지 구조 설정 서브 네트워크, 이미지 연관 업데이트 서브 네트워크 및 분류기는 직렬로 연결되고; 훈련된 이미지 연관 식별 네트워크에 기반하여, 제1 특징값 및 제2 특징값 세트를 식별하여, 후보 이미지 세트에서 타깃 이미지 세트를 결정하는 단계는, 제1 특징값 및 제2 특징값 세트를 제1 이미지 구조 설정 서브 네트워크에 입력하여, 제1 이미지 구조를 얻는 단계 - 제1 이미지 구조는 노드 및 두 개 노드를 연결하는 링크를 포함하고, 노드의 개수 및 후보 이미지 세트에서의 이미지의 개수는 동일하며, 두 노드를 연결하는 링크는 연결된 두개 노드 간의 유사도 및 기설정된 유사도에 기반하여 결정된 것임 - ; 제1 이미지 구조를 이미지 연관 업데이트 서브 네트워크에 입력하여, 업데이트 및 최적화된 제2 이미지 구조를 얻는 단계; 분류기를 통해 제2 이미지 구조에 따라 후보 이미지 세트에서 각 후보 이미지에 대응되는 제1 유사도 값을 결정하는 단계; 및 각 후보 이미지에 대응되는 제1 유사도 값과 유사도 입계값에 기반하여 타깃 이미지 세트를 결정하는 단계를 포함한다. 기존의 컨볼루션 신경 네트워크와 비교할 때, 이미지 컨볼루션 신경 네트워크를 통하면 불규칙적인 이미지 데이터에 대해 고유한 노드 분류, 링크 예측을 더욱 잘 수행할 수 있으며, 더 넓은 사용 범위를 가질 수 있다.
일부 가능한 실시형태에 있어서, 분류기를 통해 제2 이미지 구조에 따라 후보 이미지 세트에서 각 후보 이미지에 대응되는 제1 유사도 값을 결정하는 단계는, 제1 이미지 구조 및 제2 이미지 구조를 더하고 융합하여, 제3 이미지 구조를 얻는 단계; 및 분류기를 통해 제3 이미지 구조에 따라 후보 이미지 세트에서 각 후보 이미지에 대응되는 제1 유사도 값을 결정하는 단계를 포함한다. 원래의 제1 이미지 구조 및 제2 이미지 구조를 더하고 융합하는 것을 통해, 최적화 과정에서 제어할 수 없고, 불안정한 파라미터로 인한 불리한 요소가 이미지 구조에 미치는 영향을 감소시킬 수 있다.
일부 가능한 실시형태에 있어서, 상기 이미지 연관 업데이트 서브 네트워크는, 주의력 메커니즘 계층, 복수 개 이미지 컨볼루션 계층, 복수 개 활성화 계층 및 복수 개 완전 연결 계층을 포함하고; 주의력 메커니즘 계층, 복수 개 이미지 컨볼루션 계층, 복수 개 활성화 계층 및 복수 개 완전 연결 계층은 직렬 연결되고; 제1 이미지 구조를 이미지 연관 업데이트 서브 네트워크에 입력하여, 업데이트 및 최적화된 제2 이미지 구조를 얻는 단계는,제1 이미지 구조를 주의력 메커니즘 계층에 입력하여, 제1 이미지 구조에서 각 노드의 가중 벡터를 얻는 단계; 각 노드의 가중 벡터 및 제1 이미지 구조를 주의력 메커니즘 계층의 다음 계층의 입력으로 결정하는 단계; 복수 개 이미지 컨볼루션 계층, 복수 개 활성화 계층 및 복수 개 완전 연결 계층에서의 어느 하나 현재 처리하는 계층을 현재 계층으로 결정하는 단계; 현재 계층의 이전 한개 계층의 입력을 현재 계층의 입력으로 사용하여, 계산 처리하여 현재 계층의 출력을 얻는 단계; 및 어느 하나 현재 계층이 대응되는 출력이 존재하는 경우, 이미지 연관 업데이트 서브 네트워크에서 마지막 계층의 출력에 따라, 업데이트 및 최적화된 제2 이미지 구조를 얻는 단계를 포함한다. 이미지 연관 업데이트 서브 네트워크 각 계층의 수량 및 위치 관계를 조정하는 것을 통해, 각 응용 시나리오에서 유연하게 네트워크 아키텍처를 구축하여, 요구 사항에 더욱 부합되는 제2 이미지 구조를 얻을 수 있다.
일부 가능한 실시형태에 있어서, 타깃 대상 이미지의 제1 특징값 및 처리될 이미지 세트에 대응되는 제2 특징값 세트에 따라 처리될 이미지 세트에서 후보 이미지 세트를 결정하는 단계는, 특징 코딩 추출 네트워크에 기반하여 타깃 대상 이미지가 포함한 타깃 대상의 제1 특징값을 결정하고, 특징 코딩 추출 네트워크에 기반하여 처리될 이미지 세트에서의 각 이미지가 포함한 대상의 제2 특징값을 결정하며, 제2 특징값 및 제1 특징값에 기반하여 각 이미지에 대응되는 제2 유사도 값을 결정하며, 제2 유사도 값에 따라 처리될 이미지 세트에서 후보 이미지 세트를 결정하는 단계를 포함한다. 특징값 간의 유사도를 통해 후보 이미지 세트에서 후보 이미지 세트를 초보적으로 정확하게 결정하여, 후속 이미지 처리를 위해 기반을 마련한다.
일부 가능한 실시형태에 있어서, 제2 유사도 값에 따라 처리될 이미지 세트에서 후보 이미지 세트를 결정하는 단계는, 각 처리될 이미지에 대응되는 제2 유사도 값을 수치가 큰 숫자로부터 낮은 숫자로 랭킹하고, 상위 N 위치의 제2 유사도 값에 대응되는 처리될 이미지에 기반하여, 후보 이미지 세트를 얻는 단계를 포함한다. 제2 유사도 값을 랭킹하는 것을 통해, 구현 방안의 다양성을 증가시키기 위해 기설정된 N 장의 이미지를 선택하는 단계와 대응시킬 수 있다.
일부 가능한 실시형태에 있어서, 제2 유사도 값에 따라 처리될 이미지 세트에서 후보 이미지 세트를 결정하는 단계는, 각 처리될 이미지에 대응되는 제2 유사도 값을 수치가 큰 숫자로부터 낮은 숫자로 랭킹하고, 상위 N 위치의 제2 유사도 값에 대응되는 처리될 이미지에 기반하여 처리될 이미지 세트를 제1 후보 이미지 세트 및 제1 후보 이미지가 아닌 세트로 나누고, 제1 후보 이미지 세트에서의 이미지의 제2 특징값 및 제1 후보 이미지가 아닌 세트에서의 이미지의 제2 특징값에 따라 제1 후보 이미지가 아닌 세트에서 N2개 이미지를 결정하여, 제2 후보 이미지 세트를 구성하며, 제1 후보 이미지 세트 및 제2 후보 이미지 세트에 기반하여 후보 이미지 세트를 결정하는 단계 - 제1 후보 이미지 세트는 상위 N1 위치의 제2 유사도 값에 대응되는 이미지를 포함함 - 를 포함한다. 후보 이미지 세트를 한번에 선택하고 결정하는 것에 비교하여, 본 실시형태는 두번의 검색을 통해 후보 이미지 세트를 점진적으로 결정하여, 더욱 많은 어려운 정의 샘플 이미지로 하여금 후보 이미지 세트에 들어가도록 하여, 후속 이미지 식별 정확성의 향상을 위해 기반을 마련하고, 이와 동시에 구현 방안의 다양성을 증가시킬 수 있다.
일부 가능한 실시형태에 있어서, 제1 후보 이미지 세트에서의 이미지의 제2 특징값 및 제1 후보 이미지가 아닌 세트에서의 이미지의 제2 특징값에 따라 제1 후보 이미지가 아닌 세트에서 N2개 이미지를 결정하여, 제2 후보 이미지 세트를 구성하는 단계는, 제1 후보 이미지 세트에서의 어느 하나 현재 사용하는 이미지를 현재 이미지로 결정하는 단계; 현재 이미지의 제2 특징값 및 제1 후보 이미지가 아닌 세트에서의 이미지의 제2 특징값에 따라 제1 후보 이미지가 아닌 세트에서의 각 이미지에 대응되는 제3 유사도 값을 결정하고, 각 이미지에 대응된느 제3 유사도 값에 따라 제1 후보 이미지가 아닌 세트에서 현재 이미지에 대응되는 제3 후보 이미지 세트를 결정하며, 각 현재 이미지에 대응되는 제3 후보 이미지 세트가 모두 존재하는 경우, 각 현재 이미지에 대응되는 제3 후보 이미지 세트에 따라 N2개 이미지를 결정하여, 제2 후보 이미지 세트를 구성하는 단계를 포함한다. 제1 후보 이미지 세트에서의 이미지를 소개한 기초에서 이차 검색을 진행하여, 제1 후보 이미지 세트에서의 이미지로 하여금 전환 이미지로 사용되도록 함으로써, 더욱 많은 양의 샘플 이미지를 얻어 후보 이미지 세를 결정하여, 후속 이미지 식별 정확성을 향상시키는데 기초가 된다.
일부 가능한 실시형태에 있어서, 후보 이미지 세트에서 타깃 이미지 세트를 결정하는 단계 이후, 타깃 이미지 세트에서의 이미지의 속성 정보를 결정하는 단계; 및 속성 정보에 따라 타깃 이미지 세트에서의 이미지가 포함한 대상에 대해 궤적 행위 분석을 진행하는 단계를 더 포함한다. 속성 정보를 통해, 타깃 이미지 세트에서의 이미지를 실제 시나리오에 적용할 수 있다.
일부 가능한 실시형태에 있어서, 속성 정보는 이미지 획득 위치 및 이미지 획득 시간을 포함하고, 속성 정보에 따라 타깃 이미지 세트에서의 이미지가 포함된 대상에 대해 궤적 행위 분석을 진행하는 단계는, 이미지 획득 시간에 따라 타깃 이미지 세트에서의 이미지를 랭킹하고, 이미지 획득 위치 및 랭킹 이후의 이미지에 기반하여 이미지가 포함된 대상에 대해 운동 궤적 결정 및 행위 추측을 하는 단계를 포함한다. 포함된 속성 정보를 통해 대상에 대해 궤적 행위 분석을 수행하는 방식을 한정함으로써, 얻은 타깃 이미지 세트가 특정된 시나리오에 적용되도록 하여, 생활에서의 실제 문제를 해결한다.
본 발명 실시예의 제2 측면에 따르면, 타깃 재식별 장치를 제공하고, 타깃 대상 이미지 및 처리될 이미지 세트를 획득하도록 구성된 이미지 획득 모듈 - 타깃 대상 이미지는 타깃 대상을 포함함- ; 타깃 대상 이미지의 제1 특징값 및 처리될 이미지 세트에 대응되는 제2 특징값 세트에 따라 처리될 이미지 세트에서 후보 이미지 세트를 결정하도록 구성된 후보 이미지 결정 모듈 - 후보 이미지 세트에서의 임의의 두개 이미지 간의 유사값은 기설정된 유사값보다 크거나 같음 - ; 훈련된 이미지 연관 식별 네트워크에 기반하여, 제1 특징값 및 제2 특징값 세트를 식별하여, 후보 이미지 세트에서 타깃 이미지 세트를 결정하도록 구성된 타깃 이미지 결정 모듈 - 타깃 이미지 세트에서의 이미지가 포함한 대상과 타깃 대상의 제1 유사도 값은, 타깃이 아닌 이미지가 포함한 대상과 타깃 대상의 제1 유사값보다 크거나 같으며, 후보 이미지 세트는 타깃 이미지 세트 및 타깃이 아닌 이미지를 포함함- 를 포함한다.
본 발명 실세예의 제3 측면에 따르면, 전자 기기를 제공하고; 적어도 하나의 프로세서 및 적어도 하나의 프로세서와 연결된 메모리를 포함하고; 여기서, 메모리는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령어를 저장하고, 적어도 하나의 프로세서는 메모리에 저장된 명령을 실행하는 것을 통해 제1 측면 중 임의의 한 항에 따른 타깃 재식별 방법을 구현한다.
본 발명 실시예의 제4 측면에 따르면, 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 컴퓨터 판독 가능한 저장 매체에는 적어도 하나의 명령어 또는 적어도 하나의 프로그램을 저장하고, 적어도 하나의 명령어 또는 적어도 하나의 프로그램은 프로세스에 의해 로딩 및 실행되어 제1 측면 중 임의의 한 항에 따른 타깃 재식별 방법을 구현한다.
본 발명 실시예의 제5측면에 따르면, 명령어를 포함한 컴퓨터 프로그램 제품을 제공하고, 컴퓨터에서 작동될 경우, 컴퓨터로 하여금 본 발명 실시예의 제1 측면 중 임의의 타깃 재식별 방법을 실행하도록 한다.
본 발명 실시예에 있어서, 두번의 이미지 삭제 및 선택은, 타깃 대상 이미지의 제1 특징값 및 처리될 이미지 세트에 대응되는 제2 특징값 세트에 따라, 처리될 이미지 세트에서 후보 이미지 세트를 결정하는 단계 - 여기서 후보 이미지 세트에서의 임의의 두개 이미지 간의 유사값은 기설정된 유사값보다 크거나 같음 -; 및 훈련된 이미지 연관 식별 네트워크에 기반하여, 제1 특징값 및 제2 특징값 세트를 식별하여, 후보 이미지 세트에서 타깃 대상 이미지 중 타깃 대상과 비교적 유사한 타깃 이미지 세트를 결정하는 단계를 포함함으로써, 처리될 이미지 세트에서 더욱 정확한 양의 샘플을 결정할 수 있고, 및 음의 샘플의 간섭을 감소시켜, 타깃 이미지 세트를 얻음으로써, 후속 타깃 이미지 세트에서의 이미지 속성 정보에 기반하여 포함된 대상을 행위 분석한 결과의 정확성으로 하여금 향상되도록 한다.
이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 다만 예시적이고 해석적인 것이며, 본 발명의 실시예를 한정하려는 것은 아니다.
아래에 첨부 도면에 따라 예시적 실시예를 상세하게 설명하므로, 본 발명 실시예의 다른 특징 및 측면이 더욱 명확해질 것이다.
본 명세서의 실시예 또는 종래 기술의 기술 방안 및 우점을 더욱 명확하게 설명하기 위해, 실시예 또는 종래 기술의 설명에서 사용되는 도면을 아래에서 간단히 설명하며, 명맥하게, 이하의 설명에서의 도면은 본 명세서의 실시예 중 일부일 뿐이며, 본 기술분야의 통상의 기술자는 그 어떤 창조적인 작업을 하지 않아도 이들 도면에 따른 다른 도면을 얻을 수 있다.
도 1은 본 발명의 실시예에 따른 타깃 재식별 방법의 흐름도이다.
도 2는 본 발명의 실시예에 따른 후보 이미지 세트를 획득하는 방법의 흐름도이다.
도 3은 본 발명의 실시예에 따른 후보 이미지 세트를 획득하는 방법의 흐름도이다.
도 4는 본 발명의 실시예에 따른 제2 후보 이미지 세트를 획득하는 방법의 흐름도이다.
도 5는 본 발명의 실시예에 따른 후보 이미지 세트를 획득하는 예시도이다.
도 6은 본 발명의 실시예에 따른 이미지 연관 식별 네트워크의 구조 예시도이다.
도 7은 본 발명의 실시예에 따른 이미지 연관 식별 네트워크에 기반하여 타깃 이미지 세트를 결정하는 방법의 흐름도이다.
도 8은 본 발명의 실시예에 따른 제1 이미지 구조의 예시도이다.
도 9는 본 발명의 실시예에 따른 잔여 구조의 예시도이다.
도 10은 본 발명의 실시예에 따른 이미지 연관식별 네트워크이 훈련 방법의 흐름도이다.
도 11A는 본 발명의 실시예에 따른 타깃 재식별 방법의 응용 흐름도이다.
도 11B는 본 발명의 실시예에 따른 보행자 재식별 방법의 논리 흐름도이다.
도 11C는 본 발명 실시예에서 제공한 연관 특징 학습 프레임워크이다.
도 11D는 본 발명 실시예에서 제공한 갤러리에서 어려운 샘플을 선택하는 예시도이다.
도 12는 본 발명의 실시예에 따른 타깃 재식별 장치의 블록도이다.
도 13은 본 발명의 실시예에 따른 전자 기기의 블록도이다.
도 14는 본 발명의 실시예에 따른 다른 한 전자 기기의 블록도이다.
아래에서는 본 명세서의 실시예 중의 도면과 결합하여 본 명세서 실시예의 기술방안에 대해 명확하고 완전하게 설명하되 설명된 실시예는 본 발명의 일부 실시예일 뿐 전체 실시예가 아님은 분명하다. 본 명세서에서의 실시예에 기반하여, 본 분야 기술자가 창조성 노동을 부여하지 않은 전제하에서 얻은 기타 실시예는 전부 본 발명의 청구범위에 속한다.
설명해야 할 것은 본 발명의 명세서 및 실청구범위 및 상기 도면에서의 용어 “제1 ”, “제2 ” 등은 유사한 대상을 구별하기 위해 사용되며, 특정 순서 또는 선후순서를 설명하기 위해 사용되는 것은 아니다. 이해해야 할 것은 이러한 방식으로 사용되는 데이터는 적절한 상황에서 교환될 수 있으므로, 여기에서 설명된 본 발명의 실시예가 여기에 도시되거나 또는 설명된 것과 다른 순서로 구현될 수 있다. 이외에 "포함하는" 및 "갖는"이라는 용어와 그 변형은 비배타적인 포함을 포함하기 위한 것이고 예를 들어 일련의 단계 또는 유닛을 포함하는 과정, 방법, 시스템, 제품 또는 기기는 반드시 명백하게 나열된 해당 단계 또는 유닛으로만 한정되지 않으며, 명백하게 나열되지 않거나 이러한 과정, 방법, 제품 또는 기기에 대해 고유한 다른 단계 또는 유닛을 포함할 수 있다.
이하, 도면을 참조하여 본 발명 실시예의 다양한 예시적인 실시예, 특징 및 측면을 상세하게 설명한다. 도면에서 동일한 도면 부호는 동일하거나 유사한 기능을 갖는 요소를 표시한다. 실시예의 다양한 측면이 도면에 도시되어 있지만, 구체적으로 언급되지 않는 한, 도면은 반드시 비례대로 도시될 필요없다.
여기서 "예시적"이라는 특정한 단어는 "예, 실시예 또는 설명적인 것으로 사용됨"을 의미한다. 본문에서 “예시적”으로 설명된 임의의 실시예는 다른 실시예보다 우수하거나 좋은 것으로 해석될 필요는 없다.
본문 중의 용어 “및/또는”은 다만 연관 대상의 연관 관계를 설명하기 위한 것이며, 세 가지 관계가 존재할 수 있음을 의미하는데, 예를 들어, “A 및/또는 B”는, A가 단독적으로 존재하거나, A와 B가 동시에 존재하거나, B가 단독적으로 존재하는 세 가지 경우를 의미한다. 또한, 본 명세서에서 "적어도 하나"라는 용어는 복수 개 중 어느 하나 또는 복수 개 중 적어도 2 개의 임의의 조합을 나타내며, 예를 들어, A, B 및 C 중 적어도 하나는 A, B 및 C에 의해 형성된 집합에서 선택된 임의의 하나 또는 복수 개의 요소를 나타낼 수 있다.
또한, 본 발명의 실시예를 더 잘 설명하기 위해, 아래의 구체적인 실시형태에서 다수의 구현 세부 사항을 제공한다. 본 분야의 기술자는 일부 구련 세부 사항이 없이도, 본 발명의 실시예가 마찬가지로 실시될 수 있음을 이해해야 한다. 일부 예에 있어서, 본 분야에게 널리 알려진 방법, 수단, 구성 요소 및 회로는 본 발명의 실시예의 요지를 강조하기 위해, 상세히 설명되지 않는다.
본 발명의 실시예에서 제공한 타깃 재식별 방안은, 타깃 대상 이미지 및 처리될 이미지 세트를 획득하고, 상기 타깃 대상 이미지에는 타깃 대상을 포함하고, 타깃 대상 이미지의 제1 특징값 및 처리될 이미지 세트에 대응되는 제2 특징값 세트에 따라 처리될 이미지 세트에서 후보 이미지 세트를 결정하고, 후보 이미지 세트에서의 임의의 두 개 이미지 간의 유사값은 기설정된 유사값보다 크거나 같다. 훈련된 이미지 연관 식별 네트워크에 기반하여 제1 특징값 및 제2 특징값 세트를 식별하여, 후보 이미지 세트에서 타깃 이미지 세트를 결정하며, 타깃 이미지 세트에서의 이미지가 포함한 대상과 타깃 대상의 제1 유사도 값은 타깃이 아닌 이미지가 포함한 대상과 타깃 대상의 제1 유사도 값보다 크거나 같으며, 후보 이미지 세트는 타깃 이미지 세트 및 타깃이 아닌 이미지를 포함한다. 이로써, 전술한 두번의 이미지 삭제 및 선택을 통해, 조명, 복잡한 배경 등 다양한 요인의 영향을 감소시켜, 처리될 이미지 세트에서 더욱 정확한 양의 샘플을 결정하고, 및 음의 샘플의 간섭을 감소시켜, 타깃 이미지 세트를 얻음으로써, 후속 타깃 이미지 세트에서의 이미지 속성 정보에 기반하여 포함된 대상을 행위 분석한 결과의 정확성으로 하여금 향상되도록 한다.
관련 기술의 실제 적용에 있어서, 처리될 이미지 세트에서의 이미지는 빛의 강도, 복잡한 배경 또는 이미지 획득 기기의 시각 변화 영향을 받아, 기존 모델링 과정에서 간섭이 있는 음의 샘플을 비교적 많이 사용하거나 또는 비교적 식별이 어려운 양의 샘플을 무시하여, 모델링하여 얻은 네트워크로 하여금 정밀도가 놓지 않도록 함으로써, 적용 과정에서, 이미지 선택 정확도가 높지 않아, 대상 궤적 행위 분석의 정확성에 영향을 준다. 본 발명의 실시예에서 제공한 타깃 재식별 방법은 타깃 대상 이미지 및 초기 이미지의 특징값을 비교하여, 후보 이미지 세트를 얻고 이미지 연관 식별 네트워크에 기반하여 후보 이미지 세트에서 타깃 대상 이미지의 타깃 대상과 유사도가 더욱 높은 타깃 이미지 세트를 식별하여, 분석될 이미지의 정확도를 향상시킴으로써, 선택된 타깃 이미지 세트에서 대상에 대해 충분한 궤적 행위 분석을 할 수 있다.
본 발명 실시예가 제공한 기술 방안은 이미지 또는 비디오의 타깃 재식별, 타깃 식별 등 응용 시나리오의 확장에 적용될 수 있고, 본 발명 실시예에서는 이에 대해 한정하지 않는다.
본 발명 실시예에서 제공한 타깃 재식별 방법은 단말 기기, 서버 또는 다른 타입의 전자 기기에 의해 실행될 수 있고, 여기서, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말, 단말, 셀룰러 폰, 무선 전화, 개인용 정보 단말기(Personal Digital Assistant, PDA), 핸드 헬드 기기, 컴퓨팅 기기, 차량용 기기, 웨어러블 기기 등일 수 있다. 일부 가능한 구현 방식에 있어서, 상기 타깃 재식별 방법은 프로세서가 메모리에 저장된 컴퓨터 판독 가능한 명령어를 호출하는 방식을 통해 구현될 수 있다. 아래에 전자 기기를 실행 주체로 하여 본 발명의 실시예에 따른 타깃 재식별 방법을 설명한다. 에를 들어 타깃 재식별 방법은 프로세서가 메모리에 저장된 컴퓨터 판독 가능한 명령어를 호출하는 방식을 통해 구현될 수 있다.
도 1은 본 발명의 실시예에 따른 타깃 재식별 방법의 흐름도이고, 도 1에 도시된 바와 같이, 상기 방법은 아래와 같은 단계를 포함한다.
단계 S10에 있어서, 타깃 대상 이미지 및 처리될 이미지 세트를 획득하고; 타깃 대상 이미지는 타깃 대상을 포함한다.
일부 실시형태에 있어서, 전술한 타깃 대상은 차량, 보행자 또는 차량과 보행자의 결합을 포함할 수 있지만 이에 제한되지 않으며, 차량은 자동차, 트럭, 오토바이, 자전거 등이 될 수 있다.
일부 실시형태에 있어서, 전자 기기를 통해 타깃 대상 이미지를 획득하거나, 또는, 전자 기기는 다른 기기에서 타깃 대상 이미지를 획득할 수 있으며, 예를 들어, 전자 기기는 카메라 기기, 모니터링 기기 등 기기로부터 타깃 대상 이미지를 획득할 수 있다. 일부 구현 방식에 있어서, 상기 타깃 대상 이미지는 비디오에서의 한 프레임일 수 있다. 마찬가지로, 처리될 이미지 세트는 전자 기기를 통해 획득한 것일 수 있고, 다른 기기를 통해 획득하여 전자 기기에 통합될 수도 있다.
본 발명의 실시예의 목적은 타깃 대상 이미지에 따라 처리될 이미지 세트에서 타깃 이미지를 결정함으로써, 타깃 이미지에 따라 포함된 대상에 대해 궤적 행위 분석할 수 있는 것이기 때문에, 따라서, 전자 기기는 의도적으로 일부 이미지를 선택하여 획득하여, 처리될 이미지 세트를 형성할 수 있다. 일부 실시형태에 있어서, 타깃 대상 이미지는 A 카메라를 통해 획득된 것이라고 가정하면, 전자 기기는 A 카메라를 통해 이미지를 획득하는 것 및 A 카메라 주위에 설정된 적어도 하나의 카메라를 통해 일부 이미지를 획득하는 것 중 적어도 하나를 수행하여, 처리될 이미지 세트를 구성할 수도 있다. 일부 실시형태에 있어서, 타깃 대상 이미지는 A 카메라를 통해 특정된 시각에 촬영하여 얻은 것이라고 가정하면, 전자 기기는 A 카메라가 상기 시각 전후에 촬영하여 얻은 이미지를 획득하는 것, 다른 카메라가 상기 시각 전후에 촬영하여 얻은 이미지를 획득하는 것 중 적어도 하나를 수행하여, 처리될 이미지 세트를 구성할 수도 있다. 일부 실시형태에 있어서, 타깃 대상 이미지는 A 카메라를 통해 특정된 시각에 촬영하여 얻은 것이라고 가정하면, 전자 기기는 A 카메라가 상기 시각 전후에 촬영하여 얻은 이미지를 획득하는 것, A 카메라 주위에 설정된 다른 카메라를 통해 상기 시각 전후에 촬영하여 얻은 이미지를 획득하는 것 중 적어도 하나를 수행하여, 처리될 이미지 세트를 구성할 수도 있다. 이로써, 간섭 이미지가 초기에 많이 제거되기 때문에, 전자 기기가 처리될 이미지 세트를 작업하는 과정에서, 많은 컴퓨팅 파워를 절약할 수 있고 기기 비용을 절감할 수 있다
단계 S20에 있어서, 타깃 대상 이미지의 제1 특징값 및 처리될 이미지 세트에 대응되는 제2 특징값 세트에 따라 처리될 이미지 세트에서 후보 이미지 세트를 결정하고, 여기서 후보 이미지 세트에서의 임의의 두개 이미지 간의 유사값은 기설정된 유사값보다 크거나 같다.
일부 실시형태에 있어서, 타깃 대상 이미지의 제1 특징값 및 처리될 이미지 세트에 대응되는 제2 특징값 세트에 따라 처리될 이미지 세트에서 후보 이미지 세트를 결정하기전, 본 발명의 실시예는 또한 처리될 이미지 세트에서의 이미지를 미리 삭제하고 선택할 수 있다. 아래는 타깃 대상을 사람으로 하여 설명을 하고, 처리될 이미지 세트를 획득하는 과정에서, 획득 채널의 문제 또는 다른 문제의 존재로 인해 획득하여 얻은 이미지에 사람이라는 대상이 포함되지 않을 수 있기 때문에, 처리될 이미지 세트에서의 이미지에 대해 직접 제2 특징값을 추출할 경우, 기기 비용이 대폭 증가될 있고, 따라서, 전자 기기에 설정된 대상 식별 모듈을 통해 처리될 이미지 세트에서의 이미지를 미리 삭제하고 선택하여, 사람이 포함되지 않은 이미지를 삭제하고, 비교적 깨끗한 이미지 데이터를 얻는다.
본 발명의 실시예에서 처리될 이미지 세트에서 후보 이미지 세트를 결정하는 방식은 다양하고, 일부 실시형태에 있어서, 타깃 대상 이미지에서 타깃 대상의 성별에 따라 후보 이미지 세트에서 이미지를 선택하여, 후보 이미지 세트를 구성할 수 있다. 여기서, 후보 이미지 세트에서 이미지에 포함된 대상의 성별과 타깃 대상의 성별은 일치하다. 일부 실시형태에 있어서, 또한 타깃 대상 이미지에서 타깃 대상의 성별, 및 체형에 따라 후보 이미지 세트에서 이미지를 선택하여, 후보 이미지 세트를 구성할 수 있다. 여기서, 후보 이미지 세트에서 이미지에 포함된 대상의 성별 및 체형은 각각 타깃 대상의 성별 및 체형과 일치하다.
일부 실시형태에 있어서, 본 발명의 실시예는 이미지의 특징값을 추출하는 것을 통해 후보 이미지 세트를 획득하고, 타깃 대상 이미지에 포함된 타깃 대상의 제1 특징값을 결정하고, 처리될 이미지 세트에서의 이미지에 포함된 대상의 제2 특징값을 결정하며, 제2 특징값 및 제1 특징값에 기반하여, 각 이미지에 대응되는 제2 유사도 값을 결정하며, 제2 유사도 값에 따라 처리될 이미지 세트에서 후보 이미지 세트를 결정할 수 있다. 그러나, 이러한 방식은, 후보 이미지 세트에서의 임의의 두 개 이미지 간의 유사값에 대한 요구가 없기에, 다시 말해, 상기 방식은, 후보 이미지 세트에서의 각 이미지는 타깃 대상 이미지에만 연계가 있다.
전술한 두 개 방법은 모두 직접 처리될 이미지 세트에서의 이미지 및 타깃 대상 이미지를 특징값 비교하여, 제2 유사도 값을 얻는다. 그러나, 이미지 또는 비디오 촬영 과정에서, 조명, 촬영 배경 및 시각 변환 등 다양한 원인으로 인해 처리될 이미지 세트에 일정한 개수의 어려운 양의 샘플 이미지 및 어려운 음의 샘플 이미지가 존재하는 것을 고려하면, 초기에 후보 이미지 세트를 결정하는 과정에서, 이러한 어려운 샘플 이미지를 고려하지 않으면, 후속 이미지를 식별하는 과정에서 부정적인 영향을 미칠 가능성이 매우 높다.
본 발명의 실시예에 있어서, 샘플 이미지는 처리될 이미지 세트에서의 각 이미지를 가리키고, 양의 샘플 이미지는 이미지에 포함된 대상 및 타깃 대상이 동일한 대상의 샘플 이미지임을 가리키고, 음의 샘플 이미지는 이미지에 포함된 대상 및 타깃 대상은 상이한 대상의 샘플 이미지임을 가리킨다. 어려운 양의 샘플 이미지는 상기 이미지에 포함된 대상이 타깃 대상과는 동일한 대상이지만, 촬영 광선 원인, 대상 포즈 원인 또는 다른 원인 으로 인해 전자 기기가 쉽게 식별하지 못하는 것을 초래한다. 어려운 음의 샘플 이미지는 상기 이미지에 포함된 대상이 타깃 대상과는 상이한 대상이지만, 촬영 광선 원인, 대상 포즈 원인 또는 다른 원인 으로 인해 타깃 대상과 동일한 대상으로 오해하기 쉽다.
상기 어려운 양의 샘플 이미지 및 어려운 음의 샘플 이미지가 존재함을 고려하여, 후속 이미지 식별의 정확도를 향상 시키기 위해, 도 2는 본 발명의 실시예에 따른 후보 이미지 세트를 획득하는 방법의 흐름도를 예시하고, 도 2에 도시된 바와 같이, 상기 방법은 아래와 같은 단계를 포함한다.
단계 S201에 있어서, 특징 코딩 추출 네트워크에 기반하여 타깃 대상 이미지에 포함된 타깃 대상의 제1 특징값을 결정한다.
일부 실시형태에 있어서, 타깃 대상 이미지를 상기 특징 코딩 추출 네트워크에 입력하고, 특징 코딩 추출 네트워크는 이미 훈련된 것이고, 먼저 타깃 대상 이미지에서의 타깃 대상을 프레이밍 한 다음, 프레이밍 된 타깃 대상을 특징 추출하여, 제1 특징값을 얻는다.
단계 S202에 있어서, 특징 코딩 추출 네트워크에 기반하여 처리될 이미지 세트에서의 이미지에 포함된 대상의 제2 특징값을 결정한다.
일부 실시형태에 있어서, 전자 기기는 처리될 이미지 세트에서의 이미지를 상기 특징 코딩 추출 네트워크에 일괄로 입력할 수 있고, 상기 특징 코딩 추출 네트워크로 하여금 이미지에서의 대상을 특징 추출할 수 있도록 하여, 각 이미지의 제2 특징값을 얻는다.
다른 일부 실시 형태에 있어서, 처리될 이미지 세트에서 이미지 개수가 너무 많을 수 있는 것을 고려하여, 따라서, 복수 개 전자 기기 내에 특징 코딩 추출 네트워크를 설정하고, 처리될 이미지 세트를 복수 개 서브 세트로 분할하여, 각 서브 세트에서의 이미지는 하나의 전자 기기에 의해 특징 추출을 한 다음, 최초의 전자 기기에 병합할 수 있다.
전술한 특징 코딩 추출 네트워크는 모니터링이 되지 않거나, 모니터링이 되거나, 반모니터링이 되는 학습 방법을 훈련하여 얻는다. 일부 실시형태에 있어서, 특징 코딩 추출 네트워크 훈련 과정에서, 각 대상을 포함한 훈련 이미지를 하나의 타입으로 사용하여, 다중 분류 학습을 진행할 수 있다. 훈련이 끝난 후, 상기 네트워크 마지막 분류 계층을 제거하고, 네트워크의 출력을 특징 코드로 사용한다. 실시에 있어서, 특징 추출 방식은 상기 타깃 대상 이미지에서 타깃 대상의 특징 추출 방식을 참고할 수 있다.
일부 실시형태에 있어서, 제1 특징값 및 제2 특징값은 제1 특징 코드 및 제2 특징 코드로 부를수도 있고, 상기 제1 특징값 및 제2 특징값은 다양한 형식을로 출력이 되며, 예를 들어 벡터의 형식으로 출력이 될 수 있고, 또는 다중 이중수의 형식으로 출력이 될수 있으며, 출력 형식은 실제 요구에 따라 결정될 수 있고, 여기서 더 이상 반복하여 설명하지 않는다.
단계 S203에 있어서, 제2 특징값 및 제1 특징값에 기반하여 각 처리될 이미지에 대응되는 제2 유사도 값을 결정한다.
일부 실시형태에 있어서, 전자 기기 각 제2 특징값 및 제1 특징값에 따라 타깃 대상 이미지와 비교하여 각 처리될 이미지의 제2 유사도 값을 계산할 수 있다. 예를 들어, 처리될 이미지 세트에 10000개의 이미지가 있다고 가정하면, 특징 코딩 추출 네트워크를 통한 이후, 10000 개 이미지에 대응되는 10000 개 제2 특징값 및 타깃 대상 이미지에 대응되는 제1 특징값을 얻을 수 있다. 각 제2 특징값 및 제1 특징값을 기설정된 규칙에 따라 계산하여, 10000 개 제2 유사도 값을 얻는다.
단계 S204에 있어서, 제2 유사도 값에 따라 처리될 이미지 세트에서 후보 이미지 세트를 결정한다.
일부 실시형태에 있어서, 전자 기기는 기설정된 제2 유사도 임계값을 획득하고, 얻은 제2 유사도 값 및 제2 유사도 임계값을 비교하여, 수치가 제2 유사도 임계값보다 큰 제2 유사도 값을 결정하고, 임의의 두 개 이미지 간의 유사값이 기설정된 유사값에 대응되는 이미지 보다 크거나 같을 경우, 상기 후보 이미지 세트를 구성한다.
다른 일부 실시 형태에 있어서, 전자 기기는 각 처리될 이미지에 대응되는 제2 유사도 값을 수치가 높은데로부터 낮은데에 따라 랭킹 할 수 있고, 제2 유사도 값이 상위 N 위치에 있고, 임의의 두 개 이미지 간의 유사값이 기설정된 유사값에 대응되는 이미지보다 크거나 같을 경우, 후보 이미지 세트에서의 이미지로 결정한다. 예를 들어, N이 100일 경우, 처리될 이미지 세트에서 100 개 이미지를 결정하여 후보 이미지 세트를 구성할 수 있다.
상기 방법에 있어서, 상기 후보 이미지 세트에서 임의의 두 개 이미지 간의 유사값은 기설정된 유사값보다 크거나 같으며, 일부 실시형태에 있어서, 임의의 두 개 이미지 간의 유사값은 두 개 이미지의 제2 특징값을 통해 계산하여 얻을 수 있다. 다시 말해, 상기 실시 형태는 제1 특징값 및 제2 특징값의 계산을 통해, 후보 이미지 세트에서 각 후보 이미지 및 타깃 대상 이미지 간의 연관을 결정해야 하고, 또한 후보 이미지 세트에서 임의의 두 개 이미지의 유사값을 통해, 후보 이미지 세트에서 이미지의 연관을 구축해야 하며, 이와 같이, 후보 이미지 세트에서 어려운 양의 샘플 이미지의 개수를 최대한 많이 증가하는 동시에, 어려운 음의 샘플 이미지의 개수를 감소시킬 수 있다. 일부 실시형태에 있어서, 전술한 기설정된 유사값은 실제 상황에 따라 설정될 수 있다.
다른 일부 실시 형태에 있어서, 전자 기기는 먼저 처리될 이미지 세트에서 제1 후보 이미지 세트를 결정하고, 제1 후보 이미지 세트의 기초에서 제2 후보 이미지 세트를 결정하며, 상기 두 개 후보 이미지 세트로 후보 이미지 세트를 구성할 수 있다. 도 3은 본 발명의 실시예에 따른 후보 이미지 세트를 획득하는 방법의 흐름도이고, 도 3에 도시된 바와 같이, 상기 방법은 아래와 같은 단계를 포함할 수 있다.
단계 S301에 있어서, 각 처리될 이미지에 대응되는 제2 유사도 값을 수치가 높은데로부터 낮은데에 따라 랭킹한다.
단계 S302에 있어서, 상위 N1 위치의 제2 유사도 값에 대응되는 처리될 이미지에 기반하여, 처리될 이미지 세트를 제1 후보 이미지 세트 및 제1 후보 이미지가 아닌 세트로 나뉘고; 여기서, 제1 후보 이미지 세트는 상위 N1 위치의 제2 유사도 값에 대응되는 이미지를 포함한다.
대체 가능하게, 기설정된 제2 유사도 임계값을 획득하고, 얻은 제2 유사도 값 및 제2 유사도 임계값을 비교하여, 수치가 제2 유사도 임계값보다 큰 제2 유사도 값에 대응되는 처리될 이미지를 결정하여, 전술한 제1 후보 이미지 세트를 구성하고, 처리될 이미지 세트에서 나머지 이미지를 제1 후보 이미지가 아닌 세트로 구성할 수 있다. 일부 실시형태에 있어서, 제1 후보 이미지 세트 및 제1 후보 이미지가 아닌 세트는 교집합이 존재하지 않는다.
단계 S303에 있어서, 제1 후보 이미지 세트에서의 이미지의 제2 특징값 및 제1 후보 이미지가 아닌 세트에서의 이미지의 제2 특징값에 따라, 제1 후보 이미지가 아닌 세트에서 N2 개 이미지를 결정하여, 제2 후보 이미지 세트를 구성한다.
도 4는 본 발명의 실시예에 따른 제2 후보 이미지 세트를 획득하는 방법의 흐름도이고, 도 4에 도시된 바와 같이, 상기 방법은 아래와 같은 단계를 포함할 수 있다.
단계 S401에 있어서, 제1 후보 이미지 세트에서의 어느 하나 현재 사용하는 이미지를 현재 이미지로 사용한다.
N1이 10라고 가정하면, 첫번째 선택 과정에서 결정된 제1 후보 이미지 세트에는 10 개 이미지가 존재한다. 이 10 개 이미지에서의 각 이미지는 모두 단계 S401 내지 단계 S403의 처리를 거친다.
단계 S402에 있어서, 현재 이미지의 제2 특징값 및 제1 후보 이미지가 아닌 세트에서의 이미지의 제2 특징값에 따라, 제1 후보 이미지가 아닌 세트에서의 각 이미지에 대응되는 제3 유사도 값을 결정한다.
처리될 이미지 세트에 총 10000 개 이미지가 있다고 가정하여 설명하면, 상기 예시에서 제1 후보 이미지 세트에는 10 개 이미지가 포함된다는 것을 설명했기 때문에, 제1 후보 이미지가 아닌 세트는 9990 개 이미지를 더 포함하고, 이 단계에서는, 전자 기기는 현재 이미지의 제2 특징값 및 9990 개 이미지의 제2 특징값에 따라 현재 이미지의 제3 유사도 값에 대한 9990 개 이미지를 획득한다.
단계 S403에 있어서, 각 이미지에 대응되는 제3 유사도 값에 따라 제1 후보 이미지가 아닌 세트에서 현재 이미지에 대응되는 제3 후보 이미지 세트를 결정한다.
일부 실시형태에 있어서, 전자 기기 제3 유사도 임계값을 미리 설정할 수 있고, 수치가 제3 유사도 임계값보다 큰 제3 유사도 값에 대응되는 이미지를 현재 이미지에 대응되는 제3 후보 이미지 세트에 결정한다 .
일부 실시형태에 있어서, 전자 기기는 9990 개 제3 유사도 값을 랭킹하여, 상위에 위치한 제3 유사도 값에 대응되는 이미지를 현재 이미지에 대응되는 제3 후보 이미지 세트에 결정한다.
단계 S404에 있어서, 각 현재 이미지가 모두 대응되는 제3 후보 이미지 세트가 존재하는 경우, 각 현재 이미지에 대응되는 제3 후보 이미지 세트에 따라 N2 개 이미지를 결정하고, 제2 후보 이미지 세트를 구성한다.
이로써, 각 현재 이미지가 모두 대응되는 제3 후보 이미지 세트가 존재하는 경우, 다시 말해 제1 후보 이미지 세트에 10 개 이미지가 존재하고 및 유사도를 만족하는 이미지가 존재하는 경우, 각 현재 이미지에 대응되는 제3 후보 이미지 세트에 따라 N2 개 이미지를 결정하고, 제2 후보 이미지 세트를 구성한다.
일부 실시형태에 있어서, 제1 후보 이미지 세트에서 상이한 이미지에 대응되는 제3 후보 이미지 세트에 중복되는 이미지가 존재한다. 이러한 중복된 이미지가 존재하는 상황에 대해, 후보 이미지 세트를 구성한 이후, 재검토하여 중복 이미지를 삭제한다. 일부 실시형태에 있어서, 후보 이미지 세트를 구성한 이후, 재검토하여 중복 이미지를 삭제하는 것은, 또한 요구를 만족하는 N2 개 이미지를 결정할 때까지 제3 유사도 값에 기반하여 제2 후보 이미지 세트에 대해 이미지를 보충할 수 있다. 일부 실시형태에 있어서, N1 및 N2의 합은 N일 수 있다.
단계 S304에 있어서, 제1 후보 이미지 세트 및 제2 후보 이미지 세트에 기반하여 후보 이미지 세트를 결정한다..
본 발명의 실시예에 있어서, 제1 후보 이미지 세트 및 제2 후보 이미지 세트를 병합하여, 후보 이미지 세트를 얻을 수 있고, 후보 이미지 세트에서의 임의의 두 개 이미지 간의 유사값은 기설정된 유사값보다 크거나 같다.
도 5는 본 발명의 실시예에 따른 후보 이미지 세트를 획득하는 예시도이고, 도 5에 도시된 바와 같이, 타깃 대상 이미지에 기반하여, 초기 이미지 세트(51)을 선별하여, 제1 후보 세트의 이미지 및 제2 후보 세트의 이미지를 얻고, 이 두 개 부분의 이미지를 후보 이미지 세트(52)로 구성할 수 있다. 전술한 실시예에 있어서, 제1 후보 이미지 세트에서의 이미지는 전환 이미지로 볼 수 있고, 예를 들어, 타깃 대상 이미지는 보행자의 정면 이미지이고, 제1 후보 이미지 세트에서의 이미지는 상기 보행자의 측면 이미지일 수 있고, 제2 후보 이미지 세트에서의 이미지는 상기 보행자의 뒷면 이미지일 수 있으며, 정면 이미지와 비교하면, 뒷면 이미지 및 측면 이미지 중 보행자의 유사점이 더욱 많을 수 있기 때문에, 측면 이미지로 뒷면 이미지를 결정할 가능성이 더 높다. 따라서, 이러한 실시 형태에서, 전자 기기는 두 번의 검색을 통해 최대 검색 개수를 한정하고, 처리될 이미지 세트에서 이미지 간의 유사성 관계를 이요하여, 이미지 및 타깃 대상 이미지 간의 관계만을 이용하는 것이 아니라, 최대한 어려운 양의 샘플 이미지를 발굴하여, 후보 이미지 세트에서 양의 샘플의 확률을 향상시켜, 후속 이미지 처리에 기반을 마련한다.
단계 S30에 있어서, 훈련된 이미지 연관 식별 네트워크에 기반하여, 제1 특징값 및 제2 특징값 세트를 식별하여, 후보 이미지 세트에서 타깃 이미지 세트를 결정하며, 타깃 이미지 세트에서의 이미지가 포함한 대상과 타깃 대상의 제1 유사도 값은 타깃이 아닌 이미지가 포함한 대상과 타깃 대상의 제1 유사도 값보다 크거나 같으며, 후보 이미지 세트는 타깃 이미지 세트 및 타깃이 아닌 이미지를 포함한다.
일부 실시형태에 있어서, 이미지 연관 식별 네트워크는 컨볼루션 신경 네트워크, 순환 신경 네트워크 또는 재귀 신경 네트워크 등 딥 러닝 네트워크를 포함할 수 있지만 이에 한정되지 않는다. 컨볼루션 신경 네트워크를 예로 들면, 대량의 훈련 데이터 세트를 획득하고, 각 훈련 데이터 세트에는 타깃 대상 이미지의 제1 특징값 및 후보 이미지의 제2 특징값, 및 라벨링된 타깃 이미지가 포함된 다음, 대량의 훈련 데이터 세트에 기반하여 컨볼루션 신경 네트워크를 타깃 이미지 식별 훈련을 하여, 훈련 중 상기 컨볼루션 신경 네트워크의 파라미터를 컨볼루션 신경 네트워크가 출력한 타깃 이미지와 라벨링된 타깃 이미지가 매칭이될 때까지 조정하여, 이미지 연관 식별 네트워크를 얻을 수 있다.
일부 실시형태에 있어서, 이미지 연관 식별 네트워크는 이미지 컨볼루션 신경 네트워크를 포함할 수 있지만 이에 한정되지 않는다. 이는 현실 생활에 있어서, 많은 불규칙적인 데이터 구조가 존재하고, 전형적인 것이 바로 제1 이미지 구조, 또는 토폴로지 구조이며, 예를 들어 소셜 네트워크, 확학 분자 구조, 지식 그래프 등등이며; 언어라고 하더라도, 내부는 복잡한 트리 구조이고, 제1 이미지 구조에 속하며; 이미지는, 타깃 식별을 할 경우, 이차원 이미지에서의 부분적인 핵심 포인트에만 초점을 두고, 이러한 포인트가 구성한 것도 이미지의 구조이다. 이미지의 구조는 일반적으로 매우 불규칙적이며, 일종의 무한 차원 데이터로 간주할 수 있으므로 변환 불변성이 존재하지 않는다. 각 노드의 주위 구조는 유일무이 할 수 있으며, 이러한 구조의 데이터는, 기존의 컨볼루션 신경 네트워크의 적용 효과가 좋지 못하게 하고, 이미지 컨볼루션 신경 네트워크는 이미지 데이터에서 특징을 추출하는 방법을 정교하게 설계함으로써, 이러한 특징을 사용하여 이미지 데이터에 대해, 노드 분류(node classification), 이미지 분류(graph classification), 링크 예측(link prediction)을 수행할 수 있고, 또한 이미지의 그래프 임베딩(graph embedding) 표시도 얻을 수 있으며 용도가 다양하고 적합하다.
도 6은 본 발명의 실시예에 따른 이미지 연관 식별 네트워크의 구조 예시도이고, 도 6에 도시된 바와 같이, 상기 이미지 연관 식별 네트워크는 제1 이미지 구조 구축 서브 네트워크(61), 이미지 연관 업데이트 서브 네트워크(62)및 분류기(63)을 포함할 수 있고, 여기서 제1 이미지 구조 구축 서브 네트워크(61), 이미지 연관 업데이트 서브 네트워크(62)및 분류기(63)는 직렬로 연결된다. 먼저, 제1 특징값 및 제2 특징값 세트(601)를 제1 이미지 구조 구축 서브 네트워크(61)에 입력하여 제1 이미지 구조(602)를 얻고, 제1 이미지 구조(602)를 이미지 연관 업데이트 서브 네트워크(62)에 입력하여 제2 이미지 구조(603)를 얻으며, 마지막으로 제2 이미지 구조(602)를 분류기(63)에 입력하여 타깃 이미지 세트를 얻는다.
도 7은 본 발명의 실시예에 따른 이미지 연관 식별 네트워크에 기반하여 타깃 이미지 세트를 결정하는 방법의 흐름도이고, 도 7에 도시된 바와 같이, 아래와 같은 단계를 포함한다.
단계 S701에 있어서, 상기 제1 특징값 및 상기 제2 특징값 세트를 상기 제1 이미지 구조 구축 서브 네트워크에 입력하여, 제1 이미지 구조를 얻고; 상기 제1 이미지 구조는 노드 및 두 개 노드를 연결하는 링크를 포함하고; 상기 노드의 개수 및 상기 후보 이미지 세트에서의 이미지의 개수는 동일하고; 상기 두 개 노드를 연결하는 링크는 연결된 상기 두 개 노드 간의 유사도 및 기설정된 유사도에 기반하여 결정된 것이다.
일부 실시형태에 있어서, 전술한 후보 이미지 세트에서 이미지가 100 개인 예시를 계속하여 설명하면, 전자 기기는 제1 특징 및 제2 특징값 세트를 제1 이미지 구조 구축 서브 네트워크에 입력하고, 제1 이미지 구조 구축 서브 네트워크는 각 제2 특징값 및 제1 특징값의 차이를 만들고, 각 제2 특징값에 대응되는 연관 특징값을 얻고, 각 연관 특징값은 대응되는 이미지 및 타깃 대상 이미지의 연관 관계를 가리킨다. 각 연관 특징값을 한개 노드로 정의하고, 따라서, 100 개 노드가 결정될 수 있다. 임의의 두 개 노드에 대응되는 연관 특징값에 기반하여 이 두 개 노드 간의 유사도를 결정하고, 배열 조합 공식에 따라, 100*99/2=4950번의 두 개 노드 간의 유사도가 되어야 하고, 유사도가 기설정된 유사도보다 큰 경우가 존재할 경우, 대응되는 두 개 노드 사이에 링크를 만들 수 있다. 이와 같은 방식으로, 도 8에 도시된 바와 같은 제1 이미지 구조를 얻을 수 있고, 도 8이 도시한 제1 이미지 구조는 노드(81) 및 노드 간의 링크(82)만을 예시했다.
단계 S702에 있어서, 상기 제1 이미지 구조를 상기 이미지 연관 업데이트 서브 네트워크에 입력하여, 최적화된 제2 이미지 구조를 업데이트 한다.
일부 실시형태에 있어서, 상기 이미지 연관 업데이트 서브 네트워크는 복수 개 이미지 컨볼루션 계층, 복수 개 활성화 계층 및 복수 개 완전 연결 계층을 포함할 수 있고, 복수 개 이미지 컨볼루션 계층, 복수 개 활성화 계층 및 복수 개 완전 연결 계층은 직렬로 연결된다.
일부 실시형태에 있어서, 개수가 동일한 이미지 컨볼루션 계층 및 완전 연결 계층이 존재할 수 있고, 여기서, 각 이미지 컨볼루션 계층 뒤에는 활성화 계층이 존재한다. 예를 들어, 이미지 컨볼루션 계층-활성화 계층-완전 연결 계층-이미지 컨볼루션 계층-활성화 계층-완전 연결 계층-이미지 컨볼루션 계층-활성화 계층-완전 연결 계층……완전 연결 계층 이러한 형식이 나타날 수 있다.
일부 실시형태에 있어서, 개수가 상이한 이미지 컨볼루션 계층 및 완전 연결 계층이 존재할 수 있고, 여기서, 각 이미지 컨볼루션 계층 및 각 완전 연결 계층 뒤에는 활성화 계층이 존재한다. 예를 들어, 이미지 컨볼루션 계층-활성화 계층-이미지 컨볼루션 계층-활성화 계층-이미지 컨볼루션 계층-활성화 계층-……완전 연결 계층-활성화 계층-완전 연결 계층-활성화 계층……완전 연결 계층-활성화 계층 이러한 형식이 나타날 수 있다.
연관 업데이트 서브 네트워크에서 이미지 컨볼루션 계층, 완전 연결 계층 및 활성화 계층의 개수 및 전후 관계는 실제 요구에 따라 설정될 수 있고, 예를 들어, 9개 계층의 이미지 컨볼루션 계층을 설정할 수 있다.
일부 실시형태에 있어서, 이미지 컨볼루션 계층 추측의 유효성을 강화하여, 컨볼루션 과정에서, 두 개 양의 샘플에 대응되는 노드 간의 연관을 강화하고, 양의 샘플 및 음의 샘플에 대응되는 노드 간의 연관을 감소하기 위해, 이미지 컨볼루션 계층에서 주의력 매커니즘을 증가할 수 있다. 따라서, 상기 이미지 연관 업데이트 서브 네트워크는 주의력 메커니즘 계층, 복수 개 이미지 컨볼루션 계층, 복수 개 활성화 계층 및 복수 개 완전 연결 계층을 포함하고, 여기서, 주의력 메커니즘 계층, 복수 개 이미지 컨볼루션 계층, 복수 개 활성화 계층 및 복수 개 완전 연결 계층은 직렬로 연결된다. 상기 주의력 메커니즘 계층의 개수는 실제 상황에 따라 설정될 수 있다. 일부 실시형태에 있어서, 주의력 메커니즘 계층만 존재할 수 있고, 상기 주의력 메커니즘 계층은 첫 번째 이미지 컨볼루션 계층 앞에 설정될 수 있다. 일부 실시형태에 있어서, 각 이미지 컨볼루션 계층 앞에 주의력 메커니즘 계층을 설정할 수 있다.
일부 실시형태에 있어서, 첫 번째 이미지 컨볼루션 계층 앞에만 주의력 메커니즘 계층을 설정한다고 가정하면, 제1 이미지 구조를 이미지 연관 업데이트 서브 네트워크에 입력하여, 업데이트 및 최적화된 제2 이미지 구조를 얻는 것은, 각 노드의 가중 벡터 및 제1 이미지 구조를 주의력 메커니즘 계층의 다음 계층의 입력으로 결정하고; 복수 개 이미지 컨볼루션 계층, 복수 개 활성화 계층 및 복수 개 완전 연결 계층에서의 어느 하나 현재 처리를 수행하는 계층을 현재 계층으로 결정하고; 현재 계층의 이전 계층의 출력을 현재 계층의 입력으로 사용하여, 계산하고 처리한 후 현재 계층의 출력을 얻고; 어느 하나 현재 계층이 대응되는 출력이 존재하는 경우, 이미지 연관 업데이트 서브 네트워크에서 마지막 계층의 출력에 따라, 업데이트 및 최적화된 제2 이미지 구조를 얻는 것으로 표시할 수 있다. 각 이미지 컨볼루션 계층 이전에 주의력 메커니즘 계층을 설정하는 계산 과정은 전술한 계산 과정을 참고할 수 있고, 여기서 더 이상 반복하여 설명하지 않는다.
일부 실시형태에 있어서, 상기 딥 러닝 네트워크가 존재할 수 있고 네트워크 깊이로 인해 그래디언트 소멸 및 그래디언트 폭발의 문제가 있을 수 있으며, 데이터의 초기화(normlized initializatiton) 및 정규화(batch normlization)를 사용하여 상기 그래디언트의 문제를 해결할 수 있으나, 깊이가 깊어짐에 따라, 다른 문제가 초래될 수 있고, 네트워크 성능의 저하가 초래될 수 있고, 즉 네트워크 깊이가 깊어지지만, 오류율이 상승되므로, 따라서, 잔여 구조를 이용하여 저하 문제를 해결하는 동시에 그래디언트 문제를 해결하여, 네트워크의 성능으로 하여금 향상되도록 할 수 있다. 도 9에 도시된 바와 같이, 잔여 구조는 이미지 컨볼루션 계층(91), 정규화 매커니즘(92) 및 활성화 계층(93)을 포함할 수 있고, 입력된 원시 데이터가 차례로 이미지 컨볼루션 계층(91) 및 정규화 매커니즘(92)을 통과한 후 얻은 결과 및 원시 데이터를 더한 후 활성화 계층에 입력하여, 최종의 타깃 데이터를 얻는다.
단계 S703에 있어서, 분류기를 통해 제2 이미지 구조에 따라 상기 후보 이미지 세트에서 각 후보 이미지에 대응되는 제1 유사도 값을 결정한다.
일부 실시형태에 있어서, 제1 이미지 구조 및 제2 이미지 구조를 더하고 융합하여, 제3 이미지 구조를 얻고, 분류기를 통해 제3 이미지 구조에 따라 후보 이미지 세트에서 각 후보 이미지에 대응되는 제1 유사도 값을 결정할 수 있다. 제1 이미지 구조에서의 i 번째 노드에 대응되는 수치 및 제2 이미지 구조에서의 i 번째 노드에 대응되는 수치를 더하여, 제3 이미지 구조의 i 번째 노드에 대응되는 수치를 얻고, 구조는 변하지 않고, 제3 이미지 구조를 얻을 수 있으며; 또는, 제1 이미지 구조에서의 i 번째 노드에 대응되는 수치 및 제2 이미지 구조에서의 i 번째 노드에 대응되는 수치를 더하고 평균화 하여, 제3 이미지 구조의 i 번째 노드에 대응되는 수치를 얻고, 구조는 변하지 않고, 제3 이미지 구조를 얻을 수 있으며; 또는, 제1 이미지 구조에서의 i 번째 노드에 대응되는 수치 및 제2 이미지 구조에서의 i 번째 노드에 대응되는 수치를 가중 덧셈하고, 제3 이미지 구조의 i 번째 노드에 대응되는 수치를 얻고, 구조는 변하지 않고, 제3 이미지 구조를 얻을 수 있다. 전술한 제1 이미지 구조에서의 i 번째노드, 제2 이미지 구조에서의 i 번째노드 및 제2 이미지 구조에서의 i 번째노드는 모두 동일한 이미지에 대응되는 노드이다.
단계 S704에 있어서, 상기 각 후보 이미지에 대응되는 제1 유사도 값과 유사도 임계값에 기반하여 상기 타깃 이미지 세트를 결정한다.
상기 타깃 이미지 세트에서의 이미지가 포함한 대상과 타깃 대상의 제1 유사도 값은 타깃이 아닌 이미지에 포함된 대상과 타깃 대상의 제1 유사도 값보다 크거나 같다.
본 발명의 실시예는 이미지 연관 식별 네트워크의 훈련 방법을 더 제공하고, 도 10에 도시된 바와 같이, 아래와 같은 단계를 포함한다.
단계 S1001에 있어서, 전자 기기는 훈련 샘플 데이터 세트를 획득하고, 훈련 샘플 데이터 세트는 복수 개 참고 이미지에 대응되는 제1 특징값, 및 각 제1 특징값에 대응되는 제2 특징값 세트 및 제2 특징값 세트에 대응되는 제1 유사도 값 세트를 포함한다.
단계 S1002에 있어서, 전자 기기는 기설정된 기계 학습 네트워크를 구성하고, 기설정된 기계 학습 네트워크를 현재 기계 학습 네트워크로 결정한다.
단계 S1003에 있어서, 전자 기기는 현재 기계 학습 네트워크에 기반하여, 제1 특징값, 및 각 제1 특징값에 대응되는 제2 특징값 세트에 대해 연관 식별하여, 예측된 제1 유사도 세트를 결정한다.
단계 S1004에 있어서, 전자 기기는 제2 특징값 세트에 대응되는 제1 유사도 값 세트 및 예측된 제1 유사도 세트에 기반하여, 손실값을 결정한다.
단계 S1005에 있어서, 전자 기기는 손실값이 기설정된 임계값보다 큰지 여부를 판단한다.
손실값이 기설정된 임계값보다 큰 것이 결정된 경우, 단계 S1006을 진행하고; 손실값이 기설정된 임계값보다 작거나 또는 같은 것이 결정된 경우 단계 S1007을 진행한다.
단계 S1006에 있어서, 전자 기기는 손실값에 기반하여 역전파를 진행하고, 현재 기계 학습 네트워크를 업데이트 하여 업데이트된 기계 학습 네트워크를 얻고, 업데이트된 기계 학습 네트워크를 현재 기계 학습 네트워크로 다시 결정하고; 단계 S1003를 진행한다.
단계 S1007에 있어서, 전자 기기는 현재 기계 학습 네트워크를 이미지 연관 식별 네트워크로 결정한다.
도 11A는 본 발명의 실시예에 따른 타깃 재식별 방법의 적용 흐름도이고, 도 11A에 도시된 바와 같이, 상기 단계 S10 내지 단계 S30을 포함한 이외에, 상기 방법은 아래와 같은 단계를 더 포함한다.
단계 S40에 있어서, 타깃 이미지 세트에서의 이미지의 속성 정보를 결정한다.
전자 기기는 이미지에 기반하여 상기 이미지의 속성 정보를 결정할 수 있고, 속성 정보는 이미지 획득 위치 및 이미지 획득 시간을 포함할 수 있고, 상기 획득 위치는 상기 이미지를 촬영한 기기가 위치한 위치 정보를 포함할 수 있지만 이에 대해 한정하지 않고, 이미지에 나타나는 시나리오가 위치한 위치정보를 더 포함할 수 있다. 이미지 획득 시간은 이미지 촬영 시간을 포함하지만 이에 대해 한정하지 않는다.
단계 S50에 있어서, 속성 정보에 따라 타깃 이미지 세트에서의 이미지가 포함한 대상에 대해 궤적 행위 분석을 진행한다.
결정된 타깃 이미지 세트에서의 이미지에서의 대상은 기본적으로 타깃 대상과 동일한 대상으로 식별되므로, 이미지 획득 시간에 따라 타깃 이미지 세트에서의 이미지에 대해 시간에서의 랭킹하고, 이미지 획득 위치 및 랭킹 이후의 이미지에 기반하여 이미지에 포함된 대상에 대해 운동 궤적 결정 및 행위 추측을 한다 예를 들어, 어떤 시간 내에, 대상이 어떤 곳을 지나갔는지, 차례로 어떤 일을 했는지는, 이미지가 결정한 사건에 기반하여 대상이 다음으로 할 수 있는 일에 대해 추측 분석을 진행하여, 분석 결과를 얻는다.
본 분야의 기술자는 구체적인 실시형태의 상기 방법에서, 각 단계의 기록 순서는 엄격한 실행 순서를 의미하지 않고 실시 과정에 대한 임의의 제한을 구성하며, 각 단계의 실제 실행 순서는 그 기능 및 가능한 내부 논리에 의해 결정된다.
보행자 재식별 문제에서 프로브(probe) 데이터 세트 및 갤러리(gallery) 데이터 세트가 존재하며, 각 타깃 이미지에 대해, 모든 갤러리에서 동일한 보행자에 속한 이미지를 검색하는 것을 목표로 한다. 그러나 실제 적용에서는, 센 빛의 강도, 복잡한 배경 및 시각 변환 등 요인의 영향을 받아, 타깃 재식별 문제의 모델링은 매우 복잡하다. 기존의 많은 방법은 주로 학습 대상의 표면 특징 정보에 국한되지만, 타깃의 표면은 시나리오의 다른 타깃과 환경 배경에 의해 간섭을 받을 수 있다.
보행자 재식별 문제의 모데링은 매우 복잡하고, 많은 요인의 영향을 받을 수 있다. 보행자의 재식별은 시나리오 중 다른 보행자의 간섭을 받을 수 있고, 보행자 및 보행자 간에 매우 유사한 겉면 특징이 존재할 수 있으나, 기존의 모델링에서는 두 보행자 간의 유사도 관계만을 고려하고, 어려운 양의 샘플 및 어려운 음의 샘플 및 타깃 보행자의 잠재된 관계를 무시한다. 본 발명의 실시예에서는 이미지 컨볼루션 신경 네트워크를 사용하여 이러한 관계를 모델링하는 것을 시도하고, 갤러리에서 모든 보행자 간의 유사도 정보를 충분히 고려할 수 있으며; 이와 동시에 효율적인 단일 트리거의 리랭킹 알고리즘을 제기하여, 단일 타깃 이미지를 사용하여 리랭킹을 구현할 수 있다.
본 발명의 실시예는 보행자에 대한 재식별 예측을 예로 들어 설명을 진행한다. 아래와 같은 세개 단계를 나누어 진행할 수 있고, 먼저, 하나의 특징 네트워크를 훈련하여 모든 타깃 및 갤러리 이미지를 특징 코딩한다. 다음, 각 타깃 이미지에 대해 유사도에 따라 갤러리에서 후보 타깃 특징을 검색하여, 연관 특징을 계산하고, 이미지 구조를 구축한다. 마지막으로, 이미지 컨볼루션 신경 네트워크를 사용하여 연관 특징을 최적화 하고, 최적화된 연관 특징에 따라, 최종의 후보 타깃 순서를 예측한다. 본 발명의 실시예는 후보 타깃 간의 유사도 정보를 충분히 이용하여, 후보 타깃 간의 연관 특징을 이미지 컨볼루션 신경 네트워크를 통해, 추가로 최적화 한 다음, 최적화된 특징에 따라 리랭킹하여, 더 나은 예측 시퀀스를 얻을 수 있다. 더 넓은 의미에서 볼때, 본 발명의 실시예 제공한 방안은 범용 검색 작업에 적용된다 상기 방안을 이용하여 더 나은 검색 시퀀스를 얻을 수 있고, 기존의 리랭킹(reranking) 알고리즘과 비교하여 볼때, 실제 적용에서의 효율이 더욱 높다. 이와 동시에, 이 알고리즘은 확장 가능하며, 기존의 리랭킹 알고리즘가 결합하여 사용하여, 더욱 높은 검색 정밀도를 얻을 수 있다.
본 발명의 실시예는 이미지 컨볼루션 신경 네트워크 프레임워크를 이용하여 타깃 보행자 재포지셔닝의 예측 문제를 해결한다. 보행자 재식별에 영향주는 요인은 이미지 컨볼루션 신경 네트워크의 강력한 설명 기능을 이용하여 모데링할 수 있다. 이미지 컨볼루션의 특성을 이용하여, 타깃 보행자와 유사한 후보 보행자의 연관 특징을 딥 러닝 네트워크의 입력으로 사용하고, 이미지 컨볼루션 알고리즘을 통해 연관 특징을 최적화 학습한다. 본 발명의 실시예가 제기한 연관 특징 이미지 컨볼루션 학습 모듈은 검색된 후보 보행자 특징을 리랭킹 하여, 검색 정밀도를 향상시키는 목적에 도달할 수 있다. 이와 동시에 이미지 컨볼루션 학습의 프레임워크는 기설정된 특징 네트워크 또는 협업 학습에서 분리될 수 있고 , 실제로 빠르게 배포될 수 있다.
도 11B는 본 발명의 실시예에 따른 보행자 재식별 방법의 논리 흐름도이고, 도 11B에 도시된 바와 같이, 상기 프로세서는 아래와 같은 단계를 포함한다.
단계 S1101에 있어서, 타깃 이미지를 딥 신경 네트워크에 입력하여, 특징 코드를 얻는다.
상기 과정 및 시나리오에서 모든 보행자의 시각 이미지를 타깃 이미지 입력으로 사용하여, 모든 보행자 시각을 설명하는 특징 코드를 얻고, 이 특징 코드는 연관 특징을 계산하고 딥 신경 네트워크의 입력으로 사용된다.
실시예에서 아래와 같은 단계를 통해 구현될 수 있고, 먼저, 전체 시나리오에서 타깃 검출 등 수법을 사용하여 각 타깃 보행자의 타깃 작은 이미지를 추출한다. 다음, 각 타깃 작은 이미지에 대해, 특징 추출 네트워크를 훈련하고 특징 코드를 추출한다. 이 특징 추출 네트워크가 훈련할 경우, 각 타깃 보행자를 하나의 타입으로 사용하여, 중 분류 학습을 진행한다. 훈련이 끝난 후, 상기 네트워크 뒤 부분의 분류 계층을 제거하고, 네트워크의 출력을 특징 코드로 사용한다.
단계 S1102에 있어서, 특징 코드에 따라 타깃 이미지 및 갤러리 이미지 간의 연관 특징을 계산하고 이미지 구조를 구축한다.
상기 얻은 특징 코드 매트릭스를 통해, 각 타깃 보행자 이미지의 시각 특징을 표현한다. 갤러리에서 검색된 후보 특징에 대해, 연관 특징에 따라 이미지 구조를 구축하여, 후보 보행자 간의 풍부한 유사도 관계 정보를 설명한다.
먼저 어려운 갤러리 샘플을 샘플링하고, 타깃은 최대한 어려운 양의 샘플을 발굴하고, 구체적으로 이차 검색을 사용하여 최대 검색 개수를 한정하는 방식 및 갤러리 간의 유사도 관계를 이용하는 것이다. 다음 이미지 구조를 구축하고, 타깃 이미지 및 후보 갤러리 간의 전체의 유사도 관계 정보를 표시한다. 타깃 이미지 및 후보 갤러리 간의 연관 특징을 이미지 구조의 노드로 사용하고, 후보 갤러리 간의 유사도 정보는 링크의 연결 상황을 결정한다. 여기서, 계산을 간단히 하기 위해, 연관 특징의 표시 형식은 타깃 이미지 및 후보 갤러리 특징 코드인 플러그 값이다.
도 11C는 본 발명의 실시예에서 제공한 연관 특징 학습 프레임워크이고, 도 11C에 도시된 바와 같이, 타깃 이미지(111a) 및 갤러리 이미지(111b)를 특징 추출 네트워크(112)입력하여, 타깃 이미지의 타깃 특징 및 갤러리의 이미지 특징을 얻고, 타깃 이미지에서 갤러리 이미지(Probe to Gallery, P2G)까지의 검색 과정을 통해, 타깃 이미지와 유사한 연관 갤러리 이미지(113)을 얻은 다음, 연관 갤러리 이미지(113)가 HGS 샘플러를 지나간 다음의 갤러리 후보 이미지(114)를 얻고, 갤러리후보 이미지(114) 및 타깃 이미지(111a) 처리하여 이미지 구조를 구성한 후보 이미지(115)를 얻으며, 이미지 구조의 후보 이미지(115)에서 타깃 특징 이미지 (111)를 제거하여 이미지 노드 (116a)를 얻고; 이와 동시에 갤러리 이미지에서 갤러리 이미지(Gallery to Gallery, G2G)까지의 검색 과정을 통해, 연관 갤러리 이미지(113)에서 상이한 갤러리 이미지 간의 특징 매트릭스(116b)를 얻은 다음, 이미지 추측 단계에서, 특징 매트릭스(116b)를 이용하여 이미지 가장 자리를 결정하고, 이미지 노드(126a)와 결합하여 이미지 구조(117)를 생성한 다음, GCN(Graph Convolution Network, 이미지 컨볼루션 네트워크)(118) 지나 간 다음 최적화된 이미지 구조(119)를 얻고, 마지막으로 이미지 구조(117) 및 최적화된 이미지 구조(119)를 함께 회귀 예측 네트워크(120)에 입력하여 예측하여, 각 이미지 노드의 예측 확률을 얻는다.
도 11D는 본 발명의 실시예에서 제공한 갤러리에서 어려운 샘플을 선택하는 예시도이고, 도 11D에 도시된 바와 같이, 타깃 이미지(111)에 대해 연관 갤러리 이미지(113)에서 타깃 이미지와 연관되 앞 4개 갤러리 이미지를 선별한 다음, 갤러리 이미지 간의 유사도에따라, 앞 개 갤러리 이미지 간에 제일 유사한 앞 2개 갤러리 이미지를 선별하고, 이 6개 갤러리 이미지를 갤러리 후보 이미지(114)로 구성하며, 여기서 갤러리후보 이미지(114)에는 타깃 이미지의 어려운 양의 샘플A가 포함된다.
단계 S1103 에 있어서, 이미지 컨볼루션 네트워크를 이용하여 연관 특징을 추측 최적화하여, 최적화된 예측 시퀀스를 출력한다.
이미지 컨볼루션은 딥 이미지 컨볼루션 신경 네트워크에 의존하여 진행되고 , 기존의 컨볼루션 네트워크와 상이한 것은, 이미지 컨볼루션 구조는 인접한 노드의 의미론적 위상 관계를 더 잘 반영할 수 있다. 본 발명의 실시예는 9개 계층의 이미지 컨볼루션을 사용하고, 추가로 추측의 유효성을 강화하기 위해, 주의력 매커니즘을 사용하여 각 연관 특징을 최적화하여, 최적화된 결과를 통해 더욱 유효한 검색 시퀀스를 얻을 수 있다. 특히, 과도한 깊이로 인한 훈련이 어려운 문제를 억제하기 위해, 잔여 구조를 사용한다. 최적화된 연관 특징에 대해, 추가로 분류하는 것을 통해 최종적인 검색 시퀀스를 결정할 수 있다.
관련 기술에서는 주로 일부 기존의 컨볼루션 신경 네트워크에 기반하거나 또는 얕은 계층의 이미지 네트워크에 기반하고, 주로 갤러리에서 단일 샘플의 유사도 정보를 고려한다. 이와 동시에 기존의 리랭킹 알고리즘은 대량의 타깃 이미지가 동시에 리랭킹 되어야 하기에, 작동 효율이 느리고, 실용 가치가 낮다. 그러나 본 발명의 실시예는 딥 이미지 컨볼루션 신경 네트워크를 이용하여 타깃을 재식별 하기에 더욱 충분히 샘플 간의 유사도 정보를 이용하고, 다양한 영향 요인을 종합적으로 더욱 잘 분석할 수 있다. 본 출원의 실시예는 gallery(갤러리)에서 모든 보행자 간의 유사도 정보를 충분히 고려하고, 연관 특징 및 이차 검색에 기반한 어려운 샘플 발굴 기술을 이용하여, 샘플 간의 연관 정보 학습으로 하여금 고차원의 특징 공간에서 더욱 충분히 학습하도록 할 수 있다. 본 출원의 실시예는 고휴율적인 단일 트리거의 리랭킹 알고리즘을 제기하고, 단일 타깃 이미지에 의존하여 리랭킹을 구현하기에, 현재의 재식별 알고리즘에 유연하게 적용되고, 안정성을 향상시킬 수 있다.
본 발명의 실시예는 비디오 모니터링의 시나리오에 적용될 수 있고, 모든 보행자의 동일하거나 또는 상이한 카메라에서의 위치에 대해 예측할 수 있다. 이와 동시에 예측 결과에 따라, 타깃 보행자가 일정한 시간 내 교차 카메라에서의 운동 궤적을 분석하여, 또한 교차 카메라 타깃 추적의 가능성을 구현하고, 시나리오에서 발생하는 이상행위에 대해 검출할 수 있다.
본 발명의 실시예는 딥 이미지 컨볼루션 네트워크를 사용하여 더욱 충분히 샘플 간의 유사도 정보를 이용하고, 다양한 영향 요인을 종합적으로 더욱 잘 분석할 수 있다. 본 발명의 실시예는 연관 특징 및 이차 검색에 기반한 어려운 샘플 발굴 기술을 이용하여, 샘플 간의 연관 정보 학습으로 하여금 고차원의 특징 공간에서 더욱 충분히 학습하도록 한다. 본 발명의 실시žŸ서 제기한 알고리즘 모듈은 혀재의 재식별 알고리즘에 유연하게 적용되고, 안정성을 향상시킬 수 있다.
이해할 수 있는 것은, 본 발명의 실시예에서 언급된 상기 각 방법 실시예는, 원리 논리를 벗어나지 않는 조건 하에, 모두 서로 결합되어 결합 후의 실시예를 구성할 수 있고, 편폭의 제한으로, 본 발명의 실시예에서는 더이상 설명하지 않는다.
또한, 본 발명의 실시예는 타깃 재식별 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품을 더 제공하고, 상기 분배 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체, 프로그램은 모두 본 발명의 실시예에서 제공한 어느 하나의 타깃 재식별 방법을 구현하는데 사용될 수 있으며, 상응하는 기술방안 및 설명 및 참조 방법 부분의 상응하는 기재는, 여기서 더이상 반복하여 설명하지 않는다.
도 12는 본 발명의 실시예에 따른 타깃 재식별 장치의 블록도이고, 도 11에 도시된 바와 같이, 상기 장치는,
타깃 대상 이미지 및 처리될 이미지 세트를 획득하도록 구성된 이미지 획득 모듈(1201) - 타깃 대상 이미지는 타깃 대상을 포함함 - ;
타깃 대상 이미지의 제1 특징값 및 처리될 이미지 세트에 대응되는 제2 특징값 세트에 따라 처리될 이미지 세트에서 후보 이미지 세트를 결정하도록 구성된 후보 이미지 결정 모듈(1202) - 후보 이미지 세트에서의 임의의 두개 이미지 간의 유사값은 기설정된 유사값보다 크거나 같음 - ; 및
훈련된 이미지 연관 식별 네트워크에 기반하여, 제1 특징값 및 제2 특징값 세트를 식별하여, 후보 이미지 세트에서 타깃 이미지 세트를 결정하도록 구성된 타깃 이미지 결정 모듈(1203) - 타깃 이미지 세트에서의 이미지가 포함한 대상과 타깃 대상의 제1 유사도 값은 타깃이 아닌 이미지가 포함한 대상과 타깃 대상의 제1 유사도 값보다 크거나 같으며, 후보 이미지 세트는 타깃 이미지 세트 및 타깃이 아닌 이미지를 포함함 - 을 포함한다.
일부 가능한 실시형태에 있어서, 상기 이미지 연관 식별 네트워크는 제1 이미지 구조 설정 서브 네트워크, 이미지 연관 업데이트 서브 네트워크 및 분류기를 포함하고; 제1 이미지 구조 설정 서브 네트워크, 이미지 연관 업데이트 서브 네트워크 및 분류기는 직렬로 연결되고; 타깃 이미지 결정 모듈은 제1 특징값 및 제2 특징값 세트를 제1 이미지 구조 설정 서브 네트워크에 입력하여, 제1 이미지 구조를 얻고; 제1 이미지 구조는 노드 및 두 개 노드를 연결하도록 구성된 링크를 포함하고, 노드의 개수 및 후보 이미지 세트에서의 이미지의 개수는 동일하며, 두 노드를 연결하는 링크는 연결된 두개 노드 간의 유사도 및 기설정된 유사도에 기반하여 결정되며; 제1 이미지 구조를 이미지 연관 업데이트 서브 네트워크에 입력하여, 업데이트 및 최적화된 제2 이미지 구조를 얻고; 분류기를 통해 제2 이미지 구조에 따라 후보 이미지 세트에서 각 후보 이미지에 대응되는 제1 유사도 값을 결정하고; 및 각 후보 이미지에 대응되는 제1 유사도 값과 유사도 입계값에 기반하여 타깃 이미지 세트를 결정하도록 구성된다.
일부 가능한 실시형태에 있어서, 타깃 이미지 결정 모듈은 제1 이미지 구조 및 제2 이미지 구조를 더하고 융합하여, 제3 이미지 구조를 얻도록 구성되고; 분류기를 통해 제3 이미지 구조에 따라 후보 이미지 세트에서 각 후보 이미지에 대응되는 제1 유사도 값을 결정할 수 있다.
일부 가능한 실시형태에 있어서, 상기 이미지 연관 업데이트 서브 네트워크는, 주의력 메커니즘 계층, 복수 개 이미지 컨볼루션 계층, 복수 개 활성화 계층 및 복수 개 완전 연결 계층을 포함하고; 주의력 메커니즘 계층, 복수 개 이미지 컨볼루션 계층, 복수 개 활성화 계층 및 복수 개 완전 연결 계층은 직렬 연결되고; 타깃 이미지 결정 모듈은, 제1 이미지 구조를 주의력 메커니즘 계층에 입력하여, 제1 이미지 구조에서 각 노드의 가중 벡터를 얻고; 각 노드의 가중 벡터 및 제1 이미지 구조를 주의력 메커니즘 계층의 다음 계층의 입력으로 결정하고; 복수 개 이미지 컨볼루션 계층, 복수 개 활성화 계층 및 복수 개 완전 연결 계층에서의 어느 하나 현재 처리하는 계층을 현재 계층으로 결정하며; 현재 계층의 이전 한개 계층의 입력을 현재 계층의 입력으로 사용하여, 계산 처리하여 현재 계층의 출력을 얻으며; 어느 하나 현재 계층이 대응되는 출력이 존재하는 경우, 이미지 연관 업데이트 서브 네트워크에서 마지막 계층의 출력에 따라, 업데이트 및 최적화된 제2 이미지 구조를 얻도록 구성된다.
일부 가능한 실시형태에 있어서, 후보 이미지 결정 모듈은, 특징 코딩 추출 네트워크에 기반하여 타깃 대상 이미지가 포함한 타깃 대상의 제1 특징값을 결정하고, 특징 코딩 추출 네트워크에 기반하여 처리될 이미지 세트에서의 각 이미지가 포함한 대상의 제2 특징값을 결정하며, 제2 특징값 및 제1 특징값에 기반하여 각 이미지에 대응되는 제2 유사도 값을 결정하며, 제2 유사도 값에 따라 처리될 이미지 세트에서 후보 이미지 세트를 결정하도록 구성된다.
일부 가능한 실시형태에 있어서,상기 후보 이미지 결정 모듈은 각 처리될 이미지에 대응되는 제2 유사도 값을 수치가 큰 숫자로부터 낮은 숫자로 랭킹하고, 상위 N 위치의 제2 유사도 값에 대응되는 처리될 이미지에 기반하여, 후보 이미지 세트를 얻도록 구성된다.
일부 가능한 실시형태에 있어서, 상기 후보 이미지 결정 모듈은, 각 처리될 이미지에 대응되는 제2 유사도 값을 수치가 큰 숫자로부터 낮은 숫자로 랭킹하고, 상위 N 위치의 제2 유사도 값에 대응되는 처리될 이미지에 기반하여 처리될 이미지 세트를 제1 후보 이미지 세트 및 제1 후보 이미지가 아닌 세트로 나누고, 제1 후보 이미지 세트에서의 이미지의 제2 특징값 및 제1 후보 이미지가 아닌 세트에서의 이미지의 제2 특징값에 따라 제1 후보 이미지가 아닌 세트에서 N2개 이미지를 결정하여, 제2 후보 이미지 세트를 구성하며, 제1 후보 이미지 세트 및 제2 후보 이미지 세트에 기반하여 후보 이미지 세트를 결정하도록 구성되고, 여기서 제1 후보 이미지 세트는 상위 N1 위치의 제2 유사도 값에 대응되는 이미지를 포함한다.
일부 가능한 실시형태에 있어서, 상기 후보 이미지 결정 모듈은, 제1 후보 이미지 세트에서의 어느 하나 현재 사용하는 이미지를 현재 이미지로 결정하고; 현재 이미지의 제2 특징값 및 제1 후보 이미지가 아닌 세트에서의 이미지의 제2 특징값에 따라 제1 후보 이미지가 아닌 세트에서의 각 이미지에 대응되는 제3 유사도 값을 결정하고, 각 이미지에 대응된느 제3 유사도 값에 따라 제1 후보 이미지가 아닌 세트에서 현재 이미지에 대응되는 제3 후보 이미지 세트를 결정하며, 각 현재 이미지에 대응되는 제3 후보 이미지 세트가 모두 존재하는 경우, 각 현재 이미지에 대응되는 제3 후보 이미지 세트에 따라 N2개 이미지를 결정하여, 제2 후보 이미지 세트를 구성하도록 구성된다.
일부 가능한 실시형태에 있어서, 분석 모듈을 더 포함하고, 상기 분석 모듈은 타깃 이미지 세트에서의 이미지의 속성 정보를 결정하고; 속성 정보에 따라 타깃 이미지 세트에서의 이미지가 포함한 대상을 궤적 행위 분석을 하도록 구성된다.
일부 가능한 실시형태에 있어서, 상기 속성 정보는 이미지 획득 위치 및 이미지 획득 시간을 포함하고, 분할 모듈은 이미지 획득 시간에 따라 타깃 이미지 세트에서의 이미지를 랭킹하고, 이미지 획득 위치 및 랭킹 이후의 이미지에 기반하여 이미지가 포함된 대상에 대해 운동 궤적 결정 및 행위 추측을 하도록 구성된다.
일부 실시예에 있어서, 본 발명의 실시예에서 제공되는 장치에 포함된 기능 또는 모듈은 상기 방법 실시예에 설명한 방법을 실행하도록 구성될 수 있고, 실제 구현은 상기 방법 실시예의 설명을 참조할 수 있으며,간결함을 위해 여기서 더이상 설명하지 않는다.
본 발명 실시예는 또한 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 컴퓨터 판독 가능한 저장 매체에는 적어도 하나의 명령어 또는 적어도 하나의 프로그램을 저장하고, 상기 적어도 하나의 명령어 또는 적어도 하나의 프로그램은 프로세스에 의해 로딩 및 실행될 때 상기 방법을 구현한다. 컴퓨터 판독 가능 저장 매체는 비휘발성 컴퓨터 판독 가능 저장 매체일 수 있다.
본 발명의 실시예는 또한 전자 기기를 제공하며, 프로세서; 및 프로세서 실행 가능 명령어를 저장하도록 구성된 메모리를 포함하며; 여기서, 상기 프로세서는 상기 방법을 실행하도록 구성된다. 전자 기기는 단말, 서버 또는 다른 형태의 기기로 제공될 수 있다.
본 발명 실시예는, 명령어를 포함한 컴퓨터 프로그램 제품을 제공하고, 컴퓨터에서 작동될 경우, 컴퓨터로 하여금 본 발명 실시예의 타깃 재식별 방법을 실행하도록 한다.
도 13은 본 출원의 실시예에 따른 전자 기기의 블록도이다. 예를 들어, 전자 기기(1300)는 휴대폰, 컴퓨터, 디지털 방송 단말, 메시징 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 피트니스 기기, 및 개인 휴대용 단말 등 단말일 수 있다.
도 13를 참조하면, 전자 기기(1300)는 처리 컴포넌트(1302), 메모리(1304), 전원 컴포넌트(1306), 멀티미디어 컴포넌트(1308), 오디오 컴포넌트(1310), 입력/출력(Input/Output, I/O) 인터페이스(1312), 센서 컴포넌트(1314) 및 통신 컴포넌트(1316) 중 하나 또는 복수 개의 컴포넌트를 포함할 수 있다.
처리 컴포넌트(1302)는 일반적으로 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 전자 기기(1300)의 전체적인 동작을 제어한다. 처리 컴포넌트(1302)는 상기 방법 단계의 전부 또는 일부를 구현하기 위한 명령어를 실행하기 위한 하나 또는 복수 개의 프로세서(1320)를 포함할 수 있다. 또한, 처리 컴포넌트(1302)는 처리 컴포넌트(1302) 및 다른 컴포넌트 사이의 인터랙션을 용이하게 하기 위한 하나 또는 복수 개의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(1302)는 멀티미디어 컴포넌트(1308) 및 처리 컴포넌트(1302) 사이의 인터랙션을 용이하게 하기 위한 멀티미디어 모듈을 포함할 수 있다.
메모리(1304)는 전자 기기(1300)의 동작을 지원하기 위해 다양한 타입의 데이터를 저장하도록 구성된다. 이러한 데이터의 예시는 전자 기기(1300)에서 동작하도록 구성된 임의의 애플리케이션 프로그램 또는 방법의 명령어, 연락인 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 제1 내부 메모리(8021) 또는 제1 외부 메모리(1304)는, 정적 랜덤 액세스 메모리(Static Random-Access Memory, SRAM), 전기적 소거 가능한 프로그래머블 판독 전용 메모리(Electrically Erasable Programmable Read Only Memory, EEPROM), 소거 가능한 프로그래머블 판독 전용 메모리(Electrical Programmable Read Only Memory, EPROM), 프로그래머블 판독 전용 메모리(Programmable Read-Only Memory, PROM), 판독 전용 메모리(Read-Only Memory, ROM), 자기 메모리, 플래쉬 메모리, 자기 디스크 또는 광 디스크와 같은 임의의 타입의 휘발성 또는 비휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.
전원 컴포넌트(1306)는 전자 기기(1300)의 다양한 컴포넌트에 전력을 공급한다. 전원 컴포넌트(1306)는 전력 관리 시스템, 하나 또는 복수 개의 전력 및 전자 기기(1300)를 위해 전력을 생성, 관리 및 분배하는 것과 관련된 다른 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(1308)는 상기 전자 기기(1300) 및 사용자 사이의 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에 있어서, 스크린은 액정 모니터(Liquid Crystal Display, LCD) 및 터치 패널(Touch Panel, TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 사용자로부터 오는 입력 신호를 수신하기 위해 스크린은 터치 스크린으로서 구현될 수 있다. 터치 패널은 터치, 스와이프 및 터치 패널 상의 제스처를 감지하기 위한 하나 또는 복수 개의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 스와이프 동작의 경계를 감지할 뿐만 아니라 상기 터치 또는 스와이프 동작과 관련된 지속 시간 및 압력을 감지할 수 있다. 일부 실시에에 있어서, 멀티미디어 컴포넌트(1308)는 하나의 전방 카메라 및 하나의 후방 카메라 중 적어도 하나를 포함한다. 전자 기기(1300)가 촬영 모드 또는 비디오 모드와 같은 동작 모드에 있을 경우, 전방 카메라 및 후방 카메라 중 적어도 하나는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 전방 카메라 및 후방 카메라는 고정된 광학 렌즈 시스템이거나 초점 거리 및 광학 줌 기능을 구비할 수 있다.
오디오 컴포넌트(1310)는 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들어, 오디오 컴포넌트(1310)는 하나의 마이크로폰(MICrophone, MIC)을 포함하며, 전자 기기(1300)가 콜 모드, 녹음 모드 및 음성 인식 모드와 같은 동작 모드에 있을 경우, 마이크로폰은 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(1304)에 저장되거나 통신 컴포넌트(1316)에 의해 송신될 수 있다. 일부 실시예에 있어서, 오디오 컴포넌트(1310)는 오디오 신호를 출력하기 위한 하나의 스피커를 더 포함한다.
I/ O 인터페이스(1312)는 처리 컴포넌트(1302)와 외부 인터페이스 모듈 사이에서 인터페이스를 제공하고, 상기 외부 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼은 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼을 포함할 수 있지만 이에 한정되지 않는다.
센서 컴포넌트(1314)는 전자 기기(1300)를 위한 다양한 측면의 상태 평가를 제공하도록 구성된 하나 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 컴포넌트(1314)는 전자 기기(1300)의 온/오프 상태, 상기 컴포넌트가 전자 기기(1300)에 대한 디스플레이 및 키패드와 같은 컴포넌트의 상대적 위치를 검출할 수 있으며, 센서 컴포넌트(1314)는 또한, 전자 기기(1300) 또는 전자 기기(1300)의 하나의 컴포넌트의 위치 변화, 사용자가 전자 기기(1300)와의 접촉의 존재 또는 컴포넌트, 전자 기기(1300) 방향 또는 가속/감속 및 전자 기기(1300)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(1314)는 어떠한 물리적 접촉도 없이 근처의 물체의 존재를 검출하도록 구성되는 근접 센서를 포함할 수 있다. 센서 컴포넌트(1314)는 상보성 금속 산화막 반도체(Complementary Metal-Oxide Semiconductor, CMOS) 또는 전하 결합 소자(Charge Coupled Device, CCD) 이미지 센서와 같은 광센서를 더 포함할 수 있고, 이미징 애플리케이션에 사용된다. 일부 실시에에 있어서, 상기 센서 컴포넌트(1314)는 가속도 센서, 자이로스코프 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.
통신 컴포넌트(1316)는 전자 기기(1300) 및 다른 기기 사이의 유선 또는 무선 방식의 통신을 용이하게 하도록 구성된다. 전자 기기(1300)는 무선 와이파이(Wireless Fidelity, Wi-Fi), 2세대 이동통신기술(The 2nd Generation, 2G) 또는 3세대 이동통신기술( The 3nd Generation, 3G) 또는 이들과 결합한 통신표준에 기반한 무선인터넷에 접속할 수 있다. 하나의 예시적인 실시예에서, 통신 컴포넌트(1316)는 방송 채널을 통해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 일 예시적 실시예에서, 상기 통신 컴포넌트(1316)는 근거리 통신을 촉진하는 근거리 통신(Near Field Communication, NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별자(Radio Frequency Identification, RFID) 기술, 적외선 통신 규격(Infrared Data Association, IrDA) 기술, 초광대역(Ultra WideBand, UWB) 기술, 블루투스(BlueTooth, BT) 기술 및 다른 기술에 기반하여 구현될 수 있다.
예시적 실시예에 있어서, 전자 기기(1300)는 하나 또는 복수 개의 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 디지털 신호 프로세서(Digital Signal Processor, DSP), 디지털 신호 처리 장치(Digital Signal Processor Device, DSPD), 프로그래머블 논리 장치(Programmable Logic Device, PLD), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 부품에 의해 구현되며, 전자 기기(800)는 상기 이미지 클러스터링 방법을 실행하는데 사용된다.
예시적 실시예에 있어서, 컴퓨터 프로그램 명령어를 포함하는 메모리(1304)와 같은 비휘발성 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 상기 방법을 완료하도록 전자 기기(1300)의 프로세서(1320)에 의해 실행된다.
도 14는 본 발명의 실시예에 따른 다른 한 전자 기기의 블록도이다. 예를 들어, 전자 기기(1400)는 하나의 서버로 제공될 수 있다. 도 14를 참조하면, 전자 기기(1400)는 처리 컴포넌트(1422)를 포함하고, 일부 실시형태에 있어서, 처리 컴포넌트(1422)느 하나 또는 복수 개의 프로세서, 처리 컴포넌트(1422)에 의해 실행되는 명령어를 저장하도록 구성된 메모리(1432)로 대표되는 메모리 자원을 포함하고, 예를 들어 응용 프로그램을 포함할 수 있다. 메모리(1432)에 저장된 애플리케이션 프로그램은 하나 또는 하나 이상의 각 명령어 세트에 대응되는 모듈을 포함할 수 있다. 또한, 처리 컴포넌트(1422)는 명령어를 실행하여, 상기 얼굴 인식 방법을 실행하도록 구성된다.
전자 기기(1400)는 전자 기기(1400)의 전원 관리를 실행하도록 구성된 하나의 전력 컴포넌트(1426), 전자 기기(1400)를 네트워크에 연결하도록 구성된 하나의 유선 또는 무선 네트워크 인터페이스(1450) 및 하나의 입력 출력(I/O,1458)를 더 포함할 수 있다. 전자 기기(1400)는 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 이와 유사한 시스템과 같은 메모리(1432)에 저장된 운영 체제에 기반하여 작동될 수 있다.
예시적 실시예에 있어서, 컴퓨터 프로그램 명령어를 포함하는 메모리(1432)와 같은 비휘발성 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 상기 방법을 완료하도록 전자 기기(1400)의 처리 컴포넌트(1422)에 의해 실행된다.
본 발명의 실시예는 시스템, 방법 및/또는 컴퓨터 프로그램 제품일 수 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독 가능한 저장 매체를 포함할 수 있고, 컴퓨터 판독 가능한 저장 매체는 프로세서가 본 발명 실시예의 각 측면을 구현하도록 하는 컴퓨터 판독 가능한 프로그램 명령어를 포함한다.
컴퓨터 판독 가능 저장 매체는 명령어 실행 기기에 의해 실행되는 명령어를 유지 및 저장할 수 있는 타입의 기기일 수 있다. 컴퓨터 판독 가능한 저장 매체는 예를 들어 축전 기기, 자기 저장 기기, 광 저장 기기, 전자기 저장 기기, 반도체 저장 기기 또는 전술한 축전 기기, 자기 저장 기기, 광 저장 기기, 전자기 저장 기기, 반도체 저장 기기의 임의의 적절한 조합일 수 있지만 이에 한정되지 않는다. 컴퓨터 판독 가능한 저장 매체는 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(Random Access Memory, RAM), 판독 전용 메모리 및 소거 가능하고 프로그램 가능한 판독 전용 메모리((Erasable Programmable Read Only Memory, EPROM) 또는 플래시 메모리), 정적 랜덤 액세스 메모리, 휴대용 컴팩트 디스크 판독 전용 메모리(Portable Compact Disk Read-Only Memory, CD-ROM), 디지털 비디오 디스크 (Digital Versatile Disk, DVD), 메모리 스틱, 플로피 디스크, 명령어가 저장된 장치와 같은 기계적 코딩 장치 홀 카드 또는 그루브에서의 볼록한 구조 및 전술한 임의의 적절한 조합을 포함한다. 여기서 사용되는 컴퓨터 판독 가능한 저장 매체는 무선 전자파 또는 다른 자유롭게 전파되는 전자기파, 도파관 또는 다른 전송 매체를 통해 전파되는 전자기파(예를 들어, 광섬유 케이블을 통한 광펄스), 또는 와이어를 통해 전송되는 전기 신호와 같은 순간 신호 자체로 해석되지 않아야 한다.
여기서 설명된 컴퓨터 판독 가능한 프로그램 명령어는 컴퓨터 판독 가능한 저장 매체로부터 각 컴퓨팅/처리 기기로 다운 로드될 수 있거나, 인터넷, 근거리 통신망, 광역 통신망 및 무선 네트워크 중 적어도 하나와 같은 네트워크를 통해, 외부 컴퓨터 또는 외부 저장 기기로 다운 로드될 수 있다. 네트워크는 동 전송 케이블, 광섬유 전송, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터 및 에지 서버 중 적어도 하나를 포함 할 수 있다. 각 컴퓨팅/처리 기기의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크로부터 컴퓨터 판독 가능한 프로그램 명령어를 수신하고, 각 컴퓨팅/처리 기기에서의 컴퓨터 판독 가능한 저장 매체에 저장하기 위해, 컴퓨터 판독 가능한 프로그램 명령어를 전달한다. 본 발명 실시예의 동작을 실행하기 위한 컴퓨터 프로그램 명령어는 어셈블리 명령어, 명령어 세트 아키텍처(Instruction Set Architecture, ISA) 명령어, 머신 명령어, 머신 관련 명령어, 마이크로 코드, 펌웨어 명령어, 상태 설정 데이터, 또는 하나 또는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 객체 코드일 수 있고, 상기 프로그래밍 언어에는 스몰 토크, C++ 등과 같은 객체 지향 프로그래밍 언어 및 "C" 언어 또는 유사한 프로그래밍 언어와 같은 기존 프로그래밍 언어가 포함된다. 컴퓨터 판독 가능한 프로그램 명령어는 사용자 컴퓨터에서 완전히 또는 부분적으로 실행될수 있고, 독립형 소프트웨어 패키지로 실행되며, 부분적으로 사용자 컴퓨터에서, 부분적으로 원격 컴퓨터에서 또는 완전히 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터와 관련된 상황에서 원격 컴퓨터는 근거리 통신망(Local Area Network, LAN) 또는 광대역 통신망(Wide Area Network, WAN)을 포함하는 모든 타입의 네트워크를 통해 사용자 컴퓨터에 연결되거나 외부 컴퓨터에 연결(예를 들어 인터넷 서비스 제공 업체를 사용하여 인터넷을 통해 연결)될 수 있다. 일부 실시예에 있어서, 프로그램 가능한 논리 회로, 필드 프로그래머블 게이트 어레이 또는 프로그램 가능한 논리 어레이와 같은 전자 회로는 컴퓨터 판독 가능 프로그램 명령어의 상태 정보를 이용하여 개인화될 수 있고, 상기 전자 회로는 컴퓨터 판독 가능 프로그램 명령어를 실행할 수 있음으로써, 본 발명 실시예의 다양한 측면을 구현한다.
여기서, 본 발명의 각 측면은 본 발명 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및 블록도 중 적어도 하나를 참조하여 설명된다. 이해해야 할 것은, 흐름도 및 블록도 중 적어도 하나의 각 블록; 흐름도 및 블록도 중 적어도 하나의 각 블록의 조합은, 모두 컴퓨터 판독 가능 프로그램 명령어에 의해 구현될 수 있다.
이러한 컴퓨터 판독 가능 프로그램 명령어는 범용 컴퓨터, 특수 목적 컴퓨터 또는 다른 프로그래머블 데이터 처리 장치의 프로세서에 제공됨으로써, 기계를 생성하며, 이러한 명령어가 컴퓨터나 다른 프로그래머블 데이터 처리 장치의 프로세서를 통해 실행될 때, 흐름도 및 블록도 중 하나 또는 복수 개의 블록에서 규정한 기능/동작을 구현하기 위한 장치를 생성한다. 이러한 컴퓨터 판독 가능한 프로그램 명령어를 컴퓨터 판독 가능한 저장 매체에 저장할 수도 있으며, 이러한 명령어는 컴퓨터, 프로그램 가능한 데이터 처리 장치 및 다른 기기가 특정한 방식으로 작동될 수 있도록 함으로써, 명령어가 저장되어 있는 컴퓨터 판독 가능한 매체는 제조품을 포함하며, 상기 제조품은 흐름도 및 블록도 중 적어도 하나에서 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현하는 명령어를 포함한다. 컴퓨터 판독 가능한 프로그램 명령어는 또한 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치 또는 다른 기기에 로딩될 수 있어, 컴퓨터로 구현되는 과정을 생성하기 위해, 일련의 동작 단계가 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치 또는 다른 기기에서 수행되도록 함으로써, 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치 또는 다른 기기에서 실행되는 명령어는 흐름도 및 블록도 중 적어도 하나에서 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현한다.
도면의 흐름도 및 블록도는 본 발명 실시예의 다양한 실시 방식에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계 아키텍처, 기능 및 동작을 디스플레이한다. 이와 관련하여, 흐름도 또는 블록도의 각 블록은 모듈, 프로그램 세그먼트 또는 명령어의 일부를 나타낼 수 있고, 상기 모듈, 프로그램 세그먼트 또는 명령어의 일부는 하나 또는 복수 개의 지정된 논리적 기능을 구현하기 위한 실행 가능한 명령어를 포함한다. 일부 대안적인 구현에서, 블록에 표시된 기능은 도면에 표시된 것과 다른 순서로 발생될 수도 있다. 예를 들어, 2 개의 연속적인 블록은 실제로 기본상 병행하여 실행될 수 있거나, 이들은 때로는 역순으로 실행될 수 있으며, 이는 관련된 기능에 따라 결정된다. 또한 유의해야 할 것은, 블록도 및 흐름도 중 적어도 하나에서의 각 블록, 및 블록도 및 흐름도 중 적어도 하나에서의 블록의 조합은, 지정된 기능 또는 동작의 전용 하드웨어 기반의 시스템에 의해 구현될 수 있거나, 전용 하드웨어와 컴퓨터 명령어의 조합으로 구현될 수 있다.
이상 본 발명 실시예의 각 방식을 설명하였고, 상기 설명은 예시적이고, 비철저하며, 개시된 각 실시예에 한정되지도 않는다. 당업자에게는 설명된 실시예의 범위 및 사상을 벗어나지 않고 많은 수정 및 변형은 명백한 것이다. 본 명세서에서 사용된 용어의 선택은 각 실시 방식의 원리, 실제 적용 또는 시장에서의 기술에 대한 개선을 가장 잘 해석하거나, 본 기술분야의 기술자가 본 명세서에 개시된 각 실시예를 이해할 수 있도록 의도된다.
본 발명의 실시예는, 타깃 대상 이미지 및 처리될 이미지 세트를 획득하는 단계 - 상기 타깃 대상 이미지는 타깃 대상을 포함함 - ; 상기 타깃 대상 이미지의 제1 특징값 및 상기 처리될 이미지 세트에 대응되는 제2 특징값 세트에 따라 상기 처리될 이미지 세트에서 후보 이미지 세트를 결정하는 단계 - 상기 후보 이미지 세트에서의 임의의 두개 이미지 간의 유사값은 기설정된 유사값보다 크거나 같음 - ; 훈련된 이미지 연관 식별 네트워크에 기반하여, 상기 제1 특징값 및 상기 제2 특징값 세트를 식별하여, 상기 후보 이미지 세트에서 타깃 이미지 세트를 결정하는 단계 - 상기 타깃 이미지 세트에서의 이미지가 포함한 대상과 상기 타깃 대상의 제1 유사도 값은, 타깃이 아닌 이미지가 포함한 대상과 상기 타깃 대상의 제1 유사값보다 크거나 같으며, 상기 후보 이미지 세트는 타깃 이미지 세트 및 상기 타깃이 아닌 이미지를 포함함- 를 포함한다. 이로써 처리될 이미지 세트에서 더욱 정확한 양의 샘플을 결정하고, 및 음의 샘플의 간섭을 감소시켜, 타깃 이미지 세트를 얻음으로써, 후속 타깃 이미지 세트에서의 이미지 속성 정보에 기반하여 포함된 대상을 행위 분석한 결과의 정확성으로 하여금 향상되도록 한다.

Claims (14)

  1. 타깃 재식별 방법으로서,
    타깃 대상 이미지 및 처리될 이미지 세트를 획득하는 단계 - 타깃 대상 이미지는 타깃 대상을 포함함 - ;
    상기 타깃 대상 이미지의 제1 특징값 및 상기 처리될 이미지 세트에 대응되는 제2 특징값 세트에 따라, 상기 처리될 이미지 세트에서 후보 이미지 세트를 결정하는 단계 - 상기 후보 이미지 세트에서의 임의의 두개 이미지 간의 유사값은 기설정된 유사값보다 크거나 같음 - ; 및
    상기 훈련된 이미지 연관 식별 네트워크에 기반하여, 상기 제1 특징값 및 상기 제2 특징값 세트를 식별하여, 상기 후보 이미지 세트에서 타깃 이미지 세트를 결정하는 단계 - 상기 타깃 이미지 세트에서의 이미지가 포함한 대상과 타깃 대상의 제1 유사도 값은 타깃이 아닌 이미지가 포함한 대상과 상기 타깃 대상의 제1 유사도 값보다 크거나 같으며, 상기 후보 이미지 세트는 타깃 이미지 세트 및 상기 타깃이 아닌 이미지를 포함함 - 를 포함하는 것을 특징으로 하는 타깃 재식별 방법.
  2. 제1항에 있어서,
    상기 이미지 연관 식별 네트워크는 제1 이미지 구조 구축 서브 네트워크, 이미지 연관 업데이트 서브 네트워크 및 분류기를 포함하고 ;상기 제1 이미지 구조 구축 서브 네트워크, 상기 이미지 연관 업데이트 서브 네트워크 및 상기 분류기는 직렬로 연결 되며;
    상기 훈련된 이미지 연관 식별 네트워크에 기반하여, 상기 제1 특징값 및 상기 제2 특징값 세트를 식별하여, 상기 후보 이미지 세트에서 타깃 이미지 세트를 결정하는 단계는,
    상기 제1 특징값 및 상기 제2 특징값 세트를 상기 제1 이미지 구조 구축 서브 네트워크에 입력하여, 제1 이미지 구조를 얻는 단계 - 상기 제1 이미지 구조는 노드 및 두 개 노드를 연결하는 링크를 포함하고, 상기 노드의 개수 및 상기 후보 이미지 세트에서의 이미지의 개수는 동일하고, 상기 두 개 노드를 연결하는 링크는 연결된 상기 두 개 노드 간의 유사도 및 기설정된 유사도에 기반하여 결정된 것임 - ;
    상기 제1 이미지 구조를 상기 이미지 연관 업데이트 서브 네트워크에 입력하여, 업데이트 및 최적화된 제2 이미지 구조를 얻는 단계;
    상기 분류기를 통해 상기 제2 이미지 구조에 따라 상기 후보 이미지 세트에서 각 후보 이미지에 대응되는 제1 유사도 값을 결정하는 단계; 및
    상기 각 후보 이미지에 대응되는 제1 유사도 값과 유사도 임계값에 기반하여 상기 타깃 이미지 세트를 결정하는 단계를 포함하는 것을 특징으로 하는 타깃 재식별 방법.
  3. 제2항에 있어서,
    상기 분류기를 통해 상기 제2 이미지 구조에 따라 상기 후보 이미지 세트에서 각 후보 이미지에 대응되는 제1 유사도 값을 결정하는 단계는,
    상기 제1 이미지 구조 및 상기 제2 이미지 구조를 더하고 융합하여, 제3 이미지 구조를 얻는 단계; 및
    상기 분류기를 통해 상기 제3 이미지 구조에 따라 상기 후보 이미지 세트에서 각 후보 이미지에 대응되는 제1 유사도 값을 결정하는 단계를 포함하는 것을 특징으로 하는 타깃 재식별 방법.
  4. 제2항에 있어서,
    상기 이미지 연관 업데이트 서브 네트워크는 주의력 메커니즘 계층, 복수 개 이미지 컨볼루션 계층, 복수 개 활성화 계층 및 복수 개 완전 연결 계층을 포함하고;
    상기 주의력 메커니즘 계층, 상기 복수 개 이미지 컨볼루션 계층, 상기 복수 개 활성화 계층 및 상기 복수 개 완전 연결 계층은 직렬로 연결되며;
    상기 제1 이미지 구조를 상기 이미지 연관 업데이트 서브 네트워크에 입력하여, 업데이트 및 최적화된 제2 이미지 구조를 얻는 단계는,
    상기 제1 이미지 구조를 상기 주의력 메커니즘 계층에 입력하여, 상기 제1 이미지 구조에서 각 노드의 가중 벡터를 얻는 단계;
    상기 각 노드의 가중 벡터 및 상기 제1 이미지 구조를 상기 주의력 메커니즘 계층의 다음 계층의 입력으로 결정하는 단계;
    상기 복수 개 이미지 컨볼루션 계층, 상기 복수 개 활성화 계층 및 상기 복수 개 완전 연결 계층에서의 어느 하나 현재 처리를 수행하는 계층을 현재 계층으로 결정하는 단계;
    상기 현재 계층의 이전 계층의 출력을 상기 현재 계층의 입력으로 사용하여, 계산하고 처리한 후 현재 계층의 출력을 얻는 단계; 및
    어느 하나 상기 현재 계층에 대응되는 출력이 존재하는 경우, 상기 이미지 연관 업데이트 서브 네트워크에서 마지막 계층의 출력에 따라, 업데이트 및 최적화된 제2 이미지 구조를 얻는 단계를 포함하는 것을 특징으로 하는 타깃 재식별 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 타깃 대상 이미지의 제1 특징값 및 상기 처리될 이미지 세트에 대응되는 제2 특징값 세트에 따라, 상기 처리될 이미지 세트에서 후보 이미지 세트를 결정하는 단계는,
    특징 코딩 추출 네트워크에 기반하여 상기 타깃 대상 이미지에 포함된 상기 타깃 대상의 제1 특징값을 결정하는 단계;
    상기 특징 코딩 추출 네트워크에 기반하여 상기 처리될 이미지 세트에서의 각 처리될 이미지에 포함된 대상의 제2 특징값을 결정하는 단계;
    상기 제2 특징값 및 상기 제1 특징값에 기반하여, 각 상기 처리될 이미지에 대응되는 제2 유사도 값을 결정하는 단계; 및
    상기 제2 유사도 값에 따라 상기 처리될 이미지 세트에서 후보 이미지 세트를 결정하는 단계를 포함하는 것을 특징으로 하는 타깃 재식별 방법.
  6. 제5항에 있어서,
    상기 제2 유사도 값에 따라 상기 처리될 이미지 세트에서 후보 이미지 세트를 결정하는 단계는,
    각 상기 처리될 이미지에 대응되는 제2 유사도 값을 수치가 높은데로부터 낮은데에 따라 랭킹하는 단계; 및
    상위 N 위치의 제2 유사도 값에 대응되는 처리될 이미지에 기반하여, 상기 후보 이미지 세트를 얻는 단계를 포함하는 것을 특징으로 하는 타깃 재식별 방법.
  7. 제5항에 있어서,
    상기 제2 유사도 값에 따라 상기 처리될 이미지 세트에서 후보 이미지 세트를 결정하는 단계는,
    상기 각 처리될 이미지에 대응되는 제2 유사도 값을 수치가 높은데로부터 낮은데에 따라 랭킹하는 단계;
    상위 N1 위치의 제2 유사도 값에 대응되는 처리될 이미지에 기반하여, 상기 처리될 이미지 세트를 제1 후보 이미지 세트 및 제1 후보 이미지가 아닌 세트로 나누는 단계 - 상기 제1 후보 이미지 세트는 상기 상위 N1 위치의 제2 유사도 값에 대응되는 처리될 이미지를 포함함 - ;
    상기 제1 후보 이미지 세트에서의 이미지의 제2 특징값 및 상기 제1 후보 이미지가 아닌 세트에서의 이미지의 제2 특징값에 따라, 상기 제1 후보 이미지가 아닌 세트에서 N2 개 이미지를 결정하여, 제2 후보 이미지 세트를 구성하는 단계; 및
    상기 제1 후보 이미지 세트 및 상기 제2 후보 이미지 세트에 기반하여 상기 후보 이미지 세트를 결정하는 단계를 포함하는 것을 특징으로 하는 타깃 재식별 방법.
  8. 제7항에 있어서,
    상기 제1 후보 이미지 세트에서의 이미지의 제2 특징값 및 상기 제1 후보 이미지가 아닌 세트에서의 이미지의 제2 특징값에 따라, 상기 제1 후보 이미지가 아닌 세트에서 N2 개 이미지를 결정하여, 제2 후보 이미지 세트를 구성하는 단계는,
    상기 제1 후보 이미지 세트에서의 어느 하나 현재 사용하는 이미지를 현재 이미지로 결정하는 단계;
    상기 현재 이미지의 제2 특징값 및 상기 제1 후보 이미지가 아닌 세트에서의 이미지의 제2 특징값에 따라, 상기 제1 후보 이미지가 아닌 세트에서의 각 이미지에 대응되는 제3 유사도 값을 결정하는 단계;
    상기 각 이미지에 대응되는 제3 유사도 값에 따라 상기 제1 후보 이미지가 아닌 세트에서 상기 현재 이미지에 대응되는 제3 후보 이미지 세트를 결정하는 단계; 및
    각 상기 현재 이미지가 모두 대응되는 제3 후보 이미지 세트가 존재하는 경우, 각 상기 현재 이미지에 대응되는 제3 후보 이미지 세트에 따라 N2 개 이미지를 결정하여, 제2 후보 이미지 세트를 구성하는 단계를 포함하는 것을 특징으로 하는 타깃 재식별 방법.
  9. 제1항에 있어서,
    상기 후보 이미지 세트에서 타깃 이미지 세트를 결정한 이후, 상기 방법은,
    상기 타깃 이미지 세트에서의 이미지의 속성 정보를 결정하는 단계; 및
    상기 속성 정보에 따라 상기 타깃 이미지 세트에서의 이미지가 포함한 대상에 대해 궤적 행위 분석을 진행하는 단계를 포함하는 것을 특징으로 하는 타깃 재식별 방법.
  10. 제9항에 있어서,
    상기 속성 정보는 이미지 획득 위치 및 이미지 획득 시간을 포함하고;
    상기 속성 정보에 따라 상기 타깃 이미지 세트에서의 이미지가 포함한 대상에 대해 궤적 행위 분석을 진행하는 단계는,
    상기 이미지 획득 시간에 따라 상기 타깃 이미지 세트에서의 이미지를 랭킹하는 단계; 및
    상기 이미지 획득 위치 및 랭킹 이후의 이미지에 기반하여, 상기 타깃 이미지 세트에서의 이미지가 포함한 대상에 대해 운동 궤적 결정 및 행위 추측을 진행하는 단계를 포함하는 것을 특징으로 하는 타깃 재식별 방법.
  11. 타깃 재식별 장치로서,
    타깃 대상 이미지 및 처리될 이미지 세트를 획득하도록 구성된 이미지 획득 모듈 - 상기 타깃 대상 이미지는 타깃 대상을 포함함 - ;
    상기 타깃 대상 이미지의 제1 특징값 및 상기 처리될 이미지 세트에 대응되는 제2 특징값 세트에 따라 상기 처리될 이미지 세트에서 후보 이미지 세트를 결정하도록 구성된 후보 이미지 결정 모듈 - 상기 후보 이미지 세트에서의 임의의 두개 이미지 간의 유사값은 기설정된 유사값보다 크거나 같음 - ; 및
    훈련된 이미지 연관 식별 네트워크에 기반하여, 상기 제1 특징값 및 상기 제2 특징값 세트를 식별하여, 상기 후보 이미지 세트에서 타깃 이미지 세트를 결정하도록 구성된 타깃 이미지 결정 모듈 - 상기 타깃 이미지 세트에서의 이미지가 포함한 대상과 상기 타깃 대상의 제1 유사도 값은 타깃이 아닌 이미지가 포함한 대상과 상기 타깃 대상의 제1 유사도 값보다 크거나 같으며, 상기 후보 이미지 세트는 상기 타깃 이미지 세트 및 상기 타깃이 아닌 이미지를 포함함 - 를 포함하는 것을 특징으로 하는 타깃 재식별 장치.
  12. 컴퓨터 판독 가능한 저장 매체로서,
    상기 컴퓨터 판독 가능한 저장 매체에는 적어도 하나의 명령어 또는 적어도 하나의 프로그램이 저장되고, 상기 적어도 하나의 명령어 또는 적어도 하나의 프로그램은 프로세스에 의해 로딩 및 실행되어 제1항 내지 제10항 중 어느 한 항에 따른 타깃 재식별 방법을 구현하도록 하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.
  13. 전자 기기로서,
    적어도 하나의 프로세서 및 상기 적어도 하나의 프로세서와 연결된 메모리를 포함하고; 상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령어를 저장하고, 상기 적어도 하나의 프로세서는 상기 메로리에 저장된 명령어를 실행하는 것을 통해 제1항 내지 제10항 중 어느 한 항에 따른 타깃 재식별 방법을 구현하도록 하는 것을 특징으로 하는 전자 기기.
  14. 컴퓨터 프로그램 제품으로서,
    컴퓨터 판독 가능 코드를 포함하고, 상기 컴퓨터 판독 가능 코드가 기기에서 작동될 때, 기기의 프로세서는 제1항 내지 제10항 중 어느 한 항에 따른 타깃 재식별 방법을 구현하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
KR1020227002689A 2020-09-25 2020-12-28 타깃 재식별 방법, 장치, 기기, 저장 매체 및 프로그램 제품 KR20220042356A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011022834.4A CN112149740B (zh) 2020-09-25 2020-09-25 目标重识别方法、装置、存储介质及设备
CN202011022834.4 2020-09-25
PCT/CN2020/140303 WO2022062243A1 (zh) 2020-09-25 2020-12-28 目标重识别方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
KR20220042356A true KR20220042356A (ko) 2022-04-05

Family

ID=73897192

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227002689A KR20220042356A (ko) 2020-09-25 2020-12-28 타깃 재식별 방법, 장치, 기기, 저장 매체 및 프로그램 제품

Country Status (5)

Country Link
JP (1) JP2022552761A (ko)
KR (1) KR20220042356A (ko)
CN (1) CN112149740B (ko)
TW (1) TWI769775B (ko)
WO (1) WO2022062243A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102585912B1 (ko) * 2022-12-14 2023-10-06 주식회사 딥노이드 디자인권이 적용된 제품군을 자동으로 탐색하기 위한 장치 및 이를 위한 방법

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464922B (zh) * 2021-02-02 2021-05-28 长沙海信智能系统研究院有限公司 人车重识别及其模型训练方法、装置、设备及存储介质
CN114218992B (zh) * 2021-12-29 2023-09-08 重庆紫光华山智安科技有限公司 异常对象的检测方法及相关装置
CN114545400B (zh) * 2022-04-27 2022-08-05 陕西欧卡电子智能科技有限公司 基于毫米波雷达的水面机器人的全局重定位方法
CN114972883B (zh) * 2022-06-17 2024-05-10 平安科技(深圳)有限公司 基于人工智能的目标检测样本生成方法及相关设备
CN114814777B (zh) * 2022-06-27 2022-09-27 中国人民解放军32035部队 一种多雷达密集目标的图形匹配关联方法及系统
CN115687674A (zh) * 2022-12-20 2023-02-03 昆明勤砖晟信息科技有限公司 服务于智慧云服务平台的大数据需求分析方法及系统
CN116700724B (zh) * 2023-08-03 2023-10-20 江苏狄诺尼信息技术有限责任公司 一种基于模式法的立交平面交互式图形设计系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482920B (zh) * 2008-12-30 2010-12-22 广东国笔科技股份有限公司 一种手写字符识别方法及系统
WO2015165092A1 (zh) * 2014-04-30 2015-11-05 中国科学院自动化研究所 大范围优先的跨摄像机视觉目标再识别方法
US10108850B1 (en) * 2017-04-24 2018-10-23 Intel Corporation Recognition, reidentification and security enhancements using autonomous machines
CN107153817B (zh) * 2017-04-29 2021-04-27 深圳市深网视界科技有限公司 行人重识别数据标注方法和装置
CN110349156B (zh) * 2017-11-30 2023-05-30 腾讯科技(深圳)有限公司 眼底图片中病变特征的识别方法和装置、存储介质
US10671887B2 (en) * 2017-12-05 2020-06-02 Axis Ab Best image crop selection
CN108875588B (zh) * 2018-05-25 2022-04-15 武汉大学 基于深度学习的跨摄像头行人检测跟踪方法
CN109299664B (zh) * 2018-08-27 2021-03-26 华中科技大学 一种行人重识别的重排序方法
CN111291765A (zh) * 2018-12-07 2020-06-16 北京京东尚科信息技术有限公司 用于确定相似图片的方法和装置
CN109934249A (zh) * 2018-12-14 2019-06-25 网易(杭州)网络有限公司 数据处理方法、装置、介质和计算设备
CN109886113A (zh) * 2019-01-17 2019-06-14 桂林远望智能通信科技有限公司 一种基于区域候选网络的旷视行人再识别方法
CN110084157B (zh) * 2019-04-12 2021-08-24 北京旷视科技有限公司 图像重识别的数据处理方法及装置
CN110135295A (zh) * 2019-04-29 2019-08-16 华南理工大学 一种基于迁移学习的无监督行人重识别方法
CN110163127A (zh) * 2019-05-07 2019-08-23 国网江西省电力有限公司检修分公司 一种由粗到细的视频目标行为识别方法
CN110796057A (zh) * 2019-10-22 2020-02-14 上海交通大学 行人重识别方法、装置及计算机设备
CN111126224A (zh) * 2019-12-17 2020-05-08 成都通甲优博科技有限责任公司 车辆检测方法及分类识别模型训练方法
CN111339979B (zh) * 2020-03-04 2023-09-19 平安科技(深圳)有限公司 基于特征提取的图像识别方法及图像识别装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102585912B1 (ko) * 2022-12-14 2023-10-06 주식회사 딥노이드 디자인권이 적용된 제품군을 자동으로 탐색하기 위한 장치 및 이를 위한 방법

Also Published As

Publication number Publication date
CN112149740B (zh) 2021-12-28
TWI769775B (zh) 2022-07-01
TW202213185A (zh) 2022-04-01
CN112149740A (zh) 2020-12-29
WO2022062243A1 (zh) 2022-03-31
JP2022552761A (ja) 2022-12-20

Similar Documents

Publication Publication Date Title
KR20220042356A (ko) 타깃 재식별 방법, 장치, 기기, 저장 매체 및 프로그램 제품
CN109829433B (zh) 人脸图像识别方法、装置、电子设备及存储介质
US20210117726A1 (en) Method for training image classifying model, server and storage medium
US11120078B2 (en) Method and device for video processing, electronic device, and storage medium
CN109800325B (zh) 视频推荐方法、装置和计算机可读存储介质
CN111524521B (zh) 声纹提取模型训练方法和声纹识别方法、及其装置和介质
KR20210053122A (ko) 신경망의 훈련 방법, 장치 및 저장 매체
WO2021008022A1 (zh) 图像处理方法及装置、电子设备和存储介质
TW202131281A (zh) 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介
CN111581488B (zh) 一种数据处理方法及装置、电子设备和存储介质
KR20210114511A (ko) 얼굴 이미지 인식 방법 및 장치, 전자 기기 및 저장 매체
CN111931844B (zh) 图像处理方法及装置、电子设备和存储介质
CN110532956B (zh) 图像处理方法及装置、电子设备和存储介质
WO2022166069A1 (zh) 深度学习网络确定方法、装置、电子设备及存储介质
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN111582383B (zh) 属性识别方法及装置、电子设备和存储介质
CN112906484B (zh) 一种视频帧处理方法及装置、电子设备和存储介质
CN113792207A (zh) 一种基于多层次特征表示对齐的跨模态检索方法
KR20210024631A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체
CN110659690A (zh) 神经网络的构建方法及装置、电子设备和存储介质
CN115035158B (zh) 目标跟踪的方法及装置、电子设备和存储介质
CN113781518B (zh) 神经网络结构搜索方法及装置、电子设备和存储介质
CN111027617A (zh) 神经网络训练及图像识别方法、装置、设备和存储介质
CN112307281A (zh) 一种实体推荐方法及装置
CN116166843B (zh) 基于细粒度感知的文本视频跨模态检索方法和装置