KR20210075140A - 이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체 - Google Patents

이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체 Download PDF

Info

Publication number
KR20210075140A
KR20210075140A KR1020217013985A KR20217013985A KR20210075140A KR 20210075140 A KR20210075140 A KR 20210075140A KR 1020217013985 A KR1020217013985 A KR 1020217013985A KR 20217013985 A KR20217013985 A KR 20217013985A KR 20210075140 A KR20210075140 A KR 20210075140A
Authority
KR
South Korea
Prior art keywords
image
feature
processing
self
convolution kernel
Prior art date
Application number
KR1020217013985A
Other languages
English (en)
Inventor
항 첸
펭 주
Original Assignee
선전 센스타임 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 선전 센스타임 테크놀로지 컴퍼니 리미티드 filed Critical 선전 센스타임 테크놀로지 컴퍼니 리미티드
Publication of KR20210075140A publication Critical patent/KR20210075140A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • G06K9/00778
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • G06K9/46
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Primary Health Care (AREA)
  • Quality & Reliability (AREA)

Abstract

본 출원은 이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체를 개시한다. 상기 방법은, 처리될 이미지, 제1 컨볼루션 커널 및 제2 컨볼루션 커널을 획득하는 단계 - 상기 제1 컨볼루션 커널의 수용야와 상기 제2 컨볼루션 커널의 수용야는 상이함 - ; 제1 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득하는 단계; 및 상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 제1 군집 밀도 이미지를 획득하는 단계를 포함한다. 상응하는 장치를 더 개시한다.

Description

이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체
본 출원은 2019년 11월 27일에 중국 특허청에 제출한 출원 번호가 201911182723.7이며, 출원 명칭이 "이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체"인 중국 특허 출원의 우선권을 요청하며, 그 전부 내용은 참조로서 본 출원에 인용된다.
본 출원은 이미지 처리 기술분야에 관한 것으로서, 특히 이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체에 관한 것이다.
공공 장소에 인류량이 과하게 많을 경우, 압사 사고와 같은 공공 사고가 쉽게 발생된다. 따라서 공공 장소에서 군집 카운팅을 수행하는 방법은 크나큰 의미를 갖는다.
고유 방법은 딥러닝 기술에 기반하여 공공 장소의 이미지를 처리하여, 이미지에서의 특징 정보를 추출할 수 있고, 상기 특징 정보에 따라 공공 장소의 이미지에 대응되는 군집 밀도 이미지를 결정할 수 있음으로써, 군집 밀도 이미지에 따라 상기 공공 장소의 이미지에서의 인수를 결정하여, 군집 카운팅을 구현할 수 있다.
본 출원은 이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체를 제공한다.
제1 측면에 있어서, 이미지 처리 방법을 제공하고, 상기 방법은,
처리될 이미지, 제1 컨볼루션 커널 및 제2 컨볼루션 커널을 획득하는 단계 - 상기 제1 컨볼루션 커널의 수용야와 상기 제2 컨볼루션 커널의 수용야는 상이함 - ;
상기 제1 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득하는 단계; 및
상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 제1 군집 밀도 이미지를 획득하는 단계를 포함한다.
상기 측면에 있어서, 수용야가 상이한 제1 컨볼루션 커널 및 제2 컨볼루션 커널을 사용하여 각각 처리될 이미지에 대해 컨볼루션 처리를 수행하는 것을 통해, 상이한 스케일 하의 처리될 이미지의 내용을 설명하는 정보를 추출하여, 제1 특징 이미지 및 제2 특징 이미지를 각각 획득한다. 제1 특징 이미지 및 제2 특징 이미지에 대해 융합 처리를 수행하는 것을 통해, 상이한 스케일 하의 처리될 이미지의 내용을 설명하는 정보를 이용함으로써, 획득된 처리될 이미지에 대응되는 군집 밀도 이미지의 정밀도를 향상시킨다.
한 가지 구현 가능한 방식에 있어서, 상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 제1 군집 밀도 이미지를 획득하기 전, 상기 방법은,
상기 처리될 이미지에 대해 제1 특징 추출 처리를 수행하여, 제1 자체 주의력 이미지를 획득하고, 상기 처리될 이미지에 대해 제2 특징 추출 처리를 수행하여, 제2 자체 주의력 이미지를 획득하는 단계 - 상기 제1 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지는 상기 처리될 이미지의 스케일 정보를 나타내기 위한 것이며, 상기 제1 자체 주의력 이미지에 의해 나타낸 스케일 정보와 상기 제2 자체 주의력 이미지에 의해 나타낸 스케일 정보는 상이함 - ; 및
상기 제1 자체 주의력 이미지에 따라 상기 제1 특징 이미지의 제1 가중치를 결정하고, 상기 제2 자체 주의력 이미지에 따라 상기 제2 특징 이미지의 제2 가중치를 결정하는 단계를 더 포함하며;
상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 제1 군집 밀도 이미지를 획득하는 단계는,
상기 제1 가중치 및 상기 제2 가중치에 따라 상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 상기 제1 군집 밀도 이미지를 획득하는 단계를 포함한다.
상기 구현 가능한 방식에 있어서, 처리될 이미지에 대해 제1 특징 추출 처리 및 제2 특징 추출 처리를 각각 수행하는 것을 통해 상이한 스케일 하의 처리될 이미지의 정보를 추출하여, 제1 자체 주의력 이미지 및 제2 자체 주의력 이미지를 획득한다. 제1 자체 주의력 이미지에 따라 제1 특징 이미지의 제1 가중치를 결정하고, 제2 자체 주의력 이미지에 따라 제2 특징 이미지의 제2 가중치를 결정하며, 제1 가중치 및 제2 가중치에 따라 제1 특징 이미지 및 제2 특징 이미지에 대해 융합 처리를 수행하여, 획득된 제1 군집 밀도 이미지의 정밀도를 향상시킬 수 있다.
다른 구현 가능한 방식에 있어서, 상기 제1 가중치 및 상기 제2 가중치에 따라 상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 상기 제1 군집 밀도 이미지를 획득하는 단계는,
상기 제1 가중치와 상기 제1 특징 이미지 사이의 점곱을 결정하여, 제3 특징 이미지를 획득하는 단계;
상기 제2 가중치와 상기 제2 특징 이미지 사이의 점곱을 결정하여, 제4 특징 이미지를 획득하는 단계; 및
상기 제3 특징 이미지 및 상기 제4 특징 이미지에 대해 융합 처리를 수행하여, 상기 제1 군집 밀도 이미지를 획득하는 단계를 포함한다.
또 한 가지 구현 가능한 방식에 있어서, 상기 제1 자체 주의력 이미지에 따라 상기 제1 특징 이미지의 제1 가중치를 결정하고, 상기 제2 자체 주의력 이미지에 따라 상기 제2 특징 이미지의 제2 가중치를 결정하는 단계는,
상기 제1 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지에 대해 정규화 처리를 수행하여, 상기 제1 자체 주의력 이미지에 대응되는 제3 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지에 대응되는 제4 자체 주의력 이미지를 획득하는 단계; 및
상기 제3 자체 주의력 이미지를 상기 제1 가중치로 사용하고, 상기 제4 자체 주의력 이미지를 상기 제2 가중치로 사용하는 단계를 포함한다.
상기 구현 가능한 방식에 있어서, 제1 자체 주의력 이미지 및 제2 자체 주의력 이미지에 대해 정규화 처리를 수행하는 것을 통해, 제1 자체 주의력 이미지와 제2 자체 주의력 이미지 중 동일한 위치의 픽셀 포인트의 픽셀값의 합이 1이 되도록 할 수 있다. 다음 제1 자체 주의력 이미지를 제1 가중치로 사용하고, 제2 자체 주의력 이미지를 제2 가중치로 사용하는 것을 통해 제1 특징 이미지 및 제2 특징 이미지에 대해 융합 처리를 수행하여, 처리될 이미지 중 상이한 이미지 영역에 대해 상이한 수용야의 컨볼루션 처리를 수행하는 것을 구현할 수 있음으로써, 획득된 제1 군집 밀도 이미지의 정밀도를 향상시킨다.
또 한 가지 구현 가능한 방식에 있어서, 상기 제1 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득하기 전, 상기 방법은,
상기 처리될 이미지에 대해 제3 특징 추출 처리를 수행하여, 제5 특징 이미지를 획득하는 단계를 더 포함하고;
상기 제1 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득하는 단계는,
상기 제1 컨볼루션 커널을 사용하여 상기 제5 특징 이미지에 대해 컨볼루션 처리를 수행하여 상기 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 제5 특징 이미지에 대해 컨볼루션 처리를 수행하여 상기 제2 특징 이미지를 획득하는 단계를 포함하며;
상기 처리될 이미지에 대해 제1 특징 추출 처리를 수행하여, 제1 자체 주의력 이미지를 획득하고, 상기 처리될 이미지에 대해 제2 특징 추출 처리를 수행하여, 제2 자체 주의력 이미지를 획득하는 단계는,
상기 제5 특징 이미지에 대해 상기 제1 특징 추출 처리를 수행하여, 상기 제1 자체 주의력 이미지를 획득하고, 상기 제5 특징 이미지에 대해 상기 제2 특징 추출 처리를 수행하여, 상기 제2 자체 주의력 이미지를 획득하는 단계를 포함한다.
상기 구현 가능한 방식에 있어서, 제1 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 제2 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득하기 전, 처리될 이미지에 대해 제3 특징 추출 처리를 수행하여, 처리될 이미지의 특징 정보를 추출하여, 제5 특징 이미지를 획득한다. 제1 컨볼루션 커널을 사용하여 제5 특징 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 제2 컨볼루션 커널을 사용하여 상기 제5 특징 이미지에 대해 컨볼루션 처리를 수행하여 상기 제2 특징 이미지를 획득한다. 이로써 처리될 이미지로부터 더욱 풍부한 특징 정보를 추출할 수 있다.
또 한 가지 구현 가능한 방식에 있어서, 상기 제1 컨볼루션 커널 및 상기 제2 컨볼루션 커널은 확장 컨볼루션 커널이고, 상기 제1 컨볼루션 커널의 크기와 상기 제2 컨볼루션 커널의 크기는 동일하며, 상기 제1 컨볼루션 커널의 가중치와 상기 제2 컨볼루션 커널의 가중치는 동일하며, 상기 제1 컨볼루션 커널의 확장률과 상기 제2 컨볼루션 커널의 확장률은 상이하다.
상기 구현 가능한 방식에 있어서, 제1 컨볼루션 커널 및 제2 컨볼루션 커널이 확장 컨볼루션 커널인 경우, 제1 컨볼루션 커널의 가중치와 제2 컨볼루션 커널의 가중치를 동일하게 취할 수 있고, 제1 컨볼루션 커널의 수용야와 제2 컨볼루션 커널의 수용야를 상이하게 취할 수 있다. 이로써, 제1 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행하여 획득된 제1 특징 이미지에 포함된 정보 및 제2 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 커널 처리를 수행하여 획득된 제2 특징 이미지에 포함된 정보는 스케일 상의 차이만 존재하게 된다. 제1 특징 이미지 및 제2 특징 이미지에 대해 융합 처리를 수행할 경우, 상이한 스케일 하의 처리될 이미지의 정보를 이용하여 획득된 제1 군집 밀도 이미지의 정밀도를 더욱 잘 향상시킬 수 있다.
또 한 가지 구현 가능한 방식에 있어서, 상기 제1 컨볼루션 커널 또는 상기 제2 컨볼루션 커널의 확장률은 기준값이다.
상기 구현 가능한 방식에 있어서, 제1 컨볼루션 커널 또는 제2 컨볼루션 커널의 확장률을 0(즉 기준값)으로 설정하는 것을 통해, 제1 컨볼루션 커널 또는 제2 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행할 경우 처리될 이미지에 대해 수용야가 1인 컨볼루션 처리를 수행하는 것을 구현할 수 있어, 처리될 이미지 중 스케일이 작은 이미지 영역의 정보를 더욱 잘 추출한다.
또 한 가지 구현 가능한 방식에 있어서, 상기 방법은, 상기 제1 군집 밀도 이미지에서의 픽셀값의 합을 결정하여, 상기 처리될 이미지에서의 인수를 획득하는 단계를 더 포함한다.
상기 구현 가능한 방식에 있어서, 제1 군집 밀도 이미지에 따라 처리될 이미지에서의 인수를 결정할 수 있다.
또 한 가지 구현 가능한 방식에 있어서, 상기 방법은 군집 카운팅 네트워크에 적용되고;
상기 군집 카운팅 네트워크의 훈련 과정은,
샘플 이미지를 획득하는 단계;
상기 군집 카운팅 네트워크를 사용하여 상기 샘플 이미지를 처리하여, 제2 군집 밀도 이미지를 획득하는 단계;
상기 샘플 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 네트워크 손실을 획득하는 단계; 및
상기 네트워크 손실에 기반하여 상기 군집 카운팅 네트워크의 파라미터를 조정하는 단계를 포함한다.
상기 구현 가능한 방식에 있어서, 훈련된 군집 카운팅 네트워크를 사용하여 처리될 이미지를 처리하여, 처리될 이미지에 대응되는 군집 밀도 이미지를 획득할 수 있다.
또 한 가지 구현 가능한 방식에 있어서, 상기 샘플 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 네트워크 손실을 획득하기 전, 상기 방법은,
충격 함수, 가우스 커널 및 상기 샘플 이미지에 따라, 상기 샘플 이미지의 실제 군집 밀도 이미지를 획득하는 단계를 더 포함하고;
상기 샘플 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 네트워크 손실을 획득하는 단계는,
상기 실제 군집 밀도 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 상기 네트워크 손실을 획득하는 단계를 포함한다.
상기 구현 가능한 방식에 있어서, 샘플 이미지의 실제 군집 밀도 이미지를 군집 카운팅 네트워크의 모니터링 데이터로 사용하고, 실제 군집 밀도 이미지와 제2 군집 밀도 이미지 사이의 차이에 따라, 군집 카운팅 네트워크의 네트워크 손실을 결정하여, 획득된 네트워크 손실의 정밀도를 향상시킬 수 있음으로써, 군집 카운팅 네트워크에 대한 훈련 효과를 향상시킨다.
또 한 가지 구현 가능한 방식에 있어서, 상기 군집 카운팅 네트워크를 통해 상기 샘플 이미지를 처리하여, 제2 군집 밀도 이미지를 획득하기 전, 상기 방법은,
상기 샘플 이미지에 대해 사전 처리를 수행하여, 적어도 하나의 사전 처리된 이미지를 획득하는 단계를 더 포함하고;
상기 군집 카운팅 네트워크를 통해 상기 샘플 이미지를 처리하여, 제2 군집 밀도 이미지를 획득하는 단계는,
상기 군집 카운팅 네트워크를 사용하여 상기 적어도 하나의 사전 처리된 이미지를 처리하여, 적어도 하나의 제3 군집 밀도 이미지를 획득하는 단계 - 상기 사전 처리된 이미지와 상기 제3 군집 밀도 이미지는 일대일 대응됨 - 를 포함하며;
상기 샘플 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 네트워크 손실을 획득하는 단계는,
상기 적어도 하나의 사전 처리된 이미지에서의 타깃 이미지 및 상기 타깃 이미지에 대응되는 제3 군집 밀도 이미지 사이의 차이에 따라, 상기 네트워크 손실을 획득하는 단계를 포함한다.
상기 구현 가능한 방식에 있어서, 샘플 이미지를 군집 카운팅 네트워크에 입력하기 전, 샘플 이미지에 대해 사전 처리를 수행하는 것을 통해, 적어도 하나의 사전 처리된 이미지를 획득하고, 상기 적어도 하나의 사전 처리된 이미지를 훈련 데이터로서 군집 카운팅 네트워크에 입력한다. 이로써, 군집 카운팅 네트워크의 훈련 데이터 세트를 확장하려는 효과를 달성할 수 있다.
또 한 가지 구현 가능한 방식에 있어서, 상기 사전 처리는, 상기 샘플 이미지로부터 소정 사이즈의 이미지를 캡처링하는 것, 상기 샘플 이미지 또는 상기 소정 사이즈의 이미지에 대해 플립 처리를 수행하는 것 중 적어도 하나를 포함한다.
제2 측면에 있어서, 이미지 처리 장치를 제공하고, 상기 장치는,
처리될 이미지, 제1 컨볼루션 커널 및 제2 컨볼루션 커널을 획득하기 위한 획득 유닛 - 상기 제1 컨볼루션 커널의 수용야와 상기 제2 컨볼루션 커널의 수용야는 상이함 - ;
상기 제1 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득하기 위한 컨볼루션 처리 유닛; 및
상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 제1 군집 밀도 이미지를 획득하기 위한 융합 처리 유닛을 포함한다.
한 가지 구현 가능한 방식에 있어서, 상기 장치는,
상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 제1 군집 밀도 이미지를 획득하기 전, 상기 처리될 이미지에 대해 제1 특징 추출 처리를 수행하여, 제1 자체 주의력 이미지를 획득하고, 상기 처리될 이미지에 대해 제2 특징 추출 처리를 수행하여, 제2 자체 주의력 이미지를 획득하기 위한 특징 추출 처리 유닛 - 상기 제1 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지는 상기 처리될 이미지의 스케일 정보를 나타내기 위한 것이며, 상기 제1 자체 주의력 이미지에 의해 나타낸 스케일 정보와 상기 제2 자체 주의력 이미지에 의해 나타낸 스케일 정보는 상이함 - ; 및
상기 제1 자체 주의력 이미지에 따라 상기 제1 특징 이미지의 제1 가중치를 결정하고, 상기 제2 자체 주의력 이미지에 따라 상기 제2 특징 이미지의 제2 가중치를 결정하기 위한 제1 결정 유닛을 더 포함하며;
상기 융합 처리 유닛은,
상기 제1 가중치 및 상기 제2 가중치에 따라 상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 상기 제1 군집 밀도 이미지를 획득하기 위한 것이다.
다른 한 가지 구현 가능한 방식에 있어서, 상기 융합 처리 유닛은 구체적으로,
상기 제1 가중치와 상기 제1 특징 이미지 사이의 점곱을 결정하여, 제3 특징 이미지를 획득하고;
상기 제2 가중치와 상기 제2 특징 이미지 사이의 점곱을 결정하여, 제4 특징 이미지를 획득하며;
상기 제3 특징 이미지 및 상기 제4 특징 이미지에 대해 융합 처리를 수행하여, 상기 제1 군집 밀도 이미지를 획득하기 위한 것이다.
또 한 가지 구현 가능한 방식에 있어서, 상기 제1 결정 유닛은,
상기 제1 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지에 대해 정규화 처리를 수행하여, 상기 제1 자체 주의력 이미지에 대응되는 제3 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지에 대응되는 제4 자체 주의력 이미지를 획득하고;
상기 제3 자체 주의력 이미지를 상기 제1 가중치로 사용하고, 상기 제4 자체 주의력 이미지를 상기 제2 가중치로 사용하기 위한 것이다.
또 한 가지 구현 가능한 방식에 있어서, 상기 특징 추출 처리 유닛은 또한, 상기 제1 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득하기 전, 상기 처리될 이미지에 대해 제3 특징 추출 처리를 수행하여, 제5 특징 이미지를 획득하기 위한 것이고;
상기 컨볼루션 처리 유닛은,
상기 제1 컨볼루션 커널을 사용하여 상기 제5 특징 이미지에 대해 컨볼루션 처리를 수행하여 상기 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 제5 특징 이미지에 대해 컨볼루션 처리를 수행하여 상기 제2 특징 이미지를 획득하기 위한 것이며;
상기 특징 추출 처리 유닛은 또한,
상기 제5 특징 이미지에 대해 상기 제1 특징 추출 처리를 수행하여, 상기 제1 자체 주의력 이미지를 획득하고, 상기 제5 특징 이미지에 대해 상기 제2 특징 추출 처리를 수행하여, 상기 제2 자체 주의력 이미지를 획득하기 위한 것이다.
또 한 가지 구현 가능한 방식에 있어서, 상기 제1 컨볼루션 커널 및 상기 제2 컨볼루션 커널은 확장 컨볼루션 커널이고, 상기 제1 컨볼루션 커널의 크기와 상기 제2 컨볼루션 커널의 크기는 동일하며, 상기 제1 컨볼루션 커널의 가중치와 상기 제2 컨볼루션 커널의 가중치는 동일하며, 상기 제1 컨볼루션 커널의 확장률과 상기 제2 컨볼루션 커널의 확장률은 상이하다.
또 한 가지 구현 가능한 방식에 있어서, 상기 제1 컨볼루션 커널 또는 상기 제2 컨볼루션 커널의 확장률은 기준값이다.
또 한 가지 구현 가능한 방식에 있어서, 상기 장치는, 상기 제1 군집 밀도 이미지에서의 픽셀값의 합을 결정하여, 상기 처리될 이미지에서의 인수를 획득하기 위한 제2 결정 유닛을 더 포함한다.
또 한 가지 구현 가능한 방식에 있어서, 상기 장치에 의해 실행된 이미지 처리 방법은 군집 카운팅 네트워크에 적용되고;
상기 장치는, 상기 군집 카운팅 네트워크를 훈련하기 위한 훈련 유닛을 더 포함하고, 상기 군집 카운팅 네트워크의 훈련 과정은,
샘플 이미지를 획득하는 단계;
상기 군집 카운팅 네트워크를 사용하여 상기 샘플 이미지를 처리하여, 제2 군집 밀도 이미지를 획득하는 단계;
상기 샘플 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 네트워크 손실을 획득하는 단계; 및
상기 네트워크 손실에 기반하여 상기 군집 카운팅 네트워크의 파라미터를 조정하는 단계를 포함한다.
또 한 가지 구현 가능한 방식에 있어서, 상기 훈련 유닛은 또한,
상기 샘플 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 네트워크 손실을 획득하기 전, 충격 함수, 가우스 커널 및 상기 샘플 이미지에 따라, 상기 샘플 이미지의 실제 군집 밀도 이미지를 획득하고;
상기 실제 군집 밀도 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 상기 네트워크 손실을 획득하기 위한 것이다.
또 한 가지 구현 가능한 방식에 있어서, 상기 훈련 유닛은 또한,
상기 군집 카운팅 네트워크를 통해 상기 샘플 이미지를 처리하여, 제2 군집 밀도 이미지를 획득하기 전, 상기 샘플 이미지에 대해 사전 처리를 수행하여, 적어도 하나의 사전 처리된 이미지를 획득하고;
상기 군집 카운팅 네트워크를 사용하여 상기 적어도 하나의 사전 처리된 이미지를 처리하여, 적어도 하나의 제3 군집 밀도 이미지를 획득하며 - 상기 사전 처리된 이미지와 상기 제3 군집 밀도 이미지는 일대일 대응됨 - 를 포함하며;
상기 적어도 하나의 사전 처리된 이미지에서의 타깃 이미지 및 상기 타깃 이미지에 대응되는 제3 군집 밀도 이미지 사이의 차이에 따라, 상기 네트워크 손실을 획득하기 위한 것이다.
또 한 가지 구현 가능한 방식에 있어서, 상기 사전 처리는, 상기 샘플 이미지로부터 소정 사이즈의 이미지를 캡처링하는 것, 상기 샘플 이미지 또는 상기 소정 사이즈의 이미지에 대해 플립 처리를 수행하는 것 중 적어도 하나를 포함한다.
제3 측면에 있어서, 프로세서를 제공하고, 상기 프로세서는 상기 제1 측면 및 어느 한 가지 구현 가능한 방식과 같은 방법을 실행하기 위한 것이다.
제4 측면에 있어서, 상호 연결된 프로세서 및 메모리를 포함하는 전자 기기를 더 제공하고, 상기 메모리는 컴퓨터 프로그램 코드를 저장하기 위한 것이며, 상기 컴퓨터 프로그램 코드는 컴퓨터 명령어를 포함하며, 상기 프로세서가 상기 컴퓨터 명령어를 실행할 경우, 상기 전자 기기는 상기 제1 측면 및 어느 하나의 구현 가능한 방식과 같은 방법을 실행한다.
제5 측면에 있어서, 컴퓨터 판독 가능한 저장 매체를 더 제공하고, 상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 프로그램이 저장되어 있으며, 상기 컴퓨터 프로그램은 프로그램 명령어를 포함하고, 상기 프로그램 명령어가 전자 기기의 프로세서에 의해 실행될 경우, 상기 프로세서가 상기 제1 측면 및 어느 하나의 구현 가능한 방식과 같은 방법을 실행하도록 한다.
제6 측면에 있어서, 명령어를 포함하는 컴퓨터 프로그램 제품을 제공하고, 상기 컴퓨터 프로그램 제품이 컴퓨터에서 작동될 경우, 컴퓨터가 상기 제1 측면 및 제1 측면의 어느 한 가능한 구현 방식의 방법을 실행하도록 한다.
이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 다만 예시적이고 한정적인 것이며 본 발명을 한정하지 않는다.
본 출원의 실시예 또는 배경 기술에서의 기술방안을 더 명확하게 설명하기 위해, 아래에 본 출원의 실시예 또는 배경 기술에서 사용되어야 하는 첨부 도면을 설명한다.
아래의 도면은 본 명세서의 일부분으로서 명세서 전체를 구성하며, 이러한 도면은 본 발명에 맞는 실시예를 예시하여, 명세서와 함께 본 발명의 기술방안을 설명하기 위한것이다.
도 1은 본 출원의 실시예에서 제공한 이미지 처리 방법의 흐름 예시도이다.
도 2a는 본 출원의 실시예에서 제공한 컨볼루션 커널의 예시도이다.
도 2b는 본 출원의 실시예에서 제공한 컨볼루션 커널의 가중치의 예시도이다.
도 3은 본 출원의 실시예에서 제공한 동일한 위치의 요소의 예시도이다.
도 4는 본 출원의 실시예에서 제공한 군집 이미지 예시도이다.
도 5는 본 출원의 실시예에서 제공한 다른 이미지 처리 방법의 흐름 예시도이다.
도 6a는 본 출원의 실시예에서 제공한 확장 컨볼루션 커널의 예시도이다.
도 6b는 본 출원의 실시예에서 제공한 다른 확장 컨볼루션 커널의 예시도이다.
도 7은 본 출원의 실시예에서 제공한 또 다른 확장 컨볼루션 커널의 예시도이다.
도 8은 본 출원의 실시예에서 제공한 군집 카운팅 네트워크의 구조 예시도이다.
도 9는 본 출원의 실시예에서 제공한 스케일 인식형 컨볼루션 계층의 구조 예시도이다.
도 10은 본 출원의 실시예에서 제공한 이미지 처리 장치의 구조 예시도이다.
도 11은 본 출원의 실시예에서 제공한 이미지 처리 장치의 하드웨어 구조 예시도이다.
본 기술 분야의 기술자가 본 출원의 방안을 더 잘 이해할 수 있도록 하기 위해, 아래에 본 출원의 실시예에서의 도면을 결합하여, 본 출원의 실시예에서의 기술 방안을 명확하고 완전하게 설명하며, 설명된 실시예는 본 출원의 실시예 중 일부일 뿐이며, 모든 실시예가 아님은 자명한 것이다. 본 출원의 실시예에 기반하여, 본 분야 기술자가 창조성 노동 없이 얻은 다른 실시예는 전부 본 출원의 보호 범위에 속해야 한다.
본 출원의 명세서 및 청구 범위 및 상기 도면에서 "제1 ", "제2 " 등 용어는 상이한 대상을 구별하기 위한 것이지, 특정 순서를 설명하기 위한 것은 아니다. 또한, 용어 "포함" 및 "갖는" 및 그것들의 임의의 변형은 비배타적인 포함을 포함하도록 의도된다. 예를 들어, 일련의 단계 또는 유닛이 포함된 과정, 방법, 시스템, 제품 또는 기기는 나열된 단계 또는 유닛에 한정되지 않으며, 선택적으로 나열되지 않은 단계 또는 유닛을 더 포함하거나, 선택적으로 이러한 과정, 방법, 제품 또는 기기에 고유한 다른 단계 또는 유닛을 더 포함한다.
본 명세서에서 "실시예"에 대한 언급은, 실시예와 결합하여 설명된 특정 특징, 구조 또는 특성이 본 출원의 적어도 하나의 실시예에 포함될 수 있음을 의미한다. 명세서에서의 각 위치에서 상기 문구의 출현은 반드시 동일한 실시예를 가리키는 것은 아니며, 다른 실시예와 상호 배타적인 독립적이거나 대안적인 실시예도 아니다. 본 기술 분야의 기술자는 본문에 설명된 실시예가 다른 실시예에 결합될 수 있음을 명백하고 암시적으로 이해한다.
공공 장소(예를 들어 광장, 슈퍼, 지하철 역, 선창 등)에서, 때로는 인류량이 과하게 많은 경우가 존재할 수 있음으로써, 인파가 과하게 밀집된 경우의 발생을 초래한다. 이때 압사 사고와 같은 일부 공공 사고가 쉽게 발생할 수 있다. 따라서, 공공 장소에서 군집 카운팅을 수행하는 방법은 매우 의미가 있다.
딥러닝 기술의 발전을 따라, 딥러닝 방법에 기반하여 이미지에서의 인수를 결정할 수 있어, 군집 카운팅을 구현한다. 고유의 딥러닝 방법은 컨볼루션 커널을 사용하여 전체 이미지에 대해 컨볼루션 처리를 수행하는 것을 통해 이미지에서의 특징 정보를 추출하고, 특징 정보에 따라 이미지에서의 인수를 결정한다. 컨볼루션 커널의 수용야가 고정되어 변하지 않으므로, 컨볼루션 커널을 사용하여 전체 이미지에 대해 컨볼루션 처리를 수행하면, 즉 이미지 중 상이한 스케일의 내용에 대해 동일한 수용야의 컨볼루션 처리를 수행하고, 상이한 인물이 이미지에서의 스케일이 상이하면, 이미지에서의 스케일 정보를 효과적으로 추출할 수 없기에, 결정된 인수의 오차를 초래한다.
본 출원에서, 이미지 중 가까운 곳의 인물에 대응되는 이미지 스케일은 크고, 이미지 중 먼 곳의 인물에 대응되는 이미지 스케일는 작다. 본 출원의 실시예에서의 "먼 곳"은 이미지 중 인물에 대응되는 실제 인물과 상기 이미지를 수집하는 촬상 기기 사이의 거리가 먼 것을 가리키고, "가까운 것"은 이미지 중 인물에 대응되는 실제 인물과 상기 이미지를 수집하는 촬상 기기 사이의 거리가 가까운 것을 가리킨다.
컨볼루션 신경 네트워크에 있어서, 수용야(receptive field)의 정의는 컨볼루션 신경 네트워크의 각 층에 의해 출력된 특징 맵(feature map)에서의 픽셀 포인트가 입력 이미지에서 맵핑된 영역 크기이다. 본 출원에 있어서, 컨볼루션 커널의 수용야는 상기 컨볼루션 커널을 사용하여 이미지에 대해 컨볼루션 처리를 수행한 수용야이다.
본 출원의 실시예에서 제공한 기술방안은 이미지에서의 스케일 정보를 추출할 수 있음으로써, 결정된 인수의 정밀도를 향상시킨다.
아래에, 본 출원의 실시예에서의 도면을 결합하여 본 출원의 실시예를 설명한다.
도 1을 참조하면, 도 1은 본 출원의 실시예(1)에서 제공한 이미지 처리 방법의 흐름 예시도이다.
단계 101에 있어서, 처리될 이미지, 제1 컨볼루션 커널 및 제2 컨볼루션 커널을 획득하고, 상기 제1 컨볼루션 커널의 수용야와 상기 제2 컨볼루션 커널의 수용야는 상이하다.
본 출원의 실시예의 실행 주체는 서버, 핸드폰, 컴퓨터, 태블릿 컴퓨터 등 단말 하드웨어일 수 있다. 본 출원의 실시예에서 제공한 방법은 프로세서를 통해 컴퓨터가 실행 가능한 코드를 작동하는 방식을 통해 실행될 수도 있다. 상기 처리될 이미지는 임의의 이미지일 수 있다. 예를 들어, 처리될 이미지는 인물 대상을 포함할 수 있고, 여기서, 몸체와 사지(아래에 몸체 및 사지를 인체로 지칭함)가 없는 처리될 이미지는 인물 얼굴만 포함할 수 있고, 인물 얼굴을 포함하지 않고 인체만 포함할 수도 있으며, 또한 하체 또는 상체만 포함할 수 있다. 본 출원에서 처리될 이미지에 구체적으로 포함된 인체 영역을 한정하지 않는다. 또 예를 들어, 처리될 이미지는 동물을 포함할 수 있다. 또 예를 들어, 처리될 이미지는 식물을 포함할 수 있다. 본 출원에서 처리될 이미지에 포함된 내용을 한정하지 않는다.
다음의 반복적인 설명을 실행하기 전, 먼저 본 출원의 실시예에서의 컨볼루션 커널의 가중치의 함의를 정의한다. 본 출원의 실시예에 있어서, 채널이 1인 컨볼루션 커널은 n*n의 형태로 존재하고, 상기 채널은 n*n 개의 요소를 포함하며, 각 요소는 하나의 값이 존재하며, 상기 매트릭스 중 요소의 값은 컨볼루션 커널의 가중치이다. 도 2a에 도시된 3*3의 컨볼루션 커널에서, 요소 a의 값이 44이고, 요소 b의 값이 118이며, 요소 c의 값이 192이며, 요소 d의 값이 32이며, 요소 e의 값이 83이며, 요소 f의 값이 204이며, 요소 g의 값이 61이며, 요소 h의 값이 174이며, 요소 i의 값이 250이면, 상기 3*3의 컨볼루션 커널의 가중치는 도 2b에 도시된 바와 같은 3*3의 매트릭스이다.
본 출원의 실시예에 있어서, 제1 컨볼루션 커널의 수용야와 제2 컨볼루션 커널의 수용야가 상이한 것을 만족할 경우, 제1 컨볼루션 커널 및 제2 컨볼루션 커널은 임의의 크기의 컨볼루션 커널일 수 있고, 제1 컨볼루션 커널의 가중치 및 제2 컨볼루션 커널의 가중치는 임의의 자연수일 수 있으며, 본 실시예에서 제1 컨볼루션 커널의 크기, 제2 컨볼루션 커널의 크기, 제1 컨볼루션 커널의 가중치 및 제2 컨볼루션 커널의 가중치를 한정하지 않는다.
처리될 이미지를 획득하는 방식은 사용자가 입력 컴포넌트를 통해 입력한 처리될 이미지를 수신하는 것일 수 있고, 단말에 의해 송신된 처리될 이미지를 수신하는 것일 수도 있다. 제1 컨볼루션 커널을 획득하는 방식은 사용자가 입력 컴포넌트를 통해 입력한 제1 컨볼루션 커널을 수신한 것일 수 있고, 단말에 의해 송신된 제1 컨볼루션 커널을 수신하는 것일 수도 있다. 제2 컨볼루션 커널을 획득하는 방식은 사용자가 입력 컴포넌트를 통해 입력한 제2 컨볼루션 커널을 수신하는 것일 수 있고, 단말에 의해 송신된 제2 컨볼루션 커널을 수신하는 것일 수도 있다. 상기 입력 컴포넌트는 키보드, 마우스, 터치 스크린, 터치 패널 및 오디오 입력 장치 등을 포함한다. 상기 단말은 핸드폰, 컴퓨터, 태블릿 컴퓨터, 서버 등을 포함한다.
단계 102에 있어서, 상기 제1 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득한다.
제1 컨볼루션 커널의 수용야와 제2 컨볼루션 커널의 수용야가 상이하므로, 제1 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행하는 것 및 제2 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행하는 것은 상이한 수용야로 이미지를 "관찰"하는 것에 비해, 상이한 스케일 하의 이미지 정보를 획득하는 것을 구현한다. 즉 제1 특징 이미지 및 제2 특징 이미지는 처리될 이미지의 내용을 설명하기 위한 정보를 포함하지만, 제1 특징 이미지에 포함된 정보의 스케일과 제2 특징 이미지에 포함된 정보의 스케일은 상이하다.
단계 103에 있어서, 상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 제1 군집 밀도 이미지를 획득한다.
본 출원의 실시예에 있어서, 군집 밀도 이미지는 군집 밀도 정보를 포함한다. 군집 밀도 이미지에서의 각 픽셀 포인트의 픽셀값은 상기 픽셀 포인트 위치에서의 인수를 나타낸다. 예를 들어, 군집 밀도 이미지에서의 픽셀 포인트 A의 픽셀값이 0.05이면, 픽셀 포인트 A 위치에는 0.05 명이 존재한다.
이해해야 할 것은, 한 사람에 의해 커버된 이미지 영역이 적어도 하나의 픽셀 포인트를 포함하므로, 한 사람에 의해 커버된 이미지 영역이 하나의 픽셀 포인트일 경우, 상기 픽셀 포인트에 대응되는 픽셀값은 1이고, 한 사람에 의해 커버된 이미지 영역이 적어도 두 개의 픽셀 포인트일 경우, 상기 적어도 두 개의 픽셀 포인트의 픽셀값의 합은 1이다. 따라서, 군집 밀도 이미지에서의 픽셀값의 값의 범위는 0보다 크거나 같고 1보다 작거나 같다. 예를 들어, 인물 A에 의해 커버된 이미지 영역이 픽셀 포인트 a, 픽셀 포인트 b 및 픽셀 포인트 c를 포함하면, 픽셀 포인트 a의 픽셀값+픽셀 포인트 b의 픽셀값+픽셀 포인트 c의 픽셀값=1이다.
상기 제1 군집 밀도 이미지은 처리될 이미지에 대응되는 군집 밀도 이미지이고, 처리될 이미지에서의 군집 밀도 분포를 나타낼 수 있다. 제1 군집 밀도 이미지의 사이즈와 처리될 이미지의 사이즈는 동일하다. 본 실시예 중 이미지의 사이즈는 이미지의 너비 및 높이를 가리킨다. 제1 군집 밀도 이미지에서의 제1 픽셀 포인트의 픽셀값은 처리될 이미지에서의 제2 픽셀 포인트 위치에서의 인수를 나타내는데 사용될 수 있다. 여기서, 제1 픽셀 포인트가 제1 군집 밀도 이미지에서의 위치와 제2 픽셀 포인트가 처리될 이미지에서의 위치는 동일하다.
본 출원의 실시예에 있어서, 두 개의 이미지 중 동일한 위치의 픽셀 포인트는 도 3을 참조할 수 있고, 도 3에 도시된 바와 같이, 픽셀 포인트 A11이 이미지 A에서의 위치와 픽셀 포인트 B11이 이미지 B에서의 위치는 동일하고, 픽셀 포인트 A12가 이미지 A에서의 위치와 픽셀 포인트 k가 이미지 B12에서의 위치는 동일하며, 픽셀 포인트 A13이 이미지 A에서의 위치와 픽셀 포인트 B13이 이미지 B에서의 위치는 동일하며, 픽셀 포인트 A21이 이미지 A에서의 위치와 픽셀 포인트 B21이 이미지 B에서의 위치는 동일하며, 픽셀 포인트 A22가 이미지 A에서의 위치와 픽셀 포인트 B22가 이미지 B에서의 위치는 동일하며, 픽셀 포인트 A23이 이미지 A에서의 위치와 픽셀 포인트 B23이 이미지 B에서의 위치는 동일하며, 픽셀 포인트 A31이 이미지 A에서의 위치와 픽셀 포인트 B31이 이미지 B에서의 위치는 동일하며, 픽셀 포인트 A32가 이미지 A에서의 위치와 픽셀 포인트 B32가 이미지 B에서의 위치는 동일하며, 픽셀 포인트 A33이 이미지 A에서의 위치와 픽셀 포인트 B33이 이미지 B에서의 위치는 동일하다.
픽셀 포인트 x가 이미지 X에서의 위치와 픽셀 포인트 y가 이미지 Y에서의 위치는 동일하고, 설명의 간결함을 위해, 아래에 픽셀 포인트 x를 이미지 X에서 픽셀 포인트 y와 위치가 동일한 픽셀 포인트로 지칭하거나, 픽셀 포인트 y를 이미지 Y에서 픽셀 포인트 x와 위치가 동일한 픽셀 포인트로 지칭한다.
제1 특징 이미지가 처리될 이미지의 이미지 내용을 설명하는 정보의 스케일을 포함하고 제2 처리될 이미지가 처리될 이미지의 이미지 내용을 설명하는 정보의 스케일이 상이하므로, 제1 특징 이미지 및 제2 특징 이미지에 대해 융합 처리(예를 들어 대응되는 위치의 픽셀값의 가중 처리 등)를 수행하는 것을 통해, 상이한 스케일 하의 처리될 이미지의 이미지 내용을 설명하는 정보를 이용하여 처리될 이미지에 대응되는 군집 밀도 이미지, 즉 제1 군집 밀도 이미지를 생성할 수 있다. 이로써, 획득된 처리될 이미지에 대응되는 군집 밀도 이미지의 정밀도를 향상시킬 수 있음으로써, 획득된 처리될 이미지 중 인수의 정밀도를 향상시킨다.
이해해야 할 것은, 본 실시예에서 두 개의 수용야가 상이한 컨볼루션 커널(즉 제1 컨볼루션 커널 및 제2 컨볼루션 커널)을 통해 각각 처리될 이미지에 대해 컨볼루션 처리를 수행하여, 두 개의 스케일 하의 처리될 이미지의 이미지 내용을 설명하는 정보를 획득하는 것을 반복적으로 설명하였다. 그러나 실제 사용에 있어서, 3 개 또는 3 개 이상의 수용야가 상이한 컨볼루션 커널을 통해 각각 처리될 이미지에 대해 컨볼루션 처리를 수행하여, 3 개 또는 3 개 이상의 스케일 하의 처리될 이미지의 이미지 내용을 설명하는 정보를 획득하고, 상기 3 개 또는 3 개 이상의 스케일 하의 처리될 이미지의 이미지 내용을 설명하는 정보를 융합하여, 처리될 이미지에 대응되는 군집 밀도 이미지를 획득할 수도 있다.
선택적으로, 제1 군집 밀도 이미지를 획득한 후, 제1 군집 밀도 이미지 중 모든 픽셀 포인트의 픽셀값의 합을 결정하는 것을 통해, 처리될 이미지에서의 인수를 얻을 수 있다.
본 실시예에서 수용야가 상이한 제1 컨볼루션 커널 및 제2 컨볼루션 커널을 사용하여 각각 처리될 이미지에 대해 컨볼루션 처리를 수행하는 것을 통해, 상이한 스케일 하의 처리될 이미지의 내용을 설명하는 정보를 추출하여, 제1 특징 이미지 및 제2 특징 이미지를 각각 획득한다. 제1 특징 이미지 및 제2 특징 이미지에 대해 융합 처리를 수행하는 것을 통해, 상이한 스케일 하의 처리될 이미지의 내용을 설명하는 정보를 이용하여, 획득된 처리될 이미지에 대응되는 군집 밀도 이미지의 정밀도를 향상시킴으로써, 획득된 처리될 이미지 중 인수의 정밀도를 향상시킨다.
이미지에서, 가까운 곳의 인물에 의해 커버된 이미지 영역의 면적은 먼 곳의 인물에 의해 커버된 이미지 영역의 면적보다 크다. 예를 들어, 도 4중 인물 A는 인물 B에 비해 가까운 인물이고, 인물 A에 의해 커버된 이미지 영역의 면적은 인물 B에 의해 커버된 이미지 영역의 면적보다 크다. 그러나 가까운 곳의 인물에 의해 커버된 이미지 영역의 스케일은 크고, 먼 곳의 인물에 의해 커버된 이미지 영역의 스케일은 작다. 따라서, 인물에 의해 커버된 이미지 영역의 면적은 인물에 의해 커버된 이미지 영역의 스케일과 정비례 관계이다. 자명한 것은, 컨볼루션 처리된 수용야와 인물에 의해 커버된 이미지 영역의 면적이 동일할 경우, 컨볼루션 처리를 통해 획득된 인물에 의해 커버된 이미지 영역의 정보가 가장 풍부하다(아래에 인물에 의해 커버된 이미지 영역을 획득 가능한 가장 풍부한 정보의 수용야를 인물에 의해 커버된 영역의 최적 수용야로 지칭함). 다시 말해, 인물에 의해 커버된 이미지 영역의 스케일은 인물에 의해 커버된 영역의 최적 수용야와 정비례 관계이다.
실시예(1)에서 수용야가 상이한 제1 컨볼루션 커널 및 제2 컨볼루션 커널을 사용하여 각각 처리될 이미지에 대해 컨볼루션 처리를 수행하여 상이한 스케일 하의 처리될 이미지의 내용을 설명하는 정보를 획득한다. 그러나 제1 컨볼루션 커널의 수용야 및 제2 컨볼루션 커널의 수용야는 고정적이고, 처리될 이미지 중 상이한 이미지 영역의 스케일이 상이하므로, 제1 컨볼루션 커널 및 제2 컨볼루션 커널을 각각 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행하면 처리될 이미지 중 각 이미지 영역의 최적 수용야를 획득할 수 없고, 즉 획득된 처리될 이미지 중 상이한 이미지 영역의 정보가 가장 풍부하도록 할 수 없다. 이를 위해, 본 출원의 실시예는 제1 특징 이미지 및 제2 특징 이미지에 대해 융합 처리를 수행할 경우 제1 특징 이미지 및 제2 특징 이미지에 가중치를 부여하는 것을 통해, 처리될 이미지 중 상이한 스케일의 이미지 영역에 대해 상이한 수용야의 컨볼루션 처리를 수행하는 것을 구현함으로써, 더욱 풍부한 정보를 획득한다.
도 5를 참조하면, 도 5는 본 출원의 실시예(2)에서 제공한 다른 이미지 처리 방법의 흐름 예시도이다.
단계 501에 있어서, 상기 처리될 이미지에 대해 제1 특징 추출 처리를 수행하여, 제1 자체 주의력 이미지를 획득하고, 상기 처리될 이미지에 대해 제2 특징 추출 처리를 수행하여, 제2 자체 주의력 이미지를 획득하며, 상기 제1 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지는 상기 처리될 이미지의 스케일 정보를 나타내기 위한 것이며, 상기 제1 자체 주의력 이미지에 의해 나타낸 스케일 정보와 상기 제2 자체 주의력 이미지에 의해 나타낸 스케일 정보는 상이하다.
본 출원의 실시예에 있어서, 특징 추출 처리는 컨볼루션 처리일 수 있고, 풀링화 처리일 수도 있으며, 또한 컨볼루션 처리 및 풀링화 처리의 결합일 수 있다. 본 출원은 제1 특징 추출 처리의 구현 방식 및 제2 특징 추출 처리의 구현 방식을 한정하지 않는다.
한 가지 구현 가능한 방식에 있어서, 순차적으로 복수 개의 컨볼루션 계층을 통해 처리될 이미지에 대해 계층 별 컨볼루션 처리를 수행하여, 처리될 이미지에 대한 제1 특징 추출 처리를 구현하고, 제1 자체 주의력 이미지를 획득한다. 마찬가지로, 순차적으로 복수 개의 컨볼루션 계층을 통해 처리될 이미지에 대해 계층 별 컨볼루션 처리를 수행하여, 처리될 이미지에 대한 제2 특징 추출 처리를 구현하고, 제2 자체 주의력 이미지를 획득할 수 있다.
선택적으로, 제1 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 제2 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득하기 전, 처리될 이미지에 대해 제3 특징 추출 처리를 수행하여, 처리될 이미지의 특징 정보를 추출하여, 제5 특징 이미지를 획득할 수 있다. 제1 컨볼루션 커널을 사용하여 제5 특징 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 제2 컨볼루션 커널을 사용하여 상기 제5 특징 이미지에 대해 컨볼루션 처리를 수행하여 상기 제2 특징 이미지를 획득한다. 이로써 처리될 이미지로부터 더욱 풍부한 특징 정보를 추출할 수 있다.
상기 제1 자체 주의력 이미지의 사이즈 및 상기 제2 자체 주의력 이미지의 사이즈는 처리될 이미지의 사이즈와 동일하다. 상기 제1 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지는 처리될 이미지의 스케일 정보(즉 처리될 이미지 중 상이한 이미지 영역의 스케일)를 나타내는데 사용될 수 있고, 제1 자체 주의력 이미지에 의해 나타낸 스케일 정보와 제2 자체 주의력 이미지에 의해 나타낸 스케일 정보는 상이하다. 본 출원의 실시예에 있어서, 이미지(상기 제1 특징 이미지, 상기 제2 특징 이미지, 상기 제1 자체 주의력 이미지, 상기 제2 자체 주의력 이미지, 아래에 언급된 제3 자체 주의력 이미지 등을 포함함)의 스케일과 처리될 이미지에 대해 특징 추출 처리(상기 제1 특징 추출 처리, 상기 제2 특징 추출 처리 및 상기 제3 특징 추출 처리를 포함함)를 수행할 경우 사용된 컨볼루션 커널의 수용야는 매칭된다. 예를 들어, 크기가 3*3인 컨볼루션 커널을 사용하여 이미지에 대해 컨볼루션 처리를 수행하여 얻은 이미지의 스케일이 a이고, 크기가 5*5인 컨볼루션 커널을 사용하여 이미지에 대해 컨볼루션 처리를 수행하여 얻은 이미지의 스케일이 b이면, 크기가 3*3인 컨볼루션 커널을 사용하여 처리될 이미지에 대해 특징 추출 처리를 수행하여 얻은 자체 주의력 이미지의 스케일은 a이고(즉 상기 자체 주의력 이미지는 처리될 이미지가 스케일 a에서의 정보를 나타낼 수 있음), 크기가 5*5인 컨볼루션 커널을 사용하여 처리될 이미지에 대해 특징 추출 처리를 수행하여 얻은 특징 이미지의 스케일은 b이다.
예를 들어(예 1), 제1 자체 주의력 이미지는 처리될 이미지가 스케일 a 하의 정보를 나타내고, 제2 자체 주의력 이미지는 처리될 이미지가 스케일 b 하의 정보를 나타내며, 여기서, 스케일 a는 스케일 b보다 크다.
제1 자체 주의력 이미지에서의 픽셀 포인트의 픽셀값 및 제2 자체 주의력 이미지에서의 픽셀 포인트의 픽셀값의 값의 범위는, 0보다 크거나 같고, 1보다 작거나 같은 것이다. 제1 자체 주의력 이미지(또는 제2 자체 주의력 이미지)에서의 특정된 픽셀 포인트의 픽셀값이 1에 접근할 수록, 처리될 이미지에서 상기 픽셀 포인트 위치와 동일한 픽셀 포인트의 최적 스케일과 제1 자체 주의력 이미지(또는 제2 자체 주의력 이미지)에 의해 나타낸 스케일이 더욱 접근하는 것을 나타낸다. 본 출원의 실시예에 있어서, 최적 스케일은 상기 픽셀 포인트의 최적 수용야에 대응되는 스케일이다.
예 1을 계속하여 예를 들면, 픽셀 포인트 a 및 픽셀 포인트 b는 제1 자체 주의력 이미지에서의 두 개의 상이한 픽셀 포인트이고, 픽셀 포인트 c는 처리될 이미지 중 픽셀 포인트 a가 제1 자체 주의력 이미지에서의 위치와 동일한 픽셀 포인트이며, 픽셀 포인트 d는 처리될 이미지 중 픽셀 포인트 b가 제2 자체 주의력 이미지에서의 위치와 동일한 픽셀 포인트이다. 픽셀 포인트 a의 픽셀값이 0.9이고, 픽셀 포인트 b의 픽셀값이 0.7이라고 가정한다. 픽셀 포인트 c의 최적 스케일과 스케일 a 사이의 차이는 픽셀 포인트 d의 최적 스케일과 스케일 a 사이의 차이보다 작다.
단계 502에 있어서, 상기 제1 자체 주의력 이미지에 따라 상기 제1 특징 이미지의 제1 가중치를 결정하고, 상기 제2 자체 주의력 이미지에 따라 상기 제2 특징 이미지의 제2 가중치를 결정한다.
선택적으로, 상기 제1 자체 주의력 이미지에 의해 나타낸 스케일은 제1 특징 이미지의 스케일은 동일하고, 상기 제2 자체 주의력 이미지에 의해 나타낸 스케일과 제2 특징 이미지의 스케일은 동일하다. 제1 자체 주의력 이미지에서의 픽셀 포인트의 픽셀값이 1에 접근할 수록 제1 특징 이미지 중 상기 픽셀 포인트가 제1 자체 주의력 이미지에서의 위치와 동일한 픽셀 포인트의 최적 스케일과 제1 특징 이미지의 스케일이 더욱 접근하는 것을 나타내며, 제2 자체 주의력 이미지에서의 픽셀 포인트의 픽셀값이 1에 접근할 수록 제2 특징 이미지 중 상기 픽셀 포인트가 제2 자체 주의력 이미지에서의 위치와 동일한 픽셀 포인트의 최적 스케일과 제2 특징 이미지의 스케일이 더욱 접근하는 것을 나타낸다.
따라서, 제1 자체 주의력 이미지에 따라 제1 특징 이미지의 제1 가중치를 결정하여, 제1 특징 이미지에서의 픽셀 포인트의 스케일을 조정할 수 있어, 제1 특징 이미지에서의 픽셀 포인트가 최적 스케일에 더욱 접근하도록 한다. 마찬가지로, 제2 자체 주의력 이미지에 따라 제2 특징 이미지의 제2 가중치를 결정하여, 제2 특징 이미지에서의 픽셀 포인트의 스케일을 조정할 수 있어, 제2 특징 이미지에서의 픽셀 포인트가 최적 스케일에 더욱 접근하도록 한다.
한 가지 구현 가능한 방식에 있어서, 제1 자체 주의력 이미지 및 제2 자체 주의력 이미지에 대해 정규화 처리를 수행하여, 제1 자체 주의력 이미지에 대응되는 제3 자체 주의력 이미지 및 제2 자체 주의력 이미지에 대응되는 제4 자체 주의력 이미지를 획득할 수 있다. 제3 자체 주의력 이미지를 상기 제1 가중치로 사용하고, 제4 자체 주의력 이미지를 상기 제2 가중치로 사용한다.
상기 구현 가능한 방식에 있어서, 제1 자체 주의력 이미지 및 제2 자체 주의력 이미지에 대해 정규화 처리를 수행하는 것을 통해, 제1 자체 주의력 이미지와 제2 자체 주의력 이미지 중 동일한 위치의 픽셀 포인트의 픽셀값의 합이 1이 되도록 할 수 있다. 예를 들어, 픽셀 포인트 a가 제1 자체 주의력 이미지에서의 위치와 픽셀 포인트 b가 제2 자체 주의력 이미지에서의 위치가 동일하면, 제1 자체 주의력 이미지 및 제2 자체 주의력 이미지에 대해 정규화 처리를 수행한 후 픽셀 포인트 a의 픽셀값 및 픽셀 포인트 b의 픽셀값의 합은 1이다. 예를 들어 픽셀 포인트 c가 제3 자체 주의력 이미지에서의 위치와 픽셀 포인트 a가 제1 자체 주의력 이미지에서의 위치가 동일하고, 픽셀 포인트 d가 제4 자체 주의력 이미지에서의 위치와 픽셀 포인트 b가 제2 자체 주의력 이미지에서의 위치가 동일하면, 픽셀 포인트 c의 픽셀값과 픽셀 포인트 d의 픽셀값의 합은 1이다.
선택적으로, 상기 정규화 처리는 제1 자체 주의력 이미지 및 제2 자체 주의력 이미지를 softmax 함수에 각각 입력하는 것을 통해 구현될 수 있다. 이해해야 할 것은, 제1 자체 주의력 이미지 및 제2 자체 주의력 이미지가 복수 개의 채널의 이미지를 포함하면, 제1 자체 주의력 이미지와 제2 자체 주의력 이미지 중 동일한 채널의 이미지를 softmax 함수에 각각 입력한다. 예를 들어, 제1 자체 주의력 이미지 및 제2 자체 주의력 이미지가 2 개의 채널의 이미지를 포함하면, 제1 자체 주의력 이미지 및 제2 자체 주의력 이미지에 대해 정규화 처리를 수행할 경우, 제1 자체 주의력 이미지 중 첫 번째 채널의 이미지 및 제2 자체 주의력 이미지 중 첫 번째 채널의 이미지를 softmax 함수에 입력하여, 제3 자체 주의력 이미지 중 첫 번째 채널의 이미지 및 제4 자체 주의력 이미지 중 첫 번째 채널의 이미지를 획득할 수 있다.
단계 503에 있어서, 상기 제1 가중치 및 상기 제2 가중치에 따라 상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 상기 제1 군집 밀도 이미지를 획득한다.
제1 특징 이미지를 획득하는 컨볼루션 처리된 수용야 및 제2 특징 이미지를 획득하는 컨볼루션 처리된 수용야는 상이하다. 제3 자체 주의력 이미지를 제1 특징 이미지의 제1 가중치로 사용하고, 제4 자체 주의력 이미지를 제2 특징 이미지의 제2 가중치로 사용하는 것을 통해 제1 특징 이미지 및 제2 특징 이미지에 대해 융합 처리를 수행하여, 처리될 이미지에서의 상이한 이미지 영역에 대해 최적 수용야 하의 컨볼루션 처리를 수행할 수 있다. 이로써, 처리될 이미지 중 상이한 이미지 영역의 정보를 충분히 추출할 수 있어, 획득된 처리될 이미지에 대응되는 군집 밀도 이미지의 정밀도가 더욱 높아지도록 한다.
제1 가중치 및 제2 가중치에 따라 제1 특징 이미지 및 제2 특징 이미지에 대해 융합 처리를 수행하여, 제1 군집 밀도 이미지를 획득하는 구현 방식에서, 제1 가중치와 제1 특징 이미지 사이의 점곱을 계산하여, 제3 특징 이미지를 획득하고, 제2 가중치와 제2 특징 이미지 사이의 점곱을 계산하여, 제4 특징 이미지를 획득한다. 제3 특징 이미지 및 제4 특징 이미지에 대해 융합 처리(예를 들어 동일한 위치의 픽셀값을 서로 더함)를 수행하는 것을 통해, 제1 군집 밀도 이미지를 획득한다.
본 실시예는 처리될 이미지에 대해 제1 특징 추출 처리 및 제2 특징 추출 처리를 각각 수행하는 것을 통해 상이한 스케일 하의 처리될 이미지의 정보를 추출하여, 제1 자체 주의력 이미지 및 제2 자체 주의력 이미지를 획득한다. 제1 자체 주의력 이미지에 따라 제1 특징 이미지의 제1 가중치를 결정하고, 제2 자체 주의력 이미지에 따라 제2 특징 이미지의 제2 가중치를 결정하며, 제1 가중치 및 제2 가중치에 따라 제1 특징 이미지 및 제2 특징 이미지에 대해 융합 처리를 수행하여, 획득된 제1 군집 밀도 이미지의 정밀도를 향상시킬 수 있다.
실시예(1) 및 실시예(2)에서의 제1 컨볼루션 커널의 가중치 및 제2 컨볼루션 커널의 가중치가 상이할 경우, 제1 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행하여 추출된 특징 정보의 초점과 제2 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행하여 추출된 특징 정보의 초점은 상이하다. 예를 들어, 제1 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행함에 있어서의 초점은 처리될 이미지 중 인물의 속성 특징(예를 들어 옷 색상, 바지 길이)을 추출하는 것이지만, 제2 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행함에 있어서의 초점은 처리될 이미지 중 인물의 윤곽 특징(상기 윤곽 특징은 처리될 이미지에 인물이 포함되는지 여부를 식별하는데 사용될 수 있음)을 추출하는 것이다. 제1 컨볼루션 커널의 수용야 및 제2 컨볼루션 커널의 수용야의 상이함을 고려한다. 이로써, 향후에 추출된 제1 특징 이미지 및 제2 특징 이미지에 대해 융합 처리를 수행할 경우, 상이한 스케일 하의 상이한 특징 정보를 융합(예를 들어 스케일 a 하의 속성 특징과 스케일 b 하의 윤곽 특징 융합)해야 하는데, 이는 스케일 정보의 융합에 어려움을 가져다 줄 수 있다.
이를 위해, 본 출원의 실시예는 한 가지 기술방안을 더 제공하여, 제1 컨볼루션 커널의 가중치 및 제2 컨볼루션 커널의 가중치를 동일하게 취하여, 제1 특징 이미지 및 제2 특징 이미지에 대해 융합 처리를 수행할 경우 비 스케일 정보의 융합을 감소시키고, 스케일 정보 융합의 효과를 향상시킴으로써, 획득된 제1 군집 밀도 이미지의 정밀도를 향상시킨다.
제1 컨볼루션 커널 및 제2 컨볼루션 커널이 통상의 컨볼루션 커널이고, 제1 컨볼루션 커널의 수용야와 제2 컨볼루션 커널의 수용야가 상이한 경우, 제1 컨볼루션 커널의 가중치와 제2 컨볼루션 커널의 가중치는 동일할 수 없다. 따라서, 다음으로 반복 설명할 기술방안에서 제1 컨볼루션 커널 및 제2 컨볼루션 커널은 확장 컨볼루션 커널이고, 제1 컨볼루션 커널의 크기와 제2 컨볼루션 커널의 크기는 동일하며, 제1 컨볼루션 커널의 가중치와 제2 컨볼루션 커널의 가중치는 동일하며, 제1 컨볼루션 커널의 확장률은 제2 컨볼루션 커널의 확장률과 상이하다.
예를 들어, 도 6a, 도 6b에 도시된 바와 같은 두 개의 확장 컨볼루션 커널에 있어서, 상기 두 개의 확장 컨볼루션 커널의 크기는 3*3이고, 여기서, 도 6a에 도시된 확장 컨볼루션 커널 및 도 6b에 도시된 확장 컨볼루션 커널에서의 블랙 영역은 파라미터가 존재함을 나타내고, 흰색 부분은 파라미터가 없음(즉 파라미터가 0임)을 나타낸다. 선택적으로, 도 6a에 도시된 확장 컨볼루션 커널의 가중치와 도 6b에 도시된 확장 컨볼루션 커널의 가중치를 동일하게 취할 수 있다. 또한, 도면으로부터 알 수 있다시피, 도 6a에 도시된 확장 컨볼루션 커널의 확장률이 2이고, 도 6b에 도시된 확장 컨볼루션 커널의 확장률이 1이므로, 도 6a에 도시된 확장 컨볼루션 커널의 수용야와 도 6b에 도시된 확장 컨볼루션 커널의 수용야는 상이하며, 구체적으로, 도 6a에 도시된 확장 컨볼루션 커널의 수용야(5*5)는 도 6b에 도시된 확장 컨볼루션 커널의 수용야(3*3)보다 크다.
제1 컨볼루션 커널 및 제2 컨볼루션 커널이 확장 컨볼루션 커널인 경우, 제1 컨볼루션 커널의 가중치와 제2 컨볼루션 커널의 가중치를 동일하게 취할 수 있고, 제1 컨볼루션 커널의 수용야와 제2 컨볼루션 커널의 수용야를 상이하게 취할 수 있다. 이로써, 제1 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행하여 획득된 제1 특징 이미지에 포함된 정보 및 제2 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 커널 처리를 수행하여 획득된 제2 특징 이미지에 포함된 정보는 스케일 상의 차이만 존재하게 된다. 제1 특징 이미지 및 제2 특징 이미지에 대해 융합 처리를 수행할 경우, 상이한 스케일 하의 처리될 이미지의 정보를 이용하여 획득된 제1 군집 밀도 이미지의 정밀도를 더욱 잘 향상시킬 수 있다.
선택적으로, 제1 컨볼루션 커널 및 제2 컨볼루션 커널이 동일한 그룹의 가중치를 공유하도록 하는 방식을 통해 제1 컨볼루션 커널의 가중치와 제2 컨볼루션 커널의 가중치가 동일하도록 할 수 있고, 이로써, 향후에 제1 컨볼루션 커널 및 제2 컨볼루션 커널을 각각 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행할 경우, 처리되어야 하는 파라미터의 개수를 감소시킬 수 있다.
확장 컨볼루션 커널의 크기가 일정한 경우, 확장 컨볼루션 커널의 수용야와 확장 컨볼루션 커널의 확장률은 정비례 관계이다. 확장 컨볼루션 커널의 확장률이 1일 경우, 확장 컨볼루션 커널의 수용야와 동일한 크기의 통상의 컨볼루션 커널의 수용야는 동일하고, 예를 들어, 도 6b에 도시된 확장 컨볼루션 커널의 확장률이 1이면, 이때 상기 확장 컨볼루션 커널의 수용야는 크기가 3*3인 통상의 컨볼루션 커널의 수용야와 동일하다.
처리될 이미지에 최적 스케일이 비교적 작은 픽셀 영역이 존재하는 것을 고려하여, 이러한 스케일이 비교적 작은 이미지 영역은 비교적 작은 수용야의 컨볼루션 처리를 사용해야만 더욱 풍부한 정보를 추출할 수 있다. 이를 위해 본 출원의 실시예는 확장 컨볼루션 커널의 확장률을 0(즉 기준값)으로 설정하여, 확장 컨볼루션 커널의 수용야가 통상의 컨볼루션 커널의 수용야보다 작도록 하여, 처리될 이미지 중 스케일이 비교적 작은 이미지 영역의 정보를 더욱 잘 추출하는 방법을 더 제공한다.
아래에 이론적으로 확장률이 0인 확장 컨볼루션 커널이 구현되는 방법을 추론한다.
크기가 3*3이고, 확장률이 d인 확장 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행하는 것으로 가정하면, 상기 컨볼루션 처리의 과정은 아래의 공식을 만족한다.
Figure pct00001
...공식(1)
여기서, x 및 y은 각각 확장 컨볼루션 커널이 처리될 이미지의 특정된 픽셀 포인트로 슬라이딩할 경우 확장 컨볼루션 커널의 중심 픽셀 포인트의 위치이다.
Figure pct00002
는 처리될 이미지에서의 샘플링 포인트가 처리될 이미지에서의 좌표이고,
Figure pct00003
은 확장 컨볼루션 커널의 가중치이며,
Figure pct00004
는 확장 컨볼루션 커널의 편차이다.
Figure pct00005
는 처리될 이미지이고,
Figure pct00006
은 확장 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행하여 획득된 특징 이미지이다.
d=0일 경우, 공식 (1)은 아래의 공식으로 전환될 수 있다.
Figure pct00007
여기서,
Figure pct00008
은 크기가 1*1인 통상의 컨볼루션 커널의 가중치를 나타내고,
Figure pct00009
은 크기가 1*1인 통상의 컨볼루션 커널의 편차를 나타낸다. 공식 (2)로부터 알다시피 크기가 3*3이고, 확장률이 0인 하나의 확장 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행하는 것은 크기가 1*1인 9 개의 통상의 컨볼루션 커널을 사용하여 각각 처리될 이미지에 대해 컨볼루션 처리를 수행하는 것과 동일하다. 따라서, 확장률이 0인 확장 컨볼루션 커널은 9 개의 1*1인 통상의 컨볼루션 커널을 사용하여 대체될 수 있고, 즉 확장률이 0인 확장 컨볼루션 커널 중 모든 가중치는 확장 컨볼루션 커널에서의 동일한 위치에 위치한다. 도 7에 도시된 것은 크기가 3*3이고, 확장률이 0인 확장 컨볼루션 커널이며, 도 6에 도시된 확장 컨볼루션 커널에서의 블랙 영역은 가중치가 위치하는 위치이다. 도 6에 도시된 확장 컨볼루션 커널로부터 알 수 있다시피, 확장률이 0인 확장 컨볼루션 커널의 수용야는 1이다.
본 출원의 실시예에 있어서, 제1 컨볼루션 커널이 확장 컨볼루션 커널인 경우, 제1 컨볼루션 커널의 확장률을 0으로 설정하는 것을 통해, 제1 컨볼루션 커널을 사용하여 처리될 이미지에 대해 컨볼루션 처리를 수행할 경우 처리될 이미지에 대해 수용야가 1인 컨볼루션 처리를 수행하는 것을 구현할 수 있어, 처리될 이미지 중 스케일이 작은 이미지 영역의 정보를 더욱 잘 추출한다.
본 출원의 실시예는 군집 카운팅 네트워크를 더 제공하여, 전술한 기술방안을 구현하는데 사용될 수 있다. 도 8을 참조하면, 도 8은 본 출원의 실시예에서 제공한 군집 카운팅 네트워크의 구조 예시도이다. 도 8에 도시된 바와 같이, 군집 카운팅 네트워크에서의 네트워크 계층은 순차적으로 연결되고, 모두 11 층의 컨볼루션 계층 및 9 층의 풀링 계층 및 6 층의 스케일 인식형 컨볼루션 계층을 포함한다.
처리될 이미지를 군집 카운팅 네트워크에 입력하고, 첫 번째 컨볼루션 계층을 통해 처리될 이미지를 처리하여 첫 번째 컨볼루션 계층에 의해 출력된 이미지를 획득하고, 첫 번째 컨볼루션 계층에 의해 출력된 이미지는 두 번째 컨볼루션 계층의 처리를 통해 두 번째 컨볼루션 계층에 의해 출력된 이미지가 획득되며, 두 번째 컨볼루션 계층에 의해 출력된 이미지는 첫 번째 풀링 계층의 처리를 통해 첫 번째 풀링 계층에 의해 출력된 이미지가 획득되며, ..., 열 번째 컨볼루션 계층에 의해 출력된 이미지는 첫 번째 스케일 인식형 컨볼루션 계층의 처리를 통해 첫 번째 스케일 인식형 컨볼루션 계층에 의해 출력된 이미지가 획득되며, ..., 아홉 번째 풀링 계층에 의해 출력된 이미지는 열 한 번째 컨볼루션 계층의 처리를 통해 제1 군집 밀도 이미지가 획득된다.
선택적으로, 군집 카운팅 네트워크 중 상기 열 한 번째 컨볼루션 계층 이외의 모든 컨볼루션 계층에서의 컨볼루션 커널의 크기는 3*3일 수 있고, 열 한 번째 컨볼루션 계층에서의 컨볼루션 커널의 크기는 1*1이다. 첫 번째 컨볼루션 계층 중 컨볼루션 커널의 개수 및 두 번째 컨볼루션 계층 중 컨볼루션 커널의 개수는 64일 수 있고, 세 번째 컨볼루션 계층 중 컨볼루션 커널의 개수 및 네 번째 컨볼루션 계층 중 컨볼루션 커널의 개수는 128일 수 있으며, 다섯 번째 컨볼루션 계층 중 컨볼루션 커널의 개수, 여섯 번째 컨볼루션 계층 중 컨볼루션 커널의 개수 및 일곱 번째 컨볼루션 계층 중 컨볼루션 커널의 개수는 256일 수 있으며, 여덟 번째 컨볼루션 계층 중 컨볼루션 커널의 개수, 아홉 번째 컨볼루션 계층 중 컨볼루션 커널의 개수 및 열 번째 컨볼루션 계층 중 컨볼루션 커널의 개수는 512일 수 있으며, 열 한 번째 컨볼루션 계층 중 컨볼루션 커널의 개수는 1이다.
군집 카운팅 네트워크에서의 풀링 계층은 최대 풀링 계층일 수 있고, 평균 풀링 계층일 수도 있으며, 본 출원은 한정하지 않는다.
스케일 인식형 컨볼루션 계층의 구조 예시도는 도 9를 참조할 수 있다. 도 9에 도시된 바와 같이, 스케일 인식형 컨볼루션 계층은 3 개의 확장 컨볼루션 커널, 하나의 자체 주의력 모듈을 포함한다. 상기 3 개의 확장 컨볼루션 커널의 구조는 도 6a, 도 6b 및 도 7을 참조할 수 있고, 여기서 더이상 반복하여 설명하지 않는다. 상기 자체 주의력 모듈은 3 개의 병렬된 컨볼루션 계층을 포함한다.
스케일 인식형 컨볼루션 계층의 입력 이미지는 각각 3 개의 상이한 수용야의 확장 컨볼루션 커널의 처리를 통해, 제6 특징 이미지, 제7 특징 이미지 및 제8 특징 이미지가 각각 획득된다.
스케일 인식형 컨볼루션 계층의 입력 이미지는 각각 자체 주의력 모듈에서의 3 개의 컨볼루션 계층의 컨볼루션 처리를 통해, 제5 자체 주의력 이미지, 제6 자체 주의력 이미지 및 제7 자체 주의력 이미지가 각각 획득된다.
제6 특징 이미지의 스케일과 제5 자체 주의력 이미지의 스케일은 동일하고, 제7 특징 이미지의 스케일과 제6 자체 주의력 이미지의 스케일은 동일하며, 제8 특징 이미지의 스케일과 제7 자체 주의력 이미지의 스케일은 동일하다. 제5 자체 주의력 이미지를 제6 특징 이미지의 가중치로 사용하고, 제6 자체 주의력 이미지를 제7 특징 이미지의 가중치로 사용하며, 제7 자체 주의력 이미지를 제8 특징 이미지의 가중치로 사용하는 것을 통해, 제6 특징 이미지, 제7 특징 이미지 및 제8 특징 이미지에 대해 융합 처리를 수행하여, 스케일 인식형 컨볼루션 계층의 출력 이미지를 획득한다. 즉 제5 자체 주의력 이미지와 제6 특징 이미지에 대해 점곱을 수행하여 제9 특징 이미지를 획득하고, 제6 자체 주의력 이미지와 제7 특징 이미지에 대해 점곱을 수행하여 제10 특징 이미지를 획득하며, 제7 자체 주의력 이미지와 제8 특징 이미지에 대해 점곱을 수행하여 제11 특징 이미지를 획득한다. 제9 특징 이미지, 제10 특징 이미지 및 제11 특징 이미지에 대해 융합 처리를 수행하여, 스케일 인식형 컨볼루션 계층의 출력 이미지를 획득한다. 선택적인 상기 융합 처리는 융합 처리된 두 개의 이미지 중 동일한 위치의 픽셀 포인트의 픽셀값을 더하는 것일 수 있다.
이해해야 할 것은, 도 8에 도시된 군집 카운팅 네트워크 중 네트워크 계층의 구체적인 개수는 하나의 예시일 뿐이고, 본 출원에 대한 한정이 아니다.
도 8에 도시된 군집 카운팅 네트워크를 적용하여 처리될 이미지에 대해 군집 카운팅 작업을 실행하기 전, 군집 카운팅 네트워크를 훈련해야 한다. 이를 위해, 본 출원은 군집 카운팅 네트워크의 훈련 방법을 더 제공한다. 상기 훈련 방법은 샘플 이미지를 획득하는 단계를 포함한다. 군집 카운팅 네트워크를 통해 샘플 이미지를 처리하여, 제2 군집 밀도 이미지를 획득한다. 샘플 이미지와 제2 군집 밀도 이미지 사이이 차이에 따라, 네트워크 손실을 획득한다. 네트워크 손실에 기반하여 군집 카운팅 네트워크의 파라미터를 조정한다.
상기 샘플 이미지는 임의의 디지털 이미지일 수 있다. 예를 들어, 샘플 이미지는 인물 대상을 포함할 수 있고, 여기서, 몸체와 사지(아래에 몸체 및 사지를 인체로 지칭함)가 없는 샘플 이미지는 인물 얼굴만 포함할 수 있고, 인물 얼굴을 포함하지 않고 인체만 포함할 수도 있으며, 또한 하체 또는 상체만 포함할 수 있다. 본 출원에서 샘플 이미지에 구체적으로 포함된 인체 영역을 한정하지 않는다. 또 예를 들어, 샘플 이미지는 동물을 포함할 수 있다. 또 예를 들어, 샘플 이미지는 식물을 포함할 수 있다. 본 출원에서 샘플 이미지에 포함된 내용을 한정하지 않는다.
군집 카운팅 네트워크가 샘플 이미지에 대한 처리를 통해 이미지에 대응되는 제2 군집 밀도 이미지를 획득한 후, 샘플 이미지와 제2 군집 밀도 이미지 사이의 차이에 따라 군집 카운팅 네트워크의 네트워크 손실을 결정할 수 있다. 상기 차이는 샘플 이미지와 제2 군집 밀도 이미지 중 동일한 위치의 픽셀 포인트의 픽셀값 사이의 차이일 수 있다. 본 출원의 실시예에서 샘플 이미지 중 픽셀 포인트의 픽셀값은 픽셀 포인트 위치에 인물이 존재하는지 여부를 나타내는데 사용될 수 있고, 예를 들어, 인물 A가 샘플 이미지에서 커버한 이미지 영역이 픽셀 포인트 a, 픽셀 포인트 b, 픽셀 포인트 c를 포함하면, 픽셀 포인트 a의 픽셀값, 픽셀 포인트 b의 픽셀값 및 픽셀 포인트 c의 픽셀값은 1이다. 샘플 이미지에서의 픽셀 포인트 d가 인물에 의해 커버된 이미지 영역에 속하지 않으면, 픽셀 포인트의 픽셀값은 0이다.
군집 카운팅 네트워크의 네트워크 손실을 결정한 후, 군집 카운팅 네트워크가 수렴될 때까지, 상기 네트워크 손실에 기반하여 역방향 기울기 전파 알고리즘의 방식을 통해 군집 카운팅 네트워크의 파라미터를 조정할 수 있으며, 군집 카운팅 네트워크에 대한 훈련을 완료한다.
샘플 이미지에서의 픽셀 포인트의 픽셀값은 0이 아니면 1이고, 제2 군집 밀도 이미지에서의 픽셀 포인트의 픽셀값은 0보다 크거나 같고 1 사이의 값이다. 따라서, 샘플 이미지와 제2 군집 밀도 이미지 사이의 차이에 따라 군집 카운팅 네트워크의 네트워크 손실을 결정하는 것은 비교적 큰 차이가 존재한다.
실제 군집 밀도 이미지 중 픽셀 포인트의 픽셀값의 값의 범위도 0보다 크거나 같고 1보다 작거나 같은 값 사이의 값이며, 선택적으로, 샘플 이미지의 실제 군집 밀도 이미지를 모니터링 정보로 사용할 수 있고, 실제 군집 밀도 이미지와 제2 군집 밀도 이미지 사이의 차이에 따라 군집 카운팅 네트워크의 네트워크 손실을 결정하여, 획득된 네트워크 손실의 정밀도를 향상시킨다.
한 가지 구현 가능한 방식에 있어서, 펄스 함수, 가우스 커널 및 샘플 이미지에 따라, 상기 샘플 이미지의 실제 군집 밀도 이미지를 획득할 수 있다.
상기 구현 가능한 방식에 있어서, 충격 함수에 따라 샘플 이미지의 인물 태그 이미지를 획득할 수 있고, 상기 인물 태그 이미지 중 픽셀 포인트의 픽셀값은 픽셀 포인트가 인물에 의해 커버된 이미지 영역에 속하는지 여부를 나타내기 위한 것이다. 상기 인물 태그 이미지는 아래의 공식을 만족한다.
Figure pct00010
...공식(3)
N은 샘플 이미지에서의 총 인수이다.
Figure pct00011
는 인물에 의해 커버된 이미지 영역의 중심이 샘플 이미지에서의 위치에 위치하여, 상기 인물을 나타내기 위한 것이다.
Figure pct00012
은 샘플 이미지 중 인물에 의해 커버된 이미지 영역의 중심이 샘플 이미지에서의 위치의 충격 함수이다. 샘플 이미지에서의 x 위치에 인물이 존재하면,
Figure pct00013
은 1이고, 샘플 이미지에서의 x 위치에 인물이 존재하지 않으면,
Figure pct00014
은 0이다.
가우스 커널을 사용하여 상기 인물 태그 이미지에 대해 컨볼루션 처리를 수행하여, 샘플 이미지의 실제 군집 밀도 이미지를 획득할 수 있고, 상기 과정은 아래의 공식을 만족한다.
Figure pct00015
...공식(4)
Figure pct00016
...공식(5)
상기
Figure pct00017
은 가우스 커널이고,
Figure pct00018
은 상기 가우스 커널의 표준차이다.
Figure pct00019
은 정수이다.
Figure pct00020
은 인물
Figure pct00021
와 가장 가까운 m 개의 인물과
Figure pct00022
사이의 거리의 평균값이다. 자명한 것은,
Figure pct00023
가 클수록,
Figure pct00024
에 대응되는 인물에 의해 커버된 이미지 영역의 군집 밀도도 더욱 크다. 샘플 이미지 중 먼 곳의 인물의
Figure pct00025
가 가까운 곳의 인물의
Figure pct00026
보다 작으므로, 가우스 커널의 표준차가
Figure pct00027
를 만족하도록 하는 것을 통해, 가우스 커널의 표준차가 인물에 의해 커버된 이미지 영역의 스케일이 정비례 관계이도록 할 수 있고, 즉 샘플 이미지 중 상이한 이미지 영역에 대응되는 가우스 커널의 표준차는 상이하다. 이로써, 가우스 커널을 사용하여 샘플 이미지에 대해 컨볼루션 처리를 수행하는 것을 통해 획득된 실제 군집 밀도 이미지의 정밀도는 더욱 높다.
예를 들어, 공식 (3)에서의
Figure pct00028
는 샘플 이미지 중 인물의 머리에 의해 커버된 이미지 영역의 중심(아래에 인물 머리 영역의 중심으로 지칭함)이 샘플 이미지에서의 위치이고,
Figure pct00029
은 샘플 이미지 중 인물 머리 영역의 중심의 위치의 충격 함수이다. 샘플 이미지에서의 x 위치에 인물 머리가 존재하면,
Figure pct00030
는 1이고, 샘플 이미지에서의 x 위치에 인물 머리가 존재하지 않으면,
Figure pct00031
는 0이다. 공식 (4)에 기반하여 가우스 커널을 사용하여 상기 인물 태그 이미지에 대해 컨볼루션 처리를 수행하여, 샘플 이미지의 실제 군집 밀도 이미지를 얻는다. 인물 태그 이미지에서의 i 번째 인물 머리에 대해 컨볼루션 처리를 수행하는데 사용된 가우스 커널의 표준차는
Figure pct00032
를 만족하고, 여기서,
Figure pct00033
는 인물 태그 이미지에서의 i 번째 머리의 중심과 m 개의 타깃 인물 머리의 중심(여기서 타깃 인물 머리는 인물 태그 이미지 중 i 번째 인물 머리와 가장 가까운 인물 머리를 가리킴) 사이의 평균 거리이며, 일반적인 경우 머리의 크기와 두 명의 인접한 사람이 붐비는 시나리오에서의 중심 사이의 거리와 관련이 있으며,
Figure pct00034
는 군집가 밀집될 경우 인물 머리 크기에 근접한다. 인물 태그 이미지 중"가까운 곳"의 인물 머리에 의해 커버된 이미지 영역의 면적은 "먼 곳"의 인물 머리에 의해 커버된 이미지 영역의 면적보다 크므로, 다시 말해, 인물 태그 이미지 중 "가까운 곳"의 두 개의 인물 머리의 중심 사이의 거리는 "먼 곳"의 두 개의 인물 머리의 중심 사이의 거리보다 크며, 가우스 커널의 표준차가
Figure pct00035
을 만족하도록 하는 것을 통해, 가우스 커널의 표준차와 인물의 머리에 의해 커버된 이미지 영역의 스케일이 정비례 관계이도록 하는 효과를 달성할 수 있다.
샘플 이미지의 실제 군집 밀도 이미지를 획득한 후, 실제 군집 밀도 이미지 중 제2 군집 밀도 이미지에서 동일한 위치의 픽셀 포인트의 픽셀값 사이의 차이에 따라, 군집 카운팅 네트워크의 네트워크 손실을 결정할 수 있다. 예를 들어 실제 군집 밀도 이미지 중 제2 군집 밀도 이미지에서 모든 동일한 위치의 픽셀 포인트의 픽셀값 사이의 차이의 합을 군집 카운팅 네트워크의 네트워크 손실로 사용한다.
선택적으로, 샘플 이미지를 군집 카운팅 네트워크에 입력하기 전, 샘플 이미지에 대해 사전 처리를 수행하여, 적어도 하나의 사전 처리된 이미지를 획득할 수 있고, 상기 적어도 하나의 사전 처리된 이미지를 훈련 데이터로서 군집 카운팅 네트워크에 입력할 수 있다. 이로써, 군집 카운팅 네트워크의 훈련 데이터 세트를 확장하려는 효과를 달성할 수 있다.
상기 사전 처리는 샘플 이미지로부터 소정 사이즈의 이미지를 캡처링하는 것, 샘플 이미지 또는 상기 소정 사이즈의 이미지에 대해 플립 처리를 수행하는 것 중 적어도 하나를 포함한다. 여기서, 소정 크기는 64*64일 수 있다. 샘플 이미지에 대해 플립 처리를 수행하는 것은, 수평 거울면 플립 처리를 수행하는 것을 포함한다.
예를 들어, 각각 샘플 이미지의 수평 중심 축선 및 수직 중심 축선을 따라 샘플 이미지를 분할하여, 4 개의 사전 처리된 이미지를 획득할 수 있다. 이와 동시에 샘플 이미지로부터 5 개의 소정 사이즈의 이미지를 랜덤으로 캡처링하여, 5 개의 사전 처리된 이미지를 획득할 수 있다. 여기까지, 9 개의 사전 처리된 이미지를 이미 획득하였다. 상기 9 개의 사전 처리된 이미지에 대해 수평 거울면 플립 처리를 수행하여, 9 개의 플립된 이미지, 즉 9 개의 사전 처리된 이미지를 추가로 획득할 수 있다. 이로써 18 개의 사전 처리된 이미지를 획득할 수 있다.
적어도 하나의 사전 처리된 이미지를 군집 카운팅 네트워크에 입력하는 것을 통해, 적어도 하나의 제3 군집 밀도 이미지를 획득할 수 있고, 여기서, 각 사전 처리된 이미지는 하나의 제3 군집 밀도 이미지가 대응되게 존재한다. 예를 들어(예 2), 3 개의 사전 처리된 이미지, 즉 이미지 A, 이미지 B, 이미지 C를 군집 카운팅 네트워크에 각각 입력하여, 이미지 A에 대응되는 군집 밀도 이미지 a, 이미지 B에 대응되는 군집 밀도 이미지b, 이미지 C에 대응되는 군집 밀도 이미지 c를 각각 획득한다. 여기서, 군집 밀도 이미지 a, 군집 밀도 이미지 b, 군집 밀도 이미지 c는 제3 군집 밀도 이미지로 지칭될 수 있다.
적어도 하나의 사전 처리된 이미지에서의 타깃 이미지 및 타깃 이미지에 대응되는 제3 군집 밀도 이미지 사이의 차이에 따라, 군집 카운팅 네트워크의 네트워크 손실을 획득할 수 있다. 예 2를 계속하여 예를 들면, 이미지 A와 이미지 a 사이의 차이에 따라 제1 차이를 획득할 수 있고, 이미지 B와 이미지 b 사이의 차이에 따라 제2 차이를 획득할 수 있으며, 이미지 C와 이미지 c 사이의 차이에 따라 제3 차이를 획득할 수 있다. 제1 차이, 제2 차이 및 제3 차이에 대한 합을 구하여 군집 카운팅 네트워크의 네트워크 손실을 획득할 수 있다.
본 실시예는 군집 카운팅 네트워크를 제공하여, 상기 군집 카운팅 네트워크를 사용하여 처리될 이미지를 처리하는 것을 통해, 처리될 이미지에 대응되는 군집 밀도 이미지를 획득할 수 있음으로써, 처리될 이미지에서의 인수를 결정할 수 있다.
본 출원의 실시예에서 제공한 기술방안에 기반하여, 본 출원의 실시예는 몇 가지 구현 가능한 응용 시나리오를 더 제공한다.
시나리오 A에 있어서, 전술한 바와 같이, 공공 장소에서 인류량이 과하게 많음으로 인해 인파가 과하게 밀집한 경우가 발생됨으로써, 일부 공공 사고가 발생되므로, 공공 장소에서 군집 카운팅을 수행하는 방법은 매우 큰 의미를 갖게된다.
현재, 작업, 일상 생활 또는 사회 환경에서의 안전을 증강하기 위해, 각 공공 장소에 모니터링 촬영 기기를 설치하여, 비디오 스트림 정보에 따라 보안 보호를 수행한다. 본 출원의 실시예에서 제공한 기술방안을 이용하여 모니터링 촬영 기기에 의해 수집된 비디오 스트림을 처리하여, 공공 장소의 인수를 결정할 수 있음으로써, 공공 사고의 발생을 효과적으로 예방할 수 있다.
예를 들어, 모니터링 촬영 기기의 비디오 스트림 제어 센터의 서버는 본 출원의 실시예에서 제공한 기술방안을 실행할 수 있고, 상기 서버는 적어도 하나의 감시 카메라와 연결될 수 있다. 서버가 감시 카메라에 의해 송신된 비디오 스트림을 획득한 후, 본 출원의 실시예에서 제공한 기술방안을 사용하여 비디오 스트림에서의 각 프레임의 이미지를 처리할 수 있어, 비디오 스트림에서의 각 프레임의 이미지에서의 인수를 결정한다. 이미지에서의 인수가 인수 임계값보다 크거나 같을 경우, 서버는 연관 기기에 명령어를 송신하여, 프롬프트 또는 신고를 할 수 있다. 예를 들어, 서버는 상기 이미지를 수집한 카메라에 명령어를 송신할 수 있고, 상기 명령어는 상기 이미지를 수집한 카메라가 신고하도록 지시하기 위한 것이다. 또 예를 들어, 서버는 상기 이미지를 수집한 카메라가 위치하는 영역의 제어 인원의 단말에 명령어를 송신할 수 있고, 상기 명령어는 상기 단말이 인수가 인수 임계값을 초과한 프롬프트 정보를 출력하도록 프롬프트하기 위한 것이다.
시나리오 B에 있어서, 쇼핑몰에서 상이한 영역의 인류량이 상이하고, 메인 상품을 인류량이 많은 영역에 배치하여 전시하면 메인 상품의 매출을 효과적으로 향상시킬 수 있으므로, 쇼핑몰의 상이한 영역의 인류량을 정확하게 결정하는 것은 판매자에게 있어서 매우 중요한 의미를 갖는다. 예를 들어, 쇼핑몰에는 영역 A, 영역 B 및 영역 C가 존재하고, 여기서 영역 B의 인류량이 가장 크면, 이에 기반하여, 판매자는 메인 상품을 영역 B에 배치하여 전시할 수 있어, 메인 상품의 판매량을 향상시킨다.
쇼핑몰의 감시 카메라의 비디오 스트림의 제어 센터의 서버는 본 출원의 실시예에서 제공한 기술방안을 실행할 수 있고, 상기 서버는 적어도 하나의 감시 카메라에 연결될 수 있다. 서버가 감시 카메라에 의해 송신된 비디오 스트림을 획득한 후, 본 출원의 실시예에서 제공한 기술방안을 사용하여 비디오 스트림에서의 각 프레임의 이미지를 처리할 수 있어, 비디오 스트림에서의 각 프레임의 이미지에서의 인수를 결정한다. 각 프레임의 이미지에서의 인수에 따라 상이한 카메라에 의해 감시된 영역이 특정된 지속 시간 내의 인류량을 결정할 수 있음으로써, 쇼핑몰 내의 상이한 영역의 인류량을 결정할 수 있다. 예를 들어, 쇼핑몰에 영역 A, 영역 B, 영역 C, 카메라 A, 카메라 B 및 카메라 C가 존재하고, 여기서, 카메라 A는 영역 A를 감시하고, 카메라 B가 영역 B를 감시하며, 카메라 C는 영역 C를 감시한다. 서버는 본 출원의 실시예에서 제공한 기술방안을 사용하여 카메라 A에 의해 수집된 비디오 스트림에서의 이미지를 처리하여, 영역 A가 과거 한 주일 내에서 매일 평균 인류량이 900인 것을 결정하고, 영역 B가 과거 한 주일 내에서 매일 평균 인류량이 200인 것을 결정하며, 영역 C가 과거 한 주일 내에서 매일 평균 인류량이 600인 것을 결정한다. 자명한 것은, 영역 A의 인류량이 가장 많으므로, 판매자는 메인 상품을 영역 A에 배치하여 전시할 수 있어, 메인 상품의 판매량을 향상시킨다.
본 분야의 기술자는 구체적인 실시형태의 상기 방법에서, 각 단계의 기록 순서는 엄격한 실행 순서를 의미하지 않고 실시 과정에 대한 임의의 제한을 구성하며, 각 단계의 구체적인 실행 순서는 그 기능 및 가능한 내부 논리에 의해 결정된다.
이상 본 출원의 실시예의 방법을 상세하게 설명하고, 아래에 본 출원의 실시예의 장치를 제공한다.
도 10을 참조하면, 도 10은 본 출원의 실시예에서 제공한 이미지 처리 장치의 구조 예시도이고, 상기 장치(1)는, 획득 유닛(11), 컨볼루션 처리 유닛(12), 융합 처리 유닛(13), 특징 추출 처리 유닛(14), 제1 결정 유닛(15), 제2 결정 유닛(16) 및 훈련 유닛(17)을 포함한다. 여기서,
획득 유닛(11)은, 처리될 이미지, 제1 컨볼루션 커널 및 제2 컨볼루션 커널을 획득하기 위한 것이고, 상기 제1 컨볼루션 커널의 수용야와 상기 제2 컨볼루션 커널의 수용야는 상이하며;
컨볼루션 처리 유닛(12)은, 상기 제1 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득하기 위한 것이며;
융합 처리 유닛(13)은, 상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 제1 군집 밀도 이미지를 획득하기 위한 것이다.
한 가지 구현 가능한 방식에 있어서, 상기 장치(1)는,
상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 제1 군집 밀도 이미지를 획득하기 전, 상기 처리될 이미지에 대해 제1 특징 추출 처리를 수행하여, 제1 자체 주의력 이미지를 획득하고, 상기 처리될 이미지에 대해 제2 특징 추출 처리를 수행하여, 제2 자체 주의력 이미지를 획득하기 위한 특징 추출 처리 유닛(14) - 상기 제1 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지는 상기 처리될 이미지의 스케일 정보를 나타내기 위한 것이며, 상기 제1 자체 주의력 이미지에 의해 나타낸 스케일 정보와 상기 제2 자체 주의력 이미지에 의해 나타낸 스케일 정보는 상이함 - ; 및
상기 제1 자체 주의력 이미지에 따라 상기 제1 특징 이미지의 제1 가중치를 결정하고, 상기 제2 자체 주의력 이미지에 따라 상기 제2 특징 이미지의 제2 가중치를 결정하기 위한 제1 결정 유닛(15)을 더 포함하며;
상기 융합 처리 유닛(13)은,
상기 제1 가중치 및 상기 제2 가중치에 따라 상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 상기 제1 군집 밀도 이미지를 획득하기 위한 것이다.
다른 한 가지 구현 가능한 방식에 있어서, 상기 융합 처리 유닛(13)은 구체적으로,
상기 제1 가중치와 상기 제1 특징 이미지 사이의 점곱을 결정하여, 제3 특징 이미지를 획득하고;
상기 제2 가중치와 상기 제2 특징 이미지 사이의 점곱을 결정하여, 제4 특징 이미지를 획득하며;
상기 제3 특징 이미지 및 상기 제4 특징 이미지에 대해 융합 처리를 수행하여, 상기 제1 군집 밀도 이미지를 획득하기 위한 것이다.
또 한 가지 구현 가능한 방식에 있어서, 상기 제1 결정 유닛(15)은,
상기 제1 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지에 대해 정규화 처리를 수행하여, 상기 제1 자체 주의력 이미지에 대응되는 제3 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지에 대응되는 제4 자체 주의력 이미지를 획득하고;
상기 제3 자체 주의력 이미지를 상기 제1 가중치로 사용하고, 상기 제4 자체 주의력 이미지를 상기 제2 가중치로 사용하기 위한 것이다.
또 한 가지 구현 가능한 방식에 있어서, 상기 특징 추출 처리 유닛(14)은 또한, 상기 제1 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득하기 전, 상기 처리될 이미지에 대해 제3 특징 추출 처리를 수행하여, 제5 특징 이미지를 획득하기 위한 것이며;
상기 컨볼루션 처리 유닛(12)은,
상기 제1 컨볼루션 커널을 사용하여 상기 제5 특징 이미지에 대해 컨볼루션 처리를 수행하여 상기 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 제5 특징 이미지에 대해 컨볼루션 처리를 수행하여 상기 제2 특징 이미지를 획득하기 위한 것이며;
상기 특징 추출 처리 유닛(14)은 또한,
상기 제5 특징 이미지에 대해 상기 제1 특징 추출 처리를 수행하여, 상기 제1 자체 주의력 이미지를 획득하고, 상기 제5 특징 이미지에 대해 상기 제2 특징 추출 처리를 수행하여, 상기 제2 자체 주의력 이미지를 획득하기 위한 것이다.
또 한 가지 구현 가능한 방식에 있어서, 상기 제1 컨볼루션 커널 및 상기 제2 컨볼루션 커널은 확장 컨볼루션 커널이고, 상기 제1 컨볼루션 커널의 크기와 상기 제2 컨볼루션 커널의 크기는 동일하며, 상기 제1 컨볼루션 커널의 가중치와 상기 제2 컨볼루션 커널의 가중치는 동일하며, 상기 제1 컨볼루션 커널의 확장률과 상기 제2 컨볼루션 커널의 확장률은 상이하다.
또 한 가지 구현 가능한 방식에 있어서, 상기 제1 컨볼루션 커널 또는 상기 제2 컨볼루션 커널의 확장률은 기준값이다.
또 한 가지 구현 가능한 방식에 있어서, 상기 장치(1)는 상기 제1 군집 밀도 이미지에서의 픽셀값의 합을 결정하여, 상기 처리될 이미지에서의 인수를 획득하기 위한 제2 결정 유닛(16)을 더 포함한다.
또 한 가지 구현 가능한 방식에 있어서, 상기 장치(1)에 의해 실행된 이미지 처리 방법은 군집 카운팅 네트워크에 적용되고;
상기 장치(1)는, 상기 군집 카운팅 네트워크를 훈련하기 위한 훈련 유닛(17)을 더 포함하고, 상기 군집 카운팅 네트워크의 훈련 과정은,
샘플 이미지를 획득하는 단계;
상기 군집 카운팅 네트워크를 사용하여 상기 샘플 이미지를 처리하여, 제2 군집 밀도 이미지를 획득하는 단계;
상기 샘플 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 네트워크 손실을 획득하는 단계; 및
상기 네트워크 손실에 기반하여 상기 군집 카운팅 네트워크의 파라미터를 조정하는 단계를 포함한다.
또 한 가지 구현 가능한 방식에 있어서, 상기 훈련 유닛(17)은 또한,
상기 샘플 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 네트워크 손실을 획득하기 전, 충격 함수, 가우스 커널 및 상기 샘플 이미지에 따라, 상기 샘플 이미지의 실제 군집 밀도 이미지를 획득하고;
상기 실제 군집 밀도 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 상기 네트워크 손실을 획득하기 위한 것이다.
또 한 가지 구현 가능한 방식에 있어서, 상기 훈련 유닛(17)은 또한,
상기 군집 카운팅 네트워크를 통해 상기 샘플 이미지를 처리하여, 제2 군집 밀도 이미지를 획득하기 전, 상기 샘플 이미지에 대해 사전 처리를 수행하여, 적어도 하나의 사전 처리된 이미지를 획득하고;
상기 군집 카운팅 네트워크를 사용하여 상기 적어도 하나의 사전 처리된 이미지를 처리하여, 적어도 하나의 제3 군집 밀도 이미지를 획득하며 - 상기 사전 처리된 이미지와 상기 제3 군집 밀도 이미지는 일대일 대응됨 - ;
상기 적어도 하나의 사전 처리된 이미지에서의 타깃 이미지 및 상기 타깃 이미지에 대응되는 제3 군집 밀도 이미지 사이의 차이에 따라, 상기 네트워크 손실을 획득하기 위한 것이다.
또 한 가지 구현 가능한 방식에 있어서, 상기 사전 처리는, 상기 샘플 이미지로부터 소정 사이즈의 이미지를 캡처링하는 것, 상기 샘플 이미지 또는 상기 소정 사이즈의 이미지에 대해 플립 처리를 수행하는 것 중 적어도 하나를 포함한다.
본 실시예에서 수용야가 상이한 제1 컨볼루션 커널 및 제2 컨볼루션 커널을 사용하여 각각 처리될 이미지에 대해 컨볼루션 처리를 수행하는 것을 통해, 상이한 스케일 하의 처리될 이미지의 내용을 설명하는 정보를 추출하여, 제1 특징 이미지 및 제2 특징 이미지를 각각 획득한다. 제1 특징 이미지 및 제2 특징 이미지에 대해 융합 처리를 수행하는 것을 통해, 상이한 스케일 하의 처리될 이미지의 내용을 설명하는 정보를 이용하여, 획득된 처리될 이미지에 대응되는 군집 밀도 이미지의 정밀도를 향상시킴으로써, 획득된 처리될 이미지 중 인수의 정밀도를 향상시킨다.
일부 실시예에 있어서, 본 발명의 실시예에서 제공한 장치가 갖고 있는 기능 또는 포함하는 모듈은 전술한 방법 실시예에서 설명한 방법을 실행하는데 사용될 수 있고, 그 구체적인 구현은 전술한 방법 실시예의 설명을 참조할 수 있으며, 간결함을 위해, 여기서 더이상 반복하여 설명하지 않는다.
도 11은 본 출원의 실시예에서 제공한 이미지 처리 장치의 하드웨어 구조 예시도이다. 상기 이미지 처리 장치(2)는 프로세서(21), 메모리(22)를 포함하고, 또한 입력 장치(23) 및 출력 장치(24)를 포함할 수 있다. 상기 프로세서(21), 메모리(22), 입력 장치(23) 및 출력 장치(24)는 커넥터를 통해 서로 커플링되고, 상기 커넥터는 각 타입의 인터페이스, 전송 라인 또는 버스 등을 포함하며, 본 출원의 실시예는 이에 대해 한정하지 않는다. 이해해야 할 것은, 본 출원의 각 실시예에 있어서, 커플링은 특정한 방식을 통한 상호 연결을 가리키고, 직접 연결 또는 다른 기기를 통한 간접 연결을 포함하며, 예를 들어 각 타입의 인터페이스, 전송 라인, 버스 등을 통해 연결할 수 있다.
프로세서(21)는 하나 또는 복수 개의 그래픽 처리 장치(Graphics Processing Unit, GPU)일 수 있고, 프로세서(21)가 하나의 GPU일 경우, 상기 GPU는 단일 코어 GPU일 수 있고, 다중 코어 GPU일 수도 있다. 선택적으로, 프로세서(21)는 복수 개의 GPU로 구성된 프로세서 그룹일 수 있고, 복수 개의 프로세서 사이는 하나 또는 복수 개의 버스를 통해 서로 커플링된다. 선택적으로, 상기 프로세서는 또한 다른 타입의 프로세서 등일 수 있고, 본 출원의 실시예는 한정하지 않는다.
메모리(22)는 컴퓨터 프로그램 명령어 및 본 출원의 방안의 프로그램 코드를 포함하는 각 타입의 컴퓨터 프로그램 코드를 저장하는데 사용될 수 있다. 선택적으로, 메모리는 랜덤 액세스 메모리(Random Access Memory, RAM), 판독 전용 메모리(Read-Only Memory, ROM), 제거 가능한 프로그래머블 판독 전용 메모리(Erasable Programmable Read Only Memory, EPROM), 또는 시디 롬(Compact Disc Read-Only Memory, CD-ROM)을 포함하지만 이에 한정되지 않으며, 상기 메모리는 관련 명령어 및 데이터를 저장하기 위한 것이다.
입력 장치(23)는 데이터 및 신호를 입력하기 위한 것이고, 출력 장치(24)는 데이터 및 신호를 출력하기 위한 것이다. 입력 장치(23) 및 출력 장치(24)는 독립적인 장치일 수 있고, 하나의 완전한 장치일 수도 있다.
이해할 수 있는 것은, 본 출원의 실시예에 있어서, 메모리(22)는 관련 명령어를 저장하는데 사용될 수 있을 뿐만 아니라, 관련 이미지를 저장하는데 사용될 수도 있으며, 예를 들어 상기 메모리(22)는 입력 장치(23)를 통해 획득된 처리될 이미지를 저장하는데 사용될 수 있고, 또는 상기 메모리(22)는 프로세서(21)를 통해 검색하여 획득된 제1 군집 밀도 이미지 등을 저장하는데 사용될 수도 있으며, 본 출원의 실시예는 상기 메모리에서 구체적으로 저장된 데이터를 한정하지 않는다.
이해할 수 있는 것은, 도 11는 이미지 처리 장치의 간략화 설계를 도시할 뿐이다. 실제 응용에서, 이미지 처리 장치는 또한 필요한 다른 부품을 각각 포함할 수 있고, 임의의 개수의 입력/출력 장치, 프로세서, 메모리 등을 포함하지만 이에 한정되지 않으며, 본 출원의 실시예를 구현 가능한 모든 이미지 처리 장치는 본 출원의 보호 범위 내에 모두 속한다.
본 출원의 실시예는 프로세서를 더 제공하고, 상기 프로세서의 캐시에는 컴퓨터 프로그램이 저장될 수 있으며, 상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 경우, 상기 프로세서는 실시예(1) 및 실시예(2)에서 제공한 기술방안을 실행할 수 있거나, 이미 훈련된 군집 카운팅 네트워크가 처리될 이미지에 대한 처리를 구현할 수 있다.
본 기술분야의 통상의 기술자는 본 명세서에서 개시된 실시예에서 설명한 각 예시적 유닛 및 알고리즘 단계를 결합하여, 전자 하드웨어 또는 컴퓨터 소프트웨어와 전자 하드웨어의 결합으로 구현될 수 있음을 이해할 것이다. 이러한 기능이 하드웨어 형태로 실행될지 아니면 소프트웨어 형태로 실행될지는 기술 방안의 특정 응용 및 설계 제약 조건에 따라 결정된다. 전문 기술자는 각 특정된 응용에 대해, 상이한 방법을 사용하여 설명된 기능을 구현할 수 있으나, 이러한 구현은 본 출원의 범위를 벗어나는 것으로 간주되어서는 안된다.
본 기술분야의 통상의 기술자는 설명의 편의 및 간결함을 위해, 상기 설명된 시스템, 장치 및 유닛의 구체적인 동작 과정이, 전술된 방법 실시예 중 대응되는 과정을 참조할 수 있음을 이해할 수 있으며, 여기서 반복적으로 설명하지 않는다. 본 기술분야의 통상의 기술자는 또한, 본 출원의 각 실시예의 설명은 그 자체에 초점을 두고 있으며, 설명의 편의와 간편함을 위해, 동일하거나 유사한 부분은 상이한 실시예에서 반복하여 설명하지 않았으므로, 특정한 실시예에서 설명하지 않았거나 상세하게 설명되지 않은 부분은 다른 실시예의 기재를 참조할 수 있음을 명백하게 이해할 수 있을 것이다.
본 출원에서 제공된 몇 개의 실시예에 있어서, 개시된 시스템, 장치 및 방법은 다른 방식으로 구현될 수 있음을 이해해야 한다. 전술된 장치 실시예는 다만 예시적이며, 예를 들어, 상기 유닛에 대한 분할은 다만 논리적 기능 분할이고, 실제로 구현될 경우 다른 분할 방식이 있을 수 있으며, 예를 들어 복수 개의 유닛 또는 컴포넌트는 다른 시스템에 결합되거나 통합될 수 있거나, 일부 특징을 무시하거나 실행하지 않을 수 있다. 또한, 나타내거나 논의된 상호간의 결합 또는 직접 결합 또는 통신 연결은, 일부 인터페이스를 통해 구현되며, 장치 또는 유닛을 통한 간접 결합 또는 통신 연결은, 전기, 기계 또는 다른 형태일 수 있다.
상기 분리 부재로서 설명된 유닛은, 물리적으로 분리된 것이거나 아닐 수 있고, 유닛으로서 나타낸 부재는 물리적 유닛이거나 아닐 수 있고, 즉 한 곳에 위치할 수 있거나, 복수 개의 네트워크 유닛에 분포될 수도 있다. 실제 필요에 따라 유닛의 일부 또는 전부를 선택하여 본 실시예 방안의 목적을 구현할 수 있다.
또한, 본 출원의 각 실시예에서의 각 기능 유닛은 하나의 처리 유닛에 통합될 수 있고, 각 유닛이 독립적인 물리적 존재일 수도 있고, 두 개 또는 두 개 이상의 유닛이 한 유닛에 통합될 수도 있다.
상기 실시예에서, 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의의 조합을 통해 전체적으로 또는 부분적으로 구현할 수 있다. 소프트웨어로 구현될 경우, 컴퓨터 프로그램 제품의 형태로 전체적으로 또는 부분적으로 구현될 수 있다. 상기 컴퓨터 프로그램 제품은 하나 또는 복수 개의 컴퓨터 명령어를 포함한다. 컴퓨터에서 상기 컴퓨터 프로그램 명령어가 로딩 및 실행될 경우, 본 발명의 실시예에 따라 설명된 프로세스 또는 기능은 전체적으로 또는 부분적으로 생성된다. 상기 컴퓨터는 범용 컴퓨터, 특수 목적 컴퓨터, 컴퓨터 네트워크 또는 다른 프로그래머블 장치일 수 있다. 상기 컴퓨터 명령어는 컴퓨터 판독 가능한 저장 매체에 저장될 수 있거나, 상기 컴퓨터 판독 가능한 저장 매체를 통해 전송될 수 있다. 상기 컴퓨터 명령어는 하나의 웹 사이트, 컴퓨터, 서버 또는 데이터 센터에서 유선(예를 들어, 동축 케이블, 광섬유, 디지털 가입자 회선(Digital Subscriber Line, DSL)) 또는 무선(예를 들어 적외선, 무선, 마이크로파 등) 형태로 다른 웹 사이트, 컴퓨터, 서버 또는 데이터 센터로 전송될 수 있다. 상기 컴퓨터 판독 가능한 저장 매체는 컴퓨터가 액세스 가능한 임의의 사용 가능한 매체 또는 하나 또는 복수 개의 사용 가능한 매체로 통합된 서버, 데이터 센터 등을 포함하는 데이터 저장 기기일 수 있다. 상기 사용 가능한 매체는 자기 매체(예를 들어, 플로피 디스크, 하드 디스크, 자기 테이프), 광학 매체(예를 들어, 디지털 범용 디스크(Digital Versatile Disc, DVD)), 또는 반도체 매체(예를 들어, 솔리드 스테이트 디스크(Solid State Disk, SSD)) 등일 수 있다.
본 기술분야의 통상의 기술자는 상기 실시예 방법에서의 전부 또는 일부 플로우를 구현하는 것을 이해할 수 있고, 상기 플로우는 컴퓨터 프로그램의 명령어와 관련된 하드웨어를 통해 완료될 수 있고, 상기 프로그램은 휘발성 및 비휘발성 컴퓨터 판독 가능한 저장 매체에 저장될 수 있으며, 상기 프로그램이 실행될 경우, 상기 각 방법 실시예와 같은 플로우를 포함할 수 있다. 전술한 저장 매체는 판독 전용 메모리(Read-Only Memory, ROM) 또는 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크 등 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다.

Claims (28)

  1. 이미지 처리 방법으로서,
    처리될 이미지, 제1 컨볼루션 커널 및 제2 컨볼루션 커널을 획득하는 단계 - 상기 제1 컨볼루션 커널의 수용야와 상기 제2 컨볼루션 커널의 수용야는 상이함 - ;
    상기 제1 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득하는 단계; 및
    상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 제1 군집 밀도 이미지를 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  2. 제1항에 있어서,
    상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 제1 군집 밀도 이미지를 획득하기 전, 상기 이미지 처리 방법은,
    상기 처리될 이미지에 대해 제1 특징 추출 처리를 수행하여, 제1 자체 주의력 이미지를 획득하고, 상기 처리될 이미지에 대해 제2 특징 추출 처리를 수행하여, 제2 자체 주의력 이미지를 획득하는 단계 - 상기 제1 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지는 상기 처리될 이미지의 스케일 정보를 나타내기 위한 것이며, 상기 제1 자체 주의력 이미지에 의해 나타낸 스케일 정보와 상기 제2 자체 주의력 이미지에 의해 나타낸 스케일 정보는 상이함 - ; 및
    상기 제1 자체 주의력 이미지에 따라 상기 제1 특징 이미지의 제1 가중치를 결정하고, 상기 제2 자체 주의력 이미지에 따라 상기 제2 특징 이미지의 제2 가중치를 결정하는 단계를 더 포함하며;
    상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 제1 군집 밀도 이미지를 획득하는 단계는,
    상기 제1 가중치 및 상기 제2 가중치에 따라 상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 상기 제1 군집 밀도 이미지를 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  3. 제2항에 있어서,
    상기 제1 가중치 및 상기 제2 가중치에 따라 상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 상기 제1 군집 밀도 이미지를 획득하는 단계는,
    상기 제1 가중치와 상기 제1 특징 이미지 사이의 점곱을 결정하여, 제3 특징 이미지를 획득하는 단계;
    상기 제2 가중치와 상기 제2 특징 이미지 사이의 점곱을 결정하여, 제4 특징 이미지를 획득하는 단계; 및
    상기 제3 특징 이미지 및 상기 제4 특징 이미지에 대해 융합 처리를 수행하여, 상기 제1 군집 밀도 이미지를 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  4. 제2항 또는 제3항에 있어서,
    상기 제1 자체 주의력 이미지에 따라 상기 제1 특징 이미지의 제1 가중치를 결정하고, 상기 제2 자체 주의력 이미지에 따라 상기 제2 특징 이미지의 제2 가중치를 결정하는 단계는,
    상기 제1 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지에 대해 정규화 처리를 수행하여, 상기 제1 자체 주의력 이미지에 대응되는 제3 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지에 대응되는 제4 자체 주의력 이미지를 획득하는 단계; 및
    상기 제3 자체 주의력 이미지를 상기 제1 가중치로 사용하고, 상기 제4 자체 주의력 이미지를 상기 제2 가중치로 사용하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  5. 제2항 내지 제4항 중 어느 한 항에 있어서,
    상기 제1 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득하기 전, 상기 이미지 처리 방법은,
    상기 처리될 이미지에 대해 제3 특징 추출 처리를 수행하여, 제5 특징 이미지를 획득하는 단계를 더 포함하고;
    상기 제1 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득하는 단계는,
    상기 제1 컨볼루션 커널을 사용하여 상기 제5 특징 이미지에 대해 컨볼루션 처리를 수행하여 상기 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 제5 특징 이미지에 대해 컨볼루션 처리를 수행하여 상기 제2 특징 이미지를 획득하는 단계를 포함하며;
    상기 처리될 이미지에 대해 제1 특징 추출 처리를 수행하여, 제1 자체 주의력 이미지를 획득하고, 상기 처리될 이미지에 대해 제2 특징 추출 처리를 수행하여, 제2 자체 주의력 이미지를 획득하는 단계는,
    상기 제5 특징 이미지에 대해 상기 제1 특징 추출 처리를 수행하여, 상기 제1 자체 주의력 이미지를 획득하고, 상기 제5 특징 이미지에 대해 상기 제2 특징 추출 처리를 수행하여, 상기 제2 자체 주의력 이미지를 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 제1 컨볼루션 커널 및 상기 제2 컨볼루션 커널은 확장 컨볼루션 커널이고, 상기 제1 컨볼루션 커널의 크기와 상기 제2 컨볼루션 커널의 크기는 동일하며, 상기 제1 컨볼루션 커널의 가중치와 상기 제2 컨볼루션 커널의 가중치는 동일하며, 상기 제1 컨볼루션 커널의 확장률과 상기 제2 컨볼루션 커널의 확장률은 상이한 것을 특징으로 하는 이미지 처리 방법.
  7. 제6항에 있어서,
    상기 제1 컨볼루션 커널 또는 상기 제2 컨볼루션 커널의 확장률은 기준값인 것을 특징으로 하는 이미지 처리 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 이미지 처리 방법은, 상기 제1 군집 밀도 이미지에서의 픽셀값의 합을 결정하여, 상기 처리될 이미지에서의 인수를 결정하는 단계를 더 포함하는 것을 특징으로 하는 이미지 처리 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 방법은 군집 카운팅 네트워크에 적용되고;
    상기 군집 카운팅 네트워크의 훈련 과정은,
    샘플 이미지를 획득하는 단계;
    상기 군집 카운팅 네트워크를 사용하여 상기 샘플 이미지를 처리하여, 제2 군집 밀도 이미지를 획득하는 단계;
    상기 샘플 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 네트워크 손실을 획득하는 단계; 및
    상기 네트워크 손실에 기반하여 상기 군집 카운팅 네트워크의 파라미터를 조정하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  10. 제9항에 있어서,
    상기 샘플 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 네트워크 손실을 획득하기 전, 상기 이미지 처리 방법은,
    상기 샘플 이미지의 실제 군집 밀도 이미지를 획득하는 단계를 더 포함하고;
    상기 샘플 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 네트워크 손실을 획득하는 단계는,
    상기 실제 군집 밀도 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 상기 네트워크 손실을 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  11. 제9항에 있어서,
    상기 군집 카운팅 네트워크를 통해 상기 샘플 이미지를 처리하여, 제2 군집 밀도 이미지를 획득하기 전, 상기 이미지 처리 방법은,
    상기 샘플 이미지에 대해 사전 처리를 수행하여, 적어도 하나의 사전 처리된 이미지를 획득하는 단계를 더 포함하고;
    상기 군집 카운팅 네트워크를 통해 상기 샘플 이미지를 처리하여, 제2 군집 밀도 이미지를 획득하는 단계는,
    상기 군집 카운팅 네트워크를 사용하여 상기 적어도 하나의 사전 처리된 이미지를 처리하여, 적어도 하나의 제3 군집 밀도 이미지를 획득하는 단계 - 상기 사전 처리된 이미지와 상기 제3 군집 밀도 이미지는 일대일 대응됨 - 를 포함하며;
    상기 샘플 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 네트워크 손실을 획득하는 단계는,
    상기 적어도 하나의 사전 처리된 이미지에서의 타깃 이미지 및 상기 타깃 이미지에 대응되는 제3 군집 밀도 이미지 사이의 차이에 따라, 상기 네트워크 손실을 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  12. 제11항에 있어서,
    상기 사전 처리는 상기 샘플 이미지로부터 소정 사이즈의 이미지를 캡처링하는 것, 상기 샘플 이미지 또는 상기 소정 사이즈의 이미지에 대해 플립 처리를 수행하는 것 중 적어도 하나를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  13. 이미지 처리 장치로서,
    처리될 이미지, 제1 컨볼루션 커널 및 제2 컨볼루션 커널을 획득하기 위한 획득 유닛 - 상기 제1 컨볼루션 커널의 수용야와 상기 제2 컨볼루션 커널의 수용야는 상이함 - ;
    상기 제1 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득하기 위한 컨볼루션 처리 유닛; 및
    상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 제1 군집 밀도 이미지를 획득하기 위한 융합 처리 유닛을 포함하는 것을 특징으로 하는 이미지 처리 장치.
  14. 제13항에 있어서,
    상기 이미지 처리 장치는,
    상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 제1 군집 밀도 이미지를 획득하기 전, 상기 처리될 이미지에 대해 제1 특징 추출 처리를 수행하여, 제1 자체 주의력 이미지를 획득하고, 상기 처리될 이미지에 대해 제2 특징 추출 처리를 수행하여, 제2 자체 주의력 이미지를 획득하기 위한 특징 추출 처리 유닛 - 상기 제1 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지는 상기 처리될 이미지의 스케일 정보를 나타내기 위한 것이며, 상기 제1 자체 주의력 이미지에 의해 나타낸 스케일 정보와 상기 제2 자체 주의력 이미지에 의해 나타낸 스케일 정보는 상이함 - ; 및
    상기 제1 자체 주의력 이미지에 따라 상기 제1 특징 이미지의 제1 가중치를 결정하고, 상기 제2 자체 주의력 이미지에 따라 상기 제2 특징 이미지의 제2 가중치를 결정하기 위한 제1 결정 유닛을 더 포함하며;
    상기 융합 처리 유닛은,
    상기 제1 가중치 및 상기 제2 가중치에 따라 상기 제1 특징 이미지 및 상기 제2 특징 이미지에 대해 융합 처리를 수행하여, 상기 제1 군집 밀도 이미지를 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  15. 제14항에 있어서,
    상기 융합 처리 유닛은 구체적으로,
    상기 제1 가중치와 상기 제1 특징 이미지 사이의 점곱을 결정하여, 제3 특징 이미지를 획득하고;
    상기 제2 가중치와 상기 제2 특징 이미지 사이의 점곱을 결정하여, 제4 특징 이미지를 획득하며;
    상기 제3 특징 이미지 및 상기 제4 특징 이미지에 대해 융합 처리를 수행하여, 상기 제1 군집 밀도 이미지를 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  16. 제14항 또는 제15항에 있어서,
    상기 제1 결정 유닛은,
    상기 제1 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지에 대해 정규화 처리를 수행하여, 상기 제1 자체 주의력 이미지에 대응되는 제3 자체 주의력 이미지 및 상기 제2 자체 주의력 이미지에 대응되는 제4 자체 주의력 이미지를 획득하고;
    상기 제3 자체 주의력 이미지를 상기 제1 가중치로 사용하고, 상기 제4 자체 주의력 이미지를 상기 제2 가중치로 사용하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  17. 제14항 내지 제16항 중 어느 한 항에 있어서,
    상기 특징 추출 처리 유닛은 또한, 상기 제1 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 처리될 이미지에 대해 컨볼루션 처리를 수행하여 제2 특징 이미지를 획득하기 전, 상기 처리될 이미지에 대해 제3 특징 추출 처리를 수행하여, 제5 특징 이미지를 획득하기 위한 것이고;
    상기 컨볼루션 처리 유닛은,
    상기 제1 컨볼루션 커널을 사용하여 상기 제5 특징 이미지에 대해 컨볼루션 처리를 수행하여 상기 제1 특징 이미지를 획득하고, 상기 제2 컨볼루션 커널을 사용하여 상기 제5 특징 이미지에 대해 컨볼루션 처리를 수행하여 상기 제2 특징 이미지를 획득하기 위한 것이며;
    상기 특징 추출 처리 유닛은 또한,
    상기 제5 특징 이미지에 대해 상기 제1 특징 추출 처리를 수행하여, 상기 제1 자체 주의력 이미지를 획득하고, 상기 제5 특징 이미지에 대해 상기 제2 특징 추출 처리를 수행하여, 상기 제2 자체 주의력 이미지를 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  18. 제13항 내지 제17항 중 어느 한 항에 있어서,
    상기 제1 컨볼루션 커널 및 상기 제2 컨볼루션 커널은 확장 컨볼루션 커널이고, 상기 제1 컨볼루션 커널의 크기와 상기 제2 컨볼루션 커널의 크기는 동일하며, 상기 제1 컨볼루션 커널의 가중치와 상기 제2 컨볼루션 커널의 가중치는 동일하며, 상기 제1 컨볼루션 커널의 확장률과 상기 제2 컨볼루션 커널의 확장률은 상이한 것을 특징으로 하는 이미지 처리 장치.
  19. 제18항에 있어서,
    상기 제1 컨볼루션 커널 또는 상기 제2 컨볼루션 커널의 확장률은 기준값인 것을 특징으로 하는 이미지 처리 장치.
  20. 제13항 내지 제19항 중 어느 한 항에 있어서,
    상기 이미지 처리 장치는 상기 제1 군집 밀도 이미지에서의 픽셀값의 합을 결정하여, 상기 처리될 이미지에서의 인수를 획득하기 위한 제2 결정 유닛을 더 포함하는 것을 특징으로 하는 이미지 처리 장치.
  21. 제12항 내지 제20항 중 어느 한 항에 있어서,
    상기 이미지 처리 장치에 의해 실행된 이미지 처리 방법은 군집 카운팅 네트워크에 적용되며;
    상기 이미지 처리 장치는, 상기 군집 카운팅 네트워크를 훈련하기 위한 훈련 유닛을 더 포함하고, 상기 군집 카운팅 네트워크의 훈련 과정은,
    샘플 이미지를 획득하는 단계;
    상기 군집 카운팅 네트워크를 사용하여 상기 샘플 이미지를 처리하여, 제2 군집 밀도 이미지를 획득하는 단계;
    상기 샘플 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 네트워크 손실을 획득하는 단계; 및
    상기 네트워크 손실에 기반하여 상기 군집 카운팅 네트워크의 파라미터를 조정하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 장치.
  22. 제21항에 있어서,
    상기 훈련 유닛은 또한,
    상기 샘플 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 네트워크 손실을 획득하기 전, 충격 함수, 가우스 커널 및 상기 샘플 이미지에 따라, 상기 샘플 이미지의 실제 군집 밀도 이미지를 획득하고;
    상기 실제 군집 밀도 이미지와 상기 제2 군집 밀도 이미지 사이의 차이에 따라, 상기 네트워크 손실을 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  23. 제21항에 있어서,
    상기 훈련 유닛은 또한,
    상기 군집 카운팅 네트워크를 통해 상기 샘플 이미지를 처리하여, 제2 군집 밀도 이미지를 획득하기 전, 상기 샘플 이미지에 대해 사전 처리를 수행하여, 적어도 하나의 사전 처리된 이미지를 획득하고;
    상기 군집 카운팅 네트워크를 사용하여 상기 적어도 하나의 사전 처리된 이미지를 처리하여, 적어도 하나의 제3 군집 밀도 이미지를 획득하며 - 상기 사전 처리된 이미지와 상기 제3 군집 밀도 이미지는 일대일 대응됨 - ;
    상기 적어도 하나의 사전 처리된 이미지에서의 타깃 이미지 및 상기 타깃 이미지에 대응되는 제3 군집 밀도 이미지 사이의 차이에 따라, 상기 네트워크 손실을 획득하기 위한 것임을 특징으로 하는 이미지 처리 장치.
  24. 제23항에 있어서,
    상기 사전 처리는 상기 샘플 이미지로부터 소정 사이즈의 이미지를 캡처링하는 것, 상기 샘플 이미지 또는 상기 소정 사이즈의 이미지에 대해 플립 처리를 수행하는 것 중 적어도 하나를 포함하는 것을 특징으로 하는 이미지 처리 장치.
  25. 프로세서로서,
    상기 프로세서는 제1항 내지 제12항 중 어느 한 항에 따른 이미지 처리 방법을 실행하기 위한 것임을 특징으로 하는 프로세서.
  26. 전자 기기로서,
    서로 연결된 프로세서 및 메모리를 포함하고, 상기 메모리는 컴퓨터 프로그램 코드를 저장하기 위한 것이며, 상기 컴퓨터 프로그램 코드는 컴퓨터 명령어를 포함하며, 상기 프로세서가 상기 컴퓨터 명령어를 실행할 경우, 상기 전자 기기는 제1항 내지 제12항 중 어느 한 항에 따른 이미지 처리 방법을 실행하는 것을 특징으로 하는 전자 기기.
  27. 컴퓨터 판독 가능한 저장 매체로서,
    상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 프로그램이 저장되어 있고, 상기 컴퓨터 프로그램은 프로그램 명령어를 포함하며, 상기 프로그램 명령어가 전자 기기의 프로세서에 의해 실행될 경우, 상기 프로세서가 제1항 내지 제12항 중 어느 한 항에 따른 이미지 처리 방법을 실행하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.
  28. 명령어를 포함하는 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 프로그램 제품이 컴퓨터에서 작동될 경우, 컴퓨터가 제1항 내지 제12항 중 어느 한 항에 따른 이미지 처리 방법을 실행하도록 하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
KR1020217013985A 2019-11-27 2019-12-13 이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체 KR20210075140A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911182723.7 2019-11-27
CN201911182723.7A CN110956122B (zh) 2019-11-27 2019-11-27 图像处理方法及装置、处理器、电子设备、存储介质
PCT/CN2019/125297 WO2021103187A1 (zh) 2019-11-27 2019-12-13 图像处理方法及装置、处理器、电子设备、存储介质

Publications (1)

Publication Number Publication Date
KR20210075140A true KR20210075140A (ko) 2021-06-22

Family

ID=69978585

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217013985A KR20210075140A (ko) 2019-11-27 2019-12-13 이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체

Country Status (7)

Country Link
US (1) US20210312192A1 (ko)
JP (1) JP2022516398A (ko)
KR (1) KR20210075140A (ko)
CN (1) CN110956122B (ko)
SG (1) SG11202106680UA (ko)
TW (1) TWI752466B (ko)
WO (1) WO2021103187A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639523B (zh) * 2020-04-17 2023-07-07 北京迈格威科技有限公司 目标检测方法、装置、计算机设备和存储介质
CN111652152A (zh) * 2020-06-04 2020-09-11 上海眼控科技股份有限公司 人群密度检测方法、装置、计算机设备和存储介质
CN111652161A (zh) * 2020-06-08 2020-09-11 上海商汤智能科技有限公司 人群过密预测方法、装置、电子设备及存储介质
CN112115900B (zh) * 2020-09-24 2024-04-30 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN112434607B (zh) * 2020-11-24 2023-05-26 北京奇艺世纪科技有限公司 特征处理方法、装置、电子设备及计算机可读存储介质
CN115115554B (zh) * 2022-08-30 2022-11-04 腾讯科技(深圳)有限公司 基于增强图像的图像处理方法、装置和计算机设备
CN117021435B (zh) * 2023-05-12 2024-03-26 浙江闽立电动工具有限公司 修边机的修边控制系统及其方法
CN116363598A (zh) * 2023-05-29 2023-06-30 深圳市捷易科技有限公司 人群拥挤预警方法、装置、电子设备及可读存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9940539B2 (en) * 2015-05-08 2018-04-10 Samsung Electronics Co., Ltd. Object recognition apparatus and method
WO2017158575A1 (en) * 2016-03-17 2017-09-21 Imagia Cybernetics Inc. Method and system for processing a task with robustness to missing input information
CN107784654B (zh) * 2016-08-26 2020-09-25 杭州海康威视数字技术股份有限公司 图像分割方法、装置及全卷积网络系统
US20180189641A1 (en) * 2017-01-04 2018-07-05 Stmicroelectronics S.R.L. Hardware accelerator engine
CN108229455B (zh) * 2017-02-23 2020-10-16 北京市商汤科技开发有限公司 物体检测方法、神经网络的训练方法、装置和电子设备
CN106934397B (zh) * 2017-03-13 2020-09-01 北京市商汤科技开发有限公司 图像处理方法、装置及电子设备
WO2018224442A1 (en) * 2017-06-05 2018-12-13 Siemens Aktiengesellschaft Method and apparatus for analysing an image
CN107301387A (zh) * 2017-06-16 2017-10-27 华南理工大学 一种基于深度学习的图像高密度人群计数方法
TWI667621B (zh) * 2018-04-09 2019-08-01 和碩聯合科技股份有限公司 人臉辨識方法
CN108681743B (zh) * 2018-04-16 2019-12-06 腾讯科技(深圳)有限公司 图像对象识别方法和装置、存储介质
CN109241895B (zh) * 2018-08-28 2021-06-04 北京航空航天大学 密集人群计数方法及装置
CN109872364B (zh) * 2019-01-28 2022-02-01 腾讯科技(深圳)有限公司 图像区域定位方法、装置、存储介质和医学影像处理设备
CN109858461B (zh) * 2019-02-21 2023-06-16 苏州大学 一种密集人群计数的方法、装置、设备以及存储介质
CN110020606B (zh) * 2019-03-13 2021-03-30 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法
CN110135325B (zh) * 2019-05-10 2020-12-08 山东大学 基于尺度自适应网络的人群人数计数方法及系统
CN110245659B (zh) * 2019-05-21 2021-08-13 北京航空航天大学 基于前背景相互关系的图像显著对象分割方法及装置
CN110348537B (zh) * 2019-07-18 2022-11-29 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN110956122B (zh) 2022-08-02
TW202121233A (zh) 2021-06-01
JP2022516398A (ja) 2022-02-28
WO2021103187A1 (zh) 2021-06-03
US20210312192A1 (en) 2021-10-07
SG11202106680UA (en) 2021-07-29
TWI752466B (zh) 2022-01-11
CN110956122A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
KR20210075140A (ko) 이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체
US20210366152A1 (en) Method and apparatus with gaze estimation
CN111340864A (zh) 基于单目估计的三维场景融合方法及装置
WO2022041830A1 (zh) 行人重识别方法和装置
WO2020228405A1 (zh) 图像处理方法、装置及电子设备
CN109272543B (zh) 用于生成模型的方法和装置
CN112927363A (zh) 体素地图构建方法及装置、计算机可读介质和电子设备
CN110210457A (zh) 人脸检测方法、装置、设备及计算机可读存储介质
JP2022540101A (ja) ポジショニング方法及び装置、電子機器、コンピュータ読み取り可能な記憶媒体
CN112084959B (zh) 一种人群图像处理方法及装置
US11741678B2 (en) Virtual object construction method, apparatus and storage medium
Xie et al. Event-based stereo matching using semiglobal matching
JP7167359B2 (ja) 画像ラベリング方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム
CN112668675B (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN112037305B (zh) 对图像中的树状组织进行重建的方法、设备及存储介质
CN113902995B (zh) 一种多模态人体行为识别方法及相关设备
CN115393423A (zh) 目标检测方法和装置
CN111652831B (zh) 对象融合方法、装置、计算机可读存储介质及电子设备
CN112232890A (zh) 数据处理方法、装置、设备及存储介质
CN114764902A (zh) 一种行为识别方法、装置和存储介质
CN115147434A (zh) 图像处理方法、装置、终端设备及计算机可读存储介质
CN110705575A (zh) 定位方法及装置、设备、存储介质
CN111652023A (zh) 嘴型的调整、直播方法、装置、电子设备和存储介质
CN109993178A (zh) 一种特征数据生成和特征匹配方法及装置
CN113221920B (zh) 图像识别方法、装置、设备、存储介质以及计算机程序产品

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal