KR20220011207A - 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체 - Google Patents

이미지 처리 방법 및 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20220011207A
KR20220011207A KR1020227000768A KR20227000768A KR20220011207A KR 20220011207 A KR20220011207 A KR 20220011207A KR 1020227000768 A KR1020227000768 A KR 1020227000768A KR 20227000768 A KR20227000768 A KR 20227000768A KR 20220011207 A KR20220011207 A KR 20220011207A
Authority
KR
South Korea
Prior art keywords
level
feature map
scale
convolutional layer
feature
Prior art date
Application number
KR1020227000768A
Other languages
English (en)
Inventor
신지앙 왕
쉬롱 장
리통 펭
웨이 장
Original Assignee
선전 센스타임 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 선전 센스타임 테크놀로지 컴퍼니 리미티드 filed Critical 선전 센스타임 테크놀로지 컴퍼니 리미티드
Publication of KR20220011207A publication Critical patent/KR20220011207A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

이미지 처리 방법 및 장치, 전자 기기와 저장 매체 및 프로그램 제품으로서, 상기 방법은, 처리할 이미지에 대해 M 레벨 특징 추출을 수행하여, 상기 처리할 이미지의 M 레벨 제1 특징 맵을 획득하는 단계(S11) - 상기 M 레벨 제1 특징 맵에서 각 레벨의 제1 특징 맵의 척도는 상이하고, M은 1보다 큰 정수임 - ; 각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득하는 단계(S12) - 각각의 상기 특징 맵 그룹은 상기 제1 특징 맵 및 상기 제1 특징 맵과 인접한 제1 특징 맵을 포함함 - ; 및 상기 M 레벨 제2 특징 맵에 대해 타깃 검출을 수행하여, 상기 처리할 이미지의 타깃 검출 결과를 획득하는 단계(S13)를 포함한다. 상기 방법 및 장치, 전자 기기와 저장 매체 및 프로그램 제품은 타깃 검출의 효과를 향상할 수 있다.

Description

이미지 처리 방법 및 장치, 전자 기기 및 저장 매체
[관련 출원의 상호 참조]
본 발명은 출원 번호가 202010306929.2이고, 출원 일자가 2020년 4월 17일인 중국 특허 출원을 기반으로 제출하였고, 상기 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 전체 내용은 참조로서 본 발명에 인용된다.
본 발명은 컴퓨터 기술 분야에 관한 것으로서, 특히 이미지 처리 방법과 장치, 전자 기기 및 저장 매체에 관한 것이다.
딥러닝을 통해 이미지를 처리하는 과정에서, 통상적으로 이미지의 타깃(예를 들어 물체, 동물, 행인 등)을 검출하여, 이미지에서 타깃의 위치 및 카테고리 등 정보를 결정해야 한다. 그러나, 예를 들어 이미지에서 가까운 곳과 먼 곳에 위치하는 면양과 같이, 이미지에서 타깃의 척도는 비교적 큰 차이가 있다. 관련 기술에서, 이미지에서 척도의 차이가 비교적 큰 타깃에 대한 검출 효과가 비교적 떨어진다.
본 발명은 이미지 처리의 기술적 해결수단을 제공한다.
본 발명의 제1 측면에 따르면, 이미지 처리 방법을 제공하는 바, 처리할 이미지에 대해 M 레벨 특징 추출을 수행하여, 상기 처리할 이미지의 M 레벨 제1 특징 맵을 획득하는 단계 - 상기 M 레벨 제1 특징 맵에서 각 레벨의 제1 특징 맵의 척도는 상이하고, M은 1보다 큰 정수임 - ; 각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득하는 단계 - 각각의 특징 맵 그룹은 상기 제1 특징 맵 및 상기 제1 특징 맵과 인접한 제1 특징 맵을 포함함 - ; 및 상기 M 레벨 제2 특징 맵에 대해 타깃 검출을 수행하여, 상기 처리할 이미지의 타깃 검출 결과를 획득하는 단계를 포함한다.
본 발명의 일부 실시예에서, 제i 레벨 제1 특징 맵에 대응되는 특징 맵 그룹은 제i-1 레벨 제1 특징 맵, 제i 레벨 제1 특징 맵 및 제i+1 레벨 제1 특징 맵을 포함하고, i는 정수이며 1<i<M이고, 상기 각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득하는 단계는, 상기 제i-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제i 레벨 제3 특징 맵을 획득하는 단계; 상기 제i 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제i 레벨 제3 특징 맵을 획득하는 단계; 상기 제i+1 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 세 번째 제i 레벨 제3 특징 맵을 획득하는 단계; 및 상기 첫 번째 제i 레벨 제3 특징 맵, 상기 두 번째 제i 레벨 제3 특징 맵 및 세 번째 제i 레벨 제3 특징 맵을 융합하여, 제i 레벨 제2 특징 맵을 획득하는 단계를 포함하되, 여기서, 상기 첫 번째 제i 레벨 제3 특징 맵, 상기 두 번째 제i 레벨 제3 특징 맵 및 세 번째 제i 레벨 제3 특징 맵의 척도는 동일하다.
이로써, 제i 레벨 제1 특징 맵에 대응되는 특징 맵 그룹에 대해, 척도가 비교적 큰 제i-1 레벨 제1 특징 맵을 제i 레벨 제1 특징 맵의 척도와 동일하게 축소할 수 있고; 척도가 비교적 작은 제i+1 레벨 제1 특징 맵을 제i 레벨 제1 특징 맵의 척도와 동일하게 확대하여, 상기 특징 맵 그룹에서 각 특징 맵의 척도를 통일하도록 한다.
본 발명의 일부 실시예에서, 제1 레벨 제1 특징 맵에 대응되는 특징 맵 그룹은 상기 제1 레벨 제1 특징 맵 및 제2 레벨 제1 특징 맵을 포함하고, 상기 각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득하는 단계는 상기 제1 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 첫 번째 제1 레벨 제3 특징 맵을 획득하는 단계; 상기 제2 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 두 번째 제1 레벨 제3 특징 맵을 획득하는 단계; 및 상기 첫 번째 제1 레벨 제3 특징 맵 및 상기 두 번째 제1 레벨 제3 특징 맵을 융합하여, 제1 레벨 제2 특징 맵을 획득하는 단계를 포함하되, 여기서, 상기 첫 번째 제1 레벨 제3 특징 맵과 상기 두 번째 제1 레벨 제3 특징 맵의 척도는 동일하다.
이로써, 제1 레벨 제1 특징 맵에 대해, 이전 레벨의 특징 맵이 없으면, 단지 제1 레벨 제1 특징 맵 자체 및 서로 인접한 제2 레벨 제1 특징 맵을 처리할 수 있고, 획득된 첫 번째 제1 레벨 제3 특징 맵과 상기 두 번째 제1 레벨 제3 특징 맵의 척도는 동일하다. 첫 번째와 두 번째 제1 레벨 제3 특징 맵을 서로 가하여, 제1 레벨 제2 특징 맵을 획득한다. 이러한 방식을 통해, 제1 레벨의 인접한 특징 맵의 융합을 구현할 수 있다.
본 발명의 일부 실시예에서, 제M 레벨 제1 특징 맵에 대응되는 특징 맵 그룹은 제M-1 레벨 제1 특징 맵 및 상기 제M 레벨 제1 특징 맵을 포함하고, 상기 각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득하는 단계는, 상기 제M-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제M 레벨 제3 특징 맵을 획득하는 단계; 상기 제M 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제M 레벨 제3 특징 맵을 획득하는 단계; 및 상기 첫 번째 제M 레벨 제3 특징 맵 및 상기 두 번째 제M 레벨 제3 특징 맵을 융합하여, 제M 레벨 제2 특징 맵을 획득하는 단계를 포함하되, 여기서, 상기 첫 번째 제M 레벨 제3 특징 맵과 상기 두 번째 제M 레벨 제3 특징 맵의 척도는 동일하다.
이로써, 제M 레벨 제1 특징 맵에 대해, 이후 레벨의 특징 맵이 없으면, 단지 제M 레벨 제1 특징 맵 자체 및 서로 인접한 제M-1 레벨 제1 특징 맵을 처리하여, 획득된 첫 번째 제M 레벨 제3 특징 맵은 상기 두 번째 제M 레벨 제3 특징 맵의 척도는 동일하다. 첫 번째와 두 번째 제M 레벨 제3 특징 맵을 서로 가하여, 제M 레벨 제2 특징 맵을 획득한다. 이러한 방식을 통해, 제M 레벨의 인접한 특징 맵의 융합을 구현할 수 있다.
본 발명의 일부 실시예에서, 상기 제i-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제i 레벨 제3 특징 맵을 획득하는 상기 단계는, 제1 콘볼루션 계층을 통해 상기 제i-1 레벨 제1 특징 맵을 콘볼루션하여, 상기 첫 번째 제i 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제1 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 n이고, N, n은 1보다 큰 정수이며, 상기 제i-1 레벨 제1 특징 맵의 척도는 상기 제i 레벨 제1 특징 맵의 척도의 n배이고; 상기 제i 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제i 레벨 제3 특징 맵을 획득하는 상기 단계는, 제2 콘볼루션 계층을 통해 상기 제i 레벨 제1 특징 맵을 콘볼루션하여, 상기 두 번째 제i 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이고; 상기 제i+1 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 세 번째 제i 레벨 제3 특징 맵을 획득하는 상기 단계는, 제3 콘볼루션 계층 및 업 샘플링 계층을 통해 상기 제i+1 레벨 제1 특징 맵을 콘볼루션 및 업 샘플링하여, 상기 세 번째 제i 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제3 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이다.
이로써, 상이한 콘볼루션 계층을 설치하는 것을 통해, 제i 레벨 제1 특징 맵에 대응되는 특징 맵 그룹에서 각 특징 맵의 처리를 구현할 수 있고, 특징 맵 그룹에서 각 특징 맵의 척도를 통일하여, 후속적인 융합 처리가 간편해지도록 한다.
본 발명의 일부 실시예에서, 상기 제1 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 첫 번째 제1 레벨 제3 특징 맵을 획득하는 상기 단계는, 제2 콘볼루션 계층을 통해 상기 제1 레벨 제1 특징 맵을 콘볼루션하여, 상기 첫 번째 제1 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이고, N은 1보다 큰 정수이며; 상기 제2 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 두 번째 제1 레벨 제3 특징 맵을 획득하는 상기 단계는, 제3 콘볼루션 계층 및 업 샘플링 계층을 통해 상기 제2 레벨 제1 특징 맵을 콘볼루션 및 업 샘플링하여, 두 번째 제1 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제3 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이다.
이로써, 상이한 콘볼루션 계층을 설치하는 것을 통해, 제1 레벨 제1 특징 맵에 대응되는 특징 맵 그룹에서 각 특징 맵의 처리를 구현한다.
본 발명의 일부 실시예에서, 상기 제M-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제M 레벨 제3 특징 맵을 획득하는 상기 단계는, 제1 콘볼루션 계층을 통해 상기 제M-1 레벨 제1 특징 맵을 콘볼루션하여, 상기 첫 번째 제M 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제1 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 n이고, N, n은 1보다 큰 정수이며, 상기 제i-1 레벨 제1 특징 맵의 척도는 상기 제i 레벨 제1 특징 맵의 척도의 n배이고; 상기 제M 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제M 레벨 제3 특징 맵을 획득하는 상기 단계는, 제2 콘볼루션 계층을 통해 상기 제M 레벨 제1 특징 맵을 콘볼루션하여, 상기 두 번째 제M 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이다.
이로써, 상이한 콘볼루션 계층을 설치하는 것을 통해, 제M 레벨 제1 특징 맵에 대응되는 특징 맵 그룹에서 각 특징 맵의 처리를 구현한다.
본 발명의 일부 실시예에서, 상기 제2 콘볼루션 계층 및 상기 제3 콘볼루션 계층은 가변형 콘볼루션 계층 또는 확장 콘볼루션 계층을 포함한다.
이로써, 제2 콘볼루션 계층 및 제3 콘볼루션 계층이 가변형 콘볼루션인 경우, 별도의 콘볼루션 계층을 설치하여 오프셋을 학습할 수 있고, 특징 맵과 오프셋을 공동으로 가변형 콘볼루션 계층의 입력으로 하며, 샘플링 포인트에 오프셋이 발생하도록 조작하고, 다시 콘볼루션을 수행한다. 제2 콘볼루션 계층 및 제3 콘볼루션 계층이 확장 콘볼루션인 경우, 확장 콘볼루션의 확장률을 미리 설정하여, 콘볼루션의 수용야(receptive field)를 적응성 조절할 수 있고, 특징 맵 융합의 효과를 더욱 향상한다.
본 발명의 일부 실시예에서, 상기 방법은 이미지 처리 네트워크를 통해 구현되고, 상기 이미지 처리 네트워크는 직렬된 P 레벨 융합 네트워크 블록을 포함하며, 상기 M 레벨 제1 특징 맵에 대해 P회 척도 조절 및 융합을 수행하도록 구성되고, 각 레벨의 융합 네트워크 블록은 복수 개의 제1 콘볼루션 계층, 복수 개의 제2 콘볼루션 계층 및 복수 개의 제3 콘볼루션 계층을 포함하고, P는 양의 정수이며; 상기 각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득하는 단계는, 상기 M 레벨 제1 특징 맵을 제1 레벨 융합 네트워크 블록에 입력하고, 제1회 융합된 M 레벨 제4 특징 맵을 출력하는 단계; 제j-1회 융합된 M 레벨 제4 특징 맵을 제j 레벨 융합 네트워크 블록에 입력하고, 제j회 융합된 M 레벨 제4 특징 맵을 출력하는 단계 - j는 정수이며 1<j<P임 - ; 및 제P-1회 융합된 M 레벨 제4 특징 맵을 제P 레벨 융합 네트워크 블록에 입력하고, 상기 M 레벨 제2 특징 맵을 출력하는 단계를 포함한다.
이로써, 직렬된 P 레벨 융합 네트워크 블록을 통해 이미지를 처리하는 방식은, 융합 효과를 더욱 향상시킬 수 있다.
본 발명의 일부 실시예에서, 각 레벨의 융합 네트워크 블록은 정규화 계층을 더 포함하고, 상기 제j-1회 융합된 M 레벨 제4 특징 맵을 제j 레벨 융합 네트워크 블록에 입력하고, 제j회 융합된 M 레벨 제4 특징 맵을 출력하는 단계는, 상기 제j 레벨 융합 네트워크 블록의 제1 콘볼루션 계층, 제2 콘볼루션 계층 및 제3 콘볼루션 계층을 통해, 상기 제j-1회 융합된 M 레벨 제4 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, 제j회 융합된 M 레벨 중간 특징 맵을 획득하는 단계; 및 상기 정규화 계층을 통해 상기 제j회 융합된 M 레벨 중간 특징 맵에 대해 연합 배치 정규화 처리를 수행하여, 상기 제j회 융합된 M 레벨 제4 특징 맵을 획득하는 단계를 포함한다.
이로써, 상기 정규화 계층을 통해 상기 제j 회 융합된 M 레벨 중간 특징 맵에 대해 연합 배치 정규화 처리를 수행하여, 트레이닝 과정을 효과적으로 안정시키고 성능을 추가로 향상시킬 수 있으며, 특히는 검출 태스크에서 배치가 비교적 작은 경우, 연합 배치 정규화하여 아주 바람직한 효과를 얻을 수 있다.
본 발명의 일부 실시예에서, 상기 방법은 이미지 처리 네트워크를 통해 구현되고, 상기 이미지 처리 네트워크는 회귀 네트워크 및 분류 네트워크를 더 포함하며, 상기 M 레벨 제2 특징 맵에 대해 타깃 검출을 수행하여, 상기 처리할 이미지의 타깃 검출 결과를 획득하는 상기 단계는, 상기 M 레벨 제2 특징 맵을 상기 회귀 네트워크에 입력하여, 상기 처리할 이미지에서 타깃에 대응되는 이미지 프레임을 결정하는 단계; 및 상기 M 레벨 제2 특징 맵을 상기 분류 네트워크에 입력하여, 상기 처리할 이미지에서 타깃의 카테고리를 결정하는 단계를 포함하되, 상기 타깃 검출 결과는 상기 타깃에 대응되는 이미지 프레임 및 상기 타깃의 카테고리를 포함한다.
이로써, 회귀 네트워크 및 분류 네트워크는 각각 타깃 검출 중의 회귀 태스크 및 분류 태스크를 구현하기 위한 것이다.
본 발명의 일 측면에 따르면, 이미지 처리 장치를 제공하는 바, 처리할 이미지에 대해 M 레벨 특징 추출을 수행하여, 상기 처리할 이미지의 M 레벨 제1 특징 맵을 획득하도록 구성된 특징 추출 모듈 - 상기 M 레벨 제1 특징 맵에서 각 레벨의 제1 특징 맵의 척도는 상이하고, M은 1보다 큰 정수임 - ; 각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득하도록 구성된 척도 조절 및 융합 모듈 - 각각의 특징 맵 그룹은 상기 제1 특징 맵 및 상기 제1 특징 맵과 인접한 제1 특징 맵을 포함함 - ; 및 상기 M 레벨 제2 특징 맵에 대해 타깃 검출을 수행하여, 상기 처리할 이미지의 타깃 검출 결과를 획득하는 타깃 검출 모듈을 포함한다.
본 발명의 일 측면에 따르면, 전자 기기를 제공하는 바, 프로세서; 및 프로세서 실행 가능한 명령을 저장하는 메모리를 포함하되; 여기서, 상기 프로세서는 상기 메모리에 저장된 명령을 호출하여, 상기 방법을 수행하도록 구성된다.
본 발명의 일 측면에 따르면, 컴퓨터 프로그램 명령이 저장되는 컴퓨터 판독 가능 저장 매체를 제공하는 바, 상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행될 경우 상기 방법을 구현한다.
본 발명의 일 측면에 따르면, 컴퓨터 프로그램 제품을 제공하는 바, 상기 컴퓨터 프로그램 제품은 하나 이상의 명령을 포함하되, 상기 하나 이상의 명령은 프로세서에 의해 실행될 경우 상기 이미지 처리 방법을 구현하는 것에 적합하다.
본 발명의 실시예에서, 처리할 이미지에 대해 M 레벨 특징 추출을 수행하여 M 레벨 제1 특징 맵을 획득할 수 있고; 각각의 제1 특징 맵과 이와 인접하는 특징 맵을 융합하여 M 레벨 제2 특징 맵을 획득하며; M 레벨 제2 특징 맵 타깃 검출에 대해 타깃 검출 결과를 획득함으로써, M 레벨 제1 특징 맵의 인접 계층 사이의 특징의 관련 정보를 융합할 수 있으며, 타깃 검출의 효과를 효과적으로 향상시킬 수 있다.
상기의 일반적인 서술 및 하기의 절차에 대한 서술은 단지 예시적 및 해석적인 것으로서, 본 발명을 한정하지 않음을 반드시 이해해야 한다. 하기의 참조 도면에 따라 예시적인 실시예를 상세하게 설명하며, 본 발명의 다른 특징 및 측면은 명확해질 것이다.
여기서의 도면은 명세서에 병합되어 본 명세서의 일 부분을 구성하며, 이러한 도면은 본 발명의 실시예에 부합되고, 명세서와 함께 본 발명의 기술적 해결수단을 설명하기 위한 것이다.
도 1a는 본 발명의 실시예에 따른 이미지 처리 방법의 흐름도이다.
도 1b는 네 가지 상이한 다차원 특징 조합의 생성 방법의 모식도이다.
도 1c는 가변형 콘볼루션 계층의 작동 원리 모식도이다.
도 2a 및 도 2b는 관련 기술에 따른 배치 정규화의 모식도이다.
도 2c는 본 발명의 실시예에 따른 연합 배치 정규화의 모식도이다.
도 3a는 관련 기술에 따른 검출기의 모식도이다.
도 3b는 본 발명의 실시예에 따른 이미지 처리 네트워크의 모식도이다.
도 4는 본 발명의 실시예에 따른 이미지 처리 장치의 블록도이다.
도 5는 본 발명의 실시예에 따른 전자 기기의 블록도이다.
도 6은 본 발명의 실시예에 따른 전자 기기의 블록도이다.
아래 도면을 참조하여 본 발명의 각 예시적인 실시예, 특징 및 측면을 설명한다. 도면에서 동일한 도면 부호는 기능이 동일하거나 유사한 소자를 표시한다. 비록 도면에서 실시예의 여러 측면을 시사하였으나, 특별히 지적하지 않는 한 비율에 따라 도면을 제작할 필요가 없다.
여기서 전용 단어 “예시적”은 “예, 실시예 또는 설명성으로 사용됨"을 의미한다. 여기서 "예시적"으로 설명되는 임의의 실시예는 다른 실시예보다 바람직하거나 훌륭함으로 해석될 필요는 없다.
본문에서의 용어 “및/또는"은 단지 연관 대상의 연관 관계를 기술하기 위한 것으로, 3가지 관계가 존재할 수 있음을 의미하는데, 예를 들어 "A 및/또는 B"는, A만 존재, A와 B가 동시에 존재, B만 존재하는 3가지 경우를 의미한다. 이밖에, 본문에서 "적어도 한 가지"는 여러 가지 중의 임의의 하나 또는 여러 가지 중의 적어도 두 가지의 임의의 조합을 표시하는 바, 예를 들면, A, B, C 중의 적어도 하나를 포함한다는 것은 A, B 및 C로 구성된 집합에서 임의의 하나 또는 복수 개의 원소를 선택하는 것을 표시할 수 있다.
또한, 본 발명을 더욱 잘 설명하기 위해, 아래의 실시형태에서 다양한 절차를 시사하였다. 본 기술분야의 통상의 기술자는 일부 절차가 없어도 본 발명은 여전히 실시할 수 있음을 반드시 이해해야 한다. 일부 구현예에서, 본 발명의 주지를 강조하기 위해, 본 기술분야의 통상의 기술자에게 자명한 방법, 수단, 소자 및 회로에 대해서는 상세하게 서술하지 않는다.
도 1a는 본 발명의 실시예에 따른 이미지 처리 방법의 흐름도이고, 도 1a에 도시된 바와 같이, 상기 방법은 하기의 단계를 포함한다.
단계 S11에서, 처리할 이미지에 대해 M 레벨 특징 추출을 수행하여, 상기 처리할 이미지의 M 레벨 제1 특징 맵을 획득하되, 상기 M 레벨 제1 특징 맵에서 각 레벨의 제1 특징 맵의 척도는 상이하고, M은 1보다 큰 정수이다.
단계 S12에서, 각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득하되, 여기서, 각각의 상기 특징 맵 그룹은 상기 제1 특징 맵 및 상기 제1 특징 맵과 인접한 제1 특징 맵을 포함한다.
단계 S13에서, 상기 M 레벨 제2 특징 맵에 대해 타깃 검출을 수행하여, 상기 처리할 이미지의 타깃 검출 결과를 획득한다.
본 발명의 일부 실시예에서, 상기 이미지 처리 방법은 단말 장치 또는 서버 등 전자 기기에 의해 수행될 수 있고, 단말 장치는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말기, 단말기, 셀룰러 폰, 무선 전화, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 핸드헬드 기기, 컴퓨팅 기기, 차량 탑재 기기, 웨어러블 기기 등일 수 있으며, 상기 방법은 프로세서를 통해 메모리에 저장된 컴퓨터 판독 가능 명령을 호출하는 방식으로 구현될 수 있거나, 또는 서버를 통해 상기 방법을 수행할 수 있다.
예를 들어 설명하자면, 처리할 이미지는 타깃(예를 들어 물체, 동물, 행인 등)을 포함하는 이미지일 수 있고, 처리할 이미지는 이미지 수집 기기(예를 들어 카메라)를 사용하여 수집된 것일 수 있으며, 다른 방식을 통해 획득된 것일 수도 있고, 본 발명은 이에 한정되지 않는다.
본 발명의 일부 실시예에서, 단계 S11에서, 예를 들어 특징 피라미드 네트워크를 통해 처리할 이미지에 대해 멀티 레벨 특징 추출을 수행할 수 있고, 네트워크의 상이한 레벨에서 특징 맵을 추출하여, 처리할 이미지의 M 레벨 제1 특징 맵(특징 피라미드라고 칭할 수도 있음)을 획득하며, M은 1보다 큰 정수이다. 여기서, M 레벨 제1 특징 맵에서 각 레벨의 제1 특징 맵의 척도는 상이하다. 상기 특징 피라미드 네트워크는 적어도 M 계층의 콘볼루션 계층, 풀링 계층 등을 포함할 수 있고, 본 발명은 특징 피라미드 네트워크의 네트워크 구조를 한정하지 않는다. 단일 척도 이미지를 사용하여 검출하여, 메모리와 컴퓨팅 원가를 절감할 수 있다.
도 1b는 네 가지 상이한 다차원 특징 조합의 생성 방법의 모식도이고, (a) 특징화된 이미지 피라미드도, (b) 단일 척도 특징, (c) 피라미드 특징 계층적 구조 및 (d) 특징 피라미드 네트워크를 포함하며, 도 1b에 도시된 바와 같이, 도 1b의 (a) 특징화된 이미지 피라미드에서, 이미지 피라미드를 사용하여 특징 피라미드를 구축한다. 척도 이미지마다 독립적으로 특징을 컴퓨팅하며, 예측 출력의 속도가 완만하다. 도 1b의 (b) 단일 척도 특징에서, 검출 시스템은 단일 척도 특징만 사용하는 것을 선택하여 검출 속도를 가속화하여 예측을 출력한다. 도 1b의 (c) 피라미드 특징 계층적 구조에서, 피라미드 특징 계층적 구조를 재이용하여 예측을 출력한다. 도 1b의 (d)에서 제시한 특징 피라미드 네트워크 및 (b), (c)는 동일하게 빠르지만, 더욱 정확하다. 이로써, 특징 피라미드 네트워크의 하향식 과정은 업 샘플링 방식을 통해 최상 계층의 작은 특징 맵을 서로 인접한 특징 맵과 같은 크기로 확대한다. 이렇게 하는 장점은 최상 계층의 비교적 강한 시맨틱 특징을 이용할 뿐만 아니라, 최저 계층의 고해상도 정보를 이용하는 것이다.
후속적인 처리 과정에서, 직접 M 레벨 제1 특징 맵을 융합할 경우, 상이한 계층 사이의 시맨틱 정보를 융합할 수 있으나, 서로 인접한 계층 사이의 특징의 연관성을 구현할 수 없다. 상기와 같은 상황에서, 단계 S12를 통해 각 레벨의 제1 특징 맵과 이와 서로 인접한 제1 특징 맵 사이의 융합을 구현할 수 있다.
본 발명의 일부 실시예에서, 단계 S12에서, 각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득할 수 있고, 각각의 특징 맵 그룹은 상기 제1 특징 맵 및 상기 제1 특징 맵과 인접한 제1 특징 맵을 포함한다. 예를 들어, 임의의 제1 특징 맵에 대해, 서로 인접한 2q개 특징 맵(즉 전후로 각 q개 특징 맵을 추출함)의 척도를 상기 제1 특징 맵의 척도와 동일하게 조절할 수 있고, 다시 조절한 후의 2q개 특징 맵과 상기 제1 특징 맵을 서로 가하여, 상기 제1 특징 맵에 대응되는 제2 특징 맵을 획득하며, q≥1이고, 본 발명은 q의 값을 한정하지 않는다.
본 발명의 일부 실시예에서, 제1 특징 맵의 특징 맵 그룹(제1 특징 맵 및 서로 인접한 2q개 특징 맵을 포함함)의 척도를 특정된 척도로 통일할 수도 있는 바, 예를 들어 특징 맵 그룹 중의 특징 맵을 모두 제1 특징 맵의 척도의 배수로 확대하거나, 모두 제1 특징 맵의 척도의 몇 분의 일로 축소한다. 그 다음 조절한 후의 각 특징 맵을 서로 가하여, 상기 제1 특징 맵에 대응되는 제2 특징 맵을 획득한다. 본 발명은 특징 맵 그룹에 대해 척도 조절을 수행하는 척도 범위 및 방식을 한정하지 않는다.
이로써, 특징 맵 차원의 연관성 및 공간 차원의 연관성을 포착하여, 융합 획득된 특징 맵의 정밀도를 향상시킬 수 있다.
본 발명의 일부 실시예에서, 단계 S13에서 M 레벨 제2 특징 맵에 대해 타깃 검출을 수행하여, 처리할 이미지의 타깃 검출 결과를 획득할 수 있다. 예를 들어 M 레벨 제2 특징 맵에 대해 각각 회귀 및 분류 처리를 수행한다. 회귀 처리를 거친 후, 처리할 이미지에서 타깃이 위치한 이미지 영역(즉 검출 프레임)을 결정할 수 있고; 분류 처리를 거친 후, 처리할 이미지에서 타깃의 카테고리를 결정할 수 있다. 상기 처리할 이미지의 타깃 검출 결과는 처리할 이미지에서 타깃이 위치한 이미지 영역(즉 검출 프레임) 및 타깃의 카테고리 등을 포함할 수 있다.
본 발명의 실시예에 따르면, 처리할 이미지에 대해 M 레벨 특징 추출을 수행하여 M 레벨 제1 특징 맵을 획득할 수 있고; 각각의 제1 특징 맵과 이와 인접하는 특징 맵을 융합하여 M 레벨 제2 특징 맵을 획득하며; M 레벨 제2 특징 맵 타깃 검출에 대해 타깃 검출 결과를 획득함으로써, M 레벨 제1 특징 맵의 인접 계층 사이의 특징의 관련 정보를 융합할 수 있으며, 타깃 검출의 효과를 효과적으로 향상시킬 수 있다.
본 발명의 일부 실시예에서, 단계 S11에서 획득된 M 레벨 제1 특징 맵에서 각 레벨의 제1 특징 맵의 척도는 점차 감소될 수 있는 바, 예를 들어, 제1 레벨 제1 특징 맵의 척도는 512×512이고, 제2 레벨 제1 특징 맵의 척도는 256×256이며, 제3 레벨 제1 특징 맵의 척도는 128×128 등이다. 본 발명은 M 레벨 제1 특징 맵의 척도 값을 한정하지 않는다.
본 발명의 일부 실시예에서, M 레벨 제1 특징 맵 중의 제i 레벨 제1 특징 맵에 대해,(i는 정수이며 1<i<M이고), 제i 레벨 제1 특징 맵에 대응되는 특징 맵 그룹은 제i-1 레벨 제1 특징 맵, 제i 레벨 제1 특징 맵 및 제i+1 레벨 제1 특징 맵을 포함하고, i는 정수이며 1<i<M이다. 여기서, 단계 S12는,
상기 제i-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제i 레벨 제3 특징 맵을 획득하는 단계;
상기 제i 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제i 레벨 제3 특징 맵을 획득하는 단계;
상기 제i+1 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 세 번째 제i 레벨 제3 특징 맵을 획득하는 단계; 및
상기 첫 번째 제i 레벨 제3 특징 맵, 상기 두 번째 제i 레벨 제3 특징 맵 및 세 번째 제i 레벨 제3 특징 맵을 융합하여, 제i 레벨 제2 특징 맵을 획득하는 단계를 포함한다.
여기서, 상기 첫 번째 제i 레벨 제3 특징 맵, 상기 두 번째 제i 레벨 제3 특징 맵 및 세 번째 제i 레벨 제3 특징 맵의 척도는 동일하다.
예를 들어 설명하자면, 제i 레벨 제1 특징 맵에 대응되는 특징 맵 그룹에 대해, 척도가 비교적 큰 제i-1 레벨 제1 특징 맵을 제i 레벨 제1 특징 맵의 척도와 동일하게 축소할 수 있고; 척도가 비교적 작은 제i+1 레벨 제1 특징 맵을 제i 레벨 제1 특징 맵의 척도와 동일하게 확대하여, 상기 특징 맵 그룹에서 각 특징 맵의 척도를 간편하게 통일한다.
본 발명의 일부 실시예에서, 제i-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제i 레벨 제3 특징 맵을 획득할 수 있고; 제i 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제i 레벨 제3 특징 맵을 획득할 수 있으며; 제i+1 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 세 번째 제i 레벨 제3 특징 맵을 획득할 수 있다. 여기서, 첫 번째, 두 번째 및 세 번째 제i 레벨 제3 특징 맵의 척도는 동일하다.
본 발명의 일부 실시예에서, 콘볼루션, 다운 샘플링 등 방식을 통해 척도 축소를 구현할 수 있고; 디콘볼루션, 업 샘플링, 스텝 길이가 1보다 작은 콘볼루션 등 방식을 통해 척도 확대를 구현할 수 있으며; 스텝 길이가 1인 콘볼루션 또는 다른 처리 방식을 통해 척도 불변의 변환을 구현할 수 있고, 본 발명은 이에 한정되지 않는다.
본 발명의 일부 실시예에서, 첫 번째, 두 번째 및 세 번째 제i 레벨 제3 특징 맵을 직접 서로 가하거나 기설정된 가중치에 따라 서로 가하여, 제i 레벨 제2 특징 맵을 융합 획득할 수 있고, 상기 제i 레벨 제2 특징 맵의 척도와 제i 레벨 제1 특징 맵의 척도는 동일하다. 이러한 방식을 통해, 서로 인접한 특징 맵의 융합을 구현하여, 특징 추출 효과를 향상할 수 있다.
본 발명의 일부 실시예에서, 상기 제i-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제i 레벨 제3 특징 맵을 획득하는 상기 단계는, 제1 콘볼루션 계층을 통해 상기 제i-1 레벨 제1 특징 맵을 콘볼루션하여, 상기 첫 번째 제i 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제1 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 n이고, N, n은 1보다 큰 정수이며, 상기 제i-1 레벨 제1 특징 맵의 척도는 상기 제i 레벨 제1 특징 맵의 척도의 n배이고;
상기 제i 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제i 레벨 제3 특징 맵을 획득하는 상기 단계는, 제2 콘볼루션 계층을 통해 상기 제i 레벨 제1 특징 맵을 콘볼루션하여, 상기 두 번째 제i 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이고;
상기 제i+1 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 세 번째 제i 레벨 제3 특징 맵을 획득하는 상기 단계는, 제3 콘볼루션 계층 및 업 샘플링 계층을 통해 상기 제i+1 레벨 제1 특징 맵을 콘볼루션 및 업 샘플링하여, 상기 세 번째 제i 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제3 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이다.
예를 들어 설명하자면, 상이한 콘볼루션 계층을 설치하는 것을 통해, 제i 레벨 제1 특징 맵에 대응되는 특징 맵 그룹에서 각 특징 맵의 처리를 구현할 수 있다.
본 발명의 일부 실시예에서, 제1 콘볼루션 계층을 통해 제i-1 레벨 제1 특징 맵을 콘볼루션하여, 첫 번째 제i 레벨 제3 특징 맵을 획득할 수 있다. 상기 제1 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 n이고, N, n은 1보다 큰 정수이며, 상기 제i-1 레벨 제1 특징 맵의 척도는 상기 제i 레벨 제1 특징 맵의 척도의 n배이고, 즉 콘볼루션을 통해 척도 축소를 구현한다. 예를 들어 제i-1 레벨 제1 특징 맵의 척도는 256×256이고, 제i 레벨 제1 특징 맵의 척도는 128×128이면, n=2이고, 즉 제i-1 레벨 제1 특징 맵의 길이와 폭은 모두 제i 레벨 제1 특징 맵의 길이와 폭의 2배이다. 콘볼루션을 거친 후, 획득된 첫 번째 제i 레벨 제3 특징 맵의 척도는 128×128이다. 여기서, 예를 들어, N의 값은 3이며, 본 발명은 N 및 n의 값을 한정하지 않는다.
본 발명의 일부 실시예에서, 제2 콘볼루션 계층을 통해 제i 레벨 제1 특징 맵을 콘볼루션하여, 두 번째 제i 레벨 제3 특징 맵을 획득할 수 있고, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이고, 즉 콘볼루션을 통해 척도 불변의 변환을 구현한다. 예를 들어 제i 레벨 제1 특징 맵의 척도가 128×128이고, 콘볼루션을 거친 후, 획득된 두 번째 제i 레벨 제3 특징 맵의 척도는 128×128이다. 반드시 이해해야 할 것은, 본 기술분야의 통상의 기술자는 다른 방식을 사용하여 척도 불변의 변환을 구현할 수 있으며, 본 발명은 이에 한정되지 않는다.
본 발명의 일부 실시예에서, 제3 콘볼루션 계층 및 업 샘플링 계층을 통해 제i+1 레벨 제1 특징 맵을 콘볼루션 및 n배 업 샘플링하여, 세 번째 제i 레벨 제3 특징 맵을 획득할 수 있고, 상기 제3 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이고, 즉 콘볼루션 및 업 샘플링을 통해 척도 확대를 구현할 수 있다. 예를 들어 제i+1 레벨 제1 특징 맵의 척도가 64×64이고, 제i 레벨 제1 특징 맵의 척도가 128×128이면, n=2이다. 콘볼루션 및 2배 업 샘플링을 거친 후, 획득된 세 번째 제i 레벨 제3 특징 맵의 척도는 128×128이다. 반드시 이해해야 할 것은, 본 기술분야의 통상의 기술자는 다른 방식을 사용하여 척도 확대를 구현할 수 있으며, 예를 들어 디콘볼루션 또는 스텝 길이가 1/n인 콘볼루션 등이고, 본 발명은 이에 한하지 않는다.
이러한 방식을 통해, 특징 맵 그룹에서 각 특징 맵의 척도를 통일하여, 후속적인 융합 처리가 간편해지도록 한다.
본 발명의 일부 실시예에서, 첫 번째, 두 번째 및 세 번째 제i 레벨 제3 특징 맵을 직접 서로 가하여, 제i 레벨 제2 특징 맵을 획득할 수 있다. 전체 처리 과정은 하기와 같다.
Y^i=Upsample(w^1*x^(i+1) )+w^0*x^i+ w^(-1) *_(s=2) x^(i-1) 공식 (1)
대응되는 코드는 아래와 같다.
Figure pct00001
공식 (1)에서, Y^i는 제i 레벨 제2 특징 맵을 표시하고; x^(i+1), x^i, x^(i-1)은 각각 제i+1 레벨 제1 특징 맵, 제i 레벨 제1 특징 맵 및 제i-1 레벨 제1 특징 맵을 표시하며; w^1, w^0, w^(-1)은 각각 제3 콘볼루션 계층, 제2 콘볼루션 계층 및 제1 콘볼루션 계층의 가중치를 표시하고; *은 각각 콘볼루션 조작을 표시하며; s는 스텝 길이를 표시하며; Upsample은 업 샘플링 조작을 표시한다.
공식 (1)의 처리 과정을 피라미드 콘볼루션 또는 척도 공간 콘볼루션으로 지칭할 수도 있다. 상기 피라미드 콘볼루션 처리를 통해, 인접 계층 정보 융합의 제2 특징 맵을 획득할 수 있으며, 후속적인 타깃 검출의 효과를 효과적으로 향상시킬 수 있다.
본 발명의 일부 실시예에서, M 레벨 제1 특징 맵 중의 제1 레벨 제1 특징 맵에 대해, 제1 레벨 제1 특징 맵에 대응되는 특징 맵 그룹은 상기 제1 레벨 제1 특징 맵 및 제2 레벨 제1 특징 맵을 포함한다. 여기서, 단계 S12는,
상기 제1 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 첫 번째 제1 레벨 제3 특징 맵을 획득하는 단계;
상기 제2 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 두 번째 제1 레벨 제3 특징 맵을 획득하는 단계; 및
상기 첫 번째 제1 레벨 제3 특징 맵 및 상기 두 번째 제1 레벨 제3 특징 맵을 융합하여, 제1 레벨 제2 특징 맵을 획득하는 단계를 포함하되,
여기서, 상기 첫 번째 제1 레벨 제3 특징 맵과 상기 두 번째 제1 레벨 제3 특징 맵의 척도는 동일하다.
예를 들어 설명하자면, 제1 레벨 제1 특징 맵에 대해, 이전 레벨의 특징 맵이 없으면, 다만 제1 레벨 제1 특징 맵 자체 및 서로 인접한 제2 레벨 제1 특징 맵을 처리할 수 있다.
본 발명의 일부 실시예에서, 제1 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 첫 번째 제1 레벨 제3 특징 맵을 획득할 수 있고; 제2 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 두 번째 제i 레벨 제3 특징 맵을 획득할 수 있다. 여기서, 첫 번째와 두 번째 제1 레벨 제3 특징 맵의 척도는 동일하다.
본 발명의 일부 실시예에서, 첫 번째와 두 번째 제1 레벨 제3 특징 맵을 서로 가하여, 제1 레벨 제2 특징 맵을 획득한다. 이러한 방식을 통해, 제1 레벨의 인접한 특징 맵의 융합을 구현할 수 있다.
본 발명의 일부 실시예에서, 상기 제1 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 첫 번째 제1 레벨 제3 특징 맵을 획득하는 상기 단계는, 제2 콘볼루션 계층을 통해 상기 제1 레벨 제1 특징 맵을 콘볼루션하여, 상기 첫 번째 제1 레벨 제3 특징 맵을 획득하는 단계를 포함하고, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이고, N은 1보다 큰 정수이며;
상기 제2 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 두 번째 제1 레벨 제3 특징 맵을 획득하는 상기 단계는, 제3 콘볼루션 계층 및 업 샘플링 계층을 통해 상기 제2 레벨 제1 특징 맵을 콘볼루션 및 업 샘플링하여, 두 번째 제1 레벨 제3 특징 맵을 획득하는 단계를 포함하며, 상기 제3 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이다.
다시 말하자면, 상이한 콘볼루션 계층을 설치하는 것을 통해, 제1 레벨 제1 특징 맵에 대응되는 특징 맵 그룹에서 각 특징 맵의 처리를 구현한다. 제2 콘볼루션 계층을 통해 제1 레벨 제1 특징 맵을 콘볼루션하여, 첫 번째 제1 레벨 제3 특징 맵을 획득할 수 있고, 즉 콘볼루션을 통해 척도 불변의 변환을 구현하며; 제3 콘볼루션 계층 및 업 샘플링 계층을 통해 제2 레벨 제1 특징 맵을 콘볼루션 및 n배 업 샘플링하여, 두 번째 제1 레벨 제3 특징 맵을 획득할 수 있고, 즉 콘볼루션 및 업 샘플링을 통해 척도 확대를 구현할 수 있다. 처리 방식은 이전의 서술과 유사하기에, 여기서 더 서술하지 않는다.
이러한 방식을 통해, 후속적인 융합을 위해, 특징 맵 그룹에서 각 특징 맵의 척도를 통일한다.
본 발명의 일부 실시예에서, M 레벨 제1 특징 맵 중의 제M 레벨 제1 특징 맵에 대해, 제M 레벨 제1 특징 맵에 대응되는 특징 맵 그룹은 제M-1 레벨 제1 특징 맵 및 상기 제M 레벨 제1 특징 맵을 포함한다. 여기서, 단계 S12는,
상기 제M-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제M 레벨 제3 특징 맵을 획득하는 단계;
상기 제M 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제M 레벨 제3 특징 맵을 획득하는 단계; 및
상기 첫 번째 제M 레벨 제3 특징 맵 및 상기 두 번째 제M 레벨 제3 특징 맵을 융합하여, 제M 레벨 제2 특징 맵을 획득하는 단계를 포함하되,
여기서, 상기 첫 번째 제M 레벨 제3 특징 맵과 상기 두 번째 제M 레벨 제3 특징 맵의 척도는 동일하다.
예를 들어 설명하자면, 제M 레벨 제1 특징 맵에 대해, 이후 레벨의 특징 맵이 없으면, 단지 제M 레벨 제1 특징 맵 자체 및 서로 인접한 제M-1 레벨 제1 특징 맵을 처리한다.
본 발명의 일부 실시예에서, 제M-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제M 레벨 제3 특징 맵을 획득할 수 있고; 제M 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제M 레벨 제3 특징 맵을 획득할 수 있다. 여기서, 첫 번째와 두 번째 제M 레벨 제3 특징 맵의 척도는 동일하다.
본 발명의 일부 실시예에서, 첫 번째와 두 번째 제M 레벨 제3 특징 맵을 서로 가하여, 제M 레벨 제2 특징 맵을 획득할 수 있다. 이러한 방식을 통해, 제M 레벨의 인접한 특징 맵의 융합을 구현할 수 있다.
본 발명의 일부 실시예에서, 상기 제M-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제M 레벨 제3 특징 맵을 획득하는 상기 단계는, 제1 콘볼루션 계층을 통해 상기 제M-1 레벨 제1 특징 맵을 콘볼루션하여, 상기 첫 번째 제M 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제1 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 n이고, N, n은 1보다 큰 정수이며, 상기 제i-1 레벨 제1 특징 맵의 척도는 상기 제i 레벨 제1 특징 맵의 척도의 n배이고;
상기 제M 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제M 레벨 제3 특징 맵을 획득하는 상기 단계는, 제2 콘볼루션 계층을 통해 상기 제M 레벨 제1 특징 맵을 콘볼루션하여, 상기 두 번째 제M 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이다.
다시 말하자면, 상이한 콘볼루션 계층을 설치하는 것을 통해, 제M 레벨 제1 특징 맵에 대응되는 특징 맵 그룹에서 각 특징 맵의 처리를 구현한다. 제1 콘볼루션 계층을 통해 제M-1 레벨 제1 특징 맵을 콘볼루션하여, 첫 번째 제M 레벨 제3 특징 맵을 획득할 수 있고, 즉 콘볼루션을 통해 척도 축소를 구현할 수 있으며; 제2 콘볼루션 계층을 통해 제M 레벨 제1 특징 맵을 콘볼루션하여, 두 번째 제M 레벨 제3 특징 맵을 획득할 수 있고, 즉 콘볼루션을 통해 척도 불변의 변환을 구현할 수 있다. 처리 방식은 이전의 서술과 유사하기에, 여기서 더 서술하지 않는다. 이러한 방식을 통해, 후속적인 융합을 위해, 특징 맵 그룹에서 각 특징 맵의 척도를 통일한다.
본 발명의 일부 실시예에서, 제2 콘볼루션 계층 및 상기 제3 콘볼루션 계층은 가변형 콘볼루션 계층 또는 확장 콘볼루션 계층을 포함한다.
도 1c는 가변형 콘볼루션 계층의 작동 원리 모식도이고, 입력 특징 맵(11), 가변형 콘볼루션 계층(12), 콘볼루션(13), 오프셋(14) 및 출력 특징 맵(15)을 포함한다. 도 1c에 도시된 바와 같이, 우선 별도의 콘볼루션(13)으로 오프셋(14)을 학습해야 하고, 입력 특징 맵(11)을 공유한다. 그 다음 입력 특징 맵(11) 및 오프셋(14)을 공동으로 가변형 콘볼루션 계층(12)의 입력으로 사용하고, 샘플링 포인트에 오프셋이 발생하도록 조작하고, 다시 콘볼루션을 수행하여, 출력 특징 맵(15)을 획득한다.
피라미드 콘볼루션이 최저 계층으로 이동한 후, 피라미드 콘볼루션 중의 통상적인 콘볼루션은 가변형 콘볼루션 또는 확장 콘볼루션으로 대체될 수 있지만, 최저 계층의 콘볼루션과 가중치를 공유한다. 이는 특징 맵의 상이한 위치에서 수용야를 동적 조절할 수 있고, 저 계층 특징 맵의 통상적인 콘볼루션과 얼라인먼트를 구현한다. 상기와 같은 상황에서, 조절된 후의 피라미드 콘볼루션을 척도가 균형된 피라미드 콘볼루션으로 지칭될 수 있다.
다시 말하자면, 제i 레벨 제1 특징 맵에 대응되는 특징 맵 그룹에 대해, 제i-1 레벨 제1 특징 맵에 대응되는 제1 콘볼루션 계층은 통상적인 콘볼루션이고; 제i 레벨 제1 특징 맵에 대응되는 제2 콘볼루션 계층 및 제i+1 레벨 제1 특징 맵에 대응되는 제3 콘볼루션 계층은 가변형 콘볼루션 또는 확장 콘볼루션이다.
본 발명의 일부 실시예에서, 제2 콘볼루션 계층 및 제3 콘볼루션 계층이 가변형 콘볼루션인 경우, 별도의 콘볼루션 계층을 설치하여 오프셋을 학습할 수 있고, 특징 맵과 오프셋을 공동으로 가변형 콘볼루션 계층의 입력으로 사용하며, 샘플링 포인트에 오프셋이 발생하도록 조작하고, 다시 콘볼루션을 수행한다.
본 발명의 일부 실시예에서, 제2 콘볼루션 계층 및 제3 콘볼루션 계층이 확장 콘볼루션인 경우, 확장 콘볼루션의 확장률을 미리 설정하여, 콘볼루션의 수용야를 적응성 조절할 수 있고, 본 발명은 확장률의 설정을 한정하지 않는다.
이러한 방식을 통해, 콘볼루션의 수용야를 적응적으로 조절할 수 있으며, 특징 맵 융합의 효과를 더욱 향상시킨다.
본 발명의 일부 실시예에서, 본 발명의 실시예에 따른 이미지 처리 방법은 이미지 처리 네트워크를 통해 구현될 수 있고, 상기 이미지 처리 네트워크는 처리할 이미지에 대해 멀티 레벨 특징 추출을 수행하기 위한 특징 피라미드 네트워크를 포함할 수 있다.
본 발명의 일부 실시예에서, 상기 이미지 처리 네트워크는 상기 M 레벨 제1 특징 맵에 대해 P회 척도 조절 및 융합을 수행하기 위한, 직렬된 P 레벨 융합 네트워크 블록을 포함할 수 있고, 각 레벨의 융합 네트워크 블록은 복수 개의 제1 콘볼루션 계층, 복수 개의 제2 콘볼루션 계층 및 복수 개의 제3 콘볼루션 계층을 포함하고, P는 양의 정수이다.
본 발명의 일부 실시예에서, 척도 조절 및 융합의 과정은 여러 차례 수행될 수 있고, 상기 과정은 P 레벨 융합 네트워크 블록을 통해 구현될 수 있고, 서로 인접한 특징 맵으로 구성된 각 특징 맵 그룹을 각각 처리하기 위해, 각 레벨의 융합 네트워크 블록(약칭 PConv)은 모두 복수 개의 제1 콘볼루션 계층, 복수 개의 제2 콘볼루션 계층 및 복수 개의 제3 콘볼루션 계층을 포함한다. P의 값은 예를 들어 4이고, 본 발명은 P의 값을 한정하지 않는다.
본 발명의 일부 실시예에서, 각 레벨의 융합 네트워크 블록은 복수 개의 특징 맵 그룹을 처리할 수 있고, 특징 맵 그룹 중의 각 특징 맵을 콘볼루션하기 위해, 각각의 특징 맵 그룹은 한 그룹의 콘볼루션 계층에 대응된다. 예를 들어, 제i-1 레벨 제1 특징 맵, 제i 레벨 제1 특징 맵 및 제i+1 레벨 제1 특징 맵을 포함하는 특징 맵 그룹에 대해, 제i-1 레벨 제1 특징 맵, 제i 레벨 제1 특징 맵 및 제i+1 레벨 제1 특징 맵을 각각 콘볼루션하기 위해, 상기 특징 맵 그룹에 대응되는 한 그룹의 콘볼루션 계층은 제1 콘볼루션 계층, 제2 콘볼루션 계층, 제3 콘볼루션 계층 및 업 샘플링 계층을 포함한다.
본 발명의 일부 실시예에서, 단계 S12는,
상기 M 레벨 제1 특징 맵을 제1 레벨 융합 네트워크 블록에 입력하고, 제1회 융합된 M 레벨 제4 특징 맵을 출력하는 단계;
제j-1회 융합된 M 레벨 제4 특징 맵을 제j 레벨 융합 네트워크 블록에 입력하고, 제j회 융합된 M 레벨 제4 특징 맵을 출력하는 단계 - j는 정수이며 1<j<P임 - ; 및
제P-1회 융합된 M 레벨 제4 특징 맵을 제P 레벨 융합 네트워크 블록에 입력하고, 상기 M 레벨 제2 특징 맵을 출력하는 단계를 포함할 수 있다.
예를 들어 설명하자면, M 레벨 제1 특징 맵을 제1 레벨 융합 네트워크 블록에 입력하여, 제1회 척도 조절 및 융합을 수행하고, 제1회 융합된 M 레벨 제4 특징 맵을 출력하며; 다시 제1회 융합된 M 레벨 제4 특징 맵을 다음 레벨의 융합 네트워크 블록에 입력할 수 있다. 제j-1회 융합된 M 레벨 제4 특징 맵을 제j 레벨 융합 네트워크 블록에 입력하여, 제j회 척도 조절 및 융합을 수행하고, 제j회 융합된 M 레벨 제4 특징 맵을 출력할 수 있으며, j는 정수이며 1<j<P이다. 제P-1회 융합된 M 레벨 제4 특징 맵을 제P 레벨 융합 네트워크 블록에 입력하고, 제P회 척도 조절 및 융합을 수행하며, M 레벨 제2 특징 맵을 출력할 수 있다.
이러한 방식을 통해, 융합 효과를 더욱 향상시킬 수 있다.
본 발명의 일부 실시예에서, 이번에 융합된 후의 특징 맵을 정규화하기 위해, 각 레벨의 융합 네트워크 블록은 정규화 계층을 더 포함한다. 여기서, 제j-1회 융합된 M 레벨 제4 특징 맵을 제j 레벨 융합 네트워크 블록에 입력하고, 제j회 융합된 M 레벨 제4 특징 맵을 출력하는 단계는,
상기 제j 레벨 융합 네트워크 블록의 제1 콘볼루션 계층, 제2 콘볼루션 계층 및 제3 콘볼루션 계층을 통해, 상기 제j-1회 융합된 M 레벨 제4 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, 제j회 융합된 M 레벨 중간 특징 맵을 획득하는 단계; 및
상기 정규화 계층을 통해 상기 제j회 융합된 M 레벨 중간 특징 맵에 대해 연합 배치 정규화 처리를 수행하여, 상기 제j회 융합된 M 레벨 제4 특징 맵을 획득하는 단계를 포함할 수 있다.
예를 들어 설명하자면, 제j회 척도 조절 및 융합에 대해, 제j 레벨 융합 네트워크 블록의 제1 콘볼루션 계층, 제2 콘볼루션 계층 및 제3 콘볼루션 계층을 통해, 제j-1회 융합된 M 레벨 제4 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, 제j회 융합된 M 레벨 중간 특징 맵을 획득할 수 있다.
예를 들어 설명하자면, 배치 정규화의 입력 파라미터는
Figure pct00002
이며; 확대 백수는 γ이고, 오프셋 계수는 β(학습되는 파라미터)이다.
배치 정규화의 출력은 하기와 같다.
Figure pct00003
공식 (2);
Figure pct00004
공식 (3);
Figure pct00005
공식 (4);
Figure pct00006
공식 (5);
Figure pct00007
공식 (6);
학습으로 리턴하는 확대 배수는 γ이고, 오프셋 계수는 β이다.
여기서, 공식 (2)는 규범화 후의 네트워크에 응답하는 공식이고; 공식 (3)은 배치 처리 데이터 평균값을 산출하는 공식이며; 공식 (4)는 배치 처리 데이터 분산을 산출하는 공식이고; 공식 (5)는 규범화 공식이며; 공식 (6)은 척도 변환 및 오프셋의 공식이다.
본 발명의 일부 실시예에서, 제j 레벨 융합 네트워크 블록은 제j-1회 융합된 M 레벨 제4 특징 맵에 대응되는 복수 개의 특징 맵 그룹을 처리할 수 있고, 특징 맵 그룹 중의 각 특징 맵을 콘볼루션하기 위해, 각각의 특징 맵 그룹은 한 그룹의 콘볼루션 계층에 대응된다. 예를 들어, 제i-1 레벨 제1 특징 맵, 제i 레벨 제1 특징 맵 및 제i+1 레벨 제1 특징 맵을 포함하는 특징 맵 그룹에 대해, 제i-1 레벨 제1 특징 맵, 제i 레벨 제1 특징 맵 및 제i+1 레벨 제1 특징 맵을 각각 콘볼루션하기 위해, 상기 특징 맵 그룹에 대응되는 한 그룹의 콘볼루션 계층은 제1 콘볼루션 계층, 제2 콘볼루션 계층, 제3 콘볼루션 계층 및 업 샘플링 계층을 포함한다.
본 발명의 일부 실시예에서, 정규화 계층을 통해 제j회 융합된 M 레벨 중간 특징 맵의 통계량(예를 들어 평균값 및 분산)을 통계하고, 제j회 융합된 M 레벨 중간 특징 맵에 대해 연합 배치 정규화 처리를 수행하여, 정규화된 결과를 제j회 융합된 M 레벨 제4 특징 맵으로 결정한다.
도 2a 및 도 2b는 관련 기술에 따른 배치 정규화의 모식도이고; 도 2c는 본 발명의 실시예에 따른 연합 배치 정규화의 모식도이다. 여기서, 콘볼루션 계층(21)을 처리한 후, 복수 개의 특징 맵(도 2a, 도 2b 및 도 2c는 두 개의 특징 맵을 예로 들어 설명함)을 출력하고; 배치 정규화 계층(약칭 BN)(22)은 복수 개의 특징 맵에 대해 각각 배치 정규화를 수행할 수 있으며; 배치 정규화한 후, 활성 계층(예를 들어 ReLU 계층)(23)을 통해 활성화할 수 있다. 여기서, γ 및 β는 각각 확대 배수 및 오프셋 계수를 표시하고, 학습하여 획득될 수 있으며; μ 및 σ는 각각 평균값 및 표준 편차를 표시하고, 학습하여 획득될 수 있다.
관련 기술에서, 도 2a에 도시된 바와 같이, 두 개의 배치 정규화 계층(22)이 확대 배수 γ 및 오프셋 계수 β를 공유하여, 각 특징 맵의 평균값 μ 및 표준 편차 σ를 각각 통계하도록 할 수 있고; 도 2b에 도시된 바와 같이, 두 개의 배치 정규화 계층(22)은 각각 확대 배수 γ 및 오프셋 계수 β를 학습하여, 각 특징 맵의 평균값 μ 및 표준 편차 σ를 통계할 수 있도록 한다.
본 발명의 실시예에 따른 연합 배치 정규화 처리에서, 도 2c에 도시된 바와 같이, 두 개의 배치 정규화 계층(22)이 확대 배수 γ 및 오프셋 계수 β를 공유하여, 모든 특징 맵의 평균값 μ 및 표준 편차 σ를 공동으로 통계할 수 있도록 한다.
모든 척도의 특징 맵의 통계량을 연합 통계하여, 트레이닝 과정을 효과적으로 안정시키고 성능을 더 향상시킬 수 있으며, 특히는 검출 태스크에서 배치가 비교적 작은 경우, 연합 배치 정규화하여 아주 바람직한 효과를 얻을 수 있다.
본 발명의 일부 실시예에서, 상기 이미지 처리 네트워크는 각각 타깃 검출 중의 회귀 태스크 및 분류 태스크를 구현하기 위한 회귀 네트워크 및 분류 네트워크를 더 포함할 수 있다. 여기서, 회귀 네트워크 및 분류 네트워크는 콘볼루션 계층, 활성 계층, 완전 연결 계층 등을 포함할 수 있고, 본 발명은 회귀 네트워크 및 분류 네트워크의 네트워크 구조를 한정하지 않는다.
본 발명의 실시예에서, 단계 S13은,
상기 M 레벨 제2 특징 맵을 상기 회귀 네트워크에 입력하여, 상기 처리할 이미지에서 타깃에 대응되는 이미지 프레임을 결정하는 단계; 및
상기 M 레벨 제2 특징 맵을 상기 분류 네트워크에 입력하여, 상기 처리할 이미지에서 타깃의 카테고리를 결정하는 단계를 포함할 수 있고, 상기 타깃 검출 결과는 상기 타깃에 대응되는 이미지 프레임 및 상기 타깃의 카테고리를 포함한다.
예를 들어 설명하자면, M 레벨 제2 특징 맵에 따라 타깃 검출 중의 회귀 태스크 및 분류 태스크를 구현할 수 있다. M 레벨 제2 특징 맵을 회귀 네트워크에 입력하여 처리하고, 처리할 이미지 중의 타깃에 대응되는 이미지 프레임을 회귀 획득할 수 있으며; M 레벨 제2 특징 맵을 분류 네트워크에 입력하여 처리하여, 처리할 이미지 중의 타깃의 카테고리를 결정할 수 있다. 여기서, 처리할 이미지의 타깃 검출 결과는 상기 타깃에 대응되는 이미지 프레임 및 상기 타깃의 카테고리를 포함할 수 있다.
관련 기술 중의 검출기는 통상적으로 회귀 태스크 및 분류 태스크에 대해 각각 각각 회귀 헤드부 및 분류 헤드부를 설계한다. 본 발명의 실시예에 따른 이미지 처리 네트워크는, P 레벨 융합 네트워크 블록(피라미드 콘볼루션을 사용함)을 회귀 태스크 및 분류 태스크의 조합 헤드부로 사용하고, 다만 두 개의 태스크의 수용야의 미약함 상이함에 따라, 회귀 네트워크 및 분류 네트워크에 공유하지 않는 콘볼루션을 증가함으로써, 산출량을 대폭 절감하고 성능이 손실되지 않을 수 있다.
도 3a는 관련 기술에 따른 검출기의 모식도이고; 도 3b는 본 발명의 실시예에 따른 이미지 처리 네트워크의 모식도이다.
도 3a에 도시된 바와 같이, 관련 기술 중의 검출기에서, 회귀 태스크 및 분류 태스크에 대해 각각 회귀 헤드부(31) 및 분류 헤드부(32)를 설계하고, 멀티 레벨의 네트워크 블록(예를 들어 콘볼루션 블록)을 통해 특징 맵을 각각 처리하며, 마지막 레벨의 네트워크 블록에서 회귀 태스크 및 분류 태스크를 각각 구현하고, 회귀 태스크는 이미지에서 K 개 타깃의 검출 프레임의 4 개의 정점 좌표를 얻으며; 분류 태스크는 이미지에서 K 개 타깃의 카테고리(모두 C 개 카테고리가 설정됨)를 얻는다. 여기서, 각 레벨의 네트워크 블록은 콘볼루션 계층, 활성 계층, 완전 연결 계층 등을 포함할 수 있으며, 본 발명은 이에 한정되지 않는다.
도 3b에 도시된 바와 같이, 본 발명의 실시예에 따른 이미지 처리 네트워크, P 레벨 융합 네트워크 블록(P 콘볼루션 블록으로 부를 수 있음)을 회귀 태스크 및 분류 태스크의 조합 헤드부(33)로 사용하고, M 레벨 제1 특징 맵은 조합 헤드부(33) 처리를 거친 후, M 레벨 제2 특징 맵을 획득한다. M 레벨 제2 특징 맵을 회귀 네트워크 및 분류 네트워크 각자의 별도의 헤드부(34)의 네트워크 블록에 각각 입력하여 처리하고, 마지막 레벨의 네트워크 블록(콘볼루션 계층, 활성 계층, 완전 연결 계층 등을 포함함)에서 회귀 태스크 및 분류 태스크를 각각 구현한다. 회귀 네트워크 및 분류 네트워크의 별도의 헤드부(34)마다 적어도 하나의 콘볼루션 계층을 포함할 수 있다. 회귀 태스크 및 분류 태스크에 따른 수용야의 미약한 상이함에 따라, 두 개의 별도의 헤드부(34)의 콘볼루션 계층에 상이한 콘볼루션 파라미터를 설정하며, 본 발명은 이에 한정되지 않는다.
도 3b에 도시된 바와 같이, 회귀 태스크는 이미지에서 K 개의 타깃의 검출 프레임의 4 개 정점 좌표를 획득하고; 분류 태스크는 이미지에서 K 개의 타깃의 카테고리(모두 C 개 카테고리가 설정됨)를 획득한다. 본 발명의 별도의 헤드부(34)의 네트워크 블록 및 마지막 레벨의 네트워크 블록의 네트워크 구조를 한정하지 않는다.
이러한 방식을 통해, 본 발명의 실시예에 따른 이미지 처리 네트워크는, 산출량을 대폭 절감하고 성능이 손실되지 않을 수 있다.
본 발명의 일부 실시예에서, 본 발명의 실시예에 따른 이미지 처리 네트워크를 응용하기 전에, 이미지 처리 네트워크를 트레이닝할 수 있다. 즉 트레이닝 세트 중의 샘플 이미지를 이미지 처리 네트워크에 입력하고, 특징 피라미드 네트워크, P 레벨 융합 네트워크 블록, 회귀 네트워크 및 분류 네트워크 처리를 거쳐, 샘플 이미지의 샘플 타깃 검출 결과를 얻으며; 복수 개의 샘플 이미지의 샘플 타깃 검출 결과와 라벨링 결과의 차이에 따라, 네트워크 손실을 결정하고; 네트워크 손실에 따라 이미지 처리 네트워크의 파라미터를 조절하며; 트레이닝 조건(예를 들어 네트워크 수렴)을 만족할 경우, 트레이닝 후의 이미지 처리 네트워크를 얻는다. 본 발명은 트레이닝 과정을 한정하지 않는다.
본 발명의 일부 실시예에서, 특징 피라미드 인접 계층 사이의 특징의 연관성을 더 이용하기 위해, 3차원의 콘볼루션 형태-피라미드 콘볼루션을 제공하며, 즉 특징 맵 차원 및 공간 차원의 연관성을 동시에 주시한다. 본 발명의 실시예에 따른 이미지 처리 방법은, 공간 척도가 큰 피라미드 콘볼루션을 통해, 특징 피라미드에서 인접 계층 사이의 특징의 관련 정보를 융합하여, 특징 맵 차원 및 공간 차원의 연관성을 더욱 바람직하게 포착할 수 있다. 물체 검출 분야에서 특징 피라미드가 상이한 척도의 특징을 추출할 경우, 상이한 계층 사이의 시맨틱 정보만 치중하여 융합함으로써 인접 계층 사이의 특징의 연관성을 소홀히하는 문제를 해결하였다.
본 발명의 일부 실시예에서, 연합 배치 정규화를 통해, 척도 공간 콘볼루션과 자연스럽게 결합하여, 모든 척도 특징 맵의 통계량을 전반적으로 통계함으로써, 트레이닝 과정을 효과적으로 안정시키고 성능을 더 향상시켜, 배치가 비교적 작은 량을 배치 정규화할 경우 응용을 얻을 수도 있다. 배치 정규화는 실제 응용에서, 데이터 배치가 작을 경우 정확한 통계량을 획득할 수 없어, 물체 검출 분야에서 줄곧 바람직한 응용을 얻을 수 없는 문제를 해결하였다.
본 발명의 일부 실시예에서, 보편적인 특징 피라미드와 가우스 피라미드 사이의 차별을 감소하기 위해, 본 발명의 실시예에 따른 이미지 처리 방법은, 가변형 콘볼루션으로 통상적인 콘볼루션을 대체할 수 있고, 피라미드 콘볼루션을 척도가 균형된 콘볼루션을 개진함으로써, 보편적인 특징 피라미드와 가우스 피라미드 사이의 차별을 감소하여, 네트워크가 상이한 척도의 추출을 처리할 시 더욱 합리하고 고효율적이다. 단일 스테이지 검출기가 공유된 헤드부 모듈을 사용하여 특징을 더 추출하며, 산출량을 대폭 절감하고 성능이 손실되지 않아, 추리 속도를 가속화할 수 있다. 현재 특징 피라미드 및 공유 헤드부 모듈 파라미터가 불합리하게 설계되는 문제를 해결하였다.
본 발명의 일부 실시예에서, 본 발명의 실시예에 따른 이미지 처리 방법은, 척도 변화가 비교적 큰 데이터 세트에서, 극소한 속도 손실로서, 단일 스테이지 검출기가 거대한 성능의 향상을 획득하도록 하여, 2단 검출기에서도 검증이 효과적이다.
본 발명의 실시예에 따른 이미지 처리 방법은, 물체 검출, 행인 검출 등 장면에 응용될 수 있고, 물체 척도 변화가 비교적 큰 장면(예를 들어 물체가 카메라의 근거리 위치 및 먼거리 위치에 있음)의 검출 태스크를 구현하여, 검출의 성능 및 검출 속도를 동시에 향상할 수 있다.
이해할 수 있는 것은, 본 발명에서 언급된 상기 각 방법 실시예가 원리 논리를 위배하지 않는 경우, 모두 서로 상호 결합하여 결합된 후의 실시예를 형성할 수 있으며, 편폭의 제한으로 인해, 본 발명은 서술하지 않는다. 본 기술분야의 통상의 기술자 이해할 수 있는 것은, 실시형태의 상기 방법에서, 각 단계의 수행 순서는 그 기능 및 가능한 내재적인 논리에 따라 결정해야 한다.
이 외에, 본 발명은 이미지 처리 장치, 전자 기기, 컴퓨터 판독 가능 저장 매체, 프로그램을 더 제공하였고, 상기 내용은 모두 본 발명에서 제공하는 임의의 한 가지 이미지 처리 방법을 구현하기 위한 것으로서, 상응한 기술적 해결수단 및 서술은 방법 부분의 상응한 기재를 참조 바라며, 더 서술하지 않는다.
도 4는 본 발명의 실시예에 따른 이미지 처리 장치의 블록도로서, 도 4에 도시된 바와 같이, 상기 장치는,
처리할 이미지에 대해 M 레벨 특징 추출을 수행하여, 상기 처리할 이미지의 M 레벨 제1 특징 맵을 획득하도록 구성된 특징 추출 모듈(41) - 상기 M 레벨 제1 특징 맵에서 각 레벨의 제1 특징 맵의 척도는 상이하고, M은 1보다 큰 정수임 - ;
각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득하도록 구성된 척도 조절 및 융합 모듈(42) - 각각의 상기 특징 맵 그룹은 상기 제1 특징 맵 및 상기 제1 특징 맵과 인접한 제1 특징 맵을 포함함 - ; 및
상기 M 레벨 제2 특징 맵에 대해 타깃 검출을 수행하여, 상기 처리할 이미지의 타깃 검출 결과를 획득하는 타깃 검출 모듈(43)을 포함한다.
본 발명의 일부 실시예에서, 제i 레벨 제1 특징 맵에 대응되는 특징 맵 그룹은 제i-1 레벨 제1 특징 맵, 제i 레벨 제1 특징 맵 및 제i+1 레벨 제1 특징 맵을 포함하고, i는 정수이며 1<i<M이고, 상기 척도 조절 및 융합 모듈은, 상기 제i-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제i 레벨 제3 특징 맵을 획득하도록 구성된 제1 척도 축소 서브 모듈; 상기 제i 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제i 레벨 제3 특징 맵을 획득하도록 구성된 제1 변환 서브 모듈; 상기 제i+1 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 세 번째 제i 레벨 제3 특징 맵을 획득하도록 구성된 제1 척도 확대 서브 모듈; 및 상기 첫 번째 제i 레벨 제3 특징 맵, 상기 두 번째 제i 레벨 제3 특징 맵 및 세 번째 제i 레벨 제3 특징 맵을 융합하여, 제i 레벨 제2 특징 맵을 획득하도록 구성된 제1 융합 서브 모듈을 포함하되, 여기서, 상기 첫 번째 제i 레벨 제3 특징 맵, 상기 두 번째 제i 레벨 제3 특징 맵 및 세 번째 제i 레벨 제3 특징 맵의 척도는 동일하다. 본 발명의 일부 실시예에서, 제1 레벨 제1 특징 맵에 대응되는 특징 맵 그룹은 상기 제1 레벨 제1 특징 맵 및 제2 레벨 제1 특징 맵을 포함하고, 상기 척도 조절 및 융합 모듈은, 상기 제1 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 첫 번째 제1 레벨 제3 특징 맵을 획득하도록 구성된 제2 변환 서브 모듈; 상기 제2 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 두 번째 제1 레벨 제3 특징 맵을 획득하도록 구성된 제2 척도 확대 서브 모듈; 상기 첫 번째 제1 레벨 제3 특징 맵 및 상기 두 번째 제1 레벨 제3 특징 맵을 융합하여, 제1 레벨 제2 특징 맵을 획득하도록 구성된 제2 융합 서브 모듈을 포함하되, 여기서, 상기 첫 번째 제1 레벨 제3 특징 맵과 상기 두 번째 제1 레벨 제3 특징 맵의 척도는 동일하다. 본 발명의 일부 실시예에서, 제M 레벨 제1 특징 맵에 대응되는 특징 맵 그룹은 제M-1 레벨 제1 특징 맵 및 상기 제M 레벨 제1 특징 맵을 포함하고, 상기 척도 조절 및 융합 모듈은, 상기 제M-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제M 레벨 제3 특징 맵을 획득하도록 구성된 제2 척도 축소 서브 모듈; 상기 제M 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제M 레벨 제3 특징 맵을 획득하도록 구성된 제3 변환 서브 모듈; 상기 첫 번째 제M 레벨 제3 특징 맵 및 상기 두 번째 제M 레벨 제3 특징 맵을 융합하여, 제M 레벨 제2 특징 맵을 획득하도록 구성된 제3 융합 서브 모듈을 포함하되, 여기서, 상기 첫 번째 제M 레벨 제3 특징 맵과 상기 두 번째 제M 레벨 제3 특징 맵의 척도는 동일하다. 본 발명의 일부 실시예에서, 상기 제1 척도 축소 서브 모듈은 제1 콘볼루션 계층을 통해 상기 제i-1 레벨 제1 특징 맵을 콘볼루션하여, 상기 첫 번째 제i 레벨 제3 특징 맵을 획득하고, 상기 제1 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 n이고, N, n은 1보다 큰 정수이며, 상기 제i-1 레벨 제1 특징 맵의 척도는 상기 제i 레벨 제1 특징 맵의 척도의 n배이고; 상기 제1 변환 서브 모듈은 제2 콘볼루션 계층을 통해 상기 제i 레벨 제1 특징 맵을 콘볼루션하여, 상기 두 번째 제i 레벨 제3 특징 맵을 획득하며, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이고; 상기 제1 척도 확대 서브 모듈은 제3 콘볼루션 계층 및 업 샘플링 계층을 통해 상기 제i+1 레벨 제1 특징 맵을 콘볼루션 및 업 샘플링하여, 상기 세 번째 제i 레벨 제3 특징 맵을 획득하고, 상기 제3 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이다. 본 발명의 일부 실시예에서, 상기 제2 변환 서브 모듈은 제2 콘볼루션 계층을 통해 상기 제1 레벨 제1 특징 맵을 콘볼루션하여, 상기 첫 번째 제1 레벨 제3 특징 맵을 획득하고, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이고, N은 1보다 큰 정수이며; 상기 제2 척도 확대 서브 모듈은 제3 콘볼루션 계층 및 업 샘플링 계층을 통해 상기 제2 레벨 제1 특징 맵을 콘볼루션 및 업 샘플링하여, 두 번째 제1 레벨 제3 특징 맵을 획득하고, 상기 제3 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이다. 본 발명의 일부 실시예에서, 상기 제2 척도 축소 서브 모듈은 제1 콘볼루션 계층을 통해 상기 제M-1 레벨 제1 특징 맵을 콘볼루션하여, 상기 첫 번째 제M 레벨 제3 특징 맵을 획득하고, 상기 제1 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 n이고, N, n은 1보다 큰 정수이며, 상기 제i-1 레벨 제1 특징 맵의 척도는 상기 제i 레벨 제1 특징 맵의 척도의 n배이고; 상기 제3 변환 서브 모듈은 제2 콘볼루션 계층을 통해 상기 제M 레벨 제1 특징 맵을 콘볼루션하여, 상기 두 번째 제M 레벨 제3 특징 맵을 획득하고, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이다. 본 발명의 일부 실시예에서, 상기 제2 콘볼루션 계층 및 상기 제3 콘볼루션 계층은 가변형 콘볼루션 계층 또는 확장 콘볼루션 계층을 포함한다. 본 발명의 일부 실시예에서, 상기 장치는 이미지 처리 네트워크를 통해 구현되고, 상기 이미지 처리 네트워크는 직렬된 P 레벨 융합 네트워크 블록을 포함하며, 상기 M 레벨 제1 특징 맵에 대해 P회 척도 조절 및 융합을 수행하도록 구성되고, 각 레벨의 융합 네트워크 블록은 복수 개의 제1 콘볼루션 계층, 복수 개의 제2 콘볼루션 계층 및 복수 개의 제3 콘볼루션 계층을 포함하고, P는 양의 정수이며; 상기 척도 조절 및 융합 모듈은, 상기 M 레벨 제1 특징 맵을 제1 레벨 융합 네트워크 블록에 입력하고, 제1회 융합된 M 레벨 제4 특징 맵을 출력하도록 구성된 제1 융합 서브 모듈; 제j-1회 융합된 M 레벨 제4 특징 맵을 제j 레벨 융합 네트워크 블록에 입력하고, 제j회 융합된 M 레벨 제4 특징 맵을 출력하도록 구성된 제2 융합 서브 모듈 - j는 정수이며 1<j<P임 - ; 및 제P-1회 융합된 M 레벨 제4 특징 맵을 제P 레벨 융합 네트워크 블록에 입력하고, 상기 M 레벨 제2 특징 맵을 출력하도록 구성된 제3 융합 서브 모듈을 포함한다. 본 발명의 일부 실시예에서, 각 레벨의 융합 네트워크 블록은 정규화 계층을 더 포함하고, 상기 제2 융합 서브 모듈은 상기 제j 레벨 융합 네트워크 블록의 제1 콘볼루션 계층, 제2 콘볼루션 계층 및 제3 콘볼루션 계층을 통해, 상기 제j-1회 융합된 M 레벨 제4 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, 제j회 융합된 M 레벨 중간 특징 맵을 획득하고; 상기 정규화 계층을 통해 상기 제j회 융합된 M 레벨 중간 특징 맵에 대해 연합 배치 정규화 처리를 수행하여, 상기 제j회 융합된 M 레벨 제4 특징 맵을 획득한다. 본 발명의 일부 실시예에서, 상기 장치는 이미지 처리 네트워크를 통해 구현되고, 상기 이미지 처리 네트워크는 회귀 네트워크 및 분류 네트워크를 더 포함하며, 상기 타깃 검출 모듈은, 상기 M 레벨 제2 특징 맵을 상기 회귀 네트워크에 입력하여, 상기 처리할 이미지에서 타깃에 대응되는 이미지 프레임을 결정하도록 구성된 회귀 서브 모듈; 및 상기 M 레벨 제2 특징 맵을 상기 분류 네트워크에 입력하여, 상기 처리할 이미지에서 타깃의 카테고리를 결정하도록 구성된 분류 서브 모듈을 포함하되, 상기 타깃 검출 결과는 상기 타깃에 대응되는 이미지 프레임 및 상기 타깃의 카테고리를 포함한다.
일부 실시예에서, 본 발명의 실시예에서 제공하는 장치가 구비하는 기능 또는 포함하는 모듈은 윗 문장의 방법 실시예에서 서술된 방법을 수행하도록 구성되며, 그 구현은 윗 문장의 방법 실시예의 서술을 참조 가능하고, 간결함을 위해 여기서 더 서술하지 않는다.
본 발명의 실시예에서는 컴퓨터 프로그램 명령이 저장되는 컴퓨터 판독 가능 저장 매체를 제공하는 바, 상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행될 경우 상기 방법을 구현한다. 컴퓨터 판독 가능 저장 매체 휘발성 컴퓨터 판독 가능 저장 매체 또는 비휘발성 컴퓨터 판독 가능 저장 매체일 수 있다. 본 발명의 실시예는 전자 기기를 더 제공하는 바, 프로세서; 및 프로세서 실행 가능한 명령을 저장하는 메모리를 포함하되; 여기서, 상기 프로세서는 상기 메모리에 저장된 명령을 호출하여, 상기 방법을 수행하도록 구성된다. 본 발명의 실시예에서는 컴퓨터 프로그램 제품을 더 제공하는 바, 컴퓨터 판독 가능 코드를 포함하되, 컴퓨터 판독 가능 코드가 기기에서 수행될 경우, 기기 중의 프로세서는 상기 임의의 실시예에서 제공하는 이미지 처리 방법의 명령을 실행한다. 본 발명의 실시예에서는 다른 컴퓨터 프로그램 제품을 더 제공하는 바, 컴퓨터 판독 가능 명령을 저장하기 위한 것이고, 명령이 실행될 경우 컴퓨터가 상기 임의의 실시예에서 제공하는 이미지 처리 방법의 조작을 수행하도록 한다. 전자 기기는 단말기, 서버 또는 다른 형태의 기기로 제공될 수 있다.
도 5는 본 발명의 실시예에 따른 전자 기기(800)의 블록도이다. 예를 들어, 전자 기기(800)는 모바일 전화, 컴퓨터, 디지털 방송 단말기, 메시지 송수신 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 헬스 기기, 개인 휴대 정보 단말기 등 단말기일 수 있다.
도 5를 참조하면, 전자 기기(800)는 프로세싱 컴포넌트(802), 메모리(804), 전원 컴포넌트(806), 멀티미디어 컴포넌트(808), 오디오 컴포넌트(810), 입출력(I/O) 인터페이스(812), 센서 컴포넌트(814) 및 통신 컴포넌트(816) 중 하나 또는 복수의 컴포넌트를 포함할 수 있다.
프로세싱 컴포넌트(802)는 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 전자 기기(800)의 전체 동작을 제어한다. 프로세싱 컴포넌트(802)는, 상기 방법의 전부 또는 일부 단계를 완료하도록 하나 또는 복수의 프로세서(820)를 포함하여 명령을 실행한다. 이외에, 프로세싱 컴포넌트(802)는, 프로세싱 컴포넌트(802)와 다른 컴포넌트 사이의 인터랙션을 진행하도록 하나 또는 복수의 모듈을 포함할 수 있다. 예를 들어, 프로세싱 컴포넌트(802)는, 멀티미디어 모듈(808)과 프로세싱 컴포넌트(802) 사이의 인터랙션을 편리하게 진행하도록 멀티미디어 모듈을 포함할 수 있다. 메모리(804)는 다양한 유형의 데이터를 저장하여 전자 기기(800)에서의 동작을 지원한다. 이러한 데이터의 예시는 전자 기기(800)에서 동작하는 임의의 응용 프로그램 또는 방법의 명령, 연락처 데이터, 전화번호부 데이터, 메시지, 사진, 영상 등을 포함한다. 메모리(804)는, 정적 랜덤 액세스 메모리(SRAM), 전기적으로 소거 가능한 프로그램 가능 판독 전용 메모리(EEPROM), 소거 가능한 프로그램 가능 판독 전용 메모리(EPROM), 프로그램 가능 판독 전용 메모리(PROM), 판독 전용 메모리(ROM), 자기 메모리, 플래시 메모리, 디스크 또는 광 디스크와 같은 임의의 유형의 휘발성 또는 비휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다. 전원 컴포넌트(806)는 전자 기기(800)의 다양한 컴포넌트에게 전력을 제공한다. 전원 컴포넌트(806)는 전원 관리 시스템, 하나 또는 복수의 전원, 및 전자 기기(800)의 전력 생성, 관리 및 할당과 관련된 다른 컴포넌트를 포함할 수 있다. 멀티미디어 컴포넌트(808)는 상기 전자 기기(800)와 사용자 사이에 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에서, 스크린은 액정 디스플레이(LCD) 및 터치 패널(TP)을 포함할 수 있다. 만약, 스크린이 터치 패널을 포함하면, 사용자로부터 입력 신호를 수신하도록 스크린은 터치 스크린으로 구현될 수 있다. 터치 패널은, 패널에서의 터치, 슬라이드, 터치 패널의 제스처를 감지하기 위한 하나 또는 복수의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 감지할 뿐만 아니라 상기 터치 또는 슬라이드 동작에 관련된 지속 시간 및 압력을 감지할 수 있다. 일부 실시예에서, 멀티미디어 컴포넌트(808)는 하나의 전방 카메라 및/또는 후방 카메를 포함한다. 전자 기기(800)가 촬영 모드 또는 영상 모드와 같은 동작 모드일 경우, 전방 카메라 및/또는 후방 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다. 각각의 전방 카메라와 후방 카메라는 하나의 고정식 광학 렌즈 시스템 또는 초점 거리 및 광학 줌 기능을 가질 수 있다. 오디오 컴포넌트(810)는 오디오 신호를 출력 및/또는 입력한다. 예를 들어, 오디오 컴포넌트(810)는 하나의 마이크(MIC)를 포함하고 전자 기기(800)가 통화 모드, 녹음 모드 및 음성 인식 모드와 같은 동작 모드일 경우, 마이크는 외부 오디오 신호를 수신한다. 수신된 오디오 신호는 메모리(804)에 저장되거나 통신 컴포넌트(816)를 통해 발송될 수 있다. 일부 실시예에서, 오디오 컴포넌트(810)는 오디오 신호를 출력하기 위한 스피커를 포함한다. I/O 인터페이스(812)는 프로세싱 컴포넌트(802)와 주변 장치 인터페이스 모듈 사이의 인터페이스를 제공하며, 상기 주변 장치 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼은 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼을 포함할 수 있지만 이에 한정되지는 않는다. 센서 컴포넌트(814)는 다양한 측면의 상태 평가를 전자 기기(800)에 제공하기 위한 하나 또는 복수의 센서를 포함한다. 예를 들어, 센서 컴포넌트(814)는 전자 기기(800)의 온/오프 상태, 컴포넌트의 상대적 위치를 감지할 수 있고, 예를 들어, 상기 컴포넌트는 전자 기기(800)의 디스플레이 및 키패드이고 센서 컴포넌트(814)는 전자 기기(800) 또는 전자 기기(800)의 컴포넌트의 위치 변화, 사용자와 전자 기기(800) 사이의 접촉 여부, 전자 기기(800) 방위 또는 가속/감속 및 전자 기기(800)의 온도 변화를 감지할 수 있다. 센서 컴포넌트(814)는 물리적 접촉없이 주변 물체의 존재를 감지하는 근접 센서를 포함할 수 있다. 센서 컴포넌트(814)는 이미징 애플리케이션에 사용하기 위한 CMOS 또는 CCD 이미지 센서와 같은 광 센서를 더 포함할 수 있다. 일부 실시예에서, 상기 센서 컴포넌트(814)는 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다. 통신 컴포넌트(816)는 전자 기기(800)와 다른 기기 사이의 유선 또는 무선 방식의 통신이 용이하도록 구성된다. 전자 기기(800)는 WiFi, 2G 또는 3G, 또는 이들의 조합과 같은 통신 표준에 기반한 무선 네트워크에 액세스할 수 있다. 예시적인 일 실시예에서, 통신 컴포넌트(816)는 방송 채널을 통해 외부 방송 관리 시스템으로부터 방송 신호 또는 방송 관련 정보를 수신한다. 예시적인 일 실시예에서, 상기 통신 컴포넌트(816)는 근거리 통신을 촉진하는 근거리 통신(NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별(RFID) 기술, 적외선 통신 규격(IrDA) 기술, 초광대역(UWB) 기술, 블루투스(BT) 기술 및 다른 기술 기반으로 구현될 수 있다. 예시적인 실시예에서, 전자 기기(800)는 하나 또는 복수의 주문형 집적 회로(ASIC), 디지털 신호 프로세서(DSP), 디티절 신호 프로세서 기기(DSPD), 프로그램 가능 논리 소자(PLD), 필드 프로그램 가능 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 소자에 의해 상기 방법을 실행할 수 있다. 예시적인 실시예에서, 상기 방법을 수행하기 위해 전자 기기(800)의 프로세서(820)에 의해 실행 가능한 명령을 포함하는 메모리(804)와 같은 명령을 포함하는 비휘발성 컴퓨터 판독 가능한 기록매체를 더 제공한다.
도 6은 일 예시적 실시예에 따른 전자 기기(1900)의 블록도이다. 예를 들어, 전자 기기(1900)는 하나의 서버로 제공될 수 있다. 도 6을 참조하면 전자 기기(1900)는 프로세싱 컴포넌트(1922)를 포함하고 이는 또한 하나 또는 다수의 프로세서 및 프로세싱 컴포넌트(1922)가 실행 가능한 명령, 예를 들어 애플리케이션 프로그램을 저장하기 위한 메모리(1932)를 대표로 하는 메모리 리소스를 포함한다. 메모리(1932)에 저장된 애플리케이션 프로그램은 하나 또는 하나 이상의 각각의 명령과 대응되는 모듈을 포함할 수 있다. 이 밖에 프로세싱 컴포넌트(1922)는 명령을 실행하여 상기 방법을 수행한다.
전자 기기(1900)는 전자 기기(1900)의 전원관리를 실행하도록 구성된 하나의 전원 컴포넌트(1926), 전자 기기(1900)를 네트워크에 연결하도록 구성된 하나의 유선 또는 무선 네트워크 인터페이스(1950), 및 하나의 입출력(I/O) 인터페이스(1958)를 더 포함할 수 있다. 전자 기기(1900)는 메모리(1932)에 저장된 운영체제, 예를 들어 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 등과 같은 것을 작동시킬 수 있다. 예시적인 실시예에서, 비휘발성 컴퓨터 판독 가능 저장 매체를 더 제공하는 바, 예를 들어 컴퓨터 프로그램 명령을 포함하는 메모리(1932)를 포함하며, 상기 컴퓨터 프로그램 명령은 전자 기기(1900)의 프로세싱 컴포넌트(1922)에 의해 실행되어 상기 방법을 완성한다.
본 발명은 시스템, 방법 및/또는 컴퓨터 프로그램 제품일 수 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독 가능 저장 매체를 포함할 수 있고, 프로세서가 본 발명의 각 측면을 구현하는 컴퓨터 판독 가능 프로그램 명령이 로딩되어 있다.
컴퓨터 판독 가능 저장 매체는 명령에 의해 수행되는 기기가 사용하는 명령을 보존 및 저장 가능한 타입의 기기일 수 있다. 컴퓨터 판독 가능 저장 매체는 예를 들어 전기적 저장 기기, 마그네틱 저장 기기, 광 저장 기기, 전자 저장 기기, 반도체 저장 기기 또는 상기 임의의 적합한 조합일 수 있지만 이에 한하지 않는다. 컴퓨터 판독 가능 저장 매체의 예는(비 완전한 리스트), 휴대형 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거가능 프로그램가능 판독전용 메모리(EPROM 또는 플래시 메모리), 정적 랜덤 액세스 메모리(SRAM), CD 롬(CD-ROM), DVD, 메모리 스틱, 플로피 디스켓, 기계 코딩 기기, 예를 들어 이에 명령이 저장된 펀칭 카드 또는 요홈 내의 돌기 구조, 및 상기 임의이 적합한 조합을 포함한다. 여기서 사용되는 컴퓨터 판독 가능 저장 매체는 예컨대 무선 전자파 또는 다른 자유 전파의 전자파, 도파관 또는 다른 전송 매체를 통해 전파되는 전자파(광섬유 케이블의 광펄스), 또는 전선을 통해 전송되는 전자 신호와 같은 일시적 신호 자체로 해석되지 않는다.
여기서 서술되는 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 저장 매체에서 각 컴퓨팅/처리 기기로 다운로드할 수 있거나, 또는 네트워크, 예를 들어 인터넷, 근거리 통신망, 광역 통신망 및/또는 무선망을 통해 외부 컴퓨터 또는 외부 저장 기기에 다운로드될 수 있다. 네트워크는 구리 전송 케이블, 광섬유 전송, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터 및/또는 엣지 서버를 포함할 수 있다. 각각의 컴퓨팅/처리 기기 중의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크에서 컴퓨터 판독 가능 프로그램 명령을 수신하고, 상기 컴퓨터 판독 가능 프로그램 명령을 전달하여, 각 컴퓨팅/처리 기기의 컴퓨터 판독 가능 저장 매체에 저장되도록 한다.
본 발명의 동작을 수행하기 위한 컴퓨터 프로그램 명령은 컴포넌트 명령, 명령 세트 아키텍처(ISA) 명령, 기계 명령, 기계 관련 명령, 마이크로코드, 펌웨어 명령, 상태 설정 데이터, 또는 하나 또는 여러 가지 프로그래밍 언어의 임의의 조합으로 프로그래밍된 소스 코드 또는 타깃 코드일 수 있고, 상기 프로그래밍 언어는 Smalltalk, C++를 비롯한 객체 지향 프로그래밍 언어와 "C" 언어 또는 유사한 프로그래밍 언어를 비롯한 기존 절차적 프로그래밍 언어를 포함한다. 컴퓨터 판독 가능 프로그램 명령은 완전히 사용자의 컴퓨터에서 실행되거나, 부분적으로 사용자의 컴퓨터에서 실행되거나, 독립형 소프트웨어 패키지로서 실행되거나, 일부는 사용자의 컴퓨터에서 실행되고 일부는 원격 컴퓨터에서 실행되거나, 또는 완전히 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터의 경우 원격 컴퓨터는 LAN 또는 WAN을 포함한 모든 종류의 네트워크를 통해 사용자의 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어, 인터넷 서비스 제공 업체를 이용하여 인터넷을 통해 연결). 일부 실시예에서, 컴퓨터 판독 가능 프로그램 명령의 상태 정보를 이용하여, 예를 들어 프로그래머블 논리 회로, 필드 프로그래머블 게이트 어레이(FPGA) 또는 프로그래머블 논리 어레이(PLA)와 같은 전자 회로를 개인 맞춤하며, 상기 전자 회로는 컴퓨터 판독 가능 프로그램 명령을 실행함으로써, 본 발명의 각 측면을 구현한다.
여기서 본 발명의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하여 본 발명의 각 측면을 서술하였다. 반드시 이해해야 할 것은, 흐름도 및/또는 블록도의 각각의 블록 및 흐름도 및/또는 블록도에서 각 블록의 조합은 모두 컴퓨터 판독 가능 프로그램 명령에 의해 구현된다.
이러한 컴퓨터 판독 가능 프로그램 명령은 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그래머블 데이터 처리 장치의 프로세서에 제공됨으로써, 기계를 생산할 수 있도록 하며, 이러한 명령이 컴퓨터 또는 다른 프로그래머블 데이터 처리 장치의 프로세서를 통해 실행될 경우, 흐름도 및/또는 블록도 중의 하나 또는 복수 개의 블록에 규정된 기능/동작을 구현하는 장치를 생성한다. 이러한 컴퓨터 판독 가능 프로그램 명령을 컴퓨터 판독 가능 저장 매체에 저장할 수도 있으며, 이러한 명령은 컴퓨터, 프로그래머블 데이터 처리 장치 및/또는 다른 기기가 특정 방식으로 작동하도록 함으로써, 명령이 저장된 컴퓨터 판독 가능 매체는 하나의 제조품을 포함하고, 이는 흐름도 및/또는 블록도 중의 하나 또는 복수 개의 블록에 규정된 기능/동작을 구현하는 각 측면의 명령을 포함한다.
컴퓨터 판독 가능 프로그램 명령을 컴퓨터, 다른 프로그래머블 데이터 처리 장치, 또는 다른 기기에 로딩하여, 컴퓨터, 다른 프로그래머블 데이터 처리 장치 또는 다른 기기에서 일련의 조작 단계가, 컴퓨터 구현의 과정을 생성하도록 하여, 컴퓨터, 다른 프로그래머블 데이터 처리 장치, 또는 다른 기기에서 실행되는 명령이 흐름도 및/또는 블록도 중의 하나 또는 복수 개의 블록에 규정된 기능/동작을 구현하도록 할 수도 있다.
도면의 흐름도 및 블록도는 본 발명의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 아키텍처, 기능 및 동작을 도시한다. 이 점에서, 흐름도 또는 블록도의 각 블록은 지정된 논리적 기능을 구현하기 위한 하나 또는 하나 이상의 실행 가능한 명령을 포함하는 모듈, 프로그램 세그먼트 또는 코드의 일부를 나타낼 수 있다. 일부 대안적인 구현에서, 블록에 표기된 기능은 또한 도면에 도시된 것과 다른 순서로 구현될 수 있음에 유의해야 한다. 예를 들어, 연속적으로 표현된 2개의 블록은 실제로 병렬 실행될 수 있고, 관련 기능에 따라 때때로 역순으로 실행될 수도 있다. 또한, 블록도 및/또는 흐름도의 각 블록, 및 블록도 및/또는 흐름도에서 블록의 조합은 지정된 기능 또는 동작을 수행하는 전용 하드웨어 기반 시스템에서 구현될 수 있거나 전용 하드웨어와 컴퓨터 명령어를 조합하여 구현할 수도 있음에 유의해야 한다.
상기 컴퓨터 프로그램 제품은 하드웨어, 소프트웨어 또는 그 결합의 방식으로 구현된다. 하나의 선택 가능한 실시예에서, 상기 컴퓨터 프로그램 제품은 구체적으로 컴퓨터 저장 매체로 구현되며, 다른 선택 가능한 실시예에서, 컴퓨터 프로그램 제품은 구체적으로 소프트웨어 제품으로 구현되고, 예를 들면 소프트웨어 개발 키트(Software Development Kit, SDK) 등이다.
상기와 같이 본 발명의 각 실시예를 서술하였고, 상기 설명은 예시적인 것으로서 완벽한 것이 아니며 공개된 각 실시예에 한정되지도 않는다. 설명되는 각 실시예의 범위와 구상을 벗어나지 않는 전제하에서, 수많은 보정 및 변경은 본 기술분야의 통상의 기술자에게 있어서 모두 자명한 것이다. 본문에서 사용되는 용어의 선택은 각 실시예의 원리, 실제 응용 또는 시장 중의 기술의 개선을 가장 잘 해석하기 위한 것이거나, 또는 본 기술분야의 통상의 기술자가 본문에 공개된 각 실시예를 가장 잘 이해하도록 하기 위한 것이다.
본 발명의 실시예에서, 처리할 이미지에 대해 M 레벨 특징 추출을 수행하여 M 레벨 제1 특징 맵을 획득할 수 있고; 각각의 제1 특징 맵과 이와 인접하는 특징 맵을 융합하여 M 레벨 제2 특징 맵을 획득하며; M 레벨 제2 특징 맵 타깃 검출에 대해 타깃 검출 결과를 획득함으로써, M 레벨 제1 특징 맵의 인접 계층 사이의 특징의 관련 정보를 융합할 수 있으며, 타깃 검출의 효과를 효과적으로 향상시킬 수 있다.

Claims (25)

  1. 이미지 처리 방법으로서,
    처리할 이미지에 대해 M 레벨 특징 추출을 수행하여, 상기 처리할 이미지의 M 레벨 제1 특징 맵을 획득하는 단계 - 상기 M 레벨 제1 특징 맵에서 각 레벨의 제1 특징 맵의 척도는 상이하고, M은 1보다 큰 정수임 - ;
    각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득하는 단계 - 각각의 상기 특징 맵 그룹은 상기 제1 특징 맵 및 상기 제1 특징 맵과 인접한 제1 특징 맵을 포함함 - ; 및
    상기 M 레벨 제2 특징 맵에 대해 타깃 검출을 수행하여, 상기 처리할 이미지의 타깃 검출 결과를 획득하는 단계를 포함하는 이미지 처리 방법.
  2. 제1항에 있어서,
    제i 레벨 제1 특징 맵에 대응되는 특징 맵 그룹은 제i-1 레벨 제1 특징 맵, 제i 레벨 제1 특징 맵 및 제i+1 레벨 제1 특징 맵을 포함하고, i는 정수이며 1<i<M이고,
    상기 각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득하는 단계는,
    상기 제i-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제i 레벨 제3 특징 맵을 획득하는 단계;
    상기 제i 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제i 레벨 제3 특징 맵을 획득하는 단계;
    상기 제i+1 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 세 번째 제i 레벨 제3 특징 맵을 획득하는 단계; 및
    상기 첫 번째 제i 레벨 제3 특징 맵, 상기 두 번째 제i 레벨 제3 특징 맵 및 세 번째 제i 레벨 제3 특징 맵을 융합하여, 제i 레벨 제2 특징 맵을 획득하는 단계를 포함하되,
    상기 첫 번째 제i 레벨 제3 특징 맵, 상기 두 번째 제i 레벨 제3 특징 맵 및 세 번째 제i 레벨 제3 특징 맵의 척도는 동일한 이미지 처리 방법.
  3. 제1항 또는 제2항에 있어서,
    제1 레벨 제1 특징 맵에 대응되는 특징 맵 그룹은 상기 제1 레벨 제1 특징 맵 및 제2 레벨 제1 특징 맵을 포함하고, 상기 각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득하는 단계는,
    상기 제1 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 첫 번째 제1 레벨 제3 특징 맵을 획득하는 단계;
    상기 제2 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 두 번째 제1 레벨 제3 특징 맵을 획득하는 단계; 및
    상기 첫 번째 제1 레벨 제3 특징 맵 및 상기 두 번째 제1 레벨 제3 특징 맵을 융합하여, 제1 레벨 제2 특징 맵을 획득하는 단계를 포함하되,
    상기 첫 번째 제1 레벨 제3 특징 맵과 상기 두 번째 제1 레벨 제3 특징 맵의 척도는 동일한 이미지 처리 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    제M 레벨 제1 특징 맵에 대응되는 특징 맵 그룹은 제M-1 레벨 제1 특징 맵 및 상기 제M 레벨 제1 특징 맵을 포함하고,
    상기 각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득하는 단계는,
    상기 제M-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제M 레벨 제3 특징 맵을 획득하는 단계;
    상기 제M 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제M 레벨 제3 특징 맵을 획득하는 단계; 및
    상기 첫 번째 제M 레벨 제3 특징 맵 및 상기 두 번째 제M 레벨 제3 특징 맵을 융합하여, 제M 레벨 제2 특징 맵을 획득하는 단계를 포함하되,
    상기 첫 번째 제M 레벨 제3 특징 맵과 상기 두 번째 제M 레벨 제3 특징 맵의 척도는 동일한 이미지 처리 방법.
  5. 제2항 내지 제4항 중 어느 한 항에 있어서,
    상기 제i-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제i 레벨 제3 특징 맵을 획득하는 상기 단계는, 제1 콘볼루션 계층을 통해 상기 제i-1 레벨 제1 특징 맵을 콘볼루션하여, 상기 첫 번째 제i 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제1 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 n이고, N, n은 1보다 큰 정수이며, 상기 제i-1 레벨 제1 특징 맵의 척도는 상기 제i 레벨 제1 특징 맵의 척도의 n배이고;
    상기 제i 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제i 레벨 제3 특징 맵을 획득하는 상기 단계는, 제2 콘볼루션 계층을 통해 상기 제i 레벨 제1 특징 맵을 콘볼루션하여, 상기 두 번째 제i 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이고;
    상기 제i+1 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 세 번째 제i 레벨 제3 특징 맵을 획득하는 상기 단계는, 제3 콘볼루션 계층 및 업 샘플링 계층을 통해 상기 제i+1 레벨 제1 특징 맵을 콘볼루션 및 업 샘플링하여, 상기 세 번째 제i 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제3 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1인 이미지 처리 방법.
  6. 제3항에 있어서,
    상기 제1 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 첫 번째 제1 레벨 제3 특징 맵을 획득하는 상기 단계는, 제2 콘볼루션 계층을 통해 상기 제1 레벨 제1 특징 맵을 콘볼루션하여, 상기 첫 번째 제1 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이고, N은 1보다 큰 정수이며;
    상기 제2 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 두 번째 제1 레벨 제3 특징 맵을 획득하는 상기 단계는, 제3 콘볼루션 계층 및 업 샘플링 계층을 통해 상기 제2 레벨 제1 특징 맵을 콘볼루션 및 업 샘플링하여, 두 번째 제1 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제3 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1인 이미지 처리 방법.
  7. 제4항에 있어서,
    상기 제M-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제M 레벨 제3 특징 맵을 획득하는 상기 단계는, 제1 콘볼루션 계층을 통해 상기 제M-1 레벨 제1 특징 맵을 콘볼루션하여, 상기 첫 번째 제M 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제1 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 n이고, N, n은 1보다 큰 정수이며, 상기 제i-1 레벨 제1 특징 맵의 척도는 상기 제i 레벨 제1 특징 맵의 척도의 n배이고;
    상기 제M 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제M 레벨 제3 특징 맵을 획득하는 상기 단계는, 제2 콘볼루션 계층을 통해 상기 제M 레벨 제1 특징 맵을 콘볼루션하여, 상기 두 번째 제M 레벨 제3 특징 맵을 획득하는 단계를 포함하되, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1인 이미지 처리 방법.
  8. 제5항 내지 제7항 중 어느 한 항에 있어서,
    상기 제2 콘볼루션 계층 및 상기 제3 콘볼루션 계층은 가변형 콘볼루션 계층 또는 확장 콘볼루션 계층을 포함하는 이미지 처리 방법.
  9. 제5항 내지 제8항 중 어느 한 항에 있어서,
    상기 이미지 처리 방법은 이미지 처리 네트워크를 통해 구현되고, 상기 M 레벨 제1 특징 맵에 대해 P회 척도 조절 및 융합을 수행하기 위해, 상기 이미지 처리 네트워크는 직렬된 P 레벨 융합 네트워크 블록을 포함하며, 각 레벨의 융합 네트워크 블록은 복수 개의 제1 콘볼루션 계층, 복수 개의 제2 콘볼루션 계층 및 복수 개의 제3 콘볼루션 계층을 포함하고, P는 양의 정수이며;
    상기 각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득하는 단계는,
    상기 M 레벨 제1 특징 맵을 제1 레벨 융합 네트워크 블록에 입력하고, 제1회 융합된 M 레벨 제4 특징 맵을 출력하는 단계;
    제j-1회 융합된 M 레벨 제4 특징 맵을 제j 레벨 융합 네트워크 블록에 입력하고, 제j회 융합된 M 레벨 제4 특징 맵을 출력하는 단계 - j는 정수이며 1<j<P임 - ; 및
    제P-1회 융합된 M 레벨 제4 특징 맵을 제P 레벨 융합 네트워크 블록에 입력하고, 상기 M 레벨 제2 특징 맵을 출력하는 단계를 포함하는 이미지 처리 방법.
  10. 제9항에 있어서,
    각 레벨의 융합 네트워크 블록은 정규화 계층을 더 포함하고,
    상기 제j-1회 융합된 M 레벨 제4 특징 맵을 제j 레벨 융합 네트워크 블록에 입력하고, 제j회 융합된 M 레벨 제4 특징 맵을 출력하는 단계는,
    상기 제j 레벨 융합 네트워크 블록의 제1 콘볼루션 계층, 제2 콘볼루션 계층 및 제3 콘볼루션 계층을 통해, 상기 제j-1회 융합된 M 레벨 제4 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, 제j회 융합된 M 레벨 중간 특징 맵을 획득하는 단계; 및
    상기 정규화 계층을 통해 상기 제j회 융합된 M 레벨 중간 특징 맵에 대해 연합 배치 정규화 처리를 수행하여, 상기 제j회 융합된 M 레벨 제4 특징 맵을 획득하는 단계를 포함하는 이미지 처리 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 이미지 처리 방법은 이미지 처리 네트워크를 통해 구현되고, 상기 이미지 처리 네트워크는 회귀 네트워크 및 분류 네트워크를 더 포함하며, 상기 M 레벨 제2 특징 맵에 대해 타깃 검출을 수행하여, 상기 처리할 이미지의 타깃 검출 결과를 획득하는 상기 단계는,
    상기 M 레벨 제2 특징 맵을 상기 회귀 네트워크에 입력하여, 상기 처리할 이미지에서 타깃에 대응되는 이미지 프레임을 결정하는 단계; 및
    상기 M 레벨 제2 특징 맵을 상기 분류 네트워크에 입력하여, 상기 처리할 이미지에서 타깃의 카테고리를 결정하는 단계를 포함하되, 상기 타깃 검출 결과는 상기 타깃에 대응되는 이미지 프레임 및 상기 타깃의 카테고리를 포함하는 이미지 처리 방법.
  12. 이미지 처리 장치로서,
    처리할 이미지에 대해 M 레벨 특징 추출을 수행하여, 상기 처리할 이미지의 M 레벨 제1 특징 맵을 획득하도록 구성된 특징 추출 모듈 - 상기 M 레벨 제1 특징 맵에서 각 레벨의 제1 특징 맵의 척도는 상이하고, M은 1보다 큰 정수임 - ;
    각 레벨의 제1 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, M 레벨 제2 특징 맵을 획득하도록 구성된 척도 조절 및 융합 모듈 - 각각의 상기 특징 맵 그룹은 상기 제1 특징 맵 및 상기 제1 특징 맵과 인접한 제1 특징 맵을 포함함 - ; 및
    상기 M 레벨 제2 특징 맵에 대해 타깃 검출을 수행하여, 상기 처리할 이미지의 타깃 검출 결과를 획득하도록 구성된 타깃 검출 모듈을 포함하는 이미지 처리 장치.
  13. 제12항에 있어서,
    제i 레벨 제1 특징 맵에 대응되는 특징 맵 그룹은 제i-1 레벨 제1 특징 맵, 제i 레벨 제1 특징 맵 및 제i+1 레벨 제1 특징 맵을 포함하고, i는 정수이며 1<i<M이고,
    상기 척도 조절 및 융합 모듈은,
    상기 제i-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제i 레벨 제3 특징 맵을 획득하도록 구성된 제1 척도 축소 서브 모듈;
    상기 제i 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제i 레벨 제3 특징 맵을 획득하도록 구성된 제1 변환 서브 모듈;
    상기 제i+1 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 세 번째 제i 레벨 제3 특징 맵을 획득하도록 구성된 제1 척도 확대 서브 모듈; 및
    상기 첫 번째 제i 레벨 제3 특징 맵, 상기 두 번째 제i 레벨 제3 특징 맵 및 세 번째 제i 레벨 제3 특징 맵을 융합하여, 제i 레벨 제2 특징 맵을 획득하도록 구성된 제1 융합 서브 모듈을 포함하되,
    상기 첫 번째 제i 레벨 제3 특징 맵, 상기 두 번째 제i 레벨 제3 특징 맵 및 세 번째 제i 레벨 제3 특징 맵의 척도는 동일한 이미지 처리 장치.
  14. 제12항 또는 제13항에 있어서,
    제1 레벨 제1 특징 맵에 대응되는 특징 맵 그룹은 상기 제1 레벨 제1 특징 맵 및 제2 레벨 제1 특징 맵을 포함하고,
    상기 척도 조절 및 융합 모듈은,
    상기 제1 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 첫 번째 제1 레벨 제3 특징 맵을 획득하도록 구성된 제2 변환 서브 모듈;
    상기 제2 레벨 제1 특징 맵에 대해 척도 확대를 수행하여, 두 번째 제1 레벨 제3 특징 맵을 획득하도록 구성된 제2 척도 확대 서브 모듈; 및
    상기 첫 번째 제1 레벨 제3 특징 맵 및 상기 두 번째 제1 레벨 제3 특징 맵을 융합하여, 제1 레벨 제2 특징 맵으로 구성하도록 구성된 제2 융합 서브 모듈을 포함하되,
    상기 첫 번째 제1 레벨 제3 특징 맵과 상기 두 번째 제1 레벨 제3 특징 맵의 척도는 동일한 이미지 처리 장치.
  15. 제12항 내지 제14항 중 어느 한 항에 있어서,
    제M 레벨 제1 특징 맵에 대응되는 특징 맵 그룹은 제M-1 레벨 제1 특징 맵 및 상기 제M 레벨 제1 특징 맵을 포함하고,
    상기 척도 조절 및 융합 모듈은,
    상기 제M-1 레벨 제1 특징 맵에 대해 척도 축소를 수행하여, 첫 번째 제M 레벨 제3 특징 맵을 획득하도록 구성된 제2 척도 축소 서브 모듈;
    상기 제M 레벨 제1 특징 맵에 대해 척도 불변의 변환을 수행하여, 두 번째 제M 레벨 제3 특징 맵을 획득하도록 구성된 제3 변환 서브 모듈; 및
    상기 첫 번째 제M 레벨 제3 특징 맵 및 상기 두 번째 제M 레벨 제3 특징 맵을 융합하여, 제M 레벨 제2 특징 맵을 획득하도록 구성된 제3 융합 서브 모듈을 포함하되,
    상기 첫 번째 제M 레벨 제3 특징 맵과 상기 두 번째 제M 레벨 제3 특징 맵의 척도는 동일한 이미지 처리 장치.
  16. 제13항 내지 제15항 중 어느 한 항에 있어서,
    상기 제1 척도 축소 서브 모듈은, 제1 콘볼루션 계층을 통해 상기 제i-1 레벨 제1 특징 맵을 콘볼루션하여, 상기 첫 번째 제i 레벨 제3 특징 맵을 획득하도록 구성되고, 상기 제1 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 n이고, N, n은 1보다 큰 정수이며, 상기 제i-1 레벨 제1 특징 맵의 척도는 상기 제i 레벨 제1 특징 맵의 척도의 n배이고; 상기 제1 변환 서브 모듈은, 제2 콘볼루션 계층을 통해 상기 제i 레벨 제1 특징 맵을 콘볼루션하여, 상기 두 번째 제i 레벨 제3 특징 맵을 획득하도록 구성되고, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이고; 상기 제1 척도 확대 서브 모듈은, 제3 콘볼루션 계층 및 업 샘플링 계층을 통해 상기 제i+1 레벨 제1 특징 맵을 콘볼루션 및 업 샘플링하여, 상기 세 번째 제i 레벨 제3 특징 맵을 획득하도록 구성되고, 상기 제3 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1인 이미지 처리 장치.
  17. 제15항에 있어서,
    상기 제2 변환 서브 모듈은, 제2 콘볼루션 계층을 통해 상기 제1 레벨 제1 특징 맵을 콘볼루션하여, 상기 첫 번째 제1 레벨 제3 특징 맵을 획득하도록 구성되고, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1이고, N은 1보다 큰 정수이며; 상기 제2 척도 확대 서브 모듈은, 제3 콘볼루션 계층 및 업 샘플링 계층을 통해 상기 제2 레벨 제1 특징 맵을 콘볼루션 및 업 샘플링하여, 두 번째 제1 레벨 제3 특징 맵을 획득하도록 구성되고, 상기 제3 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1인 이미지 처리 장치.
  18. 제16항에 있어서,
    상기 제2 척도 축소 서브 모듈은, 제1 콘볼루션 계층을 통해 상기 제M-1 레벨 제1 특징 맵을 콘볼루션하여, 상기 첫 번째 제M 레벨 제3 특징 맵을 획득하도록 구성되고, 상기 제1 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 n이고, N, n은 1보다 큰 정수이며, 상기 제i-1 레벨 제1 특징 맵의 척도는 상기 제i 레벨 제1 특징 맵의 척도의 n배이고; 상기 제3 변환 서브 모듈은, 제2 콘볼루션 계층을 통해 상기 제M 레벨 제1 특징 맵을 콘볼루션하여, 상기 두 번째 제M 레벨 제3 특징 맵을 획득하도록 구성되고, 상기 제2 콘볼루션 계층의 콘볼루션 커널의 크기는 N×N이며, 스텝 길이는 1인 이미지 처리 장치.
  19. 제16항 내지 제18항 중 어느 한 항에 있어서,
    상기 제2 콘볼루션 계층 및 상기 제3 콘볼루션 계층은 가변형 콘볼루션 계층 또는 확장 콘볼루션 계층을 포함하는 이미지 처리 장치.
  20. 제16항 내지 제19항 중 어느 한 항에 있어서,
    상기 이미지 처리 장치는 이미지 처리 네트워크를 통해 구현되고, 상기 이미지 처리 네트워크는 직렬된 P 레벨 융합 네트워크 블록을 포함하며, 상기 M 레벨 제1 특징 맵에 대해 P회 척도 조절 및 융합을 수행하도록 구성되고, 각 레벨의 융합 네트워크 블록은 복수 개의 제1 콘볼루션 계층, 복수 개의 제2 콘볼루션 계층 및 복수 개의 제3 콘볼루션 계층을 포함하고, P는 양의 정수이며;
    상기 척도 조절 및 융합 모듈은,
    상기 M 레벨 제1 특징 맵을 제1 레벨 융합 네트워크 블록에 입력하고, 제1회 융합된 M 레벨 제4 특징 맵을 출력하도록 구성된 제1 융합 서브 모듈;
    제j-1회 융합된 M 레벨 제4 특징 맵을 제j 레벨 융합 네트워크 블록에 입력하고, 제j회 융합된 M 레벨 제4 특징 맵을 출력하도록 구성된 제2 융합 서브 모듈 - j는 정수이며 1<j<P임 - ; 및
    제P-1회 융합된 M 레벨 제4 특징 맵을 제P 레벨 융합 네트워크 블록에 입력하고, 상기 M 레벨 제2 특징 맵을 출력하도록 구성된 제3 융합 서브 모듈을 포함하는 이미지 처리 장치.
  21. 제20항에 있어서,
    각 레벨의 융합 네트워크 블록은 정규화 계층을 더 포함하고, 상기 제2 융합 서브 모듈은, 상기 제j 레벨 융합 네트워크 블록의 제1 콘볼루션 계층, 제2 콘볼루션 계층 및 제3 콘볼루션 계층을 통해, 상기 제j-1회 융합된 M 레벨 제4 특징 맵에 대응되는 특징 맵 그룹에 대해 각각 척도 조절 및 융합을 수행하여, 제j회 융합된 M 레벨 중간 특징 맵을 획득하고; 상기 정규화 계층을 통해 상기 제j회 융합된 M 레벨 중간 특징 맵에 대해 연합 배치 정규화 처리를 수행하여, 상기 제j회 융합된 M 레벨 제4 특징 맵을 획득하도록 구성되는 이미지 처리 장치.
  22. 제13항 내지 제21항 중 어느 한 항에 있어서,
    상기 이미지 처리 장치는 이미지 처리 네트워크를 통해 구현되고, 상기 이미지 처리 네트워크는 회귀 네트워크 및 분류 네트워크를 더 포함하며,
    상기 타깃 검출 모듈은,
    상기 M 레벨 제2 특징 맵을 상기 회귀 네트워크에 입력하여, 상기 처리할 이미지에서 타깃에 대응되는 이미지 프레임을 결정하도록 구성된 회귀 서브 모듈; 및
    상기 M 레벨 제2 특징 맵을 상기 분류 네트워크에 입력하여, 상기 처리할 이미지에서 타깃의 카테고리를 결정하도록 구성된 분류 서브 모듈을 포함하되,
    상기 타깃 검출 결과는 상기 타깃에 대응되는 이미지 프레임 및 상기 타깃의 카테고리를 포함하는 이미지 처리 장치.
  23. 전자 기기로서,
    프로세서; 및
    프로세서에 의해 실행 가능한 명령을 저장하는 메모리를 포함하되;
    상기 프로세서는 상기 메모리에 저장된 명령을 호출하여, 제1항 내지 제11항 중 어느 한 항에 따른 이미지 처리 방법을 수행하도록 구성되는 전자 기기.
  24. 컴퓨터 판독 가능 저장 매체로서,
    컴퓨터 프로그램 명령이 저장되고,
    상기 컴퓨터 프로그램 명령이 프로세서에 의해 실행될 경우 제1항 내지 제11항 중 어느 한 항에 따른 이미지 처리 방법을 구현하는 컴퓨터 판독 가능 저장 매체.
  25. 컴퓨터 프로그램 제품으로서,
    하나 이상의 명령을 포함하고,
    상기 하나 이상의 명령은 프로세서에 의해 제1항 내지 제11항 중 어느 한 항에 따른 이미지 처리 방법을 로딩 및 수행하는 것에 적합한 컴퓨터 프로그램 제품.
KR1020227000768A 2020-04-17 2021-03-19 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체 KR20220011207A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010306929.2A CN111507408B (zh) 2020-04-17 2020-04-17 图像处理方法及装置、电子设备和存储介质
CN202010306929.2 2020-04-17
PCT/CN2021/081782 WO2021208667A1 (zh) 2020-04-17 2021-03-19 图像处理方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
KR20220011207A true KR20220011207A (ko) 2022-01-27

Family

ID=71874374

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227000768A KR20220011207A (ko) 2020-04-17 2021-03-19 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체

Country Status (5)

Country Link
JP (1) JP2022532322A (ko)
KR (1) KR20220011207A (ko)
CN (1) CN111507408B (ko)
TW (1) TWI782480B (ko)
WO (1) WO2021208667A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507408B (zh) * 2020-04-17 2022-11-04 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN111967401A (zh) * 2020-08-19 2020-11-20 上海眼控科技股份有限公司 目标检测方法、设备及存储介质
CN112200201A (zh) * 2020-10-13 2021-01-08 上海商汤智能科技有限公司 一种目标检测方法及装置、电子设备和存储介质
CN112232361B (zh) * 2020-10-13 2021-09-21 国网电子商务有限公司 图像处理的方法及装置、电子设备及计算机可读存储介质
CN113191390B (zh) * 2021-04-01 2022-06-14 华中科技大学 一种图像分类模型的构建方法、图像分类方法及存储介质
CN114463605B (zh) * 2022-04-13 2022-08-12 中山大学 基于深度学习的持续学习图像分类方法及装置
CN115223018B (zh) * 2022-06-08 2023-07-04 东北石油大学 伪装对象协同检测方法及装置、电子设备和存储介质
CN115131641A (zh) * 2022-06-30 2022-09-30 北京百度网讯科技有限公司 图像识别方法、装置、电子设备和存储介质
CN115018059B (zh) * 2022-08-09 2022-11-18 北京灵汐科技有限公司 数据处理方法及装置、神经网络模型、设备、介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
CN106096670B (zh) * 2016-06-17 2019-07-30 深圳市商汤科技有限公司 级联卷积神经网络训练和图像检测方法、装置及系统
WO2018035805A1 (en) * 2016-08-25 2018-03-01 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
US20180060719A1 (en) * 2016-08-29 2018-03-01 International Business Machines Corporation Scale-space label fusion using two-stage deep neural net
JP6546618B2 (ja) * 2017-05-31 2019-07-17 株式会社Preferred Networks 学習装置、学習方法、学習モデル、検出装置及び把持システム
KR102235745B1 (ko) * 2018-08-10 2021-04-02 네이버 주식회사 컨볼루션 순환 신경망을 훈련시키는 방법 및 훈련된 컨볼루션 순환 신경망을 사용하는 입력된 비디오의 의미적 세그먼트화 방법
TWI691930B (zh) * 2018-09-19 2020-04-21 財團法人工業技術研究院 基於神經網路的分類方法及其分類裝置
CN109816671B (zh) * 2019-01-31 2021-09-24 深兰科技(上海)有限公司 一种目标检测方法、装置及存储介质
CN110378976B (zh) * 2019-07-18 2020-11-13 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110647834B (zh) * 2019-09-18 2021-06-25 北京市商汤科技开发有限公司 人脸和人手关联检测方法及装置、电子设备和存储介质
CN110852349B (zh) * 2019-10-21 2024-02-20 上海联影智能医疗科技有限公司 一种图像处理方法、检测方法、相关设备及存储介质
CN111507408B (zh) * 2020-04-17 2022-11-04 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111507408B (zh) 2022-11-04
CN111507408A (zh) 2020-08-07
WO2021208667A1 (zh) 2021-10-21
TWI782480B (zh) 2022-11-01
JP2022532322A (ja) 2022-07-14
TW202141423A (zh) 2021-11-01

Similar Documents

Publication Publication Date Title
JP7089106B2 (ja) 画像処理方法及び装置、電子機器、コンピュータ読取可能記憶媒体及びコンピュータプログラム
KR20220011207A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체
KR102421820B1 (ko) 키포인트 검출 방법, 장치, 전자 기기 및 기억 매체
CN109409161B (zh) 图形码识别方法、装置、终端及存储介质
KR20210015951A (ko) 이미지 처리 방법 및 장치, 전자 기기, 및 기억 매체
WO2021008023A1 (zh) 图像处理方法及装置、电子设备和存储介质
KR20210102180A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
EP3057304B1 (en) Method and apparatus for generating image filter
KR20220053670A (ko) 목표 대상물 매칭 방법 및 장치, 전자 기기 및 기억 매체
US11416703B2 (en) Network optimization method and apparatus, image processing method and apparatus, and storage medium
TWI778313B (zh) 圖像處理方法、電子設備和儲存介質
US20220392202A1 (en) Imaging processing method and apparatus, electronic device, and storage medium
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
KR20200106027A (ko) 네트워크 모듈 및 분배 방법 및 장치, 전자 기기 및 저장 매체
JP2022533065A (ja) 文字認識方法及び装置、電子機器並びに記憶媒体
CN110633715B (zh) 图像处理方法、网络训练方法及装置、和电子设备
KR20210113617A (ko) 네트워크 트레이닝 방법 및 장치, 이미지 처리 방법 및 장치
CN114359808A (zh) 目标检测方法及装置、电子设备和存储介质
CN112749709A (zh) 图像处理方法及装置、电子设备和存储介质
CN112734015A (zh) 网络生成方法及装置、电子设备和存储介质
CN113435390A (zh) 人群定位方法及装置、电子设备和存储介质
CN113780433A (zh) 目标检测器安全性测试方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A201 Request for examination