KR20210137213A - 이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체 - Google Patents

이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체 Download PDF

Info

Publication number
KR20210137213A
KR20210137213A KR1020217034492A KR20217034492A KR20210137213A KR 20210137213 A KR20210137213 A KR 20210137213A KR 1020217034492 A KR1020217034492 A KR 1020217034492A KR 20217034492 A KR20217034492 A KR 20217034492A KR 20210137213 A KR20210137213 A KR 20210137213A
Authority
KR
South Korea
Prior art keywords
image
neural network
image set
unlabeled
processing
Prior art date
Application number
KR1020217034492A
Other languages
English (en)
Inventor
양보 자오
잔펭 장
Original Assignee
선전 센스타임 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 선전 센스타임 테크놀로지 컴퍼니 리미티드 filed Critical 선전 센스타임 테크놀로지 컴퍼니 리미티드
Publication of KR20210137213A publication Critical patent/KR20210137213A/ko

Links

Images

Classifications

    • G06K9/6218
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • G06K9/6269
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 이미지 처리 방법 및 장치, 프로세서, 전자 기기 및 저장 매체를 개시한다. 상기 방법은, 처리될 이미지를 획득하는 단계; 이미지 처리 신경망을 사용하여 상기 처리될 이미지에 대해 처리를 진행하여, 상기 처리될 이미지의 처리 결과를 얻는 단계 - 상기 이미지 처리 신경망은 라벨링되지 않은 이미지 세트 및 라벨링된 이미지 세트를 훈련 데이터로 사용하여 훈련하여 얻은 것이고, 상기 라벨링되지 않은 이미지 세트의 수집 조건과 상기 처리될 이미지의 수집 조건은 동일하고, 상기 라벨링된 이미지 세트의 수집 조건과 상기 라벨링되지 않은 이미지 세트의 수집 조건은 상이함 - 를 포함한다.

Description

자세 검출 및 비디오 처리 방법, 장치, 전자 기기 및 저장 매체
관련 출원에 대한 상호 참조
본 발명은 출원 번호가 202010264926.7이고, 출원일이 2020년 4월 7일 중국 특허 출원에 기반하여 제출하였고, 상기 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로서 본 발명에 인용된다.
본 발명은 컴퓨터 기술분야에 관한 것으로서, 특히 이미지 처리 및 장치, 프로세서, 전자 기기, 저장 매체에 관한 것이다.
강력한 성능 덕분에, 신경망은 최근 몇 년 동안 이미지 처리 분야에 널리 적용되었다. 신경망을 사용하기 전, 신경망에 대해 훈련을 진행해야 한다. 종래 방법에 있어서, 훈련 데이터를 사용하여 신경망에 대해 훈련을 진행하여 훈련된 신경망을 얻고, 훈련된 신경망을 상이한 응용 시나리오에 적용한다. 그러나, 응용 시나리오의 훈련 데이터에 기반하여 훈련된 신경망을 다른 응용 시나리오에 적용할 경우, 얻은 처리 결과의 정확도가 비교적 낮다.
본 발명은 이미지 처리 및 장치, 프로세서, 전자 기기, 저장 매체를 제공한다.
제1 측면에 있어서, 이미지 처리 방법을 제공하고, 상기 방법은,
처리될 이미지를 획득하는 단계; 및
이미지 처리 신경망을 사용하여 상기 처리될 이미지에 대해 처리를 진행하여, 상기 처리될 이미지의 처리 결과를 얻는 단계 - 상기 이미지 처리 신경망은 라벨링되지 않은 이미지 세트 및 라벨링된 이미지 세트를 훈련 데이터로 사용하여 훈련하여 얻은 것이고, 상기 라벨링되지 않은 이미지 세트의 수집 조건과 상기 처리될 이미지의 수집 조건은 동일하고, 상기 라벨링된 이미지 세트의 수집 조건과 상기 라벨링되지 않은 이미지 세트의 수집 조건은 상이함 - 를 포함한다.
상기 측면에 있어서, 라벨링되지 않은 이미지 세트 및 라벨링된 이미지 세트를 훈련 데이터로 사용하여 신경망에 대해 훈련을 진행하여, 라벨링된 이미지 세트에 기반하여 라벨링되지 않은 이미지 세트의 라벨을 결정할 수 있음으로써, 라벨링되지 않은 이미지 세트에 대해 라벨링을 진행하는 인건비를 저하시킬 수 있고, 라벨링 효율을 향상시킬 수 있다. 라벨링된 이미지 세트, 라벨링되지 않은 이미지 세트, 라벨링되지 않은 이미지 세트의 라벨을 사용하여 신경망에 대해 훈련을 진행하여, 신경망으로 하여금 훈련 과정에서 제2 수집 조건의 정보를 학습할 수 있도록 함으로써, 훈련하여 얻은 이미지 처리 신경망을 사용하여 처리될 이미지에 대해 처리를 진행하는 과정에서, 얻은 처리 결과의 정확도를 향상시킬 수 있다.
본 발명의 어느 한 실시 형태와 결합하여, 상기 방법은,
상기 라벨링되지 않은 이미지 세트, 상기 라벨링된 이미지 세트 및 제1 훈련될 신경망을 획득하는 단계;
상기 라벨링된 이미지 세트에 기반하여, 상기 라벨링되지 않은 이미지 세트의 라벨을 얻는 단계; 및
상기 라벨링된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트를 훈련 데이터로 사용하고, 상기 라벨링되지 않은 이미지 세트의 라벨을 상기 라벨링되지 않은 이미지 세트의 감독 정보로 사용하여, 상기 제1 훈련될 신경망에 대해 훈련을 진행하여, 상기 이미지 처리 신경망을 얻는 단계를 더 포함한다.
상기 실시형태에 있어서, 라벨링된 이미지 세트에 기반하여 라벨링되지 않은 이미지 세트에 대해 라벨링을 진행함으로써, 인건비를 절감하고, 라벨링 효율을 향상시킨다. 라벨링된 이미지 세트 및 라벨링되지 않은 이미지 세트를 사용하여 제1 훈련될 신경망에 대해 훈련을 진행하여, 제1 훈련될 신경망으로 하여금 훈련 과정에서 라벨링되지 않은 이미지 세트의 수집 조건의 정보를 학습하도록 하여, 이미지 처리 신경망을 얻도록 할 수 있다. 이로써, 이미지 처리 신경망을 사용하여 처리될 이미지에 대해 처리를 진행하여, 처리 결과의 정확도를 향상시킬 수 있다.
본 발명의 어느 한 실시 형태와 결합하여, 상기 라벨링된 이미지 세트에 기반하여, 상기 라벨링되지 않은 이미지 세트의 라벨을 얻는 단계는,
상기 라벨링된 이미지 세트를 훈련 데이터로 사용하여, 상기 제1 훈련될 신경망에 대해 훈련을 진행하여, 제2 훈련될 신경망을 얻는 단계; 및
상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여, 상기 라벨링되지 않은 이미지 세트의 라벨을 얻는 단계를 포함한다.
상기 실시형태에 있어서, 제1 훈련될 신경망을 사용하여 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여, 라벨링되지 않은 이미지 세트의 라벨을 얻은 후, 라벨링된 이미지 세트 및 라벨링되지 않은 이미지 세트를 훈련 데이터로 사용하고, 라벨링되지 않은 이미지 세트의 라벨을 라벨링되지 않은 이미지 세트의 감독 정보로 사용하여, 제2 훈련될 신경망에 대해 훈련을 진행하여, 훈련 주기 수를 증가시켜, 훈련 효과를 향상시킴으로써, 훈련하여 얻은 이미지 처리 신경망이 처리될 이미지에 대해 처리를 진행하여 얻은 처리 결과에 대한 정확도를 향상시킨다.
본 발명의 어느 한 실시형태와 결합하여, 상기 라벨링된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트를 훈련 데이터로 사용하고, 상기 라벨링되지 않은 이미지 세트의 라벨을 상기 라벨링되지 않은 이미지 세트의 감독 정보로 사용하여, 상기 제1 훈련될 신경망에 대해 훈련을 진행하여, 상기 이미지 처리 신경망을 얻는 단계는,
상기 제2 훈련될 신경망을 사용하여 상기 라벨링된 이미지 세트에 대해 처리를 진행하여 제1 결과를 얻고, 상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여 제2 결과를 얻는 단계;
상기 제1 결과와 상기 라벨링된 이미지 세트의 라벨 간의 차이에 따라 제1 차이를 얻고, 상기 제2 결과와 상기 라벨링되지 않은 이미지 세트의 라벨 간의 차이에 따라 제2 차이를 얻는 단계;
상기 제1 차이 및 상기 제2 차이에 따라, 상기 제2 훈련될 신경망의 손실을 얻는 단계; 및
상기 제2 훈련될 신경망의 손실에 기반하여, 상기 제2 훈련될 신경망의 파라미터를 조정하여, 상기 이미지 처리 신경망을 얻는 단계를 포함한다.
상기 실시형태에 있어서, 제1 차이 및 제2 차이에 따라, 제2 훈련될 신경망의 손실을 얻고, 제2 훈련될 신경망의 손실에 기반하여 제2 훈련될 신경망의 파라미터를 조정하여, 제2 훈련될 신경망에 대한 훈련을 완료하여, 이미지 처리 신경망을 얻을 수 있다.
본 발명의 어느 한 실시형태와 결합하여, 상기 라벨링된 이미지 세트의 라벨 및 상기 라벨링되지 않은 이미지의 라벨은 모두 카테고리 정보를 캐리하고;
상기 제1 차이 및 상기 제2 차이에 따라, 상기 제2 훈련될 신경망의 손실을 얻기 전, 상기 방법은,
훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제2 이미지 간의 유사도를 결정하여 제1 유사도를 얻고, 상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제3 이미지 간의 유사도를 결정하여 제2 유사도를 얻는 단계 - 상기 훈련 이미지 세트는 상기 라벨링된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트를 포함하고, 상기 제1 이미지의 카테고리와 상기 제2 이미지의 카테고리는 동일하고, 상기 제1 이미지의 카테고리와 상기 제3 이미지의 카테고리는 상이함 - ; 및
상기 제1 유사도 및 상기 제2 유사도 간의 차이에 따라, 트리 튜플 손실을 얻는 단계를 더 포함한다.
상기 제1 차이 및 상기 제2 차이에 따라, 상기 제2 훈련될 신경망의 손실을 얻는 단계는,
상기 제1 차이 및 상기 제2 차이에 따라, 카테고리 손실을 얻는 단계; 및
상기 카테고리 손실 및 상기 트리 튜플 손실에 따라, 상기 제2 훈련될 신경망의 손실을 얻는 단계를 포함한다.
상기 실시형태에 있어서, 제1 유사도 및 제2 유사도에 따라 트리 튜플 손실을 얻고, 제2 훈련될 신경망의 훈련 과정에서, 카테고리 손실 및 트리 튜플 손실에 따라 제2 훈련될 신경망의 손실을 결정하여, 제2 훈련될 신경망으로 하여금 훈련 과정에서, 이미지의 카테고리에 대한 구분 능력을 향상시킬 수 있도록 한다.
본 발명의 어느 한 실시형태와 결합하여, 상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제2 이미지 간의 유사도를 결정하여 제1 유사도를 얻고, 상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제3 이미지 간의 유사도를 결정하여 제2 유사도를 얻기 전, 상기 방법은,
제1 이미지의 카테고리 내의 가장 어려운 이미지를 제2 이미지로 결정하고, 제1 이미지의 카테고리 외의 가장 어려운 이미지를 제3 이미지로 결정하는 단계 - 상기 카테고리 내의 가장 어려운 이미지는 카테고리 내의 이미지 세트에서 상기 제1 이미지 간의 유사도가 가장 작은 이미지이고, 상기 카테고리 외의 가장 어려운 이미지는 카테고리 외의 이미지 세트에서 상기 제1 이미지 간의 유사도가 가장 큰 이미지이고, 상기 카테고리 내의 이미지 세트는 라벨이 상기 제1 이미지의 라벨과 동일한 이미지를 포함하고, 상기 카테고리 외의 이미지 세트는 라벨이 상기 제1 이미지의 라벨과 상이한 이미지를 포함함 - ;를 포함한다
전술한 방식을 통해, 동일한 카테고리 내의 이미지 간의 유사도 최소값이 상이한 카테고리 내의 이미지 간의 유사도 최대값에 비해 큼으로써, 임의의 두장의 동일한 카테고리에 속한 이미지 간의 유사도가 임의의 두장의 상이한 카테고리에 속한 이미지 간의 유사도에 비해 크도록 한다.
본 발명의 어느 한 실시 형태와 결합하여, 상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여 제2 결과를 얻기 전, 상기 방법은,
상기 라벨링되지 않은 이미지 세트에 대해 데이터 증강 처리를 진행하여, 증강된 이미지 세트를 얻는 단계를 더 포함한다
상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여, 제2 결과를 얻는 단계는,
상기 제2 훈련될 신경망을 사용하여 상기 증강된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여, 상기 제2 결과를 얻는 단계를 포함한다.
상기 실시형태에 있어서, 라벨링되지 않은 이미지 세트에 대해 데이터 증강 처리를 수행하여, 수집 조건과 라벨링되지 않은 이미지 세트의 수집 조건이 동일한 이미지의 개수를 증가함으로써, 제2 훈련될 신경망의 훈련 효과를 향상시킨다. 이로써, 훈련하여 얻은 이미지 처리 신경망을 사용하여 처리될 이미지에 대해 처리를 진행하는 과정에서, 얻은 처리 결과의 정확도를 향상시킬 수 있다.
본 발명의 어느 한 실시 형태와 결합하여, 상기 데이터 세트 증강 처리는 회전 처리, 소거 처리, 클립핑 처리 및 블러링 처리 중 적어도 하나를 포함한다.
본 발명의 어느 한 실시 형태와 결합하여, 이미지의 상기 수집 조건은 상기 이미지의 이미징 기기의 파라미터를 수집하는 것을 포함한다.
제2 측면에 있어서, 이미지 처리 장치를 제공하고, 상기 장치는,
처리될 이미지를 획득하도록 구성된 획득부;
이미지 처리 신경망을 사용하여 상기 처리될 이미지에 대해 처리를 진행하여, 상기 처리될 이미지의 처리 결과를 얻도록 구성된 처리부 - 상기 이미지 처리 신경망은 라벨링되지 않은 이미지 세트 및 라벨링된 이미지 세트를 훈련 데이터로 사용하여 훈련하여 얻은 것이고, 상기 라벨링되지 않은 이미지 세트의 수집 조건과 상기 처리될 이미지의 수집 조건은 동일하고, 상기 라벨링된 이미지 세트의 수집 조건과 상기 라벨링되지 않은 이미지 세트의 수집 조건은 상이함 - ;를 포함한다.
본 발명의 어느 한 실시형태와 결합하여, 상기 획득부는 또한, 상기 라벨링되지 않은 이미지 세트, 상기 라벨링된 이미지 세트 및 제1 훈련될 신경망을 획득하도록 구성되고;
상기 처리부는 또한, 상기 라벨링된 이미지 세트에 기반하여, 상기 라벨링되지 않은 이미지 세트의 라벨을 얻도록 구성되며;
상기 장치는,
상기 라벨링된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트를 훈련 데이터로 사용하고, 상기 라벨링되지 않은 이미지 세트의 라벨을 상기 라벨링되지 않은 이미지 세트의 감독 정보로 사용하여, 상기 제1 훈련될 신경망에 대해 훈련을 진행하여, 상기 이미지 처리 신경망을 얻도록 구성된 훈련부를 더 포함한다.
본 발명의 어느 한 실시 형태와 결합하여, 상기 처리부는 또한,
상기 라벨링된 이미지 세트를 훈련 데이터로 사용하여, 상기 제1 훈련될 신경망에 대해 훈련을 진행하여, 제2 훈련될 신경망을 얻고;
상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여, 상기 라벨링되지 않은 이미지 세트의 라벨을 얻도록 구성된다.
본 발명의 어느 한 실시형태와 결합하여, 상기 처리부는 또한,
상기 제2 훈련될 신경망을 사용하여 상기 라벨링된 이미지 세트에 대해 처리를 진행하여 제1 결과를 얻고, 상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여 제2 결과를 얻고;
상기 제1 결과와 상기 라벨링된 이미지 세트의 라벨 간의 차이에 따라 제1 차이를 얻고, 상기 제2 결과와 상기 라벨링되지 않은 이미지 세트의 라벨 간의 차이에 따라 제2 차이를 얻고;
상기 제1 차이 및 상기 제2 차이에 따라, 상기 제2 훈련될 신경망의 손실을 얻으며;
상기 제2 훈련될 신경망의 손실에 기반하여, 상기 제2 훈련될 신경망의 파라미터를 조정하여, 상기 이미지 처리 신경망을 얻도록 구성된다.
본 발명의 어느 한 실시형태와 결합하여, 상기 라벨링된 이미지 세트의 라벨 및 상기 라벨링되지 않은 이미지의 라벨은 모두 카테고리 정보를 캐리하고;
상기 장치는, 상기 제1 차이 및 상기 제2 차이에 따라, 상기 제2 훈련될 신경망의 손실을 얻기 전, 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제2 이미지 간의 유사도를 결정하여 제1 유사도를 얻고, 상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제3 이미지 간의 유사도를 결정하여 제2 유사도를 얻도록 구성된 제1 결정부 - 상기 훈련 이미지 세트는 상기 라벨링된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트를 포함하고, 상기 제1 이미지의 카테고리와 상기 제2 이미지의 카테고리는 동일하고, 상기 제1 이미지의 카테고리와 상기 제3 이미지의 카테고리는 상이함 - ; 및
상기 제1 유사도 및 상기 제2 유사도 간의 차이에 따라, 트리 튜플 손실을 얻도록 구성된 제2 결정부를 더 포함하고;
상기 처리부는 또한, 제1 차이 및 상기 제2 차이에 따라, 카테고리 손실을 얻고;
상기 카테고리 손실 및 상기 트리 튜플 손실에 따라, 상기 제2 훈련될 신경망의 손실을 얻도록 구성된다.
본 발명의 어느 한 실시 형태와 결합하여, 상기 장치는,
상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제2 이미지 간의 유사도를 결정하여 제1 유사도를 얻고, 상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제3 이미지 간의 유사도를 결정하여 제2 유사도를 얻기 전, 제1 이미지의 카테고리 내의 가장 어려운 이미지를 제2 이미지로 결정하고, 제1 이미지의 카테고리 외의 가장 어려운 이미지를 제3 이미지로 결정하도록 구성된 제3 결정부 - 상기 카테고리 내의 가장 어려운 이미지는 카테고리 내의 이미지 세트에서 상기 제1 이미지 간의 유사도가 가장 작은 이미지이고, 상기 카테고리 외의 가장 어려운 이미지는 카테고리 외의 이미지 세트에서 상기 제1 이미지 간의 유사도가 가장 큰 이미지이고, 상기 카테고리 내의 이미지 세트는 라벨이 상기 제1 이미지의 라벨과 동일한 이미지를 포함하고, 상기 카테고리 외의 이미지 세트는 라벨이 상기 제1 이미지의 라벨과 상이한 이미지를 포함함 - 를 포함한다.
본 발명의 어느 한 실시 형태와 결합하여, 상기 장치는,
상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여 제2 결과를 얻기 전, 상기 라벨링되지 않은 이미지 세트에 대해 데이터 증강 처리를 진행하여, 증강된 이미지 세트를 얻도록 구성된 데이터 증강 처리부를 더 포함하고;
상기 처리부는 또한,
상기 제2 훈련될 신경망을 사용하여 상기 증강된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여, 상기 제2 결과를 얻도록 구성된다.
본 발명의 어느 한 실시형태와 결합하여, 상기 데이터 세트 증강 처리는 회전 처리, 소거 처리, 클립핑 처리 및 블러링 처리 중 적어도 하나를 포함한다.
본 발명의 어느 한 실시형태와 결합하여, 이미지의 상기 수집 조건은 상기 이미지의 이미징 기기의 파라미터를 수집하는 것을 포함한다.
제3 측면에 있어서, 프로세서를 제공하고, 상기 프로세서는 상기 제1 측면 및 어느 한 가지 구현 가능한 방식과 같은 방법을 실행한다.
제4 측면에 있어서, 프로세서, 송신 장치, 입력 장치, 출력 장치 및 메모리를 포함하는 전자 기기를 더 제공하고, 상기 메모리는 컴퓨터 프로그램 코드를 저장하기 위한 것이며, 상기 컴퓨터 프로그램 코드는 컴퓨터 명령어를 포함하며, 상기 프로세서가 상기 컴퓨터 명령어를 실행할 경우, 상기 전자 기기는 상기 제1 측면 및 어느 하나의 구현 가능한 방식과 같은 방법을 실행한다.
제5 측면에 있어서, 컴퓨터 판독 가능한 저장 매체를 더 제공하고, 상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 프로그램이 저장되어 있으며, 상기 컴퓨터 프로그램은 프로그램 명령어를 포함하고, 상기 프로그램 명령어가 프로세서에 의해 실행될 경우, 상기 프로세서가 상기 제1 측면 및 어느 하나의 구현 가능한 방식과 같은 방법을 실행하도록 한다.
제5 측면에 있어서,컴퓨터 프로그램 제품을 제공하며, 상기 컴퓨터 프로그램 제품은 컴퓨터 프로그램 또는 명령을 포함하고, 상기 컴퓨터 프로그램 또는 명령어가 컴퓨터에서 실행될 경우, 상기 컴퓨터는 전술한 제1 측면 및 임의의 가능한 구현 방법을 실행한다.
이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 다만 예시적이고 해석적인 것이며, 본 발명을 한정하려는 것은 아니다.
본 발명의 실시예 또는 배경 기술에서의 기술방안을 더욱 명확하게 설명하기 위해, 아래에 본 발명의 실시예 또는 배경 기술에서 사용되어야 하는 첨부 도면을 설명한다.
아래의 도면은 명세서에 인용되고 본 명세서의 일부로 구성되며, 이러한 도면은 본 발명에 부합되는 실시예를 도시하여, 명세서와 함께 본 발명의 기술방안을 설명하기 위한 것이다.
도 1은 본 발명의 실시예에서 제공한 이미지 처리 방법의 흐름 예시도이다.
도 2는 본 발명의 실시예에서 제공한 다른 이미지 처리 방법의 흐름 예시도이다.
도 3은 본 발명의 실시예에서 제공한 이미지 처리 장치의 구조 예시도이다.
도 4는 본 발명의 실시예에서 제공한 이미지 처리 장치의 하드웨어 구조 예시도이다.
본 기술 분야의 기술자가 본 발명의 방안을 더 잘 이해할 수 있도록 하기 위해, 아래에 본 발명의 실시예에서의 도면을 결합하여, 본 발명의 실시예에서의 기술 방안을 명확하고 완전하게 설명하며, 설명된 실시예는 본 발명의 실시예 중 일부일 뿐이며, 모든 실시예가 아님은 자명한 것이다. 본 발명의 실시예에 기반하여, 본 분야 일반 기술자가 창조성 노동 없이 얻은 다른 실시예는 전부 본 발명의 보호 범위에 속해야 한다.
본 발명의 명세서 및 청구 범위 및 상기 도면에서 “제1”, “제2” 등 용어는 상이한 대상을 구별하기 위한 것이지, 특정 순서를 설명하기 위한 것은 아니다. 또한, 용어 “포함” 및 “갖는” 및 그것들의 임의의 변형은 비배타적인 포함을 포함하도록 의도된다. 예를 들어, 일련의 단계 또는 유닛이 포함된 과정, 방법, 시스템, 제품 또는 기기는 나열된 단계 또는 유닛에 한정되지 않으며, 선택적으로 나열되지 않은 단계 또는 유닛을 더 포함하거나, 선택적으로 이러한 과정, 방법, 제품 또는 기기에 고유한 다른 단계 또는 유닛을 더 포함한다.
본 명세서에서 “실시예”에 대한 언급은, 실시예와 결합하여 설명된 특정 특징, 구조 또는 특성이 본 발명의 적어도 하나의 실시예에 포함될 수 있음을 의미한다. 명세서에서의 각 위치에서 상기 문구의 출현은 반드시 동일한 실시예를 가리키는 것은 아니며, 다른 실시예와 상호 배타적인 독립적이거나 대안적인 실시예도 아니다. 본 기술 분야의 기술자는 본문에 설명된 실시예가 다른 실시예에 결합될 수 있음을 명백하고 암시적으로 이해한다.
강력한 성능 덕분에, 신경망은 최근 몇 년 동안 이미지 처리 분야에 널리 적용되어, 다양한 작업을 실행하는데 사용된다. 예를 들어, 신경망을 사용하여 이미지 분류 작업을 실행하고, 또 예를 들어, 신경망을 사용하여 이미지 할당 작업을 실행한다. 표현의 편의를 위해, 아래 문장에서는 작업 실행을 응용이라고 지칭하고, 신경망이 작업을 실행하여 처리한 이미지를 응용 이미지라고 지칭한다.
신경망이 응용 과정에서의 표현 효과는 신경망에 대한 훈련 효과에 의해 크게 좌우되고, 신경망의 훈련 효과에 영향을 주는 요소는 많고, 훈련 이미지의 이미지 품질과 응용 이미지의 이미지 품질 간의 차이는 많은 요소 중의 하나이다. 이미지 품질은 이미지 해상도, 이미지 신호 대 잡음비, 이미지 선명도를 포함한다. 훈련 이미지의 이미지 품질과 응용 이미지의 이미지 품질 간의 차이는, 훈련 이미지의 해상도와 응용 이미지의 해상도 간의 차이, 훈련 이미지의 신호 대 잡음비와 응용 이미지의 신호 대 잡음비 간의 차이, 훈련 이미지의 선명도와 응용 이미지의 선명도 간의 차이 중 적어도 하나를 포함한다. 훈련 이미지의 이미지 품질과 응용 이미지의 이미지 품질 간의 차이가 존재하도록 초래한 원인 중 하나는, 훈련 이미지의 수집 조건과 응용 이미지의 수집 조건 간의 차이이다.
본 발명의 실시예에서, 훈련 이미지의 수집 조건과 응용 이미지의 수집 조건(아래 문장에서는 제1 수집 조건이라 지칭함) 간의 차이는, 훈련 이미지를 수집하는 이미징 기기(아래 문장에서는 훈련 이미징 기기라 지칭함)의 파라미터와 응용 이미지를 수집하는 이미징 기기(아래 문장에서는 응용 이미지 기기라 지칭함)의 파라미터 간의 차이, 훈련 이미지를 수집하는 환경과 응용 이미지를 수집하는 환경 간의 차이 중 적어도 하나를 포함한다.
훈련 이미지를 수집하는 이미징 기기의 파라미터와 응용 이미지를 수집하는 이미징 기기의 파라미터 간의 차이는, 훈련 이미징 기기의 하드웨어 구성과 응용 이미지 기기의 하드웨어 구성 간의 차이를 포함한다. 예를 들어, 훈련 기기에 의해 수집된 이미지의 해상도는 1920×1080이고, 응용 기기에 의해 수집된 이미지의 해상도는1280×1024이다. 또 예를 들어, 훈련 기기의 초점 거리 범위는 10밀리미터 내지 22밀리미터이고, 응용 이미지 기기의 초점 거리 범위는 18밀리미터 내지 135밀리미터이다.
수집 이미지의 환경은 수집 이미지의 날씨, 수집 이미지의 시나리오 중 적어도 하나를 포함한다. 예를 들어, 수집 이미지의 날씨는 흐린 날씨일 수 있고, 수집 이미지의 날씨는 비가 오는 날씨일 수도 있으며, 수집 이미지의 날씨는 맑은 날씨 일 수도 있다. 비 오는 날에 수집된 이미지의 환경 및 맑은 날에 수집된 환경은 상이하고, 흐린 날에 수집된 이미지의 환경 및 맑은 날에 수집된 환경은 상이하다. 또 예를 들어, 시나리오는 자동차 내부일 수 있고, 시나리오는 대기실일 수도 있으며, 시나리오는 또한 고속 도로일 수 있고, 자동차 내부의 이미지를 수집하는 시나리오와 대기실의 이미지를 수집하는 시나리오는 상이하고, 고속 도로의 이미지를 수집하는 시나리오와 대기실의 이미지를 수집하는 시나리오는 상이하다.
훈련 이미지를 사용하여 신경망에 대해 훈련을 진행하여, 훈련된 신경망을 얻는다. 훈련된 신경망을 사용하여 작업을 실행하고, 훈련된 신경망을 사용하여 응용 이미지에 대해 처리를 진행하여, 처리 결과를 얻는다. 예를 들어, 이미지 분류 작업을 실행하는 과정에서, 훈련된 신경망을 사용하여 응용 이미지에 대해 처리를 진행하여, 분류 결과를 얻는다. 또 예를 들어, 이미지 분할 작업을 실행하는 과정에서, 훈련된 신경망을 사용하여 응용 이미지에 대해 처리를 진행하여, 분할 결과를 얻는다. 그러나 훈련 이미지와 응용 이미지 간의 차이가 존재할 경우, 상기 처리 결과(분류 결과 및 분할 결과를 포함함)의 정확도가 낮다.
예를 들어, 도시 A의 감시 카메라를 통해 흐린 날에 보행자가 포함된 이미지(아래 문장에서 A영역에서 수집된 이미지라고 지칭함)를 수집하고, A영역에서 수집된 이미지에서의 보행자의 신원에 대해 라벨링을 진행하여 훈련 이미지를 획득한다. 훈련 이미지를 사용하여 신경망a를 훈련하고, 훈련된 신경망a로 하여금 A영역에서 수집된 이미지에서의 보행자의 신원을 식별하는데 사용될 수 있도록 한다. 훈련된 신경망 a를 사용하여 B영역에서 수집된 이미지에서의 보행자의 신원을 식별해야 하고, 훈련 이미지가 모두 흐린 날씨에 수집된 이미지이지만, B영역으로부터 수집된 이미지가 흐린 날에 수집된 이미지, 맑은 날에 수집된 이미지, 비오는 날에 수집된 이미지를 포함하므로, 상이한 날씨에 수집된 이미지의 환경 휘도, 선명도는 상이하고, 환경 휘도 및 선명도의 상이함은 신경망의 식별 정확도에 영향을 주며, 훈련된 신경망 a를 사용하여 맑은 날 또는 비 오는 날에 수집된 이미지에서의 보행자의 신원에 대해 식별을 진행하여, 얻은 식별 결과의 정확도는 낮다. 또한, A영역에서의 감시 카메라의 파라미터 및 B영역에서의 감시 카메라의 파라미터도 상이하므로(예를 들어 촬영 시각, 또 예를 들어 해상도), 이 또한 훈련된 신경망 a가 B영역에서 수집된 이미지에서의 보행자의 신원의 식별 정확도가 낮도록 한다.
처리 결과의 정확도를 향상시키기 위해, 종래 방법은 응용 시나리오 하의 제1 수집 조건 하에서 수집된 이미지를 훈련 이미지로 사용하는 것을 통해, 신경망에 대해 훈련을 진행한다. 그러나 이러한 방법은 제1 수집 조건 하에서 수집된 이미지에 대해 라벨링을 진행해야 하지만, 신경망의 훈련 이미지의 개수가 크므로, 종래 방법은 대량의 인건비가 필요하고, 라벨링 효율이 낮다.
이에 기반하여, 본 발명의 실시예는 기술방안을 제공하여, 인건비를 저하시키고, 라벨링 효율을 향상시키는 전제 하에서, 신경망에 기반하여 얻은 처리 결과의 정확도를 향상시킨다.
본 발명의 실시예의 실행 주체는 이미지 처리 장치일 수 있고, 여기서, 이미지 처리 장치는 휴대폰, 컴퓨터, 서버, 태블릿 컴퓨터 중 하나일 수 있다. 본 출원의 실시예는 또한 프로세서를 통해 컴퓨터 코드를 실행하여 본 출원의 이미지 처리 방법을 구현할 수 있다.
아래 본 발명의 실시예의 도면과 결합하여 본 발명의 실시예에 대해 설명한다.
도 1을 참조하면, 도 1은 본 발명의 실시예에서 제공한 이미지 처리 방법의 흐름 예시도이다.
단계 101에 있어서, 처리될 이미지를 획득한다.
본 발명의 실시예에서, 처리될 이미지는 임의의 콘텐츠를 포함할 수 있다. 예를 들어, 처리될 이미지는 도로를 포함할 수 있다. 또 예를 들어, 처리될 이미지는 도로 및 차량을 포함할 수 있다. 더 예를 들어, 처리될 이미지는 인물을 포함할 수 있다. 본 발명이 처리될 이미지에 대한 콘텐츠는 한정되지 않는다.
처리될 이미지를 획득하는 구현 방식에 있어서, 이미지 처리 장치는 입력 컴포넌트를 통해 사용자에 의해 입력된 처리될 이미지를 수신한다. 상기 입력 컴포넌트는 키보드, 마우스, 터치 스크린, 터치 패드 및 오디오 입력 장치 등을 포함한다.
처리될 이미지를 획득하는 다른 구현 방식에 있어서, 이미지 처리 장치는 제1 단말에 의해 송신된 처리될 이미지를 수신한다. 여기서, 제1 단말은 휴대폰, 컴퓨터, 태블릿 컴퓨터, 서버, 웨어러블 기기 중 어느 하나일 수 있다.
처리될 이미지를 획득하는 또 다른 구현 방식에 있어서, 이미지 처리 장치는 카메라와 같은 자체의 이미지 수집 컴포넌트를 통해 처리될 이미지를 직접 수집하여 얻을 수 있다.
단계 102에 있어서, 이미지 처리 신경망을 사용하여 상기 처리될 이미지에 대해 처리를 진행하여, 상기 처리될 이미지의 처리 결과를 얻는다.
본 발명의 실시예에서, 이미지 처리 신경망은 라벨링되지 않은 이미지 세트 및 라벨링된 이미지 세트를 훈련 데이터로 사용하여 훈련하여 얻은 것이고, 여기서, 라벨링되지 않은 이미지 세트의 수집 조건과 처리될 이미지의 수집 조건(아래 문장에서는 제2 수집 조건이라고 지칭함)은 동일하고, 라벨링된 이미지 세트의 수집 조건(아래 문장에서는 제3 수집 조건이라고 지칭함)과 라벨링되지 않은 이미지 세트의 수집 조건은 상이하다.
예를 들어, 처리될 이미지는 대기실에서 수집된 영상이고, 라벨링되지 않은 이미지 세트에서의 이미지도 대기실에서 수집된 영상이고, 라벨링된 이미지 세트에서의 이미지는 대기실이 아닌 곳에서 수집된 영상이다. 또 예를 들어, 처리될 이미지는 카메라A가 수집한 영상이고, 라벨링되지 않은 이미지 세트에서의 이미지도 카메라A가 수집한 영상이고, 라벨링된 이미지 세트에서의 이미지는 카메라B가 수집한 영상이다.
본 발명의 실시예에서, 라벨링된 이미지 세트에서의 이미지는 모두 라벨을 캐리한다. 예를 들어, 이미지 처리망을 사용하여 실행하는 이미지 분류 작업은, 이미지에 포함된 콘텐츠가 사과, 바나나, 배, 복숭아, 오렌지, 수박 중 하나인 것을 판단하면, 라벨링된 이미지 세트의 이미지 라벨에는 사과, 바나나, 배, 복숭아, 오렌지, 수박중 하나가 포함된다. 또 예를 들어, 이미지 처리망을 사용하여 수행하는 작업은 보행자 재인식이고, 즉 이미지에 포함된 인물의 신원을 식별하는 것이면, 라벨링된 이미지 세트의 이미지 라벨에는 인물의 신원 (예를 들어 Zhang San, Li Si, Wang Wu, Zhou Sixth class등)이 포함된다. 더 예를 들어, 이미지 처리망을 사용하여 실행하는 작업이 인물에 의해 커버된 픽셀 영역을 이미지로부터 분할하는 것이면, 라벨링된 이미지 세트에서의 이미지 라벨은 인물 윤곽을 포함하고, 상기 인물 윤곽으로 둘러싸인 픽셀 영역은 인물에 의해 커버된 픽셀 영역이다.
라벨링되지 않은 이미지 세트 및 라벨링된 이미지 세트를 훈련 데이터로 사용하여 신경망에 대해 훈련을 진행하는 과정에서, 라벨링된 이미지 세트에 기반하여 라벨링되지 않은 이미지 세트의 라벨을 결정할 수 있음으로써, 라벨링된 이미지 세트, 라벨링되지 않은 이미지 세트, 라벨링되지 않은 이미지 세트의 라벨을 사용하여 신경망에 대해 훈련을 진행할 수 있고, 이로써, 훈련된 신경망을 사용하여 제2 수집 조건 하에서 수집된 이미지에 대해 처리를 진행하는 과정에서, 얻은 처리 결과의 정확도를 향상시킬 수 있다.
예를 들어, 라벨링된 이미지 세트에서의 이미지는 모두 대기실에서 수집된 영상이고, 처리될 이미지 및 라벨링되지 않은 이미지 세트에서의 이미지는 모두 자동차 내부에서 수집된 영상이다. 라벨링되지 않은 이미지 세트에서의 이미지가 모두 라벨을 캐리하지 않았으므로, 라벨링되지 않은 이미지 세트를 사용하여 신경망에 대해 훈련을 진행할 수 없고, 대기실 내의 환경과 차량 내부의 환경은 상이하므로(예를 들어 대기실 내의 광선과 차량 내부의 광선은 상이하고, 또 예를 들어, 대기실 내의 물체와 차량 내부의 물체는 상이함), 라벨링된 이미지 세트만을 사용하여 신경망에 대해 훈련을 진행하면, 신경망으로 하여금 훈련을 통해 차량 내부의 환경의 정보를 학습하지 못하도록 함으로써, 훈련된 신경망을 사용하여 처리될 이미지에 대해 처리를 진행하는 과정에서, 얻은 처리 결과의 정확도가 낮도록 한다. 본 발명의 실시예에서, 라벨링된 이미지 세트 및 라벨링되지 않은 이미지 세트를 훈련 데이터로 사용하여, 라벨링된 이미지 세트에 기반하여 라벨링되지 않은 이미지 세트의 라벨을 결정할 수 있음으로써, 라벨링되지 않은 이미지 세트 및 라벨링되지 않은 이미지 세트의 라벨을 훈련 데이터로 사용하여 신경망에 대해 훈련을 진행할 수 있고, 이로써, 신경망이 훈련 과정에서 차량 내부의 환경의 정보를 학습할 수 있음으로써, 처리 결과의 정확도를 향상시킨다.
라벨링된 이미지 세트에 기반하여 라벨링되지 않은 이미지 세트의 라벨을 결정하는 구현 방식에 있어서(아래 문장에서는 제1 구현 방식이라고 지칭함), 라벨링된 이미지 세트를 훈련 데이터로 사용하여, 신경망에 대해 훈련을 진행하여, 훈련된 신경망을 얻는다. 훈련된 신경망을 사용하여 라벨링되지 않은 이미지에 대해 처리를 진행하여, 라벨링되지 않은 이미지 세트의 라벨을 얻는다. 라벨링된 이미지 세트, 라벨링되지 않은 이미지 세트, 라벨링되지 않은 이미지 세트의 라벨을 사용하여 훈련된 신경망에 대해 훈련을 진행하여, 이미지 처리 신경망을 얻는다. 예를 들어, 라벨링된 이미지 세트는 이미지a를 포함하고, 라벨링되지 않은 이미지 세트는 이미지b를 포함하고, 여기서, 이미지a의 라벨은A이다. 신경망을 사용하여 이미지a에 대해 처리를 진행하여, 제1 처리 결과를 얻는다. 제1 처리 결과와 A 간의 차이에 따라, 제1 중간 손실을 얻는다. 제1 중간 손실에 기반하여 신경망의 파라미터를 조정하여, 훈련된 신경망을 얻는다. 훈련된 신경망을 사용하여 이미지b에 대해 처리를 진행하여, 제2 처리 결과를 얻고, 이미지b의 라벨로 사용한다.
라벨링된 이미지 세트에 기반하여 라벨링되지 않은 이미지 세트의 라벨을 결정하는 다른 구현 방식에 있어서(아래 문장에서는 제2 구현 방식이라고 지칭함), 라벨링된 이미지 세트에 대해 특징 추출 처리를 진행하여, 제1 중간 특징 데이터 세트를 얻는다. 제1 중간 특징 데이터 세트를 훈련 데이터로 사용하여, 라벨링된 이미지 세트의 라벨을 제1 중간 특징 데이터 세트의 감독 정보로 사용하고, 서포트 벡터 머신(support vetor machine, SVM)에 대해 훈련을 진행하여, 훈련된 SVM을 얻는다. 라벨링되지 않은 이미지 세트에 대해 특징 추출 처리를 진행하여, 제2 중간 특징 데이터 세트를 얻는다. 훈련된 SVM을 사용하여 제2 중간 특징 데이터 세트에 대해 처리를 진행하여, 제2 중간 특징 데이터 세트의 라벨을 얻고, 라벨링되지 않은 이미지 세트의 라벨로 사용한다. 예를 들어, 라벨링된 이미지 세트는 이미지a 및 이미지b를 포함하고, 라벨링되지 않은 이미지 세트는 이미지c를 포함하고, 여기서, 이미지a의 라벨은 A이고, 이미지b의 라벨은 B이다. 이미지a에 대해 특징 추출 처리를 진행하여, 이미지a의 특징 데이터를 얻고, 이미지b에 대해 특징 추출 처리를 진행하여, 이미지b의 특징 데이터를 얻는다. 이미지a의 특징 데이터 및 이미지b의 특징 데이터를 사용하여 SVM에 대해 훈련을 진행하여, 훈련된 SVM을 얻는다. 이미지c에 대해 특징 추출 처리를 진행하여, 이미지c의 특징 데이터를 얻는다. 훈련된 SVM을 사용하여 이미지c에 대해 처리를 진행하여, 타깃 처리 결과를 얻고, 이미지c의 라벨로 사용한다.
라벨링된 이미지 세트에 기반하여 라벨링되지 않은 이미지 세트의 라벨을 결정하는 또 다른 구현 방식에 있어서(아래 문장에서는 제3 구현 방식이라고 지칭함), 라벨링되지 않은 이미지 세트에 대해 클러스터링 처리를 진행하여, 적어도 하나의 클러스터를 얻고, 여기서, 각 클러스터는 적어도 한장의 이미지를 포함한다. 라벨에 따라 라벨링된 이미지 세트를 할당하여, 적어도 하나의 이미지 세트를 얻고, 여기서, 각 이미지 세트는 적어도 한장의 이미지를 포함하고, 각 이미지 세트에서의 이미지의 라벨은 동일하다. 각 클러스터 간의 유사도가 가장 큰 이미지 세트를 각각 결정하고, 최대 유사도 이미지 세트로 사용한다. 최대 유사도 이미지 세트의 라벨을 클러스터의 라벨로 사용하고, 즉 클러스터에서 데이터의 라벨로 사용한다. 예를 들어, 라벨링된 이미지 세트는 이미지a, 이미지b, 이미지c를 포함하고, 라벨링되지 않은 이미지 세트는 이미지d, 이미지e, 이미지f를 포함하고, 여기서, 이미지a의 라벨 및 이미지b의 라벨은 모두 A이고, 이미지c의 라벨은 B이다. 라벨링되지 않은 이미지 세트에 대해 클러스터링 처리를 진행하여, 제1 클러스터 및 제2 클러스터를 얻고, 여기서, 제1 클러스터는 이미지d 및 이미지e를 포함하고, 제2 클러스터는 이미지f를 포함한다. 라벨에 따라 라벨링된 이미지 세트를 할당하여, 제1 이미지 세트 및 제2 이미지 세트를 얻고, 여기서, 제1 이미지 세트는 이미지a 및 이미지b를 포함하고, 제2 이미지 세트는 이미지c를 포함하고, 제1 이미지 세트의 라벨은 A이고, 제2 이미지 세트의 라벨은 B이다. 제1 클러스터와 제1 이미지 세트 간의 유사도를 s1로 결정하고, 제1 클러스터와 제2 이미지 세트 간의 유사도를 s2로 결정하고, 제2 클러스터와 제1 이미지 세트 간의 유사도를 s3으로 결정하고, 제2 클러스터와 제2 이미지 세트 간의 유사도를 s4로 결정한다. s1이 s2보다 큰 경우, 제1 클러스터의 최대 유사도 세트는 제1 이미지 세트이고, 제1 클러스터의 라벨은 A이므로, 이미지d의 라벨 및 이미지e의 라벨이 모두 A인 것을 결정할 수 있다. s1이 s2보다 작을 경우, 제1 클러스터의 최대 유사도 세트는 제2 이미지 세트이고, 제1 클러스터의 라벨은 B이므로, 이미지d의 라벨 및 이미지e의 라벨이 모두 B인 것을 결정할 수 있다. s3이 s4보다 큰 경우, 제2 클러스터의 최대 유사도 세트는 제1 이미지 세트이고, 제2 클러스터의 라벨은 A이므로, 이미지f의 라벨이 A인 것을 결정할 수 있다. s3이 s4보다 작을 경우, 제2 클러스터의 최대 유사도 세트는 제2 이미지 세트이고, 제2 클러스터의 라벨은 B이므로, 이미지f의 라벨이 B인 것을 결정할 수 있다.
제1 클러스터 및 제1 이미지 세트 간의 유사도를 결정하는 구현 방식에 있어서, 제1 클러스터의 질량의 중심을 이미지A라고 할 때, 제1 이미지 세트의 질량의 중심은 이미지B이다. 이미지A 및 이미지B 간의 유사도를 결정하고, 제1 클러스터 및 제1 이미지 세트 간의 유사도로 사용한다.
제1 클러스터 및 제1 이미지 세트 간의 유사도를 결정하는 다른 구현 방식에 있어서, 제1 클러스터에서의 이미지와 제1 이미지 세트 클러스터에서의 각 이미지 간의 유사도를 각각 결정하여, 유사도 세트를 얻는다. 유사도 세트에서의 최대값을 제1 클러스터 및 제1 이미지 세트 간의 유사도로 사용한다.
제1 클러스터 및 제1 이미지 세트 간의 유사도를 결정하는 또 다른 구현 방식에 있어서, 제1 클러스터에서의 각 이미지와 제1 이미지 세트 클러스터에서의 각 이미지 간의 유사도를 각각 결정하여, 유사도 세트를 얻는다. 유사도 세트에서의 최소값 또는 평균값을 제1 클러스터 및 제1 이미지 세트 간의 유사도로 사용한다.
마찬가지로, 제1 클러스터 및 제1 이미지 세트 간의 유사도를 결정하는 구현 방식을 통해, 제1 클러스터 및 제2 이미지 세트 간의 유사도, 제2 클러스터 및 제1 이미지 세트 간의 유사도, 제2 클러스터 및 제2 이미지 세트 간의 유사도를 결정할 수 있다.
본 발명의 실시예에 있어서, 라벨링되지 않은 이미지 세트 및 라벨링된 이미지 세트를 훈련 데이터로 사용하여 신경망에 대해 훈련을 진행하여, 라벨링된 이미지 세트에 기반하여 라벨링되지 않은 이미지 세트의 라벨을 결정할 수 있음으로써, 라벨링되지 않은 이미지 세트에 대해 라벨링을 진행하는 인건비를 저하시킬 수 있고, 라벨링 효율을 향상시킬 수 있다. 라벨링된 이미지 세트, 라벨링되지 않은 이미지 세트, 라벨링되지 않은 이미지 세트의 라벨을 사용하여 신경망에 대해 훈련을 진행하여, 신경망으로 하여금 훈련 과정에서 제2 수집 조건의 정보를 학습할 수 있도록 함으로써, 훈련을 사용하여 얻은 이미지 처리 신경망이 처리될 이미지에 대해 처리를 진행하는 과정에서, 얻은 처리 결과의 정확도를 향상시킬 수 있다.
도 2를 참조하면, 도 2는 본 발명의 실시예에서 제공한 신경망 훈련 방법의 흐름 예시도이다. 본 발명의 실행 주체는 이미지 처리 장치일 수 있고, 이미지 처리 장치가 아닐 수도 있으며, 이미지 처리 신경망의 훈려 방법의 실행 주체와 이미지 처리망을 사용하여 처리될 이미지에 대해 처릴 진행하는 주체는 동일할 수 있고, 상이할 수도 있으며, 본 발명의 실시예는 본 실시예의 실행 주체에 대해 한정하지 않는다. 표현의 편의를 위해, 아래 문장에서는 본 실시예의 실행 주체를 훈련 장치라 지칭하고, 여기서, 훈련 장치는 휴대 전화, 컴퓨터, 태블릿, 서버, 프로세서 중 하나일 수 있다.
단계 201에 있어서, 라벨링되지 않은 이미지 세트, 라벨링된 이미지 세트 및 제1 훈련될 신경망을 획득한다.
훈련 장치가 라벨링되지 않은 이미지 세트를 획득하는 구현 방식에 있어서, 단계 101에서 이미지 처리 장치가 라벨링되지 않은 이미지 세트를 획득하는 구현 방식을 참조할 수 있고, 훈련 장치가 라벨링된 이미지 세트를 획득하는 구현 방식은, 단계 101에서 이미지 처리 장치가 라벨링된 이미지 세트를 획득하는 구현 방식을 참조할 수 있으며, 이에 대해 더이상 반복하여 설명하지 않는다.
본 발명의 실시예에 있어서, 제1 훈련될 신경망은 임의의 신경망이다. 예를 들어, 제1 훈련될 신경망은 컨볼루션 계층, 풀링 계층, 정규화 계층, 완전 연결 계층, 다운 샘플링 계층, 업 샘플링 계층 및 분류기 중 적어도 하나의 네트워크 계층에 의해 오버랩되어 구성될 수 있다. 본 발명의 실시예에 있어서, 제1 훈련될 신경망의 구조에 대해 한정하지 않는다.
제1 훈련될 신경망을 획득하는 구현 방식에 있어서, 훈련 장치는 입력 컴포넌트를 통해 사용자에 의해 입력된 제1 훈련될 신경망을 수신한다. 상기 입력 컴포넌트는 키보드, 마우스, 터치 스크린, 터치 패드 및 오디오 입력 장치 등을 포함한다.
제1 훈련될 신경망을 획득하는 다른 구현 방식에 있어서, 훈련 장치는 제2 단말이 송신한 제1 훈련될 신경망을 수신한다. 여기서, 제2 단말은 휴대폰, 컴퓨터, 태블릿 컴퓨터, 서버, 웨어러블 디바이스 중 어느 하나일 수 있다.
제1 훈련될 신경망을 획득하는 또 다른 구현 방식에 있어서, 훈련 장치는 자체의 저장 부재로부터 미리 저장된 제1 훈련될 신경망을 획득할 수 있다.
단계 202에 있어서, 상기 라벨링된 이미지 세트에 기반하여, 상기 라벨링되지 않은 이미지 세트의 라벨을 얻는다.
단계 102에서 전술한 바와 같이, 라벨링된 이미지 세트에 기반하여, 라벨링되지 않은 이미지 세트의 라벨을 얻을 수 있다. 본 단계에서는 단계 102에서의 첫 번째 구현 방식을 사용하여, 라벨링된 이미지 세트를 훈련 데이터로 사용하여, 상기 제1 훈련될 신경망에 대해 훈련을 진행하여, 제2 훈련될 신경망을 얻는다. 제2 훈련될 신경망을 사용하여 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여, 라벨링되지 않은 이미지 세트의 라벨을 얻는다.
단계 203에 있어서,상기 라벨링된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트를 훈련 데이터로 사용하고, 상기 라벨링되지 않은 이미지 세트의 라벨을 상기 라벨링되지 않은 이미지 세트의 감독 정보로 사용하여, 상기 제1 훈련될 신경망에 대해 훈련을 진행하여, 상기 이미지 처리 신경망을 얻는다.
라벨링되지 않은 이미지 세트의 라벨을 얻은 후, 라벨링되지 않은 이미지 세트를 훈련 데이터로 사용하여 제1 훈련될 신경망에 대해 훈련을 진행할 수 있다.
신경망의 훈련 효과에 영향을 주는 요소는 훈련 데이터의 개수를 더 포함하므로, 여기서, 훈련 데이터의 개수가 많을수록, 신경망의 훈련 효과가 더욱 좋다. 따라서 본 발명의 실시예에 있어서, 제1 훈련될 신경망에 대해 훈련을 진행하는 과정에서, 라벨링된 이미지 세트 및 라벨링되지 않은 이미지 세트를 훈련 데이터로 사용하고, 라벨링되지 않은 이미지 세트의 라벨을 라벨링되지 않은 이미지 세트의 감독 정보로 사용하여, 제1 훈련될 신경망에 대해 훈련을 진행하여, 훈련 효과를 향상시킨다. 이로써, 훈련하여 얻은 이미지 처리 신경망을 사용하여 처리될 이미지에 대해 처리를 진행하는 과정에서, 얻은 처리 결과의 정확도를 향상시킬 수 있다.
예를 들어, 라벨링된 이미지 세트는 이미지a를 포함하고, 라벨링되지 않은 이미지 세트는 이미지b를 포함하고, 여기서, 이미지a의 라벨은 A이고, 단계 202의 처리를 통해 이미지b의 라벨이 B인 것을 결정한다. 제1 훈련될 신경망을 사용하여 이미지a에 대해 처리를 진행하여, 제1 중간 결과를 얻는다. 제1 중간 결과와 A 간의 차이를 결정하여, 제1 중간 차이를 얻는다. 제1 중간 차이에 기반하여, 제1 훈련될 신경망의 손실을 결정하고, 제1 훈련될 신경망의 손실에 기반하여 제1 훈련될 신경망의 파라미터값을 조정하여, 제3 훈련될 신경망을 얻는다. 제3 훈련될 신경망을 사용하여 이미지b에 대해 처리를 진행하여, 제2 중간 결과를 얻는다. 제1 중간 결과와 B 간의 차이를 결정하여, 제2 중간 차이를 얻는다. 제2 중간 차이에 기반하여, 제3 훈련될 신경망의 손실을 결정하고, 제3 훈련될 신경망의 손실에 기반하여 제3 훈련될 신경망의 파라미터를 조정하여, 이미지 처리 신경망을 얻는다.
신경망의 훈련 효과에 영향을 주는 요소는 훈련 주기 수를 더 포함하므로, 여기서, 훈련 주기 수가 많을수록, 신경망의 훈련 효과가 더욱 좋다. 여기서, 제1 훈련될 신경망을 사용하여 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여, 라벨링되지 않은 이미지 세트의 라벨을 얻은 후, 라벨링된 이미지 세트 및 라벨링되지 않은 이미지 세트를 훈련 데이터로 사용하고, 라벨링되지 않은 이미지 세트의 라벨을 라벨링되지 않은 이미지 세트의 감독 정보로 사용하여, 제2 훈련될 신경망에 대해 훈련을 진행하여, 훈련 주기 수를 증가하여, 훈련 효과를 향상시킴으로써, 훈련하여 얻은 이미지 처리 신경망이 처리될 이미지에 대해 처리를 진행하여 얻은 처리 결과의 정확도를 향상시킨다.
신경망의 훈련 과정에서, 신경망이 모든 훈련 데이터를 처리 완료하면, 하나의 훈련 주기를 완료한다. 예를 들어, 훈련 데이터는 이미지a, 이미지b를 포함한다. 훈련 과정에서의 첫 번째 반복에서, 신경망이 이미지 a에 대해 처리를 진행하여, 이미지a의 결과를 얻는다. 이미지a의 결과 및 이미지a의 라벨에 기반하여, 신경망의 손실을 얻고, 신경망의 손실에 기반하여, 신경망의 파라미터를 조정하여, 첫 번째 반복 이후의 신경망을 얻는다. 두 번째 반복에서, 첫 번째 반복 이후의 신경망이 이미지b에 대해 처리를 진행하여, 이미지b의 결과를 얻는다. 이미지b의 결과 및 이미지b의 라벨에 기반하여, 첫 번째 반복 이후의 신경망의 손실을 얻고, 첫 번째 반복 이후의 신경망의 손실에 기반하여, 첫 번째 반복 이후의 신경망의 파라미터를 조정하여, 두 번째 반복 이후의 신경망을 얻는다. 세 번째 반복에서, 두 번째 반복 이후의 신경망이 이미지a에 대해 처리를 진행하여, 이미지a의 결과를 얻는다. 이미지a의 결과 및 이미지a의 라벨에 기반하여, 두 번째 반복 이후의 신경망의 손실을 얻고, 두 번째 반복 이후의 신경망의 손실에 기반하여, 두 번째 반복 이후의 신경망의 파라미터를 조정하여, 세 번째 반복 이후의 신경망을 얻는다. 여기서, 첫 번째 훈련 주기는 첫 번째 반복 및 두 번째 반복을 포함하고, 세 번째 반복은 두 번째 훈련 주기에 속한다.
한 가지 가능한 실시형태에 있어서, 제2 훈련될 신경망을 사용하여 라벨링된 이미지 세트에 대해 처리를 진행하여 제1 결과를 얻고, 제2 훈련될 신경망을 사용하여 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여 제2 결과를 얻는다. 제1 결과와 라벨링된 이미지 세트의 라벨 간의 차이에 따라 제1 차이를 얻고, 제2 결과와 라벨링되지 않은 이미지 세트의 라벨 간의 차이에 따라 제2 차이를 얻는다. 제1 차이 및 제2 차이에 따라, 제2 훈련될 신경망의 손실을 얻는다. 제2 훈련될 신경망이 라벨링된 이미지 세트를 사용하여 제1 훈련될 신경망에 대해 훈련을 진행하는 것을 통해 얻은 것이므로, 다시 말해, 제2 훈련될 신경망의 훈련된 주기 수는 제1 훈련될 신경망의 훈련된 주기 수보다 크다. 따라서, 라벨링되지 않은 이미지 세트의 라벨을 얻은 후, 라벨링된 이미지 세트 및 라벨링되지 않은 이미지 세트를 훈련 데이터로 사용하고, 라벨링되지 않은 이미지 세트의 감독 정보를 사용하여 제2 훈련될 신경망에 대해 훈련을 진행하는 효과는, 라벨링된 이미지 세트 및 라벨링되지 않은 이미지 세트를 사용하여 훈련 데이터로 사용하고, 라벨링되지 않은 이미지 세트의 감독 정보를 사용하여 제1 훈련될 신경망에 대해 훈련을 진행하는 효과에 비해 좋다.
제1 차이 및 제2 차이에 따라 제2 훈련될 신경망의 손실을 얻는 구현 방식에 있어서, 제1 차이에 따라, 제2 훈련될 신경망의 첫 번째 반복 손실을 결정하고, 첫 번째 반복 손실에 기반하여 제2 훈련될 신경망의 파라미터를 조정하여, 첫 번째 반복 이후의 제2 훈련될 신경망을 얻는다. 제2 차이에 따라, 제2 훈련될 신경망의 두 번째 반복 손실을 결정하고, 두 번째 반복 손실에 기반하여 첫 번째 반복 이후의 제2 훈련될 신경망의 파라미터를 조정하여, 이미지 처리 신경망을 얻는다.
제1 차이 및 제2 차이에 따라 제2 훈련될 신경망의 손실을 얻는 다른 구현 방식에 있어서, 제1 차이 및 제2 차이에 대해 가중 합산을 진행할 수 있고, 또는 가중 합산 후 상수를 추가하는 등 방식으로 제2 훈련될 신경망의 손실을 얻을 수 있다. 예를 들어, 라벨링되지 않은 이미지 세트의 수집 조건과 처리될 이미지의 수집 조건은 동일하므로, 제2 차이의 가중이 제1 차이의 가중보다 크도록 하여, 이미지 처리 신경망으로 하여금 훈련을 통해 더욱 많은 제2 수집 조건의 정보를 학습하도록 함으로써, 훈련된 신경망을 사용하여 처리될 이미지에 대해 처리를 진행하는 과정에서, 얻은 처리 결과의 정확도를 향상시킬 수 있다.
카테고리가 동일한 이미지 간의 유사도가 카테고리가 상이한 이미지 간의 유사도보다 커야 하므로, 이미지에 대해 분류 처리를 진행하는 과정에서, 유사도가 작은 두장의 이미지의 라벨이 동일한 것으로 결정하고, 유사도가 큰 두장의 이미지의 라벨이 상이한 것으로 결정하면, 처리 결과의 정확도를 저하시킨다. 예를 들어, 이미지a와 이미지b 간의 유사도는
Figure pct00001
이고, 이미지a와 이미지c 간의 유사도는
Figure pct00002
이고,
Figure pct00003
Figure pct00004
보다 작다. 신경망이 이미지a, 이미지b, 이미지c에 대해 처리를 진행하는 과정에서, 이미지a의 라벨과 이미지b의 라벨이 동일한 것으로 결정하고, 이미지a의 라벨과 이미지c의 라벨이 상이한 것으로 결정하면, 얻은 처리 결과는 잘못된 것이다.
처리 결과의 정확도를 추가로 향상시키기 위해, 한 가지 가능한 실시형태에 있어서, “제1 차이 및 상기 제2 차이에 따라, 제2 훈련될 신경망의 손실을 얻는”단계를 실행하기 전, 아래 단계를 실행할 수 있다.
단계 21에 있어서, 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제2 이미지 간의 유사도를 결정하여 제1 유사도를 얻고, 상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제3 이미지 간의 유사도를 결정하여 제2 유사도를 얻는다.
본 단계에서, 훈련 이미지 세트는 라벨링된 이미지 세트 및 라벨링되지 않은 이미지 세트를 포함한다. 제1 이미지의 라벨과 제2 이미지의 라벨은 동일하고, 즉 제1 이미지의 카테고리와 제2 이미지의 카테고리는 동일하다. 제1 이미지의 라벨과 제3 이미지의 라벨은 상이하고, 즉 제1 이미지의 카테고리와 제3 이미지의 카테고리는 상이하다. 제1 이미지 및 제2 이미지 간의 유사도를 결정하여, 제1 유사도로 사용한다. 제1 이미지와 제2 이미지 간의 유사도를 결정하여, 제2 유사도로 사용한다.
본 발명의 실시예에 있어서, 두장의 이미지 간의 유사도는, 두장의 이미지 간의 유클리드 거리(euclidean distance), 두장의 이미지 간의 코사인 유사도, 두장의 이미지 간의 마할라노비스 거리(mahalanobis distance), 두장의 이미지 간의 피어슨 상관 계수(pearson correlation coefficient), 두장의 이미지 간의 해밍거리(hamming distance) 중의 하나일 수 있다.
단계 22에 있어서, 제1 유사도 및 제2 유사도 간의 차이에 따라, 트리 튜플 손실을 얻는다.
제1 유사도는 동일한 카테고리의 이미지 간의 유사도이고, 제2 유사도는 상이한 카테고리의 이미지 간의 유사도이므로, 제1 유사도는 제2 유사도보다 클 것이다. 따라서 제1 유사도와 제2 유사도 간의 차이에 따라, 트리 튜플 손실을 얻을 수 있다.
한 가지 가능한 실시형태에 있어서, 제1 유사도가
Figure pct00005
이고, 제2 유사도가
Figure pct00006
이며, 트리 튜플 손실이
Figure pct00007
인 것으로 가정하면,
Figure pct00008
,
Figure pct00009
,
Figure pct00010
는 아래의 공식(1)을 만족한다.
Figure pct00011
공식(1)
여기서, m은 정수이다.
다른 한 가지 가능한 실시형태에 있어서, 제1 유사도가
Figure pct00012
이고, 제2 유사도가
Figure pct00013
이며, 트리 튜플 손실이
Figure pct00014
인 것으로 가정하면,
Figure pct00015
,
Figure pct00016
,
Figure pct00017
는 아래의 공식 (2)를 만족한다.
Figure pct00018
공식(2)
여기서, k 및 n은 모두 정수이다.
또 다른 한 가지 가능한 실시형태에 있어서, 제1 유사도가
Figure pct00019
이고, 제2 유사도가
Figure pct00020
이며, 트리 튜플 손실이
Figure pct00021
인 것으로 가정하면,
Figure pct00022
,
Figure pct00023
,
Figure pct00024
는 아래의 공식 (3)을 만족한다.
Figure pct00025
공식(3)
여기서, k 및 n은 모두 정수이다.
단계 23에 있어서, “제1 차이 및 제2 차이에 따라, 제2 훈련될 신경망의 손실을 얻는”단계는 아래의 단계를 포함한다.
단계 1에 있어서, 제1 차이 및 제2 차이에 따라, 카테고리 손실을 얻는다.
본 발명의 구현 과정은 단계 203에서 “제1 차이 및 제2 차이에 따라, 제2 훈련될 신경망의 손실을 얻는”단계의 구현 과정을 참조할 수 있다. 이해해야 할 것은, 본 단계에서, 제1 차이 및 제2 차이에 따라, 얻은 손실은 제2 훈련될 신경망의 손실이 아니라, 카테고리 손실이다.
단계 2에 있어서, 카테고리 손실 및 트리 튜플 손실에 따라, 제2 훈련될 신경망의 손실을 얻는다.
한 가지 가능한 실시형태에 있어서, 제2 훈련될 신경망의 손실이 L이고, 카테고리 손실이
Figure pct00026
이며, 트리 튜플 손실이
Figure pct00027
인 것으로 가정하면, L,
Figure pct00028
,
Figure pct00029
는 아래의 공식 (4)를 만족한다.
Figure pct00030
공식(4)
여기서,
Figure pct00031
Figure pct00032
는 모두 1보다 작거나 같은 정수이다.
다른 한 가지 가능한 실시형태에 있어서, 제2 훈련될 신경망의 손실이 L이고, 카테고리 손실이
Figure pct00033
이며, 트리 튜플 손실이
Figure pct00034
인 것으로 가정하면, L,
Figure pct00035
,
Figure pct00036
는 아래의 공식 (5)를 만족한다.
Figure pct00037
공식(5)
여기서,
Figure pct00038
Figure pct00039
는 모두 1보다 작거나 같은 정수이다.
또 다른 한 가지 가능한 실시형태에 있어서, 제2 훈련될 신경망의 손실이 L이고, 카테고리 손실이
Figure pct00040
이며, 트리 튜플 손실이
Figure pct00041
인 것으로 가정하면, L,
Figure pct00042
,
Figure pct00043
는 아래의 공식 (6)을 만족한다.
Figure pct00044
공식(6)
여기서,
Figure pct00045
Figure pct00046
는 모두 1보다 작거나 같은 정수이다.
동일한 카테고리에 속한 이미지에서, 상이한 이미지 간의 유사도도 상이하므로, 제1 이미지 및 제2 이미지를 통해 제1 유사도를 결정하고, 제1 이미지 및 제3 이미지를 통해 제2 유사도를 결정하며, 제1 유사도로 하여금 제2 유사도보다 크도록 하면, 오차가 존재할 수 있다. 예를 들어, 훈련 이미지 세트는 이미지a, 이미지b, 이미지c, 이미지d, 이미지e를 포함하고, 여기서, 이미지a의 카테고리, 이미지b의 카테고리, 이미지e의 카테고리는 모두 A이고, 이미지c의 카테고리 및 이미지d의 카테고리는 모두 B이다. 이미지a와 이미지b 간의 유사도는
Figure pct00047
이고, 이미지a와 이미지c 간의 유사도는
Figure pct00048
이고, 이미지a와 이미지d 간의 유사도는
Figure pct00049
이며, 이미지a와 이미지e 간의 유사도는
Figure pct00050
이다. 이미지a가 제1 이미지이고, 이미지b가 제2 이미지이며, 이미지c가 제3 이미지일 경우,
Figure pct00051
은 제1 유사도이고,
Figure pct00052
는 제2 유사도이다. 신경망에 대해 훈련을 진행하는 것을 통해,
Figure pct00053
로 하여금
Figure pct00054
보다 크도록 할 수 있지만,
Figure pct00055
Figure pct00056
보다 크고,
Figure pct00057
Figure pct00058
보다 크며,
Figure pct00059
보다
Figure pct00060
이 크도록 보장할 수가 업다. 자명한 것은,
Figure pct00061
Figure pct00062
보다 작고,
Figure pct00063
Figure pct00064
보다 작으며,
Figure pct00065
Figure pct00066
보다 작은 것은 모두 잘못된 결과이다.
상기 잘못된 결과가 존재하면, 신경망의 훈련의 질량이 떨어짐으로써, 처리 결과의 정확도가 저하된다. 본 발명의 실시예에서는 제1 이미지, 제2 이미지, 제3 이미지를 결정하는 구현 방식을 제공하여, 상기 잘못된 결과가 발생할 확률을 감소시킴으로써, 처리 결과의 정확도를 향상시킨다.
선택 가능한 실시 형태에 있어서, 단계 21을 실행하기 전, 아래의 단계를 실행할 수 있다.
제1 이미지의 카테고리 내의 가장 어려운 이미지를 제2 이미지로 사용하여, 제1 이미지의 카테고리 외의 가장 어려운 이미지를 제3 이미지로 결정한다.
본 발명의 실시예에 있어서, 카테고리 내의 가장 어려운 이미지쌍은 라벨이 동일한 이미지에서 유사도가 가장 작은 두장의 이미지이고, 카테고리 외의 가장 어려운 이미지쌍은 상이한 이미지에서 유사도가 가장 큰 두장의 이미지이다. 카테고리 내의 가장 어려운 이미지쌍이 이미지a 및 이미지b를 포함한다고 가정하면, 이미지b를 이미지a의 카테고리 내의 가장 어려운 이미지로 지칭하고, 이미지a를 이미지b의 카테고리 내의 가장 어려운 이미지로 지칭한다. 카테고리 외의 가장 어려운 이미지쌍이 이미지c 및 이미지d를 포함한다고 가정하면, 이미지c를 이미지d의 카테고리 외의 가장 어려운 이미지로 지칭하고, 이미지c를 이미지d의 카테고리 외의 가장 어려운 이미지로 지칭한다.
예를 들어, 이미지1의 카테고리, 이미지2의 카테고리, 이미지3의 카테고리가 모두 동일하고, 이미지1의 카테고리와 이미지4의 카테고리, 이미지5의 카테고리가 모두 상이하다고 가정하면, 이미지1과 이미지2 간의 유사도는 이미지1과 이미지3 간의 유사도보다 작고, 이미지1과 이미지4 간의 유사도는 이미지1과 이미지5 간의 유사도보다 작다. 제1 이미지가 이미지1일 경우,카테고리 내의 가장 어려운 이미지쌍은 이미지1 및 이미지2를 포함하고, 카테고리 외의 가장 어려운 이미지쌍은 이미지1 및 이미지5를 포함하며, 이미지2는 이미지1의 카테고리 내의 가장 어려운 이미지이고, 이미지5는 이미지1의 카테고리 외의 가장 어려운 이미지이며, 즉 이미지2는 제2 이미지이고, 이미지5는 제3 이미지이다.
제1 이미지의 카테고리 내의 가장 어려운 이미지를 제2 이미지로 사용하고, 제1 이미지의 카테고리 외의 가장 어려운 이미지를 제3 이미지로 사용하고, 제1 이미지 및 제2 이미지에 따라 제1 유사도를 결정하고, 제1 이미지 및 제3 이미지에 따라 제2 유사도를 결정하며, 제1 유사도와 제2 유사도 간의 차이에 기반하여 제2 훈련될 신경망의 손실을 결정하는 것을 통해, 제2 훈련될 신경망으로 하여금 훈련 과정에서, 이미지의 카테고리에 대한 구분 능력을 향상시키도록 할 수 있다.
훈련 이미지 세트에서 수집 조건이 제2 수집 조건인 이미지의 개수를 추가로 증가시키기 위해, 제2 훈련될 신경망의 훈련 효과를 향상시킨다. 일부 실시예에 있어서, 라벨링되지 않은 이미지 세트를 제2 훈련될 신경망에 입력하기 전, 라벨링되지 않은 이미지 세트에 대해 데이터 증강 처리를 하여, 증강된 이미지 세트를 얻을 수 있고, 증강된 이미지 세트 및 라벨링되지 않은 이미지 세트를 훈련 데이터로 사용하여 제2 훈련될 신경망에 대해 훈련을 진행할 수 있다. 이로써, 제2 훈련될 신경망의 훈련 데이터를 확장하는 효과를 달성할 수 있다.
증강된 이미지 세트와 라벨링되지 않은 이미지 세트의 라벨이 동일하므로, 제2 훈련될 신경망을 사용하여 라벨링되지 않은 이미지 세트 및 증강된 이미지 세트에 대해 처리를 진행하여 얻은 결과를, 제2 결과로 사용하고, 제2 결과와 라벨링되지 않은 이미지 세트의 라벨 간의 차이에 따라 제2 차이를 얻을 수 있다.
예를 들어(예2), 라벨링되지 않은 이미지 세트는 이미지a 및 이미지 b를 포함하고, 이미지a의 라벨은 A이고, 이미지b의 라벨은 B이다. 이미지a에 대해 데이터 증강 처리를 진행하여 이미지c를 얻고, 이미지b에 대해 데이터 증강 처리를 진행하여 이미지d를 얻으면, 이미지 c의 라벨은 A이고, 이미지d의 라벨은 B이다. 제2 훈련될 신경망을 사용하여 라벨링되지 않은 이미지 세트 및 증강된 이미지 세트에 대해 처리를 진행하여, 얻은 제2 결과는 결과a, 결과b, 결과c, 결과d를 포함하고, 여기서, 결과a는 제2 훈련될 신경망을 사용하여 이미지a에 대해 처리를 진행하는 것을 통해 얻고, 결과b는 제2 훈련될 신경망을 사용하여 이미지 b에 대해 처리를 진행하는 것을 통해 얻고, 결과 c는 제2 훈련될 신경망을 사용하여 이미지c에 대해 처리를 진행하는 것을 통해 얻고, 결과d는 제2 훈련될 신경망을 사용하여 이미지d에 대해 처리를 진행하는 것을 통해 얻는다.
본 발명의 일부 실시예에 있어서, 상기 데이터 세트 증강 처리는 회전 처리, 소거 처리, 클립핑 처리 및 블러링 처리 중 적어도 하나를 포함한다.
이미지에 대해 회전 처리를 진행하는 것은 이미지의 기하 중심점을 회전 중심으로 하고, 기준 각도를 회전 각도로 하여, 이미지에 대해 회전을 진행하는 것이고, 여기서 기준 각도는 사용자의 수요에 따라 조절될 수 있다. 이미지에 대해 소거 처리를 진행하는 것은 이미지에서의 어느 한 픽셀 영역에서 이미지 콘텐츠를 제거할 수 있다. 예를 들어 픽셀 영역의 픽셀값을 0으로 조정한다. 이미지에 대해 클리핑 처리를 진행하는 것은, 이미지로부터 소정 크기의 이미지를 캡처링하는 것이고, 여기서, 소정 크기는 사용자의 수요에 따라 조절될 수 있다. 이미지에 대해 블러링 처리를 진행하는 것을 통해, 이미지에서의 적어도 일부의 콘텐츠로 하여금 흐려지도록 할 수 있다.
본 발명의 실시예에서 제공한 이미지 처리 신경망의 훈련 방법에서, 제1 수집 조건 하에 수집된 이미지 세트에 기반하여 제2 수집 조건 하에 수집된 이미지 세트에 대해 라벨링을 진행함으로써, 인건비를 절감하고, 라벨링 효율을 향상시킨다. 제1 수집 조건 하에 수집된 이미지 세트 및 제2 수집 조건 하에 수집된 이미지 세트를 사용하여 제1 훈련될 신경망에 대해 훈련을 진행하여, 이미지 처리 신경망을 얻을 수 있고, 이미지 처리 신경망이 제2 수집 조건 하에 수집된 이미지에 대해 처리를 진행하여, 얻은 처리 결과의 정확도가 높다. 임의의 수집 조건에 있어서, 본 발명의 실시예에서 제공한 기술방안에 기반하여 적절한 이미지 처리 신경망을 얻을 수 있고, 여기서, 수집 조건에 적절한 이미지 처리 신경망은 이미지 처리 신경망이 수집 조건 하에 수집된 이미지에 대해 처리를 진행하여, 얻은 처리 결과의 정확도가 높은 것을 가리킨다.
본 발명의 실시예에서 제공한 기술방안에 기반하여, 본 발명의 실시예는 몇 가지 가능한 응용 시나리오를 더 제공한다.
시나리오1에 있어서, 정부, 기업, 개인의 보안 관리 인식 강화 및 스마트 하드웨어 기기가 대중화됨에 따라, 더욱더 많은 얼굴 인식 기능을 구비한 출입 통제 기기가 실제 응용에 투입되고 있다. 일부 실시예에 있어서, 출입 통제 기기는 카메라를 통해 방문자의 얼굴 이미지를 수집하여, 인식될 이미지로 사용하고, 신경망을 사용하여 인식될 이미지에 대해 처리를 진행하여, 방문자의 신원을 결정한다. 그러나 상이한 응용 시나리오에 대응하여, 출입 통제 기기가 인식될 이미지를 수집할 경우의 조건은 상이하다. 따라서 상이한 응용 시나리오 하의 출입 통제 기기의 인식 정확도를 향상시키는 방법은 매우 중요한 의미를 가지고 있다.
예를 들어, A사의 게이트는 출입 통제 기기a가 설치되어 있고 일정 기간 사용되어 왔다. A사 사옥에 출입 통제 기기b를 새로 설치한다. 다시 말해, 출입 통제 기기a는 실외에 설치되었고, 출입 통제 기기b는 실내에 설치되었다. 자명한 것은, 출입 통제 기기a가 인식될 이미지를 수집할 경우의 수집 조건과 출입 통제 기기b가 인식될 이미지를 수집할 경우의 수집 조건은 상이하다. 수집 조건의 상이함은 이미지 처리 신경망의 인식 정확도의 낮음을 초래한다. 출입 통제 기기a가 제1 신경망을 사용한다고 가정하면, 여기서, 제1 신경망은 출입 통제 기기a를 통해 수집된 A사의 직원을 포함한 얼굴 이미지(아래 문장에서는 이미지 세트c라고 지칭함)를 훈련하여 얻은 것이고, 유의해야 할 것은, 이미지 세트c에서의 이미지는 모두 라벨을 캐리하고, 라벨은 이미지에서 인물의 신원을 포함한다(예를 들어 Zhang San, Li Si, Wang Wu). 제1 신경망을 출입 통제 기기b에 적용하여 얻은 인식 정확도는 낮다.
출입 통제 기기b의 인식 정확도를 향상시키기 위해, A사의 관리 인원은 출입 통제 기기b를 통해 A사의 직원을 포함한 얼굴 이미지(아래 문장에서는 이미지 세트c라고 지칭함)를 수집할 수 있고, 제1 신경망을 사용하여 이미지 세트d에 대해 처리를 진행하여, 이미지 세트d의 라벨을 얻을 수 있다. 이미지 세트 c 및 이미지 세트 d를 훈련 데이터로 사용하고, 이미지 세트d의 라벨을 이미지 세트d의 감독 정보로 사용하여, 제1 신경망에 대해 훈련을 진행하여, 제2 신경망을 얻는다. 제2 신경망를 출입 통제 기기b에 배포하여, 출입 통제 기기b의 인식 정확도를 향상시킬 수 있다.
시나리오2에 있어서, 공공장소에서 카메라의 수가 급격히 증가됨에 따라, 대량의 비디오 스트림을 통해 비디오 스트림에서 인물의 속성을 효과적으로 결정하고, 캐릭터의 속성에 따라 인물의 소재를 결정하는 방법은 매우 중요한 의미를 가지고 있다.
B장소에서는, 서버와 대기실 내의 감시 카메라 (아래 문장에서는 감시 카메라e라고 지칭함) 간은 통신 연결을 구비하고, 서버는 상기 통신 연결을 통해 감시 카메라e가 수집한 비디오 스트림(아래 문장에서는 제1 비디오 스트림이라고 지칭함)을 획득할 수 있고, 제3 신경망을 사용하여 제1 비디오 스트림에서의 이미지에 대해 처리를 진행하여, 제1 비디오 스트림에서의 인물의 속성을 얻을 수 있으, 여기서, 제3 신경망은 감시 카메라e를 통해 수집한 인물을 포함한 이미지(아래 문장에서는 이미지 세트f라고 지칭함)를 훈련하여 얻은 것이고, 유의해야 할 것은, 이미지 세트f에서의 이미지는 모두 라벨을 캐리하고, 라벨은 인물의 속성을 포함하고, 상기 속성은 상의 색상, 바지 색상, 바지 길이, 모자 스타일, 신발 색상, 우산 착용 여부, 캐리어 카테고리, 마스크 유무, 헤어스타일, 성별 중 적어도 하나를 포함한다. 예를 들어, 제1 비디오 스트림은 이미지g 및 이미지h를 포함한다. 제3 신경망을 사용하여 제1 비디오 스트림에 대해 처리를 진행하여, 이미지g에서의 인물의 속성이 횐색 상의, 검은 색 바지, 안경 없음, 단발 머리, 여자를 포함하는 것을 결정하고, 이미지h에서의 인물의 속성이, 횐색 상의, 검은 색 바지, 흰색 신발, 안경 착용, 마스크 착용, 우산을 착용함, 단발 머리, 남자를 포함하는 것을 결정한다.
B장소의 연관 법률 집행 인원은 교차로에 감시 카메라i를 새로 설치하여, 교차로에서의 보행자의 속성을 획득한다. 대기실 내의 환경과 교차로의 환경이 상이하기 때문에, 제3 신경망을 사용하여 감시 카메라i에 대해 처리를 진행하면, 얻은 보행자의 속성의 정확도가 낮다.
본 발명 실시예에서 제공한 기술방안에 기반하여, B장소의 연관 법률 집행 인원은 감시 카메라i를 통해 수집한 보행자를 포함한 이미지(아래 문장에서는 이미지 세트j라고 지칭함)를 수집하고, 제3 신경망을 사용하여 이미지 세트j에 대해 처리를 진행하여, 이미지 세트j의 라벨을 얻을 수 있다. 이미지 세트f 및 이미지 세트j를 훈련 데이터로 사용하고, 이미지 세트j의 라벨을 이미지 세트j의 감독 정보로 사용하여, 제3 신경망에 대해 훈련을 진행하여, 제4 신경망을 얻는다. 제4 신경망을 사용하여 감시 카메라i가 수집한 제2 비디오 스트림에 대해 처리를 진행하여, 획득된 제2 비디오 스트림에서의 보행자의 속성의 정확도를 향상시킬 수 있다.
시나리오3에 있어서, 도로에 차량이 점점 많아짐에 따라, 도로 교통 사고 예방 방법에 대한 관심도 나날이 높아지며, 여기서, 인적 요인은 교통 사고 원인의 대부분을 차지하며, 집중력 부족, 집중력 하강 등 원인으로 인한 분산 운전을 포함한다. 따라서, 운전자가 분산 운전을 수행하는지 여부를 효과적으로 모니터링하는 방법은 매우 중요한 의미를 가지고 있다.
차량 탑재 단말은 차량에 설치된 카메라를 통해 운전자의 얼굴이 포함되는 이미지를 수집하고, 신경망을 사용하여 운전자의 얼굴이 포함되는 이미지에 대해 처리를 진행하여, 운전자가 분산 운전을 수행하는지 여부를 결정할 수 있다.
C 사는 운전자 주의력 모니터링 솔루션을 제공하는 공급 업체이고, C사는 D사의 모델 k의 카메라가 수집한 운전자의 얼굴이 포함되는 이미지(아래에서 이미지 세트 m이라고 지칭함)를 사용하여 제5 신경망에 대해 훈련을 진행하여, 제6 신경망을 얻는다. 유의해야 할 것은, 이미지 세트m에서의 이미지는 모두 라벨을 캐리하고, 라벨은 운전자의 분산 운전 또는 운전자의 미분산 운전을 포함한다. 제6 신경망을 모델k에 배포하여, 모델 k의 차량 탑재 단말이 제6 신경망을 사용하여 운전자가 분산 운전을 수행하는지 여부를 결정할 수 있다.
D사는 새로운 모델(아래에서 모델n형이라고 지칭함)을 생산했고, C사가 모델n형에 대한 운전자 주의력 모니터링 솔루션을 제공하기를 소망한다. 모델k에 설치된 카메라(아래 문장에서는 카메라p라고 지칭함)와 모델n에 설치된 카메라는 상이하고, 모델k의 내부 환경과 모델 n의 내부 환경이 상이하므로, 제6 신경망을 모델n에 배포하면, 제6 신경망을 통해 얻은 모니터링 결과(운전자의 분산 운전 또는 운전자의 미분산 운전을 포함함)의 정확도가 낮다.
본 발명의 실시예에서 제공한 기술방안에 기반하여, C사의 직원은 카메라p를 통해 운전자의 얼굴을 포함한 이미지(아래 문장에서는 이미지 세트q라고 지칭함)를 수집할 수 있고, 제6 신경망을 이용하여 이미지 세트q에 대해 처리를 진행하여, 이미지 세트q의 라벨을 얻을 수 있다. 이미지 세트m 및 이미지 세트q를 훈련 데이터로 사용하고, 이미지 세트q의 라벨을 이미지 세트q의 감독 정보로 사용하여, 제6 신경망에 대해 훈련을 진행하여, 제7 신경망을 얻는다. 제7 신경망을 모델n에 배포하여, 모델 n의 차량 탑재 단말이 제7 신경망을 사용하여 운전자가 분산 운전을 수행하는지 여부를 결정하므로, 얻은 모니터링 결과의 정확도가 높다.
당업자는 구체적인 실시 형태의 상기 방법에서, 각 단계의 기록 순서가 엄격한 실행 순서를 의미하지 않으며 실시 과정에서 어떠한 제한도 구성하지 않고, 각 단계의 구체적인 실행 순서는 기능 및 가능한 내부 놀리에 따라 결정하는 것으로 이해될 수 있다.
이상 본 발명의 실시예의 방법을 상세하게 설명하고, 아래에 본 발명의 실시예의 장치를 제공한다.
도 3을 참조하면, 도 3은 본 발명의 실시예에서 제공한 이미지 처리 장치의 구조 예시도이고, 상기 장치(1)는, 획득 부(11) 및 처리부(12)를 포함하고, 여기서,
획득부(11)는 처리될 이미지를 획득하도록 구성되고;
결정부(12)는 이미지 처리 신경망을 사용하여 상기 처리될 이미지에 대해 처리를 진행하여, 상기 처리될 이미지의 처리 결과를 얻도록 구성되고; 상기 이미지 처리 신경망은 라벨링되지 않은 이미지 세트 및 라벨링된 이미지 세트를 훈련 데이터로 사용하여 훈련하여 얻은 것이고, 상기 라벨링되지 않은 이미지 세트의 수집 조건과 상기 처리될 이미지의 수집 조건은 동일하고, 상기 라벨링된 이미지 세트의 수집 조건과 상기 라벨링되지 않은 이미지 세트의 수집 조건은 상이하다
본 발명의 어느 한 실시 형태와 결합하여, 상기 획득부(11)는 또한, 상기 라벨링되지 않은 이미지 세트, 상기 라벨링된 이미지 세트 및 제1 훈련될 신경망을 획득하도록 구성되고;
상기 처리부(12)는 또한, 상기 라벨링된 이미지 세트에 기반하여, 상기 라벨링되지 않은 이미지 세트의 라벨을 얻도록 구성되며;
상기 장치(1)는,
상기 라벨링된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트를 훈련 데이터로 사용하고, 상기 라벨링되지 않은 이미지 세트의 라벨을 상기 라벨링되지 않은 이미지 세트의 감독 정보로 사용하여, 상기 제1 훈련될 신경망에 대해 훈련을 진행하여, 상기 이미지 처리 신경망을 얻도록 구성된 훈련부(13)를 더 포함한다.
본 발명의 어느 한 실시 형태와 결합하여, 상기 처리부(12)는 또한,
상기 라벨링된 이미지 세트를 훈련 데이터로 사용하여, 상기 제1 훈련될 신경망에 대해 훈련을 진행하여, 제2 훈련될 신경망을 얻고;
상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여, 상기 라벨링되지 않은 이미지 세트의 라벨을 얻도록 구성된다.
본 발명의 어느 한 실시 형태와 결합하여, 상기 처리부(12)는 또한,
상기 제2 훈련될 신경망을 사용하여 상기 라벨링된 이미지 세트에 대해 처리를 진행하여 제1 결과를 얻고, 상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여 제2 결과를 얻고;
상기 제1 결과와 상기 라벨링된 이미지 세트의 라벨 간의 차이에 따라 제1 차이를 얻고, 상기 제2 결과와 상기 라벨링되지 않은 이미지 세트의 라벨 간의 차이에 따라 제2 차이를 얻고;
상기 제1 차이 및 상기 제2 차이에 따라, 상기 제2 훈련될 신경망의 손실을 얻으며;
상기 제2 훈련될 신경망의 손실에 기반하여, 상기 제2 훈련될 신경망의 파라미터를 조정하여, 상기 이미지 처리 신경망을 얻도록 구성된다.
본 발명의 어느 한 실시 형태와 결합하여, 상기 라벨링된 이미지 세트의 라벨 및 상기 라벨링되지 않은 이미지의 라벨은 모두 카테고리 정보를 캐리하고;
상기 장치(1)는, 상기 제1 차이 및 상기 제2 차이에 따라, 상기 제2 훈련될 신경망의 손실을 얻기전, 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제2 이미지 간의 유사도를 결정하여 제1 유사도를 얻고, 상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제3 이미지 간의 유사도를 결정하여 제2 유사도를 얻도록 구성된 제1 결정부(14) - 상기 훈련 이미지 세트는 상기 라벨링된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트를 포함하고, 상기 제1 이미지의 카테고리와 상기 제2 이미지의 카테고리는 동일하고, 상기 제1 이미지의 카테고리와 상기 제3 이미지의 카테고리는 상이함 - ; 및
상기 제1 유사도 및 상기 제2 유사도 간의 차이에 따라, 트리 튜플 손실을 얻도록 구성된 제2 결정부(15)를 더 포함하고,
상기 처리부(12)는 또한, 상기 제1 차이 및 상기 제2 차이에 따라, 카테고리 손실을 얻고;
상기 카테고리 손실 및 상기 트리 튜플 손실에 따라, 상기 제2 훈련될 신경망의 손실을 얻도록 구성된다.
본 발명의 어느 한 실시 형태와 결합하여, 상기 장치(1)는,
상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제2 이미지 간의 유사도를 결정하여 제1 유사도를 얻고, 상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제3 이미지 간의 유사도를 결정하여 제2 유사도를 얻기 전, 제1 이미지의 카테고리 내의 가장 어려운 이미지를 제2 이미지로 결정하고, 제1 이미지의 카테고리 외의 가장 어려운 이미지를 제3 이미지로 결정하도록 구성된 제3 결정부(16) - 상기 카테고리 내의 가장 어려운 이미지는 카테고리 내의 이미지 세트에서 상기 제1 이미지 간의 유사도가 가장 작은 이미지이고, 상기 카테고리 외의 가장 어려운 이미지는 카테고리 외의 이미지 세트에서 상기 제1 이미지 간의 유사도가 가장 큰 이미지이고, 상기 카테고리 내의 이미지 세트는 라벨과 상기 제1 이미지의 라벨이 동일한 이미지를 포함하고, 상기 카테고리 외의 이미지 세트는 라벨과 상기 제1 이미지의 라벨이 상이한 이미지를 포함함 - 를 더 포함한다
본 발명의 어느 한 실시 형태와 결합하여, 상기 장치(1)는,
상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여 제2 결과를 얻기전, 상기 라벨링되지 않은 이미지 세트에 대해 데이터 증강 처리를 진행하여, 증강된 이미지 세트를 얻도록 구성된 데이터 증강 처리부(17)를 더 포함하고;
상기 처리부(12)는,
상기 제2 훈련될 신경망을 사용하여 상기 증강된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여, 상기 제2 결과를 얻도록 구성된다.
본 발명의 어느 한 실시 형태와 결합하여, 상기 데이터 세트 증강 처리는 회전 처리, 소거 처리, 클립핑 처리 및 블러링 처리 중 적어도 하나를 포함한다.
본 발명의 어느 한 실시 형태와 결합하여, 이미지의 상기 수집 조건은 상기 이미지의 이미징 기기의 파라미터를 수집하는 것을 포함한다.
본 발명의 실시예 및 기타 실시예에 있어서, “부분”은 부분 회로, 부분 프로세서, 부분 프로그램 또는 소프트웨어 등일 수 있으며, 물론 유닛일 수도 있고, 모듈 방식 또는 비모듈 방식일수도 있다는 것이다.
본 발명의 실시예에 있어서, 라벨링되지 않은 이미지 세트 및 라벨링된 이미지 세트를 훈련 데이터로 사용하여 신경망에 대해 훈련을 진행하는 것은, 라벨링된 이미지 세트에 기반하여 라벨링되지 않은 이미지 세트의 라벨을 결정할 수 있음으로써, 라벨링되지 않은 이미지 세트에 대해 라벨링을 진행하는 인건비를 저하시킬 수 있고, 라벨링 효율을 향상시킨다. 라벨링된 이미지 세트, 라벨링되지 않은 이미지 세트, 라벨링되지 않은 이미지 세트의 라벨을 사용하여 신경망에 대해 훈련을 진행하여, 신경망으로 하여금 훈련 과정에서 제2 수집 조건의 정보를 학습할 수 있도록 함으로써, 훈련하여 얻은 이미지 처리 신경망을 사용하여 처리될 이미지에 대해 처리를 진행하는 과정에서, 얻은 처리 결과의 정확도를 향상시킬 수 있다.
일부 실시예에 있어서, 본 발명의 실시예에서 제공되는 장치에 포함된 기능 또는 모듈은 상기 방법 실시예에 설명한 방법을 실행하는데 사용될 수 있고, 구현은 상기 방법 실시예의 설명을 참조할 수 있으며,간결함을 위해 여기서 더이상 설명하지 않는다.
도 4는 본 발명의 실시예에서 제공한 이미지 처리 장치의 하드웨어 구조 예시도이다. 상기 이미지 처리 장치(2)는 프로세서(21), 메모리(22), 입력 장치(23) 및 출력 장치(24)를 포함한다. 상기 프로세서(21), 메모리(22), 입력 장치(23) 및 출력 장치(24)는 커넥터를 통해 서로 커플링되고, 상기 커넥터는 각 타입의 인터페이스, 전송 라인 또는 버스 등을 포함하며, 본 발명의 실시예는 이에 대해 한정하지 않는다. 이해해야 할 것은, 본 발명의 각 실시예에 있어서, 커플링은 특정한 방식을 통한 상호 연결을 가리키고, 직접 연결 또는 다른 기기를 통한 간접 연결을 포함하며, 예를 들어 각 타입의 인터페이스, 전송 라인, 버스 등을 통해 연결할 수 있다.
프로세서(21)는 하나 또는 복수 개의 그래픽 처리 장치(graphics processing unit, GPU)일 수 있고, 프로세서(21)가 하나의 GPU일 경우, 상기 GPU는 단일 코어 GPU일 수 있고, 다중 코어 GPU일 수도 있다. 일부 실시예에 있어서, 프로세서(21)는 복수 개의 GPU로 구성된 프로세서 그룹일 수 있고, 복수 개의 프로세서 사이는 하나 또는 복수 개의 버스를 통해 서로 커플링된다. 일부 실시예에 있어서, 상기 프로세서는 또한 다른 타입의 프로세서 등일 수 있고, 본 발명의 실시예는 한정하지 않는다.
메모리(22)는 컴퓨터 프로그램 명령어 및 본 발명의 방안의 프로그램 코드를 포함하는 각 타입의 컴퓨터 프로그램 코드를 저장하는데 사용될 수 있다. 선택적으로, 메모리는 랜덤 액세스 메모리(random access memory,RAM),판독 전용 메모리(read-only memory,ROM),소거 가능 프로그래머블 판독 전용 메모리(erasable programmable read only memory,EPROM), 또는 판독 전용 컴팩트 디스크(compact disc read-only memory,CD-ROM)를 포함하지만 이에 한정되지 않는며,상기 메모리는 관련 명령어 및 데이테에 사용된다.
입력 장치(23)는 데이터 및 신호 중 적어도 하나를 입력하기 위한 것이고, 출력 장치(24)는 데이터 및 신호 중 적어도 하나를 출력하기 위한 것이다. 입력 장치(23) 및 출력 장치(24)는 독립적인 장치일 수 있고, 하나의 완전한 장치일 수도 있다.
이해할 수 있는 것은, 본 발명의 실시예에서, 메모리(22)는 연관된 명령어를 저장하는데 사용될 수 있을 뿐만 아니라, 또한 연관된 데이터를 저장하는데 사용될 수 있으며, 예를 들어 상기 메모리(22)는 입력 장치(23)를 통해 획득된 처리될 이미지를 저장하는데 사용될 수 있고, 또는 상기 메모리(22)는 또한 프로세서(21)를 통해 얻은 처리 결과 등을 저장하는데 사용될 수 있으며, 본 발명의 실시예는 상기 메모리에 저장된 데이터를 한정하지 않는다.
이해할 수 있는 것은, 도 4는 이미지 처리 장치의 간략화 설계를 도시한다. 실제 응용에서, 이미지 처리 장치는 또한 필요한 다른 부품을 각각 포함할 수 있고, 임의의 개수의 입력/출력 장치, 프로세서, 메모리 등을 포함하지만 이에 한정되지 않으며, 본 발명의 실시예를 구현 가능한 모든 이미지 처리 장치는 본 발명의 보호 범위 내에 모두 속한다.
본 기술분야의 통상이 기술자는 본 명세서에서 개시된 실시예에서 설명한 각 예시적 유닛 및 알고리즘 단계를 결합하여, 전자 하드웨어 또는 컴퓨터 소프트웨어와 전자 하드웨어의 결합으로 구현될 수 있음을 이해할 것이다. 이러한 기능이 하드웨어 형태로 실행될지 아니면 소프트웨어 형태로 실행될지는 기술 방안의 특정 응용 및 설계 제약 조건에 따라 결정된다. 전문 기술자는 각 특정 응용에 대해 상이한 방법을 사용하여 설명된 기능을 구현할 수 있으나, 이러한 구현은 본 발명의 범위를 벗어나는 것으로 간주되어서는 안된다.
당업자는 설명의 편의와 간결함을 위해 상기에서 설명된 시스템, 장치 및 유닛의 구체적인 동작 과정은 전술한 방법 실시예에서 대응되는 과정을 참조할 수 있음을 이해할 것이며, 여기서 더 이상 설명하지 않는다. 본 기술분야의 통상의 기술자는 또한, 본 발명의 각 실시예의 설명은 그 자체에 초점을 두고 있으며, 설명의 편의와 간편함을 위해, 동일하거나 유사한 부분은 상이한 실시예에서 반복하여 설명하지 않았으므로, 특정한 실시예에서 설명하지 않았거나 상세하게 설명되지 않은 부분은 다른 실시예의 기재를 참조할 수 있음을 명백하게 이해할 수 있을 것이다.
본 발명에서 제공된 몇 개의 실시예에 있어서, 개시된 시스템, 장치 및 방법은 다른 방식으로 구현될 수 있음을 이해해야 한다. 전술된 장치 실시예는 다만 예시적이며, 예를 들어, 상기 유닛에 대한 분할은 다만 논리적 기능 분할이고, 실제로 구현될 경우 다른 분할 방식이 있을 수 있으며, 예를 들어 복수 개의 유닛 또는 컴포넌트는 다른 시스템에 결합되거나 통합될 수 있거나, 일부 특징을 무시하거나 실행하지 않을 수 있다. 또한, 나타내거나 논의된 상호간의 결합 또는 직접 결합 또는 통신 연결은, 일부 인터페이스를 통해 구현되며, 장치 또는 유닛을 통한 간접 결합 또는 통신 연결은, 전기, 기계 또는 다른 형태일 수 있다.
상기 분리 부재로서 설명된 유닛은 물리적으로 분리된 것이거나 아닐 수 있고, 유닛으로 나타낸 부재는 물리적 유닛이거나 아닐 수 있고, 즉 한 곳에 위치하거나, 복수 개의 네트워크 유닛에 분포될 수도 있다. 실제 필요에 따라 유닛의 일부 또는 전부를 선택하여 본 실시예 방안의 목적을 구현할 수 있다.
또한, 본 발명의 각 실시예에서의 각 기능 유닛은 하나의 처리 유닛에 통합될 수 있고, 각 유닛이 독립적인 물리적 존재일 수도 있고, 두 개 또는 두 개 이상의 유닛이 한 유닛에 통합될 수도 있다.
상기 실시예에서, 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의의 조합을 통해 전체적으로 또는 부분적으로 구현할 수 있다. 소프트웨어로 구현할 경우, 컴퓨터 프로그램 제품의 형태로 전체적으로 또는 부분적으로 구현할 수 있다 상기 컴퓨터 프로그램 제품은 하나 또는 복수 개의 컴퓨터 명령어를 포함한다. 컴퓨터에서 상기 컴퓨터 프로그램 명령어가 로딩 및 실행될 경우, 본 발명의 실시예에 따라 설명된 프로세스 또는 기능은 전체적으로 또는 부분적으로 생성된다. 상기 컴퓨터는 범용 컴퓨터, 특수 목적 컴퓨터, 컴퓨터 네트워크 또는 다른 프로그래머블 장치일 수 있다. 상기 컴퓨터 명령어는 컴퓨터 판독 가능한 저장 매체에 저장될 수 있거나, 상기 컴퓨터 판독 가능한 저장 매체를 통해 전송될 수 있다. 상기 컴퓨터 명령어는 하나의 웹 사이트 사이트,컴퓨터,서버 또는 데이터 센터에서 유선(예를 들어 동축 케이블,광섬유,디지털 가입자 회선(digital subscriber line,DSL)) 또는 무선(예를 들어 적외선,무선,마이크로웨이브 등)방식으로 다른 웹 사이트 사이트,컴퓨터,서버 또는 데이터 센터로 전송될 수 있다. 상기 컴퓨터 판독 가능한 저장 매체는 컴퓨터가 액세스 가능한 임의의 사용 가능한 매체 또는 하나 또는 복수 개의 사용 가능한 매체로 통합된 서버, 데이터 센터 등을 포함하는 데이터 저장 기기일 수 있다. 상기 사용 가능한 매체는 자기 매체,(예를 들어,플로피 디스크,하드 디스크,자기 테이프),광학 매체(예를 들어,디지털 다기능 디스크(digital versatile disc,DVD)), 또는 반도체 매체(예를 들어 솔리드 스테이트 디스크(solid state disk,SSD))등일 수 있다.
당업자는 상기 실시예 방법에서의 프로세서의 전부 또는 일부가 구현된것으로 이해할 수 있고,상기 프로세서는 관련 하드웨어를 지시하는 컴퓨터 프로그램으로 완료할 수 있고,상기 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있고,상기 프로그램이 실행할 때,상기 각 방법 실시예의 프로세스를 포함할 수 있다. 전술한 저장 매체는, 판독 전용 메모리(read-only memory,ROM) 또는 랜덤 저장 메모리(random access memory,RAM),자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 다양한 매체를 포함한다.
본 발명의 실시예에 있어서, 라벨링되지 않은 이미지 세트 및 라벨링된 이미지 세트를 훈련 데이터로 사용하여 신경망에 대해 훈련을 진행하는 것은, 라벨링된 이미지 세트에 기반하여 라벨링되지 않은 이미지 세트의 라벨을 결정할 수 있음으로써, 라벨링되지 않은 이미지 세트에 대해 라벨링을 진행하는 인건비를 저하시킬 수 있고, 라벨링 효율을 향상시킨다. 라벨링된 이미지 세트, 라벨링되지 않은 이미지 세트, 라벨링되지 않은 이미지 세트의 라벨을 사용하여 신경망에 대해 훈련을 진행하여, 신경망으로 하여금 훈련 과정에서 제2 수집 조건의 정보를 학습할 수 있도록 함으로써, 훈련하여 얻은 이미지 처리 신경망을 사용하여 처리될 이미지에 대해 처리를 진행하는 과정에서, 얻은 처리 결과의 정확도를 향상시킬 수 있다.

Claims (18)

  1. 이미지 처리 방법으로서,
    처리될 이미지를 획득하는 단계; 및
    이미지 처리 신경망을 사용하여 상기 처리될 이미지에 대해 처리를 진행하여, 상기 처리될 이미지의 처리 결과를 얻는 단계 - 상기 이미지 처리 신경망은 라벨링되지 않은 이미지 세트 및 라벨링된 이미지 세트를 훈련 데이터로 사용하여 훈련하여 얻은 것이고, 상기 라벨링되지 않은 이미지 세트의 수집 조건과 상기 처리될 이미지의 수집 조건은 동일하고, 상기 라벨링된 이미지 세트의 수집 조건과 상기 라벨링되지 않은 이미지 세트의 수집 조건은 상이함 - 를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  2. 제1항에 있어서,
    상기 이미지 처리 방법은,
    상기 라벨링되지 않은 이미지 세트, 상기 라벨링된 이미지 세트 및 제1 훈련될 신경망을 획득하는 단계;
    상기 라벨링된 이미지 세트에 기반하여, 상기 라벨링되지 않은 이미지 세트의 라벨을 얻는 단계; 및
    상기 라벨링된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트를 훈련 데이터로 사용하고, 상기 라벨링되지 않은 이미지 세트의 라벨을 상기 라벨링되지 않은 이미지 세트의 감독 정보로 사용하여, 상기 제1 훈련될 신경망에 대해 훈련을 진행하여, 상기 이미지 처리 신경망을 얻는 단계를 더 포함하는 것을 특징으로 하는 이미지 처리 방법.
  3. 제2항에 있어서,
    상기 라벨링된 이미지 세트에 기반하여, 상기 라벨링되지 않은 이미지 세트의 라벨을 얻는 단계는,
    상기 라벨링된 이미지 세트를 훈련 데이터로 사용하여, 상기 제1 훈련될 신경망에 대해 훈련을 진행하여, 제2 훈련될 신경망을 얻는 단계; 및
    상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여, 상기 라벨링되지 않은 이미지 세트의 라벨을 얻는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  4. 제 3항에 있어서,
    상기 라벨링된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트를 훈련 데이터로 사용하고, 상기 라벨링되지 않은 이미지 세트의 라벨을 상기 라벨링되지 않은 이미지 세트의 감독 정보로 사용하여, 상기 제1 훈련될 신경망에 대해 훈련을 진행하여, 상기 이미지 처리 신경망을 얻는 단계는,
    상기 제2 훈련될 신경망을 사용하여 상기 라벨링된 이미지 세트에 대해 처리를 진행하여 제1 결과를 얻고, 상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여 제2 결과를 얻는 단계;
    상기 제1 결과와 상기 라벨링된 이미지 세트의 라벨 간의 차이에 따라 제1 차이를 얻고, 상기 제2 결과와 상기 라벨링되지 않은 이미지 세트의 라벨 간의 차이에 따라 제2 차이를 얻는 단계;
    상기 제1 차이 및 상기 제2 차이에 따라, 상기 제2 훈련될 신경망의 손실을 얻는 단계; 및
    상기 제2 훈련될 신경망의 손실에 기반하여, 상기 제2 훈련될 신경망의 파라미터를 조정하여, 상기 이미지 처리 신경망을 얻는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  5. 제 4항에 있어서,
    상기 라벨링된 이미지 세트의 라벨 및 상기 라벨링되지 않은 이미지의 라벨은 모두 카테고리 정보를 캐리하고;
    상기 제1 차이 및 상기 제2 차이에 따라, 상기 제2 훈련될 신경망의 손실을 얻기 전, 상기 이미지 처리 방법은,
    훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제2 이미지 간의 유사도를 결정하여 제1 유사도를 얻고, 상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제3 이미지 간의 유사도를 결정하여 제2 유사도를 얻는 단계 - 상기 훈련 이미지 세트는 상기 라벨링된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트를 포함하고, 상기 제1 이미지의 카테고리와 상기 제2 이미지의 카테고리는 동일하고, 상기 제1 이미지의 카테고리와 상기 제3 이미지의 카테고리는 상이함 - ; 및
    상기 제1 유사도 및 상기 제2 유사도 간의 차이에 따라, 트리 튜플 손실을 얻는 단계를 더 포함하고,
    상기 제1 차이 및 상기 제2 차이에 따라, 상기 제2 훈련될 신경망의 손실을 얻는 단계는,
    상기 제1 차이 및 상기 제2 차이에 따라, 카테고리 손실을 얻는 단계; 및
    상기 카테고리 손실 및 상기 트리 튜플 손실에 따라, 상기 제2 훈련될 신경망의 손실을 얻는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  6. 제 5항에 있어서,
    상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제2 이미지 간의 유사도를 결정하여 제1 유사도를 얻고, 상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제3 이미지 간의 유사도를 결정하여 제2 유사도를 얻기 전, 상기 이미지 처리 방법은,
    제1 이미지의 카테고리 내의 가장 어려운 이미지를 제2 이미지로 결정하고, 제1 이미지의 카테고리 외의 가장 어려운 이미지를 제3 이미지로 결정하는 단계 - 상기 카테고리 내의 가장 어려운 이미지는 카테고리 내의 이미지 세트에서 상기 제1 이미지 간의 유사도가 가장 작은 이미지이고, 상기 카테고리 외의 가장 어려운 이미지는 카테고리 외의 이미지 세트에서 상기 제1 이미지 간의 유사도가 가장 큰 이미지이고, 상기 카테고리 내의 이미지 세트는 라벨이 상기 제1 이미지의 라벨과 동일한 이미지를 포함하고, 상기 카테고리 외의 이미지 세트는 라벨이 상기 제1 이미지의 라벨과 상이한 이미지를 포함함 - 를 더 포함하는 것을 특징으로 하는 이미지 처리 방법.
  7. 제 4항 내지 제 6항 중 어느 한 항에 있어서,
    상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여 제2 결과를 얻기 전, 상기 이미지 처리 방법은,
    상기 라벨링되지 않은 이미지 세트에 대해 데이터 증강 처리를 진행하여, 증강된 이미지 세트를 얻는 단계를 더 포함하고,
    상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여, 제2 결과를 얻는 단계는,
    상기 제2 훈련될 신경망을 사용하여 상기 증강된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여, 상기 제2 결과를 얻는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
  8. 이미지 처리 장치로서,
    처리될 이미지를 획득하도록 구성된 획득부; 및
    이미지 처리 신경망을 사용하여 상기 처리될 이미지에 대해 처리를 진행하여, 상기 처리될 이미지의 처리 결과를 얻도록 구성된 처리부 - 상기 이미지 처리 신경망은 라벨링되지 않은 이미지 세트 및 라벨링된 이미지 세트를 훈련 데이터로 사용하여 훈련하여 얻은 것이고, 상기 라벨링되지 않은 이미지 세트의 수집 조건과 상기 처리될 이미지의 수집 조건은 동일하고, 상기 라벨링된 이미지 세트의 수집 조건과 상기 라벨링되지 않은 이미지 세트의 수집 조건은 상이함 - 를 포함하는 것을 특징으로 하는 이미지 처리 장치.
  9. 제 8항에 있어서,
    상기 획득부는 또한, 상기 라벨링되지 않은 이미지 세트, 상기 라벨링된 이미지 세트 및 제1 훈련될 신경망을 획득하도록 구성되고;
    상기 처리부는 또한, 상기 라벨링된 이미지 세트에 기반하여, 상기 라벨링되지 않은 이미지 세트의 라벨을 얻도록 구성되며;
    상기 이미지 처리 장치는, 상기 라벨링된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트를 훈련 데이터로 사용하고, 상기 라벨링되지 않은 이미지 세트의 라벨을 상기 라벨링되지 않은 이미지 세트의 감독 정보로 사용하여, 상기 제1 훈련될 신경망에 대해 훈련을 진행하여, 상기 이미지 처리 신경망을 얻도록 구성된 훈련부를 더 포함하는 것을 특징으로 하는 이미지 처리 장치.
  10. 제 9항에 있어서,
    상기 처리부는 또한,
    상기 라벨링된 이미지 세트를 훈련 데이터로 사용하여, 상기 제1 훈련될 신경망에 대해 훈련을 진행하여, 제2 훈련될 신경망을 얻고;
    상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여, 상기 라벨링되지 않은 이미지 세트의 라벨을 얻도록 구성되는 것을 특징으로 하는 이미지 처리 장치.
  11. 제 10항에 있어서,
    상기 처리부는 또한,
    상기 제2 훈련될 신경망을 사용하여 상기 라벨링된 이미지 세트에 대해 처리를 진행하여 제1 결과를 얻고, 상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여 제2 결과를 얻고;
    상기 제1 결과와 상기 라벨링된 이미지 세트의 라벨 간의 차이에 따라 제1 차이를 얻고, 상기 제2 결과와 상기 라벨링되지 않은 이미지 세트의 라벨 간의 차이에 따라 제2 차이를 얻고;
    상기 제1 차이 및 상기 제2 차이에 따라, 상기 제2 훈련될 신경망의 손실을 얻으며;
    상기 제2 훈련될 신경망의 손실에 기반하여, 상기 제2 훈련될 신경망의 파라미터를 조정하여, 상기 이미지 처리 신경망을 얻도록 구성되는 것을 특징으로 하는 이미지 처리 장치.
  12. 제 11항에 있어서,
    상기 라벨링된 이미지 세트의 라벨 및 상기 라벨링되지 않은 이미지의 라벨은 모두 카테고리 정보를 캐리하고;
    상기 이미지 처리 장치는, 상기 제1 차이 및 상기 제2 차이에 따라, 상기 제2 훈련될 신경망의 손실을 얻기 전, 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제2 이미지 간의 유사도를 결정하여 제1 유사도를 얻고, 상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제3 이미지 간의 유사도를 결정하여 제2 유사도를 얻도록 구성된 제1 결정부 - 상기 훈련 이미지 세트는 상기 라벨링된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트를 포함하고, 상기 제1 이미지의 카테고리와 상기 제2 이미지의 카테고리는 동일하고, 상기 제1 이미지의 카테고리와 상기 제3 이미지의 카테고리는 상이함 - ; 및
    상기 제1 유사도 및 상기 제2 유사도 간의 차이에 따라, 트리 튜플 손실을 얻도록 구성된 제2 결정부를 더 포함하고;
    상기 처리부는 또한, 상기 제1 차이 및 상기 제2 차이에 따라, 카테고리 손실을 얻고;
    상기 카테고리 손실 및 상기 트리 튜플 손실에 따라, 상기 제2 훈련될 신경망의 손실을 얻도록 구성되는 것을 특징으로 하는 이미지 처리 장치.
  13. 제 12항에 있어서,
    상기 이미지 처리 장치는,
    상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제2 이미지 간의 유사도를 결정하여 제1 유사도를 얻고, 상기 훈련 이미지 세트에서의 제1 이미지와 상기 훈련 이미지 세트에서의 제3 이미지 간의 유사도를 결정하여 제2 유사도를 얻기 전, 제1 이미지의 카테고리 내의 가장 어려운 이미지를 제2 이미지로 결정하고, 제1 이미지의 카테고리 외의 가장 어려운 이미지를 제3 이미지로 결정하도록 구성된 제3 결정부 - 상기 카테고리 내의 가장 어려운 이미지는 카테고리 내의 이미지 세트에서 상기 제1 이미지 간의 유사도가 가장 작은 이미지이고, 상기 카테고리 외의 가장 어려운 이미지는 카테고리 외의 이미지 세트에서 상기 제1 이미지 간의 유사도가 가장 큰 이미지이고, 상기 카테고리 내의 이미지 세트는 라벨이 상기 제1 이미지의 라벨과 동일한 이미지를 포함하고, 상기 카테고리 외의 이미지 세트는 라벨이 상기 제1 이미지의 라벨과 상이한 이미지를 포함함 - 를 포함하는 것을 특징으로 하는 이미지 처리 장치.
  14. 제 10항 내지 제 12항 중 어느 한 항에 있어서,
    상기 이미지 처리 장치는,
    상기 제2 훈련될 신경망을 사용하여 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여 제2 결과를 얻기 전, 상기 라벨링되지 않은 이미지 세트에 대해 데이터 증강 처리를 진행하여, 증강된 이미지 세트를 얻도록 구성된 데이터 증강 처리부를 더 포함하고;
    상기 처리부는 또한, 상기 제2 훈련될 신경망을 사용하여 상기 증강된 이미지 세트 및 상기 라벨링되지 않은 이미지 세트에 대해 처리를 진행하여, 상기 제2 결과를 얻도록 구성되는 것을 특징으로 하는 이미지 처리 장치.
  15. 프로세서로서,
    상기 프로세서는 제 1항 내지 제 7항 중 어느 한 항에 따른 이미지 처리 방법을 실행하기 위한 것임을 특징으로 하는 프로세서.
  16. 전자 기기로서,
    프로세서, 송신 장치, 입력 장치, 출력 장치 및 메모리를 포함하고, 상기 메모리는 컴퓨터 프로그램 코드를 저장하기 위한 것이며, 상기 컴퓨터 프로그램 코드는 컴퓨터 명령어를 포함하며, 상기 프로세서가 상기 컴퓨터 명령어를 실행할 경우, 상기 전자 기기는 제1항 내지 제7항 중 어느 한 항에 따른 이미지 처리 방법을 실행하는 것을 특징으로 하는 전자 기기.
  17. 컴퓨터 판독 가능한 저장 매체로서,
    상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 프로그램이 저장되고, 상기 컴퓨터 프로그램은 프로그램 명령어를 포함하며, 상기 프로그램 명령어가 프로세서에 의해 실행될 경우, 상기 프로세서가 제1항 내지 제7중 어느 한 항에 따른 이미지 처리 방법을 실행하도록 하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.
  18. 컴퓨터 프로그램으로서,
    컴퓨터 판독 가능 코드를 포함하고, 상기 컴퓨터 판독 가능한 코드가 전자 기기에서 작동되고, 상기 전자 기기에서의 프로세서에 의해 실행될 경우, 제 1항 내지 제 7항 중 어느 한 항에 따른 이미지 처리 방법을 구현하는 것을 특징으로 하는 컴퓨터 프로그램.
KR1020217034492A 2020-04-07 2021-03-04 이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체 KR20210137213A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010264926.7A CN111598124B (zh) 2020-04-07 2020-04-07 图像处理及装置、处理器、电子设备、存储介质
CN202010264926.7 2020-04-07
PCT/CN2021/079122 WO2021203882A1 (zh) 2020-04-07 2021-03-04 姿态检测及视频处理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
KR20210137213A true KR20210137213A (ko) 2021-11-17

Family

ID=72185159

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217034492A KR20210137213A (ko) 2020-04-07 2021-03-04 이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체

Country Status (5)

Country Link
JP (1) JP2022531763A (ko)
KR (1) KR20210137213A (ko)
CN (1) CN111598124B (ko)
TW (1) TW202139062A (ko)
WO (1) WO2021203882A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102403174B1 (ko) * 2021-12-21 2022-05-30 주식회사 인피닉 중요도에 따른 데이터 정제 방법 및 이를 실행시키기 위하여 기록매체에 기록된 컴퓨터 프로그램

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598124B (zh) * 2020-04-07 2022-11-11 深圳市商汤科技有限公司 图像处理及装置、处理器、电子设备、存储介质
US20220147761A1 (en) * 2020-11-10 2022-05-12 Nec Laboratories America, Inc. Video domain adaptation via contrastive learning
CN112749652B (zh) * 2020-12-31 2024-02-20 浙江大华技术股份有限公司 身份信息确定的方法和装置、存储介质及电子设备
CN114742828B (zh) * 2022-06-09 2022-10-14 武汉东方骏驰精密制造有限公司 基于机器视觉的工件定损智能分析方法及装置
TWI825980B (zh) * 2022-09-07 2023-12-11 英業達股份有限公司 記憶體內計算的模擬器的設定方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3796235B1 (en) * 2014-12-17 2024-09-04 Google LLC Generating numeric embeddings of images
CN105046196B (zh) * 2015-06-11 2018-04-17 西安电子科技大学 基于级联卷积神经网络的前车车辆信息结构化输出方法
CN106096538B (zh) * 2016-06-08 2019-08-23 中国科学院自动化研究所 基于定序神经网络模型的人脸识别方法及装置
CN106971556B (zh) * 2017-05-16 2019-08-02 中山大学 基于双网络结构的卡口车辆重识别方法
US10318889B2 (en) * 2017-06-26 2019-06-11 Konica Minolta Laboratory U.S.A., Inc. Targeted data augmentation using neural style transfer
US10515295B2 (en) * 2017-10-27 2019-12-24 Adobe Inc. Font recognition using triplet loss neural network training
CN109902798A (zh) * 2018-05-31 2019-06-18 华为技术有限公司 深度神经网络的训练方法和装置
CN110188829B (zh) * 2019-05-31 2022-01-28 北京市商汤科技开发有限公司 神经网络的训练方法、目标识别的方法及相关产品
CN110532345A (zh) * 2019-07-15 2019-12-03 北京小米智能科技有限公司 一种未标注数据的处理方法、装置及存储介质
CN110472737B (zh) * 2019-08-15 2023-11-17 腾讯医疗健康(深圳)有限公司 神经网络模型的训练方法、装置和医学图像处理系统
CN110647938B (zh) * 2019-09-24 2022-07-15 北京市商汤科技开发有限公司 图像处理方法及相关装置
CN110889463A (zh) * 2019-12-10 2020-03-17 北京奇艺世纪科技有限公司 一种样本标注方法、装置、服务器及机器可读存储介质
CN111598124B (zh) * 2020-04-07 2022-11-11 深圳市商汤科技有限公司 图像处理及装置、处理器、电子设备、存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102403174B1 (ko) * 2021-12-21 2022-05-30 주식회사 인피닉 중요도에 따른 데이터 정제 방법 및 이를 실행시키기 위하여 기록매체에 기록된 컴퓨터 프로그램

Also Published As

Publication number Publication date
TW202139062A (zh) 2021-10-16
JP2022531763A (ja) 2022-07-11
CN111598124A (zh) 2020-08-28
WO2021203882A1 (zh) 2021-10-14
CN111598124B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
KR20210137213A (ko) 이미지 처리 방법 및 장치, 프로세서, 전자 기기, 저장 매체
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
WO2024001123A1 (zh) 基于神经网络模型的图像识别方法、装置及终端设备
CN112380921A (zh) 一种基于车联网的道路检测方法
CN115937655B (zh) 多阶特征交互的目标检测模型及其构建方法、装置及应用
CN113111838B (zh) 行为识别方法及装置、设备和存储介质
CN112288074A (zh) 图像识别网络生成方法及装置、存储介质及电子设备
CN109063667B (zh) 一种基于场景的视频识别方式优化及推送方法
CN108009548A (zh) 一种智能路牌识别方法及系统
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN112287983B (zh) 一种基于深度学习的遥感图像目标提取系统和方法
WO2022052375A1 (zh) 车辆识别方法及装置、电子设备及存储介质
KR20240127952A (ko) 이미지 처리 방법 및 장치
CN110647938A (zh) 图像处理方法及相关装置
CN114627269A (zh) 一种基于深度学习目标检测的虚拟现实安防监控平台
CN116129291A (zh) 一种面向无人机畜牧的图像目标识别方法及其装置
Hou et al. A cognitively motivated method for classification of occluded traffic signs
WO2023105800A1 (en) Object detection device, object detection method, and object detection system
CN114596548A (zh) 目标检测方法、装置、计算机设备及计算机可读存储介质
CN114782979A (zh) 一种行人重识别模型的训练方法、装置、存储介质及终端
Choda et al. A critical survey on real-time traffic sign recognition by using cnn machine learning algorithm
CN112288702A (zh) 一种基于车联网的道路图像检测方法
CN111753618A (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质
CN112906679B (zh) 基于人形语义分割的行人重识别方法、系统及相关设备
Li et al. DAR‐Net: Dense Attentional Residual Network for Vehicle Detection in Aerial Images

Legal Events

Date Code Title Description
A201 Request for examination