KR20210095671A - 이미지 처리 방법 및 관련 장치 - Google Patents

이미지 처리 방법 및 관련 장치 Download PDF

Info

Publication number
KR20210095671A
KR20210095671A KR1020217019630A KR20217019630A KR20210095671A KR 20210095671 A KR20210095671 A KR 20210095671A KR 1020217019630 A KR1020217019630 A KR 1020217019630A KR 20217019630 A KR20217019630 A KR 20217019630A KR 20210095671 A KR20210095671 A KR 20210095671A
Authority
KR
South Korea
Prior art keywords
neural network
image
feature data
similarity
training
Prior art date
Application number
KR1020217019630A
Other languages
English (en)
Inventor
이시아오 거
다펑 첸
홍셩 리
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20210095671A publication Critical patent/KR20210095671A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06K9/6256
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 이미지 처리 방법 및 관련 장치를 개시하는 것으로, 이 방법은 처리 대상의 이미지를 취득하는 것과, 대상 뉴럴 네트워크를 사용하여 상기 처리 대상의 이미지에 대해 특징 추출 처리를 행하여 상기 처리 대상의 이미지의 목표 특징 데이터를 취득하는 것을 포함하고, 상기 목표 뉴럴 네트워크의 파라미터는 제1 뉴럴 네트워크의 파라미터의 시계열 평균값이고, 상기 제1 뉴럴 네트워크는 트레이닝 이미지 세트 및 평균 네트워크를 사용하여 교사 트레이닝을 행하여 취득되고, 상기 평균 네트워크의 파라미터는 제2 뉴럴 네트워크의 파라미터의 시계열 평균값이고, 상기 제2 뉴럴 네트워크는 상기 트레이닝 이미지 세트 및 상기 목표 뉴럴 네트워크를 사용하여 교사 트레이닝을 행하여 취득되는 것으로, 본 발명은 추가로, 대응하는 장치를 개시하고 있으며, 처리 대상의 이미지에 대해 특징 추출 처리를 행함으로써 처리 대상의 이미지 대상의 특징 데이터를 취득한다.

Description

이미지 처리 방법 및 관련 장치
본 발명은 2019년 9월 24일에 중국 특허청에 제출된, 제201910905445.7이고 발명의 명칭이 「이미지 처리 방법 및 관련 장치」인 중국 특허 출원의 우선권을 주장하고, 그 모든 내용은 원용함으로써 본 발명에 포함된다.
본 발명은 이미지 처리의 분야에 관한 것으로, 특히 이미지 처리 방법 및 관련 장치에 관한 것이다.
최근 뉴럴 네트워크는 그 우수한 성능에 의해 다양한 이미지 인식 태스크(예를 들면, 보행자의 재인식이나 이미지 분류)에 널리 사용되고 있다. 한편, 뉴럴 네트워크의 트레이닝에는 대량의 라벨 있는 데이터(labeled data)가 필요하다. 사람들은 비교사 학습(unsupervised learning)으로 라벨 없는 데이터(unlabeled data)를 사용하여 뉴럴 네트워크의 트레이닝을 완료한다. 종래의 비교사 학습 방법에서는 소스 도메인에서 트레이닝된 뉴럴 네트워크에 의해 타겟 도메인의 라벨 없는 이미지를 인식하고, 타겟 도메인의 라벨 없는 이미지에 라벨을 부가하고, 그 라벨을 교사로 하여 소스 도메인에서 트레이닝된 뉴럴 네트워크를 트레이닝하고, 소스 도메인에서 트레이닝된 뉴럴 네트워크의 파라미터를 조정하여 타겟 도메인에 적용되는 뉴럴 네트워크를 취득한다.
본 발명은 이미지 처리의 발명을 제공한다.
제1 측면에서는 처리 대상의 이미지를 취득하는 것과, 목표 뉴럴 네트워크를 사용하여 상기 처리 대상의 이미지에 대해 특징 추출 처리를 행하여 상기 처리 대상의 이미지의 목표 특징 데이터를 취득하는 것을 포함하고, 상기 목표 뉴럴 네트워크의 파라미터는 제1 뉴럴 네트워크의 파라미터의 시계열 평균값이고, 상기 제1 뉴럴 네트워크는 트레이닝 이미지 세트 및 평균 네트워크를 사용하여 교사 트레이닝(supervised Training)을 행하여 취득되고, 상기 평균 네트워크의 파라미터는 제2 뉴럴 네트워크의 파라미터의 시계열 평균값이고, 상기 제2 뉴럴 네트워크는 상기 트레이닝 이미지 세트 및 상기 목표 뉴럴 네트워크를 사용하여 교사 트레이닝을 행하여 취득되는 이미지 처리 방법을 제공한다.
이 측면에서는 제1 뉴럴 네트워크의 파라미터의 시계열 평균값과 제2 뉴럴 네트워크의 시계열 평균값을 결정하여 목표 뉴럴 네트워크의 파라미터와 평균 네트워크의 파라미터를 각각 취득하고, 목표 뉴럴 네트워크의 출력을 교사로 하여 제2 뉴럴 네트워크를 트레이닝하고, 평균 네트워크의 출력을 교사로 하여 제1 뉴럴 네트워크를 트레이닝하여 목표 뉴럴 네트워크를 트레이닝한다. 이에 의해, 트레이닝 효과를 향상시킬 수 있다. 또한 목표 뉴럴 네트워크를 사용하여 타겟 도메인에서 관련하는 인식 태스크를 실행할 때 정보가 보다 풍부한 목표 특징 데이터를 추출할 수 있다.
가능한 일 실시형태에서는 상기 제1 뉴럴 네트워크는 트레이닝 이미지 세트 및 평균 네트워크를 사용하여 교사 트레이닝을 행하여 취득되는 것은 상기 트레이닝 이미지 세트, 제1 트레이닝 대상의 뉴럴 네트워크 및 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것과, 상기 제1 트레이닝 대상의 뉴럴 네트워크 및 상기 제2 트레이닝 대상의 뉴럴 네트워크에 대해 x(x는 양의 정수)회의 제1 반복을 실행하여 상기 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크를 취득하는 것을 포함하고, 상기 x회의 제1 반복 중 i(i는 상기 x 이하의 양의 정수)회째 제1 반복은 상기 트레이닝 이미지 세트 및 i회째 제1 반복의 상기 평균 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하고, 상기 트레이닝 이미지 세트 및 i회째 제1 반복의 상기 목표 뉴럴 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함하고, 상기 목표 뉴럴 네트워크의 파라미터가 제1 뉴럴 네트워크의 파라미터의 시계열 평균값인 것은 i-1회째 제1 반복의 상기 목표 뉴럴 네트워크의 파라미터 및 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터에 기초하여 상기 i회째 제1 반복의 상기 목표 뉴럴 네트워크의 파라미터를 결정하는 것과, 상기 i=1인 경우, 상기 i-1회째 제1 반복의 상기 목표 뉴럴 네트워크의 파라미터는 상기 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터와 동일한 것을 포함한다.
이 가능한 실시형태에서는 i회째 제1 반복에 있어서, i회째 제1 반복의 평균 네트워크를 사용하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 교사 트레이닝을 행하고, i회째 제1 반복의 목표 뉴럴 네트워크를 사용하여 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크의 교사 트레이닝을 행한다. 이에 의해, i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크의 출력과 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 출력과의 관련성이 트레이닝 효과에 주는 영향을 줄여 트레이닝 효과를 향상시킬 수 있다.
다른 가능한 일 실시형태에서는 상기 트레이닝 이미지 세트 및 i회째 평균 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여, i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제1 특징 데이터 세트를 취득하고, 상기 i회째 제1 반복의 상기 평균 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제2 특징 데이터 세트를 취득하는 것과, 상기 제1 특징 데이터 세트 및 상기 제2 특징 데이터 세트에 기초하여 제1 소프트 트리플렛 손실을 취득하는 것과, 상기 트레이닝 이미지 세트 및 상기 제1 소프트 트리플렛 손실을 교사로 하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 상기 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함한다.
이 가능한 일 실시형태에서는 제1 특징 데이터 세트 및 제2 특징 데이터 세트에 의해 제1 소프트 트리플렛 손실을 결정하고, i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터를 조정한다. 이에 의해, 타겟 도메인의 이미지에 대한 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 특징 추출 효과를 향상시켜 타겟 도메인의 이미지에 대한 목표 뉴럴 네트워크의 특징 추출 효과를 향상시킬 수 있다.
다른 가능한 일 실시형태에서는 상기 제1 특징 데이터 세트 및 상기 제2 특징 데이터 세트에 기초하여 제1 소프트 트리플렛 손실을 취득하는 것은 상기 트레이닝 이미지 세트 내의 제1 이미지의 상기 제1 특징 데이터 세트에서의 제1 특징 데이터와, 상기 제1 특징 데이터 세트 내의, 상기 제1 이미지의 제1 라벨과 동일한 라벨을 갖는 이미지의 특징 데이터를 포함하는 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제1 유사도를 취득하는 것과, 상기 제1 이미지의 상기 제2 특징 데이터 세트에서의 제2 특징 데이터와, 상기 제2 특징 데이터 세트 내의 상기 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제2 유사도를 취득하는 것과, 상기 제1 특징 데이터와, 상기 제1 특징 데이터 세트 내의, 상기 제1 라벨과 상이한 라벨을 갖는 이미지의 특징 데이터를 포함하는 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제3 유사도를 취득하고, 상기 제2 특징 데이터와, 상기 제2 특징 데이터 세트 내의 상기 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제4 유사도를 취득하는 것과, 상기 제1 유사도, 상기 제2 유사도, 상기 제3 유사도 및 상기 제4 유사도를 각각 정규화 처리하여 제5 유사도, 제6 유사도, 제7 유사도 및 제8 유사도를 취득하는 것과, 상기 제5 유사도, 상기 제6 유사도, 상기 제7 유사도 및 상기 제8 유사도에 기초하여 상기 제1 소프트 트리플렛 손실을 취득하는 것을 포함한다.
이 가능한 일 실시형태에서는 제1 유사도, 제2 유사도, 제3 유사도 및 제4 유사도를 정규화 처리하여 제1 유사도, 제2 유사도, 제3 유사도 및 제4 유사도를 0에서 1사이의 수치로 변환하여, 데이터의 실제 분포에 의해 매칭하는 제5 유사도, 제6 유사도, 제7 유사도 및 제8 유사도를 취득한다. 이에 의해 목표 뉴럴 네트워크에 대한 트레이닝 효과를 향상시킨다.
다른 가능한 일 실시형태에서는 상기 제1 유사도, 상기 제2 유사도, 상기 제3 유사도 및 상기 제4 유사도를 각각 정규화 처리하여 제5 유사도, 제6 유사도, 제7 유사도 및 제8 유사도를 취득하는 것은 상기 제2 유사도와 상기 제4 유사도의 합을 제1 총 유사도로서 취득하고, 상기 제1 유사도와 상기 제3 유사도의 합을 제2 총 유사도로서 취득하는 것과, 상기 제2 유사도와 상기 제1 총 유사도의 몫을 상기 제5 유사도로서 취득하고, 상기 제4 유사도와 상기 제1 총 유사도의 몫을 상기 제6 유사도로서 취득하는 것과, 상기 제1 유사도와 상기 제2 총 유사도의 몫을 상기 제7 유사도로서 취득하고, 상기 제3 유사도와 상기 제2 총 유사도의 몫을 상기 제8 유사도로서 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 트레이닝 이미지 세트 및 상기 제1 소프트 트리플렛 손실을 교사로 하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 상기 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지를 처리하여 제1 분류 결과를 취득하는 것과, 상기 제1 분류 결과, 상기 제1 라벨 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 제1 손실을 결정하는 것과, 상기 제1 손실에 기초하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터를 조정하여 상기 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제1 분류 결과, 상기 제1 라벨 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 제1 손실을 결정하는 것은 상기 제1 분류 결과와 상기 제1 라벨의 차분에 기초하여 제1 하드 분류 손실을 결정하는 것과, 상기 제1 하드 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제1 하드 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하기 전에, 상기 i회째 제1 반복의 상기 평균 네트워크에 의해 상기 제1 이미지를 처리하여 제2 분류 결과를 취득하는 것과, 상기 제1 분류 결과와 상기 제2 분류 결과의 차분에 기초하여 제1 소프트 분류 손실을 결정하는 것을 추가로 포함하고, 상기 제1 하드 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것은 상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하기 전에, 상기 제1 유사도 및 상기 제3 유사도에 기초하여 제1 하드 트리플렛 손실을 결정하는 것을 추가로 포함하고, 상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것은 상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실, 상기 제1 소프트 트리플렛 손실 및 상기 제1 하드 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트 내의 제1 이미지를 처리하여 제1 분류 결과를 취득하는 것은 상기 트레이닝 이미지 세트에 대해 소거 처리, 트리밍 처리, 반전 처리 중 어느 것을 포함하는 제1 전처리를 행하여 제1 이미지 세트를 취득하는 것과, 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지 세트 내의 제2 이미지를 처리하여 상기 제1 분류 결과를 취득하는 것을 포함하고, 상기 제2 이미지는 상기 제1 이미지에 대해 상기 제1 전처리를 행하여 취득되고, 상기 제2 이미지의 상기 제1 특징 데이터 세트에서의 특징 데이터는 상기 제1 이미지의 상기 제1 특징 데이터 세트에서의 데이터와 동일하다.
이 가능한 일 실시형태에서는 트레이닝 이미지 세트 내의 이미지에 대해 제1 전처리를 행하여 제1 이미지 세트를 취득하고, 제1 이미지 세트를 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크 및 i회째 제1 반복의 목표 뉴럴 네트워크에 입력한다. 이에 의해, 트레이닝 중에 과잉 적합이 발생하는 확률을 줄인다.
다른 가능한 일 실시형태에서는 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제1 특징 데이터 세트를 취득하는 것은 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지 세트를 처리하여 상기 제1 특징 데이터 세트를 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 트레이닝 이미지 세트를 취득하는 것은 처리 대상의 이미지 세트 및 제3 뉴럴 네트워크를 취득하는 것과, 상기 제3 뉴럴 네트워크에 대해 y(y는 양의 정수임)회의 제2 반복을 실행하여 상기 트레이닝 이미지 세트를 취득하는 것을 포함하고, 상기 y회의 제2 반복 중 t(t는 상기 y보다 작은 양의 정수)회째 제2 반복은 상기 처리 대상의 이미지 세트로부터 샘플링하여 제2 이미지 세트를 취득하고, t회째 제2 반복의 제3 뉴럴 네트워크에 의해 상기 제2 이미지 세트 내의 이미지를 처리하여, 상기 제2 이미지 세트 내의 이미지의 특징 데이터를 포함하는 제3 특징 데이터 세트 및 상기 제2 이미지 세트 내의 이미지의 분류 결과를 포함하는 분류 결과 세트를 취득하는 것과, 상기 제3 특징 데이터 세트 내의 특징 데이터를 클러스터링 처리하여 상기 제3 특징 데이터 세트 내의 특징 데이터의 라벨을 결정하고, 상기 제3 특징 데이터 세트 내의 특징 데이터의 라벨을 상기 제2 이미지 세트 내의 대응하는 이미지에 부가하여 제3 이미지 세트를 취득하는 것과, 상기 분류 결과 세트 내의 분류 결과와 상기 제3 이미지 세트 내의 이미지의 라벨의 차분에 기초하여 제3 손실을 결정하는 것과, 상기 제3 손실에 기초하여 상기 t회째 제2 반복의 제3 뉴럴 네트워크의 파라미터를 조정하여 t+1회째 제2 반복의 제3 뉴럴 네트워크의 파라미터를 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 방법은 상기 목표 특징 데이터로 데이터베이스를 검색하여 상기 목표 특징 데이터에 매칭하는 특징 데이터의 이미지를 갖는 목표 이미지로서 취득하는 것을 추가로 포함한다.
다른 가능한 일 실시형태에서는 상기 처리 대상의 이미지는 인물 오브젝트를 포함한다.
다른 가능한 일 실시형태에서는 상기 트레이닝 이미지 세트 및 i회째 제1 반복의 상기 목표 뉴럴 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제4 특징 데이터 세트를 취득하고, 상기 i회째 제1 반복의 상기 목표 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제5 특징 데이터 세트를 취득하는 것과, 상기 제4 특징 데이터 세트 및 상기 제5 특징 데이터 세트에 기초하여 제2 소프트 트리플렛 손실을 취득하는 것과, 상기 트레이닝 이미지 세트 및 상기 제2 소프트 트리플렛 손실을 교사로 하여 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 상기 i+1회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제4 특징 데이터 세트 및 상기 제5 특징 데이터 세트에 기초하여 제2 소프트 트리플렛 손실을 취득하는 것은 상기 제1 이미지의 상기 제4 특징 데이터 세트에서의 제3 특징 데이터와, 상기 제4 특징 데이터 세트 내의, 상기 제1 라벨과 동일한 라벨을 갖는 이미지의 특징 데이터를 포함하는 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제9 유사도를 취득하는 것과, 상기 제1 이미지의 상기 제5 특징 데이터 세트에서의 제4 특징 데이터와, 상기 제5 특징 데이터 세트의 상기 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제11 유사도를 취득하는 것과, 상기 제3 특징 데이터와, 상기 제4 특징 데이터 세트 내의, 상기 제1 라벨과 상이한 라벨을 갖는 이미지의 특징 데이터를 포함하는 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제10 유사도를 취득하는 것과, 상기 제3 특징 데이터와, 상기 제4 특징 데이터 세트의 상기 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제12 유사도를 취득하는 것과, 상기 제9 유사도, 상기 제10 유사도, 상기 제11 유사도 및 상기 제12 유사도를 각각 정규화 처리하여 제13 유사도, 제14 유사도, 제15 유사도 및 제16 유사도를 취득하는 것과, 상기 제13 유사도, 상기 제14 유사도, 상기 제15 유사도 및 상기 제16 유사도에 기초하여 상기 제2 소프트 트리플렛 손실을 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제9 유사도, 상기 제10 유사도, 상기 제11 유사도 및 상기 제12 유사도를 각각 정규화 처리하여 제13 유사도, 제14 유사도, 제15 유사도 및 제16 유사도를 취득하는 것은 상기 제9 유사도와 상기 제10 유사도의 합을 제3 총 유사도로서 취득하고, 상기 제11 유사도와 상기 제12 유사도의 합을 제4 총 유사도로서 취득하는 것과, 상기 제9 유사도와 상기 제3 총 유사도의 몫을 상기 제13 유사도로서 취득하고, 상기 제10 유사도와 상기 제3 총 유사도의 몫을 상기 제14 유사도로서 취득하는 것과, 상기 제11 유사도와 상기 제4 총 유사도의 몫을 상기 제15 유사도로서 취득하고, 상기 제12 유사도와 상기 제4 총 유사도의 몫을 상기 제16 유사도로서 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 트레이닝 이미지 세트 및 상기 제2 소프트 트리플렛 손실을 교사로 하여 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 상기 i+1회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지를 처리하여 제3 분류 결과를 취득하는 것과, 상기 제3 분류 결과, 상기 제1 라벨 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크의 제2 손실을 결정하는 것과, 상기 제2 손실에 기초하여 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크의 파라미터를 조정하여 상기 i+1회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제3 분류 결과, 상기 제1 라벨 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크의 제2 손실을 결정하는 것은 상기 제3 분류 결과와 상기 제1 라벨의 차분에 기초하여 제2 하드 분류 손실을 결정하는 것과, 상기 제2 하드 분류 손실 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 제2 손실을 결정하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제2 하드 분류 손실 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 제2 손실을 결정하기 전에, 상기 i회째 제1 반복의 상기 목표 뉴럴 네트워크에 의해 상기 제1 이미지를 처리하여 제4 분류 결과를 취득하는 것과, 상기 제3 분류 결과와 상기 제4 분류 결과의 차분에 기초하여 제2 소프트 분류 손실을 결정하는 것을 추가로 포함하고, 상기 제2 하드 분류 손실 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 제2 손실을 결정하는 것은 상기 제2 하드 분류 손실, 상기 제2 소프트 분류 손실 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 제2 손실을 결정하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제2 하드 분류 손실, 상기 제2 소프트 분류 손실 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 제2 손실을 결정하기 전에, 상기 제9 유사도 및 상기 제10 유사도에 기초하여 제2 하드 트리플렛 손실을 결정하는 것을 추가로 포함하고, 상기 제2 하드 분류 손실, 상기 제2 소프트 분류 손실 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 제2 손실을 결정하는 것은 상기 제2 하드 분류 손실, 상기 제2 소프트 분류 손실, 상기 제2 소프트 트리플렛 손실 및 상기 제2 하드 트리플렛 손실에 기초하여 상기 제2 손실을 결정하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트 내의 제1 이미지를 처리하여 제3 분류 결과를 취득하는 것은 상기 트레이닝 이미지 세트에 대해 소거 처리, 트리밍 처리, 반전 처리 중 어느 것을 포함하는 제2 전처리를 행하여 제4 이미지 세트를 취득하는 것과, 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제4 이미지 세트의 제3 이미지를 처리하여 상기 제3 분류 결과를 취득하는 것을 포함하고, 상기 제3 이미지는 상기 제1 이미지에 대해 상기 제2 전처리를 행하여 취득되고, 상기 제3 이미지의 상기 제4 특징 데이터 세트에서의 특징 데이터는 상기 제1 이미지의 상기 제4 특징 데이터 세트에서의 데이터와 동일하고, 상기 제1 전처리는 상기 제2 전처리와 상이하다.
다른 가능한 일 실시형태에서는 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제4 특징 데이터 세트를 취득하는 것은 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제4 이미지 세트를 처리하여 상기 제4 특징 데이터 세트를 취득하는 것을 포함한다.
제2 측면에서는 처리 대상의 이미지를 취득하기 위한 취득 유닛과, 목표 뉴럴 네트워크를 사용하여 상기 처리 대상의 이미지에 대해 특징 추출 처리를 행하여 상기 처리 대상의 이미지의 목표 특징 데이터를 취득하기 위한 특징 추출 처리 유닛을 구비하고, 상기 목표 뉴럴 네트워크의 파라미터는 제1 뉴럴 네트워크의 파라미터의 시계열 평균값이고, 상기 제1 뉴럴 네트워크는 트레이닝 이미지 세트 및 평균 네트워크를 사용하여 교사 트레이닝을 행하여 취득되고, 상기 평균 네트워크의 파라미터는 제2 뉴럴 네트워크의 파라미터의 시계열 평균값이고, 상기 제2 뉴럴 네트워크는 상기 트레이닝 이미지 세트 및 상기 목표 뉴럴 네트워크를 사용하여 교사 트레이닝을 행하여 취득되는 이미지 처리 장치를 제공한다.
가능한 일 실시형태에서는 상기 제1 뉴럴 네트워크는 트레이닝 이미지 세트 및 평균 네트워크를 사용하여 교사 트레이닝을 행하여 취득되는 것은 상기 트레이닝 이미지 세트, 제1 트레이닝 대상의 뉴럴 네트워크 및 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것과, 상기 제1 트레이닝 대상의 뉴럴 네트워크 및 상기 제2 트레이닝 대상의 뉴럴 네트워크에 대해 x(x는 양의 정수)회의 제1 반복을 실행하여 상기 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크를 취득하는 것을 포함하고, 상기 x회의 제1 반복 중 i(i는 상기 x 이하의 양의 정수)회째 제1 반복은 상기 트레이닝 이미지 세트 및 i회째 제1 반복의 상기 평균 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하고, 상기 트레이닝 이미지 세트 및 i회째 제1 반복의 상기 목표 뉴럴 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함하고, 상기 목표 뉴럴 네트워크의 파라미터가 제1 뉴럴 네트워크의 파라미터의 시계열 평균값인 것은 i-1회째 제1 반복의 상기 목표 뉴럴 네트워크의 파라미터 및 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터에 기초하여 상기 i회째 제1 반복의 상기 목표 뉴럴 네트워크의 파라미터를 결정하는 것과, 상기 i=1인 경우, 상기 i-1회째 제1 반복의 상기 목표 뉴럴 네트워크의 파라미터는 상기 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터와 동일한 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 트레이닝 이미지 세트 및 i회째 평균 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제1 특징 데이터 세트를 취득하고, 상기 i회째 제1 반복의 상기 평균 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제2 특징 데이터 세트를 취득하는 것과, 상기 제1 특징 데이터 세트 및 상기 제2 특징 데이터 세트에 기초하여 제1 소프트 트리플렛 손실을 취득하는 것과, 상기 트레이닝 이미지 세트 및 상기 제1 소프트 트리플렛 손실을 교사로 하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 상기 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제1 특징 데이터 세트 및 상기 제2 특징 데이터 세트에 기초하여 제1 소프트 트리플렛 손실을 취득하는 것은 상기 트레이닝 이미지 세트 내의 제1 이미지의 상기 제1 특징 데이터 세트에서의 제1 특징 데이터와, 상기 제1 특징 데이터 세트 내의, 상기 제1 이미지의 제1 라벨과 동일한 라벨을 갖는 이미지의 특징 데이터를 포함하는 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제1 유사도를 취득하고, 상기 제1 이미지의 상기 제2 특징 데이터 세트에서의 제2 특징 데이터와, 상기 제2 특징 데이터 세트 내의 상기 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제2 유사도를 취득하는 것과, 상기 제1 특징 데이터와, 상기 제1 특징 데이터 세트 내의, 상기 제1 라벨과 상이한 라벨을 갖는 이미지의 특징 데이터를 포함하는 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제3 유사도를 취득하고, 상기 제2 특징 데이터와, 상기 제2 특징 데이터 세트 내의 상기 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제4 유사도를 취득하는 것과, 상기 제1 유사도, 상기 제2 유사도, 상기 제3 유사도 및 상기 제4 유사도를 각각 정규화 처리하여 제5 유사도, 제6 유사도, 제7 유사도 및 제8 유사도를 취득하는 것과, 상기 제5 유사도, 상기 제6 유사도, 상기 제7 유사도 및 상기 제8 유사도에 기초하여 상기 제1 소프트 트리플렛 손실을 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제1 유사도, 상기 제2 유사도, 상기 제3 유사도 및 상기 제4 유사도를 각각 정규화 처리하여 제5 유사도, 제6 유사도, 제7 유사도 및 제8 유사도를 취득하는 것은 상기 제2 유사도와 상기 제4 유사도의 합을 제1 총 유사도로서 취득하고, 상기 제1 유사도와 상기 제3 유사도의 합을 제2 총 유사도로서 취득하는 것과, 상기 제2 유사도와 상기 제1 총 유사도의 몫을 상기 제5 유사도로서 취득하고, 상기 제4 유사도와 상기 제1 총 유사도의 몫을 상기 제6 유사도로서 취득하는 것과, 상기 제1 유사도와 상기 제2 총 유사도의 몫을 상기 제7 유사도로서 취득하고, 상기 제3 유사도와 상기 제2 총 유사도의 몫을 상기 제8 유사도로서 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 트레이닝 이미지 세트 및 상기 제1 소프트 트리플렛 손실을 교사로 하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 상기 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지를 처리하여 제1 분류 결과를 취득하는 것과, 상기 제1 분류 결과, 상기 제1 라벨 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 제1 손실을 결정하는 것과, 상기 제1 손실에 기초하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터를 조정하여 상기 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제1 분류 결과, 상기 제1 라벨 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 제1 손실을 결정하는 것은 상기 제1 분류 결과와 상기 제1 라벨의 차분에 기초하여 제1 하드 분류 손실을 결정하는 것과, 상기 제1 하드 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제1 하드 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하기 전에, 상기 i회째 제1 반복의 상기 평균 네트워크에 의해 상기 제1 이미지를 처리하여 제2 분류 결과를 취득하고, 상기 제1 분류 결과와 상기 제2 분류 결과의 차분에 기초하여 제1 소프트 분류 손실을 결정하고, 상기 제1 하드 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것은 상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하기 전에, 상기 제1 유사도 및 상기 제3 유사도에 기초하여 제1 하드 트리플렛 손실을 결정하고, 상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것은 상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실, 상기 제1 소프트 트리플렛 손실 및 상기 제1 하드 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트 내의 제1 이미지를 처리하여 제1 분류 결과 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은 상기 트레이닝 이미지 세트에 대해 소거 처리, 트리밍 처리, 반전 처리 중 어느 것을 포함하는 제1 전처리를 행하여 제1 이미지 세트를 취득하는 것과, 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지 세트 내의 제2 이미지를 처리하여 상기 제1 분류 결과를 취득하는 것을 포함하고, 상기 제2 이미지는 상기 제1 이미지에 대해 상기 제1 전처리를 행하여 취득되고, 상기 제2 이미지의 상기 제1 특징 데이터 세트에서의 특징 데이터는 상기 제1 이미지의 상기 제1 특징 데이터 세트에서의 데이터와 동일하다.
다른 가능한 일 실시형태에서는 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제1 특징 데이터 세트를 취득하는 것은 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지 세트를 처리하여 상기 제1 특징 데이터 세트를 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 취득 유닛은 구체적으로, 처리 대상의 이미지 세트 및 제3 뉴럴 네트워크를 취득하는 것과, 상기 제3 뉴럴 네트워크에 대해 y(y는 양의 정수)회의 제2 반복을 실행하여 상기 트레이닝 이미지 세트를 취득하는 것에 사용되고, 상기 y회의 제2 반복 중 t(t는 상기 y보다 작은 양의 정수)회째 제2 반복은 상기 처리 대상의 이미지 세트로부터 샘플링하여 제2 이미지 세트를 취득하고, t회째 제2 반복의 제3 뉴럴 네트워크에 의해 상기 제2 이미지 세트 내의 이미지를 처리하여, 상기 제2 이미지 세트 내의 이미지의 특징 데이터를 포함하는 제3 특징 데이터 세트 및 상기 제2 이미지 세트 내의 이미지의 분류 결과를 포함하는 분류 결과 세트를 취득하는 것과, 상기 제3 특징 데이터 세트 내의 특징 데이터를 클러스터링 처리하여 상기 제3 특징 데이터 세트 내의 특징 데이터의 라벨을 결정하고, 상기 제3 특징 데이터 세트 내의 특징 데이터의 라벨을 상기 제2 이미지 세트 내의 대응하는 이미지에 부가하여 제3 이미지 세트를 취득하는 것과, 상기 분류 결과 세트 내의 분류 결과와 상기 제3 이미지 세트 내의 이미지의 라벨의 차분에 기초하여 제3 손실을 결정하는 것과, 상기 제3 손실에 기초하여 상기 t회째 제2 반복의 제3 뉴럴 네트워크의 파라미터를 조정하여 t+1회째 제2 반복의 제3 뉴럴 네트워크의 파라미터를 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 장치는 상기 목표 특징 데이터로 데이터베이스를 검색하여 상기 목표 특징 데이터에 매칭하는 특징 데이터를 갖는 이미지를 목표 이미지로서 취득하기 위한 검색 유닛을 추가로 포함한다.
다른 가능한 일 실시형태에서는 상기 트레이닝 이미지 세트 및 i회째 제1 반복의 상기 목표 뉴럴 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제4 특징 데이터 세트를 취득하고, 상기 i회째 제1 반복의 상기 목표 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제5 특징 데이터 세트를 취득하는 것과, 상기 제4 특징 데이터 세트 및 상기 제5 특징 데이터 세트에 기초하여 제2 소프트 트리플렛 손실을 취득하는 것과, 상기 트레이닝 이미지 세트 및 상기 제2 소프트 트리플렛 손실을 교사로 하여 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 상기 i+1회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제4 특징 데이터 세트 및 상기 제5 특징 데이터 세트에 기초하여 제2 소프트 트리플렛 손실을 취득하는 것은 상기 제1 이미지의 상기 제4 특징 데이터 세트에서의 제3 특징 데이터와, 상기 제4 특징 데이터 세트 내의, 상기 제1 라벨과 동일한 라벨을 갖는 이미지의 특징 데이터를 포함하는 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제9 유사도를 취득하는 것과, 상기 제1 이미지의 상기 제5 특징 데이터 세트에서의 제4 특징 데이터와, 상기 제5 특징 데이터 세트의 상기 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제11 유사도를 취득하는 것과, 상기 제3 특징 데이터와, 상기 제4 특징 데이터 세트 내의, 상기 제1 라벨과 상이한 라벨을 갖는 이미지의 특징 데이터를 포함하는 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제10 유사도를 취득하는 것과, 상기 제3 특징 데이터와, 상기 제4 특징 데이터 세트의 상기 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제12 유사도를 취득하는 것과, 상기 제9 유사도, 상기 제10 유사도, 상기 제11 유사도 및 상기 제12 유사도를 각각 정규화 처리하여 제13 유사도, 제14 유사도, 제15 유사도 및 제16 유사도를 취득하는 것과, 상기 제13 유사도, 상기 제14 유사도, 상기 제15 유사도 및 상기 제16 유사도에 기초하여 상기 제2 소프트 트리플렛 손실을 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제9 유사도, 상기 제10 유사도, 상기 제11 유사도 및 상기 제12 유사도를 각각 정규화 처리하여 제13 유사도, 제14 유사도, 제15 유사도 및 제16 유사도를 취득하는 것은 상기 제9 유사도와 상기 제10 유사도의 합을 제3 총 유사도로서 취득하고, 상기 제11 유사도와 상기 제12 유사도의 합을 제4 총 유사도로서 취득하는 것과, 상기 제9 유사도와 상기 제3 총 유사도의 몫을 상기 제13 유사도로서 취득하고, 상기 제10 유사도와 상기 제3 총 유사도의 몫을 상기 제14 유사도로서 취득하는 것과, 상기 제11 유사도와 상기 제4 총 유사도의 몫을 상기 제15 유사도로서 취득하고, 상기 제12 유사도와 상기 제4 총 유사도의 몫을 상기 제16 유사도로서 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 트레이닝 이미지 세트 및 상기 제2 소프트 트리플렛 손실을 교사로 하여 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 상기 i+1회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지를 처리하여 제3 분류 결과를 취득하는 것과, 상기 제3 분류 결과, 상기 제1 라벨 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크의 제2 손실을 결정하는 것과, 상기 제2 손실에 기초하여 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크의 파라미터를 조정하여 상기 i+1회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제3 분류 결과, 상기 제1 라벨 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크의 제2 손실을 결정하는 것은 상기 제3 분류 결과와 상기 제1 라벨의 차분에 기초하여 제2 하드 분류 손실을 결정하는 것과, 상기 제2 하드 분류 손실 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 제2 손실을 결정하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제2 하드 분류 손실 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 제2 손실을 결정하기 전에, 상기 i회째 제1 반복의 상기 목표 뉴럴 네트워크에 의해 상기 제1 이미지를 처리하여 제4 분류 결과를 취득하고, 상기 제3 분류 결과와 상기 제4 분류 결과의 차분에 기초하여 제2 소프트 분류 손실을 결정하고, 상기 제2 하드 분류 손실 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 제2 손실을 결정하는 것은 상기 제2 하드 분류 손실, 상기 제2 소프트 분류 손실 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 제2 손실을 결정하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 제2 하드 분류 손실, 상기 제2 소프트 분류 손실 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 제2 손실을 결정하기 전에, 상기 제9 유사도 및 상기 제10 유사도에 기초하여 제2 하드 트리플렛 손실을 결정하고, 상기 제2 하드 분류 손실, 상기 제2 소프트 분류 손실 및 상기 제2 소프트 트리플렛 손실에 기초하여 상기 제2 손실을 결정하는 것은 상기 제2 하드 분류 손실, 상기 제2 소프트 분류 손실, 상기 제2 소프트 트리플렛 손실 및 상기 제2 하드 트리플렛 손실에 기초하여 상기 제2 손실을 결정하는 것을 포함한다.
다른 가능한 일 실시형태에서는 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트 내의 제1 이미지를 처리하여 제3 분류 결과를 취득하는 것은 상기 트레이닝 이미지 세트에 대해 소거 처리, 트리밍 처리, 반전 처리 중 어느 것을 포함하는 제2 전처리를 행하여 제4 이미지 세트를 취득하는 것과, 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제4 이미지 세트의 제3 이미지를 처리하여 상기 제3 분류 결과를 취득하는 것을 포함하고, 상기 제3 이미지는 상기 제1 이미지에 대해 상기 제2 전처리를 행하여 취득되고, 상기 제3 이미지의 상기 제4 특징 데이터 세트에서의 특징 데이터는 상기 제1 이미지의 상기 제4 특징 데이터 세트에서의 데이터와 동일하고, 상기 제1 전처리는 상기 제2 전처리와 상이하다.
다른 가능한 일 실시형태에서는 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제4 특징 데이터 세트를 취득하는 것은 상기 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제4 이미지 세트를 처리하여 상기 제4 특징 데이터 세트를 취득하는 것을 포함한다.
제3 측면에서는 상기 제1 측면 및 그 중 어느 가능한 실시형태의 방법을 실행하는 프로세서를 제공한다.
제4 측면에서는 프로세서와, 송신 장치와, 입력 장치와, 출력 장치와, 컴퓨터 명령을 포함하는 컴퓨터 프로그램 코드를 기억하기 위한 메모리를 구비하는 전자 기기로서, 상기 프로세서가 상기 컴퓨터 명령을 실행하면 상기 제1 측면 및 그 중 어느 가능한 실시형태의 방법을 실행하는 전자 기기를 제공한다.
제5 측면에서는 프로그램 명령을 포함하는 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기억 매체로서, 상기 프로그램 명령이 전자 기기의 프로세서에 의해 실행되면 상기 제1 측면 및 그 중 어느 가능한 실시형태의 방법을 상기 프로세서에 실행시키는 컴퓨터 판독 가능 기억 매체를 제공한다.
제6 측면에서는 명령을 포함하는 컴퓨터 프로그램 제품으로서, 컴퓨터에서 실행되면 상기 제1 측면 및 그 중 어느 가능한 실시형태의 방법을 컴퓨터에 실행시키는 컴퓨터 프로그램 제품을 제공한다.
아울러 상술한 개략적인 설명 및 다음의 상세한 설명은 예시적 및 해석적인 것에 지나지 않고 본 발명을 한정하는 것은 아니다.
본 발명의 실시예 또는 배경 기술 방안을 보다 명확하게 설명하기 위해, 본 발명의 실시예 또는 배경 기술에 사용할 필요가 있는 도면에 대해 설명한다.
여기서 본 명세서의 일부로서 포함되는 도면은 본 발명의 실시예에 바람직하고, 명세서와 함께 본 발명의 기술 방안의 설명에 사용된다.
도 1은 본 발명의 실시예에 따른 이미지 처리 방법의 흐름도이다.
도 2는 본 발명의 실시예에 따른 트레이닝 방법의 모식도이다.
도 3은 본 발명의 실시예에 따른 다른 이미지 처리 방법의 흐름도이다.
도 4는 본 발명의 실시예에 따른 다른 트레이닝 방법의 모식도이다.
도 5는 본 발명의 실시예에 따른 다른 트레이닝 방법의 모식도이다.
도 6은 본 발명의 실시예에 따른 다른 이미지 처리 방법의 흐름도이다.
도 7은 본 발명의 실시예에 따른 이미지 처리 장치의 구조 모식도이다.
도 8은 본 발명의 실시예에 따른 이미지 처리 장치의 하드웨어 구조 모식도이다.
본 발명의 방안을 당업자가 더욱 잘 이해할 수 있도록 이하 본 발명의 실시예에서의 기술 방안을 본 발명의 실시예에서의 도면과 함께 명확하고 완전히 설명하나, 자명한 바와 같이, 설명된 실시예는 본 발명의 일부의 실시예에 지나지 않으며 모든 실시예는 아니다. 본 발명의 실시예에 기초하여, 당업자가 창조적인 노동을 행하지 않고 얻어지는 다른 모든 실시예는 본 발명의 보호 범위에 포함된다.
본 발명의 명세서, 특허청구 범위 및 상기 도면에서의 「제1」,「제2」 등의 용어는 상이한 대상을 구별하기 위한 것으로, 특정의 순서를 설명하기 위한 것은 아니다. 아울러, 「포함한다」 및 「갖는다」와 같은 용어 및 그 임의의 변형들은 배타적이지 않은 포함을 커버하는 것을 의도하고 있다. 예를 들면, 일련의 단계 또는 유닛을 포함하는 프로세스, 방법, 시스템, 제품 또는 설비는 열거된 단계 또는 유닛에 한정되지 않고, 경우에 따라 기재되지 않은 단계 또는 유닛을 추가로 포함하고, 또는 경우에 따라 이 프로세스, 방법, 제품 또는 설비에 고유의 다른 단계 또는 유닛을 추가로 포함한다. 본 명세서에서의 용어 「및/또는」은 단순히 관련 대상과의 관련 관계를 기술하는 것으로, 3개의 관계가 존재 가능한 것을 나타내고, 예를 들면, A 및/또는 B는 A만이 존재하거나, A와 B 전부가 존재하거나, B만이 존재하는 3개의 경우를 나타내도 된다. 또한 본 명세서에서의 용어 「하나 이상」은 복수 중 어느 것, 또는 복수 중 적어도 2개의 임의의 조합을 나타내고, 예를 들면, A, B, C 중 하나 이상을 포함하는 것은 A, B 및 C로 이루어지는 집합에서 선택된 어느 하나 또는 복수의 요소를 포함하는 것을 나타내도 된다. 본 명세서에서 「실시예」의 의미는 실시예에 관련하여 설명된 특정의 특징, 구조 또는 특성이 본 발명의 하나 이상의 실시예에 포함될 수 있다. 본 명세서의 다양한 부분에 상기 어구가 나타나는 것은 반드시 전부가 동일한 실시예를 나타내는 것은 아니고, 다른 실시예를 제외한 별개의 또는 대체의 실시예를 나타내는 것은 아니다. 당업자는 본 명세서에 기재된 실시예를 다른 실시예와 조합할 수 있는 것을 명백하게 그리고 암묵적으로 이해할 것이다.
최근 뉴럴 네트워크는 그 우수한 성능에 의해 다양한 이미지 인식 태스크(예를 들면, 보행자의 재인식이나 이미지 분류)에 널리 이용되고 있다. 이 태스크들에서의 뉴럴 네트워크의 표현 효과는 뉴럴 네트워크에 대한 트레이닝 효과에 크게 의존하고, 뉴럴 네트워크의 트레이닝 효과는 주로 트레이닝 뉴럴 네트워크를 트레이닝하는 트레이닝 이미지의 수에 의존한다. 즉, 트레이닝 이미지의 수가 많을 수록 뉴럴 네트워크의 트레이닝 효과가 양호해지고, 트레이닝된 뉴럴 네트워크를 적용하여 대응하는 이미지 인식의 태스크를 실행하는 효과가 양호해진다.
트레이닝 이미지란, 라벨 있는 정보(이하, 라벨이라고 함)를 갖는 이미지가다. 예를 들면, 실행할 필요가 있는 태스크가, 이미지에 포함되는 내용을 분류하여 이미지에 포함되는 내용이 사과, 바나나, 배, 복숭아, 오렌지, 수박 중 어느 것인지를 판단하는 것인 경우, 상기 라벨 있는 정보는 사과, 바나나, 배, 복숭아, 오렌지, 수박을 포함한다. 또한 예를 들면, 실행할 필요가 있는 태스크가, 보행자의 재인식, 즉 이미지에 포함되는 인물의 신원을 인식하는 것인 경우, 상기 라벨 있는 정보는 인물의 신원(예를 들면, 김아무개, 이아무개, 박아무개, 최아무개 등)을 포함한다.
트레이닝 이미지의 라벨 있는 정보가 정확하면 할수록 뉴럴 네트워크의 트레이닝 효과가 양호해지므로, 트레이닝 이미지의 라벨 있는(labeled) 이미지와 트레이닝 이미지의 실제의 내용의 매칭도가 높을수록 트레이닝 효과가 양호해진다. 예를 들면, 배를 포함하는 이미지를 사과로 라벨링하면 정확하지 않다. 또한 예를 들면, 김아무개를 포함하는 이미지를 이아무개로 라벨링하는 경우에도 정확하지 않다. 라벨 있는 정보가 정확하지 않은 트레이닝 이미지는 트레이닝 효과를 나쁘게 하기 때문에 종래의 방법에서는 인공에 의한 라벨링으로 트레이닝 이미지에의 라벨링을 완료하는 경우가 많다. 그러나, 트레이닝 이미지의 수가 방대한 경우에는 인공에 의한 라벨링의 효율이 낮아지고 인건비가 높아진다. 따라서 비교사 전이 학습과 같이 뉴럴 네트워크를 트레이닝한다, 즉, 기존의 라벨 있는 이미지에 의해 트레이닝된 뉴럴 네트워크를 라벨 없는 이미지에 적용하여 인건비를 저감시키는 사람들이 더욱 많아졌다.
뉴럴 네트워크는 상기 라벨 있는 이미지로 실행하는 태스크와 상기 라벨 없는 이미지로 실행하는 태스크가 관련성을 가지며, 상기 라벨 있는 이미지와 상기 라벨 없는 이미지 사이에도 관련성이 있다. 예를 들면,(예 1), A시의 감시 카메라에 의해 흐린 날에 보행자를 포함하는 이미지(이하, A지구의 이미지라고 함)를 대량으로 수집하고, A지구의 이미지에서의 보행자의 신원을 라벨링하여 라벨 있는 데이터를 취득하고, 라벨 있는 데이터를 사용하여 뉴럴 네트워크 a를 트레이닝함으로써, 트레이닝된 뉴럴 네트워크 a는 흐린 날에 A지구에서 수집한 이미지에서의 보행자의 신원을 인식하기 위해 사용할 수 있다. 현재 B지구에서 수집한 이미지에서의 보행자의 신원을 인식할 필요가 있으나, B지구로부터 수집한 이미지를 라벨링하여 취득된 이미지를 사용하여 새로운 뉴럴 네트워크(예를 들면, 뉴럴 네트워크 b)를 트레이닝하는 경우 방대한 인건비가 든다. 이 때문에, 비교사 전이 학습을 사용하여 트레이닝된 뉴럴 네트워크 a의 파라미터를 조정함으로써, 트레이닝된 뉴럴 네트워크 a를, B지구로부터 수집한 이미지에서의 보행자의 신원을 인식하기 위해 사용할 수 있다. 뉴럴 네트워크 a가 라벨 있는 이미지에서 실행하는 태스크와 라벨 없는 이미지(B지구로부터 수집한 이미지)에서 실행하는 태스크는 전부 보행자의 신원의 인식이고, 라벨 있는 이미지 및 라벨 없는 이미지는 전부 보행자를 포함하는 이미지가다.
라벨 있는 이미지와 라벨 없는 이미지는 서로 관련성이 있으나, 양자간에는 차이가 있으므로, 라벨 있는 이미지에 의해 트레이닝하여 취득된 뉴럴 네트워크를 라벨 없는 이미지에 직접 적용할 수 없다. 예 1에 이어서 예를 들면, 라벨 있는 데이터는 전부 흐린 날에 수집한 이미지가고, B지구로부터 수집한 이미지는 흐린 날에 수집한 이미지,맑은 날에 수집한 이미지 및 비오는 날에 수집한 이미지를 포함한다. 상이한 날씨에 수집한 이미지에서는 환경의 밝기가 상이하다. 상이한 환경의 밝기가 뉴럴 네트워크의 인식 정확률에 큰 영향을 준다. 예를 들면, 흐린 날에 수집한 이미지로 트레이닝하여 취득된 뉴럴 네트워크가 맑은 날에 수집한 이미지에서의 보행자의 신원에 대한 인식 정확률이 낮다. 아울러 A지구의 감시 카메라의 파라미터와 B지구의 감시 카메라의 파라미터도 상이하다(예를 들면, 촬영 각도). 이에 의해, 상이한 카메라에 의해 수집된 이미지에서의 보행자의 신원에 대한 뉴럴 네트워크의 인식 정확률도 상이하다. 예를 들면, A지구의 감시 카메라의 파라미터와 B지구의 감시 카메라의 파라미터도 상이하므로, 라벨 있는 데이터를 사용하여 트레이닝하여 취득된 뉴럴 네트워크는 B지구로부터 수집한 이미지에서의 보행자의 신원에 대한 인식 정확률이 낮다.
상기 라벨 있는 이미지를 포함하는 세트를 소스 도메인이라 하고, 상기 라벨 없는 이미지를 포함하는 세트를 타겟 도메인이라고 하면, 비교사 전이 학습은 소스 도메인에서 트레이닝된 뉴럴 네트워크를 타겟 도메인에 적용하는 뉴럴 네트워크의 트레이닝 방법이다.
종래의 비교사 학습 방법에서는 소스 도메인에서 트레이닝된 뉴럴 네트워크에 의해 타겟 도메인에서의 라벨 없는 이미지를 인식하고, 타겟 도메인에서의 라벨 없는 이미지에 라벨(이하, 의사(Pseudo) 하드 라벨이라고 함)을 부가하여, 의사 하드 라벨을 교사로 하여 소스 도메인에서 트레이닝된 뉴럴 네트워크의 파라미터를 조정하여 타겟 도메인에 적용되는 뉴럴 네트워크(이하, 적용 뉴럴 네트워크라고 함)를 취득한다. 의사 하드 라벨에는 오차가 있으므로, 의사 하드 라벨을 교사로 하여 소스 도메인에서 트레이닝된 뉴럴 네트워크를 트레이닝하는 효과가 나빠지고, 나아가서는 적용 뉴럴 네트워크의 타겟 도메인에서의 특징 추출 효과가 나빠지고, 나아가 타겟 도메인에서의 적용 효과가 나빠진다(예를 들면, 보행자의 신원에 대한 인식 정확률이 낮다). 본 발명의 실시예에 따른 기술 방안을 적용함으로써, 상기 종래의 방법에 있어서, 타겟 도메인에서의 특징 추출 효과가 타겟 도메인에서의 적용 뉴럴 네트워크의 특징 추출 효과보다 우수한 뉴럴 네트워크를 취득하여 타겟 도메인에서의 적용 효과를 향상시킬 수 있다.
본 발명의 실시예에 따른 기술 방안을 상세하게 설명하기 전에, 먼저 어느 개념을 정의한다. 1. 클래스 내에서 가장 어려운 특징 데이터: 라벨이 동일한 이미지의 특징 데이터 중 유사도가 가장 작은 2개의 특징 데이터. 2. 클래스 외에서 가장 어려운 특징 데이터: 라벨이 상이한 이미지의 특징 데이터 중 유사도가 가장 큰 2개의 특징 데이터. 3. 특징 데이터 세트에서의 이미지의 클래스 내에서 가장 어려운 특징 데이터: 상기 특징 데이터 세트에서의 상기 이미지의 특징 데이터의 클래스 내에서 가장 어려운 특징 데이터. 4. 특징 데이터 세트에서의 이미지의 클래스 외에서 가장 어려운 특징 데이터: 상기 특징 데이터 세트에서의 상기 이미지의 특징 데이터의 클래스 내에서 가장 어려운 특징 데이터.
예를 들면, 이미지 1의 특징 데이터를 특징 데이터 1로 하고, 이미지 2의 특징 데이터를 특징 데이터 2로 하고, 이미지 3의 특징 데이터를 특징 데이터 3으로 하고, 이미지 4의 특징 데이터를 특징 데이터 4로 하고, 이미지 5의 특징 데이터를 특징 데이터 5로 한다. 이미지 1의 라벨은 이미지 2의 라벨, 이미지 3의 라벨과 동일하고, 이미지 1의 라벨은 이미지 4의 라벨, 이미지 5의 라벨과 상이하다. 특징 데이터 1과 특징 데이터 2의 유사도가 특징 데이터 1과 특징 데이터 3의 유사도보다 작은 경우, 특징 데이터 3은 특징 데이터 1의 클래스 내에서 가장 어려운 특징 데이터이다. 특징 데이터 1과 특징 데이터 4의 유사도가 특징 데이터 1과 특징 데이터 5의 유사도보다 작은 경우, 특징 데이터 5는 특징 데이터 1의 클래스 외에서 가장 어려운 특징 데이터이다. 특징 데이터 세트 1이 특징 데이터 1, 특징 데이터 2, 특징 데이터 3, 특징 데이터 4및 특징 데이터 5를 포함한다고 하면, 특징 데이터 세트 1에서의 이미지 1의 클래스 내에서 가장 어려운 특징 데이터는 특징 데이터 3이고, 특징 데이터 세트 1에서의 이미지 1의 클래스 외에서 가장 어려운 특징 데이터는 특징 데이터 5이다.
이하 본 발명의 실시예에서의 도면을 참조하여 본 발명의 실시예를 설명한다. 본 발명의 실시예에 따른 이미지 처리 방법의 흐름도인 도 1을 참조한다.
101. 처리 대상의 이미지를 취득한다.
본 실시예의 실행 주체는 서버, 휴대 전화, 컴퓨터, 태블릿 등의 단말이어도 된다. 상기 처리 대상의 이미지는 임의의 디지털 이미지여도 된다. 예를 들면, 처리 대상의 이미지는 인물 오브젝트를 포함해도 된다. 처리 대상의 이미지는 동체, 사지(이하, 동체 및 사지를 인체라고 함)가 없고, 사람의 얼굴만을 포함해도 된다. 또한 처리 대상의 이미지는 인체만을 포함해도 되고, 인체를 포함하지 않고 하지 또는 상지만을 포함해도 된다. 본 발명은 처리 대상의 이미지에 구체적으로 포함되는 인체 영역을 한정하지 않는다. 또한 예를 들면, 처리 대상의 이미지는 동물을 포함해도 된다. 또한 예를 들면, 처리 대상의 이미지는 식물을 포함해도 된다. 본 발명은 처리 대상의 이미지에 포함되는 내용을 한정하지 않는다.
처리 대상의 이미지를 취득하는 방식으로는 사용자가 키보드, 마우스, 터치 패널, 터치 패드나 음성 입력 장치 등을 포함하는 입력 유닛을 통해 입력하는 처리 대상의 이미지를 수신하는 것이어도 되고, 휴대 전화, 컴퓨터, 태블릿이나 서버 등을 포함하는 단말로부터 송신되는 처리 대상의 이미지를 수신하는 것이어도 된다. 본 발명은 처리 대상의 이미지를 취득하는 방식을 한정하지 않는다.
102. 목표 뉴럴 네트워크를 사용하여 상기 처리 대상의 이미지에 대해 특징 추출 처리를 행하여 상기 처리 대상의 이미지의 목표 특징 데이터를 취득한다.
상기 목표 뉴럴 네트워크는 이미지로부터 특징 데이터를 추출하는 기능을 갖는 뉴럴 네트워크이다. 예를 들면, 목표 뉴럴 네트워크는 합성곱층, 풀링층, 정규화층, 전체 결합층, 다운샘플링층, 업샘플링층, 분류기 등의 뉴럴 네트워크층이 일정한 방식에 따라 적층되거나 또는 구성될 수 있다. 본 발명은 목표 뉴럴 네트워크의 구조를 한정하지 않는다.
하나의 가능한 실시형태에서는 목표 뉴럴 네트워크가 복수층의 합성곱층, 정규화층을 포함함으로써, 차례로, 목표 뉴럴 네트워크에서의 복수층의 합성곱층 및 정규화층에 의해 처리 대상의 이미지에 대해 합성곱 처리 및 정규화 처리를 행하고, 처리 대상의 이미지의 특징 데이터를 추출하여 목표 특징 데이터를 취득할 수 있다.
상술한 바와 같이, 종래의 방법에서의 의사 하드 라벨은 소스 도메인에서 트레이닝된 뉴럴 네트워크에 의해 취득되므로, 의사 하드 라벨을 교사로 하여, 소스 도메인에서 트레이닝된 뉴럴 네트워크를 트레이닝함으로써, 소스 도메인에서 트레이닝된 뉴럴 네트워크를 트레이닝 중에 학습이 나쁜 방향으로 점점 악화시키고, 나아가서는 적용 뉴럴 네트워크의 타겟 도메인에서의 적용 효과가 나빠진다.
예를 들면, 소스 도메인에서 트레이닝된 뉴럴 네트워크가 이아무개에 대한 인식 정확률이 낮다. 즉, 이아무개를 포함하는 이미지를 타인으로서 인식할 확률이 높다. 이아무개를 포함하는 이미지 a를 소스 도메인에서 트레이닝된 뉴럴 네트워크에 입력하고, 취득한 의사 하드 라벨은 박아무개이고, 박아무개를 교사 데이터로 하여, 소스 도메인에서 트레이닝된 뉴럴 네트워크의 파라미터를 조정한다. 소스 도메인에서 트레이닝된 뉴럴 네트워크의 파라미터를 조정함으로써, 이미지 a로부터 추출한 특징 데이터를 박아무개의 특징 데이터에 가깝게 한다. 이와 같이, 최종적으로 취득되는 적용 뉴럴 네트워크를 사용하여 이아무개를 포함하는 이미지를 인식하면, 추출된 특징 데이터는 전부 박아무개의 특징 데이터에 가깝기 때문에, 이아무개를 박아무개로 인식해 버린다.
종래의 방법에서의 상기 결함을 감안하여, 본 발명은 소스 도메인에서 트레이닝된 다른 뉴럴 네트워크(이하, 교사 뉴럴 네트워크라고 함)의 출력을 교사로 하여, 적용 뉴럴 네트워크의 출력을 트레이닝하여 타겟 도메인에서의 적용 뉴럴 네트워크의 적용 효과를 향상시킬 것으로 생각된다. 적용 뉴럴 네트워크 및 교사 뉴럴 네트워크는 전부, 소스 도메인에서 트레이닝된 뉴럴 네트워크이지만, 적용 뉴럴 네트워크와 교사 뉴럴 네트워크의 파라미터가 상이하다. 즉, 상이한 사람의 신원에 대한 적용 뉴럴 네트워크와 교사 뉴럴 네트워크의 인식 정확률이 상이하다. 예를 들면(예 2), 적용 뉴럴 네트워크는 김아무개에 대한 인식 정확률이 높지만, 최아무개에 대한 인식 정확률이 낮다. 한편, 교사 뉴럴 네트워크는 김아무개에 대한 인식 정확률이 낮지만, 최아무개에 대한 인식 정확률이 높다.
따라서, 적용 뉴럴 네트워크의 출력과 교사 뉴럴 네트워크의 출력을 사용하여 서로 교사 트레이닝을 행하는 경우, 즉, 적용 뉴럴 네트워크의 출력을 교사로 하여 교사 뉴럴 네트워크를 트레이닝하고, 교사 뉴럴 네트워크의 출력을 교사로 하여 적용 뉴럴 네트워크를 트레이닝하는 경우, 의사 하드 라벨 대신에 교사 뉴럴 네트워크의 출력을 교사로 하여 적용 뉴럴 네트워크를 트레이닝할 수 있다. 단, 상호의 교사 트레이닝 중에 적용 뉴럴 네트워크와 교사 뉴럴 네트워크의 파라미터는 동시에 갱신되기 때문에 적용 뉴럴 네트워크의 출력과 교사 뉴럴 네트워크의 출력의 유사도가 점점 높아진다(이하, 상호의 교사 트레이닝에 존재하는 이 결함을 관련성 결함이라고 한다). 나아가 상호의 교사 트레이닝 중에 교사 뉴럴 네트워크에 적용 뉴럴 네트워크의 「열세」(예를 들면, 예 2에서의 최아무개의 신원에 대한 적용 뉴럴 네트워크의 인식)를 학습시키고, 적용 뉴럴 네트워크에 교사 뉴럴 네트워크의 「열세」(예를 들면, 예 2에서의 김아무개의 신원에 대한 교사 뉴럴 네트워크의 인식)를 학습시킨다. 즉, 적용 뉴럴 네트워크의 파라미터와 제2 뉴럴 네트워크의 파라미터의 유사도가 높아진다. 이에 의해서는 적용 뉴럴 네트워크의 파라미터를 최적화할 수 없기 때문에 적용 뉴럴 네트워크의 타겟 도메인에서의 적용 효과를 향상시킬 수 없다.
상호의 교사 트레이닝 중에 존재하는 관련성 결함을 감안하여 본 발명의 실시예는 적용 뉴럴 네트워크와 교사 뉴럴 네트워크를 「분리」함으로써, 적용 뉴럴 네트워크와 교사 뉴럴 네트워크의 관련성을 저감시키고 관련성 결함에 의한 영향을 줄여 타겟 도메인에서의 효과가 이러한 상호의 교사 트레이닝의 방식으로 트레이닝하여 취득되는 적용 뉴럴 네트워크의 효과보다 우수한 목표 뉴럴 네트워크를 취득하는 다른 트레이닝 방법을 제공한다. 이러한 트레이닝 방법은 제1 뉴럴 네트워크의 파라미터의 시계열 평균값에 의해 상기 목표 뉴럴 네트워크의 파라미터를 결정하고, 목표 뉴럴 네트워크의 출력을 교사로 하여 제2 뉴럴 네트워크를 트레이닝함과 아울러, 제2 뉴럴 네트워크의 파라미터의 시계열 평균값에 의해 평균 네트워크의 파라미터를 결정하고, 평균 네트워크의 출력을 교사로 하여 제1 뉴럴 네트워크를 트레이닝하여 상기 목표 뉴럴 네트워크의 트레이닝을 완료하는 것을 포함한다. 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크는 전부 소스 도메인에서 트레이닝된 뉴럴 네트워크이고, 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크는 전부 이미지로부터 특징 데이터를 추출하는 기능 및 특징 데이터에 기초하여 분류하는 기능을 갖는 뉴럴 네트워크이고, 제1 뉴럴 네트워크의 구조와 제2 뉴럴 네트워크의 구조는 동일해도 되고, 상이해도 된다. 본 발명은 이를 한정하지 않는다.
도 2에 나타내는 바와 같이, 목표 뉴럴 네트워크의 파라미터는 제1 뉴럴 네트워크의 파라미터의 시계열 평균값이다. 이 제1 뉴럴 네트워크는 트레이닝 이미지 세트 및 평균 네트워크를 사용하여 교사 트레이닝을 행하여 취득된다. 즉, 트레이닝 이미지 세트 내의 이미지의 라벨 및 평균 네트워크의 출력을 교사 데이터로 하여 제1 뉴럴 네트워크의 출력을 트레이닝하여 제1 뉴럴 네트워크의 파라미터를 조정한다. 상기 평균 네트워크의 파라미터는 제2 뉴럴 네트워크의 파라미터의 시계열 평균값이다. 이 제2 뉴럴 네트워크는 상기 트레이닝 이미지 세트 및 상기 목표 뉴럴 네트워크를 사용하여 교사 트레이닝을 행하여 취득된다. 즉, 트레이닝 이미지 세트 내의 이미지의 라벨 및 목표 뉴럴 네트워크의 출력을 교사 데이터로 하여 제2 뉴럴 네트워크의 출력을 트레이닝하여 제2 뉴럴 네트워크의 파라미터를 조정한다.
트레이닝 이미지 세트를 각각 제1 뉴럴 네트워크, 제2 뉴럴 네트워크, 목표 뉴럴 네트워크 및 평균 네트워크에 입력하고, 도 2에서의 4개의 네트워크(제1 뉴럴 네트워크, 제2 뉴럴 네트워크, 목표 뉴럴 네트워크 및 평균 네트워크를 포함함)가 전부 수렴하여 트레이닝을 정지할 때까지, 도 2에 나타내는 교사 관계에 기초하여 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크를 복수 주기로 트레이닝하여 목표 뉴럴 네트워크의 파라미터를 갱신할 수 있다.
상기 도 2에서의 4개의 네트워크를 트레이닝하는 과정에서, 상기 4개의 네트워크의 파라미터는 트레이닝 주기가 완료할 때마다 갱신된다. 목표 뉴럴 네트워크의 파라미터가 제1 뉴럴 네트워크의 파라미터의 시계열 평균값인 것은 목표 뉴럴 네트워크의 파라미터가 상이한 트레이닝 주기의 제1 뉴럴 네트워크의 파라미터의 평균값인 것을 의미하고, 평균 네트워크의 파라미터가 제2 뉴럴 네트워크의 파라미터의 시계열 평균값인 것은 평균 네트워크의 파라미터가 상이한 트레이닝 주기의 제2 뉴럴 네트워크의 파라미터의 평균값인 것을 의미한다.
상이한 트레이닝 주기의 제1 뉴럴 네트워크의 파라미터의 평균값은 제1 뉴럴 네트워크의, 트레이닝 완료의 트레이닝 주기에서의 평균 성능을 반영하기 위한 것이라고 이해되어야 한다. 목표 뉴럴 네트워크의 파라미터를 구체적으로 결정할 때, 상이한 트레이닝 주기의 제1 뉴럴 네트워크의 파라미터의 평균값을 산출함으로써 결정되는 것에 한정되지 않아도 된다. 동일하게, 평균 네트워크의 파라미터를 구체적으로 결정할 때, 상이한 트레이닝 주기의 제2 뉴럴 네트워크의 파라미터의 평균값을 산출함으로써 결정되는 것에 한정되지 않아도 된다.
하나의 가능한 실시형태에서는 이하의 식에 의해 목표 뉴럴 네트워크의 파라미터를 결정할 수 있다.
Figure pct00001
단, ET1)는 T번째 트레이닝 주기에서의 목표 뉴럴 네트워크의 파라미터이고, ET-11)은 T-1번째 트레이닝 주기에서의 목표 뉴럴 네트워크의 파라미터이고,γ1 T는 T번째 트레이닝 주기에서의 제1 뉴럴 네트워크의 파라미터이고, α는 0이상 1 미만의 자연수이고, E01)=E11)=γ1 1이다.
다른 가능한 일 실시형태에서는 상이한 트레이닝 주기의 제1 뉴럴 네트워크의 파라미터의 평균값을 산출함으로써 목표 뉴럴 네트워크의 파라미터를 결정할 수 있다. 예를 들면, 제k 주기의 트레이닝을 행하기 전의 제1 뉴럴 네트워크의 파라미터를 EK(θ)로 하고, 제k 주기의 트레이닝을 행한 후의 제1 뉴럴 네트워크의 파라미터를 EK+1(θ)로 하면, 목표 뉴럴 네트워크의, 제k+1 주기의 트레이닝을 행하기 전의 파라미터는 EK(δ)=(EK(θ)+EK(θ))/2이다.
동일하게, 상기 2개의 가능한 실시형태에 의해 평균 네트워크의 파라미터를 결정할 수 있다.
본 발명의 실시예에 따른 트레이닝 방법의 트레이닝 중에 제1 뉴럴 네트워크의 파라미터는 교사 트레이닝에 의해 취득된다. 즉, 교사 데이터의 교사에 의해 제1 뉴럴 네트워크의 손실과 제2 뉴럴 네트워크의 손실을 각각 결정하고, 제1 뉴럴 네트워크의 손실에 기초하여 제1 뉴럴 네트워크의 역전파의 구배를 결정하고, 또한 역전파의 방식으로 그 구배를 전파하여 제1 뉴럴 네트워크의 파라미터를 갱신한다. 동일하게, 제2 뉴럴 네트워크의 파라미터도 역구배 전파의 방식으로 갱신된다. 한편, 목표 뉴럴 네트워크 및 평균 네트워크의 파라미터는 역구배 전파의 방식으로 갱신되지 않고, 상이한 트레이닝 주기의 제1 뉴럴 네트워크의 파라미터의 평균값 및 상이한 트레이닝 주기의 제2 뉴럴 네트워크의 파라미터의 평균값에 의해 목표 뉴럴 네트워크의 파라미터 및 평균 네트워크의 파라미터를 각각 결정한다. 따라서 목표 뉴럴 네트워크의 파라미터 및 평균 네트워크의 파라미터의 갱신 속도는 제1 뉴럴 네트워크의 파라미터 및 제2 뉴럴 네트워크의 파라미터의 갱신 속도보다 늦다. 즉, 목표 뉴럴 네트워크의 출력과 제2 뉴럴 네트워크의 출력의 유사도가 낮고, 평균 네트워크의 출력과 제1 뉴럴 네트워크의 출력의 유사도가 낮다. 이와 같이, 목표 뉴럴 네트워크의 출력 및 평균 네트워크의 출력을 교사로 하여 제2 뉴럴 네트워크 및 제1 뉴럴 네트워크를 각각 트레이닝함으로써, 제2 뉴럴 네트워크에 목표 뉴럴 네트워크의 「우세」(즉 제1 뉴럴 네트워크의 「우세」)를 학습시켜 제1 뉴럴 네트워크에 평균 네트워크의 「우세」를 학습시킬 수 있다. 또한 목표 뉴럴 네트워크의 파라미터는 제1 뉴럴 네트워크의, 트레이닝 완료의 트레이닝 주기에서의 평균 성능을 반영할 수 있고, 평균 네트워크의 파라미터는 제2 뉴럴 네트워크의, 트레이닝 완료의 트레이닝 주기에서의 평균 성능을 반영할 수 있으므로, 제2 뉴럴 네트워크에 목표 뉴럴 네트워크의 「우세」를 학습시키는 것은 제2 뉴럴 네트워크에 제1 뉴럴 네트워크의 「우세」를 학습시키는 것에 상당하고, 제1 뉴럴 네트워크에 평균 네트워크의 「우세」를 학습시키는 것은 제1 뉴럴 네트워크에 제2 뉴럴 네트워크의 「우세」를 학습시키는 것에 상당한다. 나아가서는 제1 뉴럴 네트워크의 파라미터의 시계열 평균값에 기초하여 목표 뉴럴 네트워크의 파라미터를 결정함으로써, 트레이닝하여 취득된 목표 뉴럴 네트워크의 타겟 도메인에서의 효과를 적용 뉴럴 네트워크의 타겟 도메인에서의 효과보다 양호하게 할 수 있다. 상기 「우세」는 어느 카테고리 또는 개체에 대한 뉴럴 네트워크의 인식 정확률이 높은 것을 의미한다. 예를 들면, 예 2에서의 최아무개의 신원에 대한 적용 뉴럴 네트워크의 인식, 및 김아무개의 신원에 대한 교사 뉴럴 네트워크의 인식을 들 수 있다.
본 실시예에서는 제1 뉴럴 네트워크의 파라미터의 시계열 평균값 및 제2 뉴럴 네트워크의 시계열 평균값을 결정하여 목표 뉴럴 네트워크의 파라미터 및 평균 네트워크의 파라미터를 각각 취득하고, 목표 뉴럴 네트워크의 출력을 교사로 하여 제2 뉴럴 네트워크를 트레이닝하고, 평균 네트워크의 출력을 교사로 하여 제1 뉴럴 네트워크를 트레이닝하여 목표 뉴럴 네트워크를 트레이닝한다. 이에 의해, 트레이닝 효과를 향상시킬 수 있다. 나아가 목표 뉴럴 네트워크를 사용하여 타겟 도메인에서 관련하는 인식 태스크를 실행할 때, 정보가 보다 풍부한 목표 특징 데이터를 추출할 수 있다. 상기 정보는 타겟 도메인에서의 인식 정확률을 향상시킬 수 있다.
이하, 실시예에서의 트레이닝 방법의 실시 과정을 상세히 설명한다. 본 발명의 실시예에 따른 102의 하나의 실시 가능한 방법의 흐름도인 도 3을 참조한다.
301. 상기 트레이닝 이미지 세트, 제1 트레이닝 대상의 뉴럴 네트워크 및 제2 트레이닝 대상의 뉴럴 네트워크를 취득한다.
본 실시예의 실행 주체는 서버, 컴퓨터여도 된다. 본 실시예의 트레이닝 방법의 실행 주체는 상기 실행 주체와 상이해도 되고, 동일해도 된다. 본 실시예에서는 트레이닝 이미지 세트는 도 4에 나타내는 종래의 방법으로 취득될 수 있다. 도 4에 나타내는 바와 같이, 소스 도메인에서 트레이닝된 제3 뉴럴 네트워크에 복수 개의 타겟 도메인에서의 라벨 없는 이미지(이하, 처리 대상의 이미지 세트라고 함)를 입력하고, 제3 뉴럴 네트워크에 의해 처리 대상의 이미지 세트 내의 이미지에 대해 특징 추출 처리를 행하여 처리 대상의 이미지 세트 내의 이미지의 특징 데이터를 포함하는 제3 특징 데이터 세트를 취득하고, 클러스터링 알고리즘에 의해 처리 대상의 이미지 세트 내의 이미지의 특징 데이터를 구별하여 예정된 수의 세트를 취득하고, 각 세트의 특징 데이터에 대응하는 이미지에 의사 하드 라벨을 부가한다.
가능한 일 실시형태에서는 제3 뉴럴 네트워크에 대해 y회의 제2 반복을 실행함으로써 상기 트레이닝 이미지 세트를 취득할 수 있고, y는 양의 정수이다. 상기 y회의 제2 반복 중 t회째 제2 반복은 처리 대상의 이미지 세트로부터 샘플링하여 제2 이미지 세트를 취득하고, t회째 제2 반복의 제3 뉴럴 네트워크에 의해 제2 이미지 세트 내의 이미지를 처리하여 제2 이미지 세트 내의 이미지의 특징 데이터를 포함하는 제3 특징 데이터 세트 및 제2 이미지 세트 내의 이미지의 분류 결과를 포함하는 분류 결과 세트를 취득하는 것과, 제3 특징 데이터 세트 내의 특징 데이터를 클러스터링 처리하여 제3 특징 데이터 세트 내의 특징 데이터의 라벨을 결정하고, 제3 특징 데이터 세트 내의 특징 데이터의 라벨을 상기 제2 이미지 세트 내의 대응하는 이미지에 부가하여 제3 이미지 세트를 취득하는 것과, 분류 결과 세트 내의 분류 결과와 제3 이미지 세트 내의 이미지의 라벨의 차분에 기초하여 제3 손실을 결정하는 것과, 제3 손실에 기초하여 t회째 제2 반복의 제3 뉴럴 네트워크의 파라미터를 조정하여 t+1회째 제2 반복의 제3 뉴럴 네트워크의 파라미터를 취득하는 것을 포함한다.
t+1회째 제2 반복에서, 처리 대상의 이미지 세트로부터 샘플링하여 제3 이미지 세트를 취득하고, 제3 이미지 세트 내의 이미지는 제2 이미지 세트 내의 이미지와 상이하다. 또한 t회째 제2 반복의 제3 뉴럴 네트워크에 의해 제2 이미지 세트를 처리하여 제2 이미지 세트 내의 이미지의 라벨 및 t+1회째 제2 반복의 제3 뉴럴 네트워크의 파라미터를 취득하는 방법과 동일하게, t+1회째 제2 반복의 제3 뉴럴 네트워크에 의해 제3 이미지 세트를 처리하여 제3 이미지 세트 내의 이미지의 라벨 및 제t+2회의 제2 반복의 제3 뉴럴 네트워크를 취득한다. 처리 대상의 이미지 세트의 하나 이상의 이미지에 라벨이 부가될 때까지 트레이닝 이미지 세트를 취득한다. 제1회의 제2 반복의 제3 뉴럴 네트워크는 제3 뉴럴 네트워크이다.
제1회의 제2 반복을 예(예 3)로 하여, 처리 대상의 이미지 세트로부터 샘플링하여 인물 오브젝트를 포함하는 5개의 이미지를 취득하고, 각각 이미지 a, 이미지 b, 이미지 c, 이미지 d, 이미지 e로 한다. 이 5개의 이미지를 제3 뉴럴 네트워크에 입력하여 이 5개의 이미지의 특징 데이터를 취득하고, 클러스터링 알고리즘에 의해, 이 5개의 이미지의 특징 데이터가 나타내는 인물 오브젝트의 신원에 기초하여 이 5개의 이미지를 3개의 클래스로 나누어 3개 세트를 취득한다. 3개 세트는 각각 이미지 a 및 이미지 e로 이루어지는 제1 세트, 이미지 b로 이루어지는 제2 세트, 이미지 c 및 이미지 d로 이루어지는 제 3세트이다. 제1 세트의 이미지에 포함되는 인물 오브젝트의 신원은 김아무개라고 결정하고, 이미지 a 및 이미지 e에 각각 부가한 의사 하드 라벨은[1, 0, 0]이고, 이미지 a에서의 인물 오브젝트의 신원 및 이미지 e에서의 인물 오브젝트의 신원은 제1 클래스(김아무개)에 속하는 것을 나타낸다. 제2 세트의 이미지에 포함되는 인물 오브젝트의 신원은 이아무개라고 결정하고, 이미지 b에 부가한 의사 하드 라벨은 [0, 1, 0]이고, 이미지 b에서의 인물 오브젝트의 신원은 제2 클래스(이아무개)에 속하는 것을 나타낸다. 제3 세트의 이미지에 포함되는 인물 오브젝트의 신원은 박아무개라고 결정하고, 이미지 c와 이미지 d에 각각 부가한 의사 하드 라벨은 [0, 0, 1]이고, 이미지 c에서의 인물 오브젝트의 신원 및 이미지 d에서의 인물 오브젝트의 신원은 제3 클래스(박아무개)에 속하는 것을 나타낸다.
동시에, 제3 뉴럴 네트워크의 분류기는 이러한 이미지의 특징 데이터에 기초하여, 이미지가 속하는 클래스(이하, 예측 결과라고 함)를 예측하고, 예측 결과와 의사 하드 라벨의 차분에 기초하여 총 예비 하드 분류 손실을 결정한다.
가능한 일 실시형태에서는 처리 대상의 이미지 세트의 각 이미지의 예측 결과와 라벨의 차분을 각각 산출함으로써 예비 하드 분류 손실을 취득하고, 처리 대상의 이미지 세트의 하나 이상의 이미지의 예비 하드 분류 손실의 평균값을 구함으로써, 총 예비 하드 분류 손실을 결정할 수 있다. 예 3에 이어서 예(예 4)를 들면, 제3 뉴럴 네트워크의 분류기로부터 출력되는 이미지 a의 예측 클래스는 [0.7, 0.2, 0.1]이고, 이미지 a에서의 인물 오브젝트의 신원이 김아무개인 확률은 0.7이고, 이미지 a에서의 인물 오브젝트의 신원이 이아무개인 확률은 0.2이고, 이미지 a에서의 인물 오브젝트의 신원이 박아무개인 확률은 0.1인 것을 나타낸다. 예측 클래스([0.7, 0.2, 0.1])와 의사 하드 라벨([1, 0, 0])의 크로스 엔트로피 손실을 산출함으로써 이미지 a의 예비 하드 분류 손실을 결정할 수 있다. 또한 동일한 방법에 의해, 이미지 b, 이미지 c, 이미지 d 및 이미지 e의 하드 분류 손실을 결정하고, 이미지 a의 예비 하드 분류 손실, 이미지 b의 하드 분류 손실, 이미지 c의 예비 하드 분류 손실, 이미지 d의 하드 분류 손실 및 이미지 e의 예비 하드 분류 손실의 평균값을 산출하여 총 예비 하드 분류 손실을 취득할 수 있다.
동시에, 처리 대상의 이미지 세트 내의 이미지의 특징 데이터에 기초하여 처리 대상의 이미지 세트의 각 이미지의 예비 하드 트리플렛 손실을 결정하고, 처리 대상의 이미지 세트의 각 이미지의 예비 하드 트리플렛 손실의 평균값을 산출하여 총 예비 하드 트리플렛 손실을 결정한다. 예 4에 이어서 예를 들면, 이미지 a의 예비 하드 트리플렛 손실을 산출하는 경우, 먼저 이미지 a와 동일한 클래스에 속하는 이미지의 특징 데이터에 있어서 이미지 a의 특징 데이터와의 유사도(이하, 양의 유사도라고 함)를 각각 산출하고, 이미지 a와 상이한 클래스에 속하는 이미지의 특징 데이터에 있어서 이미지 a의 특징 데이터와의 유사도(이하, 음의 유사도라고 함)를 각각 산출하고, 양의 유사도의 최소값 및 음의 유사도의 최대값에 기초하여 예비 하드 트리플렛 손실을 결정한다. 또한 동일한 방법에 의해, 이미지 b, 이미지 c, 이미지 d 및 이미지 e의 예비 하드 트리플렛 손실을 결정하고, 이미지 a의 예비 하드 트리플렛 손실, 이미지 b의 하드 트리플렛 손실, 이미지 c의 예비 하드 트리플렛 손실, 이미지 d의 하드 트리플렛 손실, 및 이미지 e의 예비 하드 트리플렛 손실의 평균값을 산출하여 총 예비 하드 트리플렛 손실을 취득할 수 있다.
또한 총 예비 하드 분류 손실과 총 예비 하드 트리플렛 손실을 가중치 가산하여 제3 손실을 취득한다. 제3 손실에 기초하여 제3 뉴럴 네트워크의 파라미터를 조정하여 제2회의 제2 반복의 제3 뉴럴 네트워크를 취득한다. 처리 대상의 이미지 세트의 하나 이상의 이미지에 라벨(즉, 의사 하드 라벨)이 부가될 때까지, 트레이닝 이미지 세트를 취득한다.
상기 제1 트레이닝 대상의 뉴럴 네트워크 및 상기 제2 트레이닝 대상의 뉴럴 네트워크는 전부 소스 도메인에서 트레이닝된 뉴럴 네트워크이고, 제1 트레이닝 대상의 뉴럴 네트워크 및 제2 트레이닝 대상의 뉴럴 네트워크는 전부 이미지로부터 특징 데이터를 추출하는 기능 및 특징 데이터에 기초하여 분류하는 기능을 갖는 뉴럴 네트워크이고, 제1 트레이닝 대상의 뉴럴 네트워크의 구조와 제2 트레이닝 대상의 뉴럴 네트워크의 구조는 동일해도 되고, 상이해도 된다. 본 발명은 이것을 한정하지 않는다.
302. 상기 제1 트레이닝 대상의 뉴럴 네트워크 및 상기 제2 트레이닝 대상의 뉴럴 네트워크에 대해 x회의 제1 반복을 실행하여 목표 뉴럴 네트워크를 취득한다.
본 실시예에 따른 상기 x회의 제1 반복 중 i회째 제1 반복의 트레이닝 모식도인 도 5를 참조한다. i회째 제1 반복은 상기 트레이닝 이미지 세트 및 i회째 제1 반복의 평균 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 취득하고, 상기 트레이닝 이미지 세트 및 i회째 제1 반복의 목표 뉴럴 네트워크의 출력을 교사로 하여 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함한다.
가능한 일 실시형태에서는 트레이닝 이미지 세트에 의해 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 취득하고, 트레이닝 이미지 세트에 의해 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지를 처리하여 제1 분류 결과를 취득하고, i회째 제1 반복의 평균 네트워크에 의해 상기 제1 이미지를 처리하여 제2 분류 결과를 취득하고, i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지를 처리하여 제3 분류 결과를 취득하고, i회째 제1 반복의 트레이닝 전의 목표 뉴럴 네트워크에 의해 상기 제1 이미지를 처리하여 제4 분류 결과를 취득하는 단계와, 제1 분류 결과와 제1 이미지의 제1 라벨(즉, 단계 301에서 취득된 의사 하드 라벨)의 차분에 기초하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 제1 하드 분류 손실을 결정하고, 제3 분류 결과와 제1 라벨의 차분에 기초하여 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크의 제2 하드 분류 손실을 결정하는 단계와, 제1 하드 분류 손실을 교사로 하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하고, 제2 하드 분류 손실을 교사로 하여 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝함으로써, 트레이닝 이미지 세트를 교사로 하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크 및 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하는 것을 실현하는 단계와, 제1 분류 결과와 제2 분류 결과의 차분에 기초하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 제1 소프트 분류 손실을 결정하고, 제3 분류 결과와 제4 분류 결과의 차분에 기초하여 i회째 제1 반복의 트레이닝 전의 제2 뉴럴 네트워크의 제2 소프트 분류 손실을 결정하는 단계와, 제1 소프트 분류 손실을 교사로 하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하고, 제2 소프트 분류 손실을 교사로 하여 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝함으로써, i회째 제1 반복의 평균 네트워크를 교사로 하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하는 것 및 i회째 제1 반복의 목표 뉴럴 네트워크를 교사로 하여 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하는 것을 실현하는 단계와, 제1 하드 분류 손실과 제1 소프트 분류 손실을 가중치 가산하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 제1 손실을 취득하고, 제2 하드 분류 손실과 제2 소프트 분류 손실을 가중치 가산하여 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크의 제2 손실을 취득하는 단계와, 제1 손실에 기초하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터를 조정하여 i+1회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 단계와, 제2 손실에 기초하여 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크의 파라미터를 조정하여 i+1회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 단계와, i회째 제1 반복을 실행하기 전에, i-1회째 제1 반복의 목표 뉴럴 네트워크의 파라미터 및 상기 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터에 기초하여 상기 i회째 제1 반복의 목표 뉴럴 네트워크의 파라미터를 결정하고, i-1회째 제1 반복의 평균 네트워크의 파라미터 및 상기 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크의 파라미터에 기초하여 상기 i회째 제1 반복의 평균 네트워크의 파라미터를 결정하는 단계을 포함한다. 가능한 일 실시형태에서는 i+1회째 제1 반복에서, 이하의 2개의 식에 의해 i+1회째 제1 반복의 목표 뉴럴 네트워크의 파라미터, 및 i+1회째 제1 반복의 평균 네트워크의 파라미터를 각각 결정할 수 있다.
Figure pct00002
Figure pct00003
단, Ei+11)은 i+1회째 제1 반복의 목표 뉴럴 네트워크의 파라미터이고, Ei1)는 i회째 제1 반복의 목표 뉴럴 네트워크의 파라미터이고, Ei+12)는 i+1회째 제1 반복의 평균 네트워크의 파라미터이고, Ei2)는 i회째 제1 반복의 평균 네트워크의 파라미터이다. θ1 i+1은 i+1회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터이고, θ1 i+2는 i+1회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크의 파라미터이다. α는 0 이상 1 미만의 자연수이고, E21)=E11)=θ1 1, E22)=E12)=θ2 1이다. 상기 x는 양의 정수이고, 상기 i는 x 이하의 양의 정수이다.
i+1회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터, i+1회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크의 파라미터, i+1회째 제1 반복의 목표 뉴럴 네트워크의 파라미터 및 i+1회째 제1 반복의 평균 네트워크의 파라미터를 결정한 후, i+1회째의 반복을 실행한다. 제x회의 반복을 실행한 후 제x회의 제1 반복의 목표 뉴럴 네트워크의 파라미터를 조정하여 목표 뉴럴 네트워크를 취득한다.
제1회의 반복을 예로 한다. 트레이닝 이미지 세트가 이미지 1, 이미지 2및 이미지 3을 포함한다고 하자. 이미지 1의 의사 하드 라벨은 [1, 0]이고, 제1회의 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크(즉, 제1 트레이닝 대상의 뉴럴 네트워크)에 의해 상기 트레이닝 이미지 세트 내의 이미지 1(즉, 제1 이미지)을 처리하여 취득된 분류 결과는 [0.7, 0.3]이고, 제1회의 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크(즉, 제2 트레이닝 대상의 뉴럴 네트워크)에 의해 상기 이미지 1을 처리하여 취득되는 분류 결과는 [0.8, 0.2]이고, 제1회의 제1 반복의 목표 뉴럴 네트워크(즉, 제1 트레이닝 대상의 뉴럴 네트워크)에 의해 이미지 1을 처리하여 취득된 분류 결과는 [0.7, 0.3]이고, 제1회의 제1 반복의 평균 네트워크(즉, 제2 트레이닝 대상의 뉴럴 네트워크)에 의해 이미지 1을 처리하여 취득된 분류 결과는 [0.8, 0.2]이다. [1, 0]과 [0.7, 0.3]의 크로스 엔트로피 손실을 산출하여 제1 하드 분류 손실을 취득하고, [1, 0]과 [0.8, 0.2]의 크로스 엔트로피 손실을 산출하여 제2 하드 분류 손실을 취득하고, [0.7, 0.3]과 [0.7, 0.3]의 차분을 산출하여 제1 소프트 분류 손실을 취득하고, [0.8, 0.2]와 [0.8, 0.2]의 차분을 산출하여 제2 소프트 분류 손실을 취득한다. 또한 제1 하드 분류 손실과 제1 소프트 분류 손실을 가중치 가산하여 제1 손실을 취득하고, 제2 하드 분류 손실과 제2 소프트 분류 손실을 가중치 가산하여 제2 손실을 취득한다. 제1 손실에 기초하여 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터를 조정하여 2번째 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 취득하고, 제2 손실에 기초하여 제2 트레이닝 대상의 뉴럴 네트워크의 파라미터를 조정하여 2번째 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 취득한다.
선택 가능하게, i회째 반복에 있어서, 제1 하드 분류 손실과 제1 소프트 분류 손실을 가중치 가산하여 제1 손실을 취득하고, 제2 하드 분류 손실과 제2 소프트 분류 손실을 가중치 가산하여 제2 손실을 취득하기 전에 나아가, i회의 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 제1 하드 트리플렛 손실, 및 i회의 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크의 제2 하드 트리플렛 손실을 결정할 수 있다. 또한, 제1 하드 분류 손실과 제1 소프트 분류 손실과 제1 하드 트리플렛 손실을 가중치 가산하여 제1 손실을 취득하고, 제2 하드 분류 손실과 제2 소프트 분류 손실과 제2 하드 트리플렛 손실을 가중치 가산하여 제2 손실을 취득한다.
가능한 일 실시형태에서는 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제1 특징 데이터 세트를 취득하고, i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제4 특징 데이터 세트를 취득한다. 상기 제1 이미지의 상기 제1 특징 데이터 세트에서의 제1 특징 데이터와, 상기 제1 특징 데이터 세트의 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제1 유사도를 취득하고, 상기 제1 이미지의 상기 제4 특징 데이터 세트에서의 제3 특징 데이터와, 상기 제4 특징 데이터 세트의 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제9 유사도를 취득한다. 제1 특징 데이터와 제1 특징 데이터 세트의 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제3 유사도를 취득하고, 제3 특징 데이터와 제4 특징 데이터 세트의 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제10 유사도를 취득한다. 또한 제1 유사도 및 제3 유사도에 기초하여 제1 하드 트리플렛 손실을 결정할 수 있고, 제9 유사도 및 제10 유사도에 기초하여 제2 하드 트리플렛 손실을 결정할 수 있다. 네거티브 샘플 특징 데이터 서브 세트는 상기 제1 라벨과 상이한 라벨을 갖는 이미지의 특징 데이터를 포함하고, 포지티브 샘플 특징 데이터 서브 세트는 상기 제1 라벨과 동일한 라벨을 갖는 이미지의 특징 데이터를 포함한다.
예를 들면,(예 5), 트레이닝 이미지 세트는 이미지 1, 이미지 2, 이미지 3, 이미지 4, 이미지 5를 포함한다. 이미지 1, 이미지 3 및 이미지 5의 라벨은 전부 김아무개이고, 이미지 2및 이미지 4의 라벨은 전부 이아무개이다. 제1 특징 데이터 세트는 이미지 1의 특징 데이터(제1 특징 데이터), 이미지 2의 특징 데이터(이하, 특징 데이터 2라고 함), 이미지 3의 특징 데이터(이하, 특징 데이터 3이라고 함), 이미지 4의 특징 데이터(이하, 특징 데이터 4라고 함), 이미지 5의 특징 데이터(이하, 특징 데이터 5라고 함)를 포함한다. 제4 특징 데이터 세트는 이미지 1의 특징 데이터(제3 특징 데이터), 이미지 2의 특징 데이터(이하, 특징 데이터 6이라고 함), 이미지 3의 특징 데이터(이하, 특징 데이터 7이라고 함), 이미지 4의 특징 데이터(이하, 특징 데이터 8이라고 함), 이미지 5의 특징 데이터(이하, 특징 데이터 9라고 함)를 포함한다. 제1 특징 데이터 세트의 포지티브 샘플 특징 데이터 서브 세트는 특징 데이터 3및 특징 데이터 5를 포함하고, 제1 특징 데이터 세트의 네거티브 샘플 특징 데이터 서브 세트는 특징 데이터 2 및 특징 데이터 4를 포함한다. 제4 특징 데이터 세트의 포지티브 샘플 특징 데이터 서브 세트는 특징 데이터 7 및 특징 데이터 9를 포함하고, 제4 특징 데이터 세트의 네거티브 샘플 특징 데이터 서브 세트는 특징 데이터 6 및 특징 데이터 8을 포함한다. 제1 특징 데이터와 특징 데이터 2, 특징 데이터 3, 특징 데이터 4 및 특징 데이터 5의 유사도를 각각 산출한다. 제1 특징 데이터와 특징 데이터 3의 유사도가 제1 특징 데이터와 특징 데이터 5의 유사도보다 작은 경우, 제1 특징 데이터와 특징 데이터 3의 유사도는 제1 유사도이다. 제1 특징 데이터와 특징 데이터 2의 유사도가 제1 특징 데이터와 특징 데이터 4의 유사도보다 작은 경우, 제1 특징 데이터와 특징 데이터 4의 유사도는 제3 유사도이다. 제3 특징 데이터와 특징 데이터 6, 특징 데이터 7, 특징 데이터 8및 특징 데이터 9의 유사도를 각각 산출한다. 제3 특징 데이터와 특징 데이터 7의 유사도가 제2 특징 데이터와 특징 데이터 9의 유사도보다 작은 경우, 제3 특징 데이터와 특징 데이터 7의 유사도는 제9 유사도이다. 제3 특징 데이터와 특징 데이터 6의 유사도가 제3 특징 데이터와 특징 데이터 8의 유사도보다 작은 경우, 제3 특징 데이터와 특징 데이터 8의 유사도는 제10 유사도이다. 또한 식 (4)에 의해 제1 특징 데이터와 특징 데이터 3 및 특징 데이터 4와의 제1 하드 트리플렛 손실을 결정할 수 있고, 식 (5)에 의해 제2 특징 데이터와 특징 데이터 7 및 특징 데이터 8의 제2 하드 트리플렛 손실을 결정할 수 있다.
Figure pct00004
Figure pct00005
단, max(A, B)는 A 및 B 중 최대값이고, d1은 제1 유사도이고, d3은 제3 유사도이고, d9은 제9 유사도이고, d10은 제10 유사도이고, m은 0 초과 1 미만의 자연수이다.
포지티브 샘플 특징 데이터 서브 세트에서의 제1 특징 데이터와의 유사도가 가장 작은 특징 데이터를 제1 특징 데이터의 클래스 내에서 가장 어려운 특징 데이터라고 하고, 네거티브 샘플 특징 데이터 서브 세트에서의 제1 특징 데이터와의 유사도가 가장 큰 특징 데이터를 제1 특징 데이터의 클래스 외에서 가장 어려운 특징 데이터라고 한다. 동일하게, 트레이닝 이미지 세트의 다른 이미지(이미지 2, 이미지 3, 이미지 4, 이미지 5를 포함함)의 제1 특징 데이터 세트에서의 특징 데이터의, 제1 특징 데이터 서브 세트의 포지티브 샘플 특징 데이터 서브 세트에서의 클래스 내에서의 가장 어려운 특징 데이터 및 클래스 외에서의 가장 어려운 특징 데이터를 결정할 수 있고, 각 이미지의 제1 특징 데이터 세트에서의 특징 데이터, 클래스 내에서 가장 어려운 특징 데이터 및 클래스 외에서 가장 어려운 특징 데이터에 기초하여 각 이미지의 제1 트레이닝 대상의 뉴럴 네트워크의 하드 트리플렛 손실을 결정할 수 있다. 동일하게, 트레이닝 이미지 세트의 각 이미지의 제4 특징 데이터 세트에서의 특징 데이터, 클래스 내에서 가장 어려운 특징 데이터 및 클래스 외에서 가장 어려운 특징 데이터에 기초하여 각 이미지의 제2 트레이닝 대상의 뉴럴 네트워크의 하드 트리플렛 손실을 결정할 수 있다.
선택 가능하게, 트레이닝 이미지 세트의 각 이미지마다 제1 트레이닝 대상의 뉴럴 네트워크의 하드 트리플렛 손실 및 제2 트레이닝 대상의 뉴럴 네트워크의 하드 트리플렛 손실을 결정한 후, 트레이닝 이미지 세트의 제1 트레이닝 대상의 뉴럴 네트워크의 하드 트리플렛 손실의 평균값을 제1 하드 트리플렛 손실로 하고, 트레이닝 이미지 세트의 하나 이상의 이미지의 제2 트레이닝 대상의 뉴럴 네트워크의 하드 트리플렛 손실의 평균값을 제2 하드 트리플렛 손실로 한다.
제1 하드 트리플렛 손실을 교사로 하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝한다. 이에 의해, i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크는 동일한 클래스에 속하는 이미지의 특징 데이터간의 유사도를 향상시키고, 상이한 클래스에 속하는 이미지의 특징 데이터간의 유사도를 감소시킬 수 있어 상이한 클래스의 이미지를 보다 잘 구별하여 이미지의 클래스에 대한 인식 정밀도를 향상시킬 수 있다. 동일하게, 제2 하드 트리플렛 손실을 교사로 하여 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝함으로써, i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크가 이미지로부터 특징을 추출하는 효과를 향상시켜 보다 풍부한 이미지 정보를 포함하는 특징 데이터를 취득할 수 있다.
본 실시예에서는 제1 하드 분류 손실, 제1 소프트 분류 손실 및 제1 하드 트리플렛에 기초하여 제1 손실을 결정하고, 제2 하드 분류 손실, 제2 소프트 분류 손실 및 제2 하드 트리플렛에 기초하여 제2 손실을 결정한다. 또한 제1 손실에 기초하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 조정하고, 제2 손실에 기초하여 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 조정함으로써, 트레이닝 이미지 및 i회째 제1 반복의 평균 네트워크를 교사로 하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하는 것과, 및 트레이닝 이미지 및 i회째 제1 반복의 트레이닝 전의 대상 네트워크를 교사로 하여 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하는 것을 실현한다.
실시예에서의 i회째 반복은 트레이닝 이미지 세트 내의 이미지의 라벨에 의해 포지티브 샘플 특징 데이터 서브 세트 및 네거티브 샘플 특징 데이터 서브 세트를 결정하고, 이 라벨은 단계 301에서의 종래의 방법에 따라 취득된 의사 하드 라벨이다. 의사 하드 라벨은 원 핫 인코딩(one-hot)에 의해 처리된 데이터이고, 즉, 의사 하드 라벨의 수치는 0 또는 1이기 때문에 의사 하드 라벨에는 큰 오차가 있다. 따라서 의사 하드 라벨에 의해 결정되는 포지티브 샘플 서브 세트 및 네거티브 샘플 서브 세트에도 큰 오차가 있어, i회째 제1 반복 후에 취득된 i+1회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 타겟 도메인에서의 특징 추출 효과가 나빠 타겟 도메인에서의 인식 정확률이 낮다.
예를 들면(예 6), 트레이닝 이미지 세트 내의 이미지의 라벨은 2개의 클래스(김아무개 및 이아무개)를 포함한다. 의사 하드 라벨의 수치는 0 또는 1이므로, 트레이닝 이미지 세트 내의 이미지에서의 인물 오브젝트는 김아무개 또는 이아무개이다. 트레이닝 이미지 세트 내의 이미지 1에서의 인물 오브젝트는 김아무개이고, 이미지 1의 의사 하드 라벨이 나타내는 클래스는 김아무개이고, 이미지 2에서의 인물 오브젝트는 이아무개이지만 이미지 2의 의사 하드 라벨이 나타내는 클래스는 김아무개이고, 이미지 3에서의 인물 오브젝트는 김아무개이지만 이미지 3의 의사 하드 라벨이 나타내는 클래스는 이아무개로 한다. 이미지 1의 제1 특징 데이터 세트에서의 특징 데이터는 특징 데이터 a이고, 이미지 2의 제1 특징 데이터 세트에서의 특징 데이터는 특징 데이터 b이고, 이미지 3의 제1 특징 데이터 세트에서의 특징 데이터는 특징 데이터 c이다. 특징 데이터 a의 클래스 내에서 가장 어려운 특징 데이터는 특징 데이터 b이고, 특징 데이터 a의 클래스 외에서 가장 어려운 특징 데이터는 특징 데이터 c이다. 특징 데이터 a, 특징 데이터 b 및 특징 데이터 c로 결정되는 제1 하드 트리플렛 손실을 교사로 하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 조정한다. 이에 의해, i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크는 이미지 1로부터 추출된 특징 데이터와 이미지 2로부터 추출된 특징 데이터와의 유사도를 향상시킴과 아울러, 이미지 1로부터 추출하는 특징 데이터와 이미지 2로부터 추출하는 특징 데이터와의 유사도를 감소시켜 i+1회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 취득한다. 이미지 1에서의 인물 오브젝트(김아무개)와 이미지 2에서의 인물 오브젝트(이아무개)는 동일 인물은 아니므로 이미지 1의 특징 데이터와 이미지 2의 특징 데이터와의 유사도를 향상시키면 i+1회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의, 김아무개 또는 이아무개에 대한 인식 정확률이 낮아지는 것은 분명하다. 동일하게, 이미지 1에서의 인물 오브젝트(김아무개)와 이미지 3에서의 인물 오브젝트(김아무개)는 동일 인물이므로 이미지 1의 특징 데이터와 이미지 3의 특징 데이터와의 유사도를 저하시키면 i+1회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의, 김아무개 또는 이아무개에 대한 인식 정확률이 낮아지는 것은 분명하다.
예를 들면, 예 6에서의 의사 하드 라벨에 의한 영향을 저감시키기 위해, 본 발명의 실시예는 소프트 라벨을 교사로 하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 제1 소프트 트리플렛 손실을 취득하는 방법을 제공한다. 제1 소프트 트리플렛 손실을 교사로 하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝함으로써 i+1회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 인식 정확률을 향상시켜 목표 뉴럴 네트워크의 인식 정확률을 향상시킨다.
본 발명의 실시예에 따른 다른 이미지 처리 방법의 흐름도인 도 6을 참조한다.
601. i회째 제1 반복의 평균 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제2 특징 데이터 세트를 취득하고, i회째 제1 반복의 트레이닝 전의 대상 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제5 특징 데이터 세트를 취득한다.
602. 상기 제1 특징 데이터 세트, 상기 제2 특징 데이터 세트, 상기 제4 특징 데이터 세트 및 상기 제5 특징 데이터 세트에 기초하여 제1 소프트 트리플렛 손실 및 제2 소프트 트리플렛 손실을 취득한다.
상기 제1 이미지의 제2 특징 데이터 세트에서의 제2 특징 데이터와, 제2 특징 데이터 세트 내의 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제2 유사도를 취득하고, 제2 특징 데이터와, 제2 특징 데이터 세트 내의 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제4 유사도를 취득한다. 상기 제1 이미지의 제5 특징 데이터 세트에서의 제4 특징 데이터와, 제5 특징 데이터 세트의 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제11 유사도를 취득하고, 제4 특징 데이터와, 제5 특징 데이터 세트의 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제12 유사도를 취득한다.
본 발명의 실시예에서는 상이한 특징 데이터 세트의 포지티브 샘플 특징 데이터 서브 세트에 포함되는 특징 데이터가 상이하고, 상이한 특징 데이터 세트의 네거티브 샘플 특징 데이터 서브 세트에 포함되는 특징 데이터도 상이한 것이 이해되어야 한다.
의사 하드 라벨의 수치가 0 또는 1임에 의해 트레이닝 이미지 세트 내의 이미지의 클래스의 분류가 「지나치게 절대적」이므로, 타겟 도메인에서 i+1회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 특징 추출 효과는 양호하지 않다. 본 실시예에서는 제1 유사도, 제2 유사도, 제3 유사도, 제4 유사도, 제9 유사도, 제10 유사도, 제11 유사도 및 제12 유사도를 각각 정규화 처리하여 제1 유사도, 제2 유사도, 제3 유사도, 제4 유사도, 제9 유사도, 제10 유사도, 제11 유사도 및 제12 유사도를 0에서 1사이의 수치로 변환하고, 정규화 처리한 후에 취득된 유사도간의 차분에 기초하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 제1 소프트 트리플렛 손실 및 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크의 제2 소프트 트리플렛 손실을 결정한다. 이에 의해, 타겟 도메인에서 i+1회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 특징 추출 효과를 향상시킨다.
가능한 일 실시형태에서는 제2 유사도와 제4 유사도의 합을 제1 총 유사도로서 취득하고, 제1 유사도와 제3 유사도의 합을 제2 총 유사도로서 취득하고, 제9 유사도와 제10 유사도의 합을 제3 총 유사도로서 취득하고, 제11 유사도와 제12 유사도의 합을 제4 총 유사도로서 취득한다. 제2 유사도와 제1 총 유사도의 몫을 산출하여 제5 유사도를 취득하고, 제4 유사도와 제1 총 유사도의 몫을 산출하여 제6 유사도를 취득하고, 제1 유사도와 제2 총 유사도의 몫을 산출하여 제7 유사도를 취득하고, 제3 유사도와 제2 총 유사도의 몫을 산출하여 제8 유사도를 취득하고, 제9 유사도와 제3 총 유사도의 몫을 산출하여 제13 유사도를 취득하고, 제10 유사도와 제2 총 유사도와의 몫을 산출하여 제14 유사도를 취득하고, 제11 유사도와 제4 총 유사도와의 몫을 산출하여 제15 유사도를 취득하고, 제12 유사도와 제4 총 유사도와의 몫을 산출하여 제16 유사도를 취득한다. 제1 유사도, 제2 유사도, 제3 유사도, 제4 유사도, 제9 유사도, 제10 유사도, 제11 유사도 및 제12 유사도의 정규화 처리를 완료한다. 또한 제5 유사도 및 제6 유사도를 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 교사 데이터(즉, 소프트 라벨)로 하여 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터를 조정하고, 제15 유사도 및 제16 유사도를 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크의 교사 데이터(즉, 소프트 라벨)로 하여 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크의 파라미터를 조정한다. 즉, 제5 유사도와 제7 유사도의 차분 및 제6 유사도와 제8 유사도의 차분에 기초하여 제1 소프트 트리플렛 손실을 결정하고, 제13 유사도와 제15 유사도의 차분 및 제14 유사도와 제16 유사도의 차분에 기초하여 제2 소프트 트리플렛 손실을 결정한다.
선택 가능하게, 트레이닝 이미지 세트의 각 이미지의 제2 특징 데이터 세트에서의 클래스 내에서 가장 어려운 특징 데이터와 각 이미지의 제2 특징 데이터 세트에서의 특징 데이터와의 유사도, 및 제2 특징 데이터 세트에서의 클래스 외에서 가장 어려운 특징 데이터와 각 이미지의 제2 특징 데이터 세트에서의 특징 데이터의 유사도에 기초하여, 각 이미지의 i회째 제1 반복의 평균 네트워크의 소프트 트리플렛 손실을 결정한다. 트레이닝 이미지 세트의 각 이미지의 제5 특징 데이터 세트에서의 클래스 내에서 가장 어려운 특징 데이터와 각 이미지의 제5 특징 데이터 세트에서의 특징 데이터의 유사도, 및 제5 특징 데이터 세트에서의 클래스 외에서 가장 어려운 특징 데이터와 각 이미지의 제5 특징 데이터 세트에서의 특징 데이터의 유사도에 기초하여, 각 이미지의 i회째 제1 반복의 목표 뉴럴 네트워크의 소프트 트리플렛 손실을 결정한다. 또한 트레이닝 이미지 세트의 하나 이상의 이미지의 i회째 제1 반복의 평균 네트워크의 소프트 트리플렛 손실의 평균값을 산출하여 제1 소프트 트리플렛 손실을 취득하고, 트레이닝 이미지 세트의 하나 이상의 이미지의 i회째 제1 반복의 목표 뉴럴 네트워크의 소프트 트리플렛 손실의 평균값을 산출하여 제2 소프트 트리플렛 손실을 취득한다.
제1 유사도, 제2 유사도, 제3 유사도, 제4 유사도, 제9 유사도, 제10 유사도, 제11 유사도 및 제12 유사도를 정규화 처리하여 취득되는 0∼1 사이의 크기의 유사도는 의사 하드 라벨보다 실제의 데이터 분포에 가까우므로, 정규화 처리된 유사도를 교사 데이터로 함으로써 목표 뉴럴 네트워크의 인식 정확률을 향상시킬 수 있다.
예를 들면, 처리 대상의 이미지 세트에는 10개의 이미지가 포함되어 있다. 단계 401의 처리에 의해, 처리 대상의 이미지 세트 내의 이미지에서의 인물 오브젝트의 신원에 기초하여 처리 대상의 이미지 세트 내의 이미지를 김아무개와 이아무개로 나눈다. 포함되는 인물 오브젝트의 신원의 의사 하드 라벨이 김아무개인 이미지(이하, 제1 클래스의 이미지) 및 포함되는 인물 오브젝트의 신원의 의사 하드 라벨이 이아무개인 이미지(이하, 제2 클래스의 이미지)는 각각 5개 있다. 그러나, 제1 클래스의 이미지에서의 이미지 1의 인물 오브젝트의 실제 신원은 이아무개이고, 제2 클래스의 이미지에서의 이미지 2의 인물 오브젝트의 실제 신원은 김아무개이다. 즉, 제1 클래스의 이미지에는 인물 오브젝트의 신원이 김아무개인 이미지가 4개 포함되어 있고, 인물 오브젝트의 신원이 이아무개인 이미지가 1개 포함되어 있다. 제1 클래스의 이미지에서는 실제 라벨의 분포는 [0.8, 0.2]여야 한다. [0.8, 0.2]는 제1 클래스의 이미지의 총 수에 대한 제1 클래스의 이미지에 포함되는 인물 오브젝트의 신원이 김아무개인 이미지의 수의 비율이 0.8이고, 제1 클래스의 이미지의 총 수에 대한 제1 클래스의 이미지에 포함되는 인물 오브젝트의 신원이 이아무개인 이미지의 수의 비율이 0.2인 것을 나타낸다. 동일하게, 제2 클래스의 이미지에서는 실제 라벨의 분포는 [0.2, 0.8]이어야 한다. [0.2, 0.8]은 제2 클래스의 이미지의 총 수에 대한 제2 클래스의 이미지에 포함되는 인물 오브젝트의 신원이 김아무개인 이미지의 수의 비율이 0.2이고, 제2 클래스의 이미지의 총 수에 대한 제2 클래스의 이미지에 포함되는 인물 오브젝트의 신원이 이아무개인 이미지의 수의 비율이 0.8인 것을 나타낸다. 그러나, 제1 클래스의 이미지의 의사 하드 라벨이 [1, 0]이고, 제2 클래스의 이미지의 의사 하드 라벨이 [0, 1]이므로, 이것은 명백히 제1 클래스의 이미지의 실제 라벨의 분포 및 제2 클래스의 이미지의 실제 라벨의 분포에 해당하지 않는다. 한편, 본 실시예에 따른 방법에 의해 취득되는 소프트 라벨은 0에서 1 사이의 수치이고, 제1 클래스의 이미지의 실제 라벨의 분포 및 제2 클래스의 이미지의 실제 라벨의 분포에 해당하므로, 소프트 라벨을 교사 데이터로 하여 i회째 반복의 제1 트레이닝 대상의 뉴럴 네트워크 및 i회째 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝함으로써, 타겟 도메인에서 최종적으로 취득되는 목표 뉴럴 네트워크의 특징 추출 효과를 향상시킬 수 있다. 선택 가능하게, 본 발명의 실시예에서의 유사도는 유클리드 거리일 수도 있고 코사인 유사도여도 된다. 본 발명은 이것을 한정하지 않는다.
선택 가능하게, i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크, i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크, i회째 제1 반복의 목표 뉴럴 네트워크 및 i회째 제1 반복의 평균 뉴럴 네트워크에 트레이닝 이미지 세트를 입력하기 전에, 트레이닝 이미지 세트 내의 이미지에 대해 제1 전처리를 행하여 제1 이미지 세트를 취득하고, 제1 이미지 세트를 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크에 입력하여 제1 특징 데이터 세트를 취득하고, 제1 이미지 세트를 i회째 제1 반복의 목표 뉴럴 네트워크에 입력하여 제5 특징 데이터 세트를 취득할 수 있다. 제1 전처리는 소거 처리, 트리밍 처리, 반전 처리 중 어느 것을 포함한다.
트레이닝 이미지 세트에 대해 제1 전처리를 행함으로써, 트레이닝 중에 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크, i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크, i회째 제1 반복의 목표 뉴럴 네트워크 및 i회째 제1 반복의 평균 네트워크에 과잉 적합이 발생하는 확률을 저감시킬 수 있다.
선택 가능하게, 트레이닝 이미지 세트에 대해 제1 전처리를 행함과 아울러, 트레이닝 이미지 세트에 대해 제2 전처리를 행하여 제4 이미지 세트를 취득할 수 있다. 제2 전처리는 소거 처리, 트리밍 처리, 반전 처리 중 어느 것을 포함하고, 제1 전처리와 제2 전처리는 서로 상이하다. 제4 이미지 세트를 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크에 입력하여 제4 특징 데이터 세트를 취득하고, 제4 이미지 세트를 i회째 제1 반복의 평균 네트워크에 입력하여 제2 특징 데이터 세트를 취득한다.
트레이닝 이미지 세트에 대해 제1 전처리 및 제2 전처리를 동시에 행함으로써, 트레이닝 중에 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크, i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크, i회째 제1 반복의 목표 뉴럴 네트워크 및 i회째 제1 반복의 평균 네트워크에 과잉 적합이 발생하는 확률을 더욱 저감시킬 수 있다.
예를 들면,(예 7), 트레이닝 이미지 세트는 이미지 1 및 이미지 2를 포함하고, 이미지 1에 대해 트리밍 처리를 행하여 이미지 3을 취득하고, 이미지 2에 대해 소거 처리(이미지 2의 임의의 영역을 소거함)를 행하여 이미지 4를 취득하여 이미지 3 및 이미지 4를 제1 이미지 세트로 한다. 이미지 1에 대해 반전 처리를 행하여 이미지 5를 취득하고, 이미지 2에 대해 트리밍 처리를 행하여 이미지 6을 취득하여 이미지 5 및 이미지 6을 제4 이미지 세트로 한다. 이미지 3 및 이미지 4를 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크에 입력하여 이미지 3의 특징 데이터 및 이미지 4의 특징 데이터를 포함하는 제1 특징 데이터 세트를 취득하고, 이미지 3 및 이미지 4를 i회째 제1 반복의 목표 뉴럴 네트워크에 입력하여 이미지 3의 특징 데이터 및 이미지 4의 특징 데이터를 포함하는 제5 특징 데이터 세트를 취득하고, 이미지 5 및 이미지 6을 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크에 입력하여 이미지 5의 특징 데이터 및 이미지 6의 특징 데이터를 포함하는 제4 특징 데이터 세트를 취득하고, 이미지 5 및 이미지 6을 i회째 제1 반복의 평균 네트워크에 입력하여 이미지 5의 특징 데이터 및 이미지 6의 특징 데이터를 포함하는 제2 특징 데이터 세트를 취득한다.
트레이닝 이미지 세트 내의 제1 이미지에 대해 제1 전처리를 행하여 제2 이미지를 취득하고, 제1 이미지에 대해 제2 전처리를 행하여 제4 이미지를 취득하여 제2 이미지와 제4 이미지의 이미지 내용은 다르나, 제2 이미지와 제4 이미지의 라벨은 동일하다. 예 7에 이어서 예를 들면, 이미지 1의 라벨, 이미지 3의 라벨 및 이미지 5의 라벨은 전부 동일하고, 이미지 2의 라벨, 이미지 4의 라벨 및 이미지 6의 라벨은 전부 동일하다.
또한 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크에 의해 제2 이미지를 처리하여 제1 분류 결과를 취득하고, i회째 제1 반복의 목표 뉴럴 네트워크에 의해 제2 이미지를 처리하여 제4 분류 결과를 취득하고, i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크에 의해 제4 이미지를 처리하여 제3 분류 결과를 취득하고, i회째 제1 반복의 평균 네트워크에 의해 제2 이미지를 처리하여 제2 분류 결과를 취득할 수 있다.
i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크에 의해 제1 이미지 세트를 처리하여 취득되는 제1 특징 데이터 세트 내의 특징 데이터는 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크에 의해 트레이닝 이미지 세트를 처리하여 취득되는 제1 특징 데이터 세트 내의 특징 데이터와 상이하다. 이 때, 상술한 트레이닝 이미지 세트 내의 이미지의 제1 특징 데이터 세트(또는 제2 특징 데이터 세트 또는 제4 특징 데이터 세트 또는 제5 특징 데이터 세트)에서의 클래스 내에서 가장 어려운 특징 데이터는 제1 전처리 또는 제2 전처리가 이루어진 이미지의 제1 특징 데이터 세트(또는 제2 특징 데이터 세트 또는 제4 특징 데이터 세트 또는 제5 특징 데이터 세트)에서의 클래스 내에서 가장 어려운 특징 데이터를 의미하고, 트레이닝 이미지 세트 내의 이미지의 제1 특징 데이터 세트(또는 제2 특징 데이터 세트 또는 제4 특징 데이터 세트 또는 제5 특징 데이터 세트)에서의 클래스 외에서 가장 어려운 특징 데이터는 제1 전처리 또는 제2 전처리가 이루어진 이미지의 제1 특징 데이터 세트(또는 제2 특징 데이터 세트 또는 제4 특징 데이터 세트 또는 제5 특징 데이터 세트)에서의 클래스 외에서 가장 어려운 특징 데이터를 의미한다.
아울러 본 발명의 실시예에서의 제1 트레이닝 대상의 뉴럴 네트워크, 제1 뉴럴 네트워크 및 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크가 동일한 구조이나 파라미터가 상이하다. 제2 트레이닝 대상의 뉴럴 네트워크, 제2 뉴럴 네트워크 및 i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크가 동일한 구조이나 파라미터가 상이하다. 대상 네트워크 및 i회째 제1 반복의 목표 뉴럴 네트워크가 동일한 구조이나 파라미터가 상이하다. 평균 네트워크 및 i회째 제1 반복의 트레이닝 전의 평균 뉴럴 네트워크가 동일한 구조이나 파라미터가 상이하다. 도 4에 나타내는 i회째 제1 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 출력은 제1 분류 결과 및 제1 특징 데이터 세트를 포함하고, i회째 제1 반복의 목표 뉴럴 네트워크의 출력은 제4 분류 결과 및 제5 특징 데이터 세트를 포함하고, i회째 제1 반복의 제2 트레이닝 대상의 뉴럴 네트워크의 출력은 제3 분류 결과 및 제4 특징 데이터 세트를 포함하고, i회째 제1 반복의 평균 네트워크의 출력은 제2 분류 결과 및 제2 특징 데이터 세트를 포함한다.
선택 가능하게, 본 발명에 따른 발명을 실행하는 장치의 하드웨어 자원이 불충분하여 1회의 제1 반복 또는 제2 반복에 있어서 트레이닝 이미지 세트의 하나 이상의 이미지를 완전히 처리할 수 없는 경우, 트레이닝 이미지 세트로부터 샘플링하여 샘플 이미지 세트를 취득하고 샘플 이미지 세트를 1회의 제1 반복 또는 1회의 제2 반복의 트레이닝 데이터로 할 수 있다.
603. 상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실, 상기 제1 소프트 트리플렛 손실 및 상기 제1 하드 트리플렛 손실에 기초하여 제1 손실을 결정하고, 상기 제2 하드 분류 손실, 상기 제2 소프트 분류 손실, 상기 제2 소프트 트리플렛 손실 및 상기 제2 하드 트리플렛 손실에 기초하여 제2 손실을 결정한다.
제1 하드 트리플렛 손실과 제1 하드 분류 손실과 제1 소프트 트리플렛 손실과 제1 소프트 분류 손실을 가중치 가산하여 제1 손실을 취득하고, 제2 하드 트리플렛 손실과 제2 하드 분류 손실과 제2 소프트 트리플렛 손실과 제2 소프트 분류 손실을 가중치 가산하여 제2 손실을 취득한다. 가중치 가산의 가중치는 실제의 사용 상황에 따라 조정할 수 있다. 본 발명은 이를 한정하지 않는다.
본 실시예에 따른 기술 방안을 적용하는 경우, 제1 특징 데이터 세트, 제2 특징 데이터 세트, 제4 특징 데이터 세트 및 제5 특징 데이터 세트에 기초하여 소프트 라벨을 취득하고, 소프트 라벨을 교사로 하여 i회째 반복의 제1 트레이닝 대상의 뉴럴 네트워크 및 i회째 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝함으로써, 제1 소프트 트리플렛 손실 및 제2 소프트 트리플렛 손실을 취득할 수 있다. 제1 소프트 트리플렛 손실에 기초하여 i회째 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터를 조정하여 i+1회째의 반복의 제1 트레이닝 대상의 뉴럴 네트워크를 취득하고, 제2 소프트 트리플렛 손실에 기초하여 i회째 반복의 제2 트레이닝 대상의 뉴럴 네트워크를 조정한다. 이에 의해, 타겟 도메인에서 i+1회째의 반복의 제1 트레이닝 대상의 뉴럴 네트워크의 인식 정확률 및 타겟 도메인에서 i+1회째의 반복의 제2 트레이닝 대상의 뉴럴 네트워크의 특징 추출 효과를 향상시켜 타겟 도메인에서 목표 뉴럴 네트워크의 인식 정확률을 향상시킬 수 있다.
본 발명의 실시예는 나아가 실시예에서 취득되는 처리 대상의 이미지의 목표 특징 데이터에 기초하여 이미지 검색을 행하는 적용 장면을 제공한다. 즉, 상기 목표 특징 데이터로 데이터베이스를 검색하여 상기 목표 특징 데이터에 매칭하는 특징 데이터를 갖는 이미지를 목표 이미지로서 취득한다.
상기 데이터베이스는 처리 대상의 이미지를 취득하기 전에 구축할 수 있다. 데이터베이스는 이미지 및 이미지의 특징 데이터를 포함한다. 이미지의 특징 데이터는 목표 뉴럴 네트워크가 타겟 도메인에서 실행하는 태스크에 관련된다. 예를 들면, 목표 뉴럴 네트워크를 사용하여 타겟 도메인 내의 이미지에서의 인물 오브젝트의 신원을 인식한다. 이미지의 특징 데이터는 이미지에서의, 인물 오브젝트의 복식 속성, 외관 특징 및 인물 오브젝트의 신원을 인식하기 위한 다른 특징을 포함하는 인물 오브젝트의 특징을 포함한다. 복식 속성은 인체를 장식하는 물품의 특징(예를 들면, 상의의 색, 바지의 색, 바지의 길이, 모자의 스타일, 구두의 색, 우산을 썼는지의 여부, 가방의 종류, 마스크의 유무, 마스크의 색) 중 하나 이상을 포함한다. 외관 특징은 체형, 성별, 헤어스타일, 머리카락의 색, 연령층, 안경의 착용 유무, 품에 무엇인가를 안고 있는지의 여부 등을 포함한다. 인물의 신원을 인식하기 위한 다른 특징은 자세, 화각, 보폭, 환경의 밝기를 포함한다. 또한 예를 들면, 목표 뉴럴 네트워크를 사용하여, 타겟 도메인 내의 이미지에는 사과, 배, 복숭아 중 어느 과일이 포함되어 있는지를 인식하고, 이미지의 특징 데이터는 사과의 특징 정보 또는 배의 특징 정보 또는 복숭아의 특징 정보를 포함한다.
데이터베이스 내의 각 이미지는 특징 데이터를 가지므로, 목표 특징 데이터로 데이터베이스를 검색하여, 데이터베이스로부터 목표 특징 데이터에 매칭하는 특징 데이터를 결정하고, 즉, 목표 특징 데이터와 데이터베이스 내의 이미지의 특징 데이터와의 유사도를 결정하고, 유사도가 임계치에 도달하는 이미지의 특징 데이터를 목표 특징 데이터에 매칭하는 특징 데이터로서 목표 이미지를 결정한다. 아울러 목표 이미지의 수는 1개일 수도 있고, 복수개일 수도 있음은 이해되어야 한다.
당업자라면 구체적인 실시형태에 따른 상기의 방법에서 각 단계의 기재 순서는 실행 순서를 엄밀히 한정하여 실시의 과정을 한정하는 것이 아니라 각 단계의 실행 순서가 그 기능과 내부의 논리에 의해 구체적으로 결정되는 것을 이해해야 한다.
이상 본 발명의 실시예의 방법을 상세하게 설명했으나, 이하, 본 발명의 실시예의 장치를 제공한다.
도 7을 참조하면, 도 7은 본 발명의 실시예에 따른 이미지 처리 장치의 구조 모식도이다. 이 장치(1)는 처리 대상의 이미지를 취득하기 위한 취득 유닛(11), 목표 뉴럴 네트워크를 사용하여 상기 처리 대상의 이미지에 대해 특징 추출 처리를 행하여 상기 처리 대상의 이미지의 목표 특징 데이터를 취득하기 위한 특징 추출 처리 유닛(12), 및 검색 유닛(13)을 구비하고, 상기 목표 뉴럴 네트워크의 파라미터는 제1 뉴럴 네트워크의 파라미터의 시계열 평균값이고, 상기 제1 뉴럴 네트워크는 트레이닝 이미지 세트 및 평균 네트워크를 사용하여 교사 트레이닝을 행하여 취득되고, 상기 평균 네트워크의 파라미터는 제2 뉴럴 네트워크의 파라미터의 시계열 평균값이고, 상기 제2 뉴럴 네트워크는 상기 트레이닝 이미지 세트 및 상기 목표 뉴럴 네트워크를 사용하여 교사 트레이닝을 행하여 취득된다.
가능한 일 실시형태에서는 상기 제1 뉴럴 네트워크가 트레이닝 이미지 세트 및 평균 네트워크를 사용하여 교사 트레이닝을 행하여 취득되는 것은 상기 트레이닝 이미지 세트, 제1 트레이닝 대상의 뉴럴 네트워크 및 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것과, 상기 제1 트레이닝 대상의 뉴럴 네트워크 및 상기 제2 트레이닝 대상의 뉴럴 네트워크에 대해 x(x는 양의 정수)회의 제1 반복을 실행하여 상기 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크를 취득하는 것을 포함하고, 상기 x회의 제1 반복 중 i(i는 상기 x 이하의 양의 정수)회째 제1 반복은 상기 트레이닝 이미지 세트 및 i회째 제1 반복의 상기 평균 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하고, 상기 트레이닝 이미지 세트 및 i회째 제1 반복의 상기 목표 뉴럴 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함하고, 상기 목표 뉴럴 네트워크의 파라미터가 제1 뉴럴 네트워크의 파라미터의 시계열 평균값인 것은 i-1회째 제1 반복의 상기 목표 뉴럴 네트워크의 파라미터 및 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터에 기초하여 상기 i회째 제1 반복의 상기 목표 뉴럴 네트워크의 파라미터를 결정하는 것과, 상기 i=1인 경우, 상기 i-1회째 제1 반복의 상기 목표 뉴럴 네트워크의 파라미터는 상기 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터와 동일한 것을 포함한다.
다른 가능한 실시형태에서는 상기 트레이닝 이미지 세트 및 i회째 평균 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제1 특징 데이터 세트를 취득하고, 상기 i회째 제1 반복의 상기 평균 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제2 특징 데이터 세트를 취득하는 것과, 상기 제1 특징 데이터 세트 및 상기 제2 특징 데이터 세트에 기초하여 제1 소프트 트리플렛 손실을 취득하는 것과, 상기 트레이닝 이미지 세트 및 상기 제1 소프트 트리플렛 손실을 교사로 하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 상기 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함한다.
다른 가능한 실시형태에서는 상기 제1 특징 데이터 세트 및 상기 제2 특징 데이터 세트에 기초하여 제1 소프트 트리플렛 손실을 취득하는 것은 상기 트레이닝 이미지 세트 내의 제1 이미지의 상기 제1 특징 데이터 세트에서의 제1 특징 데이터와, 상기 제1 특징 데이터 세트 내의, 상기 제1 이미지의 제1 라벨과 동일한 라벨을 갖는 이미지의 특징 데이터를 포함하는 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제1 유사도를 취득하는 것과, 상기 제1 이미지의 상기 제2 특징 데이터 세트에서의 제2 특징 데이터와, 상기 제2 특징 데이터 세트 내의 상기 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제2 유사도를 취득하는 것과, 상기 제1 특징 데이터와, 상기 제1 특징 데이터 세트 내의, 상기 제1 라벨과 상이한 라벨을 갖는 이미지의 특징 데이터를 포함하는 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제3 유사도를 취득하는 것과, 상기 제2 특징 데이터와, 상기 제2 특징 데이터 세트 내의 상기 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제4 유사도를 취득하는 것과, 상기 제1 유사도, 상기 제2 유사도, 상기 제3 유사도 및 상기 제4 유사도를 각각 정규화 처리하여 제5 유사도, 제6 유사도, 제7 유사도 및 제8 유사도를 취득하는 것과, 상기 제5 유사도, 상기 제6 유사도, 상기 제7 유사도 및 상기 제8 유사도에 기초하여 상기 제1 소프트 트리플렛 손실을 취득하는 것을 포함한다.
다른 가능한 실시형태에서는 상기 제1 유사도, 상기 제2 유사도, 상기 제3 유사도 및 상기 제4 유사도를 각각 정규화 처리하여 제5 유사도, 제6 유사도, 제7 유사도 및 제8 유사도를 취득하는 것은 상기 제2 유사도와 상기 제4 유사도의 합을 제1 총 유사도로서 취득하고, 상기 제1 유사도와 상기 제3 유사도의 합을 제2 총 유사도로서 취득하는 것과, 상기 제2 유사도와 상기 제1 총 유사도의 몫을 상기 제5 유사도로서 취득하고, 상기 제4 유사도와 상기 제1 총 유사도의 몫을 상기 제6 유사도로서 취득하는 것과, 상기 제1 유사도와 상기 제2 총 유사도의 몫을 상기 제7 유사도로서 취득하고, 상기 제3 유사도와 상기 제2 총 유사도의 몫을 상기 제8 유사도로서 취득하는 것을 포함한다.
다른 가능한 실시형태에서는 상기 트레이닝 이미지 세트 및 상기 제1 소프트 트리플렛 손실을 교사로 하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 상기 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지를 처리하여 제1 분류 결과를 취득하는 것과, 상기 제1 분류 결과, 상기 제1 라벨 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 제1 손실을 결정하는 것과, 상기 제1 손실에 기초하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터를 조정하여 상기 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함한다.
다른 가능한 실시형태에서는 상기 제1 분류 결과, 상기 제1 라벨 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 제1 손실을 결정하는 것은 상기 제1 분류 결과와 상기 제1 라벨의 차분에 기초하여 제1 하드 분류 손실을 결정하는 것과, 상기 제1 하드 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것을 포함한다.
다른 가능한 실시형태에서는 상기 제1 하드 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하기 전에, 상기 i회째 제1 반복의 상기 평균 네트워크에 의해 상기 제1 이미지를 처리하여 제2 분류 결과를 취득하고, 상기 제1 분류 결과와 상기 제2 분류 결과의 차분에 기초하여 제1 소프트 분류 손실을 결정하고, 상기 제1 하드 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것은 상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것을 포함한다.
다른 가능한 실시형태에서는 상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하기 전에, 상기 제1 유사도 및 상기 제3 유사도에 기초하여 제1 하드 트리플렛 손실을 결정하고, 상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것은 상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실, 상기 제1 소프트 트리플렛 손실 및 상기 제1 하드 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것을 포함한다.
다른 가능한 실시형태에서는 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트 내의 제1 이미지를 처리하여 제1 분류 결과를 취득하는 것은 상기 트레이닝 이미지 세트에 대해 소거 처리, 트리밍 처리, 반전 처리 중 어느 것을 포함하는 제1 전처리를 행하여 제1 이미지 세트를 취득하는 것과, 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지 세트 내의 제2 이미지를 처리하여 상기 제1 분류 결과를 취득하는 것을 포함하고, 상기 제2 이미지는 상기 제1 이미지에 대해 상기 제1 전처리를 행하여 취득되고, 상기 제2 이미지의 상기 제1 특징 데이터 세트에서의 특징 데이터는 상기 제1 이미지의 상기 제1 특징 데이터 세트에서의 데이터와 동일하다.
다른 가능한 실시형태에서는 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제1 특징 데이터 세트를 취득하는 것은 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지 세트를 처리하여 상기 제1 특징 데이터 세트를 취득하는 것을 포함한다.
다른 가능한 실시형태에서는 상기 취득 유닛(11)은 구체적으로, 처리 대상의 이미지 세트 및 제3 뉴럴 네트워크를 취득하는 것과, 상기 제3 뉴럴 네트워크에 대해 y(y는 양의 정수)회의 제2 반복을 실행하여 상기 트레이닝 이미지 세트를 취득하는 것에 사용되고, 상기 y회의 제2 반복 중 t(t는 상기 y보다 작은 양의 정수)회째 제2 반복은 상기 처리 대상의 이미지 세트로부터 샘플링하여 제2 이미지 세트를 취득하고, t회째 제2 반복의 제3 뉴럴 네트워크에 의해 상기 제2 이미지 세트 내의 이미지를 처리하여 상기 제2 이미지 세트 내의 이미지의 특징 데이터를 포함하는 제3 특징 데이터 세트 및 상기 제2 이미지 세트 내의 이미지의 분류 결과를 포함하는 분류 결과 세트를 취득하는 것과, 상기 제3 특징 데이터 세트 내의 특징 데이터를 클러스터링 처리하여 상기 제3 특징 데이터 세트 내의 특징 데이터의 라벨을 결정하고, 상기 제3 특징 데이터 세트 내의 특징 데이터의 라벨을 상기 제2 이미지 세트 내의 대응하는 이미지에 부가하여 제3 이미지 세트를 취득하는 것과, 상기 분류 결과 세트 내의 분류 결과와 상기 제3 이미지 세트 내의 이미지의 라벨의 차분에 기초하여 제3 손실을 결정하는 것과, 상기 제3 손실에 기초하여 상기 t회째 제2 반복의 제3 뉴럴 네트워크의 파라미터를 조정하여 t+1회째 제2 반복의 제3 뉴럴 네트워크의 파라미터를 취득하는 것을 포함한다.
다른 가능한 실시형태에서는 상기 장치는 상기 목표 특징 데이터로 데이터베이스를 검색하여 상기 목표 특징 데이터에 매칭하는 특징 데이터를 갖는 이미지를 목표 이미지로서 취득하기 위한 검색 유닛(13)을 추가로 구비한다.
본 실시예에서는 제1 뉴럴 네트워크의 파라미터의 시계열 평균값 및 제2 뉴럴 네트워크의 시계열 평균값을 결정하여 목표 뉴럴 네트워크의 파라미터 및 평균 네트워크의 파라미터를 각각 취득하고, 목표 뉴럴 네트워크의 출력을 교사로 하여 제2 뉴럴 네트워크를 트레이닝하고, 평균 네트워크의 출력을 교사로 하여 제1 뉴럴 네트워크를 트레이닝하여 목표 뉴럴 네트워크를 트레이닝한다. 이에 의해, 트레이닝 효과를 향상시킬 수 있다. 또한 목표 뉴럴 네트워크를 사용하여 타겟 도메인에서 관련하는 인식 태스크를 실행할 때, 정보가 보다 풍부한 목표 특징 데이터를 추출할 수 있다. 상기 정보는 타겟 도메인에서의 인식 정확률을 향상시킬 수 있다.
어느 실시예에서 본 발명의 실시예에 의한 장치의 기능 또는 수단은 상기 방법 실시예에 기재된 방법을 실행하기 위해 사용된다. 구체적인 실시는 상기 방법 실시예의 기재를 참조하면 자명해지고 간결함을 위해 상세한 설명은 생략한다.
도 8은 본 발명의 실시예에 따른 이미지 처리 장치의 하드웨어 구조 모식도이다. 이 이미지 처리 장치(2)는 프로세서(21)와, 메모리(22)와, 입력 장치(23)와, 출력 장치(24)를 구비한다. 프로세서(21), 메모리(22), 입력 장치(23) 및 출력 장치(24)는 커넥터를 통해 결합되고, 이 커넥터는 다양한 인터페이스, 전송 라인이나 버스 등을 포함하고, 본 발명의 실시예는 이를 한정하지 않는다. 본 발명의 각 실시예에서는 결합이란, 특정의 수단에 의한 상호 접속을 의미하고, 직접적으로 접속되는 것 또는 다른 장치를 통해 간접적으로 접속되는(예를 들면, 다양한 인터페이스, 전송 라인, 버스 등을 통해 접속할 수 있는) 것을 포함함은 이해되어야 한다.
프로세서(21)는 하나 이상의 그래픽 프로세서(graphics processing unit, GPU)여도 된다. 프로세서(21)가 하나의 GPU인 경우, 상기 GPU는 싱글 코어 GPU여도 되고, 멀티 코어 GPU여도 된다. 프로세서(21)는 복수의 GPU로 이루어지는 프로세서군이고, 복수의 프로세서끼리는 하나 이상의 버스를 통해 서로 결합되어 있는 것을 선택 가능해도 된다. 프로세서는 추가로, 다른 타입의 프로세서 등을 선택 가능해도 되고, 본 발명의 실시예는 이에 한정되지 않는다.
메모리(22)는 컴퓨터 프로그램 명령, 및 본 발명의 방안을 실행하기 위한 프로그램 코드를 포함하는 다양한 컴퓨터 프로그램 코드를 기억하기 위해 사용할 수 있다. 메모리는 랜덤 액세스 메모리(random access memory, RAM), 리드 온리 메모리(read-only memory, ROM), 소거 가능한 프로그래머블 리드 온리 메모리(erasable programmable read only memory, EPROM), 또는 콤팩트 디스크 리드 온리 메모리(compact disc read-only memory, CD-ROM)를 선택 가능하게 포함하나 이에 한정되지 않고, 상기 메모리는 관련 명령 및 데이터를 위해 사용된다.
입력 장치(23)는 데이터 및/또는 신호를 입력하기 위한 것이고, 출력 장치(24)는 데이터 및/또는 신호를 출력하기 위한 것이다. 출력 장치(23) 및 입력 장치(24)는 독립적인 디바이스여도 되고, 일체의 디바이스여도 된다.
본 발명의 실시예에서는 메모리(22)는 관련하는 명령을 기억하기 위해 사용할 수 있을 뿐 아니라, 관련 이미지를 기억하기 위해 사용할 수도 있고, 예를 들면, 상기 메모리(22)는 입력 장치(23)에 의해 취득된 검색 대상 뉴럴 네트워크를 기억하기 위해 사용할 수 있거나 또는 상기 메모리(22)는 추가로, 프로세서(21)에 의해 검색하여 얻어진 목표 뉴럴 네트워크 등을 기억하기 위해 사용할 수 있고, 본 발명의 실시예는 상기 메모리에 구체적으로 기억된 데이터를 한정하는 것이 아닌 것으로 이해할 수 있다.
도 8은 이미지 처리 장치의 간략화된 설계만을 나타내고 있는 것으로 이해되어야 한다. 실제의 적용에 있어서, 이미지 처리 장치는 추가로, 임의의 수의 입력/출력 장치, 프로세서, 메모리 등 필요한 다른 소자를 각각 포함할 수도 있으나 이에 한정되지 않는다. 본 발명의 실시예를 실시할 수 있는 이미지 처리 장치는 전부 본 발명의 기술적 범위 내인 것으로 이해할 수 있다.
당업자라면 본 명세서에 개시된 실시예에 관련하여 설명된 다양한 예시적인 유닛 및 알고리즘 단계은 전자 하드웨어, 또는 컴퓨터 소프트웨어와 전자 하드웨어의 조합으로 실현될 수 있음을 인식할 것이다. 이 기능들이 하드웨어로 실행될지 소프트웨어로 실행될지는 기술 방안의 특정의 응용이나 설계 제약 조건에 의존한다. 당업자는 특정의 응용마다 상이한 방법을 사용하여 설명한 기능을 실현할 수 있으나, 이 실현은 본 발명의 범위를 벗어났다고는 볼 수 없다.
당업자에게는 자명한 바와 같이, 설명의 용이함과 간결함을 위해, 상술한 시스템, 장치 및 유닛의 구체적인 동작 과정은 전술한 방법의 실시예에서의 대응의 과정을 참조할 수 있고 여기에서는 설명을 생략한다. 당업자에게는 자명한 바와 같이, 본 발명의 각 실시예는 각각에 중점을 두어 설명하고 설명의 용이함과 간결함을 위해, 상이한 실시예에서 동일 또는 유사한 부분은 설명이 생략된 경우가 있고, 따라서 어느 실시예에서 설명되지 않는 또는 상세히 설명되지 않는 부분은 다른 실시예의 기재를 참조할 수 있다.
본 발명에 의해 제공되는 어느 실시예에서 개시된 시스템, 장치 및 방법은 다른 방식에 의해 실현되는 것을 이해해야 한다. 예를 들면, 상술한 장치의 실시예는 예시적인 것에 불과한 것으로, 예를 들면, 상기 유닛의 분할은 논리적인 기능 분할뿐이고, 실제로 실현되는 경우에는 다른 분할 방식이어도 되고, 예를 들면, 복수의 유닛 또는 컴포넌트를 집적하거나 다른 시스템에 집적하거나 일부의 특징을 무시하거나 실행하지 않아도 된다. 다른 점으로서, 표시 또는 논의된 상호간의 결합 또는 직접 결합 또는 통신 접속은 어느 인터페이스, 장치 또는 유닛을 통한 간접적인 결합 또는 통신 접속이어도 되고, 전기적, 기계적 또는 다른 형태여도 된다.
분리 부재로서 설명한 상기 유닛은 물리적으로 분리되어 있을 수도 있고, 물리적으로 분리되어 있지 않을 수도 있고, 유닛으로서 표시되는 부재는 물리적인 유닛이어도 되고, 물리적인 유닛이 아니어도 되고, 즉 하나의 장소에 있어도 되고, 복수의 네트워크 유닛에 분산되어 있어도 된다. 실제 수요에 따라 그 중의 일부 또는 전부의 유닛을 선택하여 본 실시예의 수단의 목적을 달성할 수 있다.
또한, 본 발명의 각 실시예에서의 각 기능 유닛은 하나의 처리 유닛에 집적되어 있어도 되고, 각 처리 유닛이 개별적으로 물리적으로 존재하고 있어도 되고, 두 개 이상의 처리 유닛이 한 개의 처리 유닛에 집적되어 있어도 된다.
상술한 실시예에서 소프트웨어, 하드웨어, 펌웨어, 또는 이들의 조합에 의해 그 전부 또는 일부를 실현하도록 해도 된다. 소프트웨어를 사용하여 실현하는 경우에는 그 전부 또는 일부를 컴퓨터 프로그램 제품으로서 실현해도 된다. 상기 컴퓨터 프로그램 제품은 하나 이상의 컴퓨터 명령을 포함한다. 컴퓨터 상에서 상기 컴퓨터 프로그램 명령이 로드되어 실행되면, 그 전부 또는 일부는 본 발명의 실시예에 기재된 플로우 또는 기능을 생성한다. 상기 컴퓨터는 범용 컴퓨터, 전용 컴퓨터, 컴퓨터 네트워크, 또는 다른 프로그램 가능한 장치여도 된다. 상기 컴퓨터 명령은 컴퓨터 판독 가능 기억 매체에 기억되어도 되고, 상기 컴퓨터 판독 가능 기억 매체를 통해 전송되어도 된다. 상기 컴퓨터 명령은 하나의 웹 사이트, 컴퓨터, 서버, 또는 데이터 센터로부터, 유선(예를 들면, 동축 케이블, 광 파이버, 디지털 가입자선(digital subscriber line, DSL)) 또는 무선(예를 들면, 적외선, 무선, 마이크로파 등)에 의해 다른 웹 사이트, 컴퓨터, 서버, 또는 데이터 센터로 전송되어도 된다. 상기 컴퓨터 판독 가능 기억 매체는 컴퓨터가 액세스 가능한 임의의 이용 가능한 매체여도 되고, 하나 이상의 이용 가능한 매체가 집적된 서버, 데이터 센터 등의 데이터 기억 장치여도 된다. 상기 이용 가능한 매체는 자기 매체(예를 들면, 플로피 디스크, 하드 디스크, 자기 테이프), 광 매체(예를 들면, 디지털 유니버설 디스크(digital versatile disc, DVD)), 또는 반도체 매체(예를 들면, 솔리드 스테이트 드라이브(solid state disk, SSD)) 등여도 된다.
당업자는 상기 실시예의 방법을 실현하는 플로우의 전부 또는 일부를 이해할 수 있고, 상기 플로우는 컴퓨터 프로그램에 의해 관련된 하드웨어에 명령하여 완성할 수 있고, 상기 프로그램은 컴퓨터 판독 가능 기억 매체에 기억되고, 상기 프로그램이 실행될 때 상기 각 방법의 실시예와 같은 플로우를 포함할 수 있다. 또한 전술한 기억 매체에는 리드 온리 메모리(read-only memory, ROM) 또는 랜덤 액세스 메모리(random access memory, RAM), 자기 디스크, 광 디스크 등의 프로그램 코드를 기억 가능한 각종 매체가 포함된다.

Claims (32)

  1. 처리 대상의 이미지를 취득하는 것과,
    목표 뉴럴 네트워크를 사용하여 상기 처리 대상의 이미지에 대해 특징 추출 처리를 행하여 상기 처리 대상의 이미지의 목표 특징 데이터를 취득하는 것을 포함하고,
    상기 목표 뉴럴 네트워크의 파라미터는 제1 뉴럴 네트워크의 파라미터의 시계열 평균값이고, 상기 제1 뉴럴 네트워크는 트레이닝 이미지 세트 및 평균 네트워크를 사용하여 교사 트레이닝을 행하여 취득되고, 상기 평균 네트워크의 파라미터는 제2 뉴럴 네트워크의 파라미터의 시계열 평균값이고, 상기 제2 뉴럴 네트워크는 상기 트레이닝 이미지 세트 및 상기 목표 뉴럴 네트워크를 사용하여 교사 트레이닝을 행하여 취득되는, 이미지 처리 방법.
  2. 제 1 항에 있어서,
    상기 제1 뉴럴 네트워크는 트레이닝 이미지 세트 및 평균 네트워크를 사용하여 교사 트레이닝을 행하여 취득되는 것은,
    상기 트레이닝 이미지 세트, 제1 트레이닝 대상의 뉴럴 네트워크 및 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것과,
    상기 제1 트레이닝 대상의 뉴럴 네트워크 및 상기 제2 트레이닝 대상의 뉴럴 네트워크에 대해 x(x는 양의 정수)회의 제1 반복을 실행하여 상기 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크를 취득하는 것을 포함하고,
    상기 x회의 제1 반복 중 i(i는 상기 x 이하의 양의 정수)회째 제1 반복은
    상기 트레이닝 이미지 세트 및 i회째 제1 반복의 상기 평균 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하고, 상기 트레이닝 이미지 세트 및 i회째 제1 반복의 상기 목표 뉴럴 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함하고,
    상기 목표 뉴럴 네트워크의 파라미터가 제1 뉴럴 네트워크의 파라미터의 시계열 평균값인 것은,
    i-1회째 제1 반복의 상기 목표 뉴럴 네트워크의 파라미터 및 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터에 기초하여 상기 i회째 제1 반복의 상기 목표 뉴럴 네트워크의 파라미터를 결정하는 것과,
    상기 i=1인 경우, 상기 i-1회째 제1 반복의 상기 목표 뉴럴 네트워크의 파라미터는 상기 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터와 동일한 것을 포함하는, 이미지 처리 방법.
  3. 제 2 항에 있어서,
    상기 트레이닝 이미지 세트 및 i회째 평균 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은,
    상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제1 특징 데이터 세트를 취득하고, 상기 i회째 제1 반복의 상기 평균 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제2 특징 데이터 세트를 취득하는 것과,
    상기 제1 특징 데이터 세트 및 상기 제2 특징 데이터 세트에 기초하여 제1 소프트 트리플렛 손실을 취득하는 것과,
    상기 트레이닝 이미지 세트 및 상기 제1 소프트 트리플렛 손실을 교사로 하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 상기 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함하는, 이미지 처리 방법.
  4. 제 3 항에 있어서,
    상기 제1 특징 데이터 세트 및 상기 제2 특징 데이터 세트에 기초하여 제1 소프트 트리플렛 손실을 취득하는 것은,
    상기 트레이닝 이미지 세트 내의 제1 이미지의 상기 제1 특징 데이터 세트에서의 제1 특징 데이터와, 상기 제1 특징 데이터 세트 내의, 상기 제1 이미지의 제1 라벨과 동일한 라벨을 갖는 이미지의 특징 데이터를 포함하는 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제1 유사도를 취득하는 것과, 상기 제1 이미지의 상기 제2 특징 데이터 세트에서의 제2 특징 데이터와, 상기 제2 특징 데이터 세트 내의 상기 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제2 유사도를 취득하는 것과,
    상기 제1 특징 데이터와, 상기 제1 특징 데이터 세트 내의, 상기 제1 라벨과 상이한 라벨을 갖는 이미지의 특징 데이터를 포함하는 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제3 유사도를 취득하고, 상기 제2 특징 데이터와, 상기 제2 특징 데이터 세트 내의 상기 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제4 유사도를 취득하는 것과,
    상기 제1 유사도, 상기 제2 유사도, 상기 제3 유사도 및 상기 제4 유사도를 각각 정규화 처리하여 제5 유사도, 제6 유사도, 제7 유사도 및 제8 유사도를 취득하는 것과,
    상기 제5 유사도, 상기 제6 유사도, 상기 제7 유사도 및 상기 제8 유사도에 기초하여 상기 제1 소프트 트리플렛 손실을 취득하는 것을 포함하는, 이미지 처리 이미지 처리 방법.
  5. 제 4 항에 있어서,
    상기 제1 유사도, 상기 제2 유사도, 상기 제3 유사도 및 상기 제4 유사도를 각각 정규화 처리하여 제5 유사도, 제6 유사도, 제7 유사도 및 제8 유사도를 취득하는 것은,
    상기 제2 유사도와 상기 제4 유사도의 합을 제1 총 유사도로서 취득하고, 상기 제1 유사도와 상기 제3 유사도의 합을 제2 총 유사도로서 취득하는 것과,
    상기 제2 유사도와 상기 제1 총 유사도의 몫을 상기 제5 유사도로서 취득하고, 상기 제4 유사도와 상기 제1 총 유사도의 몫을 상기 제6 유사도로서 취득하는 것과,
    상기 제1 유사도와 상기 제2 총 유사도의 몫을 상기 제7 유사도로서 취득하고, 상기 제3 유사도와 상기 제2 총 유사도의 몫을 상기 제8 유사도로서 취득하는 것을 포함하는, 이미지 처리 방법.
  6. 제 5 항에 있어서,
    상기 트레이닝 이미지 세트 및 상기 제1 소프트 트리플렛 손실을 교사로 하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 상기 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은,
    상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지를 처리하여 제1 분류 결과를 취득하는 것과,
    상기 제1 분류 결과, 상기 제1 라벨 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 제1 손실을 결정하는 것과,
    상기 제1 손실에 기초하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터를 조정하여 상기 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함하는, 이미지 처리 방법.
  7. 제 6 항에 있어서,
    상기 제1 분류 결과, 상기 제1 라벨 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 제1 손실을 결정하는 것은,
    상기 제1 분류 결과와 상기 제1 라벨의 차분에 기초하여 제1 하드 분류 손실을 결정하는 것과,
    상기 제1 하드 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것을 포함하는, 이미지 처리 방법.
  8. 제 7 항에 있어서,
    상기 제1 하드 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하기 전에,
    상기 i회째 제1 반복의 상기 평균 네트워크에 의해 상기 제1 이미지를 처리하여 제2 분류 결과를 취득하는 것과,
    상기 제1 분류 결과와 상기 제2 분류 결과의 차분에 기초하여 제1 소프트 분류 손실을 결정하는 것을 추가로 포함하고,
    상기 제1 하드 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것은,
    상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것을 포함하는, 이미지 처리 방법.
  9. 제 8 항에 있어서,
    상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하기 전에,
    상기 제1 유사도 및 상기 제3 유사도에 기초하여 제1 하드 트리플렛 손실을 결정하는 것을 추가로 포함하고,
    상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것은,
    상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실, 상기 제1 소프트 트리플렛 손실 및 상기 제1 하드 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것을 포함하는, 이미지 처리 방법.
  10. 제 5 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트 내의 제1 이미지를 처리하여 제1 분류 결과를 취득하는 것은,
    상기 트레이닝 이미지 세트에 대해 소거 처리, 트리밍 처리, 반전 처리 중 어느 것을 포함하는 제1 전처리를 행하여 제1 이미지 세트를 취득하는 것과,
    상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지 세트 내의 제2 이미지를 처리하여 상기 제1 분류 결과를 취득하는 것을 포함하고, 상기 제2 이미지는 상기 제1 이미지에 대해 상기 제1 전처리를 행하여 취득되고, 상기 제2 이미지의 상기 제1 특징 데이터 세트에서의 특징 데이터는 상기 제1 이미지의 상기 제1 특징 데이터 세트에서의 데이터와 동일한, 이미지 처리 방법.
  11. 제 10 항에 있어서,
    상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제1 특징 데이터 세트를 취득하는 것은,
    상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지 세트를 처리하여 상기 제1 특징 데이터 세트를 취득하는 것을 포함하는, 이미지 처리 방법.
  12. 제 2 항 내지 제 11 항 중 어느 한 항에 있어서,
    상기 트레이닝 이미지 세트를 취득하는 것은,
    처리 대상의 이미지 세트 및 제3 뉴럴 네트워크를 취득하는 것과,
    상기 제3 뉴럴 네트워크에 대해 y(y는 양의 정수임)회의 제2 반복을 실행하여 상기 트레이닝 이미지 세트를 취득하는 것을 포함하고,
    상기 y회의 제2 반복 중 t회째 제2 반복은
    상기 처리 대상의 이미지 세트로부터 샘플링하여 제2 이미지 세트를 취득하고, t회째 제2 반복의 제3 뉴럴 네트워크에 의해 상기 제2 이미지 세트 내의 이미지를 처리하여, 상기 제2 이미지 세트 내의 이미지의 특징 데이터를 포함하는 제3 특징 데이터 세트 및 상기 제2 이미지 세트 내의 이미지의 분류 결과를 포함하는 분류 결과 세트를 취득하는 것과,
    상기 제3 특징 데이터 세트 내의 특징 데이터를 클러스터링 처리하여 상기 제3 특징 데이터 세트 내의 특징 데이터의 라벨을 결정하고, 상기 제3 특징 데이터 세트 내의 특징 데이터의 라벨을 상기 제2 이미지 세트 내의 대응하는 이미지에 부가하여 제3 이미지 세트를 취득하는 것과,
    상기 분류 결과 세트 내의 분류 결과와 상기 제3 이미지 세트 내의 이미지의 라벨의 차분에 기초하여 제3 손실을 결정하는 것과,
    상기 제3 손실에 기초하여 상기 t(t는 상기 y보다 작은 양의 정수)회째 제2 반복의 제3 뉴럴 네트워크의 파라미터를 조정하여 t+1회째 제2 반복의 제3 뉴럴 네트워크의 파라미터를 취득하는 것을 포함하는, 이미지 처리 방법.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
    상기 목표 특징 데이터로 데이터베이스를 검색하여 상기 목표 특징 데이터에 매칭하는 특징 데이터를 갖는 이미지를 목표 이미지로서 취득하는 것을 추가로 포함하는, 이미지 처리 방법.
  14. 제 1 항 내지 제 13 항 중 어느 한 항에 있어서,
    상기 처리 대상의 이미지는 인물 오브젝트를 포함하는, 이미지 처리 방법.
  15. 처리 대상의 이미지를 취득하기 위한 취득 유닛과,
    목표 뉴럴 네트워크를 사용하여 상기 처리 대상의 이미지에 대해 특징 추출 처리를 행하여 상기 처리 대상의 이미지의 목표 특징 데이터를 취득하기 위한 특징 추출 처리 유닛을 구비하고,
    상기 목표 뉴럴 네트워크의 파라미터는 제1 뉴럴 네트워크의 파라미터의 시계열 평균값이고, 상기 제1 뉴럴 네트워크는 트레이닝 이미지 세트 및 평균 네트워크를 사용하여 교사 트레이닝을 행하여 취득되고, 상기 평균 네트워크의 파라미터는 제2 뉴럴 네트워크의 파라미터의 시계열 평균값이고, 상기 제2 뉴럴 네트워크는 상기 트레이닝 이미지 세트 및 상기 목표 뉴럴 네트워크를 사용하여 교사 트레이닝을 행하여 취득되는, 이미지 처리 장치.
  16. 제 15 항에 있어서,
    상기 제1 뉴럴 네트워크는 트레이닝 이미지 세트 및 평균 네트워크를 사용하여 교사 트레이닝을 행하여 취득되는 것은,
    상기 트레이닝 이미지 세트, 제1 트레이닝 대상의 뉴럴 네트워크 및 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것과,
    상기 제1 트레이닝 대상의 뉴럴 네트워크 및 상기 제2 트레이닝 대상의 뉴럴 네트워크에 대해 x(x는 양의 정수)회의 제1 반복을 실행하여 상기 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크를 취득하는 것을 포함하고,
    상기 x회의 제1 반복 중 i(i는 상기 x 이하의 양의 정수)회째 제1 반복은
    상기 트레이닝 이미지 세트 및 i회째 제1 반복의 상기 평균 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하고, 상기 트레이닝 이미지 세트 및 i회째 제1 반복의 상기 목표 뉴럴 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제2 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함하고,
    상기 목표 뉴럴 네트워크의 파라미터가 제1 뉴럴 네트워크의 파라미터의 시계열 평균값인 것은,
    i-1회째 제1 반복의 상기 목표 뉴럴 네트워크의 파라미터 및 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터에 기초하여 상기 i회째 제1 반복의 상기 목표 뉴럴 네트워크의 파라미터를 결정하는 것과,
    상기 i=1인 경우, 상기 i-1회째 제1 반복의 상기 목표 뉴럴 네트워크의 파라미터는 상기 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터와 동일한 것을 포함하는, 이미지 처리 장치.
  17. 제 16 항에 있어서,
    상기 트레이닝 이미지 세트 및 i회째 평균 네트워크의 출력을 교사로 하여 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은,
    상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제1 특징 데이터 세트를 취득하고, 상기 i회째 제1 반복의 상기 평균 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제2 특징 데이터 세트를 취득하는 것과,
    상기 제1 특징 데이터 세트 및 상기 제2 특징 데이터 세트에 기초하여 제1 소프트 트리플렛 손실을 취득하는 것과,
    상기 트레이닝 이미지 세트 및 상기 제1 소프트 트리플렛 손실을 교사로 하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 상기 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함하는, 이미지 처리 장치.
  18. 제 17 항에 있어서,
    상기 제1 특징 데이터 세트 및 상기 제2 특징 데이터 세트에 기초하여 제1 소프트 트리플렛 손실을 취득하는 것은,
    상기 트레이닝 이미지 세트 내의 제1 이미지의 상기 제1 특징 데이터 세트에서의 제1 특징 데이터와, 상기 제1 특징 데이터 세트 내의, 상기 제1 이미지의 제1 라벨과 동일한 라벨을 갖는 이미지의 특징 데이터를 포함하는 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제1 유사도를 취득하는 것과, 상기 제1 이미지의 상기 제2 특징 데이터 세트에서의 제2 특징 데이터와, 상기 제2 특징 데이터 세트 내의 상기 포지티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최소 유사도를 결정하여 제2 유사도를 취득하는 것과,
    상기 제1 특징 데이터와, 상기 제1 특징 데이터 세트 내의, 상기 제1 라벨과 상이한 라벨을 갖는 이미지의 특징 데이터를 포함하는 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제3 유사도를 취득하는 것과, 상기 제2 특징 데이터와, 상기 제2 특징 데이터 세트 내의 상기 네거티브 샘플 특징 데이터 서브 세트에서의 특징 데이터의 최대 유사도를 결정하여 제4 유사도를 취득하는 것과,
    상기 제1 유사도, 상기 제2 유사도, 상기 제3 유사도 및 상기 제4 유사도를 각각 정규화 처리하여 제5 유사도, 제6 유사도, 제7 유사도 및 제8 유사도를 취득하는 것과,
    상기 제5 유사도, 상기 제6 유사도, 상기 제7 유사도 및 상기 제8 유사도에 기초하여 상기 제1 소프트 트리플렛 손실을 취득하는 것을 포함하는, 이미지 처리 장치.
  19. 제 18 항에 있어서,
    상기 제1 유사도, 상기 제2 유사도, 상기 제3 유사도 및 상기 제4 유사도를 각각 정규화 처리하여 제5 유사도, 제6 유사도, 제7 유사도 및 제8 유사도를 취득하는 것은,
    상기 제2 유사도와 상기 제4 유사도의 합을 제1 총 유사도로서 취득하고, 상기 제1 유사도와 상기 제3 유사도의 합을 제2 총 유사도로서 취득하는 것과,
    상기 제2 유사도와 상기 제1 총 유사도의 몫을 상기 제5 유사도로서 취득하고, 상기 제4 유사도와 상기 제1 총 유사도의 몫을 상기 제6 유사도로서 취득하는 것과,
    상기 제1 유사도와 상기 제2 총 유사도의 몫을 상기 제7 유사도로서 취득하고, 상기 제3 유사도와 상기 제2 총 유사도의 몫을 상기 제8 유사도로서 취득하는 것을 포함하는, 이미지 처리 장치.
  20. 제 19 항에 있어서,
    상기 트레이닝 이미지 세트 및 상기 제1 소프트 트리플렛 손실을 교사로 하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 트레이닝하여 상기 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것은,
    상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지를 처리하여 제1 분류 결과를 취득하는 것과,
    상기 제1 분류 결과, 상기 제1 라벨 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 제1 손실을 결정하는 것과,
    상기 제1 손실에 기초하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 파라미터를 조정하여 상기 i+1회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크를 취득하는 것을 포함하는, 이미지 처리 장치.
  21. 제 20 항에 있어서,
    상기 제1 분류 결과, 상기 제1 라벨 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크의 제1 손실을 결정하는 것은,
    상기 제1 분류 결과와 상기 제1 라벨의 차분에 기초하여 제1 하드 분류 손실을 결정하는 것과,
    상기 제1 하드 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것을 포함하는, 이미지 처리 장치.
  22. 제 21 항에 있어서,
    상기 제1 하드 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하기 전에,
    상기 i회째 제1 반복의 상기 평균 네트워크에 의해 상기 제1 이미지를 처리하여 제2 분류 결과를 취득하고,
    상기 제1 분류 결과와 상기 제2 분류 결과의 차분에 기초하여 제1 소프트 분류 손실을 결정하고,
    상기 제1 하드 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것은,
    상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것을 포함하는, 이미지 처리 장치.
  23. 제 22 항에 있어서,
    상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하기 전에,
    상기 제1 유사도 및 상기 제3 유사도에 기초하여 제1 하드 트리플렛 손실을 결정하고,
    상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실 및 상기 제1 소프트 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것은,
    상기 제1 하드 분류 손실, 상기 제1 소프트 분류 손실, 상기 제1 소프트 트리플렛 손실 및 상기 제1 하드 트리플렛 손실에 기초하여 상기 제1 손실을 결정하는 것을 포함하는, 이미지 처리 장치.
  24. 제 19 항 내지 제 23 항 중 어느 한 항에 있어서,
    상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트 내의 제1 이미지를 처리하여 제1 분류 결과를 취득하는 것은,
    상기 트레이닝 이미지 세트에 대해 소거 처리, 트리밍 처리, 반전 처리 중 어느 것을 포함하는 제1 전처리를 행하여 제1 이미지 세트를 취득하는 것과,
    상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지 세트 내의 제2 이미지를 처리하여 상기 제1 분류 결과를 취득하는 것을 포함하고, 상기 제2 이미지는 상기 제1 이미지에 대해 상기 제1 전처리를 행하여 취득되고, 상기 제2 이미지의 상기 제1 특징 데이터 세트에서의 특징 데이터는 상기 제1 이미지의 상기 제1 특징 데이터 세트에서의 데이터와 동일한, 이미지 처리 장치.
  25. 제 24 항에 있어서,
    상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 트레이닝 이미지 세트를 처리하여 제1 특징 데이터 세트를 취득하는 것은,
    상기 i회째 제1 반복의 상기 제1 트레이닝 대상의 뉴럴 네트워크에 의해 상기 제1 이미지 세트를 처리하여 상기 제1 특징 데이터 세트를 취득하는 것을 포함하는, 이미지 처리 장치.
  26. 제 16 항 내지 제 25 항 중 어느 한 항에 있어서,
    상기 취득 유닛은 구체적으로,
    처리 대상의 이미지 세트 및 제3 뉴럴 네트워크를 취득하는 것과,
    상기 제3 뉴럴 네트워크에 대해 y(y는 양의 정수)회의 제2 반복을 실행하여 상기 트레이닝 이미지 세트를 취득하는 것에 사용되고,
    상기 y회의 제2 반복 중 t(t는 상기 y보다 작은 양의 정수)회째 제2 반복은
    상기 처리 대상의 이미지 세트로부터 샘플링하여 제2 이미지 세트를 취득하고, t회째 제2 반복의 제3 뉴럴 네트워크에 의해 상기 제2 이미지 세트 내의 이미지를 처리하여, 상기 제2 이미지 세트 내의 이미지의 특징 데이터를 포함하는 제3 특징 데이터 세트 및 상기 제2 이미지 세트 내의 이미지의 분류 결과를 포함하는 분류 결과 세트를 취득하는 것과,
    상기 제3 특징 데이터 세트 내의 특징 데이터를 클러스터링 처리하여 상기 제3 특징 데이터 세트 내의 특징 데이터의 라벨을 결정하고, 상기 제3 특징 데이터 세트 내의 특징 데이터의 라벨을 상기 제2 이미지 세트 내의 대응하는 이미지에 부가하여 제3 이미지 세트를 취득하는 것과,
    상기 분류 결과 세트 내의 분류 결과와 상기 제3 이미지 세트 내의 이미지의 라벨의 차분에 기초하여 제3 손실을 결정하는 것과,
    상기 제3 손실에 기초하여 상기 t회째 제2 반복의 제3 뉴럴 네트워크의 파라미터를 조정하여 t+1회째 제2 반복의 제3 뉴럴 네트워크의 파라미터를 취득하는 것을 포함하는, 이미지 처리 장치.
  27. 제 15 항 내지 제 26 항 중 어느 한 항에 있어서,
    상기 목표 특징 데이터로 데이터베이스를 검색하여 상기 목표 특징 데이터에 매칭하는 특징 데이터를 갖는 이미지를 목표 이미지로서 취득하기 위한 검색 유닛을 추가로 구비하는, 이미지 처리 장치.
  28. 제 15 항 내지 제 27 항 중 어느 한 항에 있어서,
    상기 처리 대상의 이미지는 인물 오브젝트를 포함하는, 이미지 처리 장치.
  29. 제 1 항 내지 제 14 항 중 어느 한 항의 방법을 실행하는, 프로세서.
  30. 프로세서와, 송신 장치와, 입력 장치와, 출력 장치와, 컴퓨터 명령을 포함하는 컴퓨터 프로그램 코드를 기억하기 위한 메모리를 구비하는 전자 기기로서, 상기 프로세서가 상기 컴퓨터 명령을 실행하면 제 1 항 내지 제 14 항 중 어느 한 항의 방법을 실행하는, 전자 기기.
  31. 프로그램 명령을 포함하는 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기억 매체로서, 상기 프로그램 명령이 전자 기기의 프로세서에 의해 실행되면 제 1 항 내지 제 14 항 중 어느 한 항의 방법을 상기 프로세서에 실행시키는, 컴퓨터 판독 가능 기억 매체.
  32. 컴퓨터 판독 가능 코드를 포함하는 컴퓨터 프로그램으로서, 상기 컴퓨터 판독 가능 코드가 전자 기기에서 실행되면 상기 전자 기기의 프로세서는 제 1 항 내지 제 14 항 중 어느 한 항의 방법을 실현하기 위한 명령을 실행하는, 컴퓨터 프로그램.
KR1020217019630A 2019-09-24 2019-11-18 이미지 처리 방법 및 관련 장치 KR20210095671A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910905445.7A CN110647938B (zh) 2019-09-24 2019-09-24 图像处理方法及相关装置
CN201910905445.7 2019-09-24
PCT/CN2019/119180 WO2021056765A1 (zh) 2019-09-24 2019-11-18 图像处理方法及相关装置

Publications (1)

Publication Number Publication Date
KR20210095671A true KR20210095671A (ko) 2021-08-02

Family

ID=68992555

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217019630A KR20210095671A (ko) 2019-09-24 2019-11-18 이미지 처리 방법 및 관련 장치

Country Status (6)

Country Link
JP (1) JP7108123B2 (ko)
KR (1) KR20210095671A (ko)
CN (1) CN110647938B (ko)
SG (1) SG11202010487PA (ko)
TW (1) TW202113692A (ko)
WO (1) WO2021056765A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11429809B2 (en) 2019-09-24 2022-08-30 Beijing Sensetime Technology Development Co., Ltd Image processing method, image processing device, and storage medium
CN110647938B (zh) * 2019-09-24 2022-07-15 北京市商汤科技开发有限公司 图像处理方法及相关装置
CN111598124B (zh) * 2020-04-07 2022-11-11 深圳市商汤科技有限公司 图像处理及装置、处理器、电子设备、存储介质
CN113222139A (zh) * 2021-04-27 2021-08-06 商汤集团有限公司 神经网络训练方法和装置、设备,及计算机存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128609A (en) 1997-10-14 2000-10-03 Ralph E. Rose Training a neural network using differential input
JP4599509B2 (ja) * 2004-09-08 2010-12-15 独立行政法人理化学研究所 自己進化型パターン認識システム
CN105894046B (zh) * 2016-06-16 2019-07-02 北京市商汤科技开发有限公司 卷积神经网络训练及图像处理的方法和系统、计算机设备
CN108229468B (zh) 2017-06-28 2020-02-21 北京市商汤科技开发有限公司 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备
CN108230359B (zh) 2017-11-12 2021-01-26 北京市商汤科技开发有限公司 目标检测方法和装置、训练方法、电子设备、程序和介质
US11216719B2 (en) * 2017-12-12 2022-01-04 Intel Corporation Methods and arrangements to quantize a neural network with machine learning
CN108009528B (zh) * 2017-12-26 2020-04-07 广州广电运通金融电子股份有限公司 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质
CN108197670B (zh) * 2018-01-31 2021-06-15 国信优易数据股份有限公司 伪标签生成模型训练方法、装置及伪标签生成方法及装置
CN110210535B (zh) * 2019-05-21 2021-09-10 北京市商汤科技开发有限公司 神经网络训练方法及装置以及图像处理方法及装置
CN110188829B (zh) * 2019-05-31 2022-01-28 北京市商汤科技开发有限公司 神经网络的训练方法、目标识别的方法及相关产品
CN110647938B (zh) * 2019-09-24 2022-07-15 北京市商汤科技开发有限公司 图像处理方法及相关装置

Also Published As

Publication number Publication date
SG11202010487PA (en) 2021-04-29
CN110647938B (zh) 2022-07-15
JP7108123B2 (ja) 2022-07-27
JP2022511221A (ja) 2022-01-31
CN110647938A (zh) 2020-01-03
TW202113692A (zh) 2021-04-01
WO2021056765A1 (zh) 2021-04-01

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
US11429809B2 (en) Image processing method, image processing device, and storage medium
WO2020238293A1 (zh) 图像分类方法、神经网络的训练方法及装置
CN107609460B (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
KR20210095671A (ko) 이미지 처리 방법 및 관련 장치
CN110399850B (zh) 一种基于深度神经网络的连续手语识别方法
CN111639544B (zh) 基于多分支跨连接卷积神经网络的表情识别方法
CN112784763B (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
CN111523621A (zh) 图像识别方法、装置、计算机设备和存储介质
CN110097000A (zh) 基于局部特征聚合描述符和时序关系网络的视频行为识别方法
CN110459225B (zh) 一种基于cnn融合特征的说话人辨认系统
CN112257449B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN110796199B (zh) 一种图像处理方法、装置以及电子医疗设备
Hara et al. Attentional network for visual object detection
Bu Human motion gesture recognition algorithm in video based on convolutional neural features of training images
CN110110724A (zh) 基于指数型挤压函数驱动胶囊神经网络的文本验证码识别方法
Wang et al. A deep clustering via automatic feature embedded learning for human activity recognition
Zhang et al. Classification of canker on small datasets using improved deep convolutional generative adversarial networks
CN113591529A (zh) 动作分割模型的处理方法、装置、计算机设备和存储介质
Xu et al. Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning
CN113177950A (zh) 基于半监督对抗学习的冠脉造影血管图像分割的方法
CN115169386A (zh) 一种基于元注意力机制的弱监督增类活动识别方法
Gkalelis et al. Objectgraphs: Using objects and a graph convolutional network for the bottom-up recognition and explanation of events in video
CN115457332A (zh) 基于图卷积神经网络和类激活映射的图像多标签分类方法
Zhu et al. Unsupervised voice-face representation learning by cross-modal prototype contrast

Legal Events

Date Code Title Description
A201 Request for examination
WITB Written withdrawal of application