KR20220047228A - 이미지 분류 모델 생성 방법 및 장치, 전자 기기, 저장 매체, 컴퓨터 프로그램, 노변 장치 및 클라우드 제어 플랫폼 - Google Patents

이미지 분류 모델 생성 방법 및 장치, 전자 기기, 저장 매체, 컴퓨터 프로그램, 노변 장치 및 클라우드 제어 플랫폼 Download PDF

Info

Publication number
KR20220047228A
KR20220047228A KR1020220039053A KR20220039053A KR20220047228A KR 20220047228 A KR20220047228 A KR 20220047228A KR 1020220039053 A KR1020220039053 A KR 1020220039053A KR 20220039053 A KR20220039053 A KR 20220039053A KR 20220047228 A KR20220047228 A KR 20220047228A
Authority
KR
South Korea
Prior art keywords
category
image
target image
classification
probability
Prior art date
Application number
KR1020220039053A
Other languages
English (en)
Inventor
춘롱 시아
Original Assignee
아폴로 인텔리전트 커넥티비티 (베이징) 테크놀로지 씨오., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아폴로 인텔리전트 커넥티비티 (베이징) 테크놀로지 씨오., 엘티디. filed Critical 아폴로 인텔리전트 커넥티비티 (베이징) 테크놀로지 씨오., 엘티디.
Publication of KR20220047228A publication Critical patent/KR20220047228A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 출원은 이미지 분류 모델 생성 방법, 노변 장치 및 클라우드 제어 플랫폼을 제공하며, 스마트 교통, 심층 학습 및 컴퓨터 비전 등 인공지능 분야에 관한 것이다. 해당 방법의 일 실시형태는 타겟 이미지와, 타겟 이미지의 제1 카테고리 및 제2 카테고리를 획득하는 단계로서, 제1 카테고리의 레벨이 제2 카테고리의 레벨보다 높은 단계와, 타겟 이미지의 제1 카테고리의 예측 확률을 결정하는 단계와, 타겟 이미지 및 제1 카테고리와, 타겟 이미지, 제1 카테고리의 예측 확률 및 제2 카테고리를 사용하여 트레이닝함으로써 이미지 분류 모델을 얻는 단계를 포함한다.

Description

이미지 분류 모델 생성 방법 및 장치, 전자 기기, 저장 매체, 컴퓨터 프로그램, 노변 장치 및 클라우드 제어 플랫폼{METHOD AND APPARATUS FOR GENERATING IMAGE CLASSIFICATION MODEL, ELECTRONIC DEVICE, STORAGE MEDIUM, COMPUTER PROGRAM, ROADSIDE DEVICE AND CLOUD CONTROL PLATFORM}
본 출원의 실시예는 컴퓨터 분야에 관한 것으로, 구체적으로는 스마트 교통, 심층 학습, 컴퓨터 비전 등의 인공지능 분야에 관한 것으로, 특히, 이미지 분류 모델 생성 방법 및 장치, 전자 기기, 저장 매체, 컴퓨터 프로그램, 노변 장치 및 클라우드 제어 플랫폼에 관한 것이다.
이미지 분류는 컴퓨터 비전의 기본 작업 중 하나로 이미 널리 연구되어 사람을 흥분시키는 성과를 취득하였다. 그러나 세분화 분류와 같은 요구가 높은 일부 작업에 대해, 이러한 기초 모델은 예측한 카테고리수를 늘리는 것만으로는 충분하지 않다. 따라서 몇 가지 세분화 분류 방법이 탄생하였고, 이러한 방법 중 일부는 검출 또는 분할 등의 책략에 의해 보다 세밀한 분류 특징을 얻고 있다.
본 출원의 실시예는 이미지 분류 모델 생성 방법 및 장치, 전자 기기, 저장 매체, 컴퓨터 프로그램, 노변 장치 및 클라우드 제어 플랫폼을 제공한다.
제1 양태에서, 본 출원의 실시예는 이미지 분류 모델 생성 방법을 제공하고, 타겟 이미지와, 타겟 이미지의 제1 카테고리 및 제2 카테고리를 획득하는 단계로서, 제1 카테고리의 레벨이 제2 카테고리의 레벨보다 높은 단계와, 타겟 이미지의 제1 카테고리의 예측 확률을 결정하는 단계와, 타겟 이미지 및 제1 카테고리와, 타겟 이미지, 제1 카테고리의 예측 확률 및 제2 카테고리를 사용하여 트레이닝함으로써 이미지 분류 모델을 얻는 단계를 포함한다.
제2 양태에서, 본 출원의 실시예는 이미지 분류 방법을 제공하고, 분류 대상 이미지를 획득하는 단계와, 분류 대상 이미지의 이미지 특징을 제1 양태에 기재된 이미지 분류 모델에 입력하여 분류 대상 이미지에 대응하는 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률을 얻는 단계와, 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률에 의해 분류 대상 이미지의 타겟 카테고리를 결정하는 단계를 포함하다.
제3 양태에서, 본 출원의 실시예는 이미지 분류 모델 생성 장치를 제공하고, 타겟 이미지와, 타겟 이미지의 제1 카테고리 및 제2 카테고리를 획득하도록 구성된 이미지 획득 모듈로서, 제1 카테고리의 레벨이 제2 카테고리보다 높은 이미지 획득 모듈과, 타겟 이미지의 제1 카테고리의 예측 확률을 결정하도록 구성된 확률 결정 모듈, 및 타겟 이미지 및 제1 카테고리와, 타겟 이미지, 제1 카테고리의 예측 확률, 및 제2 카테고리를 이용하여 트레이닝함으로써 이미지 분류 모델을 얻도록 구성된 모델 트레이닝 모듈을 구비한다.
제4 양태에서, 본 출원의 실시예는 이미지 분류 장치를 제공하고, 분류 대상 이미지를 획득하도록 구성되는 이미지 획득 모듈과, 분류 대상 이미지의 이미지 특징을, 제1 양태에서 설명한 이미지 분류 모델에 입력하여 분류 대상 이미지에 대응하는 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률을 얻도록 구성된 확률 획득 모듈 및 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률에 의해 분류 대상 이미지의 타겟 카테고리를 결정하도록 구성된 카테고리 결정 모듈을 구비한다.
제5 양태에서, 본 출원의 실시예는 전자 기기를 제공하고, 적어도 하나의 프로세서 및 적어도 하나의 프로세서에 통신 가능하게 연결된 메모리를 구비하고, 메모리에는 적어도 하나의 프로세서에 의해 실행가능한 명령이 저장되어 있고, 명령이 적어도 하나의 프로세서에 의해 실행될 경우, 적어도 하나의 프로세서가 제1 양태 또는 제2 양태에 기재된 방법을 실행하도록 한다.
제6 양태에서, 본 출원의 실시예는 컴퓨터가 제1 양태 또는 제2 양태에 기재된 방법을 수행하기 위한 컴퓨터 명령이 저장되는 비일시적 컴퓨터 판독 가능 저장 매체를 제공한다.
제7 양태에서, 본 출원의 실시예는 프로세서에 의해 실행될 때 제1 양태 또는 제2 양태에 기재된 방법을 구현하는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 제공한다.
제8 양태에서, 본 출원은 제5 양태에 기재된 전자 기기를 포함하는 노변 장치를 제공한다.
제9 양태에서, 본 출원은 제5 양태에 기재된 전자 기기를 포함하는 클라우드 제어 플랫폼을 제공한다.
본 출원의 실시예에 의해 제공되는 이미지 분류 모델 생성 방법, 노변 장치 및 클라우드 제어 플랫폼은, 먼저 타겟 이미지와, 타겟 이미지의 제1 카테고리 및 제2 카테고리를 획득하되, 제1카테고리의 레벨이 제2 카테고리보다 높으며, 그다음, 타겟 이미지의 제1 카테고리의 예측 확률을 결정하고, 마지막으로 타겟 이미지 및 제1 카테고리와 타겟 이미지, 제1 카테고리의 예측 확률 및 제2 카테고리를 사용하여 트레이닝하여 이미지 분류 모델을 얻는다. 타겟 이미지 및 제1 카테고리와, 타겟 이미지, 제1 카테고리의 예측 확률 및 제2 카테고리를 이용하여 트레이닝하여 이미지 분류 모델을 얻을 수 있다. 이로 인해 우선 먼저 제1 카테고리를 학습한 다음, 제1 카테고리 및 타겟 이미지에 의해 제2 카테고리에 대한 결정을 구현함으로써, 해당 이미지 분류 모델은 모호상태에서 섬세상태에 이르는 과정을 거쳐 모델의 학습 능력을 높일 수 있다.
본 명세서에 의해 설명되는 내용은 본 출원의 실시예의 관건적인 특징 또는 중요한 특징을 제한하고자 하는 것이 아니며, 본 출원의 범위를 한정하는 것이 아님을 이해해야 한다. 본 출원의 기타 특징은 이하의 명세서의 설명을 통해 용이하게 이해될 것이다.
이하, 첨부 도면을 참조하여 비 한정적인 실시예에 대한 상세한 설명을 판독함으로써, 본 출원의 기타 특징, 목적 및 장점이 보다 명확해질 것이다. 도면은 본 기술적 수단을 보다 더 잘 이해하기 위한 것이며, 본 출원을 한정하기 위한 것이 아니다.
도 1은 본 출원이 적용 가능한 예시적인 시스템 아키텍처이다.
도 2는 본 출원에 따른 이미지 분류 모델 생성 방법의 일 실시예의 흐름도이다.
도 3은 본 출원에 따른 이미지 분류 모델 생성 방법의 일 실시예의 흐름도이다.
도 4는 본 출원에 따른 이미지 분류 모델 생성 방법의 일 실시예의 흐름도이다.
도 5는 본 출원에 따른 이미지 분류 방법의 일 실시예의 흐름도이다.
도 6은 본 출원에 따른 이미지 분류 방법의 응용 장면의 개략도이다.
도 7은 본 출원에 따른 이미지 분류 모델 생성 장치의 일 실시예의 개략도이다.
도 8은 본 출원에 따른 이미지 분류 모델 생성 장치의 일 실시예의 개략도이다.
도 9는 본 출원의 실시예를 구현하기 위한 전자 기기의 블록도이다.
이하, 도면을 결부시켜 본 출원의 시범성 실시예에 대해 설명하기로 한다. 이해를 돕기 위해 본 출원의 실시예들은 각종 상세한 설명을 포함하고, 이들은 단지 시범적인 것으로 간주되어야 한다. 따라서, 당업자들은 본 출원의 범위 및 사상을 일탈하지 않고, 본 출원에 설명된 실시예들에 대하여 각종 변경 및 수정을 할 수 있음을 이해하여야 한다. 동일하게, 명확성 및 간략성을 위해, 이하의 설명에서는 공지된 기능 및 구조의 설명에 대해 생략한다.
또한, 본 출원의 실시예 및 실시예 중의 특징들은 모순되지 않는 한 서로 조합될 수 있음을 설명하고자 한다.
도 1은 본 출원의 이미지 분류 모델 생성 방법 및 장치, 또는 이미지 분류 방법 및 장치의 실시예가 적용될 수 있는 예시적인 시스템 아키텍처(100)를 도시한다.
도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 단말 장치(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말 장치(101, 102, 103)와 서버(105) 사이에 통신 링크를 위한 매체를 제공하는데 사용된다. 네트워크(104)는 예를 들어 유선, 무선 통신 링크 또는 광섬유 케이블과 같은 다양한 연결 유형을 포함할 수 있다.
사용자는 단말 장치(101, 102, 103)를 이용하여 네트워크(104)를 통해 서버(105)와 인터랙션하여 타겟 이미지와, 타겟 이미지의 제1 카테고리 및 제2 카테고리 등을 송수신할 수 있다. 단말 장치(101, 102, 103)에는, 예를 들어, 비디오 관련 소프트웨어, 이미지 관련 소프트웨어, 이미지 처리 응용 등의 다양한 클라이언트 응용, 스마트 인터랙션 응용이 설치될 수 있다.
단말 장치(101, 102, 103)는 하드웨어일 수도 있고 소프트웨어일 수도 있다. 단말 장치(101, 102, 103)가 하드웨어인 경우, 단말 장치는 키보드, 터치 패널, 디스플레이, 터치 스크린, 리모컨, 음성 상호작용 또는 필기 장치 등과 같은 하나 이상의 방법을 통해 인간 - 컴퓨터 상호작용하는 전자 제품일 수 있으며, 예를 들어 PC(Personal Computer, 퍼스널 컴퓨터), 휴대전화, 스마트폰, PDA(Personal Digital Assistant, 퍼스널 디지털 어시스턴트), 웨어러블 디바이스, PPC(Pocket PC, 포켓 PC), 태블릿 컴퓨터, 스마트 카 머신, 스마트 TV, 스마트 스피커, 노트북 휴대용 컴퓨터, 데스크톱 컴퓨터 등이다. 단말 장치(101, 102, 103)가 소프트웨어인 경우, 상기 전자 기기에 설치될 수 있으며, 복수의 소프트웨어 또는 소프트웨어 모듈로서 구현될 수도 있고, 단독 소프트웨어 또는 소프트웨어 모듈로서 구현될 수도 있다. 여기에서는 구체적인 제한을 하지 않는다.
서버(105)는 다양한 서비스를 제공할 수 있다. 예를 들어, 서버(105)는 단말 장치(101, 102, 103)에서 타겟 이미지, 타겟 이미지의 제1 카테고리 및 제2 카테고리를 획득한 후, 타겟 이미지의 제1 카테고리의 예측 확률을 결정하고, 타겟 이미지 및 제1 카테고리와, 타겟 이미지, 제1 카테고리의 예측 확률 및 제2 카테고리를 이용하여 트레이닝하여 이미지 분류 모델을 얻을 수 있다.
서버(105)는 하드웨어일 수도 있고, 소프트웨어일 수도 있다. 서버(105)가 하드웨어인 경우, 복수의 서버로 구성된 분산 서버 클러스터로서 구현될 수도 있고, 단일 서버로 구현될 수도 있다. 서버(105)가 소프트웨어인 경우, 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들어, 분산 서비스를 제공하기 위한 것)으로서 구현될 수도 있고, 단일 소프트웨어 또는 소프트웨어 모듈로서 구현될 수도 있다. 여기에서는 구체적인 제한을 하지 않는다.
본 출원의 실시예에 따른 이미지 분류 모델 생성 방법 또는 이미지 분류 방법은 일반적으로 서버(105)에 의해 수행되며, 이에 따라 이미지 분류 모델 생성 장치 또는 이미지 분류 장치는 일반적으로 서버(105)에 설치된다.
도 1의 단말 장치, 네트워크 및 서버의 수량은 단지 예시적인 것임을 이해해야 한다. 구현의 필요에 따라 임의의 수량의 단말 장치, 네트워크 및 서버를 가질 수 있다.
계속해서 도 2를 참조하면, 도 2는 본 출원에 따른 이미지 분류 모델 생성 방법의 일 실시예의 프로세스(200)를 나타낸다. 해당 이미지 분류 모델 생성 방법은 다음의 단계를 포함할 수 있다.
단계 (201)에서, 타겟 이미지, 타겟 이미지의 제1 카테고리 및 제2 카테고리를 획득한다.
본 실시예에서, 이미지 분류 모델을 생성하는 실행주체(예를 들어, 도 1에 도시된 단말 장치(101, 102, 103))는 로컬 또는 원격으로 타겟 이미지를 획득하고, 예를 들어, 촬영 장치에 의해 타겟 이미지를 촬영하고, 해당 촬영 장치는 단말 장치의 카메라 또는 외부의 촬상 장치일 수 있고, 또는, 이미지 분류 모델 생성 방법의 실행주체(예를 들어, 도 1에 도시된 서버(105))는 로컬로부터 또는 단말 장치(예를 들어, 도 1에 도시된 단말 장치(101, 102, 103))로부터 타겟 이미지를 획득하고, 그후, 타겟 이미지의 제1 카테고리 및 제2 카테고리를 획득한다. 선택적으로, 타겟 이미지, 타겟 이미지의 제1 카테고리 및 제2 카테고리는 동시에 획득할 수 있다.
상기 제1 카테고리 및 제2 카테고리의 수량은 복수일 수 있고, "제1" 및 "제2"는 제1 카테고리와 제2 카테고리를 구별하기 위한 것으로 제1 카테고리 및 제2 카테고리의 개수 및 순서를 제한하기 위한 것이 아니다.
여기서, 제1 카테고리의 레벨은 제2 카테고리의 레벨보다 높을 수 있고, 제1 카테고리는 적어도 하나의 제2 카테고리를 포함할 수 있다. 상기 제1 카테고리는 복수의 유형을 포함할 수 있고, 제2 카테고리보다 높은 레벨을 갖는 임의의 카테고리일 수 있다. 상기 제2 카테고리는 복수의 유형을 포함할 수 있다.
제1 카테고리는 복수의 이미지를 클러스터링함으로써 획득한 복수의 카테고리일 수 있다.
단계 (202)에서, 타겟 이미지의 제1 카테고리의 예측 확률을 결정한다.
본 실시예에서, 실행주체는 타겟 이미지를 이미지 분류 모델의 제1 분류 네트워크층에 입력하여 제1 카테고리의 예측 확률을 획득할 수 있으며, 혹은 타겟 이미지를 관련 기술 중의 다른 분류 모델에 입력하여 예측 확률을 얻을 수 있다.
본 실시예에서는, 타겟 이미지를 이미지 분류 모델에 입력하여, 타겟 이미지의 제1 카테고리의 예측 확률을 획득할 수 있다.
단계 (203)에서, 타겟 이미지 및 제1 카테고리와, 타겟 이미지, 제1 카테고리의 예측 확률 및 제2 카테고리를 이용하여 트레이닝하여 이미지 분류 모델을 얻는다.
구체적으로, 상기 실행주체는 타겟 이미지 및 제1 카테고리와, 타겟 이미지 및 제2 카테고리를 획득한 후, 타겟 이미지 및 제1 카테고리와, 타겟 이미지, 제1 카테고리의 예측 확률 및 제2 카테고리를 사용하여 기계 학습 모델을 트레이닝시켜 이미지 분류 모델을 얻을 수 있다. 상기 기계 학습 모델은 기존 기술 또는 미래 개발 기술 중의 확률 모델, 분류 모델 또는 기타 분류기 등일 수 있으며, 예를 들어, 결정 트리 모델(XGBoost), 로지스틱 회귀 모델(LR), 심층 신경망 모델(DNN), 그래디언트 부스팅 결정 트리 모델(Gradient Boosting Decision Tree: GBDT) 중 임의의 하나를 포함할 수 있다. 상기 이미지 분류 모델은 멀티태스킹 학습 모델일 수 있다.
일 예에서, 이미지 분류 모델을 트레이닝하는 단계는 다음과 같다.
입력: 트레이닝 데이터 및 label, 출력: 저장된 모델;
단계 (1)에서, 도 2에 따라 네트워크 모델 및 초기화 파라미터를 구축하고, 다음 사이클 프로세스를 수행한다.
단계 (2)에서, 데이터를 일괄해서 모델에 입력하고 순전파를 실시한다. 단계 (3)에서, 단계 (2)에서 얻은 출력과 label(라벨, 즉 카테고리) 간의 오차를 계산한다. 단계 (4)에서, 그라디언트를 오차 역전파시키고 가중치를 업데이트한다. 단계 (5)에서, 저장 조건이 만족되는지 여부를 결정하고, 만족되면 모델을 저장한다.
이미지 분류 모델을 트레이닝한 후, 테스트 프로세스에 들어가되, 테스트 프로세스는 다음과 같다. 즉, 단계 (1)에서, 트레이닝 저장된 모델을 순차적으로 로드한다. 단계 (2)에서, 추리 대상 데이터를 모델에 입력한다. 단계 (3)에서, 모델의 결과를 출력한다. 단계 (4)에서, 첫번째 예측이거나 또는 모델의 결과가 기존의 저장된 결과보다 우수한 경우, 최종 결과를 이번 테스트 모델 및 결과로 대체한다.
본 실시예에서, 제1 카테고리 및 제2 카테고리를 통해 이미지에 대한 정확한 분류를 공동으로 구현할 수 있음을 유의해야 한다.
본 출원의 실시예에 의해 제공되는 이미지 분류 모델 생성 방법은, 먼저 타겟 이미지, 타겟 이미지의 제1 카테고리 및 제2 카테고리를 획득하되, 제1 카테고리의 레벨은 제2 카테고리보다 높고, 타겟 이미지의 제1 카테고리의 예측 확률을 결정하고, 마지막으로 타겟 이미지 및 제1 카테고리와, 타겟 이미지, 제1 카테고리의 예측 확률 및 제2 카테고리를 사용하여 트레이닝하여 이미지 분류 모델을 얻는다. 타겟 이미지 및 제1 카테고리와, 타겟 이미지, 제1 카테고리의 예측 확률 및 제2 카테고리를 이용하여 트레이닝하여 이미지 분류 모델을 얻을 수 있다. 이리하여, 먼저 제1 카테고리를 학습한 다음, 제1 카테고리 및 타겟 이미지에 의해 제2 카테고리에 대한 결정을 구현함으로써, 해당 이미지 분류 모델은 모호상태에서 섬세상태에 이르는 과정을 거쳐 모델의 학습 능력이 높아진다.
본 실시예의 일부 옵션적인 실시형태에서, 타겟 이미지, 타겟 이미지의 제1 카테고리 및 제2 카테고리를 획득하는 단계는, 타겟 이미지를 획득하는 단계와, 타겟 이미지의 제1 카테고리를 획득하는 단계와, 제1 카테고리 및 타겟 이미지에 의해 타겟 이미지의 제2 카테고리를 결정하는 단계를 포함한다.
대응하여, 해당 예에서, 타겟 이미지의 제1 카테고리를 획득하는 단계는 수동 어노테이션 또는 모델 출력을 포함할 수 있다.
대응하여, 해당 예에서, 제1 카테고리 및 타겟 이미지에 의해 타겟 이미지의 제2 카테고리를 결정하는 단계는, 카테고리가 제1 카테고리인 이미지를 분류하여 제2 카테고리를 획득하는 단계를 포함할 수 있다. 상기 제1 카테고리 및 제2 카테고리의 수량은 복수일 수 있고, "제1" 및 "제2"는 제1 카테고리와 제2 카테고리를 구별하기 위한 것으로 제1 카테고리 및 제2 카테고리의 수량 및 순서를 한정하는 것은 아니다.
여기서, 제1 카테고리의 레벨은 제2 카테고리의 레벨보다 높을 수 있고, 제1 카테고리는 또한 적어도 하나의 제2 카테고리를 포함할 수 있다. 상기 제1 카테고리는 복수의 유형을 포함할 수 있고, 제2 카테고리보다 높은 레벨을 갖는 임의의 카테고리일 수 있다. 상기 제2 카테고리는 복수의 유형을 포함할 수 있다.
본 실시형태에서, 제2 카테고리는 복수의 서브 카테고리를 추가로 포함할 수 있는바, 예를 들어, 제2 카테고리는 제3 카테고리(1), 제3 카테고리(2), 제3 카테고리(3) 등을 추가로 포함할 수 있으며, 제3 카테고리(1), 제3 카테고리(2) 및 제3 카테고리(3)의 레벨은 제2 카테고리보다 낮다.
제2 카테고리에 대한 진일보로 되는 분류는 이미지 분류에 의한 정확도 또는 사용자의 요구에 따라 설정할 수 있음을 유의해야 한다.
본 실시형태에서는, 제1 카테고리와 제2 카테고리를 분류함으로써, 제1 카테고리와 제2 카테고리 사이의 계층 관계를 진일보 확립하여 이미지의 카테고리 특징을 충분히 발굴할 수 있다.
본 실시예의 일부 옵션적인 실시형태에서, 제1 카테고리 및 타겟 이미지에 의해 타겟 이미지의 제2 카테고리를 결정하는 단계는, 제1 카테고리에 의해 미리 설정된 이미지 라이브러리로부터, 제1 카테고리에 대응하는 모든 이미지를 획득하는 단계와, 타겟 이미지에 의해, 제1 카테고리에 대응하는 모든 이미지로부터 타겟 이미지와 매칭되는 이미지를 획득하는 단계와, 타겟 이미지와 매칭되는 이미지의 제2 카테고리를 타겟 이미지의 제2 카테고리로서 결정하는 단계를 포함할 수 있다.
본 실시예에서, 상기 실행주체는 제1 카테고리에 의해 미리 설정된 이미지 라이브러리로부터 제1 카테고리에 대응하는 모든 이미지를 획득하고, 타겟 이미지에 의해 제1 카테고리에 대응하는 모든 이미지로부터, 타겟 이미지와 매칭되는 이미지를 획득하고, 타겟 이미지와 매칭되는 이미지의 제2 카테고리를 타겟 이미지의 제2 카테고리로 결정할 수 있다.
본 실시형태에서, 상기 실행주체는 제1 카테고리 및 타겟 이미지에 의해 타겟 이미지의 제2 카테고리에 대한 결정을 구현할 수 있다.
본 실시예의 일부 옵션적인 실시형태에서, 이미지 분류 모델은 제1 분류 네트워크층을 포함할 수 있고, 타겟 이미지의 제1 카테고리의 예측 확률을 결정하는 단계는 타겟 이미지를 제1 분류 네트워크층에 입력하여 타겟 이미지의 제1 카테고리의 예측 확률을 획득하는 단계를 포함할 수 있다.
본 실시형태에서, 이미지 분류 모델의 제1 분류 네트워크층을 통해 제1 카테고리의 예측 확률에 대한 결정이 구현된다.
본 실시예의 일부 옵션적인 실시형태에서, 이미지 분류 모델은 제2 분류 네트워크층을 추가로 포함하고, 타겟 이미지 및 제1 카테고리와, 타겟 이미지, 제1 카테고리의 예측 확률 및 제2 카테고리를 이용하여 트레이닝함으로써 이미지 분류 모델을 획득하는 단계는, 타겟 이미지를 제1 분류 네트워크층의 입력으로 하고, 제1 카테고리를 제1 분류 네트워크층의 희망 출력으로 하는 단계(즉, 진리값 또는 label을 출력)와, 타겟 이미지 및 제1 카테고리의 예측 확률을 제2 분류 네트워크층의 입력으로 하고, 제2 카테고리를 제2 분류 네트워크층의 희망 출력으로 하고, 기계 학습 모델을 트레이닝하여 이미지 분류 모델을 획득하는 단계를 포함할 수 있다.
본 실시형태에서, 상기 실행주체는 타겟 이미지를 이미지 분류 모델의 제1 분류 네트워크층에 입력하여 타겟 이미지의 제1 카테고리의 예측 확률을 획득하고, 타겟 이미지의 제1 카테고리의 예측 확률 및 타겟 이미지를 이미지 분류 모델의 제2 분류 네트워크층에 입력하여 타겟 이미지의 제2 카테고리의 예측 확률을 획득하고, 제1 카테고리의 예측 확률 및 제1 카테고리를 사용하여 제1 분류 네트워크층에 대응하는 손실 함수를 구축하고, 제2 카테고리의 예측 확률 및 제2 카테고리를 사용하여 제2 분류 네트워크층에 대응하는 손실 함수를 구축하고, 제1 분류 네트워크층에 대응하는 손실 함수 및 제2 분류 네트워크층에 대응하는 손실 함수를 조정하여 이미지 분류 모델의 트레이닝을 구현할 수 있다.
본 실시형태에서, 이미지 분류 모델은 멀티태스킹 학습 모델일 수 있다.
제1 분류 네트워크층의 수량은 제1 카테고리의 종류에 의해 결정할 수 있고, 제2 분류 네트워크층의 수량은 제2 카테고리의 종류에 의해 결정할 수 있다. 선택적으로, 제1 분류 네트워크층의 수량은 제1 카테고리 종류 수량에 일대일로 대응하고, 제2 분류 네트워크층의 수량은 제2 카테고리 종류 수량에 일대일로 대응한다.
본 실시형태에서는 이미지 분류 모델에 포함된 제1 분류 네트워크층 및 제2 분류 네트워크층을 이용하여 이미지 분류 모델에 대한 트레이닝을 구현할 수 있다.
본 실시예의 일부 옵션적인 실시형태에서, 제2 카테고리의 카테고리 수는 모든 제2 카테고리 중 최대의 카테고리 수이며, 제1 카테고리는 모든 제2 카테고리를 포함한다.
본 실시형태에서, 상기 제2 카테고리의 카테고리 수는 모든 제2 카테고리 중 카테고리 수가 최대인 카테고리 수일 수 있다.
일 예에서, 제1 카테고리(A1)는 제2 카테고리(a1), 제2 카테고리(a2), 제2 카테고리(a3)를 포함하고, 제1 카테고리(B1)는 제2 카테고리(b1), 제2 카테고리(b2), 제2 카테고리(b3), 제2 카테고리(b4) 및 제2 카테고리(b5)를 포함한다. 그 중, 제1 카테고리(B1)의 카테고리 수가 최대이고, 제2 카테고리의 카테고리 수를 5로 결정한다.
본 실시형태에서는, 제2 카테고리의 스크리닝에 의해, 영향이 적은 제2 카테고리를 억제할 수 있어 이로 인해 제2 카테고리의 이미지 특징을 보다 돌출시켜 이미지의 카테고리에 대한 결정을 보다 정확하게 구현할 수 있다.
본 실시예의 일부 옵션적인 실시형태에서, 제1 카테고리는 상위 카테고리일 수 있고, 제2 카테고리는 하위 카테고리일 수 있다.
본 실시형태에서, 해당 이미지 분류 모듈은 먼저 추상(상위) 클래스의 카테고리를 예측한 다음, 상위 카테고리의 예측 확률에 기초하여 서브 카테고리를 예측하는 특징을 선택하고, 트레이닝시 타겟에 대해 재귀적 제약을 실시하고, 학습의 난도를 단순화하고, 특히 다분류 태스크의 경우, 범용 분류 100가지 종류와 같이, 본 출원의 이미지 분류 모델의 생성 방법에 의하면, 5가지의 상위 카테고리 및 20가지의 하위 카테고리로 분류될 수 있다. 추리 예측 단계에서는 상위 카테고리의 예측 결과 및 하위 카테고리의 예측 결과에 의해 최종 예측값이 주어지므로 예측의 난도가 단순화된다. 우점은 (1) 알고리즘의 다중 카테고리 분류 트레이닝 및 예측의 난도가 단순화된다. (2) 추가적인 보조 정보가 불필요하며, 계산량 및 파라미터량을 기본적으로 증가시키지 않은 상황하에서 범용 분류 모델의 성능을 향상시킬 수 있다. (3) 기존의 기본 분류 모델에 비파괴적으로 매립하여 세분화 가능한 모델을 구성할 수 있다.
도 3을 참조하면, 도 3은 본 출원에 따른 이미지 분류 모델 생성 방법의 일 실시예의 프로세스(300)를 나타낸다. 해당 이미지 분류 모델 생성 방법은 다음 단계를 포함할 수 있다.
단계 (301)에서, 타겟 이미지를 획득한다.
단계 (302)에서, 타겟 이미지의 제1 카테고리를 획득한다.
본 실시예에서, 이미지 분류 모델 생성 방법의 실행주체(예를 들어, 도 1에 도시된 단말 장치(101, 102, 103), 또는 서버(105))는 인공으로 어노테이션된 제1 카테고리 또는 모델에 의해 어노테이션된 제1 카테고리를 얻을 수 있다.
단계 (303)에서, 제1 카테고리에 의해, 미리 설정된 이미지 라이브러리로부터 제1 카테고리에 대응하는 모든 이미지를 획득한다.
본 실시예에서, 상기 실행주체는 제1 카테고리에 의해 미리 설정된 이미지 라이브러리로부터 제1 카테고리에 대응하는 모든 이미지를 획득할 수 있다.
미리 설정된 이미지 라이브러리는 제1 카테고리에 대응하는 모든 이미지를 해당 미리 설정된 이미지 라이브러리로부터 조회할 수 있도록, 제1 카테고리에 따라 저장된 복수의 이미지일 수 있다는 것을 유의해야 한다.
단계 (304)에서, 타겟 이미지에 의해 제1 카테고리에 대응하는 모든 이미지로부터 타겟 이미지와 매칭되는 이미지를 획득한다.
본 실시예에서, 상기 실행주체는 타겟 이미지에 의해 제1 카테고리에 대응하는 모든 이미지로부터 타겟 이미지와 매칭되는 이미지를 획득할 수 있다. 상기 타겟 이미지와 매칭되는 이미지는 타겟 이미지와 동일한 이미지일 수 있으며, 혹은 유사도가 미리 설정된 유사도 임계 값을 만족하는 이미지일 수 있으며, 해당 유사도 임계 값은 분류 정확도로 기반으로 설치되거나 인공으로 설정될 수 있다.
미리 설정된 이미지 라이브러리는 제1 카테고리 및 제1 카테고리의 제2 카테고리에 따라 이미지를 저장할 수 있다는 점을 유의해야 한다.
일 예에서, "A 이미지"는 미리 설정된 이미지 라이브러리 중 제1 카테고리 하의 제2 카테고리에 대응하는 이미지이다.
단계 (305)에서, 타겟 이미지와 매칭되는 이미지의 제2 카테고리를 타겟 이미지의 제2 카테고리로 결정한다.
단계 (306)에서, 타겟 이미지의 제1 카테고리의 예측 확률을 결정한다.
본 실시예에서, 상기 실행주체는 타겟 이미지와 매칭되는 이미지의 제2 카테고리를 타겟 이미지의 제2 카테고리로 결정할 수 있다.
일 예에서, 제1 카테고리에 대응하는 모든 이미지로부터 타겟 이미지를 검색하여 매칭하는 "B 이미지"를 획득하고, 여기서 "B 이미지" 카테고리는 제1 카테고리 하의 제2 카테고리이고, 그 후, "이미지 B"의 카테고리를 타겟 이미지의 제2 카테고리로 결정한다. 상기 제1 카테고리는 복수의 상위 카테고리 중 하나이고, 제2 카테고리는 제1 카테고리에 포함되는 복수의 하위 카테고리 중 하나이다.
단계 (307)에서, 타겟 이미지 및 제1 카테고리와, 타겟 이미지, 제1 카테고리의 예측 확률 및 제2 카테고리를 이용하여 트레이닝하여 이미지 분류 모델을 얻는다.
본 실시예에서, 단계 (306) 및 (307)의 구체적인 조작은 도 2에 도시된 실시예의 단계 (202) 및 (203)에서 이미 상세히 설명되었으므로, 여기서는 그 설명을 생략한다.
도 3으로부터, 도 2에 대응하는 실시예에 비해, 본 실시예 중의 이미지 분류 모델 생성 방법은 제2 카테고리를 결정하는 단계를 강조하고 있음을 알 수 있다. 이로부터, 본 실시예가 설명하는 기술적 수단은, 먼저, 획득한 제1 카테고리에 의해 미리 설정된 이미지 라이브러리로부터 제1 카테고리에 대응하는 모든 이미지를 획득하고, 그 다음, 타겟 이미지에 의해, 제1 카테고리에 대응하는 모든 이미지로부터 타겟 이미지와 매칭되는 이미지를 획득하고, 그 다음, 타겟 이미지와 매칭되는 이미지의 제2 카테고리를 타겟 이미지의 제2 카테고리로 결정한다. 제1 카테고리 및 타겟 이미지에 의해 타겟 이미지의 제2 카테고리에 대한 어노테이션을 구현함으로써 이미지 분류 모델의 분류 정밀도를 향상시킬 수 있다.
도 4를 진일보 참조하면, 도 4는 본 출원에 따른 이미지 분류 모델 생성 방법의 일 실시예의 프로세스(400)를 도시한다. 해당 이미지 분류 모델 생성 방법은 다음 단계를 포함할 수 있다.
단계 (401)에서, 타겟 이미지와, 타겟 이미지의 제1 카테고리 및 제2 카테고리를 획득하되, 제1 카테고리의 레벨은 제2 카테고리의 레벨보다 높다.
단계 (402)에서, 타겟 이미지의 제1 카테고리의 예측 확률을 결정한다.
단계 (403)에서, 타겟 이미지를 제1 분류 네트워크층의 입력으로 하고, 제1 카테고리를 제1 분류 네트워크층의 희망 출력으로 하고, 타겟 이미지 및 제1 카테고리의 예측 확률을 제2 분류 네트워크층의 입력으로 하고, 제2 카테고리를 제2 분류 네트워크층의 희망 출력으로 하고, 기계 학습 모델을 트레이닝하여 이미지 분류 모델을 획득한다.
본 실시예에서, 이미지 분류 모델 생성 방법의 실행주체(예를 들어, 도 1에 도시된 단말 장치(101, 102, 103) 또는 서버(105))는 타겟 이미지를 제1 분류 네트워크층의 입력으로 하고, 제1 카테고리를 제1 분류 네트워크층의 희망 출력으로 하고, 타겟 이미지 및 제1 카테고리를 제2 분류 네트워크층의 입력으로 하고, 제2 카테고리를 제2 분류 네트워크층의 희망 출력으로 하고, 기계 학습 모델 트레이닝하여 이미지 분류 모델을 얻을 수 있다.
본 실시예에서, 단계 (401) 내지 (402)의 구체적인 조작은 도 2에 도시된 실시예의 단계 (301) 내지 (302)에서 이미 상세히 설명되었으므로, 여기서는 그 설명을 생략한다.
도 4로부터, 도 3에 대응하는 실시예에 비해, 본 실시예 중의 이미지 분류 모델 생성 방법은 모델 트레이닝의 단계를 강조하고 있음을 알 수 있다. 따라서, 본 실시예가 설명하는 기술적 수단은 타겟 이미지를 제1 분류 네트워크층의 입력으로 하고, 제1 카테고리를 제1 분류 네트워크층의 출력으로 하고, 타겟 이미지 및 제1 카테고리의 예측 확률을 제2 분류 네트워크층의 입력으로 하고, 제2 카테고리를 제2 분류 네트워크층의 출력으로 하고, 기계 학습 모델을 트레이닝하여, 이미지 분류 모델에 대한 트레이닝을 실현한다.
도 5를 진일보 참조하면, 도 5는 본 출원에 따른 이미지 분류 방법의 일 실시예의 프로세스(500)를 도시한다. 해당 이미지 분류 방법은 다음의 단계를 포함할 수 있다.
단계 (501)에서, 분류 대상 이미지를 획득한다.
본 실시예에서, 이미지 분류 방법의 실행주체(예를 들어, 도 1에 도시된 단말 장치(101, 102, 103), 또는 서버(105))는 분류 대상 이미지를 획득할 수 있다. 상기 분류 대상 이미지는 분류가 필요한 이미지일 수 있다.
단계 (502)에서, 분류 대상 이미지의 이미지 특징을 미리 트레이닝된 이미지 분류 모델에 입력하여 분류 대상 이미지에 대응하는 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률을 획득한다.
본 실시예에서, 상기 실행주체는 분류 대상 이미지를 미리 트레이닝된 이미지 분류 모델에 입력하여, 대응하는 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률을 획득한다. 상기 이미지 분류 모델은 분류 대상 이미지의 카테고리를 결정하는데 사용함으로써 분류 대상 이미지에 대한 분류를 구현할 수 있다. 상기 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률은 이미지 분류 모델에 의해 출력된 확률일 수 있다.
미리 트레이닝된 이미지 분류 모델은 이미지 분류 모델을 생성하는 방법에 의해 트레이닝된 모델일 수 있다. 상기 제3 카테고리의 레벨은 제4 카테고리의 레벨보다 높을 수 있다.
단계 (503)에서, 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률에 의해 분류 대상 이미지의 타겟 카테고리를 결정한다.
상기 이미지 분류 모델은 또한 특징 추출 네트워크층을 포함할 수 있다. 그 중, 특징 추출층은 분류 대상 이미지의 이미지 특징을 추출하는데 사용될 수 있다.
본 실시예에서, 상기 실행주체는 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률에 의해 분류 대상 이미지의 타겟 카테고리를 결정할 수 있다. 상기 타겟 카테고리는 분류 대상 이미지의 카테고리일 수 있다.
본 실시예에서, 이미지 분류 모델에 의해 출력된 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률에 기반하여 분류 대상 이미지에 대한 분류를 구현할 수 있다.
본 실시예의 일부 옵션적인 실시형태에서, 분류 대상 이미지의 이미지 특징을 미리 트레이닝된 이미지 분류 모델에 입력하여 분류 대상 이미지에 대응하는 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률을 획득하는 단계는, 분류 대상 이미지의 이미지 특징을 이미지 분류 모델의 제1 분류 네트워크층에 입력하여 분류 대상 이미지에 대응하는 제3 카테고리의 카테고리 확률을 획득하고, 제3 카테고리의 카테고리 확률 및 분류 대상 이미지의 이미지 특징을 이미지 분류 모델의 제2 분류 네트워크층에 입력하여 제4 카테고리의 카테고리 확률을 획득하는 단계를 포함한다.
본 실시형태에서, 상기 실행주체는 먼저 분류 대상 이미지의 이미지 특징을 이미지 분류 모델의 제1 분류 네트워크층에 입력하여 분류 대상 이미지에 대응하는 제3 카테고리의 카테고리 확률을 획득한 후, 제3 카테고리의 카테고리 확률 및 분류 대상 이미지의 이미지 특징을 이미지 분류 모델의 제2 분류 네트워크층에 입력하여 제4 카테고리의 카테고리 확률을 획득한다.
본 실시형태에서, 이미지 분류 모델 중의 제1 분류 네트워크층 및 제2 분류 네트워크층을 통해 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률에 대한 결정을 실현할 수 있다.
도 6을 진일보 참조하면, 도 6은 본 출원에 따른 이미지 분류 방법의 일 응용 장면의 개략도이다. 해당 응용 장면에서, 이미지 분류 모델은 특징 추출 네트워크층(61)(backbone)을 포함하고, 분류 대상 이미지(60)(Image)에 대하여 특징 추출을 실행하여 분류 대상 이미지의 이미지 특징을 획득한 후, 풀링 네트워크층(62)(AVEPool)에 의해 분류 대상 이미지의 이미지 특징에 대해 다운샘플링 또는 공간 특징 차원 삭감을 실행하여 글로벌 특징을 획득한 후, 제1 완전 결합층(63)(FC1)에 의해, 글로벌 특징을 매핑하여 제1 완전 결합층의 입력 및 출력을 분리한 다음, 제2 완전 결합층(64)(FC2)에 의해 제1 완전 결합층의 출력 특징을 처리하여 상위 카테고리의 초기 카테고리 확률을 획득하고, Sigmoid(65)를 통해 상위 카테고리의 초기 카테고리 확률을 정규화하여 정규화된 상위 카테고리의 카테고리 확률(66)을 획득한 후, 제3 완전 결합층(67)(FC3)에 의해, 제1 완전 결합층의 출력에 대하여 하위 카테고리 특징 매핑을 실행한 후, 상위 카테고리의 카테고리 확률과 제3 완전 결합층의 출력 특징을 융합하여, 후보 특징을 획득한 후, 제4 완전 결합층(68)(FC4)에 의해 후보 특징을 처리하여 하위 카테고리의 카테고리 확률을 획득한 후, 하위 카테고리의 카테고리 확률 및 상위 카테고리의 카테고리 확률에 의해 분류 대상 이미지의 타겟 카테고리(69)를 결정한다.
backbone은 Resnet, MobileNet 등의 구조를 선택할 수 있음을 유의해야 한다. 그 중, 도 6의 "C"는 채널수, M은 상위 카테고리의 카테고리 수, N은 최대 하위 카테고리의 개수이다.
도 7을 진일보 참조하면, 상기 각 도면에 도시된 방법의 구현으로서, 본 출원은 이미지 분류 모델 생성 장치의 일 실시예를 제공하고, 해당 장치의 실시예는 도 2에 도시된 방법의 실시예에 대응하여, 해당 장치는 다양한 전자 기기에 적용 가능하다.
도 7에 도시된 바와 같이, 본 실시예의 이미지 분류 모델 생성 장치(700)는 이미지 획득 모듈(701), 확률 결정 모듈(702) 및 모델 트레이닝 모듈(703)을 포함할 수 있다. 그 중, 이미지 획득 모듈(701)은 타겟 이미지와 타겟 이미지의 제1 카테고리 및 제2 카테고리를 획득하도록 구성되며, 제1 카테고리의 레벨은 제2 카테고리보다 높고, 확률 결정 모듈(702)은 타겟 이미지의 제1 카테고리의 예측 확률을 결정하도록 구성되며, 모델 트레이닝 모듈(703)은 타겟 이미지 및 제1 카테고리와, 타겟 이미지, 제1 카테고리의 예측 확률 및 제2 카테고리를 사용하여 트레이닝하여 이미지 분류 모델을 획득하도록 구성된다.
본 실시예에서, 이미지 분류 모델 생성 장치(700)에서 이미지 획득 모듈(701), 확률 결정 모듈(702) 및 모델 트레이닝 모듈(703)의 구체적인 처리 및 이들에 의해 제공되는 기술적 효과는 각각 도 2의 대응 실시예의 단계 (201) ~ (203)의 관련 설명을 참조하고, 여기서는 그 설명을 반복하지 않는다.
본 실시예의 일부 옵션적인 실시형태에서, 이미지 획득 모듈은, 타겟 이미지를 획득하도록 구성되며, 진일보로 상기 타겟 이미지의 제1 카테고리를 획득하도록 구성된 카테고리 획득 유닛과, 제1 카테고리 및 타겟 이미지에 의해 타겟 이미지의 제2 카테고리를 결정하도록 구성된 카테고리 결정 유닛을 구비한다.
본 실시예의 일부 옵션적인 실시형태에서, 카테고리 결정 유닛은 제1 카테고리에 의해 미리 설정된 이미지 라이브러리로부터 제1 카테고리에 대응하는 모든 이미지를 획득하고, 타겟 이미지에 의해, 제1 카테고리에 대응하는 모든 이미지로부터 타겟 이미지와 매칭되는 이미지를 획득하고, 타겟 이미지와 매칭되는 이미지의 제2 카테고리를 타겟 이미지의 제2 카테고리로 결정하도록 구성된다.
본 실시예의 일부 옵션적인 실시형태에서, 이미지 분류 모델은 제1 분류 네트워크층과, 타겟 이미지를 제1 분류 네트워크층에 입력하여 타겟 이미지의 제1 카테고리의 예측 확률을 획득하도록 추가로 구성된 확률 결정 모듈을 구비한다.
본 실시예의 일부 옵션적인 실시형태에서, 이미지 분류 모델은 제2 분류 네트워크층과, 타겟 이미지를 제1 분류 네트워크층의 입력으로 하고, 제1 카테고리를 제1 분류 네트워크층 희망 출력으로 하고, 타겟 이미지 및 제1 카테고리의 예측 확률을 제2 분류 네트워크층의 입력으로 하고, 제2 카테고리를 제2 분류 네트워크층의 희망 출력으로 하고, 기계 학습 모델을 트레이닝하여 이미지 분류 모델을 획득하도록 추가로 구성된 모델 트레이닝 모듈을 구비한다.
본 실시예의 일부 옵션적인 실시형태에서, 제2 카테고리의 카테고리 수는 모든 제2 카테고리 중 최대의 카테고리 수이며, 제1 카테고리는 모든 제2 카테고리를 포함한다.
본 실시예의 일부 옵션적인 실시형태에서, 제1 카테고리는 상위 카테고리이고, 제2 카테고리는 하위 카테고리이다.
도 8을 진일보 참조하면, 상기 각 도면에 도시된 방법의 구현으로서, 본 출원은 이미지 분류 모델 생성 장치의 일 실시예를 제공하고, 해당 장치의 실시예는 도 2에 도시된 방법의 실시예에 대응하며, 해당 장치는 다양한 전자 기기에 적용 가능하다.
도 8에 도시된 바와 같이, 본 실시예의 이미지 분류 모델 생성 장치(800)는 이미지 획득 모듈(801), 확률 획득 모델(802) 및 카테고리 결정 모듈(803)을 포함할 수 있다. 이미지 획득 모듈(801)은 분류 대상 이미지를 획득하도록 구성되고, 확률 획득 모듈(802)은 미리 트레이닝된 이미지 분류 모델에 분류 대상 이미지의 이미지 특징을 입력하여 분류 대상 이미지에 대응하는 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률을 획득하도록 구성되고, 카테고리 결정 모듈(803)은 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률에 의해 분류 대상 이미지의 타겟 카테고리를 결정하도록 구성된다.
본 실시예에서, 이미지 분류 모델 생성 장치(800)에서, 이미지 획득 모듈(801), 확률 획득 모듈(802) 및 카테고리 결정 모듈(803)의 구체적인 처리 및 이들에 의해 제공되는 기술적 효과는 각각 도 5의 대응 실시예의 단계 (501) ~ (503)의 관련 설명을 참조하고, 여기서는 그 설명을 반복하지 않는다.
본 실시예의 일부 옵션적인 실시형태에서, 확률 획득 모듈(802)은 분류 대상 이미지의 이미지 특징을 이미지 분류 모델의 제1 분류 네트워크층에 입력하여 분류 대상 이미지에 대응하는 제3 카테고리의 카테고리 확률을 획득하고, 제3 카테고리의 카테고리 확률 및 분류 대상 이미지의 이미지 특징을 이미지 분류 모델의 제2 분류 네트워크층에 입력하여 제4 카테고리의 카테고리 확률을 획득하도록 진일보 구성된다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기, 판독가능 저장 매체, 컴퓨터 프로그램, 노변 장치, 클라우드 제어 플랫폼을 추가로 제공한다.
도 9는 본 출원의 실시예를 구현하는데 사용될 수 있는 예시적인 전자 기기(900)의 블록도를 도시한다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크벤치, 개인 디지털 어시스턴트, 서버, 블레이드 서버, 메인프레임 컴퓨터 및 기타 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내는 것을 목적으로 한다. 전자 기기는 개인 디지털 어시스턴트, 휴대전화, 스마트폰, 웨어러블 장치 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본 설명서에 도시된 컴포넌트, 이들의 연결과 관계, 및 이들의 기능은 단지 예일뿐이며, 본 명세서에서 설명 및/또는 요구되는 본 출원의 실시를 제한하지 않는다.
도 9에 도시된 바와 같이, 전자 기기(900)는 판독 전용 메모리(ROM)(902)에 저장된 컴퓨터 프로그램, 또는 저장 유닛(908)으로부터 랜덤 액세스 메모리(RAM)(903)로 로딩되는 컴퓨터 프로그램에 의해, 다양한 적절한 동작 및 처리를 수행하는 컴퓨팅 유닛(901)을 구비한다. RAM(903)은 전자 기기(900)의 조작에 필요한 다양한 프로그램 및 데이터를 추가로 저장할 수 있다. 컴퓨팅 유닛(901), ROM(902) 및 RAM(903)은 버스(904)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(905)도 버스(904)에 연결된다.
전자 기기(900) 내의 복수의 컴포넌트들, 예를 들어, 키보드, 마우스 등의 입력 유닛(906)과, 예를 들어, 다양한 유형의 디스플레이, 스피커 등의 출력 유닛(907)과, 예를 들어, 자기 디스크, 광디스크 등의 저장 유닛(908)과, 예를 들어, 네트워크 카드, 모뎀, 무선 통신 트랜시버와 같은 통신 유닛(909)을 포함하는 컴포넌트는 I/O 인터페이스(905)에 연결된다. 통신 유닛(909)은 전자 기기(900)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 통신 네트워크를 통해 다른 디바이스와 정보/데이터를 교환할 수 있도록 한다.
컴퓨팅 유닛(901)은 프로세싱 및 컴퓨팅 기능을 갖는 다양한 범용 및/또는 전용 프로세싱 컴포넌트일 수 있다. 컴퓨팅 유닛(901)의 일부 예는 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 다양한 전용 인공지능(AI) 컴퓨팅 칩, 기계 학습 모델 알고리즘을 운행하는 다양한 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적절한 프로세서, 제어기, 마이크로 컨트롤러 등을 포함하나 이에 한정되지 않는다. 컴퓨팅 유닛(901)은 상술한 각 방법 및 처리, 예를 들면, 이미지 분류 모델 생성 방법 또는 이미지 분류 방법을 실행한다. 예를 들어, 일부 실시예들에서, 이미지 분류 모델 생성 방법 또는 이미지 분류 방법은 예를 들어, 저장 유닛(908)과 같은 기계 판독가능 매체에 유형적으로 포함되는 컴퓨터 소프트웨어 프로그램으로서 구현될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(902) 및/또는 통신 유닛(909)을 통해 전자기기(900)에 로드 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(903)에 로딩되어 컴퓨팅 유닛(901)에 의해 실행될 때, 전술한 이미지 분류 모델 생성 방법 또는 이미지 분류 방법의 하나 이상의 단계를 수행할 수 있다. 선택적으로, 다른 실시예에서, 컴퓨팅 유닛(901)은 임의의 다른 적절한 방법(예를 들어, 펌웨어)에 의해 이미지 분류 모델 생성 방법 또는 이미지 분류 방법을 수행하도록 구성될 수 있다.
본 명세서에서, 상술한 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그래머블 게이트 어레이(FPGA), 특정 애플리케이션용 집적 회로(ASIC), 특정 애플리케이션용 표준 제품(ASSP), 시스템 온칩 시스템(SOC), 플렉스 프로그래머블 로직 디바이스(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 구현될 수 있다. 이들 다양한 실시예는 다음을 포함할 수 있다. 즉, 하나 이상의 컴퓨터 프로그램에서 구현되며, 해당 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그램 가능한 시스템에서 실행 및/또는 해석될 수 있고, 해당 프로그래머블 프로세서는 전용 또는 범용 프로그래머블 프로세서일 수 있으며, 스토리지 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하고, 데이터 및 명령을 해당 스토리지 시스템, 해당 적어도 하나의 입력 장치, 및 해당 적어도 하나의 출력 장치에 전송할 수 있다.
본 출원의 방법을 구현하기 위한 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합을 사용하여 편성할 수 있다. 이러한 프로그램 코드는 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 때, 플로우차트 및/또는 블록 다이어그램에 규정된 기능/조작이 수행되도록, 범용 컴퓨터, 전용 컴퓨터, 또는 다른 프로그래머블 데이터 처리 장치의 프로세서 또는 제어기에 제공될 수 있다. 프로그램 코드는 기계에서 완전히 실행되거나 부분적으로 기계에서 실행될 수 있으며, 별도의 소프트웨어 패키지로 기계에서 부분적으로 실행되고 부분적으로 원격 기계에서 실행되거나 원격 기계 또는 서버에서 실행할 수 있다.
본 출원의 상하 맥락에서, 기계 판독가능 매체는 명령 실행 시스템, 장치 또는 기기에 의해 사용되거나 명령 실행 시스템, 장치, 또는 기기와 함께 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 유형의 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독가능 매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적절한 조합을 포함할 수 있으나, 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 보다 구체적인 예시는 하나 이상의 라인에 의한 전기 접속, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광 저장 장치, 자기 저장 장치, 또는 이들의 임의의 적절한 조합을 포함한다.
사용자와의 상호작용을 제공하기 위해, 컴퓨터 상에서, 여기에 설명된 시스템 및 기술을 실시할 수 있으며, 해당 컴퓨터는 사용자에게 정보를 표시하기 위한 디스플레이 장치(예를 들어, CRT(음극선관)) 또는 LCD(액정 디스플레이) 모니터) 및 사용자가 컴퓨터에 입력을 제공하기 위한 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 갖는다. 기타 유형의 장치는 사용자와의 상호작용을 제공할 수 있으며, 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백 또는 햅틱 피드백)일 수 있고, 임의의 형태(음향 입력, 음성 입력 또는 햅틱 입력을 포함)로 사용자로부터의 입력을 수신할 수 있다.
본 명세서에 설명된 시스템 및 기술은 백그라운드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로서), 또는 미들웨어 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프런트 엔드 컴포넌트(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비한 사용자 컴퓨터는 사용자가 해당 그래픽 사용자 인터페이스 또는 해당 웹 브라우저를 통해 본 설명서에 설명된 시스템 및 기술의 실시형태와 상호작용할 수 있다), 또는 이들 백그라운드 컴포넌트, 미들웨어 컴포넌트 또는 프런트 엔드 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 또한, 시스템의 컴포넌트는 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 서로 연결될 수 있다. 통신 네트워크의 예는 근거리 통신망(LAN), 광역 네트워크(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있으며 통상적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버 간의 관계는 대응하는 컴퓨터에서 실행되고 서로 클라이언트 - 서버 관계를 갖는 컴퓨터 프로그램에 의해 생성된다.
본 출원의 상하 문맥에 있어서, 노변 장치는, 상기 전자 기기를 포함하는 외에, 또한, 통신 컴포넌트 등을 포함할 수도 있고, 해당 전자 기기는, 통신 컴포넌트와 일체로 집적될 수 있고 별체로 설치될 수도 있다. 해당 전자 기기는 감지 디바이스(예를 들어, 노변 카메라)의 데이터, 예를 들어, 이미지 및 비디오 등을 획득하고, 이미지 및 비디오의 처리 및 데이터 계산을 수행할 수 있다. 선택적으로, 상기 전자 기기 자체는 예를 들면, 인공지능(Artificial Intelligence, AI) 카메라 등의 감지 데이터 획득 기능 및 통신 기능을 구비할 수 있고, 해당 전자 기기는 획득된 감지 데이터에 기반하여 직접 이미지 및 비디오의 처리 및 데이터 계산을 수행할 수 있다.
본 출원의 상하 맥락에서, 클라우드 제어 플랫폼은 클라우드에서 처리를 실행할 수 있고, 포함하는 상기 전자 기기가 감지 기기(예를 들면, 노변 카메라)의 데이터, 예를 들면, 이미지 및 비디오 등을 획득하여 이미지 및 비디오의 처리 및 데이터 계산을 수행할 수 있으며, 클라우드 제어 플랫폼은 또한 차량 - 도로 협력 관리 플랫폼, 에지 컴퓨팅 플랫폼, 클라우드 컴퓨팅 플랫폼, 중앙 시스템, 클라우드 서버 등으로 지칭될 수 있다.
인공지능은 컴퓨터를 연구하여 인간의 사고 프로세스와 지능적인 행동(예를 들어, 학습, 추리, 사고, 계획 등)을 시뮬레이션하는 학과이며, 하드웨어 층면의 기술이 있는가 하면 소프트웨어 층면의 기술도 구비한다. 인공지능 하드웨어 기술은 일반적으로 센서, 전용 인공지능 칩, 클라우드 컴퓨팅, 분산 스토리지, 빅 데이터 처리 등의 기술을 포함하며, 인공지능 소프트웨어 기술은 주로 컴퓨터 비전 기술, 음성 인식 기술, 자연 음성 처리 기술, 기계 학습/심층 학습, 빅 데이터 처리 기술, 지식 그래프 기술 등의 몇 가지 주요 내용이 있다.
상술한 다양한 형태의 프로세스를 사용하여 단계를 재배열하거나, 추가하거나 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 병렬로 수행될 수도 있고, 순차적으로 수행될 수도 있고, 상이한 순서로 수행될 수도 있으며, 본 출원에서 언급된 기술 수단의 원하는 결과가 실현될 수 있다면, 본 명세서는 이에 제한하지 않는다.
상기 구체적인 실시형태는 본 출원의 보호 범위를 한정하는 것은 아니다. 당업자는 설계 요구 및 기타 요인에 의해 다양한 수정, 조합, 부차적 조합 및 대체를 행할 수 있음을 이해해야 한다. 본 출원의 사상 및 원칙을 벗어나지 않고 실행한 임의의 수정, 동등한 대체 및 개선 등은 모두 본 출원의 보호 범위 내에 포함되어야 한다.

Claims (23)

  1. 이미지 분류 모델 생성 방법에 있어서,
    타겟 이미지와, 상기 타겟 이미지의 제1 카테고리 및 제2 카테고리를 획득하는 단계로서, 상기 제1 카테고리의 레벨이 상기 제2 카테고리의 레벨보다 높은 단계와,
    상기 타겟 이미지의 제1 카테고리의 예측 확률을 결정하는 단계와,
    상기 타겟 이미지 및 상기 제1 카테고리와, 상기 타겟 이미지, 상기 제1 카테고리의 예측 확률 및 상기 제2 카테고리를 이용하여 트레이닝함으로써 이미지 분류 모델을 획득하는 단계를 포함하는, 이미지 분류 모델 생성 방법.
  2. 제1항에 있어서,
    상기 타겟 이미지와, 상기 타겟 이미지의 제1 카테고리 및 제2 카테고리를 획득하는 단계는,
    상기 타겟 이미지를 획득하는 단계와,
    상기 타겟 이미지의 제1 카테고리를 획득하는 단계와,
    상기 타겟 이미지의 제1 카테고리 및 상기 타겟 이미지에 의해, 상기 타겟 이미지의 제2 카테고리를 결정하는 단계를 포함하는, 이미지 분류 모델 생성 방법.
  3. 제2항에 있어서,
    상기 제1 카테고리 및 상기 타겟 이미지에 의해, 상기 타겟 이미지의 제2 카테고리를 결정하는 단계는,
    상기 제1 카테고리에 의해, 미리 설정된 이미지 라이브러리로부터 상기 제1 카테고리에 대응하는 모든 이미지를 획득하는 단계와,
    상기 타겟 이미지에 의해, 상기 제1 카테고리에 대응하는 모든 이미지로부터 상기 타겟 이미지와 매칭되는 이미지를 획득하는 단계와,
    상기 타겟 이미지와 매칭되는 이미지의 제2 카테고리를 상기 타겟 이미지의 제2 카테고리로 결정하는 단계를 포함하는, 이미지 분류 모델 생성 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 이미지 분류 모델은 제1 분류 네트워크층을 포함하고,
    상기 타겟 이미지의 제1 카테고리의 예측 확률을 결정하는 단계는,
    상기 타겟 이미지를 상기 제1 분류 네트워크층에 입력하여 상기 타겟 이미지의 제1 카테고리의 예측 확률을 얻는 단계를 포함하는, 이미지 분류 모델 생성 방법.
  5. 제4항에 있어서,
    상기 이미지 분류 모델은 제2 분류 네트워크층을 추가로 포함하고,
    상기 타겟 이미지 및 상기 제1 카테고리와, 상기 타겟 이미지, 상기 제1 카테고리의 예측 확률 및 상기 제2 카테고리를 이용하여 트레이닝함으로써 이미지 분류 모델을 획득하는 단계는,
    상기 타겟 이미지를 상기 제1 분류 네트워크층의 입력으로 하고, 상기 제1 카테고리를 상기 제1 분류 네트워크층의 희망 출력으로 하고, 상기 타겟 이미지 및 상기 제1 카테고리의 카테고리 예측 확률을 상기 제2 분류 네트워크층의 입력으로 하고, 상기 제2 카테고리를 상기 제2 분류 네트워크층의 희망 출력으로 하고, 기계 학습 모델을 트레이닝하여 이미지 분류 모델을 획득하는 단계를 포함하는, 이미지 분류 모델 생성 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 제2 카테고리의 카테고리 수는 모든 제2 카테고리 중 최대의 카테고리 수이고, 상기 제1 카테고리는 모든 제2 카테고리를 포함하는, 이미지 분류 모델 생성 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 제1 카테고리는 상위 카테고리이고, 제2 카테고리는 하위 카테고리인, 이미지 분류 모델 생성 방법.
  8. 이미지 분류 방법에 있어서,
    분류 대상 이미지를 획득하는 단계와,
    상기 분류 대상 이미지의 이미지 특징을 제1항 내지 제7항 중 어느 한 항에 기재된 이미지 분류 모델에 입력하여, 상기 분류 대상 이미지에 대응하는 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률을 얻는 단계와,
    상기 제3 카테고리의 카테고리 확률 및 상기 제4 카테고리의 카테고리 확률에 의해 상기 분류 대상 이미지의 타겟 카테고리를 결정하는 단계를 포함하는, 이미지 분류 방법.
  9. 제8항에 있어서,
    상기 분류 대상 이미지의 이미지 특징을 제1항 내지 제7항 중 어느 한 항에 기재된 이미지 분류 모델에 입력하여, 상기 분류 대상 이미지에 대응하는 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률을 얻는 단계는,
    상기 분류 대상 이미지의 이미지 특징을 상기 이미지 분류 모델의 제1 분류 네트워크층에 입력하여 상기 분류 대상 이미지에 대응하는 제3 카테고리의 카테고리 확률을 획득하는 단계와,
    상기 제3 카테고리의 카테고리 확률 및 상기 분류 대상 이미지의 이미지 특징을 상기 이미지 분류 모델의 제2 분류 네트워크층에 입력하여 상기 제4 카테고리의 카테고리 확률을 획득하는 단계를 포함하는, 이미지 분류 방법.
  10. 이미지 분류 모델 생성 장치에 있어서,
    타겟 이미지와, 상기 타겟 이미지의 제1 카테고리 및 제2 카테고리를 획득하도록 구성된 이미지 획득 모듈로서, 상기 제1 카테고리의 레벨이 상기 제2 카테고리보다 높은 이미지 획득 모듈과,
    상기 타겟 이미지의 제1 카테고리의 예측 확률을 결정하도록 구성된 확률 결정 모듈과,
    상기 타겟 이미지 및 상기 제1 카테고리와, 상기 타겟 이미지, 상기 제1 카테고리의 예측 확률 및 상기 제2 카테고리를 이용하여 트레이닝함으로써 이미지 분류 모델을 획득하도록 구성된 모델 트레이닝 모듈을 구비하는, 이미지 분류 모델 생성 장치.
  11. 제10항에 있어서,
    상기 이미지 획득 모듈은,
    상기 타겟 이미지를 획득하도록 구성되고, 추가로
    상기 타겟 이미지의 제1 카테고리를 획득하도록 구성된 카테고리 획득 유닛과,
    상기 타겟 이미지의 제1 카테고리 및 상기 타겟 이미지에 의해, 상기 타겟 이미지의 제2 카테고리를 결정하도록 구성된 카테고리 결정 유닛을 구비하는, 이미지 분류 모델 생성 장치.
  12. 제11항에 있어서,
    상기 카테고리 결정 유닛은,
    상기 제1 카테고리에 의해, 미리 설정된 이미지 라이브러리로부터 상기 제1 카테고리에 대응하는 모든 이미지를 획득하고, 상기 타겟 이미지에 의해, 상기 제1 카테고리에 대응하는 모든 이미지로부터 상기 타겟 이미지와 매칭되는 이미지를 획득하고, 상기 타겟 이미지와 매칭되는 이미지의 제2 카테고리를 상기 타겟 이미지의 제2 카테고리로 결정하도록 추가로 구성되는, 이미지 분류 모델 생성 장치.
  13. 제10항 내지 제12항 중 어느 한 항에 있어서,
    상기 이미지 분류 모델은 제1 분류 네트워크층을 포함하고,
    상기 확률 결정 모듈은 상기 타겟 이미지를 상기 제1 분류 네트워크층에 입력하여 상기 타겟 이미지의 제1 카테고리의 예측 확률을 얻도록 추가로 구성되는, 이미지 분류 모델 생성 장치.
  14. 제13항에 있어서,
    상기 이미지 분류 모델은 제2 분류 네트워크층을 추가로 포함하고,
    상기 모델 트레이닝 모듈은 추가로, 상기 타겟 이미지를 상기 제1 분류 네트워크층의 입력으로 하고, 상기 제1 카테고리를 상기 제1 분류 네트워크층의 희망 출력으로 하고, 상기 타겟 이미지 및 상기 제1 카테고리의 예측 확률을 상기 제2 분류 네트워크층의 입력으로 하고, 상기 제2 카테고리를 상기 제2 분류 네트워크층의 희망 출력으로 하고, 기계 학습 모델을 트레이닝하여 이미지 분류 모델을 얻도록 구성되는, 이미지 분류 모델 생성 장치.
  15. 제10항 내지 제14항 중 어느 한 항에 있어서,
    상기 제2 카테고리의 카테고리 수는 모든 제2 카테고리 중 최대의 카테고리 수이고, 상기 제1 카테고리는 모든 제2 카테고리를 포함하는, 이미지 분류 모델 생성 장치.
  16. 제10항 내지 제15항 중 어느 한 항에 있어서,
    상기 제1 카테고리는 상위 카테고리이고, 제2 카테고리는 하위 카테고리인, 이미지 분류 모델 생성 장치.
  17. 이미지 분류 장치에 있어서,
    분류 대상 이미지를 획득하도록 구성된 이미지 획득 모듈과,
    상기 분류 대상 이미지의 이미지 특징을 제1항 내지 제7항 중 어느 한 항에 기재된 이미지 분류 모델에 입력하여, 상기 분류 대상 이미지에 대응하는 제3 카테고리의 카테고리 확률 및 제4 카테고리의 카테고리 확률을 얻도록 구성된 확률 획득 모듈과,
    상기 제3 카테고리의 카테고리 확률 및 상기 제4 카테고리의 카테고리 확률에 의해, 상기 분류 대상 이미지의 타겟 카테고리를 결정하도록 구성된 카테고리 결정 모듈을 구비하는, 이미지 분류 장치.
  18. 제17항에 있어서,
    상기 확률 획득 모듈은 추가로
    상기 분류 대상 이미지의 이미지 특징을 상기 이미지 분류 모델의 제1 분류 네트워크층에 입력하여 상기 분류 대상 이미지에 대응하는 제3 카테고리의 카테고리 확률을 획득하고, 상기 제3 카테고리의 카테고리 확률 및 상기 분류 대상 이미지의 이미지 특징을 상기 이미지 분류 모델의 제2 분류 네트워크층에 입력하여 상기 제4 카테고리의 카테고리 확률을 획득하도록 구성되는, 이미지 분류 장치.
  19. 적어도 하나의 프로세서와,
    적어도 하나의 프로세서에 통신 가능하게 연결되는 메모리를 구비하는 전자 기기에 있어서,
    상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령을 저장하고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되는 경우, 상기 적어도 하나의 프로세서가 제1항 내지 제9항 중 어느 한 항에 기재된 방법을 실행하도록 하는, 전자 기기.
  20. 컴퓨터가 제1항 내지 제9항 중 어느 한 항에 기재된 방법을 실행하기 위한 컴퓨터 명령이 저장되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체.
  21. 프로세서에 의해 실행될 때, 제1항 내지 제9항 중 어느 한 항에 기재된 방법을 구현하는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.
  22. 제19항에 기재된 전자 기기를 구비하는 노변 장치.
  23. 제19항에 기재된 전자 기기를 구비하는 클라우드 제어 플랫폼.
KR1020220039053A 2021-06-03 2022-03-29 이미지 분류 모델 생성 방법 및 장치, 전자 기기, 저장 매체, 컴퓨터 프로그램, 노변 장치 및 클라우드 제어 플랫폼 KR20220047228A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110620624.3 2021-06-03
CN202110620624.3A CN113361593B (zh) 2021-06-03 2021-06-03 生成图像分类模型的方法、路侧设备及云控平台

Publications (1)

Publication Number Publication Date
KR20220047228A true KR20220047228A (ko) 2022-04-15

Family

ID=77531826

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220039053A KR20220047228A (ko) 2021-06-03 2022-03-29 이미지 분류 모델 생성 방법 및 장치, 전자 기기, 저장 매체, 컴퓨터 프로그램, 노변 장치 및 클라우드 제어 플랫폼

Country Status (5)

Country Link
US (1) US20220222921A1 (ko)
EP (1) EP4050570A3 (ko)
JP (1) JP2022078310A (ko)
KR (1) KR20220047228A (ko)
CN (1) CN113361593B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115564992A (zh) * 2022-09-26 2023-01-03 北京百度网讯科技有限公司 图像分类方法和图像分类模型的训练方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630676B (zh) * 2022-09-01 2024-02-09 中国地震局地球物理研究所 大尺度范围的场地分类处理方法、装置及电子设备
CN115861847B (zh) * 2023-02-24 2023-05-05 耕宇牧星(北京)空间科技有限公司 可见光遥感图像目标智能辅助标注方法
CN117292174B (zh) * 2023-09-06 2024-04-19 中化现代农业有限公司 苹果病害识别方法、装置、电子设备和存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9524449B2 (en) * 2013-12-16 2016-12-20 Adobe Systems Incorporated Generation of visual pattern classes for visual pattern recognition
US9830534B1 (en) * 2015-12-16 2017-11-28 A9.Com, Inc. Object recognition
US11869237B2 (en) * 2017-09-29 2024-01-09 Sony Interactive Entertainment Inc. Modular hierarchical vision system of an autonomous personal companion
JP2020021378A (ja) * 2018-08-02 2020-02-06 パナソニックIpマネジメント株式会社 物品判別システム、買物支援システム、買物支援方法、物品判別方法、及びプログラム
CN110879950A (zh) * 2018-09-06 2020-03-13 北京市商汤科技开发有限公司 多级目标分类及交通标志检测方法和装置、设备、介质
CN109685110B (zh) * 2018-11-28 2022-01-28 北京陌上花科技有限公司 图像分类网络的训练方法、图像分类方法及装置、服务器
US10963709B2 (en) * 2019-01-02 2021-03-30 Zoox, Inc. Hierarchical machine-learning network architecture
CN110378410B (zh) * 2019-07-16 2022-08-09 北京字节跳动网络技术有限公司 多标签场景分类方法、装置及电子设备
CN111476309B (zh) * 2020-04-13 2023-05-23 抖音视界有限公司 图像处理方法、模型训练方法、装置、设备及可读介质
CN112598016A (zh) * 2020-09-17 2021-04-02 北京小米松果电子有限公司 图像分类方法及装置、通信设备及存储介质
CN112801164B (zh) * 2021-01-22 2024-02-13 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115564992A (zh) * 2022-09-26 2023-01-03 北京百度网讯科技有限公司 图像分类方法和图像分类模型的训练方法

Also Published As

Publication number Publication date
CN113361593A (zh) 2021-09-07
CN113361593B (zh) 2023-12-19
EP4050570A3 (en) 2022-10-12
JP2022078310A (ja) 2022-05-24
EP4050570A2 (en) 2022-08-31
US20220222921A1 (en) 2022-07-14

Similar Documents

Publication Publication Date Title
US11631234B2 (en) Automatically detecting user-requested objects in images
CN106204522B (zh) 对单个图像的联合深度估计和语义标注
US20210406592A1 (en) Method and apparatus for visual question answering, computer device and medium
KR20220047228A (ko) 이미지 분류 모델 생성 방법 및 장치, 전자 기기, 저장 매체, 컴퓨터 프로그램, 노변 장치 및 클라우드 제어 플랫폼
CN110059734B (zh) 一种目标识别分类模型的训练方法、物体识别方法、装置、机器人和介质
US20160224903A1 (en) Hyper-parameter selection for deep convolutional networks
US20170061326A1 (en) Method for improving performance of a trained machine learning model
CN109766557B (zh) 一种情感分析方法、装置、存储介质及终端设备
EP3859560A2 (en) Method and apparatus for visual question answering, computer device and medium
CN114677565B (zh) 特征提取网络的训练方法和图像处理方法、装置
EP4318313A1 (en) Data processing method, training method for neural network model, and apparatus
US20220156585A1 (en) Training point cloud processing neural networks using pseudo-element - based data augmentation
WO2023231753A1 (zh) 一种神经网络的训练方法、数据的处理方法以及设备
CN110781970A (zh) 分类器的生成方法、装置、设备及存储介质
CN114064928A (zh) 一种知识图谱的知识推理方法、装置、设备及存储介质
CN115455171A (zh) 文本视频的互检索以及模型训练方法、装置、设备及介质
EP4318322A1 (en) Data processing method and related device
CN114782722A (zh) 图文相似度的确定方法、装置及电子设备
US20210312173A1 (en) Method, apparatus and device for recognizing bill and storage medium
US11816185B1 (en) Multi-view image analysis using neural networks
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
CN116188478A (zh) 图像分割方法、装置、电子设备及存储介质
CN114898184A (zh) 模型训练方法、数据处理方法、装置及电子设备
Saha et al. A newly proposed object detection method using faster R-CNN inception with ResNet based on Tensorflow
CN114462490A (zh) 图像目标的检索方法、检索设备、电子设备和存储介质