KR102553995B1 - 라벨링 장치 및 학습 장치 - Google Patents

라벨링 장치 및 학습 장치 Download PDF

Info

Publication number
KR102553995B1
KR102553995B1 KR1020227029033A KR20227029033A KR102553995B1 KR 102553995 B1 KR102553995 B1 KR 102553995B1 KR 1020227029033 A KR1020227029033 A KR 1020227029033A KR 20227029033 A KR20227029033 A KR 20227029033A KR 102553995 B1 KR102553995 B1 KR 102553995B1
Authority
KR
South Korea
Prior art keywords
learning
unit
image
data set
feature
Prior art date
Application number
KR1020227029033A
Other languages
English (en)
Other versions
KR20220123142A (ko
Inventor
도모야 사와다
겐 후쿠치
요시미 모리야
Original Assignee
미쓰비시덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미쓰비시덴키 가부시키가이샤 filed Critical 미쓰비시덴키 가부시키가이샤
Publication of KR20220123142A publication Critical patent/KR20220123142A/ko
Application granted granted Critical
Publication of KR102553995B1 publication Critical patent/KR102553995B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • G06V10/473Contour-based spatial representations, e.g. vector-coding using gradient analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

라벨링 장치(100)는, 카메라(2)에 의한 촬상 화상을 나타내는 화상 신호를 취득하는 화상 신호 취득부(21)와, 기계 학습에 의한 학습 완료 화상 인식부(22)로서, 촬상 화상에 대한 화상 인식을 실행하는 화상 인식부(22)와, 화상 인식의 결과에 근거하여, 촬상 화상에 포함되는 개개의 물체에 대한 라벨링을 실행하는 것에 의해, 개개의 물체에 대응하는 화상 데이터 및 개개의 물체에 대응하는 라벨 데이터를 포함하는 학습용 데이터 세트를 생성하는 학습용 데이터 세트 생성부(23)를 구비한다.

Description

라벨링 장치 및 학습 장치
본 개시는, 라벨링 장치 및 학습 장치에 관한 것이다.
종래, 지도 학습(supervised learning)에 관한 여러 가지의 기술이 개발되고 있다. 지도 학습에 있어서의 학습용 데이터는, 사전에 라벨링이 된 것이다. 특허문헌 1에는, 학습용 데이터에 대한 라벨링의 상태에 근거하여 학습 성능을 예측하는 기술이 개시되어 있다.
국제 공개 제2018/079020호
통상, 학습용 데이터에 대한 라벨링은, 사람의 수작업에 의하는 것이다. 이하, 학습용 데이터에 대한 라벨링을 하는 사람을 「라벨링 담당자」라고 하는 일이 있다. 또, 학습용 데이터에 대한 라벨링을 하는 작업을 「라벨링 작업」이라고 하는 일이 있다.
종래, 화상 인식(Computer Vision) 중 물체 인식(Object Recognition)에 있어서, 물체 검출(Object Detection)에 관한 여러 가지의 기술이 개발되고 있다. 또, 영역 분할(Scene Segmentation)에 관한 여러 가지의 기술이 개발되고 있다. 물체 검출에 있어서는, 「labelImg」 등의 툴이 라벨링 작업에 이용되고 있다. 영역 분할에 있어서는, 「Labelbox」 등의 툴이 라벨링 작업에 이용되고 있다.
이러한 툴을 이용했다고 해도, 라벨링 작업에 의한 라벨링 담당자에 대한 작업 부하가 발생한다. 특히, 대량의 학습용 데이터에 대한 라벨링 작업이 요구될 때, 라벨링 담당자에 대한 작업 부하가 크다고 하는 문제가 있었다.
본 개시는, 상기와 같은 과제를 해결하기 위해 이루어진 것이며, 라벨링 작업에 의한 라벨링 담당자에 대한 작업 부하를 저감하는 것을 목적으로 한다.
본 개시에 따른 라벨링 장치는, 카메라에 의한 촬상 화상을 나타내는 화상 신호를 취득하는 화상 신호 취득부와, 기계 학습에 의한 학습 완료 화상 인식부로서, 촬상 화상에 대한 화상 인식을 실행하는 화상 인식부와, 화상 인식의 결과에 근거하여, 촬상 화상에 포함되는 개개의 물체에 대한 라벨링을 실행하는 것에 의해, 개개의 물체에 대응하는 화상 데이터 및 개개의 물체에 대응하는 라벨 데이터를 포함하는 학습용 데이터 세트를 생성하는 학습용 데이터 세트 생성부를 구비하는 것이다.
본 개시에 의하면, 상기와 같이 구성했으므로, 라벨링 작업을 자동화 또는 반자동화할 수 있다. 이 결과, 라벨링 담당자에 대한 작업 부하를 저감할 수 있다.
도 1은 실시의 형태 1에 따른 라벨링 시스템의 주요부를 나타내는 블럭도이다.
도 2는 실시의 형태 1에 따른 라벨링 장치에 있어서의 화상 인식부의 주요부를 나타내는 블럭도이다.
도 3은 실시의 형태 1에 따른 학습 장치에 있어서의 학습용 데이터베이스 갱신부의 주요부를 나타내는 블럭도이다.
도 4는 촬상 화상의 예를 나타내는 설명도이다.
도 5는 도 4에 나타내는 촬상 화상에 대응하는 제 1 특징 맵의 예를 나타내는 설명도이다.
도 6은 다른 촬상 화상의 예를 나타내는 설명도이다.
도 7은 도 6에 나타내는 촬상 화상에 대응하는 제 1 특징 맵의 예를 나타내는 설명도이다.
도 8은 도 4에 나타내는 촬상 화상에 대응하는 제 2 특징 맵의 예를 나타내는 설명도이다.
도 9는 「Mask R-CNN+GSoC」에 있어서의 뉴럴 네트워크의 구조를 나타내는 설명도이다.
도 10은 도 4에 나타내는 촬상 화상에 대응하는 제 3 특징 맵의 예를 나타내는 설명도이다.
도 11은 「Mask R-CNN+GSoC」 중 제 1 컨볼루션 블록에 있어서의 뉴럴 네트워크의 구조를 나타내는 설명도이다.
도 12는 비교용의 물체 인식에 의한 인식 결과의 예를 나타내는 설명도이다.
도 13은 실시의 형태 1에 따른 물체 인식에 의한 인식 결과의 예를 나타내는 설명도이다.
도 14는 비교용의 물체 인식에 의한 인식 정밀도의 예, 및 실시의 형태 1에 따른 물체 인식에 의한 인식 정밀도의 예를 나타내는 설명도이다.
도 15는 신뢰도 맵의 예를 나타내는 설명도이다.
도 16은 실시의 형태 1에 따른 라벨링 장치의 주요부의 하드웨어 구성을 나타내는 블럭도이다.
도 17은 실시의 형태 1에 따른 라벨링 장치의 주요부의 다른 하드웨어 구성을 나타내는 블럭도이다.
도 18은 실시의 형태 1에 따른 라벨링 장치의 주요부의 다른 하드웨어 구성을 나타내는 블럭도이다.
도 19는 실시의 형태 1에 따른 학습 장치의 주요부의 하드웨어 구성을 나타내는 블럭도이다.
도 20은 실시의 형태 1에 따른 학습 장치의 주요부의 다른 하드웨어 구성을 나타내는 블럭도이다.
도 21은 실시의 형태 1에 따른 학습 장치의 주요부의 다른 하드웨어 구성을 나타내는 블럭도이다.
도 22는 실시의 형태 1에 따른 라벨링 장치의 동작을 나타내는 흐름도이다.
도 23은 실시의 형태 1에 따른 학습 장치의 동작을 나타내는 흐름도이다.
도 24는 실시의 형태 1에 따른 다른 라벨링 시스템의 주요부를 나타내는 블럭도이다.
도 25는 실시의 형태 1에 따른 다른 라벨링 시스템의 주요부를 나타내는 블럭도이다.
도 26은 실시의 형태 2에 따른 라벨링 시스템의 주요부를 나타내는 블럭도이다.
도 27은 실시의 형태 2에 따른 라벨링 장치의 동작을 나타내는 흐름도이다.
도 28은 실시의 형태 2에 따른 다른 라벨링 시스템의 주요부를 나타내는 블럭도이다.
도 29는 실시의 형태 2에 따른 다른 라벨링 시스템의 주요부를 나타내는 블럭도이다.
이하, 이 개시를 보다 상세하게 설명하기 위해서, 이 개시를 실시하기 위한 형태에 대하여, 첨부의 도면에 따라 설명한다.
(실시의 형태 1)
도 1은, 실시의 형태 1에 따른 라벨링 시스템의 주요부를 나타내는 블럭도이다. 도 2는, 실시의 형태 1에 따른 라벨링 장치에 있어서의 화상 인식부의 주요부를 나타내는 블럭도이다. 도 3은, 실시의 형태 1에 따른 학습 장치에 있어서의 학습용 데이터베이스 갱신부의 주요부를 나타내는 블럭도이다. 도 1~도 3을 참조하여, 실시의 형태 1에 따른 라벨링 시스템에 대해 설명한다.
도 1에 나타내는 바와 같이, 라벨링 시스템(1)은, 카메라(2), 기억 장치(3), 기억 장치(4), 라벨링 장치(100) 및 학습 장치(200)를 포함하는 것이다. 기억 장치(3)는, 학습용 데이터 세트 기억부(11)를 갖고 있다. 기억 장치(4)는, 학습용 데이터베이스 기억부(12)를 갖고 있다. 라벨링 장치(100)는, 화상 신호 취득부(21), 화상 인식부(22) 및 학습용 데이터 세트 생성부(23)를 갖고 있다. 학습 장치(200)는, 학습용 데이터베이스 갱신부(31) 및 학습부(32)를 갖고 있다.
카메라(2)는, 모니터링용의 카메라이다. 구체적으로는, 예를 들면, 카메라(2)는, 감시 카메라, 방범 카메라 또는 전자 미러용의 카메라이다. 카메라(2)는, 가시광선 카메라 또는 적외선 카메라에 의해 구성되어 있고, 또한, 동영상 촬상용의 카메라에 의해 구성되어 있다. 이하, 카메라(2)에 의해 촬상되는 동영상을 구성하는 개개의 정지화면을 「촬상 화상」이라고 하는 일이 있다.
화상 신호 취득부(21)는, 촬상 화상을 나타내는 화상 신호를 취득하는 것이다. 화상 인식부(22)는, 당해 취득된 화상 신호를 이용하여 화상 인식을 실행하는 것이다. 여기서, 화상 인식부(22)에 의해 실행되는 화상 인식은, 물체 인식 및 트랙킹을 포함하는 것이다. 또, 화상 인식부(22)에 의해 실행되는 물체 인식은, 물체 검출 및 영역 분할 중 적어도 한쪽을 포함하는 것이다.
즉, 도 2에 나타내는 바와 같이, 화상 인식부(22)는, 특징량 추출부(41), 물체 인식부(42) 및 물체 추적부(43)를 갖고 있다. 특징량 추출부(41)는, 제 1 특징량 추출부(41_1) 및 제 2 특징량 추출부(41_2)를 갖고 있다.
제 1 특징량 추출부(41_1)는, 상기 취득된 화상 신호를 이용하여, 개개의 촬상 화상에 대응하는 특징 맵(이하 「제 1 특징 맵」이라고 하는 일이 있음)을 생성하는 것이다. 제 1 특징 맵은, 서로 직교하는 2 방향으로 배열된 복수개의 특징량(이하 「제 1 특징량」이라고 하는 일이 있음)에 의해 구성되어 있다.
여기서, 제 1 특징 맵은, 속성마다의 전경 마스크에 대응하는 것이다. 이 경우, 제 1 특징량 추출부(41_1)는, 예를 들면, GSoC(Google Summer of Code) 2017에서 개발된 배경 차분법(Background Subtraction)을 이용하여 속성마다의 전경 마스크를 생성하는 것에 의해, 제 1 특징 맵을 생성한다. 도 4는, 촬상 화상의 예를 나타내고 있다. 도 5는, 이러한 촬상 화상에 대응하는 제 1 특징 맵이며, 배경 차분법에 근거하는 제 1 특징 맵의 예를 나타내고 있다. 보다 구체적으로는, 도 5는, 속성 「사람」에 대응하는 전경 마스크의 예를 나타내고 있다.
또는, 제 1 특징 맵은, 물체다움(Objectness)에 대응하는 중레벨 특징(Mid-level Feature)에 대응하는 것이다. 즉, 제 1 특징 맵에 있어서의 개개의 제 1 특징량은, 이러한 중레벨 특징을 이용한 것이다. 또, 「중레벨」이란, 사람의 시각 모델에 근거하는 레벨과 동등한 레벨이다. 즉, 「중레벨」이란, 종래의 물체 인식에 이용되는 특징의 레벨에 비해 낮은 레벨이다.
중레벨 특징은, 예를 들면, 어텐션(Attention)을 이용한 것이다. 이 경우, 제 1 특징량 추출부(41_1)는, 예를 들면, 어텐션 기구를 이용하여 어텐션 맵을 생성하는 것에 의해, 제 1 특징 맵을 생성한다. 도 6은, 촬상 화상의 예를 나타내고 있다. 도 7은, 이러한 촬상 화상에 대응하는 제 1 특징 맵으로서, 어텐션에 근거하는 제 1 특징 맵의 예를 나타내고 있다.
또는, 중레벨 특징은, 예를 들면, 현저성(Saliency)을 이용한 것이다. 이 경우, 제 1 특징량 추출부(41_1)는, 예를 들면, 이하의 참고문헌 1에 기재된 방법과 같은 방법을 이용하여 현저성 맵을 생성하는 것에 의해, 제 1 특징 맵을 생성한다. 즉, 제 1 특징량 추출부(41_1)는, 현저성 추정을 실행하는 것에 의해 제 1 특징 맵을 생성한다.
[참고문헌 1]
국제 공개 제 2018/051459호
또, 중레벨 특징은, 물체다움에 대응하는 것이면 좋고, 어텐션 또는 현저성으로 한정되는 것은 아니다. 또, 제 1 특징량 추출부(41_1)에 의한 제 1 특징 맵의 생성 방법은, 상기의 구체예로 한정되는 것은 아니다. 예를 들면, 제 1 특징량 추출부(41_1)는, 화상 구배 검출, 현저성 추정, 배경 차분법, 물체다움 추정, 어텐션 및 영역 분할 중 적어도 1개를 이용하여 제 1 특징 맵을 생성하는 것이어도 좋다.
이하, 제 1 특징량 추출부(41_1)가 배경 차분법에 의해 속성마다의 전경 마스크를 생성하는 경우의 예를 중심으로 설명한다.
제 2 특징량 추출부(41_2)는, 상기 취득된 화상 신호를 이용하여, 개개의 촬상 화상에 대응하는 1개 이상의 특징 맵(이하 「제 2 특징 맵」이라고 하는 일이 있음)을 생성하는 것이다. 제 2 특징 맵은, 예를 들면, 컨볼루션 뉴럴 네트워크(이하 「CNN」라고 기재하는 일이 있음)를 이용하여 차례로 생성되는 것이다. 개개의 제 2 특징 맵은, 서로 직교하는 2 방향으로 배열된 복수개의 특징량(이하 「제 2 특징량」이라고 하는 일이 있음)에 의해 구성되어 있다.
여기서, 제 2 특징 맵은, 고레벨 특징(High-level Feature)에 대응하는 것이다. 즉, 개개의 제 2 특징량은, 이러한 고레벨 특징을 이용한 것이다. 또, 「고레벨」이란, 종래의 물체 인식에 이용되는 특징의 레벨과 동등한 레벨이다. 즉, 「고레벨」이란, 사람의 시각 모델에 근거하는 레벨에 비해 높은 레벨이다. 도 8은, 도 4에 나타내는 촬상 화상에 대응하는 제 2 특징 맵의 예를 나타내고 있다.
물체 인식부(42)는, 상기 생성된 제 1 특징 맵 및 상기 생성된 제 2 특징 맵을 이용하여, 물체 인식을 실행하는 것이다. 물체 인식부(42)에 의해 실행되는 물체 인식은, 상기와 같이, 물체 검출 및 영역 분할 중 적어도 한쪽을 포함하는 것이다.
물체 검출은, 촬상 화상에 포함되는 개개의 물체에 대하여, 회귀(Regression)에 의해 위치를 추정하고, 또한, 분류(Classify)에 의해 속성을 추정하는 것이다. 물체 검출에 의해, 촬상 화상에 포함되는 개개의 물체에 대하여, 위치 및 크기에 대응하는 좌표(x, y, w, h)에 대응하는 바운딩 박스를 나타내는 정보, 속성에 대응하는 라벨을 나타내는 정보, 및 개개의 바운딩 박스에 대응하는 신뢰도를 나타내는 정보 등이 출력된다.
영역 분할은, 촬상 화상을 개개의 속성에 대응하는 영역으로 분할하는 것이다. 영역 분할에 의해, 촬상 화상이 픽셀 단위에서 복수개의 영역으로 분할된다. 영역 분할에 의해, 개개의 영역의 면적을 나타내는 정보, 및 개개의 영역에 대응하는 속성을 나타내는 정보 등이 출력된다.
구체적으로는, 예를 들면, 물체 인식부(42)는, Mask R-CNN(Region-based CNN)에 의해 물체 검출 및 영역 분할의 양쪽 모두를 실행하는 것이다. 이하, 물체 인식부(42)에 Mask R-CNN를 이용한 경우의 예를 중심으로 설명한다. Mask R-CNN에 대해서는, 이하의 참고문헌 2에 기재되어 있다.
[참고문헌 2]
Kaiming He, Georgia Gkioxari, Ross Girshick, et al. "Mask R-CNN," v3, 24 Jan 2018, https://arxiv.org/pdf/1703.06870v3.pdf
도 9는, 제 1 특징량 추출부(41_1)가 배경 차분법에 의해 속성마다의 전경 마스크를 생성하는 것이며, 또한, 물체 인식부(42)가 Mask R-CNN에 의해 물체 검출 및 영역 분할의 양쪽 모두를 실행하는 것인 경우에 있어서의, 특징량 추출부(41) 및 물체 인식부(42)에 대응하는 뉴럴 네트워크의 구조의 예를 나타내고 있다. 이하, 이러한 뉴럴 네트워크를 「Mask R-CNN+GSoC」라고 기재하는 일이 있다.
도면 중, 「GSoC 배경 차분법(Background Subtraction)」은, 제 1 특징량 추출부(41_1)에 대응하고 있다. 또, 「Mask R-CNN」 중 「Faster R-CNN」에 있어서의 CNN은, 제 2 특징량 추출부(41_2)에 대응하고 있다. 또, 「Mask R-CNN」에 있어서의 CNN보다 후단에 설치된 블록군은, 물체 인식부(42)에 대응하고 있다.
「Mask R-CNN」 중 「Faster R-CNN」에 있어서의 CNN은, 예를 들면, ResNet(Residual Network)-101에 FPN(Feature Pyramid Networks)를 조합하여 이루어지는 네트워크를 이용한 것이다. 또, 도 9에 나타내는 바와 같이, 「Mask R-CNN」 중 「Mask」는, 복수개의 컨볼루션 블록(도면 중 「conv.」)을 갖고 있다.
도 9에 나타내는 뉴럴 네트워크는, 기존의 대규모 데이터베이스를 이용하여 사전에 학습이 완료되었다. 구체적으로는, 예를 들면, 도 9에 나타내는 뉴럴 네트워크는, Microsoft COCO(Common Objects in Context)를 이용하여 사전에 학습이 완료되었다. 환언하면, 화상 인식부(22)는, 이러한 대규모 데이터 베이스를 이용하여 사전에 학습이 완료되었다.
또, 화상 인식부(22)의 학습에 이용된 데이터베이스는, Microsoft COCO로 한정되는 것은 아니다. 화상 인식부(22)는, 예를 들면, 「OpenAI」에 의한 공개 데이터베이스를 이용하여 사전에 학습된 것이어도 좋다. 이하, 화상 인식부(22)가 Microsoft COCO를 이용하여 사전에 학습된 것인 경우의 예를 중심으로 설명한다.
이러한 대규모 데이터베이스를 이용한 사전의 학습에 의해, 촬상 화상에 포함되는 물체 중 학습 완료 형상을 갖는 물체에 대하여, 고정밀도로 인식할 수 있다. 또, 촬상 화상에 포함되는 물체 중 미학습의 형상을 갖는 물체에 대해서도, 어느 정도의 정밀도에 의한 물체 인식을 실현할 수 있다.
여기서, 물체 인식부(42)에 의한 물체 인식에 있어서는, 이하와 같이, 제 1 특징 맵 및 제 2 특징 맵을 복합하여 이루어지는 특징 맵(이하 「제 3 특징 맵」이라고 하는 일이 있음)이 이용되게 되어 있다. 또, 물체 인식부(42)에 의한 물체 인식에 있어서는, 종래의 물체 인식(즉 제 3 특징 맵을 대신하여 제 2 특징 맵을 이용하는 물체 인식)에 비해, 그 임계값이 낮은 값으로 설정되어 있다. 이하, 제 3 특징 맵의 구체예에 대해 설명한다.
〈제 3 특징 맵의 제 1 구체예〉
제 1 특징 맵이 전경 마스크를 이용한 것일 때, 물체 인식부(42)는, 제 1 특징 맵에 있어서의 개개의 제 1 특징량을 이용하여, 개개의 제 2 특징 맵에 있어서의 대응하는 제 2 특징량에 대한 가중치 부여를 한다. 이 때, 물체 인식부(42)는, 이하와 같이 하여, 이러한 가중치 부여에 있어서의 가중치를 나타내는 값(이하 「중요도」라고 함) W를 설정한다.
즉, 물체 인식부(42)는, 제 1 특징 맵에 있어서의 개개의 제 1 특징량과 개개의 제 2 특징 맵에 있어서의 대응하는 제 2 특징량의 유사도 S를 산출한다. 유사도 S는, 예를 들면, EMD(Earth Mover's Distance), 코사인 유사도(Cosine Similarity), KLD(Kullback-Leibler Divergence), L2 놈(norm), L1 놈 및 맨하탄 거리(Manhattan Distance) 중 적어도 1개에 근거하는 값이다.
그 다음에, 물체 인식부(42)는, 당해 산출된 유사도 S를 이용하여, 개개의 제 2 특징량에 대응하는 중요도 W를 설정한다. 이 때, 물체 인식부(42)는, 개개의 제 2 특징량에 대하여, 대응하는 유사도 S가 클수록(즉 대응하는 거리가 작을수록) 중요도 W를 큰 값으로 설정한다. 환언하면, 물체 인식부(42)는, 개개의 제 2 특징량에 대하여, 대응하는 유사도 S가 작을수록(즉 대응하는 거리가 클수록) 중요도 W를 작은 값으로 설정한다.
이러한 가중치 부여가 이루어지는 것에 의해, 촬상 화상에 있어서의 전경 물체에 대응하는 영역과 관련되는 제 2 특징량은, 촬상 화상에 있어서의 배경에 대응하는 영역과 관련되는 제 2 특징량에 비해 상대적으로 강하게 할 수 있다. 환언하면, 촬상 화상에 있어서의 배경에 대응하는 영역과 관련되는 제 2 특징량은, 촬상 화상에 있어서의 전경 물체에 대응하는 영역과 관련되는 제 2 특징량에 비해 상대적으로 약하게 할 수 있다. 이와 같이 하여, 복수개의 제 1 특징 맵에 대응하는 복수개의 제 3 특징 맵이 생성된다.
도 10은, 이와 같이 하여 생성된 제 3 특징 맵의 예를 나타내고 있다. 도 10에 나타내는 제 3 특징 맵은, 도 4에 나타내는 촬상 화상에 대응하는 것이다. 즉, 도 10에 나타내는 제 3 특징 맵은, 도 5에 나타내는 제 1 특징 맵을 이용하여 도 8에 나타내는 제 2 특징 맵에 대한 가중치 부여를 하는 것에 의해 생성된 것이다.
이러한 가중치 부여는, 예를 들면, 「Mask R-CNN+GSoC」 중 「Mask」에 있어서의 제 1 컨볼루션 블록에서 실행된다. 도 11은, 이 경우에 있어서의 제 1 컨볼루션 블록에 있어서의 뉴럴 네트워크의 구조의 예를 나타내고 있다. 도 11에 나타내는 바와 같이, 이러한 뉴럴 네트워크는, 가중치 계산층(도면 중 「Weight Calc.」)을 갖고 있다. 이 가중치 계산층에 의해, 상기와 같은 중요도 W가 설정된다.
〈제 3 특징 맵의 제 2 구체예〉
제 1 특징 맵이 전경 마스크를 이용한 것일 때, 물체 인식부(42)는, 제 1 특징 맵에 있어서의 개개의 제 1 특징량과 개개의 제 2 특징 맵에 있어서의 대응하는 제 2 특징량에 대해서, 요소마다(Element-wise)의 곱셈을 실행하는 것에 의해 내적(Inner Product)를 연산한다.
이러한 연산이 이루어지는 것에 의해, 촬상 화상에 있어서의 전경 물체에 대응하는 영역과 관련되는 제 2 특징량은, 촬상 화상에 있어서의 배경에 대응하는 영역과 관련되는 제 2 특징량에 비해 상대적으로 강하게 할 수 있다. 환언하면, 촬상 화상에 있어서의 배경에 대응하는 영역과 관련되는 제 2 특징량은, 촬상 화상에 있어서의 전경 물체에 대응하는 영역과 관련되는 제 2 특징량에 비해 상대적으로 약하게 할 수 있다. 이와 같이 하여, 복수개의 제 1 특징 맵에 대응하는 복수개의 제 3 특징 맵이 생성된다.
이러한 연산은, 예를 들면, 「Mask R-CNN+GSoC」 중 「Mask」에 있어서의 제 1 컨볼루션 블록에서 실행된다.
〈제 3 특징 맵의 제 3 구체예〉
제 1 특징 맵이 어텐션을 이용한 것일 때, 물체 인식부(42)는, 제 1 특징 맵에 있어서의 개개의 제 1 특징량을 이용하여, 개개의 제 2 특징 맵에 있어서의 대응하는 제 2 특징량에 대한 가중치 부여를 한다. 이 때, 물체 인식부(42)는, 이하와 같이 하여 중요도 W를 설정한다.
즉, 물체 인식부(42)는, GAP(Global Average Pooling)를 이용하여, 개개의 제 2 특징 맵에 있어서의 대표치를 선택한다. 물체 인식부(42)는, 당해 선택된 대표치에 근거하여 중요도 W를 설정한다. 즉, 물체 인식부(42)는, 당해 선택된 대표치에 따른 값에 중요도 W를 설정한다.
이러한 가중치 부여가 이루어지는 것에 의해, 복수개의 제 2 특징 맵에 대응하는 복수개의 제 3 특징 맵이 생성된다. 또는, 1개의 제 2 특징 맵에 대응하는 1개의 제 3 특징 맵이 생성된다.
이러한 가중치 부여는, 예를 들면, 「Mask R-CNN+GSoC」 중 「Mask」에 있어서의 제 1 컨볼루션 블록에서 실행된다. 이 경우에 있어서의 제 1 컨볼루션 블록에 있어서의 뉴럴 네트워크는, 도 11에 나타내는 구조에 대해서, 가중치 계산층을 대신하여 GAP층을 갖는 것으로 된다. 이것에 의해, 상기와 같은 중요도 W가 설정된다.
제 1 구체예, 제 2 구체예 또는 제 3 구체예에 의해 생성된 제 3 특징 맵을 물체 인식에 이용하는 것에 의해, 제 2 특징 맵을 물체 인식에 이용하는 경우에 비해, 배경의 일부가 물체라고 인식되는 오인식의 발생을 회피할 수 있다. 그리고, 상기와 같이 낮은 임계값을 이용하면서 오인식의 발생을 억제할 수 있기 때문에, 물체를 고정밀도로 인식할 수 있다. 특히, 미학습의 형상을 갖는 물체에 대한 인식 정밀도를 향상할 수 있다.
또, 「Mask R-CNN+GSoC」 중 「Mask」에 있어서의 제 1 컨볼루션 블록은, 통상, 컨볼루션(convolution)을 실행하는 공정(이하 「제 1 공정」이라고 하는 일이 있음), 디컨볼루션(deconvolution)을 실행하는 공정(이하 「제 2 공정」이라고 하는 일이 있음) 및 포인트별 컨볼루션(point-wise convolution)을 실행하는 공정(이하 「제 3 공정」이라고 하는 일이 있음)을 포함하는 것이다. 제 1 구체예에 따른 가중치 부여는, 제 1 공정에서 실행되는 것이어도 좋고, 또는 제 3 공정에서 실행되는 것이어도 좋다. 제 2 구체예에 따른 연산은, 제 1 공정에서 실행되는 것이어도 좋고, 또는 제 3 공정에서 실행되는 것이어도 좋다. 제 3 구체예에 따른 가중치 부여는, 제 1 공정에서 실행되는 것이어도 좋고, 또는 제 3 공정에서 실행되는 것이어도 좋다.
즉, 제 1 구체예에 따른 가중치 부여, 제 2 구체예에 따른 연산 또는 제 3 구체예에 따른 가중치 부여는, 뉴럴 네트워크의 층수 등에 따라, 제 1 공정에서 실행하는 것이 바람직한 경우도 있고, 또는 제 3 공정에서 실행하는 것이 바람직한 경우도 있다. 이들 공정 중 더 바람직한 공정이 선택되는 것이면 좋다.
이하, 제 3 특징 맵을 이용하여 물체 검출 및 물체 인식을 실행하는 물체 인식을 「실시의 형태 1에 따른 물체 인식」이라고 하는 일이 있다. 즉, 실시의 형태 1에 따른 물체 인식은, 「Mask R-CNN+GSoC」를 이용하는 것이다. 이것에 대해서, 제 2 특징 맵을 이용하여 물체 검출 및 영역 분할을 실행하는 물체 인식을 「비교용의 물체 인식」이라고 하는 일이 있다. 즉, 비교용의 물체 인식은, 「Mask R-CNN」를 이용하는 것이다.
도 12는, 비교용의 물체 인식에 의한 인식 결과의 예를 나타내고 있다. 이것에 대해서, 도 13은, 실시의 형태 1에 따른 물체 인식에 의한 인식 결과의 예를 나타내고 있다. 보다 구체적으로는, 도 13은, 속성 「사람」과 관련되는 인식 결과의 예를 나타내고 있다. 이러한 인식 결과는, 도 4에 나타내는 촬상 화상에 대응하는 것이다.
여기서, 도 14를 참조하여, 「Mask R-CNN+GSoC」를 이용한 것에 의한 효과에 대해 설명한다. 즉, 「Mask R-CNN」를 이용한 경우에 비해 물체 인식의 정밀도가 향상하는 효과에 대해 설명한다.
도 14에 나타내는 표의 좌반부는, 비교용의 물체 인식에 의한 인식 정밀도와 관련되는 실험 결과를 나타내고 있다. 이것에 비해서, 도 14에 나타내는 표의 우반부는, 실시의 형태 1에 따른 물체 인식에 의한 인식 정밀도와 관련되는 실험 결과를 나타내고 있다. 이러한 실험은, MOT16 벤치마크에 있어서의 5317 프레임분의 평가용 데이터를 이용한 것이다.
표 중의 각 란에 있어서의 수치는 mAP(mean Average Precision)를 나타내고 있고, 그 단위는 %이다. 또, 표 중의 「visibility>0.X」는, 그 물체의 전체 중 X할을 초과하는 부위가 화상에 비치고 있는 물체만을 인식의 대상으로 한 것을 나타내고 있다. 환언하면, 그 물체의 전체 중 X할 이하의 부위밖에 화상에 비치지 않은 물체는 인식의 대상으로부터 제외한 것을 나타내고 있다.
도 14에 나타내는 바와 같이, 「Mask R-CNN+GSoC」를 이용하는 것에 의해, 「Mask R-CNN」를 이용한 경우에 비해, mAP의 값이 크게 상승하고 있다. 즉, 물체 인식의 정밀도가 크게 향상하고 있다.
물체 추적부(43)는, 물체 인식부(42)에 의한 물체 인식의 결과를 시계열적으로 이용하는 것에 의해, 촬상 화상에 포함되는 개개의 물체에 대한 트랙킹을 실행하는 것이다. 이것에 의해, 개개의 물체에 대하여, 카메라(2)에 의해 촬상되는 동영상에 있어서의 외관의 형상 변화에 의한 인식 정밀도의 저하를 억제할 수 있다.
즉, 예를 들면, 어느 물체가 이동하는 것에 의해, 카메라(2)에 의해 촬상되는 동영상에 있어서, 당해 물체의 외관 형상이 시간적으로 변화하는 일이 있다. 이 때, 어느 타이밍에 있어서의 촬상 화상에 있어서는 당해 물체의 외관 형상이 학습 완료 형상이 되고, 다른 타이밍에 있어서의 촬상 화상에 있어서는 당해 물체의 형상이 미학습의 형상이 되는 일이 있다. 그리고, 후자의 타이밍에 있어서의 물체 인식에 의해 당해 물체가 인식되지 않는 것에 의해, 당해 물체의 인식이 시간적으로 불안정하게 되는 일이 있다.
이것에 대해서, 당해 물체에 대한 트랙킹을 실행하는 것에 의해, 후자의 타이밍에 있어서도 당해 물체를 인식할 수 있다. 이것에 의해, 당해 물체의 인식을 시간적으로 안정시킬 수 있다. 이 결과, 당해 물체의 인식 정밀도를 더욱 향상할 수 있다.
물체 추적부(43)에 의한 트랙킹은, 예를 들면, 이하와 같은 것이다. 즉, 물체 추적부(43)는, 제 N 프레임(N은 임의의 정수임)에 대응하는 촬상 화상에 대한 물체 검출의 결과에 근거하여, 개개의 물체에 대응하는 속성, 개개의 물체에 대응하는 좌표, 및 개개의 소영역에 있어서의 배경에 대한 전경의 모집단 비율에 대하여, KLD 등의 거리에 근거하는 손실(Tracking-loss)에 의한 회귀를 실행한다. 이것에 의해, 물체 추적부(43)는, 제 N+1 프레임에 대응하는 촬상 화상에 있어서의 각 물체의 위치 및 크기를 예측한다.
그 다음에, 물체 추적부(43)는, 이러한 예측의 결과와 제 N+1 프레임에 대응하는 촬상 화상에 대한 물체 검출의 결과를 비교하는 것에 의해, 제 N 프레임에 대응하는 촬상 화상에 대한 물체 검출에 의해 검출되고 있고, 또한, 제 N+1 프레임에 대응하는 촬상 화상에 대한 물체 검출에 의해 검출되고 있지 않은 물체를 검출한다. 이것에 의해, 제 N+1 프레임에 대응하는 촬상 화상에 포함되어 있음에도 불구하고 물체 검출에 의해 검출되지 않았던 물체에 대하여, 계속적으로 검출할 수 있다.
이 외, 물체 추적부(43)에 의한 트랙킹에는, 공지의 여러 가지의 기술을 이용할 수 있다. 이러한 기술에 대한 상세한 설명은 생략한다.
학습용 데이터 세트 생성부(23)는, 물체 인식부(42)에 의한 물체 인식의 결과 및 물체 추적부(43)에 의한 트랙킹의 결과에 근거하여, 촬상 화상에 포함되는 개개의 물체에 대응하는 학습용 데이터 세트를 생성하는 것이다.
여기서, 학습용 데이터 세트는, 개개의 물체에 대응하는 바운딩 박스 내의 화상을 나타내는 데이터(이하 「화상 데이터」라고 함), 개개의 물체의 속성에 대응하는 라벨을 나타내는 데이터(이하 「라벨 데이터」라고 함), 및 개개의 물체에 대응하는 영역에 대응하는 마스크를 나타내는 데이터(이하 「마스크 데이터」라고 함) 등을 포함하는 것이다. 이러한 학습용 데이터 세트를 생성한다고 하는 것은, 촬상 화상에 포함되는 개개의 물체에 대한 라벨링을 하는 것이라고 할 수 있다.
이것에 부가하여, 학습용 데이터 세트는, 후술하는 우선도 부여부(53)에 의한 우선도 P의 부여에 이용되는 데이터(이하 「우선도 부여용 데이터」라고 함)를 포함하는 것이다. 우선도 부여용 데이터는, 예를 들면, 개개의 물체와 관련되는 물체 인식의 신뢰도를 나타내는 데이터(이하 「신뢰도 데이터」라고 함)를 포함하는 것이다.
또, 우선도 부여용 데이터는, 신뢰도 데이터로 한정되는 것은 아니다. 우선도 부여용 데이터는, 예를 들면, 신뢰도 데이터를 대신하여 또는 그에 부가하여, 개개의 물체와 관련되는 크기를 나타내는 데이터, 개개의 물체와 관련되는 고차원 화상 특징을 나타내는 데이터, 개개의 물체와 관련되는 저차원 화상 특징을 나타내는 데이터, 개개의 물체와 관련되는 물체다움을 나타내는 데이터, 개개의 물체와 관련되는 현저성 추정의 결과를 나타내는 데이터 및 개개의 물체와 관련되는 어텐션을 나타내는 데이터 중 적어도 1개를 포함하는 것이어도 좋다.
이하, 학습용 데이터 세트가 화상 데이터, 라벨 데이터, 마스크 데이터 및 신뢰도 데이터를 포함하는 경우의 예를 중심으로 설명한다.
여기서, 상기와 같이, 물체 인식부(42)는, 제 3 특징 맵을 물체 인식에 이용하는 것이다. 이것에 의해, 배경의 일부가 물체라고 인식되는 오인식의 발생을 회피할 수 있다. 이 결과, 학습용 데이터 세트 생성부(23)에 있어서, 초점 손실(Focal Loss)에 있어서의 쉬운 예(Easy Example)에 상당하는 학습용 데이터 세트가 생성되는 것을 회피할 수 있다. 즉, 배경에 대응하는 화상 데이터를 포함하는 학습용 데이터 세트가 생성되는 것을 회피할 수 있다. 이 때문에, 후술하는 학습부(32)에 의한 화상 인식부(22)의 재학습 또는 추가 학습에 있어서, 이러한 학습의 수렴을 앞당길 수 있다.
학습용 데이터 세트 기억부(11)는, 학습용 데이터 세트 생성부(23)에 의해 생성된 학습용 데이터 세트를 기억하는 것이다. 학습용 데이터베이스 갱신부(31)는, 학습용 데이터 세트 기억부(11)에 기억되어 있는 학습용 데이터 세트를 이용하여, 학습용 데이터베이스 기억부(12)에 기억되어 있는 학습용 데이터베이스를 갱신하는 것이다.
즉, 도 3에 나타내는 바와 같이, 학습용 데이터베이스 갱신부(31)는, 학습용 데이터 세트 취득부(51), 학습용 데이터 세트 취득부(52), 우선도 부여부(53) 및 학습용 데이터 세트 추가부(54)를 갖고 있다.
학습용 데이터 세트 취득부(51)는, 학습용 데이터 세트 기억부(11)에 기억되어 있는 학습용 데이터 세트(이하 「제 1 학습용 데이터 세트」라고 하는 일이 있음)를 취득하는 것이다. 학습용 데이터 세트 취득부(52)는, 학습용 데이터베이스 기억부(12)에 기억되어 있는 학습용 데이터베이스에 포함되는 복수개의 학습용 데이터 세트(이하 「제 2 학습용 데이터 세트」라고 하는 일이 있음)를 취득하는 것이다.
우선도 부여부(53)는, 상기 취득된 제 1 학습용 데이터 세트에 대해서, 후술하는 학습부(32)에 의한 재학습 또는 추가 학습에 있어서의 우선도 P를 부여하는 것이다. 이 때, 우선도 부여부(53)는, 상기 취득된 복수개의 제 2 학습용 데이터 세트에 있어서의 분포 D의 편차에 근거하여, 높은 학습 가치를 갖는 데이터 세트의 학습 우선도가 높아지도록(즉 낮은 학습 가치를 갖는 데이터 세트의 학습 우선도가 낮아지도록) 우선도 P를 부여하게 되어 있다.
여기서, 분포 D는, 우선도 부여용 데이터에 근거하는 분포이다. 구체적으로는, 예를 들면, 분포 D는, 신뢰도 데이터에 근거하는 신뢰도 맵에 있어서의 분포이다. 도 15는, 신뢰도 맵의 예를 나타내고 있다. 이 경우, 우선도 부여부(53)는, 예를 들면, 이하와 같이 하여 우선도 P를 설정한다.
즉, 우선도 부여부(53)는, 신뢰도 맵에 있어서의 편차에 근거하여, 상기 취득된 복수개의 제 2 학습용 데이터 세트를, 높은 신뢰도를 갖는 데이터 세트가 충분히 축적되어 있는 데이터 세트군(이하 「제 1 데이터 세트군」이라고 함), 높은 신뢰도를 갖는 데이터 세트가 어느 정도 축적되어 있는 데이터 세트군(이하 「제 2 데이터 세트군」이라고 함), 및 높은 신뢰도를 갖는 데이터 세트가 부족한 데이터 세트군(이하 「제 3 데이터 세트군」이라고 함)으로 분류한다. 이러한 분류는, 예를 들면, 라벨 데이터가 나타내는 라벨(즉 대응하는 물체의 속성) 또는 마스크 데이터가 나타내는 마스크의 형상(즉 대응하는 물체의 외관의 형상)에 근거하는 것이다.
그 다음에, 우선도 부여부(53)는, 상기 취득된 제 1 학습용 데이터 세트가 제 1 데이터 세트군, 제 2 데이터 세트군 및 제 3 데이터 세트군 중 어느 것으로 분류되어야 할 것인지를 판정한다. 이러한 판정은, 예를 들면, 라벨 데이터가 나타내는 라벨(즉 대응하는 물체의 속성) 또는 마스크 데이터가 나타내는 마스크의 형상(즉 대응하는 물체의 외관의 형상)에 근거하는 것이다.
상기 취득된 제 1 학습용 데이터 세트가 제 1 데이터 세트군으로 분류되어야 할 것인 경우, 이러한 제 1 학습용 데이터 세트는, 낮은 학습 가치를 갖고 있다고 생각된다. 그래서, 우선도 부여부(53)는, 이러한 제 1 학습용 데이터의 우선도 P를 낮은 값으로 설정한다. 또, 상기 취득된 제 1 학습용 데이터 세트가 제 2 데이터 세트군으로 분류되어야 할 것인 경우, 이러한 제 1 학습용 데이터 세트는, 중간 정도의 학습 가치를 갖고 있다고 생각된다. 그래서, 우선도 부여부(53)는, 이러한 제 1 학습용 데이터의 우선도 P를 중간 정도의 값으로 설정한다. 또, 상기 취득된 제 1 학습용 데이터 세트가 제 3 데이터 세트군으로 분류되어야 할 것인 경우, 이러한 제 1 학습용 데이터 세트는, 높은 학습 가치를 갖고 있다고 생각된다. 그래서, 우선도 부여부(53)는, 이러한 제 1 학습용 데이터의 우선도 P를 높은 값으로 설정한다.
또, 분포 D는 우선도 부여용 데이터에 근거하는 분포이면 좋고, 신뢰도 데이터에 근거하는 분포로 한정되는 것은 아니다. 예를 들면, 분포 D는, 신뢰도, 크기, 고차원 화상 특징, 저차원 화상 특징, 물체다움, 현저성 추정 및 어텐션 중 적어도 1개에 근거하는 분포여도 좋다.
또, 우선도 부여부(53)에 의한 우선도 P의 부여 방법은, 상기의 구체예로 한정되는 것은 아니다. 우선도 부여부(53)는, 높은 학습 가치를 갖는 데이터 세트의 학습 우선도가 높아지도록(즉 낮은 학습 가치를 갖는 데이터 세트의 학습 우선도가 낮아지도록) 우선도 P를 부여하는 것이면 좋다.
학습용 데이터 세트 추가부(54)는, 상기 취득된 제 1 학습용 데이터 세트에 상기 부여된 우선도 P를 나타내는 데이터(이하 「우선도 데이터」라고 함)를 추가 기재하여 이루어지는 데이터 세트(이하 「제 3 학습용 데이터 세트」라고 하는 일이 있음)를 생성하는 것이다. 학습용 데이터 세트 추가부(54)는, 당해 생성된 제 3 학습용 데이터 세트를 학습용 데이터베이스 기억부(12)에 기억되어 있는 학습용 데이터베이스에 추가하는 것에 의해, 이러한 학습용 데이터베이스를 갱신하는 것이다.
또, 학습용 데이터 세트 추가부(54)는, 소정치 미만의 우선도 P에 대응하는 제 3 학습용 데이터 세트에 대해서는, 학습용 데이터베이스에 대한 추가 대상으로부터 제외하는 것이어도 좋다. 이것에 의해, 낮은 학습 가치를 갖는 데이터 세트가 학습용 데이터베이스에 추가되는 것을 회피할 수 있다.
또, 학습용 데이터 세트 추가부(54)는, 제 1 학습용 데이터 세트에 우선도 P를 부여하는 것과 마찬가지로 하여, 개개의 제 2 학습용 데이터에 우선도 P를 다시 부여하는 것이어도 좋다. 이것에 의해, 학습용 데이터 세트 추가부(54)는, 학습용 데이터베이스에 있어서의 우선도 P를 전체적으로 조정하는 것이어도 좋다.
또, 카메라(2)를 포함하는 시스템(예를 들면 감시 시스템, 방범 시스템 또는 전자 미러)이 가동을 개시한 직후의 타이밍 등에 있어서는, 학습용 데이터베이스에 학습용 데이터가 1개도 포함되지 않을 가능성이 있다. 이러한 경우, 학습용 데이터베이스 갱신부(31)는, 상기와 같이 하여 생성된 제 3 학습용 데이터 세트를 학습용 데이터베이스 기억부(12)에 새롭게 기억시키는 것으로, 학습용 데이터베이스를 신규 작성하는 것이어도 좋다. 그 후, 학습용 데이터베이스 갱신부(31)는, 새롭게 생성된 제 3 학습용 데이터 세트를 학습용 데이터베이스에 수시로 추가하는 것에 의해, 학습용 데이터베이스를 갱신하는 것이어도 좋다. 즉, 학습용 데이터베이스 갱신부(31)는, 학습용 데이터베이스를 생성 및 갱신하는 것이어도 좋다.
학습부(32)는, 학습용 데이터베이스 기억부(12)에 기억되어 있는 학습용 데이터베이스를 이용하여(즉 학습용 데이터베이스 갱신부(31)에 의해 갱신된 학습용 데이터베이스를 이용하여), 화상 인식부(22)의 재학습 또는 추가 학습을 실행하는 것이다. 이하, 재학습 또는 추가 학습을 총칭하여 「재학습 등」이라고 하는 일이 있다.
즉, 상기와 같이, 화상 인식부(22)는, 기존의 대규모 데이터 베이스를 이용하여 사전에 학습이 완료되었다. 이것에 부가하여, 화상 인식부(22)는, 상기 갱신된 학습용 데이터베이스를 이용하여 학습이 자유로운 것이다. 그래서, 학습부(32)는, 화상 인식부(22)에 대하여, 상기 갱신된 학습용 데이터베이스를 이용하여 재학습 등을 하는 것이다.
제 1 특징량 추출부(41_1)의 재학습 등은, 예를 들면, 지도 학습(supervised learning) 또는 비 지도 학습에 의하는 것이다. 따라서, 제 1 특징량 추출부(41_1)의 재학습 등에는, 지도 학습 또는 비 지도 학습과 관련되는 공지의 여러 가지의 기술을 이용할 수 있다. 이러한 기술에 대한 상세한 설명은 생략한다.
제 2 특징량 추출부(41_2)의 재학습 등은, 예를 들면, 지도 학습에 의하는 것이다. 따라서, 제 2 특징량 추출부(41_2)의 재학습 등에는, 지도 학습과 관련되는 공지의 여러 가지의 기술을 이용할 수 있다. 또, 상기와 같이, 제 2 특징량 추출부(41_2)는, CNN를 이용하는 것이다. 이 때문에, 제 2 특징량 추출부(41_2)의 재학습 등은, 심층 학습에 의하는 것이어도 좋다. 따라서, 제 2 특징량 추출부(41_2)의 재학습 등에는, 심층 학습과 관련되는 공지의 여러 가지의 기술을 이용할 수 있다. 이러한 기술에 대한 상세한 설명은 생략한다.
물체 인식부(42)의 재학습 등은, 예를 들면, 지도 학습에 의하는 것이다. 따라서, 물체 인식부(42)의 재학습 등에는, 지도 학습과 관련되는 공지의 여러 가지의 기술을 이용할 수 있다. 이러한 기술에 대한 상세한 설명은 생략한다.
여기서, 상기와 같이, 학습용 데이터베이스에 포함되는 개개의 학습용 데이터 세트에는, 우선도 P가 부여되고 있다. 그래서, 학습부(32)는, 부여된 우선도 P에 따라, 학습용 데이터 세트마다 또는 라벨마다, 재학습 등에 있어서의 학습율(Learning Rate) η를 다르게 하는 것이라도 좋다. 예를 들면, 학습부(32)는, 부여된 우선도 P가 높을수록 학습율 η을 높게 하는(즉 부여된 우선도 P가 낮을수록 학습율 η을 낮게 함) 것이어도 좋다.
또는, 학습부(32)는, 부여된 우선도 P에 따라, 학습용 데이터베이스에 포함되는 복수개의 학습용 데이터 세트 중 일부의 학습용 데이터 세트에 대해 데이터 확장(Data Augmentation)을 실행하는 것이어도 좋다. 예를 들면, 학습부(32)는, 부여된 우선도 P가 높은 학습용 데이터 세트에 대해 데이터 확장을 실행한다. 데이터 확장에는, 공지의 여러 가지의 기술을 이용할 수 있다. 이러한 기술에 대한 상세한 설명은 생략한다.
이러한 학습율 η의 설정 또는 데이터 확장에 의해, 학습용 데이터베이스 기억부(12)에 기억되어 있는 학습용 데이터베이스(즉 기존의 대규모 데이터베이스에 비해 소규모의 데이터베이스)를 이용하여, 효율이 좋은 재학습 등을 실현할 수 있다.
또, 상기 갱신된 학습용 데이터베이스는, 상기 기존의 대규모 데이터베이스에 비해 소규모의 데이터베이스이다. 또, 상기 갱신된 학습용 데이터베이스는, 상기 기존의 대규모 데이터베이스에 포함되는 화상과 다른 화상(즉 카메라(2)에 의한 촬상 화상)에 근거하는 것이다. 또, 상기 갱신된 학습용 데이터베이스는, 상기 기존의 대규모 데이터베이스에 포함되는 라벨과 다른 라벨을 포함할 수 있는 것이다.
따라서, 학습부(32)에 의한 화상 인식부(22)의 재학습 등은, 전이 학습(Transfer Learning)에 의하는 것이어도 좋다. 환언하면, 학습부(32)에 의한 화상 인식부(22)의 재학습 등에는, 전이 학습과 관련되는 공지의 여러 가지의 기술을 이용할 수 있다. 이러한 기술에 대한 상세한 설명은 생략한다.
또, 학습부(32)에 의한 화상 인식부(22)의 재학습 등은, 파인 튜닝(Fine Tuning)에 의하는 것이어도 좋다. 환언하면, 학습부(32)에 의한 화상 인식부(22)의 재학습 등에는, 파인 튜닝과 관련되는 공지의 여러 가지의 기술을 이용할 수 있다. 이러한 기술에 대한 상세한 설명은 생략한다.
또, 학습부(32)에 의한 화상 인식부(22)의 재학습 등은, 퓨샷 러닝(Few-shot Learning)에 의하는 것이어도 좋다. 환언하면, 학습부(32)에 의한 화상 인식부(22)의 재학습 등에는, 퓨샷 러닝과 관련되는 공지의 여러 가지의 기술을 이용할 수 있다. 이러한 기술에 대한 상세한 설명은 생략한다.
또, 학습부(32)에 의한 화상 인식부(22)의 재학습 등은, 메타 학습(Meta-learning)에 의하는 것이어도 좋다. 환언하면, 학습부(32)에 의한 화상 인식부(22)의 재학습 등에는, 메타 학습과 관련되는 공지의 여러 가지의 기술을 이용할 수 있다. 이러한 기술에 대한 상세한 설명은 생략한다.
또, 학습부(32)에 의한 화상 인식부(22)의 재학습 등은, 증류(Distillation)에 의하는 것이어도 좋다. 환언하면, 학습부(32)에 의한 화상 인식부(22)의 재학습 등에는, 증류와 관련되는 공지의 여러 가지의 기술을 이용할 수 있다. 이러한 기술에 대한 상세한 설명은 생략한다.
카메라(2)를 포함하는 시스템(예를 들면 감시 시스템, 방범 시스템 또는 전자 미러)이 가동하고 있을 때, 학습부(32)에 의한 재학습 등이 반복하여 실행되는 것으로, 화상 인식부(22)에 의한 화상 인식은, 카메라(2)가 설치된 장소의 환경에 점차 적합하게 된다. 이것에 의해, 학습용 데이터 세트 생성부(23)에 의한 라벨링의 정밀도가 점차 향상되어 간다.
이하, 화상 신호 취득부(21)가 갖는 기능을 총칭하여 「화상 신호 취득 기능」이라고 하는 일이 있다. 또, 이러한 화상 신호 취득 기능에 「F1」의 부호를 이용하는 일이 있다. 또, 화상 신호 취득부(21)에 의해 실행되는 처리를 총칭하여 「화상 신호 취득 처리」라고 하는 일이 있다.
이하, 화상 인식부(22)가 갖는 기능을 총칭하여 「화상 인식 기능」이라고 하는 일이 있다. 또, 이러한 화상 인식 기능에 「F2」의 부호를 이용하는 일이 있다. 또, 화상 인식부(22)에 의해 실행되는 처리를 총칭하여 「화상 인식 처리」라고 하는 일이 있다.
이하, 학습용 데이터 세트 생성부(23)가 갖는 기능을 총칭하여 「학습용 데이터 세트 생성 기능」이라고 하는 일이 있다. 또, 이러한 학습용 데이터 세트 생성 기능에 「F3」의 부호를 이용하는 일이 있다. 또, 학습용 데이터 세트 생성부(23)에 의해 실행되는 처리를 총칭하여 「학습용 데이터 세트 생성 처리」라고 하는 일이 있다.
이하, 학습용 데이터베이스 갱신부(31)가 갖는 기능을 총칭하여 「학습용 데이터베이스 갱신 기능」이라고 하는 일이 있다. 또, 이러한 학습용 데이터베이스 갱신 기능에 「F11」의 부호를 이용하는 일이 있다. 또, 학습용 데이터베이스 갱신부(31)에 의해 실행되는 처리를 총칭하여 「학습용 데이터베이스 갱신 처리」라고 하는 일이 있다.
이하, 학습부(32)가 갖는 기능을 총칭하여 「학습 기능」이라고 하는 일이 있다. 또, 이러한 학습 기능에 「F12」의 부호를 이용하는 일이 있다. 또, 학습부(32)에 의해 실행되는 처리를 총칭하여 「학습 처리」라고 하는 일이 있다.
다음에, 도 16~도 18을 참조하여, 라벨링 장치(100)의 주요부의 하드웨어 구성에 대해 설명한다.
도 16에 나타내는 바와 같이, 라벨링 장치(100)는, 프로세서(61) 및 메모리(62)를 갖고 있다. 메모리(62)에는, 복수개의 기능 F1~F3에 대응하는 프로그램이 기억되어 있다. 프로세서(61)는, 메모리(62)에 기억되어 있는 프로그램을 판독하여 실행한다. 이것에 의해, 복수개의 기능 F1~F3이 실현된다.
또는, 도 17에 나타내는 바와 같이, 라벨링 장치(100)는, 처리 회로(63)를 갖고 있다. 처리 회로(63)는, 복수개의 기능 F1~F3에 대응하는 처리를 실행한다. 이것에 의해, 복수개의 기능 F1~F3이 실현된다.
또는, 도 18에 나타내는 바와 같이, 라벨링 장치(100)는, 프로세서(61), 메모리(62) 및 처리 회로(63)를 갖고 있다. 메모리(62)에는, 복수개의 기능 F1~F3 중 일부의 기능에 대응하는 프로그램이 기억되어 있다. 프로세서(61)는, 메모리(62)에 기억되어 있는 프로그램을 판독하여 실행한다. 이것에 의해, 이러한 일부의 기능이 실현된다. 또, 처리 회로(63)는, 복수개의 기능 F1~F3 중 잔여의 기능에 대응하는 처리를 실행한다. 이것에 의해, 이러한 잔여의 기능이 실현된다.
프로세서(61)는, 1개 이상의 프로세서에 의해 구성되어 있다. 개개의 프로세서는, 예를 들면, CPU(Central Processing Unit), GPU(Graphics Processing Unit), 마이크로 프로세서, 마이크로 콘트롤러 또는 DSP(Digital Signal Processor)를 이용한 것이다.
메모리(62)는, 1개 이상의 비휘발성 메모리에 의해 구성되어 있다. 또는, 메모리(62)는, 1개 이상의 비휘발성 메모리 및 1개 이상의 휘발성 메모리에 의해 구성되어 있다. 즉, 메모리(62)는, 1개 이상의 메모리에 의해 구성되어 있다. 개개의 메모리는, 예를 들면, 반도체 메모리, 자기 디스크, 광디스크, 광학 자기 디스크, 자기 테이프 또는 자기 드럼을 이용한 것이다. 보다 구체적으로는, 개개의 휘발성 메모리는, 예를 들면, RAM(Random Access Memory)을 이용한 것이다. 또, 개개의 비휘발성 메모리는, 예를 들면, ROM(Read Only Memory), 플래시 메모리, EPROM(Erasable Programmable Read Only Memory), EEPROM(Electrically Erasable Programmable Read Only Memory), 솔리드스테이트 드라이브, 하드 디스크 드라이브, 플렉서블 디스크, 콤팩트 디스크, DVD(Digital Versatile Disc), 블루레이 디스크 또는 미니 디스크를 이용한 것이다.
처리 회로(63)는, 1개 이상의 디지털 회로에 의해 구성되어 있다. 또는, 처리 회로(63)는, 1개 이상의 디지털 회로 및 1개 이상의 아날로그 회로에 의해 구성되어 있다. 즉, 처리 회로(63)는, 1개 이상의 처리 회로에 의해 구성되어 있다. 개개의 처리 회로는, 예를 들면, ASIC(Application Specific Integrated Circuit), PLD(Programmable Logic Device), FPGA(Field Programmable Gate Array), SoC(System on a Chip) 또는 시스템 LSI(Large Scale Integration)를 이용한 것이다.
여기서, 프로세서(61)가 복수개의 프로세서에 의해 구성되어 있을 때, 복수개의 기능 F1~F3과 복수개의 프로세서의 대응 관계는 임의이다. 즉, 복수개의 프로세서의 각각은, 복수개의 기능 F1~F3 중 대응하는 1개 이상의 기능에 대응하는 프로그램을 판독하여 실행하는 것이어도 좋다. 프로세서(61)는, 개개의 기능 F1~F3에 대응하는 전용 프로세서를 포함하는 것이어도 좋다.
또, 메모리(62)가 복수개의 메모리에 의해 구성되어 있을 때, 복수개의 기능 F1~F3과 복수개의 메모리의 대응 관계는 임의이다. 즉, 복수개의 메모리의 각각은, 복수개의 기능 F1~F3 중 대응하는 1개 이상의 기능에 대응하는 프로그램을 기억하는 것이어도 좋다. 메모리(62)는, 개개의 기능 F1~F3에 대응하는 전용 메모리를 포함하는 것이어도 좋다.
또, 처리 회로(63)가 복수개의 처리 회로에 의해 구성되어 있을 때, 복수개의 기능 F1~F3과 복수개의 처리 회로의 대응 관계는 임의이다. 즉, 복수개의 처리 회로의 각각은, 복수개의 기능 F1~F3 중 대응하는 1개 이상의 기능에 대응하는 처리를 실행하는 것이어도 좋다. 처리 회로(63)는, 개개의 기능 F1~F3에 대응하는 전용 처리 회로를 포함하는 것이어도 좋다.
다음에, 도 19~도 21을 참조하여, 학습 장치(200)의 주요부의 하드웨어 구성에 대해 설명한다.
도 19에 나타내는 바와 같이, 학습 장치(200)는, 프로세서(71) 및 메모리(72)를 갖고 있다. 메모리(72)에는, 복수개의 기능 F11, F12에 대응하는 프로그램이 기억되어 있다. 프로세서(71)는, 메모리(72)에 기억되어 있는 프로그램을 판독하여 실행한다. 이것에 의해, 복수개의 기능 F11, F12가 실현된다.
또는, 도 20에 나타내는 바와 같이, 학습 장치(200)는, 처리 회로(73)를 갖고 있다. 처리 회로(73)는, 복수개의 기능 F11, F12에 대응하는 처리를 실행한다. 이것에 의해, 복수개의 기능 F11, F12가 실현된다.
또는, 도 21에 나타내는 바와 같이, 학습 장치(200)는, 프로세서(71), 메모리(72) 및 처리 회로(73)를 갖고 있다. 메모리(72)에는, 복수개의 기능 F11, F12 중 일부의 기능에 대응하는 프로그램이 기억되어 있다. 프로세서(71)는, 메모리(72)에 기억되어 있는 프로그램을 판독하여 실행한다. 이것에 의해, 이러한 일부의 기능이 실현된다. 또, 처리 회로(73)는, 복수개의 기능 F11, F12 중 잔여의 기능에 대응하는 처리를 실행한다. 이것에 의해, 이러한 잔여의 기능이 실현된다.
프로세서(71)의 구체예는, 프로세서(61)의 구체예와 마찬가지이다. 메모리(72)의 구체예는, 메모리(62)의 구체예와 마찬가지이다. 처리 회로(73)의 구체예는, 처리 회로(63)의 구체예와 마찬가지이다. 이 때문에, 상세한 설명은 생략한다.
여기서, 프로세서(71)가 복수개의 프로세서에 의해 구성되어 있을 때, 복수개의 기능 F11, F12와 복수개의 프로세서의 대응 관계는 임의이다. 즉, 복수개의 프로세서의 각각은, 복수개의 기능 F11, F12 중 대응하는 1개 이상의 기능에 대응하는 프로그램을 판독하여 실행하는 것이어도 좋다. 프로세서(71)는, 개개의 기능 F11, F12에 대응하는 전용 프로세서를 포함하는 것이어도 좋다.
또, 메모리(72)가 복수개의 메모리에 의해 구성되어 있을 때, 복수개의 기능 F11, F12와 복수개의 메모리의 대응 관계는 임의이다. 즉, 복수개의 메모리의 각각은, 복수개의 기능 F11, F12 중 대응하는 1개 이상의 기능에 대응하는 프로그램을 기억하는 것이어도 좋다. 메모리(72)는, 개개의 기능 F11, F12에 대응하는 전용 메모리를 포함하는 것이어도 좋다.
또, 처리 회로(73)가 복수개의 처리 회로에 의해 구성되어 있을 때, 복수개의 기능 F11, F12와 복수개의 처리 회로의 대응 관계는 임의이다. 즉, 복수개의 처리 회로의 각각은, 복수개의 기능 F11, F12 중 대응하는 1개 이상의 기능에 대응하는 처리를 실행하는 것이어도 좋다. 처리 회로(73)는, 개개의 기능 F11, F12에 대응하는 전용 처리 회로를 포함하는 것이어도 좋다.
다음에, 도 22의 흐름도를 참조하여, 라벨링 장치(100)의 동작에 대해 설명한다.
우선, 화상 신호 취득부(21)가 화상 신호 취득 처리를 실행한다(스텝 ST1). 그 다음에, 화상 인식부(22)가 화상 인식 처리를 실행한다(스텝 ST2). 그 다음에, 학습용 데이터 세트 생성부(23)가 학습용 데이터 세트 생성 처리를 실행한다(스텝 ST3).
다음에, 도 23의 흐름도를 참조하여, 학습 장치(200)의 동작에 대해 설명한다.
우선, 학습용 데이터베이스 갱신부(31)가 학습용 데이터베이스 갱신 처리를 실행한다(스텝 ST11). 그 다음에, 학습부(32)가 학습 처리를 실행한다(스텝 ST12).
다음에, 도 24를 참조하여, 라벨링 시스템(1)의 변형예에 대해 설명한다.
도 24에 나타내는 바와 같이, 학습 장치(200)는, 라벨링 장치(100)를 포함하는 것이어도 좋다. 즉, 학습 장치(200)는, 화상 신호 취득부(21), 화상 인식부(22), 학습용 데이터 세트 생성부(23), 학습용 데이터베이스 갱신부(31) 및 학습부(32)를 갖는 것이어도 좋다.
다음에, 도 25를 참조하여, 라벨링 시스템(1)의 다른 변형예에 대해 설명한다.
도 25에 나타내는 바와 같이, 라벨링 장치(100)는, 학습 장치(200)를 포함하는 것이어도 좋다. 즉, 라벨링 장치(100)는, 화상 신호 취득부(21), 화상 인식부(22), 학습용 데이터 세트 생성부(23), 학습용 데이터베이스 갱신부(31) 및 학습부(32)를 갖는 것이어도 좋다.
다음에, 라벨링 시스템(1)의 다른 변형예에 대해 설명한다.
라벨링 장치(100)는, 카메라(2)와 일체로 구성되어 있는 것이어도 좋다. 또, 학습 장치(200)는, 카메라(2)와 일체로 구성되어 있는 것이어도 좋다. 이것에 의해, AI(Artificial Intelligence) 카메라를 실현할 수 있다.
라벨링 장치(100)는, 카메라(2)와 통신이 자유로운 서버에 의해 구성되어 있는 것이어도 좋다. 또, 학습 장치(200)는, 카메라(2)와 통신이 자유로운 서버에 의해 구성되어 있는 것이어도 좋다. 이러한 서버는, 에지 서버를 이용한 것이어도 좋다. 이것에 의해, 에지 AI 카메라를 실현할 수 있다.
이상과 같이, 실시의 형태 1에 따른 라벨링 장치(100)는, 카메라(2)에 의한 촬상 화상을 나타내는 화상 신호를 취득하는 화상 신호 취득부(21)와, 기계 학습에 의한 학습 완료 화상 인식부(22)로서, 촬상 화상에 대한 화상 인식을 실행하는 화상 인식부(22)와, 화상 인식의 결과에 근거하여, 촬상 화상에 포함되는 개개의 물체에 대한 라벨링을 실행하는 것에 의해, 개개의 물체에 대응하는 화상 데이터 및 개개의 물체에 대응하는 라벨 데이터를 포함하는 학습용 데이터 세트를 생성하는 학습용 데이터 세트 생성부(23)를 구비한다. 이것에 의해, 카메라(2)에 의한 촬상 화상을 이용하여 학습용 데이터 세트를 생성하는 것에 즈음하여, 라벨링 작업을 자동화할 수 있다. 이 결과, 라벨링 담당자에 대한 작업 부하를 저감할 수 있다.
또, 화상 인식부(22)는, 기존의 대규모 데이터베이스를 이용하여 학습이 완료되었다. 이것에 의해, 학습 완료 물체에 대해서 고정밀의 물체 인식을 실현할 수 있는 것은 물론, 미학습의 물체에 대해서도 어느 정도의 정밀도에 의한 물체 인식을 실현할 수 있다.
또, 화상 인식부(22)는, 촬상 화상에 대응하는 제 1 특징 맵을 생성하는 제 1 특징량 추출부(41_1)와, 촬상 화상에 대응하는 제 2 특징 맵을 생성하는 제 2 특징량 추출부(41_2)와, 제 1 특징 맵 및 제 2 특징 맵을 이용하여 물체 인식을 실행하는 물체 인식부(42)를 갖고, 제 1 특징 맵은, 전경 마스크에 대응하는 것이거나, 또는 물체다움에 대응하는 중레벨 특징에 대응하는 것이며, 제 2 특징 맵은, 고레벨 특징에 대응하는 것이다. 제 2 특징 맵에 부가하여 제 1 특징 맵을 이용하는 것에 의해, 물체 인식의 정밀도를 향상할 수 있다. 특히, 미학습의 물체에 대한 물체 인식의 정밀도를 향상할 수 있다.
또, 화상 인식부(22)는, 물체 인식의 결과를 시계열적으로 이용하는 것에 의해 개개의 물체에 대한 트랙킹을 실행하는 물체 추적부(43)를 갖는다. 이것에 의해, 개개의 물체를 더욱 고정밀도로 인식할 수 있다.
또, 실시의 형태 1에 따른 학습 장치(200)는, 라벨링 장치(100)용의 학습 장치(200)로서, 학습용 데이터 세트 생성부(23)에 의해 생성된 학습용 데이터 세트를 학습용 데이터베이스에 추가하는 것에 의해, 학습용 데이터베이스를 갱신하는 학습용 데이터베이스 갱신부(31)와, 학습용 데이터베이스를 이용하여, 화상 인식부(22)의 재학습 또는 추가 학습을 실행하는 학습부(32)를 구비한다. 이것에 의해, 화상 인식부(22)에 대하여, 전이 학습, 파인 튜닝, 퓨샷 러닝, 메타 학습 또는 증류에 의한 재학습 등을 실현할 수 있다. 이 결과, 화상 인식의 정밀도를 점차 향상할 수 있는 것과 동시에, 라벨링의 정밀도를 점차 향상할 수 있다. 또, 라벨링 작업을 자동화하는 것에 즈음하여, 액티브 학습(Active Learning)에 있어서의 오라클(Oracle)에 상당하는 사람을 불필요하게 할 수 있다.
또, 학습용 데이터베이스 갱신부(31)는, 학습용 데이터베이스에 포함되는 복수개의 학습용 데이터 세트에 있어서의 분포 D의 편차에 근거하여, 학습용 데이터 세트 생성부(23)에 의해 생성된 학습용 데이터 세트에 우선도 P를 부여한다. 이러한 우선도 P를 이용하는 것에 의해, 기존의 대규모 데이터베이스에 비해 소규모인 학습용 데이터베이스를 이용하여, 효율이 좋은 재학습 등을 실현할 수 있다.
또, 학습부(32)는, 우선도 P에 따라 재학습 또는 추가 학습에 있어서의 학습율 η을 설정한다. 이것에 의해, 효율이 좋은 재학습 등을 실현할 수 있다.
또, 학습부(32)는, 우선도 P에 따라 학습용 데이터베이스에 있어서의 데이터 확장을 실행한다. 이것에 의해, 효율이 좋은 재학습 등을 실현할 수 있다.
(실시의 형태 2)
도 26은, 실시의 형태 2에 따른 라벨링 시스템의 주요부를 나타내는 블럭도이다. 도 26을 참조하여, 실시의 형태 2에 따른 라벨링 시스템에 대해 설명한다. 또, 도 26에 있어서, 도 1에 나타내는 블록과 같은 블록에는 동일 부호를 붙이고 설명을 생략한다.
도 26에 나타내는 바와 같이, 라벨링 시스템(1a)은, 카메라(2), 기억 장치(3), 기억 장치(4), 출력 장치(5), 입력 장치(6), 라벨링 장치(100a) 및 학습 장치(200)를 포함하는 것이다. 라벨링 장치(100a)는, 화상 신호 취득부(21), 화상 인식부(22), 학습용 데이터 세트 생성부(23a) 및 사용자 인터페이스 제어부(이하 「UI 제어부」라고 기재함)(24)를 갖고 있다.
출력 장치(5)는, 예를 들면, 디스플레이 또는 스피커에 의해 구성되어 있다. 입력 장치(6)는, 출력 장치(5)에 대응하는 디바이스에 의해 구성되어 있다. 예를 들면, 출력 장치(5)가 디스플레이에 의해 구성되어 있는 경우, 입력 장치(6)는, 터치 패널 및 터치 펜에 의해 구성되어 있다. 또는, 예를 들면, 출력 장치(5)가 스피커에 의해 구성되어 있는 경우, 입력 장치(6)는, 마이크에 의해 구성되어 있다.
UI 제어부(24)는, 출력 장치(5)를 이용하여, 화상 인식부(22)에 의한 화상 인식의 결과를 출력하는 제어를 실행하는 것이다. 또, UI 제어부(24)는, 입력 장치(6)를 이용한 조작의 입력으로서, 이러한 화상 인식의 결과를 수정하는 조작(이하 「수정 조작」이라고 하는 일이 있음)의 입력을 접수하는 처리를 실행하는 것이다.
구체적으로는, 예를 들면, UI 제어부(24)는, 디스플레이를 이용하여, 화상 인식부(22)에 의한 화상 인식의 결과를 나타내는 화상을 포함하는 화면(이하 「수정 화면」이라고 하는 일이 있음)을 표시하는 제어를 실행한다. 또, UI 제어부(24)는, 터치 패널 및 터치 펜을 이용한 수정 조작의 입력을 접수하는 처리를 실행한다. 즉, UI 제어부(24)는, 수정 화면에 대한 수기 입력에 의한 수정 조작의 입력을 접수하는 처리를 실행한다.
또는, 예를 들면, UI 제어부(24)는, 스피커를 이용하여, 화상 인식부(22)에 의한 화상 인식의 결과를 나타내는 음성을 출력하는 제어를 실행한다. 또, UI 제어부(24)는, 마이크를 이용한 수정 조작의 입력을 접수하는 처리를 실행한다. 즉, UI 제어부(24)는, 음성 입력에 의한 수정 조작의 입력을 접수하는 처리를 실행한다. 이 경우, 수정 조작의 입력을 접수하는 처리에는, 음성 인식과 관련되는 공지의 여러 가지의 기술을 이용할 수 있다.
여기서, 수정 조작의 입력과 관련되는 UI는, 대화형 UI를 이용한 것이어도 좋다. 이것에 의해, 라벨링 담당자는, 화상 인식부(22)에 의한 화상 인식의 결과를 용이하게 수정할 수 있다.
학습용 데이터 세트 생성부(23a)는, 학습용 데이터 세트 생성부(23)에 의해 생성되는 학습용 데이터 세트와 같은 학습용 데이터 세트를 생성하는 것이다. 즉, 학습용 데이터 세트 생성부(23a)는, 화상 인식부(22)에 의한 화상 인식의 결과에 근거하여, 화상 데이터, 라벨 데이터, 마스크 데이터 및 신뢰도 데이터 등을 포함하는 제 1 학습용 데이터 세트를 생성한다. 학습용 데이터 세트 생성부(23a)는, 당해 생성된 제 1 학습용 데이터 세트에 우선도 데이터를 추가하는 것에 의해, 제 3 학습용 데이터 세트를 생성한다. 학습용 데이터 세트 생성부(23a)는, 당해 생성된 제 3 학습용 데이터 세트를 학습용 데이터 세트 기억부(11)에 기억시킨다.
다만, 학습용 데이터 세트 생성부(23a)는, 화상 인식부(22)에 의한 화상 인식의 결과가 수정 조작에 의해 수정된 경우, 이러한 수정의 결과에 근거하는 제 1 학습용 데이터를 생성하게 되어 있다.
이하, 학습용 데이터 세트 생성부(23a)가 갖는 기능을 총칭하여 「학습용 데이터 세트 생성 기능」이라고 하는 일이 있다. 또, 이러한 학습용 데이터 세트 생성 기능에 「F3a」의 부호를 이용하는 일이 있다. 또, 학습용 데이터 세트 생성부(23a)에 의해 실행되는 처리를 총칭하여 「학습용 데이터 세트 생성 처리」라고 하는 일이 있다.
이하, UI 제어부(24)가 갖는 기능을 총칭하여 「UI 제어 기능」이라고 하는 일이 있다. 또, 이러한 UI 제어 기능에 「F4」의 부호를 이용하는 일이 있다. 또, UI 제어부(24)에 의해 실행되는 제어 및 처리를 총칭하여 「출력 제어 및 조작 입력 처리」라고 하는 일이 있다.
라벨링 장치(100a)의 주요부의 하드웨어 구성은, 실시의 형태 1에서 도 16~도 18을 참조하여 설명한 것과 같다. 이 때문에, 상세한 설명은 생략한다. 즉, 라벨링 장치(100a)는, 복수개의 기능 F1, F2, F3a, F4를 갖고 있다. 복수개의 기능 F1, F2, F3a, F4의 각각은, 프로세서(61) 및 메모리(62)에 의해 실현되는 것이어도 좋고, 또는 처리 회로(63)에 의해 실현되는 것이어도 좋다.
다음에, 도 27의 흐름도를 참조하여, 라벨링 장치(100a)의 동작에 대해 설명한다. 또, 도 27에 있어서, 도 22에 나타내는 스텝과 같은 스텝에는 동일 부호를 붙이고 설명을 생략한다.
우선, 스텝 ST1의 처리가 실행된다. 그 다음에, 스텝 ST2의 처리가 실행된다. 그 다음에, UI 제어부(24)가 출력 제어 및 조작 입력 처리를 실행한다(스텝 ST4). 그 다음에, 학습용 데이터 세트 생성부(23a)가 학습용 데이터 세트 생성 처리를 실행한다(스텝 ST3a).
다음에, 도 28을 참조하여, 라벨링 시스템(1a)의 변형예에 대해 설명한다.
도 28에 나타내는 바와 같이, 학습 장치(200)는, 라벨링 장치(100a)를 포함하는 것이어도 좋다. 즉, 학습 장치(200)는, 화상 신호 취득부(21), 화상 인식부(22), 학습용 데이터 세트 생성부(23a), UI 제어부(24), 학습용 데이터베이스 갱신부(31) 및 학습부(32)를 갖는 것이어도 좋다.
다음에, 도 29를 참조하여, 라벨링 시스템(1a)의 다른 변형예에 대해 설명한다.
도 29에 나타내는 바와 같이, 라벨링 장치(100a)는, 학습 장치(200)를 포함하는 것이어도 좋다. 즉, 라벨링 장치(100a)는, 화상 신호 취득부(21), 화상 인식부(22), 학습용 데이터 세트 생성부(23a), UI 제어부(24), 학습용 데이터베이스 갱신부(31) 및 학습부(32)를 갖는 것이어도 좋다.
다음에, 라벨링 시스템(1a)의 다른 변형예에 대해 설명한다.
라벨링 장치(100a)는, 카메라(2)와 일체로 구성되어 있는 것이어도 좋다. 또, 학습 장치(200)는, 카메라(2)와 일체로 구성되어 있는 것이어도 좋다. 이것에 의해, AI 카메라를 실현할 수 있다.
라벨링 장치(100a)는, 카메라(2)와 통신이 자유로운 서버에 의해 구성되어 있는 것이어도 좋다. 또, 학습 장치(200)는, 카메라(2)와 통신이 자유로운 서버에 의해 구성되어 있는 것이어도 좋다. 이러한 서버는, 예를 들면, 에지 서버를 이용한 것이어도 좋다. 이것에 의해, 에지 AI 카메라를 실현할 수 있다.
이상과 같이, 실시의 형태 2에 따른 라벨링 장치(100a)는, 화상 인식의 결과를 출력하는 제어를 실행하고, 또한, 화상 인식의 결과를 수정하는 조작의 입력을 접수하는 처리를 실행하는 UI 제어부(24)를 구비하고, 학습용 데이터 세트 생성부(23a)는, 조작에 의한 수정의 결과에 근거하여 학습용 데이터 세트를 생성한다. 이것에 의해, 카메라(2)에 의한 촬상 화상을 이용하여 학습용 데이터 세트를 생성하는 것에 즈음하여, 라벨링 작업을 반자동화할 수 있다. 환언하면, 라벨링 담당자에 의한 라벨링 작업을 서포트할 수 있다. 이 결과, 라벨링 담당자에 대한 작업 부하를 저감할 수 있다.
또, UI 제어부(24)는, 화상 인식의 결과를 나타내는 화상을 포함하는 화면을 표시하는 제어를 실행하고, 또한, 화면에 대한 수기 입력에 의한 조작의 입력을 접수하는 처리를 실행한다. 이러한 UI를 이용하는 것에 의해, 화상 인식의 결과를 용이하게 수정할 수 있다.
또, UI 제어부(24)는, 화상 인식의 결과를 나타내는 음성을 출력하는 제어를 실행하고, 또한, 음성 입력에 의한 조작의 입력을 접수하는 처리를 실행한다. 이러한 UI를 이용하는 것에 의해, 화상 인식의 결과를 용이하게 수정할 수 있다.
또, 본원 개시는 그 명시된 범위 내에 있어서, 각 실시의 형태의 자유로운 조합, 또는 각 실시의 형태의 임의의 구성 요소의 변형, 또는 각 실시의 형태에 있어서 임의의 구성 요소의 생략이 가능하다.
본 개시에 따른 라벨링 장치 및 학습 장치는, 예를 들면, 감시 시스템, 방범 시스템 또는 전자 미러에 이용할 수 있다.
1, 1a : 라벨링 시스템 2 : 카메라
3 : 기억 장치 4 : 기억 장치
5 : 출력 장치 6 : 입력 장치
11 : 학습용 데이터 세트 기억부 12 : 학습용 데이터베이스 기억부
21 : 화상 신호 취득부 22 : 화상 인식부
23, 23a : 학습용 데이터 세트 생성부 24 : UI 제어부
31 : 학습용 데이터베이스 갱신부 32 : 학습부
41 : 특징량 추출부 41_1 : 제 1 특징량 추출부
41_2 : 제 2 특징량 추출부 42 : 물체 인식부
43 : 물체 추적부 51 : 학습용 데이터 세트 취득부
52 : 학습용 데이터 세트 취득부 53 : 우선도 부여부
54 : 학습용 데이터 세트 추가부 61 : 프로세서
62 : 메모리 63 : 처리 회로
71 : 프로세서 72 : 메모리
73 : 처리 회로 100, 100a : 라벨링 장치
200 : 학습 장치

Claims (26)

  1. 카메라에 의한 촬상 화상을 나타내는 화상 신호를 취득하는 화상 신호 취득부와,
    기계 학습에 의한 학습 완료 화상 인식부로서, 상기 촬상 화상에 대한 화상 인식을 실행하는 상기 화상 인식부와,
    상기 화상 인식의 결과에 근거하여, 상기 촬상 화상에 포함되는 개개의 물체에 대한 라벨링을 실행하는 것에 의해, 상기 개개의 물체에 대응하는 화상 데이터 및 상기 개개의 물체에 대응하는 라벨 데이터를 포함하는 학습용 데이터 세트를 생성하는 학습용 데이터 세트 생성부와,
    상기 학습용 데이터 세트 생성부에 의해 생성된 학습용 데이터 세트를 학습용 데이터베이스에 추가하는 것에 의해, 상기 학습용 데이터베이스를 갱신하는 학습용 데이터베이스 갱신부와,
    상기 학습용 데이터베이스를 이용하여, 상기 화상 인식부의 재학습 또는 추가 학습을 실행하는 학습부
    를 구비하는 라벨링 장치.
  2. 제 1 항에 있어서,
    상기 화상 인식부는, 기존의 대규모 데이터베이스를 이용하여 학습이 완료된 것을 특징으로 하는 라벨링 장치.
  3. 제 1 항에 있어서,
    상기 화상 인식부는, 상기 촬상 화상에 대응하는 제 1 특징 맵을 생성하는 제 1 특징량 추출부와, 상기 촬상 화상에 대응하는 제 2 특징 맵을 생성하는 제 2 특징량 추출부와, 상기 제 1 특징 맵 및 상기 제 2 특징 맵을 이용하여 물체 인식을 실행하는 물체 인식부를 갖고,
    상기 제 1 특징 맵은, 전경 마스크에 대응하는 것이거나, 또는 물체다움(objectness)에 대응하는 중레벨 특징에 대응하는 것이며,
    상기 제 2 특징 맵은, 고레벨 특징에 대응하는 것인
    것을 특징으로 하는 라벨링 장치.
  4. 제 3 항에 있어서,
    상기 제 1 특징량 추출부는, 화상 구배 검출, 현저성 추정, 배경 차분법, 물체다움 추정, 어텐션 및 영역 분할 중 적어도 1개를 이용하여 상기 제 1 특징 맵을 생성하는 것을 특징으로 하는 라벨링 장치.
  5. 제 3 항에 있어서,
    상기 물체 인식부는, 상기 제 1 특징 맵에 있어서의 개개의 제 1 특징량을 이용하여 상기 제 2 특징 맵에 있어서의 대응하는 제 2 특징량에 대한 가중치 부여를 실행하는 것을 특징으로 하는 라벨링 장치.
  6. 제 5 항에 있어서,
    상기 물체 인식부는, 상기 개개의 제 1 특징량과 상기 대응하는 제 2 특징량의 유사도에 근거하여 상기 가중치 부여에 있어서의 중요도를 설정하는 것을 특징으로 하는 라벨링 장치.
  7. 제 6 항에 있어서,
    상기 유사도는, EMD, 코사인 유사도, KLD, L2 놈(norm), L1 놈 및 맨하탄 거리(Manhattan distance) 중 적어도 1개에 근거하는 값인 것을 특징으로 하는 라벨링 장치.
  8. 제 5 항에 있어서,
    상기 물체 인식부는, 상기 제 1 특징 맵이 어텐션을 이용한 것인 경우, 상기 제 1 특징 맵에 있어서의 대표치를 선택하여, 상기 대표치에 근거하여 상기 가중치 부여에 있어서의 중요도를 설정하는 것을 특징으로 하는 라벨링 장치.
  9. 제 3 항에 있어서,
    상기 물체 인식은, 물체 검출 및 영역 분할 중 적어도 한쪽을 포함하고,
    상기 물체 검출은, 상기 개개의 물체의 위치를 회귀에 의해 추정하고, 또한, 상기 개개의 물체의 속성을 분류에 의해 추정하는 것이며,
    상기 영역 분할은, 상기 촬상 화상을 개개의 속성에 대응하는 영역으로 분할하는 것인
    것을 특징으로 하는 라벨링 장치.
  10. 제 3 항에 있어서,
    상기 화상 인식부는, 상기 물체 인식의 결과를 시계열적으로 이용하는 것에 의해 상기 개개의 물체에 대한 트랙킹을 실행하는 물체 추적부를 갖는 것을 특징으로 하는 라벨링 장치.
  11. 제 3 항에 있어서,
    상기 제 1 특징량 추출부는, 지도 학습(supervised learning) 또는 비 지도 학습에 의해 학습이 자유로운 것을 특징으로 하는 라벨링 장치.
  12. 제 3 항에 있어서,
    상기 제 2 특징량 추출부는, 지도 학습에 의해 학습이 자유로운 것을 특징으로 하는 라벨링 장치.
  13. 제 3 항에 있어서,
    상기 제 2 특징량 추출부는, 심층 학습에 의해 학습이 자유로운 것을 특징으로 하는 라벨링 장치.
  14. 제 3 항에 있어서,
    상기 제 2 특징량 추출부는, 컨볼루션 뉴럴 네트워크를 이용하는 것인 것을 특징으로 하는 라벨링 장치.
  15. 제 3 항에 있어서,
    상기 물체 인식부는, 지도 학습에 의해 학습이 자유로운 것을 특징으로 하는 라벨링 장치.
  16. 제 1 항에 있어서,
    상기 화상 인식의 결과를 출력하는 제어를 실행하고, 또한, 상기 화상 인식의 결과를 수정하는 조작의 입력을 접수하는 처리를 실행하는 UI 제어부를 구비하고,
    상기 학습용 데이터 세트 생성부는, 상기 조작에 의한 수정의 결과에 근거하여 상기 학습용 데이터 세트를 생성하는
    것을 특징으로 하는 라벨링 장치.
  17. 제 16 항에 있어서,
    상기 UI 제어부는, 상기 화상 인식의 결과를 나타내는 화상을 포함하는 화면을 표시하는 제어를 실행하고, 또한, 상기 화면에 대한 수기 입력에 의한 상기 조작의 입력을 접수하는 처리를 실행하는 것을 특징으로 하는 라벨링 장치.
  18. 제 16 항에 있어서,
    상기 UI 제어부는, 상기 화상 인식의 결과를 나타내는 음성을 출력하는 제어를 실행하고, 또한, 음성 입력에 의한 상기 조작의 입력을 접수하는 처리를 실행하는 것을 특징으로 하는 라벨링 장치.
  19. 제 1 항에 있어서,
    상기 카메라는, 모니터링용 카메라인 것을 특징으로 하는 라벨링 장치.
  20. 제 19 항에 있어서,
    상기 카메라는, 감시 카메라, 방범 카메라 또는 전자 미러용 카메라인 것을 특징으로 하는 라벨링 장치.
  21. 삭제
  22. 카메라에 의한 촬상 화상을 나타내는 화상 신호를 취득하는 화상 신호 취득부와,
    기계 학습에 의한 학습 완료 화상 인식부로서, 상기 촬상 화상에 대한 화상 인식을 실행하는 상기 화상 인식부와,
    상기 화상 인식의 결과에 근거하여, 상기 촬상 화상에 포함되는 개개의 물체에 대한 라벨링을 실행하는 것에 의해, 상기 개개의 물체에 대응하는 화상 데이터 및 상기 개개의 물체에 대응하는 라벨 데이터를 포함하는 학습용 데이터 세트를 생성하는 학습용 데이터 세트 생성부
    를 구비하는 라벨링 장치용의 학습 장치로서,
    상기 학습용 데이터 세트 생성부에 의해 생성된 학습용 데이터 세트를 학습용 데이터베이스에 추가하는 것에 의해, 상기 학습용 데이터베이스를 갱신하는 학습용 데이터베이스 갱신부와,
    상기 학습용 데이터베이스를 이용하여, 상기 화상 인식부의 재학습 또는 추가 학습을 실행하는 학습부를 구비하며,
    상기 학습용 데이터베이스 갱신부는, 상기 학습용 데이터베이스에 포함되는 복수개의 학습용 데이터 세트에 있어서의 분포의 편차에 근거하여, 상기 학습용 데이터 세트 생성부에 의해 생성된 학습용 데이터 세트에 우선도를 부여하는 것을 특징으로 하는 학습 장치.
  23. 제 22 항에 있어서,
    상기 우선도는, 상기 학습용 데이터 세트 생성부에 의해 생성된 학습용 데이터 세트가 갖는 학습 가치에 따른 값으로 설정되는 것을 특징으로 하는 학습 장치.
  24. 제 22 항에 있어서,
    상기 분포는, 신뢰도, 크기, 고차원 화상 특징, 저차원 화상 특징, 물체다움, 현저성 추정 및 어텐션 중 적어도 1개에 근거하는 것을 특징으로 하는 학습 장치.
  25. 제 22 항에 있어서,
    상기 학습부는, 상기 우선도에 따라 상기 재학습 또는 상기 추가 학습에 있어서의 학습율을 설정하는 것을 특징으로 하는 학습 장치.
  26. 제 22 항에 있어서,
    상기 학습부는, 상기 우선도에 따라 상기 학습용 데이터베이스에 있어서의 데이터 확장을 실행하는 것을 특징으로 하는 학습 장치.
KR1020227029033A 2020-03-04 2020-03-04 라벨링 장치 및 학습 장치 KR102553995B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/009092 WO2021176584A1 (ja) 2020-03-04 2020-03-04 ラベリング装置及び学習装置

Publications (2)

Publication Number Publication Date
KR20220123142A KR20220123142A (ko) 2022-09-05
KR102553995B1 true KR102553995B1 (ko) 2023-07-10

Family

ID=77613245

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227029033A KR102553995B1 (ko) 2020-03-04 2020-03-04 라벨링 장치 및 학습 장치

Country Status (6)

Country Link
US (1) US20220366676A1 (ko)
EP (1) EP4099263A4 (ko)
JP (1) JP7055259B2 (ko)
KR (1) KR102553995B1 (ko)
CN (1) CN115176277A (ko)
WO (1) WO2021176584A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023214826A1 (ko) * 2022-05-05 2023-11-09 유한회사 닥터다비드 집단 지성을 이용한 정보 처리 시스템 및 그 방법
EP4343712A1 (en) * 2022-09-23 2024-03-27 Robert Bosch GmbH Device and method for determining a dataset for training and/or testing an object detector

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019075130A (ja) * 2018-11-22 2019-05-16 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
JP2019074945A (ja) * 2017-10-17 2019-05-16 株式会社日立製作所 オンライン認識装置、オンライン認識方法、及びそれに用いる設定画面

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013125322A (ja) 2011-12-13 2013-06-24 Olympus Corp 学習装置、プログラム及び学習方法
JP6118752B2 (ja) 2014-03-28 2017-04-19 セコム株式会社 学習データ生成装置
WO2018079020A1 (ja) 2016-10-26 2018-05-03 ソニー株式会社 情報処理装置および情報処理方法
JP6573297B1 (ja) * 2019-01-16 2019-09-11 パナソニック株式会社 監視カメラおよび検知方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019074945A (ja) * 2017-10-17 2019-05-16 株式会社日立製作所 オンライン認識装置、オンライン認識方法、及びそれに用いる設定画面
JP2019075130A (ja) * 2018-11-22 2019-05-16 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム

Also Published As

Publication number Publication date
KR20220123142A (ko) 2022-09-05
CN115176277A (zh) 2022-10-11
WO2021176584A1 (ja) 2021-09-10
US20220366676A1 (en) 2022-11-17
JP7055259B2 (ja) 2022-04-15
EP4099263A4 (en) 2023-01-25
EP4099263A1 (en) 2022-12-07
JPWO2021176584A1 (ko) 2021-09-10

Similar Documents

Publication Publication Date Title
CN112506342B (zh) 基于动态手势识别的人机交互方法及系统
US9965865B1 (en) Image data segmentation using depth data
US10019657B2 (en) Joint depth estimation and semantic segmentation from a single image
US10217195B1 (en) Generation of semantic depth of field effect
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
JP6050223B2 (ja) 画像認識装置、画像認識方法、及び集積回路
CN113963445B (zh) 一种基于姿态估计的行人摔倒动作识别方法及设备
US20220366676A1 (en) Labeling device and learning device
CN110084299B (zh) 基于多头融合注意力的目标检测方法和装置
Ramirez-Quintana et al. Self-adaptive SOM-CNN neural system for dynamic object detection in normal and complex scenarios
KR20160096460A (ko) 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
KR20100014097A (ko) 물체의 궤적에 기초한 원을 그리는 움직임 검출 방법 및 시스템
CN109492576B (zh) 图像识别方法、装置及电子设备
CN109377499B (zh) 一种像素级物体分割方法及装置
JP2014164656A (ja) 画像処理方法およびプログラム
KR20180071947A (ko) 영상 처리 장치 및 방법
JP4567660B2 (ja) 電子画像内で物体のセグメントを求める方法
CN113591529A (zh) 动作分割模型的处理方法、装置、计算机设备和存储介质
KR101921071B1 (ko) 다중 프레임에서의 센서 융합을 통한 3차원 객체의 포즈 추정 방법 및 이를 구비한 장치
CN113129332A (zh) 执行目标对象跟踪的方法和装置
Khan et al. Skeleton based human action recognition using a structured-tree neural network
Kalboussi et al. A spatiotemporal model for video saliency detection
JP2020021243A (ja) 画像処理装置、画像処理方法、および、画像処理プログラム
JP2010140201A (ja) 画像処理装置、画像処理方法、画像処理プログラム
KR101460517B1 (ko) 이중 모델링과 학습 및 폐기학습을 통한 영상 내의 물체 추적 방법 및 이를 위한 컴퓨터로 판독가능한 기록매체

Legal Events

Date Code Title Description
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant