KR102654003B1 - 화상 인식 장치 및 방법 - Google Patents

화상 인식 장치 및 방법 Download PDF

Info

Publication number
KR102654003B1
KR102654003B1 KR1020217015935A KR20217015935A KR102654003B1 KR 102654003 B1 KR102654003 B1 KR 102654003B1 KR 1020217015935 A KR1020217015935 A KR 1020217015935A KR 20217015935 A KR20217015935 A KR 20217015935A KR 102654003 B1 KR102654003 B1 KR 102654003B1
Authority
KR
South Korea
Prior art keywords
learning model
feature extraction
learning
feature
unit
Prior art date
Application number
KR1020217015935A
Other languages
English (en)
Other versions
KR20210082222A (ko
Inventor
료우 유미바
야스타카 도요다
히로유키 신도
Original Assignee
주식회사 히타치하이테크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 히타치하이테크 filed Critical 주식회사 히타치하이테크
Publication of KR20210082222A publication Critical patent/KR20210082222A/ko
Application granted granted Critical
Publication of KR102654003B1 publication Critical patent/KR102654003B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30148Semiconductor; IC; Wafer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

기계 학습을 사용한 윤곽선 추출에 있어서, 추론 시의 화상에 최적인 학습 모델을 정해값 혹은 확신도를 필요로 하지 않고 선택한다. 복수의 특징 추출용의 학습 모델을 저장하는 특징 추출용 학습 모델군과, 특징 추출용의 학습 모델과 쌍을 이룬 상기용(想起用)의 학습 모델을 저장하는 상기용 학습 모델군과, 특징 추출용의 학습 모델을 참조해서 입력 데이터로부터 특징량을 추출하는 특징량 추출부와, 상기용의 학습 모델을 참조해서 특징량의 차원 압축을 수반하는 상기(想起) 결과를 출력하는 데이터간 상기부와, 특징량과 상기 결과의 차분이 최소로 되는 것을 조건으로 특징 추출용 학습 모델군 중에서 특징 추출용의 학습 모델을 선택하는 학습 모델 선택부를 구비하는 것을 특징으로 한다.

Description

화상 인식 장치 및 방법
본 발명은, 예를 들면 반도체 패턴의 검사에 있어서의 화상 인식 장치 및 방법에 관한 것이다.
심층 학습을 비롯한 기계 학습을 사용한 패턴 인식은, 다양한 화상으로부터 여러 종류의 패턴을 높은 정밀도로 추출하는 것이 가능하고, 반도체 패턴 중에서 윤곽선을 추출하는 용도에서도 효과를 기대할 수 있다. 반도체 패턴 중에서 추출된 윤곽선은, 반도체 패턴의 설계도와의 비교에 의한 형상 평가 등에 사용된다.
윤곽 추출에 있어서 복수 종류의 화상을 추론 대상으로 운용할 경우, 예를 들면 반도체 제조 공정에 있어서의 리소그래피나 에칭 등의 복수의 제조 공정의 화상을 추론 대상으로 운용하는 경우 등에 있어서, 화상의 종류마다 화상의 겉보기의 차이가 클 때에 있어서 기계 학습을 사용한 윤곽선 추출이 한층 높은 성능을 발휘하기 위해서는, 학습 모델을 분할하는 것이 바람직하다.
학습 모델이란, 심층 학습의 네트워크 구조체의 계수 등의 파라미터로서, 화상과 교사(敎師) 데이터(학습의 목표로 되는 추론 결과)의 세트로 이루어지는 학습 샘플로부터, 사전에 학습 모델에 따른 소정의 학습 연산을 사용해서 계산된 것이다. 기계 학습의 성질상, 화상으로부터 양호한 윤곽선을 추출하기 위해서는, 학습 연산에 사용하는 학습 샘플 중에, 추론 대상으로 하는 화상의 화상 특징을 구비한 화상, 즉 추론 대상과 유사한 화상이 포함되어 있을 필요가 있다. 윤곽선 추출이 보다 높은 성능을 발휘하기 위해서는, 추론 대상으로 하는 화상과 유사하지 않은 화상이 학습 샘플 중에 포함되지 않은 것이 바람직하다. 이것은 학습 연산에 의해서, 추론 대상으로 하는 화상으로부터의 윤곽 추출에 특화된 학습 모델이 얻어지기 때문이다.
한편, 복수의 학습 모델을 준비했을 때에는, 복수의 학습 모델 중에서 최적인 학습 모델을 선택하는 방법이 필요하게 된다. 최적인 학습 샘플이란, 운용 시에 부여되는 화상에 대해서, 그 화상으로부터 가장 양호한 윤곽선 추출을 할 수 있는 학습 모델을 가리킨다.
특허문헌 1에는, 복수의 학습 모델 중에서, 예측 오차가 가장 작아지는 것을 조건으로 최적인 학습 모델을 선택하는 방법이 나타나 있다. 예측 오차란, 학습 모델을 사용해서 추론했을 때의 예측값과 정해값 사이의 오차이다.
특허문헌 2에는, 확신도라 불리는 지표를 사용한 선택 방법에 의해서, 복수의 학습 모델 중에서 최적인 학습 모델을 선택하는 방법이 개시되어 있다. 확신도란, 학습 모델을 사용해서 추론 결과를 내기까지의 중간 처리 결과로부터 계산되는 지표이고, 추론 결과의 확실성(정해인 것의 기대값)의 기준이 된다.
일본국 특허공개 제2001-236337호 공보 일본국 특허공개 제2001-339265호 공보
상기한 특허문헌 1, 특허문헌 2에 기재된 방법은, 반도체 패턴의 검사에 있어서의 화상 인식 장치 및 방법에 적용하기 유용하다.
그러나, 이 특허문헌 1의 방법에는, 학습 모델의 선택에 정해값을 필요로 한다는 제1 과제가 있다. 윤곽선 추출의 정해값이란, 화상 중의 모든 개소에 있어서 정확하게 추출된 윤곽선의 추론 결과이다. 정확하게 추출된 윤곽선은, 예를 들면 인력으로 화상 중의 각 화소에 윤곽선 추출의 정해값을 할당하는 것에 의해 입수 가능하지만, 이것을 추론 대상으로 하는 화상마다 준비하는 것은, 운용 개시까지 작업 시간과 작업 공정수를 요하게 된다.
또한, 특허문헌 2에 있어서 주목하는 확신도는 학습 모델의 종류(기계 학습의 수리 모델이나 심층 학습의 네트워크 구조 등)에 따라서 척도가 다르기 때문에, 복수 종류의 학습 모델이 선택의 대상으로 되는 경우에는 적용할 수 없다는 제2 과제가 있다.
이상의 점에서 본 발명의 목적으로 하는 바는, 기계 학습을 사용한 윤곽선 추출에 있어서, 추론 시의 화상에 최적인 학습 모델을 정해값 혹은 확신도를 필요로 하지 않고 선택할 수 있는 화상 인식 장치 및 방법을 제공하는 것이다.
이상의 점에서 본 발명에 있어서는 「복수의 특징 추출용의 학습 모델을 저장하는 특징 추출용 학습 모델군과, 특징 추출용의 학습 모델과 쌍을 이룬 상기용(想起用)의 학습 모델을 저장하는 상기용 학습 모델군과, 특징 추출용의 학습 모델을 참조해서 입력 데이터로부터 특징량을 추출하는 특징량 추출부와, 상기용의 학습 모델을 참조해서 특징량의 차원 압축을 수반하는 상기(想起) 결과를 출력하는 데이터간 상기부와, 특징량과 상기 결과의 차분이 최소로 되는 것을 조건으로 특징 추출용 학습 모델군 중에서 특징 추출용의 학습 모델을 선택하는 학습 모델 선택부를 구비하는 것을 특징으로 하는 화상 인식 장치」로 한 것이다.
또한 본 발명에 있어서는 「복수의 특징 추출용의 학습 모델을 저장하는 특징 추출용 학습 모델군과, 특징 추출용의 학습 모델을 참조해서 입력 데이터로부터 특징량을 추출하는 특징량 추출부와, 특징량 추출부가 특징량을 추출할 때의 스코어로부터 복수 종류의 학습 모델간에서 비교가 가능한 공통 척도를 계산하고, 특징 추출용 학습 모델군 중에서 공통 척도를 사용해서 특징 추출용의 학습 모델을 선택하는 학습 모델 선택부를 구비하는 것을 특징으로 하는 화상 인식 장치」로 한 것이다.
또한 본 발명에 있어서는 「복수의 특징 추출용의 학습 모델과, 특징 추출용의 학습 모델과 쌍을 이룬 복수의 상기용의 학습 모델을 구비하고, 특징 추출용의 학습 모델을 참조해서 입력 데이터로부터 특징량을 추출하고, 상기용의 학습 모델을 참조해서 특징량의 차원 압축을 수반하는 상기 결과를 얻고, 특징량과 상기 결과의 차분이 최소로 되는 것을 조건으로 특징 추출용 학습 모델군 중에서 특징 추출용의 학습 모델을 선택하는 것을 특징으로 하는 화상 인식 방법」으로 한 것이다.
또한 본 발명에 있어서는 「복수의 특징 추출용의 학습 모델을 구비하고, 특징 추출용의 학습 모델을 참조해서 입력 데이터로부터 특징량을 추출하고, 특징량을 추출할 때의 스코어로부터 복수 종류의 학습 모델간에서 비교가 가능한 공통 척도를 계산하고, 복수의 특징 추출용의 학습 모델 중에서 공통 척도를 사용해서 특징 추출용의 학습 모델을 선택하는 것을 특징으로 하는 화상 인식 방법」으로 한 것이다.
본 발명을 적용하는 것에 의해, 입력 데이터를 화상으로 하고 특징량을 윤곽선으로 했을 때에, 추론 대상으로 하는 화상으로부터 특징량을 추출하고, 또한 특징량의 상기 결과를 취득하고, 특징량과 상기(想起) 결과의 차분이 최소로 되는 것을 조건으로 해서 특징량 추출용의 학습 모델을 선택하는 것이 가능해진다.
도 1은 본 발명의 실시예 1에 따른 화상 인식 장치의 기능 구성의 일례를 나타내는 도면.
도 2는 특징량 추출부(1)의 입출력을 설명하는 도면.
도 3은 전형적인 하나의 입력 데이터(30)와, 하나의 입력 데이터(30)에 대해서 시멘틱 세그멘테이션을 사용해서 구한 하나의 특징량(40)의 예를 나타내는 도면.
도 4는 데이터간 상기부(3)의 입출력을 설명하는 도면.
도 5는 전형적인 하나의 특징량(40)과, 하나의 조기(早期) 결과(50)의 예를 나타내는 도면.
도 6은 데이터간 상기부(3)에 있어서의 차원 압축을 설명하는 도면.
도 7은 데이터간 상기부(3)에 있어서의 차원 압축의 다른 형태.
도 8은 특징 추출용 학습 모델군(M2) 및 상기용 학습 모델군(M4)을 수납하는 데이터베이스에 있어서의 데이터 저장 방법을 나타내는 도면.
도 9는 학습 모델 선택부(5)의 신호 처리 플로를 나타내는 도면.
도 10a는 도 8의 데이터베이스(DB)에 수납된 특징 추출용의 학습 모델(m2a)(좌)과 이것에 대응하는 상기용 학습 모델(m4a)(우)의 구체적인 구성 사례를 나타내는 도면.
도 10b는 도 8의 데이터베이스(DB)에 수납된 특징 추출용의 학습 모델(m2b)(좌)과 이것에 대응하는 상기용 학습 모델(m4b)(우)의 구체적인 구성 사례를 나타내는 도면.
도 11은 특징량 추출부(1)가 특징 추출용의 학습 모델(m2a, m2b)을 사용해 출력한 특징량(40a, 40b)의 예를 나타내는 도면.
도 12는 데이터간 상기부(3)가 상기용의 학습 모델(m4a 및 m4b)을 참조해서, 특징량(40a 및 40b)으로부터 출력한 상기 결과(50a 및 50b)를 나타내는 도면.
도 13은 학습 모델 선택부의 화면 표시의 예를 나타내는 도면.
도 14는 본 발명의 실시예 2에 따른 화상 인식 장치의 기능 구성의 일례를 나타내는 도면.
도 15는 본 발명의 실시예 3에 따른 화상 인식 장치의 기능 구성의 일례를 나타내는 도면.
도 16은 교사 데이터 작성 지원부(208)에 있어서의 표시 화면예를 나타내는 도면.
도 17은 본 발명의 실시예 4에 따른 화상 인식 장치의 기능 구성의 일례를 나타내는 도면.
도 18은 도 17의 학습 모델 선택부(5A)의 신호 처리 플로를 나타내는 도면.
도 19는 처리 스텝 S303에 있어서의 공통 척도의 산출법의 예를 설명하는 도면.
도 20은 처리 스텝 S303에 있어서의 공통 척도의 산출법의 다른 예를 설명하는 도면.
도 21은 실시예 4의 변형 실시예 1에 따른 화상 인식 장치(7A)의 기능 구성예를 나타내는 도면.
도 22는 실시예 4의 변형 실시예 2에 따른 화상 인식 장치(7A)의 기능 구성예를 나타내는 도면.
이하, 본 발명의 구체적인 실시예에 대해, 도면을 참조하면서 설명한다.
[실시예 1]
계산기 장치를 사용해서 실현되는 본 발명의 실시예 1에 따른 화상 인식 장치의 기능 구성의 일례를 도 1에 나타낸다.
먼저 도 1의 기능 구성의 개요를 기술하면, 계산기 장치(7)는, CPU 등의 연산 기능에 의해 실현되는 처리인 특징량 추출부(1)와 데이터간 상기부(3)와 학습 모델 선택부(5)와, 일반적으로는 데이터베이스에 의해 실현되는 특징 추출용 학습 모델군(M2)과 상기용 학습 모델군(M4)에 의해 구성되어 있다. 계산기 장치(7)에는, 반도체 패턴의 검사에 있어서의 윤곽 추출의 대상으로 되는 화상의 운용 시에 있어서의 샘플인 입력 샘플(10)이 입력된다.
특징 추출용 학습 모델군(M2)은, 2개 이상의 특징 추출용의 학습 모델(m2)을 데이터베이스 내에 저장하고 있다. 상기용 학습 모델군(M4)은, 2개 이상의 상기용의 학습 모델(m4)을 데이터베이스 내에 저장하고 있다. 특징 추출용 학습 모델군(M2) 및 상기용 학습 모델군(M4)은, 특징 추출용 및 상기용의 학습 모델(m2, m4)의 할당된 기호를 공유하고, 같은 기호의 특징 추출용 및 상기용의 학습 모델(m2, m4)은 동일한 학습 샘플로부터 학습된 쌍이다.
특징량 추출부(1)는, 특징 추출용의 학습 모델(m2)을 참조해서 입력 샘플(10) 중의 화상으로부터 윤곽선(이하, 특징량 추출부(1)가 추출하는 윤곽선을 특징량으로 기재함)을 추출하는 기능을 구비하고, 특징 추출용 학습 모델군(M2) 중의 특징 추출용의 학습 모델(m2)마다, 입력 샘플(10) 중의 화상으로부터 특징량을 추출한다.
데이터간 상기부(3)는, 상기용의 학습 모델(m4)을 참조해서 특징량으로부터 특징량을 상기하는 기능을 구비하고, 특징량 추출부(1)가 출력한 특징량 각각으로부터 특징량을 상기한다. 이후, 데이터간 상기부(3)가 상기한 특징량을 상기 결과로 표기한다.
학습 모델 선택부(5)는, 특징량 추출부(1)가 출력한 특징량과 데이터간 상기부(3)가 출력한 특징량의 차분이 최소로 되는 학습 모델(m2)을 선택하고, 학습 모델(m2)에 할당된 기호를 출력한다. 이상 기술한 도 1 중의 각 기능은, 임의의 계산기 상의 신호 처리로 실현할 수 있다.
이하, 도 1 중의 각 구성 기능의 상세를 기술한다. 입력 샘플(10)은, 운용 시에 있어서 특징량의 추출 대상으로 되는 화상의 소수의 샘플이다. 소수의 샘플은, 운용 시에 촬영되는 화상을 랜덤하게 선택하는 것 등으로 취득된다. 입력 샘플(10)은 한정된 종류의 제조 공정 등으로부터 수집된 것으로서, 소수의 샘플 중에는, 하나 혹은 소수 종류의 화상으로 구성된다.
도 2는, 특징량 추출부(1)의 입출력을 설명하는 도면이다. 도 2를 사용해서 특징량 추출부(1)의 단체(單體)의 기능에 대해 설명한다. 특징량 추출부(1)는, 특징 추출용 학습 모델군(M2) 중의 하나의 특징 추출용의 학습 모델(m2)에 주목해서, 이것을 참조했을 때, 입력 샘플(10) 중의 하나의 입력 데이터(30)로부터, 시멘틱 세그멘테이션을 사용해서 하나의 특징량(40)을 데이터간 상기부(3)에 출력한다.
도 3은, 전형적인 하나의 입력 데이터(30)와, 하나의 입력 데이터(30)에 대해서 시멘틱 세그멘테이션을 사용해서 구한 하나의 특징량(40)의 예를 나타내고 있다. 먼저 입력 데이터(30)는, 도 3의 왼쪽에 예를 나타내는 바와 같이 윤곽선의 추출 대상으로 되는 화상이고, 화상 중의 각 화소는 예를 들면 256×256비트의 데이터이다.
여기에서 시멘틱 세그멘테이션이란, 화상 중의 각 화소의 카테고리를 판별하는 기계 학습의 한 방법이다. 특징 추출용의 학습 모델(m2)은, 시멘틱 세그멘테이션에 있어서 참조하는 하중 계수나 문턱값 등의 파라미터이다.
특징량 추출부(1)에 있어서, 시멘틱 세그멘테이션을 사용해서 구한 하나의 특징량(40)은 도 3의 오른쪽에 예를 나타내는 바와 같이, 입력 데이터(30) 내의 구성 요소(화소)를 윤곽선(41), 폐색 영역(42)(윤곽선(41)에 둘러싸인 영역), 배경(43) 같은 카테고리로 판별한 것(윤곽선의 추출 결과)이다.
도 3에 의해 특징량 추출부(1)의 입력(하나의 입력 데이터(30))과 출력(하나의 특징량(40))의 관계를, 일례를 들어 설명했지만, 이 추출은, 특징 추출용의 학습 모델(m2)을 사용해서 실현되어 있으므로, 다음에 특징 추출용의 학습 모델(m2)측에 대해 설명한다.
특징 추출용의 학습 모델(m2)은, 입력 데이터(30)와 교사 데이터의 세트의, 하나 이상으로 구성되는 학습 샘플로부터 소정의 학습 연산에 의해 계산된다. 여기에서 교사 데이터란, 도 3의 왼쪽에 예시한 특징량(40)과 같은 포맷의 화상으로서, 화상 중의 각 화소의 카테고리는 적절히 할당되어 있다. 이 학습 연산에서는, 학습 샘플에 포함되는 입력 데이터(30)로부터 특징량 추출부(1)가 출력하는 특징량과, 학습 샘플 중의 교사 데이터의 차분이 최소가 되도록 최적화된다.
이 학습 연산에 의해서, 특징량 추출부(1)는 특징 추출용의 학습 모델(m2)을 참조했을 때에, 학습 샘플과 유사한 입력 데이터(30)가 부여되었을 때에는, 입력 데이터(30) 중의 각 화소의 카테고리가 정밀하게 판별된 특징량(40)을 출력할 수 있게 된다. 한편, 특징량 추출부(1)는 학습 모델(m2)을 참조했을 때에, 학습 샘플과 괴리한 입력 데이터(30)가 부여되었을 때에는, 최적화의 범위 밖이기 때문에, 특징량(40) 중의 화소에는 오판별이 포함되게 된다. 오판별은, 입력 데이터(30) 중에서 특히 학습 샘플과 화상의 겉보기가 괴리한 장소에서 나타나기 쉬워진다.
도 1의 구성도에 있어서 특징량 추출부(1)는, 입력 샘플(10) 중의 입력 데이터(30)(하나 이상), 및 특징 추출용 학습 모델군(M2)에 포함되는 특징 추출용의 학습 모델(m2)(2개 이상)의 조합 각각에 대해서, 특징량(40)을 추출한다.
도 4는, 데이터간 상기부(3)의 입출력을 설명하는 도면이다. 다음에 도 4를 사용해서 데이터간 상기부(3)의 단체의 기능에 대해 설명한다. 데이터간 상기부(3)는, 상기용 학습 모델군(M4) 중의 하나의 상기용의 학습 모델(m4)을 참조했을 때, 하나의 특징량(40)으로부터 하나의 상기 결과(50)를, 차원 압축을 사용해서 학습 모델 선택부(5)에 출력한다.
도 5는, 전형적인 하나의 특징량(40)과, 하나의 조기 결과(50)의 예를 나타내고 있다. 먼저 도 5 우측의 상기 결과(50)는, 도 5의 왼쪽에 나타내는 특징량(40)(윤곽선(41), 폐색 영역(42), 배경(43)의 카테고리로 구성)과 구성 요소를 같게 한 카테고리인, 윤곽선(51), 폐색 영역(52), 배경(53)으로 구성되어 있다. 도 1의 구성도에 있어서 데이터간 상기부(4)는, 특징량 추출부(1)가 출력하는 특징량(40), 및 상기용 학습 모델군(M4)에 포함되는 상기용의 학습 모델(14)의 조합 각각에 대해서, 상기 결과(50)를 출력한다.
도 5의 도시에 따르면, 특징량(40)과 상기 결과(50)의 차이는 반드시 명확하지는 않지만, 상기 결과(50)는 특징량(40)을 차원 압축한 정보이다. 데이터간 상기부(3)에 있어서의 차원 압축에 대해 도 6을 사용해서 설명한다. 차원 압축이란, 특징량(40) 및 상기 결과(50)를 구성 요소(화소)로 이루어지는 고차원 데이터(화소수의 차원의 데이터)로 파악했을 때, 특징량(40)을 특징량(40)보다도 차원이 낮은 차원 압축 데이터(70)로 사상(寫象)(압축)한 후에, 다시 상기 결과(50)의 차원으로 다시 사상(복원)하는 연산을 가리킨다.
이 차원 압축은, 특징량(40)이 차원 압축 데이터(70)에 따른 고차원 공간 중의 소정 범위에 있으면, 특징량(40)으로부터 차원 압축 데이터(70)로 압축되는 과정에서 거의 정보가 소실되지 않고, 상기 결과(50)와 특징량(40)의 차분은 작아진다는 성질이 있다. 차원 압축에는 반대로, 특징량(40)이 고차원 공간 중의 소정 범위 내로부터 일탈해 있을 경우, 특징량(40)으로부터 차원 압축 데이터(70)로 압축되는 과정에서 정보가 소실되어 버려, 상기 결과(50)와 특징량(40)의 차분은 커진다는 성질도 있다. 이 차원 압축은, 주성분 분석이나, 심층 학습의 오토 인코더 등의 일반적인 알고리즘을 적용함으로써 실현할 수 있다.
도 7은, 데이터간 상기부(3)에 있어서의 차원 압축의 다른 형태를 설명하는 도면이다. 도 7에 나타내는 바와 같이, 차원 압축에서는, 특징량(40)과 차원 압축 데이터(70) 사이 혹은 차원 압축 데이터(70)와 상기 결과(50) 사이에 데이터를 사상하는 중간 데이터(71 및 72)를 포함해도 된다. 이 경우도, 이상 기술한 성질은 변하지 않는다.
도 4에 의해 데이터간 상기부(3)의 입력(하나의 특징량(40))과 출력(하나의 조기 결과(50))의 관계를, 일례를 들어 설명했지만, 이 차원 압축은, 상기용의 학습 모델(m4)을 사용해서 실현되어 있으므로, 다음에 상기용의 학습 모델(m4)측에 대해 설명한다.
상기용의 학습 모델(m4)은, 차원 압축에 있어서 참조하는 하중 계수나 문턱값 등의 파라미터이다. 학습 연산에 있어서, 상기용의 학습 모델(m4)은, 하나 이상의 특징량(40)으로 이루어지는 학습 샘플로부터, 학습 샘플 내의 특징량(40)과 그 상기 결과(50)의 차분이 작아지도록 구해진다. 이 학습 연산에 의해서, 학습 샘플 내의 특징량(40)이 저차원 데이터(70)로 압축되어도 정보를 소실하는 일이 거의 완전히 없어지게 된다(학습 샘플 내의 특징량(40)의 분포의 복잡성이 상기용의 학습 모델(m4)의 허용 범위에 있으면, 학습 샘플 내의 특징량(40)이 저차원 데이터(70)로 압축되어도 정보는 거의 완전히 소실되지 않음).
그 결과, 학습 샘플과 유사한 특징량(40)이 데이터간 상기부(3)에 부여되었을 때에는, 저차원 데이터(70)로 압축되어도 소실되는 정보가 작기(혹은 거의 완전히 없음)때문에, 상기 결과(50)와 특징량(40)의 차분은 작아진다. 한편, 학습 샘플과 괴리한 특징량(40)이 데이터간 상기부(3)에 부여되었을 때에는, 저차원 데이터(70)로 압축되는 과정에서 많은 정보가 소실되기 때문에, 상기 결과(50)와 특징량(40)의 차분은 커진다.
도 8은, 특징 추출용 학습 모델군(M2) 및 상기용 학습 모델군(M4)을 수납하는 데이터베이스(DB)에 있어서의 데이터 저장 방법을 나타내는 도면이다. 특징 추출용 학습 모델군(M2) 및 상기용 학습 모델군(M4)에 있어서, 저장된 2개 이상의 특징 추출용의 학습 모델(m2) 및 상기용의 학습 모델(m4)은, 도 8에 나타내는 바와 같이 a, b 같은 동일한 기호(20)가 할당되어 예를 들면 데이터베이스(DB) 내에 관리된다. 여기에서 기호(20)는 시리얼 번호 등, 임의의 기호를 할당해도 된다. 동일한 기호가 할당된 특징 추출용의 학습 모델(m2) 및 상기용의 학습 모델(m4)은, 같은 학습 샘플로부터 계산된 쌍이다.
도 9의 플로를 사용해서 학습 모델 선택부(5)의 신호 처리의 개요에 대해 설명한다. 또 이 플로에 있어서, 처리 스텝 S1과 처리 스텝 S6의 조합은, 학습 모델마다 이들 사이의 처리를 반복해 실행하는 것을 의미하고 있다. 또한 이 플로에 있어서, 처리 스텝 S2와 처리 스텝 S4의 조합은, 특징량마다 이들 사이의 처리를 반복해 실행하는 것을 의미하고 있다.
도 9의 플로에 따르면, 우선, 특징 추출용 학습 모델군(M2) 중의 특징 추출용의 학습 모델(m2)의 각각에서(처리 스텝 S1 내지 처리 스텝 S6), 특징량 추출부(1)가 출력한 특징량(40)의 각각에 대해(처리 스텝 S2 내지 처리 스텝 S4), 특징량(40)과 상기 결과(50)의 차분을 구한다(처리 스텝 S3). 그리고, 특징량(40)의 각각으로부터 구한 처리 스텝 S3의 차분으로부터, 복수의 특징량(40)에 걸친 차분의 통계량을 계산한다(처리 스텝 S5).
이상의 반복 처리가 모든 학습 모델, 및 특징량(40)에 대해서 실행된 후에, 처리 스텝 S7의 처리에 들어간다. 처리 스텝 S7에서는, 복수의 특징 추출용의 학습 모델(m2) 중에서, 처리 스텝 S5에서 구한 차분의 통계량의 최소값을 구한다. 그리고 처리 스텝 S8에서는, 처리 스텝 S3의 차분이 처리 스텝 S7의 최소값을 취할 때의 특징 추출용의 학습 모델(m2)의 기호(20)(도 8 참조)를 선택한다. 처리 스텝 S8에서 선택한 기호(20)로부터는, 데이터베이스(DB)를 참조하는 것에 의해 특징 추출용의 학습 모델(m2) 및 상기용의 학습 모델(m4)을 일의(一意)로 특정할 수 있다.
이하, 도 9의 처리 스텝 S3의 상세를, 도 10a, 도 10b, 도 11, 도 12의 예를 사용해 설명한다.
먼저 도 10a는, 도 8의 데이터베이스(DB)에 수납된 특징 추출용의 학습 모델(m2a)(좌)과 이것에 대응하는 상기용 학습 모델(m4a)(우)의 구체적인 구성 사례를 나타내고 있다. 또한, 도 10b는, 도 8의 데이터베이스(DB)에 수납된 특징 추출용의 학습 모델(m2b)(좌)과 이것에 대응하는 상기용 학습 모델(m4b)(우)의 구체적인 구성 사례를 나타내고 있다.
또, 처리 스텝 S3의 처리를 행함에 있어서, 도 8의 데이터베이스(DB)에 저장된 각종 데이터는, 미리, 이하와 같이 준비되어 있는 것으로 한다.
우선, 도 8의 데이터베이스(DB)에 저장된 특징 추출용의 학습 모델(m2a)은 도 10a에 나타내는 바와 같이, 입력 데이터(30a)와 교사 데이터(60a), 및 입력 데이터(30a)에 유사한 입력 데이터(30)와 그 교사 데이터를 학습 샘플로 해서 학습되어 있다. 또한, 특징 추출용의 학습 모델(m2b)은 도 10b에 나타내는 바와 같이, 입력 데이터(30b)와 교사 데이터(60b), 및 입력 데이터(30b)에 유사한 입력 데이터(30)와 교사 데이터를 학습 샘플로 해서 학습되어 있다.
또한 도 10a, 도 10b에 나타내는 바와 같이 교사 데이터(60a 및 60b)에는, 입력 데이터(30a 및 30b)의 각 화소로부터 이상적으로 특징량(40)이 추출된 경우의 윤곽선(61a 및 61b), 폐색 영역(62a 및 62b), 배경(63a 및 63b)의 카테고리가 할당되어 있다.
여기에서 도 10a의 교사 데이터(60a)에서는 중앙부(64a)에 있어서 좌우의 폐색 영역(62a)은 떨어져 있는 반면, 도 10b의 교사 데이터(60b)에서는 중앙부(64b)에 있어서 좌우의 폐색 영역(62a)이 연결되어 있다는 차이가 있다. 또한, 상기용의 학습 모델(m4a)은, 교사 데이터(60a), 및 입력 데이터(30a)에 유사한 화상과 그 교사 데이터로부터 사전에 학습되어 있다. 상기용의 학습 모델(m4b)은, 교사 데이터(60ab) 및 입력 데이터(30b)에 유사한 화상과 그 교사 데이터로부터 학습되어 있다.
이하, 입력 데이터(30a)와 거의 같은 화상 1매가 입력 샘플(10)로서 부여된 경우를 예로 들어 설명한다. 도 11은, 특징량 추출부(1)가 특징 추출용의 학습 모델(m2a, m2b)을 사용해 출력한 특징량(40a, 40b)의 예를 나타내는 도면이다.
이때 도 11의 왼쪽에 나타내는 바와 같이, 특징량 추출부(1)가 특징 추출용의 학습 모델(m2a)을 사용해 출력한 특징량(40a)에서는, 입력 샘플(10)과 유사한 도 10a의 입력 데이터(30a)가 학습 샘플 중에 포함되기 때문에, 중앙부(44a)를 포함하는 모든 장소에 있어서 윤곽선(41a), 폐색 영역(42a), 배경(43a)의 카테고리가 정확하게 판별되어 있다.
한편, 도 11의 오른쪽에 나타내는 바와 같이, 특징 추출용의 학습 모델(m2b)을 사용해 출력된 특징량(40b)에는, 그 학습 샘플의 입력 데이터(30b)(도 10b 참조) 및 그것에 유사한 입력 데이터(30)는 입력 샘플(10)과 유사하지 않기 때문에, 특징량(40b) 중에 있어서 윤곽선(41b), 폐색 영역(42b), 배경(43b)의 카테고리에는 오판별이 포함된다. 또한, 이 오판별은, 입력 데이터(30a)와 입력 데이터(30b) 사이에서, 화상의 겉보기의 차이가 큰 중앙부(44b)에 집중한다.
도 12는, 데이터간 상기부(3)가 상기용의 학습 모델(m4a 및 m4b)을 참조해서, 특징량(40a 및 40b)으로부터 출력한 상기 결과(50a 및 50b)를 나타내고 있다.
도 12 왼쪽의 상기 결과(50a)는, 상기용의 학습 모델(m4a)을 학습했을 때의 학습 샘플 중에는, 특징량(40a)과 유사한 교사 데이터(60a)가 포함되기 때문에, 중앙부(54a)를 포함한 화상 전체에 있어서 특징량(40a)과 상기 결과(50a) 사이에는 차분이 거의 발생해 있지 않다. 한편, 도 12 오른쪽의 상기 결과(50b)는, 상기용의 학습 모델(m4b)을 학습했을 때의 학습 샘플 중에는, 특징량(40b) 같이 중앙부(44b)에 오판별을 포함하는 특징량(40)이 포함되지 않기 때문에, 중앙부(54b)에 있어서 특징량(40b)과의 사이에 큰 차분이 나타나 있다.
도 10a, 도 10b, 도 11, 도 12의 예를 근거로 해서, 도 9의 처리 스텝 S3에서의 처리에 있어서의 차분 도출은, 특징량(40) 및 상기 결과(50)를 고차원벡터로 했을 때의, 벡터간의 거리로 계산한다.
예를 들면, 특징량(40) 및 상기 결과(50)에 있어서의 각 화소의 윤곽선(41 및 51), 폐색 영역(42 및 52), 배경(43 및 53)을 차례로 제1, 제2, 제3 요소로 한 요소 벡터를, 특징량(40) 및 상기 결과(50)의 화소수만큼 벡터 결합한 특징량 벡터(화소수가 N개이면 3N차원)간의 유클리드 거리로, 벡터간의 거리는 계산할 수 있다. 단, 유클리드 거리 이외에도, 2개의 특징량 벡터간의 거리를 계측할 수 있는 척도이면, 임의의 척도로 벡터간의 거리는 계산할 수 있다.
또, 차원 압축에서는, 윤곽선(51), 폐색 영역(52), 배경(53)의 데이터의 형태는, 윤곽선(41), 폐색 영역(42), 배경(43)의 데이터의 형태와 달라도, 벡터간의 거리를 계산할 수 있는 척도가 있으면 문제가 되지 않는다. 예를 들면, 전자의 데이터의 형태가 연속값, 후자의 데이터의 형태가 이산값이라 해도, 유클리드 거리는 계산할 수 있으므로 문제가 되지 않는다.
도 9로 돌아가, 처리 스텝 S5의 구체적인 처리 내용에 대해 설명한다. 처리 스텝 S5에서는, 입력 샘플(10) 중의 입력 데이터(30) 각각에 대해 구한 처리 스텝 S3의 차분의 통계량을 계산한다.
차분의 통계량은, 복수의 특징량 벡터의 거리의 상가(相加) 평균으로 계산할 수 있다. 단, 상가 평균에 한하지 않고 조화(調和) 평균이나 중앙값 등, 복수의 특징량 벡터로부터 대표값을 가능한 것이면, 임의의 통계량을 적용할 수 있다. 차분의 통계량은, 예를 들면 입력 샘플(10) 중의 입력 데이터(30)가 주로 입력 데이터(30a)에 유사한 것으로 구성될 경우, 상기용의 학습 모델(m4a)을 참조해서 구한 차분의 통계량은 작아지는 반면, 상기용의 학습 모델(m4b)을 참조해서 구한 차분의 통계량은 커진다.
도 9의 처리 스텝 S7에서는, 처리 스텝 S5의 차분의 통계량의 최소값을 계산한다. 처리 스텝 S8에서는, 처리 스텝 S5의 차분의 통계량이 최소값을 취할 때의 특징 추출용의 학습 모델(m2)에 할당된 기호(20)를 출력한다. 예를 들면 입력 샘플(10) 중의 입력 데이터(30)가 입력 데이터(30a)에 유사할 경우, 도 8의 데이터베이스 중에 있어서 상기용의 학습 모델(m4a)에 할당된 기호(a)가 출력된다. 또, 학습 모델 선택부(5)는 기호(20) 이외에도, 기호(20)가 지정하는 특징 추출용의 학습 모델(m2)의 파일의 실태나 파일명 등, 특징 추출용의 학습 모델(m2)이 일의로 정해지는 정보를 출력하도록 해도 된다.
도 13은, 학습 모델 선택부(5)의 화면 표시의 예를 나타내는 도면이다. 학습 모델 선택부(5)는, 도 13의 화면(80) 내용과 같은 화면 표시를 사용해서, 실시예 1의 실행 제어 등을 행하는 작업자가 선택 결과를 눈으로 보고 확인할 수 있도록 해도 된다. 선택 결과(81)에는 도 8의 데이터베이스 중의 기호(20) 중, 학습 모델 선택부(5)로 선택된 것(도면 중의 예 a)을 나타내고 있다. 화면(80) 중에는 작업자가 학습 모델 선택의 상세를 파악할 수 있도록, 82와 같이 선택한 학습 모델의 차분의 수치(처리 스텝 S5의 차분의 통계량)나, 83과 같이 학습 모델 선택의 대상으로 한 기호(20)의 선택 범위를 표시해도 된다.
본 발명의 실시예 1에서는, 이상 기술한 방법에 의해서 특징량 추출부(1)가 출력한 특징량(40)과 데이터간 상기부(3)가 출력한 상기 결과(50)의 차분을 구하고, 차분이 최소로 되는 조건으로 기호(20)를 선택하는 것에 의해서, 특징량 추출용 학습 모델군 중에서 입력 샘플(10)에 대해 최적인 특징 추출용의 학습 모델(m2)을 선택하는 것이 가능해진다. 이때에 차분을 구하기 위해, 특허문헌 1과 달리 정해값은 불필요하고, 특허문헌 2와 달리 확신도는 불필요하다.
[실시예 2]
실시예 1에 있어서는, 학습 모델이 적절히 구성되어 있는 것을 전제로 해서 화상 인식 장치를 구성하고 있지만, 실시예 2에 있어서는 학습 모델이 적절히 구성되어 있지 않은 것도 고려한 화상 인식 장치를 제안하고 있다.
본 발명의 실시예 2에 따른 화상 인식 장치(7)의 기능 구성예를 도 14에 나타낸다. 또 도 14의 화상 인식 장치(7)가 도 1의 구성과 상위한 점은, 학습 모델 적부(適否) 판정부(106)를 추가하고, 도 1의 학습 모델 선택부(5)를 학습 모델 재선택부(107)와 같이 구성한 점이다.
도 14에 있어서, 우선 m2 및 m4는, 실시예 1에 의해 선택된 특징 추출용의 학습 모델 및 상기용의 학습 모델이다. 여기에서는, 이 학습 모델에 할당된 기호를 x로 하고 있다.
입력 샘플(10)은, 윤곽 추출의 장기 운용 시에 있어서 소정의 타이밍으로 추출된 입력 데이터(30)의 소수의 샘플이다. 장기 운용 시란, 실시예 1의 방법으로 학습 모델을 선택한 후에, 소정 이상의 기간, 윤곽 추출을 계속 운용한 타이밍을 가리킨다.
특징량 추출부(1)는, 특징 추출용의 학습 모델(m2)을 참조해서 입력 샘플(10) 중의 입력 데이터(30)로부터 특징량(40)을 추출한다. 데이터간 상기부(103)는, 상기용의 학습 모델(m4)을 참조해서, 특징량 추출부(1)가 출력한 특징량(40)으로부터 상기 결과(50)를 출력한다.
실시예 2에 있어서 추가된 학습 모델 적부 판정부(106)는, 특징량 추출부(1) 및 데이터간 상기부(3)가 출력한 특징량(40) 및 상기 결과(50)로부터, 도 9의 처리 스텝 S5와 마찬가지의 수순으로 차분의 통계량을 계산한다. 그리고, 이 차분의 통계량이 사전에 정해진 소정 문턱값보다도 커지면, 입력 샘플(10)을 샘플링한 장기 운용 시에 있어서의 입력 데이터(30)에 대해, 기호 x의 학습 모델이 부적합하다고 판정한다. 이 판정의 결과는, 학습 모델 재선택부(107)(도 1의 학습 모델 선택부(5)에 상당)가 출력하는 화면(80)의 표시 등으로 출력한다. 혹은, 파일로 출력하거나, 외부의 계산기에 네트워크를 통해 통지해도 된다.
학습 모델 적부 판정부(106)의 후단에는, 추가로 학습 모델 재선택부(107)를 마련해도 된다. 학습 모델 재선택부(107)는, 학습 모델 적부 판정부(106)가 부적합하다고 판정되었을 때에, 입력 샘플(10)을 입력으로 해서(구(舊)입력 샘플(10)을 신(新)입력 샘플(10)로 치환해서), 실시예 1의 수순으로 특징량 추출용의 학습 모델(12)을 선택한다.
본 발명의 실시예 2에서는, 이상 기술한 방법에 의해, 장기 운용의 과정에서 입력 데이터(30)의 성질이 변화하고, 실시예 1의 방법에서 선택한 윤곽 추출용의 학습 모델(12)이 부적합하게 된 것을 검출할 수 있다. 또한 추가로, 입력 샘플(110)에 최적인 윤곽 추출용의 학습 모델(12)의 재선택도 가능해진다.
또 도 14에 나타낸 실시예 2의 구성은, 도 1에 나타내는 실시예 1의 구성에 있어서, 데이터간 상기부(3)와 학습 모델 선택부(5) 사이에 학습 모델 적부 판정부(106)를 설치한 것이라 할 수 있고, 화상 인식 장치(7)에 있어서의 작동 당초에는 학습 모델 적부 판정부(106)를 경유하지 않고, 그 후의 운전 경험에 근거해서 학습 모델 적부 판정부(106)가 기능해, 학습 모델 선택부(5)에 있어서 재선택을 행하는 것이라 할 수 있다.
[실시예 3]
실시예 3에 있어서는, 실시예 1, 실시예 2에 기재된 화상 인식 장치(7)를 실제 운용하는 것을 전제로 해서, 화상 인식 장치(7)의 설계, 준비 단계에 있어서 필요한 교사 데이터를 간편하게 입수하고, 학습 모델을 학습하는 것에 대해 설명한다. 따라서, 실시예 3의 학습 결과로서의 학습 모델이 실시예 1, 실시예 2에 반영되어 가는 것이다.
본 발명의 실시예 3에 따른 화상 인식 장치의 기능 구성의 일례를 도 15에 나타낸다. 또 도 15의 화상 인식 장치(7)가 도 1의 구성과 상위한 점은, 교사 데이터 작성 지원부(208)와 학습 모델 학습부(209)를 추가한 점이다.
또 여기에서 도 15에는, 도 1에 있어서의 학습 모델 선택부(5) 혹은 도 14에 있어서의 학습 모델 적부 판정부(106)가 기술되어 있지 않지만, 이들 기능은 기술(記述)이 없을 뿐, 실제 운용에 있어서는 실시예 1, 실시예 2와 같이 구성되는 것이다.
m2 및 m4는, 실시예 1에 의해서 선택된 특징 추출용의 학습 모델 및 상기용의 학습 모델이다. 입력 샘플(10)은, 임의의 입력 데이터(30)의 집합으로서, 예를 들면 실시예 1, 2에서 기술한 입력 샘플(10)이어도 된다. 특징량 추출부(1)는, 특징 추출용의 학습 모델(m2)을 참조해서 입력 샘플(10) 중의 입력 데이터(30)로부터 특징량(40)을 추출한다. 데이터간 상기부(3)는, 상기용의 학습 모델(m4)을 참조해서, 특징량 추출부(1)가 출력한 특징량(40)으로부터 상기 결과(50)를 출력한다.
실시예 3에서 추가된 교사 데이터 작성 지원부(208)는, 특징량 추출부(1) 및 데이터간 상기부(3)가 출력한 특징량(40) 및 상기 결과(50)의 차분을, 도 9의 처리 스텝 S3의 수순으로 구하고, 이 차분이 많은 장소로 입력 개소를 좁힌 교사 부가를 위한 유저 인터페이스를 포함해 구성한 것이다.
도 16 중의 화면(90)은, 교사 데이터 작성 지원부(208)의 유저 인터페이스의 일례이고, 입력 화면(91), 입력 선택(92), 입력 펜(93)으로 구성된다. 입력 화면(91)에서는, 입력 데이터(30)를 밑그림으로 해서, 윤곽선(61), 폐색 영역(62), 배경(63)의 카테고리를 할당하는 작업을 작업자가 행하는 것을 가능하게 한다. 입력 화면(91)의 라벨의 할당은, 작업자가 입력 선택(92)의 라디오 버튼 중에서 윤곽선(61), 폐색 영역(62), 배경(63)의 카테고리를 선택하고, 입력 펜(93)을 조작함으로써 행해진다. 이와 같이, 학습 샘플 작성 지원부(208)에 있어서의 유저 인터페이스에 있어서, 입력 데이터를 밑그림으로 해서 특징량의 카테고리를 묘화하고, 추가로 특징량의 카테고리를 입력할 수 있는 기능을 갖는 것이 좋다.
교사 데이터 작성 지원부(208)는 입력 화면(91)에 있어서, 처리 스텝 S3의 차분이 적은 장소와 많은 장소를 판별한다. 이 적은 장소와 많은 장소는, 입력 화면(91) 중의 입력 데이터(30)를 블록 등으로 소영역 분할했을 때의 처리 스텝 S3의 차분의 밀도가 문턱값보다도 높으면 차분이 많고, 낮으면 적은 것으로 한다. 그리고, 처리 스텝 S3의 차분이 적은 장소의 라벨을 특징량(40)과 같아지도록 해서 표시한다. 즉, 특징량(40) 중의 윤곽선(41), 폐색 영역(42), 배경(43)을 차례로, 입력 화면(91) 중의 윤곽선(61), 폐색 영역(62), 배경(63)에 할당한다. 그리고, 처리 스텝 S3의 차분이 많은 영역으로 좁혀서, 작업자에게 입력 화면(91)에의 입력을 촉진한다.
예를 들면, 입력 화면(91)의 밑그림이 입력 데이터(30a), 특징 추출용의 학습 모델(m2) 및 상기용의 학습 모델(m4)이 각각 m2b 및 m4b일 때는, 상기 처리 스텝 S3의 차분이 있는 장소는, (입력 데이터(30a)로부터 추출된 특징량(40b)과, 특징량(40b)으로부터 추출된 상기 결과(50b) 사이에서 차분이 많은) 중앙부(44b)로 된다.
여기에서 교사 데이터 작성 지원부(208)는, (특징 추출용의 학습 모델(m2) 및 상기용의 학습 모델(m4)을, 복수 쌍의 특징 추출용의 학습 모델(m2) 및 상기용의 학습 모델(m4)로 구성되도록 해서), 복수의 특징량(40) 및 상기 결과(50)로부터, 화면(91) 중의 카테고리(윤곽선(61), 폐색 영역(62), 배경(63))를 생성하는 것에 의해, 상기 화면(91) 중의 카테고리의 정밀도 개선을 도모해도 된다. 예를 들면, 복수의 특징량(40) 및 상기 결과(50)의 차분의 최빈값 등의 통계량으로부터 상기 처리 스텝 S3의 차분이 있는 장소를 구하고, 화면(91) 중의 카테고리를 생성해도 된다. 혹은, 화면(90) 상에 도시하지 않은 버튼의 조작에 의해, 복수의 특징량(40) 및 상기 결과(50) 중에서, 화면(91) 중의 카테고리의 생성에 사용하기에 적절한 것을 작업자가 전환할 수 있도록 해도 된다. 이와 같이, 학습 샘플 작성 지원부(208)가 복수의 특징량과 상기 결과를 사용해서 입력 개소를 구하거나, 혹은 입력 개소를 전환하는 것 중 적어도 한쪽을 행하는 것으로 하는 것이 좋다.
또한 실시예 3에 의해 추가된 학습 모델 학습부(209)는, 입력 샘플(10) 중의 입력 데이터(30) 및 화면(90)의 입력 결과를, 교사 데이터를 세트로 한 학습 샘플을 사용해서, 특징 추출용의 학습 모델(m2)을 학습한다. 학습 모델 학습부(209)의 학습에서는, 학습 모델을 참조했을 때의 특징량(40)의 추론 결과가 우수하도록, 상기 학습 샘플 이외에 임의의 학습 샘플을 부가해도 된다.
학습 모델 학습부(209)에 있어서의 학습에서는, 실시예 2에서 기술한 장기 운용 시에 있어서의 학습 모델의 재선택에 대비해서, 특징 추출용의 학습 모델(m2)에 부가해 상기용의 학습 모델(m4)을 학습하고, 새로운 기호(20)를 할당해서 도 8의 데이터베이스(DB)에 추가해도 된다.
이와 같이 해서, 학습 모델 학습부가 추가로 상기 상기용의 학습 모델을 학습하고, 학습 모델 학습부가 학습한 특징량의 학습 모델을 특징 추출용 학습 모델군에, 학습 모델 학습부가 학습한 상기용의 학습 모델을 특징 추출용 학습 모델군에 추가하게 된다.
본 발명의 실시예 3에서는, 이상 기술한 방법에 의해서, 입력 샘플(10)을 샘플링한 모집단에 대해 최적인 특징 추출용의 학습 모델(m2)을, 교사 데이터 작성 지원부(208)에 의해 작업자가 입력하는 개소를 좁힌 교사 데이터를 사용해서 학습할 수 있다. 이 작업자가 입력하는 개소를 좁히는 것에 의해, 입력 샘플(10) 중의 입력 데이터(30)의 모든 화소에 교사 데이터를 할당하는 것보다도, 교사 데이터 작성의 공정수를 저감할 수 있다.
[실시예 4]
실시예 4에 있어서는, 최적인 학습 모델을 간편하게 입수하는 것에 대해 설명한다.
본 발명의 실시예 4에 따른 화상 인식 장치(7A)의 기능 구성의 일례를 도 17에 나타낸다. 도 17의 구성은, 도 1의 구성에 있어서 데이터간 상기부(3)의 구성을 제외한 것이지만, 특징 추출용 학습 모델군(M2), 특징량 추출부(1), 학습 모델 선택부(5)에 대해서는, 일부 그 취급 데이터, 내부 구성 혹은 처리 내용 등이 상위하므로, 이들을 각각 도 17에 있어서는 특징 추출용 학습 모델군(M2A), 특징량 추출부(1A), 학습 모델 선택부(5A)로서 표기하고 있다.
우선 특징 추출용 학습 모델군(M2A)은, 특징 추출용의 학습 모델(m2) 중에서도 특히, 특징량(40)을 추출할 때에 카테고리마다의 스코어를 출력하는 것이 가능한 종류의 특징 추출용의 학습 모델(m2a)의 집합이다.
특징량 추출부(1A)는, 특징 추출용 학습 모델군(M2A) 중의 특징 추출용의 학습 모델(m2a) 각각을 참조해서, 입력 샘플(10) 중의 입력 데이터(30) 각각으로부터 특징량(40) 및 상기 스코어를 출력한다.
학습 모델 선택부(5A)는, 상기 스코어로부터 복수 종류의 특징 추출용의 학습 모델(m2a)간에서 카테고리의 판별 결과의 신뢰도를 비교 가능한 공통 척도를 계산하고, 이 공통 척도가 최소로 되는 것을 조건으로 해서 최적인 특징 추출용의 학습 모델(m2a)을 선택한다.
도 18은, 도 17의 학습 모델 선택부(5A)의 신호 처리 플로를 나타내는 도면이다. 또 이 플로에 있어서, 처리 스텝 S301과 처리 스텝 S306의 조합은, 학습 모델마다 이들 사이의 처리를 반복해 실행하는 것을 의미하고 있다. 또한 이 플로에 있어서, 처리 스텝 S302와 처리 스텝 S304의 조합은, 입력 데이터(30)마다 이들 사이의 처리를 반복해 실행하는 것을 의미하고 있다.
도 18의 플로에 따르면, 우선, 특징 추출용 학습 모델군(M2A) 중의 특징 추출용의 학습 모델(m2a) 각각에서(처리 스텝 S301 내지 처리 스텝 S306), 입력 샘플(10) 중의 입력 데이터(30) 각각에 대해(처리 스텝 S302 내지 처리 스텝 S304), 처리 스텝 S303에 있어서 스코어로부터 공통 척도를 계산한다.
그리고, 입력 데이터(30) 각각으로부터 구한 처리 스텝 S303의 공통 척도로부터, 처리 스텝 S305에 있어서 각 입력 데이터(30) 중의 각 화소에 있어서의 공통 척도의 평균값이나 중앙값 등으로부터 공통 척도의 통계량을 계산한다.
이상의 반복 처리가 모든 학습 모델, 및 입력 데이터(30)에 대해서 실행된 후에, 처리 스텝 S307의 처리에 들어간다. 처리 스텝 S307에서는, 처리 스텝 S305에서 구한 공통 척도의 통계량의 최대값을 구한다. 그리고 처리 스텝 S308에서는, 공통 척도가 최대값을 취할 때의 특징 추출용의 학습 모델(m2a)의 기호(20)를 선택한다.
도 19에, 도 18의 처리 스텝 S303의 공통 척도의 예를 나타낸다. 그래프(311) 및 그래프(312)는, 종류가 다른 특징량 추출용의 학습 모델(m2a)로부터 구해진 카테고리마다의 스코어를 나타낸다. 상기 종류란, 특징량 추출용의 학습 모델(m2a)에 있어서의 기계 학습의 수리 모델이나 심층 학습의 네트워크 구조 등이 다른 것을 가리킨다. 그래프(311) 및 그래프(312) 중의 카테고리란, 특징량(40)을 구성하는 윤곽선(41), 폐색 영역(42), 배경(43)에 할당된 라벨을 가리킨다. 그래프(311) 및 그래프(312) 중의 2개의 상기 스코어를 보면, 그래프(312) 쪽이 그래프(311)보다도 값이 크지만, 상기 종류가 다르기 때문에 척도가 다르므로 대소를 비교할 수 없다.
여기에서, 일반적으로 특징량 추출용의 학습 모델(m2a)은, 상기 스코어가 최대인 카테고리로 판별한다. 이때에, 상기 스코어의 최대값과 다른 값에 차가 있을수록, 카테고리의 판별은 신뢰할 수 있다. 예를 들면, 그래프(312)의 상기 스코어는 카테고리 3이 가장 높지만, 카테고리 1과 카테고리 2의 상기 스코어의 차는 작다. 따라서, 그래프(312)로부터 카테고리 3으로 판별하는 것은, 근소한 외란으로 상기 스코어의 변동이 있으면 카테고리의 판별 결과가 변해 버리는 신뢰도가 낮은 것으로 생각된다. 반대로, 그래프(311)의 상기 스코어는, 가장 값이 큰 카테고리 3과, 다른 카테고리 1, 2의 사이에서 큰 차가 있다. 따라서, 그래프(311)로부터 카테고리 3으로 판별하는 것은, 다소의 외란이 있어도 카테고리의 판별 결과는 변하지 않는 신뢰도가 높은 것으로 생각된다.
따라서 처리 스텝 S303에서는, 상기 스코어의 편차를 공통 척도로 한다. 상기 편차란, 상기 스코어의 표준편차나 엔트로피 등의 편차의 정도를 나타내는 통계량이고, 큰 값을 취할수록 그래프(311) 같이 카테고리간의 상기 스코어에 차가 있는 것을 나타낸다. 혹은, 처리 스텝 S303에서는, 상기 스코어의 돌출도를 공통 척도로 해도 된다. 상기 돌출도란, 상기 스코어의 최대값이 다른 상기 스코어에 비해 어느 정도 돌출해서 큰지를 나타내는 지표이고, 예를 들면 그래프(311)에 있어서의 상기 스코어의 최대값과 상기 스코어의 평균값의 차나, 상기 스코어의 최대값과 상기 스코어의 2번째로 큰 값의 차로 계산할 수 있다.
도 20을 사용해, 처리 스텝 S303에 있어서의 공통 척도의 다른 예를 기술한다. 그래프(321)에 있어서의 확신도 1은, 그래프(311) 중에 있어서의 상기 스코어의 최대값이다. 이와 같이 상기 스코어의 최대값을 확신도로 하는 것은, 기계 학습을 사용한 카테고리 판별의 알고리즘에 있어서 일반적이다. 그래프(322)에 있어서의 확신도 2는, 그래프(312) 중에 있어서의 상기 스코어의 최대값이다. 그래프(321) 및 그래프(322)에 있어서의 정해율이란, 확신도 1 및 확신도 2가 소정값을 취했을 때의 카테고리의 판별 결과를 모집단으로 했을 때에, 어느 확률로 정해였는지를 나타내는 정해율의 기대값으로 되는 지표이다. 또 상기 모집단에는, 특징 추출용의 학습 모델(12)을 학습했을 때의 학습 샘플을 적용할 수 있지만, 이에 한하지 않으며 임의의 입력 데이터(30)와 그 교사 데이터의 세트를 적용할 수 있다.
도 18의 처리 스텝 S303에서는, 상기 정해율을 공통 척도로 할 수 있다. 예를 들면, 그래프(311) 및 그래프(312)로부터 계산되는 확신도가 k1 및 k2일 때, 그래프(321) 중 및 그래프(322) 중의 정해율은 y1 및 y2이고, y1 쪽이 y2보다도 높기 때문에, 그래프(311)로부터 구한 카테고리의 판별 결과 쪽이 정해율이 높은 점에서, 신뢰도가 높을 것으로 생각된다. 따라서, 처리 스텝 S303에서는, 확신도 1이나 확신도 2 같은 확신도를 정해율로 환산함으로써 공통 지표로 할 수 있다.
도 18의 처리 스텝 S303에서는, 복수 종류의 특징 추출용의 학습 모델(m2a)에 있어서, 상기 편차나 상기 돌출도의 크기가 크게 다를 경우에는, 도 20의 설명에서 기술한 것과 마찬가지의 수순으로 정해율로 환산하고나서, 공통 척도로 해도 된다. 혹은, 복수 종류의 특징 추출용의 학습 모델(m2a)간에서 크기의 편차를 억제하기 위해, 상기 모집단에 있어서의 상기 편차나 상기 돌출도의 평균값 등의 통계량을 구하고, 이 통계량으로 나눗셈해서 정규화해도 된다.
본 발명의 실시예 4에서는, 이상 기술한 방법에 의해서, 특징 추출용의 학습 모델(m2a)에 있어서 특징량(40)을 추출할 때에 상기 스코어를 출력하는 것이 가능한 종류의 것으로 한정하면, 복수의 특징 추출용의 학습 모델(m2a) 중에서 입력 샘플(10)에 최적인 것을 선택하는 것이 가능해진다. 또한, 특허문헌 2와 달리, 특징 추출용 학습 모델군(M2A) 중의 특징 추출용의 학습 모델(m2a)의 확신도가 각각 다른 지표여도, 특징 추출용의 학습 모델(m2a)을 선택하는 것이 가능해진다.
도 21은, 실시예 4의 변형 실시예 1에 따른 화상 인식 장치(7A)의 기능 구성예를 나타내고 있다. 도 21의 화상 인식 장치(7A)의 위쪽 부분은, 도 17의 구성을 채용하고, 아래쪽 반분은 도 14의 일부 구성을 조합한 것이다.
본 발명의 실시예 4의 변형 실시예 1에서는, 도 21에 나타내는 바와 같이, 실시예 2와 마찬가지로 장기 운용 시에 있어서, 입력 샘플(110)을 구성하는 입력 데이터(30)로부터 처리 스텝 S305와 마찬가지의 수순으로 구한 공통 척도의 통계량을 사용해서, 입력 샘플(10)에 대해 학습 모델 선택부(5A)가 선택한 특징 추출용의 학습 모델(m2)의 적부를 판정하는 학습 모델 적부 판정부(306)를 설치해도 된다. 학습 모델 적부 판정부(306)는 상기 처리 스텝 S305와 마찬가지의 수순으로 구한 공통 척도의 통계량이 사전에 정한 문턱값보다도 작으면, 신뢰도가 낮아 적합하지 않다고 판정한다. 또한 학습 모델 적부 판정부(306)가 적합하지 않은 것으로 판단했을 경우에, 입력 샘플(10)에 대해 적절한 특징 추출용의 학습 모델(m2)을 특징 추출용 학습 모델군(M2) 중에서 선택하는 학습 모델 재선택부(307)(특징량 추출부(301)와 학습 모델 선택부(306)의 기능을 내포함)를 설치해도 된다.
도 22는, 실시예 4의 변형 실시예 2에 따른 화상 인식 장치(7A)의 기능 구성예를 나타내고 있다. 도 22의 화상 인식 장치(7A)의 위쪽 부분은, 도 17의 구성을 채용하고, 아래쪽 반분은 도 15의 일부 구성을 조합한 것이다.
본 발명의 실시예 4의 변형 실시예 2에 따른 화상 인식 장치(7A)에서는, 입력 샘플(10) 중에서 도 18의 처리 스텝 S305의 공통 척도를 구하고, 교사 데이터 작성 지원부(208)에 있어서의 교사 데이터의 입력 개소를 상기 처리 스텝 S305의 공통 척도가 작은 개소(특징량(40)의 카테고리 판별의 신뢰도가 낮은 개소)로 좁힌 유저 인터페이스를 구비한 교사 데이터 작성 지원부(308), 및 교사 데이터 작성 지원부(308)에서 작성한 교사 데이터를 사용해서 특징량 추출용의 학습 모델(m2)을 학습하는 학습 모델 학습부(309)를 구비해도 된다.
이것에 의해 실시예 3과 마찬가지로, 입력 샘플(210)을 샘플링한 모집단에 대해서 최적인 특징 추출용의 학습 모델(m2)을, 작업자가 입력하는 개소를 좁힌 교사 데이터를 사용해서 학습할 수 있게 된다. 또한 학습 모델 학습부(309)는 학습한 특징량 추출용의 학습 모델(m2)을, 학습 모델 재선택부(307)에서 선택할 수 있도록 특징 추출용 학습 모델군(M2)에 부가해도 된다.
이상 기술한 본 발명의 실시예 1 내지 실시예 4에 있어서는, 그 본질을 일탈하지 않는 범위에 있어서 구성 요소를 이하와 같이 변경하는 것이 가능하다.
특징량(40)을 구성하는 카테고리는, 윤곽선(41), 폐색 영역(42), 배경(43)에 한하지 않는다. 예를 들면 윤곽선의 코너점 등의 카테고리를 부가해도 된다. 또한 윤곽선(41), 폐색 영역(42), 배경(43) 중에서 카테고리를 줄여도 된다. 이에 따라, 상기 결과(50이나 60a) 등의 교사 데이터의 카테고리의 구성 요소도 변화한다.
특징량(40)은 이상 기술한 윤곽선 이외에도, 입력 데이터(30)(즉 화상)로부터 추출할 수 있는 임의의 특징량으로 할 수 있다. 예를 들면, 입력 데이터(30)의 설계도나, 입력 데이터(30) 중의 결함을 특징량(40)으로 해도 된다. 이에 따라, 상기 결과(50이나 60a) 등의 교사 데이터를 구성하는 카테고리도 변화한다. 상기 임의의 특징량은, 상기 결과(50)가 취득 가능한 것이면, 각 화소의 카테고리에 한하지 않는다. 예를 들면, 상기 임의의 특징량은, 각 화소의 명도로 할 수 있다.
특징량 추출부(1)는, 이상 기술한 기계 학습을 사용해서 특징량(40)을 추출하는 방법 이외에도, 입력 샘플(10)에 따라 적정한 파라미터가 다른 화상 처리여도 된다. 이 경우, 특징 추출용의 학습 모델(m2)은, 상기 파라미터로 된다. 상기 화상 처리는 예를 들면, 입력 데이터(30) 중의 각 화소에 있어서 명도 구배와 명도를 구하고, 상기 파라미터 중의 소정의 문턱값과 비교해서, 입력 데이터(30) 중의 각 화소를, 윤곽선(41)과 배경(43)으로 카테고리 판별하는 것이어도 된다. 혹은, 특징량 추출부(1)는, 기계 학습과 상기 화상 처리를 혼재시켜도 된다. 이 경우, 특징량 추출부(1)는, 특징 추출용 학습 모델군(M2) 중의 특징 추출용의 학습 모델(m2)에 따라, 기계 학습과 상기 화상 처리를 전환해도 된다.
입력 데이터(30)는 이상 기술한 화상 이외에도, 실시예 1 내지 실시예 3에 있어서는 데이터간 상기부(3)가 차원 압축을 수반하는 상기 결과를 출력 가능한 임의의 데이터로 할 수 있다. 이에 따라, 상기 결과(50이나 60a) 등의 교사 데이터를 구성하는 카테고리도 변화한다. 예를 들면, 입력 데이터(30)를 발화(發話) 음성으로 하고, 특징량(40)을 알파벳으로 해도 된다.
본 발명의 학습 모델 선택은 윤곽선 추출용의 학습 모델의 선택 이외에도, 특징량으로부터 차원 압축을 수반하는 상기가 가능한 특징량을 취급하는 임의의 기계 학습을 사용한 시스템 전반에 적용할 수 있다.
1 : 특징량 추출부, 2 : 특징 추출용 학습 모델군, 3 : 데이터간 상기부, 4 : 상기용 학습 모델군, 5 : 학습 모델 선택부, 10 : 입력 샘플

Claims (26)

  1. 복수의 특징 추출용의 학습 모델을 저장하는 특징 추출용 학습 모델군과, 상기 특징 추출용의 학습 모델과 쌍을 이룬 상기용(想起用)의 학습 모델을 저장하는 상기용 학습 모델군과, 상기 특징 추출용의 학습 모델을 참조해서 입력 데이터로부터 특징량을 추출하는 특징량 추출부와, 상기 상기용의 학습 모델을 참조해서 상기 특징량의 차원 압축을 수반하는 상기(想起) 결과를 출력하는 데이터간 상기부와, 상기 특징량과 상기 상기 결과의 차분이 최소로 되는 것을 조건으로 특징 추출용 학습 모델군 중에서 상기 특징 추출용의 학습 모델을 선택하는 학습 모델 선택부를 구비하는 것을 특징으로 하는 화상 인식 장치.
  2. 제1항에 있어서,
    상기 특징량과 상기 상기 결과의 차분으로부터 상기 입력 데이터의 샘플을 샘플링한 모집단에 대해서 선택된 상기 특징 추출용의 학습 모델이 적합한지를 판정하는 학습 모델 적부(適否) 판정부를 구비하는 것을 특징으로 하는 화상 인식 장치.
  3. 제2항에 있어서,
    상기 학습 모델 적부 판정부가 적합하지 않다고 판정했을 경우에, 상기 입력 데이터의 샘플을 사용해서 상기 특징 추출용의 학습 모델을 재선택하는 것을 특징으로 하는 화상 인식 장치.
  4. 제1항에 있어서,
    상기 입력 데이터의 샘플에 있어서 상기 특징량과 상기 상기 결과의 차분이 많은 곳으로 입력 개소를 좁힌 교사(敎師) 부가의 유저 인터페이스를 마련하는 교사 데이터 작성 지원부와, 교사 데이터 작성 지원부에서 작성한 교사 데이터를 사용해서 상기 특징 추출용의 학습 모델을 학습하는 학습 모델 학습부를 구비하는 것을 특징으로 하는 화상 인식 장치.
  5. 제4항에 있어서,
    상기 교사 데이터 작성 지원부에 있어서의 상기 유저 인터페이스에 있어서, 상기 입력 데이터를 밑그림으로 해서 상기 특징량의 카테고리를 묘화하고, 추가로 상기 특징량의 카테고리를 입력할 수 있는 기능을 갖는 것을 특징으로 하는 화상 인식 장치.
  6. 제4항에 있어서,
    상기 교사 데이터 작성 지원부가 복수의 상기 특징량과 상기 상기 결과를 사용해서 상기 입력 개소를 구하거나, 혹은 상기 입력 개소를 전환하는 것 중 적어도 한쪽을 행하는 것을 특징으로 하는 화상 인식 장치.
  7. 제4항에 있어서,
    상기 학습 모델 학습부가 추가로 상기 상기용의 학습 모델을 학습하고, 상기 학습 모델 학습부가 학습한 상기 특징량의 학습 모델을 상기 특징 추출용 학습 모델군에, 상기 학습 모델 학습부가 학습한 상기 상기용의 학습 모델을 특징 추출용 학습 모델군에 추가하는 것을 특징으로 하는 화상 인식 장치.
  8. 제1항에 있어서,
    상기 특징량이 상기 입력 데이터 중의 요소의 카테고리인 것을 특징으로 하는 화상 인식 장치.
  9. 제1항에 있어서,
    상기 입력 데이터가 화상이고, 상기 특징량이 윤곽선 혹은 설계도인 것을 특징으로 하는 화상 인식 장치.
  10. 제1항에 있어서,
    상기 차원 압축이 주성분 분석 혹은 오토 인코더를 사용해서 행해지는 것을 특징으로 하는 화상 인식 장치.
  11. 제1항에 있어서,
    상기 특징량 추출부 중에 기계 학습 이외의 방법을 사용한 특징량 추출부가 하나 이상 포함되는 것을 특징으로 하는 화상 인식 장치.
  12. 제1항에 있어서,
    상기 학습 모델 선택부가 상기 특징 추출용의 학습 모델의 선택 결과, 상기 차분, 상기 특징 추출용의 학습 모델의 선택의 범위 중 하나 이상을 화면 표시하는 것을 특징으로 하는 화상 인식 장치.
  13. 복수의 특징 추출용의 학습 모델을 저장하는 특징 추출용 학습 모델군과, 상기 특징 추출용의 학습 모델을 참조해서 입력 데이터로부터 특징량을 추출하는 특징량 추출부와, 상기 특징량 추출부가 상기 특징량을 추출할 때의 스코어로부터 복수 종류의 학습 모델간에서 비교가 가능한 공통 척도를 계산하고, 특징 추출용 학습 모델군 중에서 상기 공통 척도를 사용해 상기 특징 추출용의 학습 모델을 선택하는 학습 모델 선택부와, 입력 데이터의 샘플에 있어서 상기 공통 척도가 작은 곳으로 입력 개소를 좁힌 교사 부가의 유저 인터페이스를 마련하는 교사 데이터 작성 지원부와, 교사 데이터 작성 지원부에서 작성한 교사 데이터를 사용해서 상기 특징 추출용의 학습 모델을 학습하는 학습 모델 학습부를 구비하는 것을 특징으로 하는 화상 인식 장치.
  14. 제13항에 있어서,
    상기 공통 척도로부터 선택된 상기 특징 추출용의 학습 모델이 적합한지를 판정하는 학습 모델 적부 판정부를 구비하는 것을 특징으로 하는 화상 인식 장치.
  15. 제14항에 있어서,
    상기 학습 모델 적부 판정부가 적합하지 않다고 판정했을 경우에, 상기 입력 데이터의 샘플을 사용해서 상기 특징 추출용의 학습 모델을 재선택하는 학습 모델 재선택부를 구비하는 것을 특징으로 하는 화상 인식 장치.
  16. 삭제
  17. 제13항에 있어서,
    상기 교사 데이터 작성 지원부에 있어서의 상기 유저 인터페이스는, 상기 입력 데이터를 밑그림으로 해서 상기 특징량의 카테고리를 묘화하고, 상기 특징량의 카테고리를 입력할 수 있는 기능을 갖는 것을 특징으로 하는 화상 인식 장치.
  18. 제13항에 있어서,
    상기 학습 모델 학습부가 학습한 상기 특징량의 학습 모델을 특징 추출용 학습 모델군에 추가하는 것을 특징으로 하는 화상 인식 장치.
  19. 제13항에 있어서,
    상기 특징량이 상기 입력 데이터 중의 요소의 카테고리인 것을 특징으로 하는 화상 인식 장치.
  20. 제13항에 있어서,
    상기 입력 데이터가 화상이고, 상기 특징량이 윤곽선 혹은 설계도인 것을 특징으로 하는 화상 인식 장치.
  21. 제13항에 있어서,
    상기 공통 척도가 상기 스코어의 편차의 정도를 나타내는 통계량 혹은 상기 스코어의 돌출의 정도를 나타내는 통계량인 것을 특징으로 하는 화상 인식 장치.
  22. 제13항에 있어서,
    상기 공통 척도가 상기 스코어로부터 환산한 정해율(正解率)인 것을 특징으로 하는 화상 인식 장치.
  23. 제13항에 있어서,
    상기 특징량 추출부 중에 기계 학습 이외의 방법을 사용한 특징량 추출부가 하나 이상 포함되는 것을 특징으로 하는 화상 인식 장치.
  24. 제13항에 있어서,
    상기 학습 모델 선택부가 상기 특징 추출용의 학습 모델의 선택 결과, 차분, 상기 특징 추출용의 학습 모델의 선택의 범위 중 하나 이상을 화면 표시하는 것을 특징으로 하는 화상 인식 장치.
  25. 복수의 특징 추출용의 학습 모델과, 상기 특징 추출용의 학습 모델과 쌍을 이룬 복수의 상기용의 학습 모델을 구비하고, 상기 특징 추출용의 학습 모델을 참조해서 입력 데이터로부터 특징량을 추출하고, 상기 상기용의 학습 모델을 참조해서 상기 특징량의 차원 압축을 수반하는 상기 결과를 얻고, 상기 특징량과 상기 상기 결과의 차분이 최소로 되는 것을 조건으로 특징 추출용 학습 모델군 중에서 상기 특징 추출용의 학습 모델을 선택하는 것을 특징으로 하는 화상 인식 방법.
  26. 복수의 특징 추출용의 학습 모델을 구비하고, 상기 특징 추출용의 학습 모델을 참조해서 입력 데이터로부터 특징량을 추출하고, 상기 특징량을 추출할 때의 스코어로부터 복수 종류의 학습 모델간에서 비교가 가능한 공통 척도를 계산하고, 복수의 특징 추출용의 학습 모델 중에서 상기 공통 척도를 사용해 상기 특징 추출용의 학습 모델을 선택하고, 입력 데이터의 샘플에 있어서 상기 공통 척도가 작은 곳으로 입력 개소를 좁힌 교사 부가의 유저 인터페이스를 마련하고, 교사 데이터 작성 지원부에서 작성한 교사 데이터를 사용해서 상기 특징 추출용의 학습 모델을 학습하는 것을 특징으로 하는 화상 인식 방법.
KR1020217015935A 2018-12-21 2018-12-21 화상 인식 장치 및 방법 KR102654003B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/047224 WO2020129235A1 (ja) 2018-12-21 2018-12-21 画像認識装置及び方法

Publications (2)

Publication Number Publication Date
KR20210082222A KR20210082222A (ko) 2021-07-02
KR102654003B1 true KR102654003B1 (ko) 2024-04-04

Family

ID=71102706

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217015935A KR102654003B1 (ko) 2018-12-21 2018-12-21 화상 인식 장치 및 방법

Country Status (4)

Country Link
US (1) US20210374403A1 (ko)
KR (1) KR102654003B1 (ko)
TW (1) TWI731459B (ko)
WO (1) WO2020129235A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7151501B2 (ja) * 2019-01-18 2022-10-12 富士通株式会社 Dnn選択プログラム、dnn選択方法および情報処理装置
TWI732370B (zh) * 2019-12-04 2021-07-01 財團法人工業技術研究院 神經網路模型的訓練裝置和訓練方法
CN116342923A (zh) * 2022-12-16 2023-06-27 环旭电子股份有限公司 影像识别深度学习模型的训练方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012068965A (ja) * 2010-09-24 2012-04-05 Denso Corp 画像認識装置
JP2015001888A (ja) * 2013-06-17 2015-01-05 富士ゼロックス株式会社 情報処理プログラム及び情報処理装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3743247B2 (ja) 2000-02-22 2006-02-08 富士電機システムズ株式会社 ニューラルネットワークによる予測装置
JP4478290B2 (ja) 2000-05-29 2010-06-09 マスプロ電工株式会社 波形補正回路
KR102084930B1 (ko) * 2015-06-03 2020-03-05 미쓰비시덴키 가부시키가이샤 추론 장치 및 추론 방법
JP6639123B2 (ja) * 2015-07-06 2020-02-05 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
US10217236B2 (en) * 2016-04-08 2019-02-26 Orbital Insight, Inc. Remote determination of containers in geographical region
JP6701979B2 (ja) * 2016-06-01 2020-05-27 富士通株式会社 学習モデル差分提供プログラム、学習モデル差分提供方法、および学習モデル差分提供システム
JP6824125B2 (ja) * 2017-07-28 2021-02-03 株式会社日立製作所 医用撮像装置及び画像処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012068965A (ja) * 2010-09-24 2012-04-05 Denso Corp 画像認識装置
JP2015001888A (ja) * 2013-06-17 2015-01-05 富士ゼロックス株式会社 情報処理プログラム及び情報処理装置

Also Published As

Publication number Publication date
US20210374403A1 (en) 2021-12-02
TW202029013A (zh) 2020-08-01
WO2020129235A1 (ja) 2020-06-25
TWI731459B (zh) 2021-06-21
KR20210082222A (ko) 2021-07-02

Similar Documents

Publication Publication Date Title
US10789504B2 (en) Method and device for extracting information in histogram
US11416710B2 (en) Feature representation device, feature representation method, and program
KR102654003B1 (ko) 화상 인식 장치 및 방법
CN112434721A (zh) 一种基于小样本学习的图像分类方法、系统、存储介质及终端
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
US20090041361A1 (en) Character recognition apparatus, character recognition method, and computer product
JP2015087903A (ja) 情報処理装置及び情報処理方法
CN106372624B (zh) 人脸识别方法及系统
CN112001373B (zh) 一种物品识别方法、装置及存储介质
CN111325237B (zh) 一种基于注意力交互机制的图像识别方法
CN111210402A (zh) 人脸图像质量评分方法、装置、计算机设备及存储介质
US20210004721A1 (en) Inspection system, discrimination system, and learning data generation device
CN111784665B (zh) 基于傅里叶变换的oct图像质量评估方法、系统及装置
CN112101300A (zh) 药材识别方法、装置及电子设备
CN106529470A (zh) 一种基于多级深度卷积神经网络的手势识别方法
CN111275126A (zh) 样本数据集生成方法、装置、设备及存储介质
CN113761262B (zh) 图像的检索类别确定方法、系统以及图像检索方法
CN112580382B (zh) 基于目标检测二维码定位方法
GB2604706A (en) System and method for diagnosing small bowel cleanliness
CN112348809A (zh) 基于多任务深度学习的无参考屏幕内容图像质量评价方法
JP2004192555A (ja) 情報管理方法、情報管理装置及び情報管理プログラム
CN115631370A (zh) 一种基于卷积神经网络的mri序列类别的识别方法及装置
CN113361584B (zh) 模型训练的方法及装置、肺动脉高压的测量方法及装置
CN111414930A (zh) 深度学习模型训练方法及装置、电子设备及存储介质
CN112861689A (zh) 一种基于nas技术的坐标识别模型的搜索方法及装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right