KR20220006642A - 타이어 측벽 이미징 방법 - Google Patents

타이어 측벽 이미징 방법 Download PDF

Info

Publication number
KR20220006642A
KR20220006642A KR1020217040847A KR20217040847A KR20220006642A KR 20220006642 A KR20220006642 A KR 20220006642A KR 1020217040847 A KR1020217040847 A KR 1020217040847A KR 20217040847 A KR20217040847 A KR 20217040847A KR 20220006642 A KR20220006642 A KR 20220006642A
Authority
KR
South Korea
Prior art keywords
digital image
image data
classes
tire
classifier
Prior art date
Application number
KR1020217040847A
Other languages
English (en)
Inventor
시에드 와자트 알리 샤 카즈미
알렉산더 폴 코드
Original Assignee
휠라이트 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 휠라이트 리미티드 filed Critical 휠라이트 리미티드
Publication of KR20220006642A publication Critical patent/KR20220006642A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60CVEHICLE TYRES; TYRE INFLATION; TYRE CHANGING; CONNECTING VALVES TO INFLATABLE ELASTIC BODIES IN GENERAL; DEVICES OR ARRANGEMENTS RELATED TO TYRES
    • B60C13/00Tyre sidewalls; Protecting, decorating, marking, or the like, thereof
    • B60C13/001Decorating, marking or the like
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18086Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
    • G06V30/18095Summing image-intensity values; Projection and histogram analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/09Recognition of logos

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

타이어 측벽 상의 하나 이상의 양각 및/또는 음각 마킹을 타이어 측벽의 디지털 이미지 데이터를 포함하는 하나 이상의 클래스로 분류하기 위한 컴퓨터 구현 방법이 제안된다. 방법은 타이어 측벽의 대응하는 제1 부분에 관한 디지털 이미지 데이터의 제1 부분으로부터 제1 이미지 채널을 생성하는 단계를 포함한다. 제1 이미지 채널을 생성하는 단계는 디지털 이미지 데이터의 제1 부분에 대해 히스토그램 균등화를 수행하여 제1 이미지 채널을 생성하는 단계를 포함한다. 방법은 제1 이미지 채널을 사용하여 제1 특징 맵을 생성하는 단계 및 제1 분류기를 제1 특징 맵에 적용하여 상기 양각 및/또는 음각 마킹을 하나 이상의 제1 클래스로 분류하는 단계를 더 포함한다.

Description

타이어 측벽 이미징 방법
본 발명은, 타이어의 측벽 상의 하나 이상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하고, 이 작업을 수행하기 위한 분류기를 훈련시키고, 분류기를 훈련시키기 위한 훈련 데이터를 생성하기 위한 컴퓨터 구현 방법에 관한 것이다.
타이어 측벽으로 알려진 차량 타이어의 바깥으로 향하는 면은 타이어 브랜드, 모델 및 일부 코드에 관한 텍스트 기반 정보를 지닌다. 코드는, 예를 들어, 제조 공장, 타이어 연식, 타이어 유형, 의도된 하중, 속도 등급 및 크기, 제조 배치(batch) 정보 및 기타 제품 정보에 관한 정보를 전달한다. 코드는, 예를 들어, 하나 이상의 글자 및/또는 숫자의 혼합을 포함할 수 있다. 더욱이, 측벽은 또한 다른 정보를 제공하는 텍스트, 로고, 심볼, 픽토그램(pictogram) 및/또는 정보의 임의의 다른 시각적 표현을 포함할 수 있다. 차량 사용자, 특히 차량 운영자(fleet operator)에게, 차량 전체에 걸쳐 타이어 사용량과 상태를 추적할 수 있는 일관되고 신뢰할 수 있는 방법을 제공하여 차량 운영자가 타이어 재고에 대한 데이터 분석을 수행하는 능력을 크게 향상시키기 때문에, 이 정보에 대한 상이한 비트 또는 부분은 매우 중요하다.
타이어 측벽을 판독하는 프로세스를 자동화하려는 시도가 있었지만, 이러한 시스템은 실내 및 통제된 검사 작업에 사용하기 위한 3D 스캐너 기반 시스템(MicroEpsilon, Cognex 및 Numetrix로부터 입수 가능함)이거나, 실내 및 실외 적용을 위한 휴대용 레이저 장치이다. 이러한 시스템은 구조화된 레이저 광 컴포넌트를 고려할 때 제조 비용이 많이 들고, 캘리브레이션이 어렵고, 파손되기 쉽고 그리고/또는 작업자의 도움이 여전히 필요하므로, 진정으로 자동화되고 비용 효율적이라고 할 수 없다.
구조화된 조명 없이 촬영된 이미지에 광학 문자 인식(OCR)을 적용하는 것은 하드웨어 비용을 크게 줄일 수 있다. 그러나, 타이어의 실외 사용이 측벽 텍스트의 마모를 초래하고(예를 들어, 재료 침식, 먼지, 건조 및/또는 습기로 인해), 텍스트가 매우 낮은 콘트라스트(흑색 대 흑색(black-on-black))를 가져 자동화된 시스템은 말할 것도 없고 인간 관찰자 조차도 때때로 해독하기 어렵기 때문에, 컬러 또는 그레이스케일 이미지 OCR을 기초로 한 이전 시도는 성공적이지 못했다.
이러한 시스템을 생산하는데 있어서의 문제는 차량 타이어가 시스템을 지나 주행함에 따른 이동하는 차량 타이어 또는 시스템의 시야가 타이어에 대하여 이동됨에 따른 고정 타이어에서 텍스트를 판독하기에 충분히 빠른 것이 바람직하다. 또한, 변동하는 조건(예를 들어, 다른 기상 조건의 실외 및/또는 차고에서의 먼지가 많은/더러운 상태의 실내)을 보상하고 인간 작업자의 도움 없이 정확하고 재현 가능한 결과를 생성할 수 있는 것이 바람직하다.
향상된 콘트라스트 이미지를 제공하는 이미징 시스템이 WO2017060739 A1에서 제안된다. 특히, 타이어 측벽 코드와 같이 양각되거나 음각된 텍스트를 판독하기 위하여는, 그림자 투사(shadow casting)를 통해 텍스트의 콘트라스트 및 이에 따른 가독성이 개선될 수 있기 때문에 조명이 중요하다. WO2017060739 A1이 양각된 마킹을 판독하기 위하여 이러한 이미지에 OCR을 수행하도록 이미지 분석 소프트웨어를 사용하는 것을 제안하지만, WO2017060739 A1에 설명된 기존 OCR 기술은 비이상적인 비실험실 설정에 있어서 너무 느리고/또는 정확도가 낮기 때문에 잘 수행되지 않는다.
딥 러닝 기반의 이미지 분류 및 텍스트 인식에서의 최근의 발전은 객체 및 텍스트의 검출 및 인식 작업을 위한 성능 테이블의 최상위로 딥 컨볼루션 신경망(deep convolution neural network(CNN))을 조력한다. 이러한 작업에 적합한 알려진 유형의 CNN은 Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, & R. Garnett (Eds.), Advances in Neural Information Processing Systems 28 (pp. 91-99). Curran Associates, Inc에서 처음 제안된 Faster R-CNN이다.
Faster R-CNN은 백본(backbone)이라 하는 딥 CNN 특징 추출기를 가진다. 백본으로서 사용될 수 있는 많은 알려진 딥 CNN 특징 추출기가 있다: 예는 VGG16, ResNet50, ResNet100, InceptionNet, AlexNet 등을 포함한다. VGG16은 K. Simonyan, A. Zisserman, Very Deep Convolutional Networks for Large-Scale Image Recognition, arXiv technical report, 2014에서 처음 제안되었다.
Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, & R. Garnett (Eds.), Advances in Neural Information Processing Systems 28 (pp. 91-99). Curran Associates, Inc에서 설명된 바와 같이, 백본 특징 추출기는 분류기에 의해 추가로 처리되어야 하는 관심 영역(제안이라고 함)을 제안하는 내장 RPN(Region Proposal Network)으로 분기된다. 분류기는 훈련 데이터에 따라 RPN의 제안의 내용을 미리 정해진 클래스로 분류한다.
객체 및 텍스트의 검출 및 인식을 위하여 사용된 알려진 CNN의 다른 예는 Fast R-CNN, R-CNN, SPPNet, SSD, YOLO v1/v2/v3 및 EAST 텍스트 검출기를 포함한다.
이러한 CNN을 타이어 측벽을 판독하는 작업에 적용하는 데 있어서의 문제점은, 위에서 나타낸 바와 같이, 타이어 측벽의 이미지가 배경 타이어 측벽과 양각 및/또는 음각 마킹 사이의 매우 낮은 콘트라스트를 빈번하게 가진다는 것이다. 이것은 양각 및/또는 음각 마킹이 부분적으로 마모되었고, 인간의 눈으로도 판독하기 어려운 오래되고 마모된 타이어에 특히 해당한다. 이미지 캡처를 위해 사용되는 카메라의 해상도를 증가시키는 것은 마모된 양각 및/또는 음각 마킹에 관한 이미지 데이터가 배경에 대하여 완전히 손실되지 않았다는 것을 보장하는 데 도움을 줄 수 있다. 본 명세서에서 언급되는 바와 같은 고해상도는, 이미지에서의 타이어 측벽의 곡률이 언워핑된(unwarped) 후에, 즉 전처리 동안 제거된 후에, 이미지가 대체로 대략 500×2000 내지 500×4000 픽셀의 해상도를 가진다는 것을 의미한다.
그러나, 당업계에 알려진 바와 같이, CNN에 대한 입력으로서의 고해상도 이미지의 사용은 CNN을 훈련시키고 테스트 시간에 보이지 않는 데이터를 추론하기 위해 상당히 더 느리고 더 많은 처리 리소스를 필요로 한다. 강력한 그래픽 처리 유닛(graphics processing unit(GPU))이 이러한 작업에 사용될 수 있지만, 이는 저렴하지만 덜 강력한 중앙 처리 유닛(central processing unit(CPU))에 비해 금전적 비용이 높다.
따라서, 예를 들어 CPU에서 효율적으로 구현될 수 있는 타이어 측벽 상의 양각 및/또는 음각 마킹을 분류하는 개선된 컴퓨터 구현 방법이 이상적으로 필요하다.
다음 용어들에는 본 명세서에서 다음의 정의가 제공된다:
"언워핑(unwarping)" - 만곡된 타이어 측벽의 이미지를 곡선이 제거되거나 직선화된 이미지로 매핑함;
"이미지 채널(image channel)" - 디지털 이미지의 기초를 이루는 이미지 데이터의 하나 이상의 미리 정의된 성분;
"합성 생성/합성 데이터(synthetically generated/synthetic data)" - 알고리즘을 사용하여 생성되고, 예를 들어, 다른 소스로부터의 제한된 데이터만 사용할 수 있는 경우에, 훈련에 사용할 수 있는 총 데이터의 전체 양을 증가시키는데 사용되는 데이터;
"훈련 기간(duration of training)" - CNN이 미리 정의된 허용 가능한 정밀도 및 리콜(recall)에 수렴하는 데 걸리는 시간;
"테스트 시간에(at test time)" - 훈련된 CNN이 수행하도록 훈련된 작업을 수행할 때, 예를 들어, 훈련된 CNN이 이전에 보이지 않은 타이어의 측벽 상의 하나 이상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류할 때;
"히스토그램 균등화(histogram equalisation)" - 복수의 세기 값 범위에 걸친 원래 이미지의 세기 값의 분포의 히스토그램을 형성하고, 히스토그램에 기초하여 원래 이미지의 세기 값과 수정된 세기 값 사이의 매핑을 결정하고, 매핑에 따라 원래 이미지의 세기 값을 수정하여 수정된 이미지를 생성하는 것에 의한 원래 이미지에 적용된 콘트라스트 조정에 대한 이미지 처리 방법이고, 매핑은 세기 범위 중의 픽셀 세기의 분포가 소급 적용되는 동일한 폭의 세기 범위 사이에서의 감소된 변동과 같은 균일도 기준에 따라 원래 이미지에서보다 수정된 이미지에서 더욱 균일하게 되도록 선택된다;
"적응형 히스토그램 균등화(adaptive histogram equalisation)" - 히스토그램 균등화가 픽셀 또는 픽셀 영역의 이웃(예를 들어, 픽셀 또는 픽셀 영역의 미리 정해진 거리 내의 원래 이미지의 부분)을 이용하여 정의되는 대응하는 매핑을 이용하여 원래 이미지의 각각의 픽셀 또는 픽셀 영역에 대하여 수행되는 콘트라스트 조정에 대한 이미지 처리 방법;
"앵커(anchor)" - 이미지 상의 다른 특징의 존재 및 위치를 나타낼 사전 지식으로부터 알려지는 이미지 상의 특징;
"DoG(Difference of Gaussians)" - 원래 이미지의 블러링된 버전이 원래 이미지의 다른 덜 블러링된 버전으로부터 감산되고, 블러링된 이미지가 원래 이미지를 상이한 표준 편차를 갖는 가우시안 커널과 컨벌루션함으로써 획득될 수 있는 특징 강화에 대한 이미지 처리 방법;
"CPU" 및 "GPU" - 중앙 처리 유닛 및 그래픽 처리 유닛으로, GPU는 더 빠른 클록 속도에서 실행되는 CPU의 더 적은 처리 코어에 비해 더 느린 클록 속도에서 동작하는 더 많은 처리 코어를 제공하도록 구성된다.
일반적으로, 본 발명은 훈련된 CNN이 타이어 측벽의 이미지에서의 양각 및/또는 음각 마킹을 분류할 수 있는 효율성을 개선하고 그 작업을 수행하기 위하여 CNN을 훈련시키는 데 필요한 시간을 줄이는 것과 관련된다. 특히, 초기에 획득된 언워핑된(unwarped) 이미지 데이터를 이용하여 특징 맵(feature map)을 생성하는 대신에, 히스토그램 균등화가 언워핑된 이미지 데이터에 대해 먼저 수행되어 새로운 이미지 채널을 생성한다. 이 새로운 이미지 채널은 양각 및/또는 음각 마킹을 분류하는 데 사용되는 특징 맵을 생성하는 데 사용된다. 그 결과, 테스트 시간에 양각 및/또는 음각 마킹을 허용 가능한 레벨의 정확도로 분류하는 데 필요한 훈련 기간과 처리 리소스가 모두 감소한다.
단일 이미지 채널이 아닌, 제1 채널로서 전술된 히스토그램 균등화 채널, 초기의 언워핑된 이미지 데이터에 대해 적응형 히스토그램 균등화를 수행함으로써 생성된 제2 이미지 채널 및 초기의 언워핑된 이미지 데이터를 포함하는 제3 이미지 채널로 구성된 3개의 이미지 채널 입력으로부터 특징 맵을 생성할 때 분류기의 정확도의 추가 개선이 성취될 수 있다.
본 발명자들은 위의 3개의 이미지 채널을 사용한 Faster R-CNN의 훈련 기간이 초기에 획득된 언워핑된 이미지 데이터만을 단일 이미지 채널로서 사용하는 Faster R-CNN의 훈련 기간보다 약 8 내지 10배 더 빨랐다는 것을 알아냈다. 이전에 볼 수 없었던 데이터에 대한 테스트 정확도도 더 높아졌다.
테스트 시간에, 본 발명자들은, 양각 및/또는 음각 마킹을 분류하기 위하여, 위의 3개의 이미지 채널을 사용하여 훈련되고 다운 샘플링된 이미지(50%)에서 테스트된 Faster R-CNN이 더 비싼 GPU가 아닌 CPU에서 실시간으로 실행될 수 있었다는 것을 더 알아냈다.
따라서, 본 발명은 타이어 측벽 상의 양각 및/또는 음각 마킹을 분류하기 위해 CNN을 훈련시키는 더 빠르고 더 저렴한 방법과, 더 높은 정확도로 테스트 시간에 새로운 타이어 측벽 이미지에 훈련된 CNN을 적용하는 더 빠르고 더 저렴한 방법을 제공한다.
도 1은 일 실시예에 따라 타이어의 측벽 상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하는 방법의 흐름도이다.
도 2는 일 실시예에 따라 타이어의 측벽 상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하는 방법의 흐름도이다.
도 3은 일 실시예에 따라 타이어의 측벽 상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하는 방법의 흐름도이다.
도 4는 일 실시예에 따라 타이어의 측벽 상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하기 위해 분류기를 훈련시키는데 사용하기 위한 훈련 데이터 세트를 생성하는 방법의 흐름도이다.
도 5는 일 실시예에 따라 타이어의 측벽 상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하기 위해 분류기를 훈련시키는데 사용하기 위한 훈련 데이터 세트를 생성하는 방법의 흐름도이다.
도 6은 일 실시예에 따라 타이어의 측벽 상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하기 위해 분류기를 훈련시키는데 사용하기 위한 훈련 데이터 세트를 생성하는 방법의 흐름도이다.
도 7은 일 실시예에 따라 타이어의 측벽 상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하기 위해 분류기를 훈련시키는 방법의 흐름도이다.
도 8은 일 실시예에 따라 타이어의 측벽 상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하기 위해 분류기를 훈련시키는 방법의 흐름도이다.
도 9는 일 실시예에 따라 타이어의 측벽 상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하기 위해 분류기를 훈련시키는 방법의 흐름도이다.
도 10은 데이터 처리 장치의 기술적 아키텍처를 도시하는 블록도이다.
제1 양태에 따르면, 타이어의 측벽 상의 하나 이상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하기 위한 컴퓨터 구현 방법이 제공된다.
이제 제1 실시예가 도 1을 참조하여 설명된다.
제1 단계에서, 타이어 측벽의 디지털 이미지를 정의하는 디지털 이미지 데이터(101)가 제공된다.
제2 단계에서, 디지털 이미지 데이터(101)의 제1 부분에 대해 히스토그램 균등화를 수행함으로써 제1 이미지 채널(102)이 디지털 이미지 데이터(101)로부터 생성되고, 제1 부분은 타이어 측벽의 대응하는 제1 부분에 관한 것이다. 제1 부분은 타이어의 측벽 전체이거나 이의 일부 다른 부분일 수 있다.
히스토그램 균등화는 이미지에서 더 낮은 국지적인 콘트라스트의 영역이 더 높은 콘트라스트를 얻도록 하고, 흑색 포그라운드 및 백그라운드를 갖는 타이어 측벽에서와 같이 포그라운드 및 백그라운드가 모두 밝거나 모두 어두운 경우에 잘 작동한다. 예를 들어, OpenCV와 같은 프로그래밍 함수의 임의의 알려진 라이브러리로부터의 함수를 사용하여 수행될 수 있지만, 다른 라이브러리가 통상의 기술자에게 알려져 있을 것이다. 적절한 히스토그램 균등화 함수의 일례는 OpenCV 라이브러리 "equalizeHist" 함수이다. 따라서, 제1 이미지 채널(102)을 생성하기 위해 제1 디지털 이미지 데이터(101)에 대해 히스토그램 균등화를 수행하는 것은 양각 및/또는 음각 마킹이 위치되는 곳을 포함하는 타이어 측벽 상의 낮은 콘트라스트의 영역에 대응하는 데이터에서 콘트라스트를 향상시킨다.
제3 단계에서, 제1 특징 맵(103)이 제1 이미지 채널(102)을 사용하여 생성된다. 제1 특징 맵(103)은, 예를 들어, 커널이 입력된 제1 이미지 채널(102)에 걸쳐 슬라이딩하는 CNN의 컨볼루션 계층의 출력일 수 있다. 제1 이미지 채널(102)을 사용하여 생성되는 특징 맵을 제공하는 임의의 적합한 CNN 아키텍처가 사용될 수 있다고 예상된다. 적합한 예시적인 아키텍처는 Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, & R. Garnett (Eds.), Advances in Neural Information Processing Systems 28 (pp. 91-99). Curran Associates, Inc.에서 설명된 것이다.
제4 단계에서, 제1 분류기(104)가 제1 특징 맵(103)에 적용되어 양각 및/또는 음각 마킹을 하나 이상의 제1 클래스로 분류한다. 양각 및/또는 음각 마킹이 분류될 수 있는 클래스의 유형의 일부 비제한적 예에는 브랜드 로고, 타이어 유형 및 모델, 브랜드 심볼, "DOT" 코드(규제상의 이유로 종종 다른 양각 및/또는 음각 측벽 마킹보다 선행하는 글자 "D", "O", "T"로 구성된 문자 시퀀스) 및 문자 시퀀스 "5/"(규제상의 이유로 종종 타이어 크기 음각 측벽 마킹의 일부임)를 포함한다. 하나의 실시예에서, 제1 분류기(104)는 양각 및/또는 음각 마킹을 370개보다 많은 상이한 클래스로 분류할 수 있고, 이에 의해 브랜드 로고 및 심벌이 서로 구별될 수 있게 하고, 서로 다른 타이어 유형 및 모델이 서로 구별될 수 있게 하고, 문자 시퀀스 "D", "O", "T" 및/또는 "5/"가 서로 그리고 타이어 측벽 상의 다른 마킹으로부터 구별될 수 있게 한다. 예를 들어, 주어진 입력 타이어 측벽 이미지에 대해, 제1 분류기(104)는 타이어 측벽 상의 양각 및/또는 음각 마킹이 복수의 타이어 브랜드 로고 또는 심볼 중 하나, 타이어 유형과 모델 및 연관된 타이어 특성을 나타내는 정보, 문자 시퀀스 "D", "O", "T" 및/또는 "5/"를 포함한다고 결정하는데 사용될 수 있다.
도 2를 참조하여, 제2 실시예가 제공된다.
제1 실시예의 제1 단계와 동일한 제1 단계에서, 타이어 측벽의 디지털 이미지를 정의하는 디지털 이미지 데이터(201)가 제공된다.
제2 단계에서, 제1 실시예와 동일한 방식으로, 디지털 이미지 데이터(201)의 제1 부분에 대해 히스토그램 균등화를 수행함으로써 제1 이미지 채널(202a)이 디지털 이미지 데이터(201)로부터 생성된다. 위에서와 같이, 디지털 이미지 데이터(201)의 제1 부분은 타이어의 측벽의 전체 또는 이의 일부 다른 부분일 수 있는 타이어 측벽의 대응하는 제1 부분에 관한 것이다.
그러나, 전술된 바와 같이 제1 이미지 채널(202a)을 생성하는 것 외에, 제2 이미지 채널(202b) 및 제3 이미지 채널(202c)이 또한 제공된다.
제2 이미지 채널(202b)은 디지털 이미지 데이터(201)의 제1 부분에 대해 적응형 히스토그램 균등화를 수행함으로써 생성된다.
적응형 히스토그램 균등화는 이미지에서 콘트라스트를 개선한다는 점에서 히스토그램 균등화와 유사하다. 그러나, 각각 이미지의 개별 섹션에 대응하는 여러 히스토그램을 계산하고 이를 사용하여 이미지의 밝기 값을 재분배한다는 점에서 다르다. 따라서, 히스토그램 균등화가 포그라운드와 백그라운드가 모두 밝거나 모두 다 어두운 경우에 잘 작동하는 반면, 적응형 히스토그램 균등화는 이미지가 이미지의 나머지 보다 상당히 더 밝거나 더 어두운 영역을 포함하는 경우에 잘 작동한다. 적응형 히스토그램 균등화는, 예를 들어, OpenCV와 같은 프로그래밍 함수의 임의의 알려진 라이브러리로부터의 함수를 사용하여 수행될 수 있지만, 다른 라이브러리가 통상의 기술자에게 알려져 있을 것이다. 적절한 적응형 히스토그램 균등화 함수의 예는 OpenCV 라이브러리 "IMCLAHE" 함수이다. 따라서, 제2 이미지 채널(202b)을 생성하기 위해 제1 디지털 이미지 데이터(201)에 대해 적응형 히스토그램 균등화를 수행하는 것은 대부분의 이미지보다 상당히 더 밝거나 더 어두운 영역에 대응하는 데이터에서 콘트라스트를 향상시킨다.
전술된 바와 같이 제1 이미지 채널(202a)을 생성하고, 제2 이미지 채널(202b)을 생성하는 것에 더하여, 디지털 이미지 데이터(201)가 제3 이미지 채널(202c)로서 할당된다. 따라서, 3개의 채널(202a, 202b, 202c)은 함께 취해질 때 콘트라스트가 두 가지 다른 방식(히스토그램 균등화 및 적응형 히스토그램 균등화)으로 향상된 이미지 데이터와, 초기에 제공된 이미지 데이터(201)를 포함한다. 이러한 방식으로 디지털 이미지 데이터(20)를 2개의 콘트라스트가 향상된 이미지 채널로 보완하는 것은, 훈련 기간을 줄이고 훈련된 CNN이, 전술된 바와 같이, 본질적으로 매우 낮은 콘트라스를 갖고 OCR을 이용하여 검출하여 인식하기 어려운 양각 및/또는 음각 마킹을 분류할 수 있게 하는 데 놀라울 정도로 효과적인 것으로 밝혀졌다.
제3 단계에서, 제1 특징 맵(203)이 제1, 제2 및 제3 이미지 채널(202a, 202b, 202c)을 사용하여 생성된다. 제1 실시예와 관련하여 전술된 바와 같이, 제1 특징 맵(203)은, 예를 들어, 커널이 입력에 걸쳐 슬라이딩하는 CNN의 컨볼루션 계층의 출력일 수 있다. 이 경우, 입력은 제1, 제2 및 제3 이미지 채널(202a, 202b, 202c)이다. 제1, 제2 및 제3 이미지 채널(202a, 202b, 202c)을 사용하여 생성되는 특징 맵을 제공하는 임의의 적합한 CNN 아키텍처가 사용될 수 있다는 것이 예상된다. 적합한 예시적인 아키텍처는 Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, & R. Garnett (Eds.), Advances in Neural Information Processing Systems 28 (pp. 91-99). Curran Associates, Inc.에서 설명된 것이다.
제1 실시예의 제4 단계와 동일한 제4 단계에서, 제1 분류기(204)가 제1 특징 맵(203)에 적용되어 양각 및/또는 음각 마킹을 제1 실시예와 관련하여 전술된 클래스 중 하나 이상으로 분류한다.
도 3을 참조하면, 제2 실시예와 유사한 제3 실시예가 제공된다. 특히, 제2 실시예에서와 같이, 양각 및/또는 음각 마킹을 갖는 타이어 측벽의 디지털 이미지 데이터(301)가 제공되고, 제1 이미지 채널(히스토그램 균등화)(302a) 및 제2 이미지 채널(적응형 히스토그램 균등화)(302b)이 생성되고, 디지털 이미지 데이터(301)가 제3 이미지 채널(302c)로서 할당된다. 제2 실시예와 동일한 방식으로, 3개의 채널(302a, 302b, 302c)을 이용하여 제1 특징 맵(303a)이 생성되고, 제1 분류기(304a)가 제1 특징 맵(303a)에 적용되어 양각 및/또는 음각 마킹을 하나 이상의 제1 클래스, 즉 전술된 유형의 클래스로 분류한다.
제1 클래스의 양각 및/또는 음각 마킹 중 하나 이상은 제1 클래스에 있지 않은 아닌 타이어 측벽 상의 다른 양각 및/또는 음각 마킹을 국지화하는 것을 돕기 위해 앵커로 사용될 수 있다. 이러한 다른 양각 및/또는 음각 마킹에는 제조 공장, 연식, 타이어 유형 또는 모델, 의도된 하중, 속도 등급 및 크기, 제조 배치 정보, 제조업체 세부 사항 및 기타 세부 제품 정보와 관련된 더욱 상세한 정보를 포함할 수 있다. 예를 들어, 규제상의 이유로, "DOT", "5/" 또는 기타 문자 시퀀스 뒤에는 위 유형의 정보를 특정하는 영숫자 또는 기타 문자가 자주 올 수 있다. 따라서, 이러한 앵커 문자 시퀀스가 제1 분류기를 이용하여 발견될 수 있다면, 다른 클래스에 있는 다른 양각 및/또는 음각 마킹의 근사적인 위치가 더욱 효율적으로 국지화될 수 있고, 다른 위치는 폐기될 수 있다.
이것은, 3 채널(302a, 302b, 302c) 입력, 제1 특징 맵(303a) 및 제1 분류기(304a)를 제공하는 것에 더하여, 이러한 다른 양각 및/또는 음각 마킹을 다른 제2 클래스로 분류하는 것이 목적인 제2 분류 분기(branch)를 제공함으로써 성취될 수 있다.
이 제2 분류 분기에 대한 입력은 제2 분류 분기에서의 유일한 채널인 제4 채널(302d)이다. 제4 채널(302d)은 디지털 이미지 데이터(301)의 제1 부분에 DoG(difference of Gaussians) 연산을 적용함으로써 생성된다. 선택적으로, 제1 부분은 "DOT" 및/또는 "5/" 앵커보다 후행하거나 선행하는 양각 또는 음각 정보의 추정 길이로 크롭핑(cropping)함으로써 디지털 이미지 데이터(301)로부터 생성된 새로운 이미지이다. 예를 들어, "DOT"는 통상적으로, 예를 들어, 14 내지 20 문자 길이일 수 있는 나머지 양각 및/또는 음각 마킹 코드보다 선행하며, 각각의 문자는 유사한 픽셀 폭을 가진다. "DOT" 앵커에 있는 하나 이상의 문자의 문자 폭을 픽셀 단위로 측정함으로써, 14 내지 20 문자의 폭과 동일한 근사적인 이미지 폭이 결정되어 제1 부분을 생성하기 위하여 디지털 이미지 데이터를 크롭핑하는 데 사용될 수 있다. "5/" 앵커를 고려하면, 이는 통상적으로 타이어 크기의 일부를 형성하고, 따라서, 나머지 문자들보다 선행하지 않고, 대신에 이들 사이에서 나타난다. 따라서, "5/"에서 "5"의 픽셀 단위의 문자 폭이 측정될 수 있고, "5/" 앵커보다 선행하는 몇 개의 문자 폭(일반적으로 3)과 후의 여러 문자 폭(일반적으로 14)으로 이미지가 크롭핑된다. 위에서 정의된 바와 같이, DoG는 디지털 이미지에서 에지 및 기타 세부 사항의 가시성을 향상시키는 특징 향상 알고리즘이다.
이 제4 채널(302d)로부터, 별도의 제2 특징 맵(303b)이 생성된다. 제1 특징 맵(303a)과 마찬가지로, 제2 특징 맵(303b)은, 예를 들어, 커널이 입력에 걸쳐 슬라이딩하는 CNN의 컨볼루션 계층의 출력일 수 있다. 이 경우, 입력은 제4 이미지 채널(302d)이다.
그 다음, 제1 분류기(304a)와 구별되는 제2 분류기(304b)가 제2 특징 맵(303b)에 적용되어 양각 및/또는 음각 마킹을 제1 클래스와 구별되는 하나 이상의 제2 클래스로 분류한다.
따라서, 제1 분류기(304a)는 다른 양각 및/또는 음각 마킹의 근사적인 위치가 추론될 수 있는 앵커를 검출하고 인식할 수 있고, 제2 분류기(304b)는 이러한 다른 양각 및/또는 음각 마킹을 제2 클래스로 분류할 수 있다. 어떤 클래스와 어떤 앵커가 선택되었는지에 따라, 하나 이상의 제2 클래스가 하나 이상의 제1 클래스와 동일하고 구별되지 않는 경우가 있을 수 있다. 예를 들어, 하나 이상의 영숫자 문자가 앵커로 사용될 수 있고 동시에, 예를 들어, 제2 분류기(304b)에 의해 분류되는 타이어 특성에 관한 정보를 포함할 수 있다. 이러한 시나리오에서, 영숫자는 제1 클래스와 제2 클래스에 모두 속한다. 또한, 심볼 및 로고는 일반적으로 제1 클래스에 속하는 것으로 여기에서 설명되었지만, 이들이 또한 제2 클래스에 속할 수도 있다는 것이 예상된다.
선택적으로, 디지털 이미지 데이터(301)의 제1 부분의 전체에 대해 DoG 연산을 수행하는 대신에, 이의 일부에만 수행될 수 있다. 예를 들어, 제1 분류기가 "DOT" 또는 "5/" 문자 시퀀스와 같은 앵커를 식별하였다면, "DOT" 또는 " 5/" 문자 시퀀스에 이웃하는 디지털 이미지(예를 들어, 앵커로부터 미리 정해진 거리 이내에서)의 미리 정해진 높이 및 폭의 영역만이 제2 클래스 내의 양각 및/또는 음각 마킹을 포함할 가능성이 있다고 추론할 수 있다. 따라서, 디지털 이미지 데이터의 제1 부분은 미리 정해진 영역에 대응하도록 크롭핑될 수 있고, DoG 연산은, 디지털 이미지 데이터의 전체 제1 부분 대신에, 이미지의 대응하는 패치와 디지털 이미지 데이터의 제1 부분의 대응하는 부분에서만 효율적으로 수행될 수 있다.
이러한 방식으로 이미지를 크롭핑함으로써, DoG 연산이 수행되고, 제2 특징 맵(303b)이 생성되고, 제2 분류기(304b)가 적용되는 이미지의 해상도가 더 작아지고, 따라서 훈련 동안 그리고 테스트 시간에 더 적은 처리 자원을 사용한다.
따라서, 하나의 예시적인 구현에서, 브랜드 로고, 타이어 유형 및 모델, 심볼 및 "DOT" 및/또는 "5/"와 같은 앵커로서 사용하는 미리 정해진 문자 시퀀스와 같은 370개보다 많은 제1 클래스를 식별하기 위하여 제1 분류기가 완전한 크롭핑되지 않은 고해상도 이미지 상에서 훈련되는 것이 예상될 수 있다. 그러나, 제1 분류기는 앵커에 인접하게 나타나고 제조 공장, 연식, 타이어 유형, 의도된 하중, 속도 등급 및 크기, 제조 배치 정보, 제조업체 세부 사항 및 기타 세부 제품 정보와 같은 더욱 상세한 타이어 정보를 포함하는 제2 클래스의 문자 시퀀스를 식별하고 구별하도록 훈련되지 않는다. (앵커에 인접한) 이미지의 작은 부분이 이러한 문자 시퀀스를 실제로 포함하고 나머지는 비워져 있기 때문에, 이 작업을 위하여 제1 분류기와 완전한 크롭핑되지 않은 고해상도 이미지를 사용하는 것은 비효율적일 수 있다. 대신에, 위에서 설명한 바와 같이, 제2 분류기는 앵커에 기초하여 미리 정해진 높이와 폭의 더 작고 크롭핑된 이미지에 대하여 이 작업을 위해 훈련된다. 이 예시적인 구현에서, 제2 분류기는 영숫자 문자 0 내지 9 및 A 내지 Z와 같은 39개의 제2 클래스와 "/" 심볼 및/또는 타이어 제품 정보를 특정하는 데 사용되는 기타 심볼과 같은 추가 클래스에 대하여 식별하도록 훈련된다.
또한, 본 발명자들은 타이어 제조업체들이 "DOT" 및/또는 "5/" 문자 시퀀스에 이어지는 타이어 제품 정보를 특정하는 제2 클래스 내의 문자 시퀀스의 양각 및/또는 음각 마킹에 비하여 제1 클래스 내의 로고 및 심볼의 양각 및/또는 음각 마킹을 제조하기 위하여 서로 다른 기술을 사용한다는 것을 알아냈다. 로고와 심볼의 텍스처(texture)에 DoG 연산을 적용하는 것은 놀랍게도 로고 및 심볼을 텍스처를 통해 주로 구별되는 제1 클래스로 분류하는 데 유해한 것으로 밝혀졌다. 따라서, DoG는 제1 분류기 분기에서 사용되지 않는다. 대조적으로, DoG 연산은 주로 에지를 통해 주로 구별되는 양각 또는 음각 마킹인 제2 클래스의 양각 및/또는 음각 문자 시퀀스에 대하여 에지를 향상시키는데 특히 효과적인 것으로 나타났다.
위의 모든 실시예와 관련하여, "DOT" 및 "5/" 문자 시퀀스가 앵커로서 제안되었지만, 다른 문자 시퀀스 및/또는 심볼 또는 다른 양각 및/또는 음각 마킹이 또한 이러한 목적으로 사용될 수 있다.
선택적으로, 위의 모든 실시예의 방법은 Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, & R. Garnett (Eds.), Advances in Neural Information Processing Systems 28 (pp. 91-99). Curran Associates, Inc.에서 설명된 Faster R-CNN 네트워크로 수행될 수 있다.
특히 제3 실시예와 관련하여, 제1 분류기(304a)는 제1 Faster R-CNN 네트워크에서의 분류기일 수 있고, 제2 분류기(304b)는 제2 Faster R-CNN 네트워크에서의 분류기일 수 있으며, 제1 Faster R-CNN 네트워크는 제2 Faster R-CNN 네트워크와 구별된다.
따라서, 제1 Faster R-CNN 네트워크는 제1 클래스에 대응하는 이미지의 특징을 식별하고 분류하는 반면, 제2 Faster R-CNN은 동일하지만 제2 클래스와 관련하여 동일한 작업을 수행한다.
제1 및 제2 Faster R-CNN 네트워크 각각은 제1 및 제2 특징 맵에서 복수의 관심 영역을 생성하기 위해 자신의 관심 영역 생성기를 가질 수 있다.
또한, 제1 및 제2 Faster R-CNN 네트워크 각각은 각각의 생성된 관심 영역에 대해 경계 상자 회귀를 수행하여 이의 위치를 구체화하는(refine) 자체 경계 상자 회귀기를 가질 수 있다. 또한, Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, & R. Garnett (Eds.), Advances in Neural Information Processing Systems 28 (pp. 91-99). Curran Associates, Inc.에 설명된 바와 같이, 비균일한 크기의 입력된 관심 영역을 취하여 이를 미리 정해진 균일한 크기로 재형성하는 관심 영역 풀링 계층이 또한 제공될 수 있다. 제4 채널(즉, 제2 분류기에 대한 유일한 입력 채널)에 대한 입력이 제1 분류기에 의해 검출된 앵커에 기초하여 크롭핑되는 제3 실시예의 경우, 관심 영역 풀링 계층에 의해 출력된 균일한 크기의 직사각형 관심 영역이 평균 영숫자(또는 마킹) 문자 길이를 픽셀 단위로 계산하는데 사용될 수 있고, 따라서 제2 클래스에 대응하는 양각 및/또는 음각 마킹을 캡처하도록 제2 분류 분기에서 제4 채널에 대하여 이미지의 어디를 크롭핑할지 결정할 수 있다.
비제한적인 예로서, "DOT" 앵커가 검출되는 경우, 15 내지 18개의 영숫자 문자가 타이어 측벽에서 이를 따를 것으로 예상된다. "5/" 앵커의 경우, 2 내지 5개의 문자가 "5/" 앞에 오고 12 내지 15개의 문자가 "5/"의 뒤에 올 것으로 예상된다. 각각의 경우에, 문자의 높이는 일반적으로 약 100픽셀이다. 따라서, 앵커 주위의 모든 15 내지 18개 및/또는 2 내지 5개 및 12 내지 15개의 문자 시퀀스가 제4 채널에 대하여 유지되는 것을 보장하도록 이미지가 크롭핑되고 크기 재설정될 수 있다. 제4 채널에 대한 이미지가 얼마나 많이 크롭핑되고 그리고/또는 크기 재설정되어야 하는지를 결정하기 위하여 다른 문자 시퀀스 길이와 높이가 사용될 수 있다는 것에 유의하라.
선택적으로, 모든 실시예와 관련하여, 디지털 이미지 데이터에서의 타이어의 곡률이 언워핑될 수 있어, 이는 곡선이 제거되거나 직선화된 이미지로 만곡된 타이어 측벽의 이미지를 매핑함으로써 입력 채널을 생성하는데 사용되는 디지털 이미지 데이터로부터 제거된다. 이는 임의의 후속 처리를 단순화한다.
선택적으로, 모든 실시예와 관련하여, 디지털 이미지 데이터의 일부 또는 전부는 50% 내지 80%만큼 다운 샘플링될 수 있다. 전술된 바와 같이, 디지털 이미지는 고해상도(예를 들어, 약 500×4000 픽셀)를 갖는 것으로 예상된다. 이러한 고해상도 이미지에 훈련된 CNN을 테스트 시간에 적용하는 것은 리소스 집약적이며 훈련된 CNN이 배타적인 CPU 기반의 작업을 사용하여 처리/추론될 때 허용할 수 없는 속도 저하를 일으킬 수 있다. 속도 저하는 CNN이 실시간으로 실행되는 동안 허용 가능한 성능을 성취하지 못하게 할 수 있다. 입력 디지털 이미지 데이터를 다운 샘플링하는 것은 필요한 계산 리소스를 상당히 감소시키지만, 강력함과 일반화 능력이 저하된다. 이 문제를 극복하기 위해, 훈련 시간에, CNN이 완전한 고해상도 이미지와 다운 샘플링된 이미지 모두에 대해 훈련되도록 많은 훈련 샘플이 50% 내지 80%로 무작위로 다운 샘플링된다. 선택적으로, 일반화를 더욱 향상시키기 위해 약간의 아핀(affine) 변형이 훈련 샘플 중 일부에 추가될 수도 있다. 본 발명자들은 이러한 방식으로 훈련된 CNN이 완전한 고해상도 이미지와 50% 내지 80%만큼 다운 샘플링된 이미지 모두를 포함하는 임의의 해상도의 입력 이미지를 일반화하는 데 훨씬 더 강력하고 더 우수하다는 것을 알아냈다. 따라서, 입력 이미지가 테스트 시간에 50% 내지 80%만큼 다운 샘플링되는 경우, 위의 실시예들은 테스트 시간에 CPU에서만 배타적으로 수행될 수 있고, 따라서 허용할 수 있는 성능으로 실시간으로 실행하는 것을 가능하게 한다. 양각 및/또는 음각 마킹이 큰 로고인 경우, 본 발명자들은 다운 샘플링이 로고를 CNN의 수용 필드에 맞게 효과적으로 축소하여, 이에 따라 이의 검출을 개선한다는 것을 알아냈다.
또한, 제3 실시예와 관련하여 디지털 이미지가 제1 분류 분기에 의해 식별된 하나 이상의 앵커에 기초하여 제2 분류 분기에서 미리 정해진 높이 및 너비로 크롭핑되는 경우, 다운 샘플링이 필요하지 않다. 이것은 크롭핑이 입력 이미지의 크기를 상당히 줄이고 이에 따라 필요한 계산 리소스를 줄이기 때문이다. 예로서, 크롭핑된 이미지는 완전한 고해상도 입력 이미지의 500 픽셀 높이와 비교하여 높이가 대략 100픽셀일 수 있다.
제2 양태에 따르면, 타이어 측벽 상의 하나 이상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하기 위해 분류기를 훈련하는데 사용하기 위한 훈련 데이터 세트를 생성하기 위한 컴퓨터 구현 방법이 제공된다. 방법은 본 발명의 제1 양태의 실시예에서 사용되는 분류기를 훈련시키기 위하여 훈련 데이터를 생성하는 데 사용될 수 있다. 전술한 제1 양태의 실시예의 이점, 기술적 효과 및 특징은 제2 양태의 대응하는 실시예에 적용되고 조합될 수 있다.
도 4를 참조하면, 일 실시예에서, 훈련 데이터 세트(400)를 생성하는 방법은 각각의 타이어 측벽의 복수의 디지털 이미지 및 각각의 디지털 이미지 데이터(401)를 제공하는 단계를 포함하고, 각각의 측벽은 하나 이상의 양각 및/또는 음각 마킹을 갖는다. 방법은 예를 들어, 브랜드 로고, 타이어 유형 및 모델, 브랜드 심볼, 앵커 또는 전술된 바와 같은 다른 제1 클래스에 대응하는 하나 이상의 제1 클래스로 각각의 디지털 이미지 데이터(401)를 라벨링하는 단계(402)를 더 포함한다. 각각의 디지털 이미지 및 각각의 디지털 이미지 데이터(401)에 대해, 각각의 타이어 측벽의 대응하는 제1 부분에 관한 각각의 디지털 이미지 데이터(401)의 제1 부분으로부터 각각의 제1 이미지 채널(403)이 생성된다. 생성은 전술된 바와 같이 각각의 디지털 이미지 데이터(401)의 제1 부분에 대해 히스토그램 균등화를 수행하는 것을 포함한다.
도 5를 참조하면, 도 4에 도시된 실시예와 유사한 추가 실시예가 설명된다. 위의 실시예에서와 같이, 훈련 데이터 세트(500)를 생성하는 방법은 각각의 타이어 측벽의 복수의 디지털 이미지 및 각각의 디지털 이미지 데이터(501)를 제공하는 단계를 포함하고, 각각의 측벽은 하나 이상의 양각 및/또는 음각 마킹을 갖는다. 디지털 이미지 데이터(501)는 전술한 바와 같이 히스토그램 균등화를 수행함으로써 생성된 하나 이상의 제1 클래스 및 제1 채널(503a)로 라벨링된다(502).
그러나, 추가적으로, 제2 이미지 채널(503b) 및 제3 이미지 채널(503c)도 생성된다. 제2 이미지 채널(503b)은 각각의 디지털 이미지 데이터(501)의 제1 부분에 적응형 히스토그램 균등화를 수행함으로써 생성된다. 제3 이미지 채널(503c)에 대해, 각각의 디지털 이미지 데이터(501)의 제1 부분은 제3 이미지 채널(503c)로서 할당된다. 3개의 채널은 제1 양태와 관련하여 전술된 것에 대응한다.
도 6을 참조하면, 도 5에 예시된 실시예와 유사한 추가 실시예가 설명된다. 위의 실시예에서와 같이, 훈련 데이터 세트(600)를 생성하는 방법은 각각의 타이어 측벽의 복수의 디지털 이미지 및 각각의 디지털 이미지 데이터(601)를 제공하는 단계를 포함하고, 각각의 측벽은 하나 이상의 양각 및/또는 음각 마킹을 갖는다. 위와 같이, 디지털 이미지 데이터(601)는 하나 이상의 제1 클래스로 라벨링되고(602a), 3개의 이미지 채널(603a, 603b, 603c)이 제1 채널(603a)을 생성하기 위한 히스토그램 균등화, 제2 채널(603b)을 생성하기 위한 적응형 히스토그램 균등화를 수행하고, 제3 이미지 채널(603c)로서 디지털 이미지 데이터(601)를 할당함으로써 생성된다.
그러나, 추가적으로, 각각의 디지털 이미지 데이터(601)는, 예를 들어, 영숫자 문자 0 내지 9 및 A 내지 Z 뿐만 아니라, "/" 심볼 및/또는 본 발명의 제1 양태와 관련하여 전술된 바와 같이 타이어 제품 정보를 특정하기 위해 사용되는 다른 심볼에 대응하는 하나 이상의 제2 클래스로 라벨링된다(602b). 그 다음, 제4 이미지 채널(603d)이 각각의 디지털 이미지 데이터(601)의 제1 부분에 대해 DoG 연산을 수행함으로써 생성된다. 위에서와 같이, 디지털 이미지 데이터(601)에 의해 정의된 이미지는, 효율을 개선하기 위하여, DoG 연산을 수행하기 전에 앵커에 따라 크롭핑 및/또는 크기 재설정될 수 있다.
선택적으로, 전술된 바와 같이, 디지털 이미지 데이터에서의 타이어의 곡률이 언워핑될 수 있어, 이는 곡선이 제거되거나 직선화된 이미지로 만곡된 타이어 측벽의 이미지를 매핑함으로써 입력 채널을 생성하는데 사용되는 디지털 이미지 데이터로부터 제거된다. 이는 임의의 후속 처리를 단순화한다.
많은 훈련 데이터가 실제의 손으로 라벨링되고/주석이 추가된 이미지인 것이 바람직하지만, 이것이 항상 실용적이거나 가능한 것은 아니다. 선택적으로 이러한 경우에, 복수의 디지털 이미지 중 적어도 하나 이상은 합성적으로 생성될 수 있다. 즉, 이는 훈련을 위하여 사용 가능한 데이터의 전체 양을 증가시키기 위한 알고리즘을 이용하여 생성될 수 있다. 합성 데이터가 생성될 수 있는 방법의 비제한적인 예는 타이어 측벽의 실제의 완전한 언워핑된 이미지를 취하고 실제 이미지에서의 임의의 빈 공간에 원하는 제1 및/또는 제2 클래스에 대응하는 텍스트, 로고, 심볼 및/또는 기타 마킹을 채워, 이에 의해 CNN이 훈련될 이미지마다 (합성) 양각 및/또는 음각 마킹의 수를 증가시키는 것이다. 이 기술은 추가 마킹을 채울 수 있는 실제 이미지에서의 여유 공간의 제한된 양으로 인하여 많은 유연성을 제공하지 않지만, 본 발명자들은 충분한 완전히 손으로 라벨링된/주석이 추가된 실제 훈련 이미지가 사용 가능하지 않은 경우 놀라울 정도로 좋은 결과를 생성한다는 것을 알아냈다. 선택적으로, 일반화를 더욱 개선하기 위해 약간의 아핀 변형이 또한 훈련 데이터 이미지의 일부에 추가될 수도 있다.
선택적으로, 전술된 바와 같이, 훈련 데이터에서의 디지털 이미지 데이터의 일부 또는 전부는 50% 내지 80%만큼 다운 샘플링될 수 있다. 예를 들어, 훈련 데이터의 디지털 이미지가 고해상도(약 500×4000 픽셀)를 가지는 경우, 훈련 데이터가 완전한 고해상도 이미지와 다운 샘플링된 이미지를 포함하도록 무작위로 선택된 이의 부분이 50% 내지 80%만큼 다운 샘플링될 수 있다.
이러한 방식으로 훈련 데이트 세트에 다운 샘플링된 이미지를 포함하는 것의 이점은, 적어도 일부의 동일하게 더 낮은 해상도를 갖는 이미지가 훈련에 기여할 것이기 때문에, 더 낮은 해상도를 갖고 그리고/또는 테스트 시간에 다운 샘플링된 보이지 않는 이미지로 일반화하기 위하여 그에 대해 훈련된 CNN의 강력함과 능력을 개선한다는 것이다.
다운 샘플링은 마모된 "DOT" 및/또는 "5/" 앵커와 같은 양각 및/또는 음각 마킹의 매우 약하거나 약한 인스턴스의 검출을 약간 손상시키지만, 본 발명자들은 50%까지 다운 샘플링하는 것이 한편에서의 앵커 또는 큰 로고와 같은 양각 및/또는 음각 마킹의 검출과 다른 한편에서의 효율성 사이에서 좋은 트레이드오프를 제공하였다는 것을 알아냈다.
도 3의 실시예와 관련하여 전술된 바와 같이, 제4 채널에서, 훈련 데이터 이미지가 더 작은 이미지 패치(예를 들어, 전술된 바와 같이 예상되는 문자 시퀀스 길이에 기초하는 100 픽셀의 높이 및 미리 정해진 개수의 픽셀의 폭)로 크롭핑되고 그리고/또는 크기 재설정된 경우에, 더 작은 이미지 패치를 처리하는 것이 본질적으로 더 적은 계산 능력을 필요로 하기 때문에 다운 샘플링이 필요하지 않다.
제3 양태에 따르면, 타이어 측벽 상의 하나 이상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하기 위해 분류기를 훈련시키기 위한 컴퓨터 구현 방법이 제공된다. 방법은 본 발명의 제1 양태의 실시예에서 사용되는 분류기를 훈련시키기 위하여 사용될 수 있고 본 발명의 제2 양태의 방법에 의해 생성된 훈련 데이터를 사용할 수 있다. 전술한 제1 및/또는 제2 양태의 실시예의 이점, 기술적 효과 및 특징은 제3 측면의 대응하는 실시예에 적용되고 조합될 수 있다.
도 7을 참조하면, 일 실시예에서 방법은 제1 훈련 데이터(701)에 대해 제1 분류기를 훈련시키는 단계(700)를 포함하고, 제1 훈련 데이터(701)는 각각 하나 이상의 양각 및/또는 음각 마킹을 갖는 각각의 타이어 측벽의 복수의 디지털 이미지 및 각각의 디지털 이미지 데이터(702)를 포함한다. 각각의 디지털 이미지 데이터는, 전술된 바와 같이, 예를 들어, 브랜드 로고, 타이어 유형 및 모델, 브랜드 심볼, 앵커 또는 기타 클래스와 같은 하나 이상의 제1 클래스로 라벨링된다. 각각의 디지털 이미지 및 각각의 디지털 이미지 데이터는 각각의 타이어 측벽의 대응하는 제1 부분에 관한 각각의 디지털 이미지 데이터(702)의 제1 부분에 대해 히스토그램 균등화를 수행함으로써 생성된 각각의 제1 이미지 채널(703)을 포함한다. 제1 분류기는 제공된 라벨(704) 및 제1 이미지 채널(703)을 사용하여 훈련된다(700).
도 8을 참조하면, 도 7에 도시된 실시예와 유사한 추가 실시예가 설명된다. 위의 실시예와 마찬가지로, 방법은 제1 훈련 데이터(801)에 대해 제1 분류기를 훈련시키는 단계(800)를 포함하고, 제1 훈련 데이터(801)는 각각 하나 이상의 양각 및/또는 음각 마킹을 갖는 각각의 타이어 측벽의 복수의 디지털 이미지 및 각각의 디지털 이미지 데이터(802)를 포함한다. 각각의 디지털 이미지 데이터(802)는 위와 같이 하나 이상의 제1 클래스로 라벨링된다. 각각의 디지털 이미지 및 각각의 디지털 이미지 데이터(802)는 각각의 타이어 측벽의 대응하는 제1 부분에 관한 각각의 디지털 이미지 데이터(802)의 제1 부분에 대해 히스토그램 균등화를 수행함으로써 생성된 제1 이미지 채널(803a)을 포함한다.
그러나, 추가적으로, 본 발명의 제1 및 제2 양태의 대응하는 실시예와 관련하여 전술된 바와 같이, 각각의 디지털 이미지 및 각각의 디지털 이미지 데이터는 제2 이미지 채널(803b) 및 제3 이미지 채널(803c)을 더 포함한다. 제2 이미지 채널(803b)은 제2 이미지 채널(803b)을 생성하기 위해 각각의 디지털 이미지 데이터(802)의 제1 부분에 적응형 히스토그램 균등화를 수행함으로써 생성된다. 각각의 디지털 이미지 데이터(802)는 제3 이미지 채널(803c)로서 할당된다. 3개의 이미지 채널(히스토그램 균등화(803a), 적응형 히스토그램 균등화(803b) 및 디지털 이미지 데이터(803c))을 사용하는 이점 및 효과는 본 발명의 제1 및 제2 양태와 관련하여 위에서 설명되었다. 제1 분류기는 제공된 라벨(804)과 제1, 제2 및 제3 이미지 채널(803a, 803b, 803c)을 사용하여 훈련된다(800).
도 9를 참조하면, 도 8에 도시된 실시예와 유사한 추가 실시예가 설명된다. 위의 실시예들과 마찬가지로, 방법은 제1 훈련 데이터(901)에 대해 제1 분류기를 훈련시키는 단계(900)를 포함하고, 제1 훈련 데이터(901)는 각각 하나 이상의 양각 및/또는 음각 마킹을 갖는 각각의 타이어 측벽의 복수의 디지털 이미지 및 각각의 디지털 이미지 데이터(902)를 포함한다. 각각의 디지털 이미지 데이터(902)는 위와 같이 하나 이상의 제1 클래스로 라벨링된다. 각각의 디지털 이미지 및 각각의 디지털 이미지 데이터(902)는 전술한 바와 같이 동일한 제1, 제2 및 제3 이미지 채널(903a, 903b, 903c)을 포함한다.
그러나 추가적으로, 본 발명의 제1 및 제2 양태의 대응하는 실시예와 관련하여 위에서 설명된 바와 같이, 디지털 이미지 데이터(902)의 제1 부분은 또한, 예를 들어, 영숫자 문자 0 내지 9 및 A 내지 Z와 같은 하나 이상의 제2 클래스뿐만 아니라 "/" 심볼 및/또는 타이어 제품 정보를 특정하는 데 사용되는 기타 심볼과 같은 추가 클래스로 라벨링된다. 또한, 제4 이미지 채널(903d)은 디지털 이미지 데이터(902)의 제1 부분에 대해 DoG 연산을 수행함으로써 생성된다. 이것은 디지털 이미지 데이터(902)의 제1 부분의 전체이거나, 예를 들어, 단지 "DOT" 또는 "5/" 문자 시퀀스와 같은 앵커에 인접하고 그리고/또는 이웃하는(즉, 미리 정해진 거리 내의 앵커) 크롭핑된 부분인, 이의 일부 다른 부분일 수 있다. 본 발명의 제1 및 제2 양태에서의 대응하는 실시예와 관련하여 전술된 바와 같이, 이것은 DoG가 훨씬 더 작은 이미지 패치에 대해서만 수행될 필요가 있어 훈련에 필요한 처리 리소스를 감소시키기 때문에 훨씬 효율적이다. 제1 분류기는 제1, 제2 및 제3 이미지 채널(903a, 903b, 903c)과 함께 제1 클래스에 대응하는 제공된 레이블(905)을 사용하여 훈련(900)되고, 제2 분류기는 제4 이미지 채널(903d)과 함께 제2 클래스에 대응하는 제공된 레이블(906)을 사용하여 훈련(904)된다.
위의 모든 실시예와 관련하여, 예를 들어, Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, & R. Garnett (Eds.), Advances in Neural Information Processing Systems 28 (pp. 91-99). Curran Associates, Inc. 및 그 내에 포함된 참조 문헌에서 설명된 것과 같은 임의의 적절한 훈련 기술이 사용될 수 있다.
효율성과 금전적 비용이 핵심 요소이고 따라서 모든 방법 단계를 CPU에서 실행하는 것이 바람직한 테스트 시간과 달리, 훈련 시간에는 GPU가 선택적으로 대신 사용될 수 있다. 훈련 데이터가 고해상도 이미지를 포함하는 경우, 일반적으로 8GB GPU RAM 제한(GTX-1080) 내에서 유지하는데 1의 배치 크기가 요구된다. 또한, 더 큰 배치 크기가 결과를 개선하기 위하여 사용될 수 있지만, 더 비싼 더 높은 RAM 제한을 갖는 GPU를 필요로 할 수 있다.
또한, 도 10에서의 기술적 아키텍처에 의해 도시된 바와 같이, 위의 실시예들 중 임의의 실시예의 방법의 단계들을 수행하기 위한 수단을 포함하는 예시적인 데이터 처리 장치가 본 명세서에 제공된다. 일부 실시예에서, 단계들은 GPU보다 저렴한 CPU에서 전적으로 수행된다.
데이터 처리 장치는 2차 스토리지(1001)(예를 들어, 디스크 드라이브), ROM(read only memory)(1002), RAM(random access memory)(1003)를 포함하는 메모리 장치와 통신하는 프로세서(1000)를 포함할 수 있다. 프로세서(1000)는 GPU보다 저렴한 하나 이상의 CPU 칩으로서 구현될 수 있다. 데이터 처리 장치는 입/출력(I/O) 장치(1004) 및 네트워크 연결 장치(1005)를 더 포함할 수 있다.
2차 스토리지(1001)는 통상적으로 하나 이상의 디스크 드라이브 또는 테이프 드라이브로 구성되며, RAM(1003)이 모든 작업 데이터를 보유하기에 충분히 크지 않은 경우 데이터의 비휘발성 저장 및 오버플로 데이터 저장 장치로 사용된다. 2차 스토리지(1001)는 이러한 프로그램이 실행을 위해 선택될 때 RAM(1003)에 로딩되는 프로그램을 저장하는 데 사용될 수 있다.
이 실시예에서, 2차 스토리지(1001)는 본 개시 내용의 방법의 다양한 동작들을 수행하기 위해 프로세서(1000)에 의해 동작하는 비일시적인 명령어를 포함하는 명령 처리 컴포넌트(1001a)를 가진다. ROM(1002)은 프로그램 실행 동안 판독되는 명령어 및 아마도 데이터를 저장하는 데 사용된다. 2차 스토리지(1001), RAM(1003) 및/또는 ROM(1002)은 일부 상황에서 컴퓨터 판독 가능한 저장 매체 및/또는 비일시적인 컴퓨터 판독 가능한 매체로 지칭될 수 있다.
I/O 장치(1004)는 프린터, 비디오 모니터, 액정 디스플레이(LCD), 플라즈마 디스플레이, 터치 스크린 디스플레이, 키보드, 키패드, 스위치, 다이얼, 마우스, 트랙 볼, 음성 인식기, 카드 판독기, 종이 테이프 판독기 또는 기타 잘 알려진 입력 장치를 포함할 수 있다.
네트워크 연결 장치(1005)는 모뎀, 모뎀 뱅크, 이더넷 카드, USB(universal serial bus) 인터페이스 카드, 직렬 인터페이스, 토큰 링 카드, FDDI(fiber distributed data interface) 카드, WLAN(wireless local area network) 카드, CDMA(code division multiple access), GSM(global system for mobile communications), LTE(long-term evolution), WiMAX(worldwide interoperability for microwave access), NFC(near field communications), RFID(radio frequency identity)와 같은 프로토콜을 이용하여 무선 통신을 촉진하는 무선 송수신 카드 및/또는 다른 무선 인터페이스 프로토콜 무선 송수신 카드 그리고 기타 잘 알려진 네트워크 장치의 형태를 취할 수 있다. 이러한 네트워크 연결 장치(1005)는 프로세서(1000)가 인터넷 또는 하나 이상의 인트라넷과 통신하는 것을 가능하게 할 수 있다. 이러한 네트워크 연결을 이용하여, 프로세서(1000)가 전술된 방법의 동작들을 수행하는 과정에서 네트워크로부터 정보를 수신하거나, 네트워크에 정보를 출력할 수 있다는 것이 예상된다. 프로세서(1000)를 사용하여 실행될 명령어 시퀀스로서 종종 표현되는 이러한 정보는, 예를 들어, 반송파에 구체화된 컴퓨터 데이터 신호의 형태로 네트워크로부터 수신되고 네트워크로 출력될 수 있다.
프로세서(1000)는 이것이 하드 디스크, 플로피 디스크, 광 디스크(이러한 다양한 디스크 기반 시스템은 모두 2차 스토리지(1001)로 간주될 수 있음), 플래시 드라이브, ROM(1002), RAM(1003) 또는 네트워크 연결 장치(1005)로부터의 액세스하는 명령어, 코드, 컴퓨터 프로그램, 스크립트를 실행한다. 하나의 프로세서(1000)만이 도시되어 있지만, 다수의 프로세서가 존재할 수 있다. 따라서, 명령어가 프로세서에 의해 실행되는 것으로 논의될 수 있지만, 명령어는 하나 또는 다수의 프로세서에 의해 동시에, 직렬로 또는 이와 달리 실행되는 것으로 논의될 수 있다.
기술적 아키텍처가 하나의 컴퓨터를 참조하여 설명되지만, 기술적 아키텍처는 작업을 수행하기 위해 협력하는 서로 통신하는 2 이상의 컴퓨터에 의해 형성될 수 있다는 것이 이해되어야 한다. 한정이 아닌 예를 들어, 애플리케이션은 애플리케이션 명령어의 동시 및/또는 병렬 처리를 허용하는 방식으로 분할될 수 있다. 대안적으로, 애플리케이션에 의해 처리된 데이터는 2 이상의 컴퓨터에 의해 데이터 세트의 서로 다른 부분의 동시 및/또는 병렬 처리를 허용하는 방식으로 분할될 수 있다. 일 실시예에서, 가상화 소프트웨어가 기술 아키텍처에서 다수의 컴퓨터에 직접적으로 구속되지 않는 다수의 서버의 기능을 제공하기 위해 기술적 아키텍처에 의해 사용될 수 있다. 일 실시예에서, 위에 개시된 기능은 클라우드 컴퓨팅 환경에서 애플리케이션 및/또는 애플리케이션들을 실행함으로써 제공될 수 있다. 클라우드 컴퓨팅은 동적으로 확장 가능한 컴퓨팅 리소스를 사용하여 네트워크 연결을 통해 컴퓨팅 서비스를 제공하는 것을 포함할 수 있다. 클라우드 컴퓨팅 환경은 기업에 의해 구축될 수 있고 그리고/또는 필요에 따른 기반으로 제3자 제공업자로부터 고용될 수 있다.
기술적 아키텍처 상으로 실행 가능한 명령어를 프로그래밍 및/또는 로딩함으로써, CPU(1000), RAM(1003) 및 ROM(1002) 중 적어도 하나가 변경되어 기술적 아키텍처를 본 개시 내용에 의해 교시되는 신규 기능을 갖는 특수 목적 기계 또는 장치로 부분적으로 변환한다는 것이 이해된다. 실행 가능한 소프트웨어를 컴퓨터에 로딩함으로써 구현될 수 있는 기능이 잘 알려진 설계 규칙에 의해 하드웨어 구현으로 변환될 수 있다는 것은 전기 공학 및 소프트웨어 공학 분야에 기본적이다.
또한, 프로그램이 컴퓨터에 의해 실행될 때 컴퓨터로 하여금 위의 실시예들 중 임의의 실시예의 방법의 단계들을 수행하게 하는 명령어를 포함하는 컴퓨터 프로그램 및 이 컴퓨터 프로그램을 저장하기 위한 컴퓨터 판독 가능한 저장 매체가 본 명세서에 제공된다.
본 발명이 전술된 같이 바람직한 실시예의 관점에서 설명되었지만, 이러한 실시예는 단지 예시일 뿐이며 청구 범위는 그러한 실시예로 제한되지 않는다는 것이 이해되어야 한다. 통상의 기술자는 첨부된 청구항들의 범위 내에 있는 것으로 고려되는 개시 내용을 고려하여 수정 및 대안을 만들 수 있을 것이다. 본 명세서에 개시되거나 예시된 각각의 특징은 단독으로 또는 본 명세서에 개시되거나 예시된 임의의 다른 특징과의 임의의 적절한 조합에 의해 본 발명에 포함될 수 있다.
예를 들어, Fast R-CNN, R-CNN, SPPNet, SSD, YOLO v1/v2/v3과 같은 Faster R-CNN이 아닌 다른 CNN이 EAST(Efficient and Accurate Scene Text Detector), CTPN(connectionist text proposal network) 텍스트 검출기 등과 같은 다수의 텍스트 검출기와 함께 사용될 수 있다는 것이 예상된다. 특히, (동일한 유형 또는 상이한 유형의 CNN일 수 있는) 다수의 종단간(end-to-end) 검출기가 위의 방법들을 수행하고 이에 의해 전술된 바와 같은 저렴하고 효율적인 방식으로 측벽 마킹 검출 및 분류의 문제를 해결하기 위하여 배치될 수 있다.
또한, 전술된 Faster R-CNN은 K. Simonyan, A. Zisserman, Very Deep Convolutional Networks for Large-Scale Image Recognition, arXiv technical report, 2014에서 설명된 바와 같은 VGG16 백본을 가진다. 또한, ResNet50, ResNet100, InceptionNet, AlexNet 등과 같은 다른 백본이 사용될 수 있다.
또한, 디지털 이미지 데이터가 단일 타이어의 타이어 측벽의 (선택적으로는 언워핑된) 복수의 이미지를 포함하는 경우, 타이어 측벽 상의 하나 이상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하기 위한 전술된 방법의 정확도가 추가로 증가될 수 있다. 복수의 이미지가 사용 가능할 수 있는 경우의 일례는, 이미징 시스템의 시야에 걸쳐 이동함에 따라 타이어 측벽의 복수의 이미지를 취하는 이미징 시스템에 의해 디지털 이미지 데이터가 획득된 경우dl며, 결과적인 복수의 이미지는 동일한 타이어 측벽 및 그 상의 양각 및/또는 음각 마킹의 다수의 서로 다른 뷰를 제공한다.
일반적으로, 단일 이미지가 아닌 동일한 양각 및/또는 음각 마킹의 복수 이미지에 대해 방법을 수행함으로써, 복수의 분류 결과가 획득된다. 복수의 이미지가 모두 동일한 타이어 측벽과 동일한 양각 및/또는 음각 마킹에 관한 것이기 때문에 각각의 분류 결과는 동일할 것으로 예상된다. 따라서, 분류 결과 중 하나 이상이 다른 분류 결과와 다른 경우, 허위 양성 또는 음성 결과(false positive or negative result)인 것으로 결정될 수 있다.
특히, 디지털 이미지 데이터가 타이어 측벽의 복수의 이미지의 디지털 이미지 데이터를 포함하는 경우, 제1 이미지 채널을 생성하는 단계, 제1 특징 맵을 생성하는 단계 및 제1 분류기를 적용하는 단계가 이미지 각각에 대해 수행되고, 이에 의해 타이어 측벽 상의 양각 및/또는 음각 마킹과 연관된 복수의 분류 결과를 획득한다. 각각의 분류 결과는, 상기 하나 이상의 식별된 제1 클래스의 각각에 대한 대응하는 복수의 각각의 신뢰 수준과 함께, 양각 및/또는 음각 마킹이 하나 이상의 제1 클래스 중 어느 것으로 분류되었는지 식별한다.
각각의 신뢰 수준은 0과 1 사이의 값이고, 여기서 1은 결과가 진정한 양성(true false)이라는 것의 100% 신뢰도이고, 0은 결과가 진정 양성이라는 것의 0% 신뢰도이다.
각각의 분류 결과에서 상기 하나 이상의 제1 클래스 각각에 대해, 대응하는 신뢰 수준은 이에 스칼라 상수를 곱하는 것으로 수정될 수 있고, 예를 들어 증가될 수 있다. 특히, 신뢰 수준이 미리 정해진 제1 임계값 위에 있는 경우(예를 들어, 0.95보다 큼), 이를 증가시키기 위해 상수(예를 들어, 3, 4, 5 또는 임의의 다른 스칼라)가 곱해진다. 신뢰 수준이 제1 임계값 이하인 경우, 이러한 곱셈은 수행되지 않는다. 곱셈은 그렇지 않은 클래스에 비해 이미 높은 신뢰 수준을 가지고 있는 식별된 클래스의 신뢰 수준을 높이는 효과가 있다. 이는 낮은 신뢰 수준을 가지며 이에 따라 하위 양성 또는 음성일 확률이 더 높은 식별된 클래스와 구별되는 데 도움이 된다.
적용 가능한 경우 곱셈이 수행된 후, 각각의 식별된 클래스의 신뢰 수준은 (예를 들어, 합산에 의해) 누적되어 해당 타이어 측벽의 복수의 이미지에서 식별된 각각의 해당하는 클래스에 대한 신뢰 점수를 제공한다.
따라서, 클래스가 제1 임계값보다 높은 신뢰 수준으로 복수의 이미지 모두에 나타나는 경우, 각각의 이미지로부터의 이의 연관된 신뢰 수준에 매번 상수가 곱해졌을 것이고, 이에 따라 진정한 양성을 나타내는 높아진 신뢰 점수를 제공한다.
대조적으로, 클래스가 제1 임계값 미만의 신뢰 수준을 가진 이미지 중 하나 또는 몇 개에만 나타나거나 신뢰 수준이 높은 이미지 중 하나에만 나타나고 나머지 신뢰 수준이 낮은 경우, 결과적인 누적된 신뢰 점수는 다른 신뢰 점수에 비하여 낮을 것이고, 이에 따라 허위 양성 또는 진정한 음성을 나타낼 것이다.
최종 단계에서, 각각의 신뢰 점수가 미리 정해진 제2 임계값 미만이면, 대응하는 하나 이상의 식별된 제1 클래스가 허위 양성인 것이 결정될 수 있다. 허위 양성은 선택적으로 폐기될 수 있으며, 나머지 클래스는 진정한 양성으로서 유지될 수 있다. 유지된 진정한 양성은, 예를 들어, 타이어의 브랜드를 식별하는 데 추가로 사용될 수 있다.
본 발명자들은 위의 방법이 디지털 이미지 데이터가 동일한 타이어의 측벽의 복수의 이미지를 포함하는 본 명세서에 설명된 방법의 정확도를 증가시키는 빠르고 계산적으로 저렴한 방법을 제공한다는 것을 밝혀냈다. 위의 기술의 예시적인 구현이 이제 설명된다. 라벨 세트(즉, 클래스)는 다음의 구조 또는 다른 구조를 갖는 목록에 설정될 수 있다.
{"logoLabels":
[
{"brand": "BRAND1", "modelNames" : ["Winter", "Summer", "1337Grip", "brand1_symbol"},
{"brand": "BRAND2", "modelNames" : ["Wet", "Dry", "Sport", "brand2_symbol"] },
...
{ "brand": "OUTSIDE", "modelNames" : ["outside"] },
{ "brand": "ROTATION", "modelNames" : ["Rotation"] },
{"brand": "DOT", "modelNames" : ["D O T"] },
{"brand": "5slash", "modelNames" : [] }
]
}
각각의 타이어 브랜드는 다수의 타이어 모델 및 이와 연관된 심볼을 가질 수 있다(예를 들어, "BRAND1"은 "Winter", "Summer", "1337Grip"이라는 모델과 "brand1_symbol"이라는 심볼을 가진다). 또한, 어떠한 브랜드와도 고유하게 연관되지 않은 "OUTSIDE" 또는 "ROTATION"과 같이 특정의 비브랜드 이름이 있을 수 있다. 이는 공통 태그로서 라벨링되며, 이것이 제1 분류기 프레임워크에서 제1 클래스에 속할 수 있고 타이어 유형이나 내부 또는 외부 측면 및 회전 방향의 특정 일반 그룹을 식별하는 데 도움이 될 수 있지만, 이의 존재가 반드시 타이어 브랜드를 구별하는 것을 돕지 않는다. 이러한 유형의 마킹을 공통 태그로서 라벨링하는 것은, 선택적으로, 이것이 테스트 시간에 검출되면 폐기될 수 있다는 것을 의미한다. 또한, "DOT" 및 "5/"와 같은 앵커 클래스도 목록에 포함된다. 주어진 양각 및/또는 음각 마킹이 다수의 뚜렷한 모양을 가지는 경우(예를 들어, 브랜드 로고 또는 텍스트가 시간이 지남에 따라 변경되어 이의 다른 버전이 존재할 수 있음), 그 양각 및/또는 음각 마킹의 다수의 클래스도 목록에 추가될 수 있다. 또한, 특정의 다른 유형의 양각 및/또는 음각 마킹에는 주어진 타이어 브랜드에 고유한 태그가 주어진다. 예를 들어, 타이어가 내부 또는 외부에 보관하는 방법에 대한 지침을 보여주는 고유한 그림이 타이어 측벽에 있을 수 있다. 이러한 그림의 고유성을 감안할 때, 이는 타이어 브랜드를 구별하는 데 특히 도움이 될 수 있다.
따라서, 위의 목록은 제1 분류기에 의해 양각 및/또는 음각 마킹이 분류될 수 있는 모든 클래스를 보여준다. 목록의 구조는 클래스가 서로 그리고/또는 연관된 브랜드에 어떻게 관련되는지, 특히 심볼, 타이어 모델 및 고유 태그가 이의 브랜드와 어떻게 관련되는지를 나타낸다.
테스트 시간에 목록 구조가 초기화되고 제1 분류기가 타이어 측벽의 복수의 이미지에 적용된다. 클래스의 각각의 검출에 대하여, 검출된 클래스에 대해 목록이 검색되고, 그 검출에 대한 연관된 신뢰 수준이 그 클래스에 대한 누적 점수에 더해진다. 전술된 바와 같이, 신뢰 수준이 높으면(예를 들어, 0.95 보다 큰 경우), 누적 신뢰 점수에 더해지기 전에 이에 상수가 곱해진다. 리스트 내의 각각의 검출된 클래스에 대한 누적된 신뢰 점수가 이에 의해 생성된다.
복수의 이미지 각각에서 동일한 표시가 검출되고 있기 때문에 동일한 클래스의 다수의 검출이 있을 것이라는 것, 즉 동일한 마킹이 여러 번 검출되고 있는 경우 시스템 내에 검출 리던던시가 구축된다는 것이 예상된다. 따라서, 여러 번 검출된 클래스와 연관된 누적 신뢰 점수도 높을 것이며, 이러한 다중 검출이 진정한 양성이라는 합의가 도출된다. 대조적으로, 허위 양성은 여러 번 검출될 가능성이 매우 낮아, 누적 신뢰 점수가 낮을 것이고 합의가 도출되지 않을 것이다.
이러한 방식으로 복수의 이미지가 모두 처리되었을 때, 누적 신뢰 점수는 어떤 클래스가 올바르게 검출되었는지를 나타낸다. 목록 구조가 또한 검출된 클래스가 주어진 타이어 브랜드와 연관되어 있는지 여부를 나타내기 때문에, 주어진 브랜드와 연관된 모든 검출된 클래스의 신뢰 점수가 집계될 수 있다. 가장 높은 집계 점수를 가진 브랜드가 이미징된 타이어의 브랜드를 결정하는 데 사용될 수 있다.
또한, 일단 타이어 브랜드가 결정되면, 가장 높은 점수에 대한 타이어 모델을 나타내는 클래스와 연관된 신뢰 점수를 검색함으로써 타이어 모델명이 결정될 수 있다. 통상적으로, 이는 브랜드 심볼 및 고유한 타이어 모델을 나타내지 않는 공통 태그의 검출을 제외할 것이다.

Claims (25)

  1. 타이어 측벽 상의 하나 이상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하기 위한 컴퓨터 구현 방법에 있어서,
    (i) 상기 타이어 측벽의 디지털 이미지 데이터를 제공하는 단계;
    (ii) 상기 타이어 측벽의 대응하는 제1 부분에 관한 상기 디지털 이미지 데이터의 제1 부분으로부터 제1 이미지 채널을 생성하는 단계 - 상기 제1 이미지 채널을 생성하는 단계는:
    상기 제1 이미지 채널을 생성하기 위해 상기 디지털 이미지 데이터의 상기 제1 부분에 대해 히스토그램 균등화(histogram equalisation)를 수행하는 단계
    를 포함함 -;
    (iii) 상기 제1 이미지 채널을 이용하여 제1 특징 맵(feature map)을 생성하는 단계; 및
    (iv) 상기 양각 및/또는 음각 마킹을 하나 이상의 제1 클래스로 분류하기 위해 상기 제1 특징 맵에 제1 분류기를 적용하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 디지털 이미지 데이터의 상기 제1 부분으로부터 제2 및 제3 이미지 채널을 생성하는 단계를 포함하고,
    상기 제2 및 제3 이미지 채널을 생성하는 단계는:
    상기 제2 이미지 채널을 생성하기 위해 상기 디지털 이미지 데이터의 상기 제1 부분에 대해 적응형 히스토그램 균등화(adaptive histogram equalisation)를 수행하는 단계; 및
    상기 디지털 이미지 데이터의 상기 제1 부분을 상기 제3 이미지 채널로서 할당하는 단계
    를 포함하고,
    상기 제1 특징 맵은 상기 제1, 제2 및 제3 이미지 채널을 사용하여 생성되는, 방법.
  3. 제2항에 있어서,
    상기 디지털 이미지 데이터의 상기 제1 부분에 대해 DoG(Difference of Gaussians) 연산을 수행하여 제4 이미지 채널을 생성하는 단계;
    상기 제4 이미지 채널을 이용하여 제2 특징 맵을 생성하는 단계; 및
    상기 양각 및/또는 음각 마킹을 하나 이상의 제2 클래스로 분류하기 위해 상기 제2 특징 맵에 제2 분류기를 적용하는 단계
    를 포함하는, 방법.
  4. 제3항에 있어서,
    상기 제1 분류기는 제1 Faster R-CNN 네트워크 내의 분류기이고, 상기 제2 분류기는 제2 Faster R-CNN 네트워크 내의 분류기이며, 상기 제1 Faster R-CNN 네트워크는 상기 제2 Faster R-CNN 네트워크와 구별되는 방법.
  5. 제4항에 있어서,
    상기 제1 Faster R-CNN 네트워크는 제1 관심 영역 생성기를 포함하고, 상기 방법은:
    상기 제1 관심 영역 생성기를 이용하여, 상기 제1 특징 맵 상에 복수의 제1 관심 영역을 생성하고, 생성된 상기 복수의 제1 관심 영역에 상기 제1 분류기를 적용하는 단계
    를 포함하는, 방법.
  6. 제5항에 있어서,
    상기 제2 Faster R-CNN 네트워크는 제2 관심 영역 생성기를 포함하고, 상기 방법은:
    상기 제2 관심 영역 생성기를 이용하여, 상기 제2 특징 맵 상에 복수의 제2 관심 영역을 생성하고, 생성된 상기 복수의 제2 관심 영역에 상기 제2 분류기를 적용하는 단계
    를 포함하는, 방법.
  7. 제6항에 있어서,
    상기 제1 및 제2 Faster R-CNN 네트워크 각각은 해당하는 경계 박스 회귀기(bounding box regressor)를 포함하고, 상기 방법은:
    상기 해당하는 경계 상자 회귀기를 이용하여, 상기 복수의 각각의 제1 및/또는 제2 관심 영역에 대해 경계 상자 회귀를 수행하여 생성된 상기 복수의 제1 및/또는 제2 관심 영역에 상기 제1 및/또는 제2 분류기를 적용하는 단계를 수행하기 전에 상기 복수의 제1 및/또는 제2 관심 영역 중 하나 이상의 위치를 구체화하는(refine) 단계
    를 포함하는, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 타이어 측벽은 곡률을 갖고, 상기 디지털 이미지 데이터를 제공하는 단계는 상기 곡률을 언워핑(unwarping)하는 단계를 포함하는, 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 디지털 이미지 데이터를 50% 내지 80%만큼 다운 샘플링하는 단계를 포함하는, 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 방법은 CPU에서 수행되는, 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 디지털 이미지 데이터는 상기 타이어 측벽의 복수의 이미지의 디지털 이미지 데이터를 포함하고;
    상기 제1 이미지 채널을 생성하는 단계, 상기 제1 특징 맵을 생성하는 단계 및 상기 제1 분류기를 적용하는 단계는, 상기 복수의 이미지의 각각의 해당하는 이미지에 대하여 수행되어 상기 양각 및/또는 음각 마킹이 상기 하나 이상의 제1 클래스 중 어느 클래스로 분리되는지와 식별된 상기 하나 이상의 제1 클래스의 각각에 대한 대응하는 복수의 해당하는 신뢰 수준을 나타내는 복수의 분류 결과를 제공하고; 그리고
    상기 신뢰 수준에 기초하여, 식별된 상기 제1 클래스 중 하나 이상이 허위 양성(false positives)이라고 결정하는, 방법.
  12. 제11항에 있어서,
    각각의 상기 분류 결과에서 상기 하나 이상의 식별된 제1 클래스의 각각에 대하여, 상기 신뢰 수준이 미리 정해진 제1 임계값보다 큰 경우에, 상수를 곱셈함으로써 상기 대응하는 신뢰 수준을 수정하는 단계를 더 포함하는, 방법.
  13. 제12항에 있어서,
    상기 하나 이상의 식별된 제1 클래스의 각각에 대하여, 상기 신뢰 수준을 더하여 해당하는 신뢰 접수를 생성하는 단계; 및
    해당하는 신뢰 점수가 미리 정해진 제2 임계값보다 낮은 경우에, 상기 신뢰 점수에 기초하여 하나 이상의 상기 식별된 제1 클래스가 허위 양성(false positives)이라고 결정하는 단계
    를 더 포함하는, 방법.
  14. 타이어 측벽 상의 하나 이상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하기 위해 분류기를 훈련시키는데 사용하기 위한 훈련 데이터 세트를 생성하기 위한 컴퓨터 구현 방법에 있어서,
    타이어의 각각의 측벽의 복수의 디지털 이미지 및 각각의 디지털 이미지 데이터를 제공하는 단계 - 각각의 측벽은 하나 이상의 양각 및/또는 음각 마킹을 가짐 -;
    상기 각각의 디지털 이미지 데이터를 하나 이상의 제1 클래스로 라벨링하는 단계; 및
    각각의 타이어 측벽의 대응하는 제1 부분에 관한 상기 각각의 디지털 이미지 데이터의 제1 부분으로부터 각각의 제1 이미지 채널을 생성하는 단계 - 상기 생성하는 단계는:
    상기 각각의 제1 이미지 채널을 생성하기 위해 상기 각각의 디지털 이미지 데이터의 상기 제1 부분에 대해 히스토그램 균등화를 수행하는 단계를 포함함 -
    를 포함하는, 방법.
  15. 제14항에 있어서,
    상기 각각의 디지털 이미지 데이터의 상기 제1 부분으로부터 각각의 제2 및 제3 이미지 채널을 생성하는 단계를 포함하고,
    상기 제2 및 제3 이미지 채널을 생성하는 단계는:
    상기 제2 이미지 채널을 생성하기 위해 상기 각각의 디지털 이미지 데이터의 제1 부분에 대해 적응형 히스토그램 균등화를 수행하는 단계; 및
    상기 각각의 디지털 이미지 데이터의 상기 제1 부분을 제3 이미지 채널로 할당하는 단계
    를 포함하는, 방법.
  16. 제15항에 있어서,
    상기 각각의 디지털 이미지 데이터를 하나 이상의 제2 클래스로 라벨링하는 단계를 포함하고,
    상기 생성하는 단계는:
    제4 이미지 채널을 생성하기 위해 상기 각각의 디지털 이미지 데이터의 상기 제1 부분에 대해 DoG(difference of Gaussians) 연산을 수행하는 단계
    를 포함하는, 방법.
  17. 제14항 내지 제16항 중 어느 한 항에 있어서,
    각각의 상기 타이어 측벽은 곡률을 갖고, 상기 복수의 디지털 이미지 및 상기 각각의 디지털 이미지 데이터를 제공하는 단계는 상기 곡률을 언워핑하는 단계를 포함하는, 방법.
  18. 제14항 내지 제17항 중 어느 한 항에 있어서,
    상기 복수의 디지털 이미지 중 적어도 하나는 합성적으로 생성되는, 방법.
  19. 제14항 내지 제18항 중 어느 한 항에 있어서,
    상기 각각의 디지털 이미지 데이터는 50% 내지 80%만큼 다운 샘플링되는, 방법.
  20. 타이어 측벽 상의 하나 이상의 양각 및/또는 음각 마킹을 하나 이상의 클래스로 분류하기 위해 분류기를 훈련시키기 위한 컴퓨터 구현 방법에 있어서,
    상기 방법은, 복수의 타이어 측벽 각각에 대해, 상기 타이어 측벽의 제1 부분의 디지털 이미지로부터 도출된 각각의 디지털 이미지 데이터를 포함하는 제1 훈련 데이터에 대한 제1 분류기를 훈련시키는 단계 - 각각의 측벽은 하나 이상의 양각 및/또는 음각 마킹을 가짐 - 를 포함하고,
    상기 디지털 이미지 데이터는 하나 이상의 라벨로 라벨링되고, 각각의 라벨은 상기 타이어가 복수의 제1 클래스 중 하나 내의 마킹을 포함하는 것을 나타내고,
    상기 디지털 이미지 데이터는 제1 이미지 채널을 갖고,
    상기 제1 이미지 채널은 대응하는 상기 디지털 이미지의 제1 부분에 대해 히스토그램 균등화를 수행함으로써 생성되는, 방법.
  21. 제20항에 있어서,
    상기 디지털 이미지 데이터는 제2 및 제3 이미지 채널을 갖고,
    상기 제2 이미지 채널은 상기 제2 이미지 채널을 생성하기 위해 상기 디지털 이미지의 상기 제1 부분에 대해 적응형 히스토그램 균등화를 수행함으로써 생성되고,
    상기 제3 이미지 채널은 상기 디지털 이미지의 상기 제1 부분을 제3 이미지 채널로 할당함으로써 생성되는, 방법.
  22. 제21항에 있어서,
    상기 복수의 타이어 측벽 각각에 대해, 상기 타이어 측벽의 제1 부분의 상기 디지털 이미지로부터 도출된 각각의 제2 디지털 이미지 데이터를 포함하는 제2 훈련 데이터에 대해 제2 분류기를 훈련시키는 단계를 포함하고,
    상기 디지털 이미지 데이터는 하나 이상의 제2 라벨로 라벨링되고, 각각의 제2 라벨은 상기 타이어가 복수의 제2 클래스 중 하나 내의 마킹을 포함하는 것을 나타내고,
    상기 디지털 이미지 데이터는 제4 이미지 채널을 갖고,
    상기 제4 이미지 채널은 대응하는 상기 디지털 이미지의 상기 제1 부분에 대해 DoG(Difference of Gaussians) 연산을 수행함으로써 생성되는, 방법.
  23. 제1항 내지 제22항 중 어느 한 항의 방법의 단계들을 수행하기 위한 수단을 포함하는, 데이터 처리 장치.
  24. 명령어를 포함하는 컴퓨터 프로그램에 있어서,
    상기 명령어는 상기 프로그램이 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 제1항 내지 제22항 중 어느 한 항의 방법의 단계를 수행하게 하는, 컴퓨터 프로그램.
  25. 제24항에 따른 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체.
KR1020217040847A 2019-05-14 2020-04-23 타이어 측벽 이미징 방법 KR20220006642A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1906788.3 2019-05-14
GB1906788.3A GB2585633B (en) 2019-05-14 2019-05-14 Tyre sidewall imaging method
PCT/EP2020/061324 WO2020229132A1 (en) 2019-05-14 2020-04-23 Tyre sidewall imaging method

Publications (1)

Publication Number Publication Date
KR20220006642A true KR20220006642A (ko) 2022-01-17

Family

ID=67384580

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217040847A KR20220006642A (ko) 2019-05-14 2020-04-23 타이어 측벽 이미징 방법

Country Status (11)

Country Link
US (1) US11669952B2 (ko)
EP (1) EP3970061A1 (ko)
JP (1) JP2022533952A (ko)
KR (1) KR20220006642A (ko)
CN (1) CN113490948A (ko)
AU (1) AU2020276821A1 (ko)
BR (1) BR112021014967A2 (ko)
CA (1) CA3128448A1 (ko)
GB (1) GB2585633B (ko)
WO (1) WO2020229132A1 (ko)
ZA (1) ZA202109181B (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2585633B (en) * 2019-05-14 2021-09-22 Wheelright Ltd Tyre sidewall imaging method
CN117115799A (zh) * 2023-09-11 2023-11-24 广州市西克传感器有限公司 基于激光线扫3d相机的轮胎字符识别方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5280425B2 (ja) * 2010-11-12 2013-09-04 シャープ株式会社 画像処理装置、画像読取装置、画像形成装置、画像処理方法、プログラムおよびその記録媒体
US8737747B2 (en) * 2011-02-14 2014-05-27 Xerox Corporation Method for automated tire detection and recognition
KR101580630B1 (ko) * 2015-01-29 2016-01-04 주식회사 다인 타이어 인식 방법 및 장치
GB201517926D0 (en) 2015-10-09 2015-11-25 Wheelright Ltd Tyre condition analysis
US9454707B1 (en) * 2015-10-29 2016-09-27 Roger Tracy System and method for reading a tire code and obtaining tire-related information
WO2019084385A1 (en) 2017-10-26 2019-05-02 Tire Profiles, Llc TIRE CODE READER
CN108288037B (zh) 2018-01-19 2021-08-06 深圳禾思众成科技有限公司 一种轮胎标码识别系统
CN109446984A (zh) * 2018-10-26 2019-03-08 重庆大学 自然场景中道路交通标志识别方法
WO2020121306A1 (en) * 2018-12-13 2020-06-18 Uveye Ltd. Method of automatic tire inspection and system thereof
GB2585633B (en) * 2019-05-14 2021-09-22 Wheelright Ltd Tyre sidewall imaging method

Also Published As

Publication number Publication date
AU2020276821A1 (en) 2021-07-08
GB2585633B (en) 2021-09-22
JP2022533952A (ja) 2022-07-27
US11669952B2 (en) 2023-06-06
CN113490948A (zh) 2021-10-08
GB2585633A (en) 2021-01-20
US20220245956A1 (en) 2022-08-04
WO2020229132A1 (en) 2020-11-19
ZA202109181B (en) 2023-12-20
EP3970061A1 (en) 2022-03-23
BR112021014967A2 (pt) 2021-10-05
GB201906788D0 (en) 2019-06-26
CA3128448A1 (en) 2020-11-19

Similar Documents

Publication Publication Date Title
CN111325716B (zh) 屏幕划痕碎裂检测方法及设备
Singh et al. Real time Indian license plate detection using deep neural networks and optical character recognition using LSTM tesseract
US9600746B2 (en) Image processing apparatus and image processing method
US11586863B2 (en) Image classification method and device
CN105574513A (zh) 文字检测方法和装置
AU2020211766B2 (en) Tyre sidewall imaging method
US11037017B2 (en) Method and device for obtaining image of form sheet
US11669952B2 (en) Tyre sidewall imaging method
US20170011272A1 (en) Realtime object measurement
CN110889816B (zh) 一种图像分割方法与装置
CN117094975A (zh) 钢铁表面缺陷检测方法、装置及电子设备
CN113780116A (zh) 发票分类方法、装置、计算机设备和存储介质
US20170352170A1 (en) Nearsighted camera object detection
Kazmi et al. Vehicle tire (tyre) detection and text recognition using deep learning
Varga et al. Real-time pedestrian detection in urban scenarios
AU2018229526B2 (en) Recursive contour merging based detection of text area in an image
Kiruthika Devi et al. A deep learning-based residual network model for traffic sign detection and classification
CN112712080B (zh) 一种用于走字屏采集图像的文字识别处理方法
KR102430120B1 (ko) 스테레오 기반의 roi 검출 알고리즘의 성능을 향상시키는 방법 및 장치
Vargas et al. A license plate extraction algorithm based on edge statistics and region growing
Bohush et al. Video-based content extraction algorithm from bank cards for ios mobile devices
KR20230020448A (ko) 자동화 아티팩트 검출
CN116420143A (zh) 基于深度神经网络(dnn)模型和图像特征检测模型的反向图像搜索
Yella et al. Image processing technique to count the number of logs in a timber truck