KR20210114383A

KR20210114383A - 타이어 측벽 이미징 시스템

Info

Publication number: KR20210114383A
Application number: KR1020217017131A
Authority: KR
Inventors: 시에드 와자트 알리 샤 카즈미; 이안 토마스 나브니; 조지 보기아치스; 알렉산더 폴 코드
Original assignee: 휠라이트 리미티드
Priority date: 2019-01-23
Filing date: 2020-01-20
Publication date: 2021-09-23
Also published as: EP3915042C0; JP2022517471A; GB2580675A; PL3915042T3; EP3915042A1; US11922683B2; AU2020211766A1; US20220058417A1; CA3110975A1; JP7198922B2; CN112740223A; ES2947935T3; ZA202104551B; WO2020152440A1; AU2020211766B2; EP3915042B1; BR112021014182A2; GB201900915D0

Abstract

타이어의 측벽의 디지털 이미지에서 관심 영역을 생성하기 위한 컴퓨터 구현 방법이 제공되고, 측벽은 하나 이상의 양각 및/또는 각인된 마킹을 갖는다. 방법은, 디지털 이미지의 HOG(histogram of oriented gradients) 특징 맵을 생성하는 단계, HOG 특징 맵을 훈련된 신경망으로 입력하는 단계와 - 훈련된 신경망은 HOG 특징 맵에 기초하여 디지털 이미지의 픽셀 영역이 양각 및/또는 각인된 마킹을 포함하는 제1 확률을 출력하도록 구성됨 -, 및 제1 확률이 미리 정해진 제1 임계값 이상이면, 픽셀 영역을 관심 영역으로 수락하는 단계를 포함한다.

Description

타이어 측벽 이미징 시스템

본 발명은 타이어의 양각 및/또는 각인된 마킹을 판독하는 방법에 관한 것으로, 특히, 관심 영역을 생성하기 위한 컴퓨터 구현 방법에 관한 것이다.

타이어 측벽으로 알려진 차량 타이어의 바깥으로 향하는 면은 텍스트 기반 코드를 지닌다. 코드는, 예를 들어, 타이어 브랜드, 제조 공장, 연령, 타이어 유형, 의도된 하중, 속도 등급 및 크기, 제조 배치 정보, 제조자 세부 정보 및 기타 제품 정보에 관한 정보를 전달한다. 코드는, 예를 들어, 하나 이상의 글자, 숫자, 로고, 기호, 픽토그램(pictogram) 및/또는 정보의 기타 시각적 표현의 혼합을 포함할 수 있다. 차량 사용자, 특히 차량 운영자(fleet operator)에게, 이 정보가 차량 전체에 걸쳐 타이어 사용량과 상태를 추적할 수 있는 일관되고 신뢰할 수 있는 방법을 제공하여 차량 운영자가 차량 재고에 대한 데이터 분석을 수행하고 타이어에 결함이 발생하고 그리고/또는 불량이 발행하기 시작하는 때를 검출하는 능력을 크게 향상시키기 때문에, 이 정보는 매우 중요하다.

타이어 측벽을 판독하는 프로세스를 자동화하려는 시도가 있었지만, 이러한 시스템은 실내 및 제어 검사 작업에 사용하기 위한 3D 스캐너 기반 시스템(MicroEpsilon, Cognex 및 Numetrix로부터 입수 가능함)이거나, 실내 및 실외 적용을 위한 휴대용 레이저 장치이다. 이러한 시스템은 구조화된 레이저 광 컴포넌트를 고려할 때 제조 비용이 많이 들고 보정이 어렵고 파손되기 쉬우며 그리고/또는 작업자의 도움이 여전히 필요하므로, 진정으로 자동화되고 비용 효율적이라고 할 수 없다.

구조화된 조명 없이 촬영된 이미지에 광학 문자 인식(OCR)을 적용하는 것은 하드웨어 비용을 크게 줄일 수 있다. 그러나, 타이어의 실외 사용이 측벽 텍스트의 마모를 초래하고(예를 들어, 재료 침식, 먼지, 건조 및/또는 습기로 인해), 텍스트의 콘트라스트가 매우 낮아(흑색 대 흑색(black-on-black)) 자동화된 시스템은 말할 것도 없고 인간 관찰자 조차도 때때로 해독하기 어렵기 때문에, 컬러 또는 그레이스케일 이미지 OCR을 기초로 한 이전 시도는 성공적이지 못했다.

이러한 시스템을 생산하는데 있어서의 문제는 차량 타이어가 시스템을 지나 주행함에 따라 이동하는 차량 타이어에서 또는 시스템의 시야가 타이어에 대하여 이동함에 따라 고정 타이어에서 텍스트를 판독할 수 있을 만큼 빠른 것이 바람직하다. 또한, 변동하는 조건(예를 들어, 실외의 다른 기상 조건 및/또는 차고에서의 먼지가 많은/더러운 상태의 실내)을 보상하고 인간 작업자의 도움 없이 정확하고 재현 가능한 결과를 생성할 수 있는 것이 바람직하다.

향상된 콘트라스트 이미지를 제공하는 이미징 시스템이 WO2017060739 A1에서 제안되었다. 특히, 타이어 측벽 코드와 같이 양각 또는 각인된 텍스트를 판독하기 위하여는, 그림자 투사(shadow casting)를 통해 텍스트의 콘트라스트 및 이에 따른 가독성이 개선될 수 있기 때문에 조명이 중요하다. WO2017060739 A1이 양각된 마킹을 판독하기 위하여 이러한 이미지에 OCR을 수행하도록 이미지 분석 소프트웨어를 사용하는 것을 제안하지만, WO2017060739 A1에 설명된 기존 OCR 기술은 비이상적인 비실험실 설정에 있어서 너무 느리고/또는 정확도가 낮기 때문에 잘 수행되지 않는다.

딥 러닝 기반의 이미지 분류 및 텍스트 인식에서의 최근의 발전은 벤치 마크 데이터 세트의 텍스트 인식을 위한 성능 테이블의 최상위로 딥 컨볼루션 신경망(deep convolution neural network(CNN))을 조력하여, 이미지 처리에서의 거의 모든 최상위 결과는 이제 수작업 특징 대신에 딥 러닝을 사용한다. 그러나, 성능 테이블에서 높은 순위를 차지하는 딥 컨볼루션 신경망은 타이어 이미지 데이터를 포함하지 않는 벤치 마크 데이터 세트에서 잘 작동하도록 조정되어 있다. 실제로, 이러한 네트워크가 현장에서의 카메라로부터 획득된 타이어 이미지와 같은 데이터에 사용될 때 성공할 것이라는 결과가 뒤따르지 않는다. 이러한 딥 네트워크는 야생 상태(즉, 노이즈가 많은 환경)에서 텍스트를 검출하고 판독하는데 사용되어 왔지만, 이러한 경우, 사용된 데이터는 판독되고 있는 텍스트와 이미지의 배경 사이에 적절한 수준의 콘트라스트 및 색상 차이를 나타냈다. 따라서, 타이어의 측벽에서 텍스트를 인식하는 개선된 시스템 및 방법이 필요하다.

일반적으로, 본 발명은 타이어 측벽의 이미지와 같이 낮은 콘트라스트와 낮은 색상 차이를 갖는 이미지에서 관심 영역을 더욱 정확하고 효율적으로 식별하는 방법에 관한 것이다. 이 방법은 낮은 콘트라스트와 색상 차이에도 불구하고 알려진 기술에 비해 효율성과 정확도를 개선하기 위하여 HOG(Histogram of Oriented Gradient) 기술과 컨볼루션 신경망 계층을 결합한다.

낮은 콘트라스트, 낮은 색상 차이 이미지에서 관심 영역을 더욱 정확하고 효율적으로 식별함으로써, 그렇지 않으면 놓쳤을 타이어의 양각 및 및/또는 각인 마킹 근처의 찢김과 같은 결함이 더욱 쉽게 식별되고, 특정 타이어와 연관될 수 있으며, 추적될 수 있어, 이에 의해 타이어 안전성을 향상시키는 효과를 제공한다. 또한, 타이어 식별 정보 및 연관된 타이어 결함 및/또는 안전 정보의 중앙 데이터베이스가 업데이트 할 수 있다. 그 다음, 이는 타이어가 수리되거나 교체될 필요가 있는 시기를 결정하는 데 사용할 수 있다.

더욱 구체적으로는, 본 발명은 타이어 측벽에 사용자 지정 문자 시퀀스와 연관된 관심 영역을 생성하는 방법에 관한 것으로, 사용자 지정 문자 시퀀스가 존재하는지 여부를 결정하기 위하여 HOG 특징으로부터 분류되는 컨볼루션 신경망으로의 입력으로서 사용되는 HOG 특징의 맵을 획득하기 위하여 입력 이미지의 HOG가 생성된다. 일 실시예에서, HOG 특징은, 예를 들어, VLFeat 오픈 소스 라이브러리(DalalTriggs 및 UoCTTI)에 의해 제공되는 두 가지 방법 중 하나를 사용하여 컨볼루션 신경망에 대해 외부적으로 그리고 별도로 생성될 수 있다. 다른 실시예에서, 이는 Mahendran and Vedaldi(2015), Understanding Deep Image Representations by Inverting Them, IEEE Conference on Computer Vision and Pattern Recognition, IEEE Compt. Soc에서 설명된 것과 같은 HOG의 CNN 구현 근사화를 이용하여 생성될 수 있다. 이 논문은 CNN을 사용한 HOG 특징 생성이, 임의의 후속 처리 작업의 복잡성을 유리하게 줄이는 HOG 특징 파생물(derivative)의 계산을 또한 허용한다는 점을 제외하면, VLFeat 오픈 소스 라이브러리에 의해 제공되는 HOG 특징 생성 접근 방식으로부터 수치적으로 구별할 수 없다는 것을 나타낸다. 본 명세서에서 HOG 특징(HOG feature) 및 HOG라는 용어는 VLFeat 오픈 소스 라이브러리에 의해 제공되는 것과 같은 접근 방식 및/또는 Mahendran and Vedaldi(2015) 및 그 안에서 인용된 다른 논문들에서 명시된 것과 같은 CNN 접근 방식과 같은 접근 방식을 사용하여 생성된 것을 의미하는데 사용된다.

또한, 본 명세서에서 사용된 다음 용어들은 다음의 정의가 제공된다:

"합성 생성/합성 데이터(synthetically generated/synthetic data)" - 알고리즘을 사용하여 생성되고, 예를 들어, 다른 소스로부터의 제한된 데이터만 사용할 수 있는 경우에, 훈련에 사용할 수 있는 총 데이터의 전체 양을 증가시키는데 사용되는 데이터;

"타이어 검출(tyre detection)" - 타이어 이미지에서 어느 픽셀이 타이어에 대응하는지 그리고 어느 픽셀의 차량의 허브 캡 또는 차체와 같은 배경에 대응하는지를 식별함;

"언워핑(unwarping)" - 곡선이 제거되거나 직선화된 이미지로 곡선 타이어 측벽의 이미지를 매핑함;

"컨볼류션 필터의 스택(stack of convolutional filter)" - 컨볼루션 필터를 포함하고, 함께 컨볼루션 신경망 또는 컨볼루션 신경망의 일부를 형성하는 이미지 처리 작업의 캐스케이드;

"완전히 연결 컨볼루션 레이어(fully connected convolutional layer)" - 높이, 너비 및 채널 수의 마스크 크기가 이전 레이어에서의 특징 맵 크기와 동일한 컨볼루션 필터. 이는 완전 연결된 레이어가 수행하는 것과 동일한 특징 맵의 출력 크기를 생성한다.

도 1은 일 실시예에 따른 5단계 방법을 예시한다.
도 2는 타이어의 내부 및 외부 반경이 표시된 언워핑 스킴을 도시한다.
도 3은 일 실시예에 따른 제안/관심 영역 생성 방법의 순서도이다.
도 4는 일 실시예에 따라 HOG-CNN 아키텍처를 이용하여 HOG 및 대응하는 특징 맵을 생성하는 방법의 순서도이다.
도 5는 일 실시예에 따라 HOG-MLP 아키텍처를 이용하여 HOG 및 대응하는 특징 맵을 생성하는 방법의 순서도이다.
도 6a는 일 실시예에 따른 CNN 아키텍처의 블록도이다.
도 6b는 일 실시예에 따른 CNN 아키텍처의 블록도이다.
도 6c는 일 실시예에 따른 CNN 아키텍처의 블록도이다.
도 7은 일 실시예에 따른 관심 영역을 검증하는 방법의 순서도이다.
도 8a는 일 실시예에 따른 네트워크 아키텍처의 블록도이다.
도 8b는 일 실시예에 따른 네트워크 아키텍처의 블록도이다.
도 9는 일 실시예에 따른 타이어 측벽 코드를 위치 파악/검증하는 방법의 순서도이다.
도 10은 일 실시예에 따른 네트워크 아키텍처의 블록도이다.
도 11은 일 실시예에 따른 네트워크 아키텍처의 블록도이다.

객체 조명 및 높은 프레임 레이트 이미지 획득(101), 타이어 검출(102), 타이어 언워핑(103), 텍스트 검출(104)(타이어 측벽 상의 텍스트는 "D", "O", "T"와 같은 사용자 지정 문자 시퀀스를 찾는 것으로 위치 파악된다) 및 코드 판독(105)(타이어에 관한 제품 정보를 포함하는 타이어 측벽 코드가 감지되고 인식된다)를 포함하는 본 발명의 실시예인 5단계 방법이 도 1에 도시된 바와 같이 제안된다.

단계들은 단일 시스템으로 함께 사용되거나 개별적으로 사용되고, 그리고/또는 WO2017060739 A1에 설명된 이미징 시스템 또는 스마트 폰, 태블릿 또는 기타 유사한 장치의 카메라와 플래시를 사용하는 움직이는 이미징 시스템과 같이 본 명세서에 설명되지 않은 시스템과 함께 사용되거나 개별적으로 사용될 수 있다. 햇빛이 충분한 조명을 제공하는 다른 경우에, 플래시를 완전히 생략될 수 있다.

특히, 텍스트 검출(104) 단계에서, 사용자 지정 문자 시퀀스를 포함할 수 있는 관심 영역을 식별하는 제안(즉, 관심 영역) 생성기 방법(104a)이 제공된다. 아래에서 더 자세히 설명되는 바와 같이, 제1 단계에서, 제안 생성기 방법(104a)은, VLFEAT 오픈 소스 라이브러리에서 제공하는 것과 같은 방법을 이용하거나 CNN을 이용하여, 타이어 측벽의 입력 이미지로부터 HOG(Histogram of Oriented Gradients) 특징 맵을 생성하며, 각각의 특징은 HOG이다. 제2 단계에서, HOG 특징은 CNN 분류기(classifier) 아키텍처에 입력된다. 먼저 HOG 특징을 생성하고 이를 CNN 분류기 아키텍처에 대한 입력으로 사용함으로써, 제안 생성기는 정확도 면에서 별도의 분류기를 사용하는 수작업 특징만을 기반으로 하거나 효율성 면에서 딥 CNN만을 기반으로 하는 방법을 능가하는 것으로 나타났다.

또한, HOG 특징이 선험적으로 생성되고 CNN 아키텍처에 입력되도록 함으로써, 학습 작업이, 특징, 즉 픽셀 값이 패턴을 결정하고 학습하기가 어려운 낮은 콘트라스트의 흑색 대 흑색(black-on-black) 이미지를 분류하는 대신, HOG 입력을 하나 이상의 클래스로 분류하여 관심 영역을 생성하는 것으로 축소된다. 이것은 시스템 전체가 야생 상태에서 발견되는 것과 같은 보이지 않는 데이터 세트로 훨씬 더 일반화할 수 있다는 것을 의미한다. 대조적으로, 순수한 CNN 아키텍처(HOG 입력 없음)에 저 콘트라스트의 흑색 대 흑색 이미지가 제공되면, CNN이 이미지 특징을 학습할 수 있기 위하여 아키텍처는 더 복잡하게 된(예를 들어, 더 많은 레이어 및/또는 레이어 사이의 더 복잡한 연결). 복잡성이 증가하면 계산 리소스 오버헤드가 증가하게 되고, 메모리 리소스 오버 헤드가 증가하게 되고, 효율성이 감소된다. 따라서 순수하고 딥 CNN 아키텍처가 순전히 정확도로 측정된 현재 제안된 결합된 HOG 및 CNN 아키텍처보다 성능이 여전히 우수할 수 있지만, 타이어 측벽의 실제 문제에 적용될 때 실시간 적용 및 낮은 메모리 시스템에 대한 효율성 측면에서 실패한다. 또한, 리소스 사용의 측면에서, 제안 생성을 위해 딥 CNN을 사용하면 시스템의 자원 오버헤드가 크게 증가하므로, 특히 본 명세서에서 설명되는 제안된 HOG-CNN 아키텍처가 계산 효율성이 대폭적으로 개선되고 메모리 풋 프린트가 감소하여 딥 CNN 아키텍처에 필요한 고가의 GPU, 메모리 및 기타 하드웨어에 대한 요건을 극복하는 동등한 관련 제안을 생성할 수 있을 때, 낮은 리소스 시스템에서의 리소스의 효율적인 사용이 아니다.

따라서, 본 명세서에서 설명된 제안 생성기 방법(104a)은 양각 및/또는 각인된 마킹에 기초하여 타이어 측벽 상에 관심 영역을 생성하는 임의의 시스템의 성능을 개선할 수 있다고 생각된다. 본 발명자들은 독립형 발명으로서의 그리고/또는 임의의 알려진 OCR 기술과 함께 사용하기 위한 이의 사용을 예상한다.

다른 단계의 세부 사항: 객체 조명 및 높은 프레임 레이트 이미지 획득(101), 타이어 검출(102), 타이어 언워핑(103), 제안 생성기에 의해 제안된 관심 영역의 검증(104b) 및 텍스트 판독(105)은 제안 생성기 방법(104a)에 의해 제공되는 이점을 가능하게 하는데 필수적이지 않다. 제안 생성기 방법의 예시적인 구현이 더 상세히 설명되기 전에 이 단계들의 세부 사항이 아래에서 설명될 것이다:

이미지 획득(101)

전술된 바와 같이, WO2017060739 A1에 의해 제안된 것과 같은 이미징 시스템은 양각 및/또는 각인된 텍스트 또는 마킹이 존재하는 타이어 측벽의 디지털 이미지를 획득하는데 사용될 수 있다. 이 시스템은 임의의 주어진 이미지에서 타이어 측벽의 일부만 캡처하므로, 타이어 측벽의 전체 원주가 캡처되고 양각 및/또는 각인된 마킹을 갖는 측벽의 임의의 부분도 캡처되는 것을 보정하도록 타이어가 굴러 지나감에 따라 일련의 이미지가 일반적으로 촬영된다.

타이어 검출(102) 및 언워핑(103)

이미지 또는 이미지들이 획득되면, 원형 허프 변환(Circular Hough Transform(CHT)) 또는 기타 적절한 기술을 사용하여 타이어의 원형 세그먼트가 검출될 소 있다(즉, 내부 및 외부 반경이 위치 파악된다). CHT를 수행하기 전에, 조명을 정규화할 뿐만 아니라 에지(edge)를 향상시키는 DoG(Difference of Gaussian) 필터를 사용하여 이미지가 전처리될 수 있다. 전처리의 일부로서, 이미지는 선택적으로 원본 크기의 1/4 내지 1/8 사이로 다운 샘플링될 수 있고, 이는 타이어 검출의 효율성과 정확성을 모두 개선한다. 그 다음, 타이어의 중심이 카메라에 의해 캡처된 이미지 프레임 외부에 있을 수 있기 때문에, 다운 샘플링된 이미지는 흑색 픽셀로 채워집니다(즉, CHT가 타이어 중심을 식별할 수 있는 적절한 크기의 좌표계를 제공하기 위해 흑색 픽셀이 추가된다). 전처리가 이루어지면, CHT가 허브 캡의 원형 이음부(junction)를 검출하기 위하여 사용되고, 따라서 이는 도 2의 (b)에 도시된 타이어의 실제 내부 반경(201) 및 외부 반경(202)에 대응하는 도 2의 (a)에 도시된 일부 안전 오프셋을 갖는 타이어의 내부 반경(204) 및 외부 반경(203)을 검출한다. 그러나 때로는 더 큰 콘트라스트의 결과로서 때때로 더욱 지배적이게 될 수 있는 이미지에서의 다른 지배적인 원 형상(도 2의 (b)에 표시된 허브 캡의 휠 아치 또는 원 형상)이 존재하기 때문에 잘못된 원이 검출될 수 있다. 이러한 상황을 방지하기 위하여, 특정 타이어(차축)와 연관된 모든 캡처된 이미지가 n 반경 범위에 대해 처리된다(병렬 스레드로). 검출된 원은 반경 범위 히스토그램을 생성하는 데 사용된다. 이 안에서 검출된 원의 수가 가장 많은 반경 범위 빈(bin)에 대응하는 반경이 가장 잘 검출된 타이어 내부 반경(201)으로 선택된다. 이 접근 방식은 간단하며(즉, 리소스 효율적이다), 주어진 이미지의 시야의 결과로서 타이어 원 형상이 지배적인 움직이는 타이어로부터 발생하는 의견 일치로 인하여 어떤 이상치(outlier)도 효율적이고 성공적으로 제거할 수 있다.

허브 캡과 타이어의 이음부(즉, 내부 타이어 반경(201))이 검출되면, 타이어(200)의 외부 반경(202)에 대응하는 제2 원이 제1 반경으로부터 고정된 오프셋에서 선택된다. 타이어 측벽 텍스트가 일반적으로 타이어(200)의 외부 반경(202) 근처의 스레드에 가까운 것이 아니라 내부 반경 근처 또는 중간에 속하기 때문에, 이것은 타이어 측벽 텍스트(예를 들어, DOT 코드의 텍스트)가 나타날 것으로 예상되는 영역을 커버하기에 충분하다. 내부 반경에 대한 이의 근접성으로 인해, 검출된 내부 반경은 경계선 케이스가 적절하게 취급되는 것을 보장하기 위해 도 2의 (a)에 도시된 바와 같이 고정된 개수의 픽셀만큼 감소된다.

타이어 검출 후, 내부 반경(201)과 외부 반경(202) 반경 사이의 방사상 이미지 패치는 극 좌표-직교 좌표(Polar-to-Cartesian) 매핑을 사용하여 직사각형 격자로 언워핑된다. 이것은 원 형상을 언워핑할 뿐만 아니라 이미지의 필요한 부분만 잘라내어, 다음 단계들의 효율성을 개선한다.

파이프 라인의 처음 세 단계들, 즉 프레임 레이트 이미지 획득(101), 타이어 검출(102), 타이어 언워핑(103)은 스크래치(scratch)로부터 모든 알고리즘을 구현하거나 바람직하게는 OpenCV를 사용하여 임의의 적절한 컴퓨터 언어로 구현될 수 있다. 그러나, 다른 컴퓨터 비전 라이브러리 및 비전 처리 기술도 사용될 수 있다.

텍스트 검출: DOT 검출(104)

텍스트 검출(104) 단계에서, 텍스트 검출 및 위치 파악을 위한 기계 학습 기반 접근 방식이 사용된다. 타이어 언워핑 단계(103)로부터의 언워핑된 이미지가 사용된다. 산업 규정으로 인해, 대부분의 상용 타이어 측벽 코드에는 미국 교통부(Department Of Transport)를 나타내는 "D", "O" 및 "T" 문자 시퀀스가 선행된다. 본 예에서, DOT 문자 시퀀스는 타이어 측벽 코드와 관련된 텍스트를 위치 파악하기 위한 앵커(anchor)로 사용된다. 그러나, 다른 문자 시퀀스, 글자, 숫자, 로고, 기호, 픽토그램 및/또는 정보의 다른 시각적 표현도 타이어 측벽 코드의 텍스트를 위치 파악할 수 있는 앵커로서 사용될 수 있다. 예를 들어, 차량 운영자가 하나의 타이어 브랜드만을 사용하는 경우, 연관된 브랜드 로고 또는 상표가 타이어 측벽의 텍스트를 위치 파악할 수 있다.

앵커의 목적은 대부분의 경우 나머지 타이어 측벽 코드의 텍스트에 선행하기 때문에 검색 공간을 좁히는 것이다. 텍스트 검출(104) 단계는 다음의 2개의 캐스케이드, 즉 후속 이미지 처리 동작 세트를 가진다: 제안(즉, 관심 영역) 생성(104a) 및 이어지는 확인 또는 텍스트 위치 파악(104b). 전술된 바와 같이, 본 명세서에서 설명된 제안 생성기 방법(104a)은 타이어 측벽 상에서 텍스트를 검출 및 인식하기 위하여 제안(즉, 영역)에 의존하는 공지된 이미지 처리 기술을 사용하여 출력이 별도로 처리된(예를 들어, 제3자(third party)가 소유하는 장비를 이용하여) 독립형 방법으로 사용될 수 있다고 예상된다.

제안 생성(104a)

텍스트의 콘트라스트가 매우 낮기 때문에, 제안 생성을 위하여, 본 발명자는, 타이어의 다른 세그먼트로부터의 강한 에지가 지배적이어서(그 대부분은 문자를 포함하지 않는다) 어떠한 문자도 포함하지 않는 많은 개수의 제안을 야기하기 때문에, 저수준 특징 기반 접근 방식(예를 들어, "Zitnick and Dollar, Edge Boxes: Locating object Proposals from Edges, ECCV, European Conference on Computer Vision, 2014"에 의해 제안된 에지 박스)은 적합하지 않다는 것을 알게 되었다.

또한, 수작업 특징이 텍스트 검출에 성공적으로 사용되었지만(예를 들어, "Wang et al, End-to-end Scene Text Recognition, Proceedings of the 2011 International Conference on Computer Vision, IEEE Computer Society, Washington, ICCV '11 pp 1457-1464 DOI 10.1109/ICCV.2011.6126402", "Mishra et al, Top-down and bottom-up cues for scene text recognition, 2012 IEEE Conference on Computer Vision and Pattern Recognition, pp 2687-2694, DOI 10.1109/CVPR.2012.6247990, and "Mishra et al, Image Retrieval Using Textual Cues, 2013 IEEE International Conference on Computer Vision and Pattern Recognition, pp 3040-3047에서 설명된 바와 같이), 이러한 기술은 합리적인 시간에. 야생 상태에서 타이어 측벽 텍스트를 인식하는 산업적 적용에 대하여는 너무 느리다.

특히, 본 발명자들이 SVM(Support Vector Machine) 분류기와 결합된 HOG를 슬라이딩 윈도우 방식으로 사용하려고 시도했을 때, 텍스트 검출(즉, 텍스트 시퀀스 "D", "O", "T"를 검출)에 대해 상당히 정확한 결과를 생성하였지만, 이미지의 크기(500 x 2000 내지 4000 픽셀)는 여전히 각각의 이미지를 스캔하는데 몇 분이 걸리므로, 모든 타이어기 이와 연관된 여러 이미지를 갖게 된다. 이 시간 스케일은 너무 길며, 시스템이 사람이 타이어 측벽 코드를 수동으로 판독하고 기록하는 시스템에 비하여 시스템이 우수하더라도 차량 운영자가 각각의 타이어에 대하여 그렇게 길게 대기하리라고는 합리적으로 예상할 수 없는 산업적 적용 분야에 대하여 용인될 수 없다. 이상적으로, 실용적인 시스템은 1분 미만에 종단간 결과를 요구한다. 또한, 이러한 시스템은 CPU 기반 처리로만 실행될 수 있어야 한다(이 적용의 경우 CPU의 비용이 GPU 비용이 엄청나게 비쌀 수 있기 때문이다). 저해상도 카메라를 통하거나 고해상도 이미지를 다운 샘플링하는 것과 같은 저해상도 이미지는 이러한 작고 낮은 콘트라스트 텍스트 인식에 적합하지 않다.

이미지를 스캐닝하고 위치 파악을 위하여 지역 제안 네트워크(Region Proposal Network)를 사용하는 Faster-RCNN과 같은 딥 CNN 기반 분기 아키텍처(예를 들어, "Ren et al, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, Advances in Neural Information Processing Systems 28, Curran Associates, Inc., pp 91-99, 2015"에서 설명된 바와 같은)는 대안적인 접근 방식이다. Faster-RCNN은 GPU에서 효율성을 유지하면서 정확한 것으로 나타났다. 그러나, 타이어 측벽 이미징에 사용되는 이미지 크기에 대한 특징 맵 및 제안 생성을 위해 Faster-RCNN(예를 들어, VGG16 또는 ResNet50)에 의해 일반적으로 요구되는 것과 같은 딥 네트워크 백본(backbone)을 사용하는 것은 CPU에서 너무 많은 비용이 소요되어 이에 따라 대형 메모리 GPU(11GB 이상)을 필요로 할 수 있으며, 이는 측벽 코드를 수동으로 판독하고 기록하기 위하여 인간 작업자를 사용하는 것이 차량 운영자에 대하여 더욱 비용 효율적일 수 있는 지점까지 전체 비용을 증가시킨다. GPU는 별도의 추가 냉각 장치를 더 필요로 할 수 있고, 이는 더운 날씨의 실외 시나리오에서 사용을 잠재적으로 제한할 수 있다.

전술된 바와 같이, 본 발명은 제안을 효율적으로 생성하기 위해 HOG 특징의 생성을 CNN 기반 분류기와 결합하여 이 문제에 대한 해결책을 제공한다. 하나의 아키텍처에서, HOG 특징은 VLFeat 오픈 소스 라이브러리에 의해 제공된 것과 같은 알려진 방법을 사용하여 생성된 다음 CNN 기반 분류기에 입력된다. 다른 아키텍처에서, HOG 특징은 CNN에 의해 생성되어, CNN 기반 분류기로 입력된다. 본 명세서에서, 제1 번째 아키텍처는 HOG-MLP(multi-layered perceptron)으로 설명되고, 제2 아키텍처는 HOG-CNN로 설명된다.

훈련 실행

본 명세서에 설명된 모든 CNN 훈련 실행은 A Vedadi and Lenc(2015) MatConvNet- Convolutional Neural Networks for Matlab, Proceedings of the ACM, Int. Conf. on Multimedia에 설명된 바와 같이, A. Vedaldi 및 Lenc(2015)에 의한 MatConvNet 라이브러리를 사용하여 Matlab에서 역전파를 갖는 최적화기(optimizer)로서 Stochastic Gradient Descent를 사용한다. 그러나 TensorFlow, Caffe, Torch 등과 같은 임의의 적절한 대안적인 훈련 및 최적화 기술과 라이브러리가 또한 사용될 수 있다고 예상된다. 또한, 일례에서, 텍스트 클래스 훈련 데이터는 합성적으로 생성될 수 있는 반면, 배경 클래스 훈련 데이터는 실제 타이어 이미지로부터 추출될 수 있다. 그러나, 예를 들어, 실제 타이어 이미지로부터의 충분한 데이터가 사용 가능한 경우에, 합성 데이터 생성이 전혀 필요하지 않을 수 있다는 것이 예상된다. 추가로, 과적합(over-fitting)을 방지하기 위하여 드롭 아웃 레이어(drop out layer)가 사용될 수 있습니다. 또한, 본 명세서에서 설명된 네트워크가 과적합을 방지하기 위해 훈련 중에 하나 이상의 50% 드롭 아웃 레이어를 사용했지만, 교차 검증, 더 많은 데이터를 이용한 훈련, 특징 제거, 조기 중지, 조정 및 기타 기술과 같은 과적합을 방지하는데 사용되는 다른 기술이 대신에 사용될 수 있다고 예상된다. DoG(Difference-of-Gaussian) 필터링이 조명 정규화 및 에지 향상을 위하여 입력 데이터에 적용되었다. 또한, 히스토그램 등화(histogram equalization) 또는 적응형 히스토그램 등화(adaptive histogram equalization)와 같은 다른 콘트라스트 정규화 기술이 사용할 수 있다.

합성 데이터 생성

전술된 바와 같이, 충분한 실제 이미지 데이터가 사용 가능하지 않다면, 합성 데이터 생성이 선택적으로 사용될 수 있다. 야생 상태에 배치된 자동 타이어 측벽 텍스트 판독기는 다양한 빛, 날씨 및 마모 조건에서 측벽 텍스트를 판독하여야 할 것이기 때문에, 우수한 일반화를 달성하기 위하여 상당한 양의 훈련 데이터가 필요할 수 있다. 야생 상태에서 대규모 데이터 세트를 수집하는 것은 비용과 시간이 많이 드는 프로세스이다. 대신에, 훈련 데이터는 여러 다른 폰트와 텍스트 렌더링 엔진을 사용하여 합성적으로 생성될 수 있다. 초기에, 임의 크기의 다양한 폰트를 이용하여 흑백 텍스트 마스크를 생성된다. 그 다음, 마스크가 점진적으로 번질 수 있다(여러 복사본을 추가하거나 작은 이웃(dx, dy 픽셀)에서 렌더링 위치를 이동함). 이것은 다양한 방향(회전 그림자를 표현하기 위해)과 길이(다른 그림자 길이를 표현하기 위해)에서 한다. 그 다음, 이미지 마스크는 타이어 배경과 융합되어 실제 타이어 측벽 이미지에 나타나야 하는 사실적인 양각/각인된 텍스트 이미지를 생성한다. HOG 특징이 CNN 분류기에 대한 입력으로서 사용된다는 점을 고려하면, 훈련 데이터는 일부 실시예에서 타이어 측벽의 복수의 디지털 이미지로부터 생성된 복수의 HOG 특징 맵을 포함할 수 있다.

제안 생성기 방법(104a) 구현

도 3은 도 1에서의 제안 생성 단계(104a)에 대응하는 본 발명의 실시예인 제안 생성 방법(304)의 단계를 보여주는 순서도이다. 예를 들어 전술된 바와 같이 획득된 언워핑된 타이어 측벽의 일부의 디지털 이미지(300)가 입력으로 사용된다. 타이어 측벽은 타이어 측벽 코드와 같은 하나 이상의 양각 및/또는 각인된 마킹을 가진다. 디지털 이미지의 HOG 및 이의 연관된 특징 맵이 생성된다(301). 생성된 HOG은 훈련된 신경망으로 입력된다(302). 훈련된 신경망은 입력된 HOG 및 이의 연관된 특징 맵에 기초하여 디지털 이미지의 픽셀 영역이 양각 및/또는 각인된 마킹을 포함하는 제1 확률을 출력하도록 구성된다. 제1 확률이 미리 정해진 제1 임계값 이상이면(305a), 픽셀 영역은 관심 영역으로 수락되어 출력된다(306). 그렇지 않으면, 이는 거부된다(305b). 이러한 방식으로, 제안 생성기 방법(104a)은 하나 이상의 양각 및/또는 각인된 마킹과 연관된 디지털 이미지 상의 관심 영역을 생성할 수 있다.

전술된 바와 같이, HOG 특성을 생성하기 위한 2가지 대안적인 방법이 제공된다. 제1 방법에서, HOG 특징은 훈련된 CNN 분류기와 별도로 외부에서 생성된(예를 들어, VLFeat 오픈 소스 라이브러리에 의해 제공되는 방법을 사용하여). 이것은 본 명세서에서 HOG-MLP로 설명된다. 제2 방법에서, HOG 특징이 CNN에 의해 생성된다. 이것은 본 명세서에서 HOG-CNN으로 설명된다.

도 4는 전술된 HOG-CNN 아키텍처에 따라 CNN을 사용하여 HOG(401) 및 이의 특징 맵을 생성하는 방법의 순서도이다. 특히, 타이어 측벽의 일부의 디지털 이미지의 입력을 수신(400)한 후, 컨볼루션 필터(402)의 스택은 HOG 및 출력되는(403) 대응하는 HOG 특징 맵을 생성하는데 사용된다.

도 5는 전술된 HOG-MLP 아키텍처에 따라 별도의 외부 HOG 생성기(502)를 사용하여 HOG(501) 및 대응하는 HOG 특징 맵을 생성하는 방법의 순서도이다. 특히, 타이어 측벽의 일부의 디지털 이미지의 입력을 수신(500)한 후, HOG 생성기는 HOG 및 출력되는(503) 대응하는 HOG 특징 맵을 생성하는데 사용된다.

HOG 특징을 CNN 분류기와 결합함으로써 제공되는 효과는 생성된 제안/관심 영역의 전체 개수가 훨씬 적고, HOG+SVM(예를 들어, 공간 슬라이딩 윈도우 방식에서의 SVM(support Vector Machine) 분류기)과 같은 순전한 수작업 기술보다 허위 긍정(false positive)가 적다는 것이다. 다른 이점은 HOG 특징의 생성이 딥 컨볼루션 네트워크만 이용하여 제안/관심 영역을 생성하려고 시도하는 것보다 계산하기에 더 얕고 그리고/또는 더 효율적이라는 사실로 인하여 전반적인 스캐닝/계산 기간이 훨씬 짧다는 것이다. 전술된 바와 같이, 본 발명자들은 HOG 생성이 CNN 분류기가 원시 이미지 데이터로부터 학습할 필요 없이 이미지 하위 구조(또는 특징 맵)를 CNN 분류기에 제공하기 때문이라고 믿는다. 이에 의해, 딥 CNN 아키텍처에 대한 필요성을 효과적으로 생략한다. 딥 아키텍처는 훈련 데이터로부터 이미지 하위 구조를 학습해야 할 필요가 있을 수 있고, 훈련 데이터 단독으로는 더 많은 데이터와 훈련 시간을 요구하기 때문에 이미지가 포그라운드와 백그라운드 사이에 낮은 콘트라스트를 갖는 경우에(특히 어렵다. 대조적으로, 반대로 HOG-CNN를 훈련시키는 것은 상대적으로 훨씬 더 작은 데이터 세트로 수행될 수 있고 CPU로 매우 효율적으로 수행될 수 있다.

HOG-CNN

도 6a는 일 실시예에 따른 HOG-CNN 아키텍처의 블록도이다. 완전히 연결된 컨볼루션 네트워크는 컨볼루션 필터 스택의 끝, 즉, HOG 특징 생성 레이어를 구성하는 HOG 분해 레이어에서 끝나는 이미지 처리 작업의 캐스케이em에 플러그인 된다. 함께, 이것은 주어진 입력 이미지가 양각 및/또는 각인된 마킹을 포함하는 확률을 출력하는 교차 엔트로피 손실 레이어(훈련을 위한) 또는 소프트맥스(softmax) 레이어(테스트 또는 적용 또는 작동을 위한)에서 종료되는 완전한 CNN 아키텍처를 제공한다. 이러한 네트워크는 CNN 레이어가 딥 특징을 생성하는데 사용되는 것과 같은 딥 네트워크보다 컨볼루션 레이어와 채널이 적고 얕다. 따라서, 네트워크의 얕은 깊이는 속도를 상당히 향상시켜, 야생 상태에서 타이어 측벽 텍스트 판독에 훨씬 더 적합하다.

"Mahendran and Vedaldi(2015), Understanding Deep Image Representations by Inverting Them, IEEE Conference on Computer Vision and Pattern Recognition, IEEE Compt. Soc"에 설명된 바와 같은 HOG에 대한 CNN 레이어가 사용되지만, 임의의 적합한 CNN 기반 HOG 레이어 구현이 사용될 수 있다고 예상된다. 또한, "Dalal and Triggs(2005), Histograms of Oriented Gradients for Human Detection, Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR'o5) - Volume 1 -(pp886-893, DOI 10.1109/CVPR.2005.177" 및 "Dalal and Triggs(2005), Histograms of Oriented Gradients for Human Detection, Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR'o5) - Volume 1 -(pp886-893, DOI 10.1109/CVPR.2005.177", and("Felzenszwalb et al(2010), UoCTTI, Object Detection with Discriminatively Trained Part-Based Models, IEEE Transactions on Pattern Analysis and Machine Intelligence 32(9):1627-1645, DOI 10.1109/TPAMI.2009.167"에 설명된 임의의 HOG 방법이 또한 사용될 수 있다.

도 6에 도시된 예시적인 아키텍처는 이전에 논의된 가우시안 기술의 차이를 이용하여 전처리된 60 x 130 픽셀의 DOT 텍스트 입력(601) 이미지를 가진다. "Mahendran and Vedaldi(2015), Understanding Deep Image Representations by Inverting Them, IEEE Conference on Computer Vision and Pattern Recognition, IEEE Compt. Soc"에 설명된 바와 같이, HOG 특징은 컨볼루션 필터의 스택을 사용하여 추출된다. 여기에서, 방향 필터는 K = 방향 수(O)의 2배에 적용되고, K가 K = 1, ... k인 인덱스이다. K 번째 방향 필터는 다음에 의해 주어진다.

방향 필터는 방향 벡터 u_k를 따라 입력의 투영을 gu _k(여기서 g는 상수)로 캐스팅한다. 방향 필터링 후, HOG 비닝(602)이 다음의 활성화 함수에 의해 수행될 수 있다:

컨볼루션 필터의 스택은 Conv(3x3x1x2*O) 아키텍처(601)로 시작하는 것으로도 6a에 도시되지만, 다른 필터 아키텍처도 사용될 수 있다는 것이 이해될 것이다.(예를 들어, Conv(5x5x1x2*O) 또는 Conv(7x7x1x2*O)). 필터의 다른 예는 위에서 인용된 HOG 구현에서 찾을 수 있다.

HOG 특징 추출에서, 비닝된 그래디언트는 셀(cell)로 풀링된 다음 2x2 블록으로 결합된다. 이것은 선형 필터(603)의 스택을 통해 수행된다. 정규화(604)(L2 표준) 후에, 블록은 셀 구조로 다시 분해되고, 값은 0.2(즉, max {x, 0.2})에서 클램프(605)된다. 본 명세서에 설명된 예시적인 구현예에서, 방향성 그래디언트(directed gradient)는 한 세트의 비방향성 그래디언트(h_uo)와 함께 범위 [0,2π) 내의 방향 수(h_do)의 두 배에 대해 비닝된다. 따라서, HOG 분해층(606)에는 전체 3×O의 채널이 사용된다.

상기 예를 사용하여, 60(H)x130(W) 픽셀을 갖는 입력 이미지에 대하여, CNN 기반 HOG는 8x8 셀 크기 및 9 방향에 대해 7x16x27의 특징 맵을 생성하였다. 다른 셀 크기 및 방향 수도 사용될 수 있다.

그 다음, 이 HOG 출력은 분류기(예를 들어, MLP(Multi Layered Perceptron)(607a, 607b)에 입력된다. 본 예에서, 분류기(607a, 607b)는 7x16x27 CH(CH는 현재 레이어에서의 채널 수를 나타낸다)의 마스크 크기를 갖는 무작위로 초기화된 완전 연결(FC) 레이어(607a)를 포함한다. 그 다음에는 도 6a와 같이 50% 드롭 아웃 및 다른 FC 레이어(607b)가 뒤따랐다. 드롭 아웃은 단순히 일부 뉴런을 건너뛰는 것을 통해 과적합을 방지하는 정규화 기술이다. 교차 검증, 더 많은 데이터를 이용한 훈련, 특징 제거, 조기 중지, 조정 및 기타 기술과 같은 과적합을 방지하는데 사용되는 다른 기술이 대신에 사용될 수 있다고 예상된다. HOG 특징 생성과 후속 분류가 하나의 통합된 CNN 아키텍처로 서로 연결된 FC로 수행되기 때문에, HOG-CNN이라는 용어가 사용된다.

또한, 'DOT' 텍스트(609)를 식별하도록 역전파를 통해 CNN 분류기를 훈련시키기 위해 최종 교차 엔트로피 손실 계층(608)이 제공된다. OverFeat(Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., & Lecun, Y.(2014). Overfeat: Integrated recognition, localization and detection using convolutional networks. In International Conference on Learning Representations(ICLR2014))과 유사한 방식으로, 도 6a에서의 아키텍처는 컨볼루션 레이어를 FC 레이어로서 사용하며, HOG-CNN 네트워크는 최소 요구 크기, 즉(60x130 픽셀보다 큰 경우에 전체 이미지를 스캔할 수 있다.

최종 분류기가 무작위로 초기화되는 동안 미리 정의된 레이어가 거의 없기 때문에 이러한 네트워크를 훈련시키는 것은 어려울 수 있다. 본 경우에, 이는 DOT 클래스가 합성적으로 생성된(60x130 픽셀 크기의) 총 600K 미만의 이미지를 포함하는 데이터 세트에서 훈련되었다. 훈련 세트는 합성적으로 생성된 DOT 클래스와, DOT가 아닌 텍스트, 에지, 텍스처 및 일반 백그라운드의 혼합물을 포함하는 백그라운드 클래스가 포함하였다. 총 80-90 개의 훈련 시기(epoch)가 포화 지점에 도달한 만큼 충분한 것으로 간주되었다. 훈련을 계속하면 모델에 과적합시키는 경향이 있다. 그러나, 네트워크가 얕고 희소(sparse) 필터를 사용하기 때문에, CPU에서도 효율적으로 훈련될 수 있다(훈련 시간은 대략 5시간 미만).

상기의 예시적인 아키텍처는 설명을 위한 것임을 알 수 있을 것이다.

따라서, 전술된 바와 같이, 야생 상태에서 타이어 측벽 텍스트를 인식하기 위한HOG+SVM(공간 슬라이딩 윈도우 방식으로) 가술 또는 딥 CNN 기술의 높은 계산 오버헤드 및 비용 문제는 HOG 구현의 출력을 얕은 CNN으로 입력하는 개념을 이용하여 해결될 수 있다.

HOG-MLP

HOG-MLP의 경우, 통합 CNN 아키텍처를 사용하는 대신에, 도 6b에 도시된 바와 같이 VLFeat 라이브러리(VVedaldi and Fulkerson 2008, An Open and Portable Library of Computer Vision Algorithms, ver(0.9.16), p, http://www.vlfeat.org)에서와 같은 독립형 HOG 구현(610)을 이용하여 입력(601)로부터 추출되고 다중 클래스 MLP(HOG-MLP) 네트워크로 공급된다. 본 예에서 사용된 VLFEAT HOG 구현(610)에서, 그래디언트는 3*O+4 텍스처 성분에 대하여 비닝된다. 따라서, 60(H)x130(W)의 입력(601) 이미지 크기와 8x8 HOG 셀 크기 및 12 방향(총 40개 성분)에 대하여, 네트워크에서의 제1 레이어(611)는 8x16x40 CH이다. 교차 검증 데이터 세트에서 가능한 최상의 검출 정확도를 달성하기 위해 체계적인 검색을 통해 셀 크기와 방향 수가 선택되었다. 또한, 다른 셀 크기 및 방향 수도 사용될 수 있다. 이는, 일반 백그라운드 중에서 분할된 4개의 백그라운드 클래스, DOT가 아닌 텍스트 및 에지/텍스처와 함께, 원형/정사각형/얇고 넓은 폰트, 선명하고 확산된 모양, 길고 짧은 그림자, 문자들 사이의 단일 및 이중 간격, 및 기타 변형에 대한 7개의 합성된 DOT 클래스를 포함하는 백만 개 이상의 이미지로 구성된 11-클래스(nC = 11) 데이터 세트에서 훈련되었다. 교차 엔트로피 손실 레이어(613)와 함께, 제2 계층(612)도 제공되었다. 출력(614)은 교차 엔트로피 손실 레이어의 출력 클래스 중 어느 것이 DOT 코드에 대응하고 어느 것이 대응하지 않는지를 미리 결정함으로써 바이너리 클래스 확률, 즉, DOT/비-DOT로 매핑되었다. 이 다중 클래스 표현은 사전 지식을 훈련에 통합할 수 있게 하여 이에 의해 예를 들어 네트워크의 일반화를 증가시켜, 예를 들어 설치, 캘리브레이션 및/또는 하드웨어 제품 개발 동안, 이미지 회득의 조명 구성에서의 변화에 대처할 수 있다.

이미지 획득 및/또는 조명에 대한 변경이 필요하지 않으면, 획득된 이미지의 빛/그림자 방향이 더욱 일관된다. 이러한 시나리오에서, 도 6c에 도시된 바와 같이, 셀 크기 = 8x8, O = 16(총 52개 성분을 구성함)이지만 단지 4개의 출력 클래스 nC = 4(즉, DOT, 일반 백그라운드, 에지/텍스처, 비-DOT 텍스트)를 갖는 HOG-MLP 제안 생성기의 대안적이고 예시적인 예가 제공된다. 출력(615)은 다시 바이너리 분류(DOT/비-DOT)로 매핑된다. 이 예에서, 네트워크는 전술된 바와 같이 합성적으로 생성된 DOT 클래스를 사용하여 백만 개가 조금 넘는 이미지 데이터 세트에서 훈련되었다. 예시적인 HOG-MLP 네트워크 모두에 대하여, 30-50 시기 동안 훈련한 후 만족스러운 결과가 얻어졌다. HOG-CNN과 마찬가지로, 이러한 희소 네트워크도 CPU에서 효율적으로 훈련 될 수 있고, 이는 딥 CNN 구현으로는 효율적으로 불가능한 일이다.

HOG-CNN과 마찬가지로, HOG-MLP 아키텍처의 상기 예는 설명을 위한 것이라는 것이 이해될 것이다. 따라서, 야생 상태에서 타이어 측벽 텍스트를 인식하기 위한, 예를 들어 HOG+SVM(공간 슬라이딩 윈도우 방식으로의 SVM 분류기) 또는 딥 CNN 기술의 높은 계산 오버헤드와 비용은 HOG 구현의 출력을 얕은 CNN으로 입력하는 개념을 사용하여 해결될 수 있다.

비교

두 가지 제안 생성 방법인 HOG-CNN과 HOG MLP를 비교할 때, 500x3000 픽셀 이미지에 대한 스캔 시간은 Intel Corei7 3.6GHz CPU에서 각각 대략 550ms와 250ms이었다. HOG-CNN 및 HOG-MLP 모두에 대하여, 이는 슬라이딩 윈도우 방식에서의 수작업 HOG+SWV 구현 또는 CNN 기반 구현의 몇 분 단위보다 훨씬 빠르다.

HOG-MLP에서, 아키텍처의 HOG 부분이 CNN 아키텍처의 일부가 아니기 때문에 특징 추출 단계를 통해 역전파되는 것은 가능하지 않다. 대조적으로, HOG-CNN에서, 전체 네트워크를 통한 역전파가 가능하므로, 데이터에서의 변동에 적응하는 HOG-CNN 구현의 능력이 향상된다.

본 발명자들은, HOG-CNN이 더 적은 제안을 생성하고 따라서 더 잘 일반화되지만(예를 들어, 역전파로 인해), 동일한 셀 크기와 방향 수를 사용하는 HOG-CNN 및 HOG-MLP 아키텍처의 정확도는 비교할 만하다는 관찰하였다.

텍스트 위치 파악: DOT 위치 파악(104b)

필터링된 제안으로부터 타이어 측벽 텍스트(즉, 타이어 측벽 DOT 코드)를 최종적으로 위치 파악하고 검증하기 위하여, 분류기가 생성된 관심 영역(들)에 적용되어 이들 중 하나 이상을 수락하거나 허위 긍정으로 거부할 수 있다.

도 7은 도 1에서의 단계(104b)에 대응하는 실시예에 따른 방법(704)을 도시하는 순서도이다. 제안 생성기 방법(104a)으로부터의 관심 출력 영역(700)은 분류기(701)로 입력된다. 분류기(701)는 관심 영역 내에서 텍스트를 위치 파악하고, 이에 의해 진정한 관심 영역 및 허위 긍정을 검증한다. 다른 말로 하면, 각각의 관심 영역에 대하여, 어느 것이 허위 긍정이고 어느 것이 허위 긍정이 아닌지 결정한다. 허위 긍정은 폐기되는 반면, 진정한 관심 영역은 선택된다. 분류기(701)는 주어진 관심 영역이 실제로 양각/각인된 마킹(전술된 "D", "O", "T" 문자 시퀀스와 같은)을 포함하는 확률(702)을 출력하는 딥 신경망일 수 있다. 확률이 미리 정해진 임계값보다 낮으면, 주어진 관심 영역이 허위 긍정으로 결정되고 거부된다(703b). 그렇지 않으면 이는 진정한 관심 영역으로 수락되어(703a) 출력된다(704).

분류기(701)로서 사용될 수 있는 딥 네트워크(801)의 예시적인 예가 도 8a에 도시된다. "Jaderberg et al(2016), Reading Text in the Wild with Convolutional Neural networks, International Journal of Computer Vision 116(1):1-20 DOI 10.1007/s11263-015-0823-z"에서 설명된 것과 같은 다른 유사한 아키텍처가 사용될 수 있다는 것이 예상된다. 사실, 허위 긍정을 거부하는 방법은 독립적이며 단계(104a)에 의해 제공되는 이점을 가능하게 하기 위해 필수적인 것은 아니다. 검출 확률을 미리 정의된 임계값과 비교하기 위하여, CNN 분류기 끝에 있는 소프트맥스(Softmax) 레이어가 사용될 수 있다.

이 예시적인 네트워크(801)에 대한 훈련 세트는 다수의 DOT 및 백그라운드 클래스(10개 클래스 내의 160만개 이미지: 7개 DOT 클래스 및 일반 백그라운드, 에지/텍스처 및 비-DOT 텍스트에 대한 3개의 클래스)를 포함한다. 도 14a에 도시된 예에서 32x100 픽셀의 입력 DOT 텍스트 이미지(800)가 사용됩니다. 즉, HOG-CNN 또는 HOG-MLP의 검출 결과는 32x100 픽셀로 다운 샘플링된 60x130 픽셀이다. 분류 결과(802)는 바이너리 출력(DOT/비-DOT)으로 매핑된다. HOG-MLP와 유사하게, 이미징 및 조명 설정이, 예를 들어, 설치, 캘리브레이션 및/또는 하드웨어 제품 개발 동안 변경을 더 이상 필요로 하지 않고 데이터 세트가 더욱 일관되게 만들어질 때, 텍스트 위치 파악 네트워크(1001)는 도 8b에 도시된 바와 같이 4 방식 분류기(803)(DOT, 일반 백그라운드, 비-DOT 텍스트 및 에지/텍스처)로 감소될 수 있다. 결과적으로, 제안 생성기에 의해 생성된 많은 허위 긍정이 거부될 수 있으며, 몇 개의 강력한 후보만 유지된다. 이 단계에서 스며드는 허위 긍정은 필요한 경우 코드 판독 단계(105)에서 텍스트 인식에 의해 해결될 수 있다.

코드 판독(105)

코드 판독(105)은 도 1에 도시 된 바와 같이 다음의 2개의 단계로 구성될 수 있다: 텍스트 또는 문자 검출/위치 파악(105a)(코드의 문자가 위치 파악됨) 및 텍스트 또는 문자 인식(105b)(문자가 인식되고 출력됨). 단계(105a) 및 단계(105b)는 단일 단계에서 동일한 분류기에 의해 또는 개별 분류기에 의해 수행될 수 있다. 이미지의 코드 패치(즉, DOT 코드와 'DOT' 앵커 위치 뒤에 오는 문자를 포함하는 이미지의 일부는 먼저 사전 처리되어, 하위 수준의 에지 필터링을 사용하여 텍스트 높이까지 이를 잘라낸다. 그 다음, 코드 검출 네트워크의 보폭(stride)(입력 이미지에서 두 개의 연속적인 검출 윈도우 창 사이에서 건너 뛴 픽셀 수)에 따라 패치 높이가 40-50 픽셀로 다시 크기 조정된다.

도 9는 도 1로부터의 단계(105a) 및 단계(105b) 모두에 대응하는 단일 분류기를 사용하여 타이어 측벽 코드를 위치 파악 및/또는 분류하기 위해(즉, 타이어 측벽의 양각 및/또는 각인된 마킹을 판독하기 위해) 사용되는 방법(901)의 순서도이다. 검증된 관심 영역에 인접한 영역이 선택되어 단일 분류기(901)에 입력된다. 그 다음, 분류기(901)는 선택된 영역 내에서 코드의 문자/기호를 위치 파악하고 주어진 문자/기호가 예를 들어 글자 또는 숫자와 같은 문자로서 인식되는 확률(903)을 출력 할 수 있으며, 이로부터 양각 및/또는 각인된 마킹의 출력된 판독값(즉, 타이어 측벽 코드)가 제공될 수 있다.

대안적으로, 도 10 및 11은 단계(105a) 및 단계(105b)를 개별적으로 수행할 수 있는 개별 네트워크를 도시한다. 단계(104a)에서 설명된 바와 같이, 수 많은 OCR 기술이 존재하고 제안/관심 영역이 생성되면 임의의 이러한 기술이 사용될 수 있다는 것이 예상된다.

도 10을 참조하면, 텍스트가 백그라운드에 대하여 매우 낮은 콘트라스트를 갖기 때문에, 도 10에 표시된 아키텍처(1001)에 의해 제공되는 것과 같은 조밀한 예측 메커니즘이 필요하다. CNN에서, 최대 풀링 레이어는 이미지를 다운 샘플링하고, 이는 네트워크 보폭을 증가시킨다. 최대 풀링 레이어를 제거하면 조밀한(픽셀 단위) 예측이 가능하지만, 파라미터 공간이 엄청나게 증가하여 효율성과 정확성에 영향을 줄 것이다. MaxOut 활성화와 결합된 DropOut과 같은 정규화(Regularization) 기술은 정확도를 높이는 데 도움이 된다. 따라서, 도 10에 도시된 바와 같이, 이 아키텍처에서는 MaxOuts가 사용된다. 본 발명자들은 ReLU가 MaxOut 레이어보다 선행하면 네트워크가 훈련 중에 최소로 빠르게 수렴된다는 것을 관찰하였다. 도 10의 입력(1000)은 32x32 픽셀 크기를 갖는 DoG 이미지로 도시된다. 예를 들어, "Goodfellow et al (2013), Maxout Networks, Proceedings of the 30 ^th International Conference on Machine Learning - Volume 28, JMLR.org, ICML'13, pp III-1319-III-1327" and "Jaderberg et al (2014), Deep Features for Text Spotting, European Conference on Computer Vision"에 설명된 것과 같은 다른 네트워크 아키텍처가 또한 예상된다. 마지막으로, HOG-CNN 및 HOG-MLP에서와 동일한 방식으로, 컨볼루션 레이어로 구성된 완전 연결(FC) 레이어는 네트워크가 전체 코드 패치 위로 슬라이딩할 수 있게 하여, 도중에 텍스트를 검출하고 위치 파악하게 하며 공간 슬라이딩 윈도우 메커니즘에 대한 어떠한 필요성도 방지한다.

본 예에서, 전술된 바와 같이 합성적으로 생성된 텍스트 클래스를 갖는 700K의 이미지 데이터 세트에 대하여 훈련이 수행되었다. 백그라운드 클래스는 실제 타이어 패치에서 추출되었다. 이는 단일 모서리, 융기부(ridge) 패턴, 캐스트 또는 다이 형상 및 일반 백그라운드를 포함하였다. 출력은 바이너리 클래스 확률(예를 들어, 텍스트/비텍스트)로 매핑되었다. 문자 검출기는 이전에 논의된 바와 같이 전체 코드 패치를 앞에서 설명한대로 전체 코드 패치를 컨볼루션 방식으로 스캔하여 경계 상자를 생성하였다. 이에 따라 검출된 상자는 텍스트가 있을 확률이 가장 높은 영역의 중앙에 위치된다. 제안을 필터링하기 위해 검출된 상자에 비-맥시마 억제(non-maxima suppression)가 적용되었다. 문자 분류기가 문자 검출에도 선택적으로 사용될 수 있다. 그러나, 본 발명자들은 코드 텍스트 인식을 위한 문자 분류기와 분리된 코드 문자 검출을 위한 전용 분류기가 더 잘 수행한다는 것을 발견하였다.

전술된 바와 같이, 도 11에 도시된 바와 같은 별도의 텍스트 인식 네트워크(1101)는 단계(105b)를 수행하기 위해 본 예시적인 예에서 사용된다. 예를 들어,도 10에 도시된 아키텍처를 사용하여 단계(105a)에서 위치 파악이 수행된 후, 검출된 코드 문자 위치는 문자 분류기 네트워크(1101)로 공급되는 문자를 추출하는데 사용된다. "Jaderberg et al (2016), Reading Text in the Wild with Convolutional Neural networks, International Journal of Computer Vision 116(1):1-20 DOI 10.1007/s11263-015-0823-z"에 의해 설명된 것과 같은 다른 문자 분류기가 또한 사용될 수 있다. 이 네트워크는 숫자 0 내지 9, 대문자 알파벳 A 내지 Z(타이어 DOT 코드에서는 사용되지 않는 I, Q, S 및 O를 제외한다)를 위한 클래스와, 9개의 백그라운드 클래스를 가져, 33 클래스(32 문자 및 1 백그라운드 클래스)로 매칭되는 39 방식 분류기를 만든다. 이 모델은 대략 700,000개의 이미지의 본 발명자의 합성 문자 데이터 세트에 대하여 훈련되었다. 또한, 분류기는, 필요하다면, 타이어 측벽 코드에서 발견되는 특정 브랜드, 로고 또는 기호를 인식하도록 훈련될 수 있다.

장점

제안된 시스템은 산업용 시스템이기 때문에, 정확성과 효율성이 똑같이 중요하다. 특히, 단계(104a)에서 전술된 제안/관심 영역 생성기는 정확도에서의 현저한 저하 없이 타이어 측벽 판독 시스템의 효율에 있어서 상당히 증가를 제공한다. 본 발명자들은 제안/관심 영역 생성기가 이에 따라 방법이 제안/관심 영역의 생성을 필요로 하는 타이어 측벽 판독에 적용된 임의의 알려진 컴퓨터 비전 및 OCR 기술과 함께 사용될 수 있다고 생각한다.

정확성

정확도는 궁극적으로 분석되는 데이터 샘플에 따라 달라진다. 본 명세서에서 설명된 아키텍처의 훈련 오류는 5% 미만이었다. 합성 훈련 데이터가 실제 이미지 데이터와 혼합되고 그리고/또는 아핀(affine) 변형과 같은 훈련 시간 데이터 증강이 추가되는 경우에 네트워크에 의한 과적합은 더욱 감소될 수 있다. 따라서, HOG-CNN 및 HOG-MLP는 타이어 측벽 텍스트에서 관심 영역 생성에 대해 5% 미만의 허위 긍정률을 제공한다. 이는 휠 아치에 비해 타이어 높이, 반경 및 위치에서의 광범위한 변화에도 불구하고 있다.

효율

최종 사용자가 결과를 기다리는 산업용 시스템의 경우, 효율성은 중요하다. GPU(Graphical Processing Units)는 딥 러닝 기반 시스템에서 광범위하게 사용되었지만, GPU를 배포하는 것은 각각의 이미징 사이트에 배포되므로 총 시스템 비용을 확장하는 것을 의미한다. 수요가 증가하고 모든 사이트에 2개의 유닛(차량의 오른쪽과 왼쪽에 각각 하나씩)이 필요한 상황에서, 총 비용을 낮게 유지하는 것이 핵심 속성이 되고 있다. 따라서, 전술된 바와 같이, CPU 기반 시스템이 이상적으로 추구된다.

딥 네트워크로 전체 언워핑된 이미지(평균 크기 500x3000 픽셀)를 스캔하는 것은 Core i7 3.6GHz CPU(496MB의 파라미터 메모리를 필요로 함)에서 20초 이상 걸린다. 실제로, 객체/텍스트 검출을 위한 최고 성능의 알고리즘(즉, 벤치 마크 데이터 세트에서 높은 순위를 차지하는 알고리즘) 중 일부가 타이어 측벽 텍스트를 이미징하는데 적용될 때, 계산 병목 현상이 빠르게 발생한다.

대조적으로, 제안된 얕은 네트워크(HOG-CNN 또는 HOG-MLP)는 1 내지 3MB의 파라미터 메모리만 필요로 한다. 그 다음, 이렇게 생성된 제안의 심층 스캔만이 이어지면, 총 스캔 시간은 대략 3초로 단축된다. 이는 효율성 측면에서(거의 95% 속도 향상) 대폭 향상되었을 뿐만 아니라, 전체 시스템 비용과 복잡성이 크게 감소되며(CPU 기반 작업 만 사용하기 때문에). HOG-CNN 또는 HOG-MLP의 리콜이 거의 100%이기 때문에 정확도에서의 어떠한 명백한 손상도 없다. 이를 통해, 타이어 검출을 위하여 이미지를 처리하고, 언워핑한 다음, 결과적인 500x30000 픽셀의 언워핑된 이미지를 3개의 다른 스케일로 스캔한 후, 코드를 감지하고 판독하는 것은 전술한 CPU에서 평균 3 내지 5초 걸린다.

본 발명이 전술된 같이 바람직한 실시예의 관점에서 설명되었지만, 이러한 실시예는 단지 예시일 뿐이며 청구 범위는 그러한 실시예로 제한되지 않는다는 것이 이해되어야 한다. 통상의 기술자는 첨부된 청구항들의 범위 내에 있는 것으로 고려되는 개시 내용을 고려하여 수정 및 대안을 만들 수 있을 것이다. 본 명세서에 개시되거나 예시된 각각의 특징은 단독으로 또는 본 명세서에 개시되거나 예시된 임의의 다른 특징과의 임의의 적절한 조합에 의해 본 발명에 포함될 수 있다.

예를 들어, 도 6a가 2개의 완전히 연결된 컨볼루션 레이어(607a, 607b)를 상정하는 반면, 이것은 정확도를 희생하면서 계산 오버헤드를 추가로 줄이기 위해 하나의 레이어로 감소될 수 있습니다. 즉, 컨볼루션 신경망은 하나 또는 2개의 완전 연결 컨볼루션 레이어를 포함할 수 있다. 대안적으로, 정확도를 높이기 위해, 계산 복잡성을 감수하면서 완전 연결 레이어의 수를 3개 이상의 레이어로 증가시킬 수 있다. 그러나, 2개 이상의 레이어를 사용하면 컴퓨팅 시간이 차량 운영자에게 허용되지 않는 수준으로 증가하거나 GPU가 필요한 정도로 계산 복잡성이 증가할 수 있으므로, HOG-CNN 또는 HOG-MLP를 사용하여 얻는 이점을 줄이거나 완전히 제거할 수 있다. 이것은 이상적인 실험실 환경에서는 문제가 되지 않을 수 있지만, 이는 비용과 효율성이 최우선인 산업용 시스템을 위한 것이며, 따라서 얕은 네트워크가 훨씬 더 큰 이점을 제공한다.

Claims

타이어의 측벽의 디지털 이미지에서 관심 영역을 생성하기 위한 컴퓨터 구현 방법에 있어서, 상기 측벽은 하나 이상의 양각 및/또는 각인된 마킹을 갖고, 상기 방법은,
상기 디지털 이미지의 HOG(histogram of oriented gradients) 특징 맵을 생성하는 단계;
상기 HOG 특징 맵을 훈련된 신경망으로 입력하는 단계 - 상기 훈련된 신경망은 상기 HOG 특징 맵에 기초하여 상기 디지털 이미지의 픽셀 영역이 상기 양각 및/또는 각인된 마킹을 포함하는 제1 확률을 출력하도록 구성됨 -; 및
상기 제1 확률이 미리 정해진 제1 임계값 이상이면, 상기 픽셀 영역을 상기 관심 영역으로 수락하는 단계
를 포함하는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 디지털 이미지의 HOG 특징 맵을 생성하는 단계는, 훈련된 컨볼루션 신경망(convolutional neural network)에서 컨볼루션 필터의 스택에 의해 수행되는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 디지털 이미지의 HOG 특징 맵을 생성하는 단계는, 상기 훈련된 신경망과는 별도의 HOG 생성기에 의해 수행되는, 컴퓨터 구현 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 훈련된 신경망은 하나 또는 2개의 완전 연결 레이어(fully connected layer)을 포함하는, 컴퓨터 구현 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 훈련된 컨볼루션 신경망은 타이어 측벽의 복수의 디지털 이미지로부터 생성된 복수의 HOG 특징 맵을 포함하는 훈련 데이터에 대하여 훈련되는, 컴퓨터 구현 방법.
제5항에 있어서,
상기 훈련 데이터는 합성 데이터를 더 포함하는, 컴퓨터 구현 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 제1 확률이 미리 정해진 상기 제1 임계값보다 낮으면, 상기 관심 영역으로서 상기 픽셀 영역을 거부하는 단계를 더 포함하는, 컴퓨터 구현 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 관심 영역에 분류기(classifier)를 적용하는 단계 - 상기 분류기는, 상기 관심 영역이 상기 양각 및/또는 각인된 마킹을 포함하는 제2 확률을 출력하도록 구성됨 -; 및
상기 제2 확률이 미리 정해진 제2 임계값보다 낮으면, 상기 관심 영역이 허위 긍정(false positive)인 것으로 결정하는 단계
를 더 포함하는, 컴퓨터 구현 방법.
타이어의 측벽 상의 양각 및/또는 각인된 마킹을 판독하는 방법에 있어서,
상기 타이어의 측벽의 디지털 이미지를 제공하는 단계;
상기 디지털 이미지를 언워핑(unwarping)하는 단계;
상기 디지털 이미지 상의 관심 영역을 생성하는 단계;
상기 관심 영역이 허위 긍정인지 판단하기 위하여 분류기를 적용하고, 상기 관심 영역이 허위 긍정이면, 상기 관심 영역을 폐기하거나, 상기 관심 영역이 허위 긍정이 아니면 상기 관심 영역을 선택하는 단계;
선택된 상기 관심 영역에 인접한 상기 디지털 이미지의 영역을 선택하는 단계; 및
상기 양각 및/또는 각인된 마킹을 판독하기 위하여 상기 관심 영역에 인접한 상기 디지털 이미지의 영역에 분류기를 적용하는 단계
를 포함하고,
상기 관심 영역을 생성하는 단계는,
상기 디지털 이미지의 HOG(histogram of oriented gradients) 특징 맵을 생성하는 단계;
상기 HOG 특징 맵을 훈련된 신경망으로 입력하는 단계 - 상기 훈련된 신경망은 상기 HOG 특징 맵에 기초하여 상기 디지털 이미지의 픽셀 영역이 상기 양각 및/또는 각인된 마킹을 포함하는 제1 확률을 출력하도록 구성됨 -; 및
상기 제1 확률이 미리 정해진 제1 임계값 이상이면, 상기 픽셀 영역을 상기 관심 영역으로 수락하는 단계
를 포함하는, 방법.
제9항에 있어서,
상기 디지털 이미지의 HOG 특징 맵을 생성하는 단계는, 훈련된 컨볼루션 신경망(convolutional neural network)에서 컨볼루션 필터의 스택에 의해 수행되는, 방법.
제9항에 있어서,
상기 디지털 이미지의 HOG 특징 맵을 생성하는 단계는, 상기 훈련된 신경망과는 별도의 HOG 생성기에 의해 수행되는, 방법.
제1항 내지 제11항 중 어느 한 항에 따른 방법의 단계들을 수행하기 위한 수단을 포함하는, 데이터 처리 장치.
제12항에 있어서, 상기 단계들은 중앙 프로세서 처리 유닛(central processor processing unit(CPU))에 의해 수행되는, 데이터 처리 장치.
컴퓨터에 의해 실행될 때, 상기 컴퓨터가 제1항 내지 제11항 중 어느 한 항에 따른 방법의 단계들을 수행하게 하는 명령어를 포함하는 컴퓨터 프로그램.
제14항에 따른 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체.