KR102625312B1

KR102625312B1 - 어텐션 방식에 기반을 둔 번호판 레이아웃 타입에 독립적인 차량 번호판 인식 시스템

Info

Publication number: KR102625312B1
Application number: KR1020220084028A
Authority: KR
Inventors: 강동중; 서태문
Original assignee: 주식회사 파시디엘
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2024-01-16

Abstract

본 발명은 딥러닝을 통해 차량 번호판을 포함하는 번호판 인식 시스템에 관한 것으로, 촬영된 번호판 이미지를 입력하는 입력부와; 상기 입력된 번호판의 이미지를 직사각형 바운딩 박스(bounding box)와 네 개 모서리의 꼭짓점 좌표를 활용하여 번호판의 경사, 회전 등의 왜곡을 보정 가능하게 학습하여 검출하는 번호판 검출부와; 상기 번호판 검출부에 검출된 이미지를 분할하여 어텐션(attention) 기반의 알고리즘을 통해 번호판 내부의 문자를 인식하는 문자 인식부;를 포함하는 것을 특징으로 한다.
이에, 본 발명에 따르면, 차량 번호판의 이미지가 눈이 오거나 흐린 날씨에 촬영된 경우, 채도나 명도 등이 흐릿한 경우, 비스듬하게 촬영된 경우를 포함하는 노이즈를 갖는 경우 이러한 노이즈에 강건하고, 차량, 오토바이, 차량의 스티커 등 다양한 종류의 번호판 내지 부착 내용에도 적용이 될 수 있다.

Description

어텐션 방식에 기반을 둔 번호판 레이아웃 타입에 독립적인 차량 번호판 인식 시스템 {Layout-Independent License Plate Detection and Recognition System Based on Attention Method}

본 발명은 어텐션 방식에 기반을 둔 번호판 레이아웃 타입에 독립적인 차량 번호판 인식 시스템에 관한 것으로, 촬영된 번호판의 이미지에 노이즈가 있더라도 이러한 노이즈에 강건하고 다양한 종류의 레이아웃을 갖는 번호판에도 적용이 가능하도록 번호판을 검출하고 인식하는 딥러닝의 학습 구조를 개선한 어텐션 방식에 기반을 둔 번호판 레이아웃 타입에 독립적인 차량 번호판 인식 시스템에 관한 것이다.

자동차 번호판 인식 시스템은 차량 관리, 디지털 감시 시스템, 지능형 교통시스템 등과 같은 광범위한 분야에서 사용된다.

종래의 CCTV 영상분석을 통한 자동차 번호판 인식 시스템은 3 단계의 절차로 구성된다. (1) 차량 위치 검출. (2) 문자 영역 검출 (3) 문자 인식 이다. 최근, 딥러닝 기반 기술 발달로 인해 컨볼루션(convolution) 연산이 포함된 심층 신경망을 활용하여 높은 인식 성능을 보여주고 있다.

하지만 이러한 발전에도 불구하고 여전히 다양한 환경에서 얻어지는 이미지 데이터에서는 낮은 인식률은 보이거나 한 가지 레이아웃에 대해서만 시스템이 동작하는 등의 단점이 있다. 여기서 말하는 레이아웃은 번호판의 형태, 문자 배열, 번호판 색 등을 의미한다.

이에 따라 번호판 이미지 데이터가 얻어지는 해상도, 배경, 위치, 조명, 회전, 왜곡과 같은 다양한 환경에 대응할 수 있으며 다양한 번호판에 대해서 레이아웃을 독립적으로 적용 할 수 있는 인식 시스템에 대한 요구가 증가되고 있다.

[관련 기술 문헌]

등록특허공보 제10-2272279호 (2021.07.02. 공고)

공개특허공보 제10-2021-0080291호 (2021.08.30. 공개)

본 발명의 목적은, 차량 번호판의 이미지가 눈이 오거나 흐린 날씨에 촬영된 경우, 채도나 명도 등이 흐릿한 경우, 비스듬하게 촬영된 경우를 포함하는 노이즈를 갖는 경우 이러한 노이즈에 강건한 어텐션 방식에 기반을 둔 번호판 레이아웃 타입에 독립적인 차량 번호판 인식 시스템을 제공하는 것이다.

또한, 본 발명의 다른 목적은, 다양한 종류의 번호판에도 적용이 될 수 있는 어텐션 방식에 기반을 둔 번호판 레이아웃 타입에 독립적인 차량 번호판 인식 시스템을 제공하는 것이다.

또한, 본 발명의 또 다른 목적은, 번호판의 검출 및 인식 성능을 증대시킬 수 있는 어텐션 방식에 기반을 둔 번호판 레이아웃 타입에 독립적인 차량 번호판 인식 시스템을 제공하는 것이다.

본 발명의 목적은, 딥러닝을 통해 차량 번호판을 포함하는 번호판 인식 시스템에 있어서, 촬영된 번호판 이미지를 입력하는 입력부와; 상기 입력된 번호판의 이미지를 직사각형 바운딩 박스(bounding box)와 네 개 모서리의 꼭짓점 좌표를 활용하여 번호판의 경사, 회전 등의 왜곡을 보정 가능하게 학습하여 번호판 위치를 검출하는 번호판 검출부와; 상기 번호판 검출부에 검출된 이미지를 분할하여 어텐션(attention) 기반의 알고리즘을 통해 번호판 내부의 문자를 인식하는 문자 인식부;를 포함하되, 상기 문자 인식부는, 잔여 블록 (Residual Block)을 포함하는 인식 특징추출모듈과, 상기 인식 특징추출모듈에서 입력된 문자의 잔여 디폼어블 블록 (ResDformable Block)을 갖는 디폼어블 어텐션 단계를 (deformable attention stage) 포함하는 인식 헤드모듈을 포함하며, 상기 인식 특징추출모듈은 컨벌루션 연산, 배치 정규화(BN), 최대 풀링, 디폼어블 주의 단계 및 잔여 블록 (Residual Block)을 설정된 인자만큼 배치하여 행렬을 포함하는 숫자로 이루어진 특징맵과 숫자를 통해 각종 연산으로 나타내어지는 신경망의 인자들이 서로 연산되고, 상기 인식 헤드모듈은 상기 인식 특징추출모듈에서 입력된 상기 인식 헤드모듈은 상기 인식 특징추출모듈에서 입력된 상기 특징맵의 정보를 쪼개서 서로간의 관계성을 파악하는 릴레이션 어텐션 (Relation Attention), 평행 어텐션 (Parallel Attention), 문자 디코딩 과정을 포함하는 것을 특징으로 하는 번호판 인식 시스템에 의하여 달성된다.

또한, 상기 번호판 검출부는, 컨볼루션(convolution) 연산, 최대 풀링(Max Pooling) 및 잔여 블록(Residual Block)을 설정된 횟수만큼 수행한 후, 컨볼루션 연산을 포함하는 검출 특징추출모듈과, 직사각형의 중심점, 폭 및 너비를 활용하여 번호판의 상기 바운딩 박스를 검출하는 제1브랜치와 상기 네 개 모서리의 꼭짓점 좌표를 활용하여 번호판을 검출하는 제2브랜치를 포함하는 검출 헤드모듈을 포함하는 것이 바람직하다.

또한, 상기 검출 특징추출모듈의 상기 컨볼루션 연산 단계는, 컨블루션 연산, 배치 정규화(BN, Batch normalization), 렐루(ReLU) 함수를 포함하는 것이 바람직하다.

또한, 상기 제1브랜치는 상기 검출 특징추출모듈에서 입력된 이미지의 중심점의 히트맵을 생성하는 과정과, 상기 직사각형의 폭과 높이를 설정하는 과정과, 오프셋(offset)을 산출하는 과정을 포함하는 것이 바람직하다.

또한, 상기 제2브랜치는 상기 검출 특징추출모듈에 입력된 이미지에서 상기 직사각형의 히트맵을 생성하는 과정과, 상기 네 개의 꼭짓점 좌표를 설정된 방향에 대하여 순차적으로 검출하는 과정과, 오프셋(offset)을 산출하는 과정을 포함하는 것이 바람직하다.

삭제

이에, 본 발명에 따르면, 차량 번호판의 이미지가 눈이 오거나 흐린 날씨에 촬영된 경우, 채도나 명도 등이 흐릿한 경우, 비스듬하게 촬영된 경우를 포함하는 노이즈를 갖는 경우 이러한 노이즈에 강건한 어텐션 방식에 기반을 둔 번호판 레이아웃 타입에 독립적인 차량 번호판 인식 시스템을 제공할 수 있다.

또한, 차량, 오토바이, 차량의 스티커 등 다양한 종류의 번호판 내지 부착 내용에도 적용이 될 수 있는 어텐션 방식에 기반을 둔 번호판 레이아웃 타입에 독립적인 차량 번호판 인식 시스템을 제공할 수 있다.

또한, 번호판의 검출 및 인식 성능을 증대시킬 수 있는 어텐션 방식에 기반을 둔 번호판 레이아웃 타입에 독립적인 차량 번호판 인식 시스템을 제공할 수 있다.

도 1은 본 발명의 일실시예에 따른 번호판 인식 시스템을 개략적으로 설명하는 흐름도,
도 2는 도 1의 흐름을 그림을 포함하여 보여주는 개관도,
도 3은 번호판 검출부를 설명하기 위한 그림,
도 4는 문자 인식부의 인식 특징추추모듈을 설명하기 위한 흐름도 및 주요부 구조도,
도 5는 문자 인식부의 문자 헤드모듈을 설명하기 위한 흐름도 및 주요부 구조도,
도 6은 실험에 사용된 데이터셋의 사진,
도 7은 입력된 이미지와 본 발명에 따라 검출되고 인식된 결과를 보여주는 사진이다.

본 발명의 일실시예에 따른 어텐션 방식에 기반을 둔 번호판 레이아웃 타입에 독립적인 차량 번호판 인식 시스템(10000, 이하에서 ‘번호판 인식 시스템’이라 함)에 대하여 도 1 내지 도 7을 참조하여 구체적으로 설명하면 다음과 같다.

도 1은 본 발명의 일실시예에 따른 번호판 인식 시스템을 개략적으로 설명하는 흐름도이고, 도 2는 도 1의 흐름을 그림을 포함하여 보여주는 개관도이며, 도 3은 번호판 검출부를 설명하기 위한 그림이고, 도 4는 문자 인식부의 인식 특징추추모듈을 설명하기 위한 흐름도 및 주요부 구조도이며, 도 5는 문자 인식부의 문자 헤드모듈을 설명하기 위한 흐름도 및 주요부 구조도이고, 도 6은 실험에 사용된 데이터셋의 사진이며, 도 7은 본 발명에 따라 검출되고 인식된 결과를 보여주는 사진이다.

본 발명을 보다 상세하게 설명하기에 앞서, 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 구현예(態樣, aspect)(또는 실시예)들을 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

각 도면에서 동일한 참조부호, 특히 십의 자리 및 일의 자리 수, 또는 십의 자리, 일의 자리 및 알파벳이 동일한 참조부호는 동일 또는 유사한 기능을 갖는 부재를 나타내고, 특별한 언급이 없을 경우 도면의 각 참조부호가 지칭하는 부재는 이러한 기준에 준하는 부재로 파악하면 된다.

또 각 도면에서 구성요소들은 이해의 편의 등을 고려하여 크기나 두께를 과장되게 크거나(또는 두껍게) 작게(또는 얇게) 표현하거나, 단순화하여 표현하고 있으나 이에 의하여 본 발명의 보호범위가 제한적으로 해석되어서는 안 된다.

본 명세서에서 사용한 용어는 단지 특정한 구현예(태양, 態樣, aspect)(또는 실시예)를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, ~포함하다~ 또는 ~이루어진다~ 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명의 일실시예에 따른 번호판 인식 시스템(1000)은, 도 1 내지 도 5에 도시된 바와 같이, 딥러닝을 활용하고, 촬영된 번호판 이미지를 입력하는 입력부(미도시)와; 상기 입력된 번호판의 이미지를 직사각형 바운딩 박스(bounding box)와 네 개 모서리의 꼭짓점 좌표를 활용하여 번호판의 경사, 회전 등의 왜곡을 보정 가능하게 학습하여 검출하는 번호판 검출부(1100)와; 상기 번호판 검출부(1100)에 검출된 이미지를 분할하여(쪼개어, 나누여) 어텐션(attention) 기반의 알고리즘을 통해 번호판 내부의 문자를 인식하는 문자 인식부(1300);를 포함하는 것이 바람직하다.

입력부(미도시)는 단일 연산 장치로 효율적으로 차량 번호판 인식을 수행하기 위해서 병렬 처리 모듈을 통해 복수의 입력 영상을 동시에 처리한다.

병렬 처리 모듈은 CCTV 등의 입력 영상을 연산 장치의 CPU의 코어를 병렬로 활용하여 복수의 입력영상을 지연 없이 번호판 검출부(1100)로 전달할 수 있도록 한다.

보통 종래기술에서는 복수의 입력 영상을 처리 할 때 단일 영상을 순차적으로 처리하는 방식으로 처리하게 된다. 이러한 방식의 비효율적인 문제점을 개선하고자 본 발명에서는 멀티 프로세싱 알고리즘을 적용하여 병렬 연산 모듈을 구성하게 되었다.

번호판 검출부(1100)는 검출 특징추출모듈(1130)과 검출 헤드모듈(1150)을, 문자 인식부(1300)는 인식 특징추출모듈(1330)과 인식 헤드모듈(1350)을 포함하는 것이 바람직하다.

본 발명의 번호판 인식 시스템의 실시예로 자동차 번호판, 오토바이 번호판, 차량의 유리 앞면에 부착된 스티커 등에 포함된 문자(영문, 한문, 한글 등과 숫자)를 추출하고 인식하는 것에 대하여만 설명한다. 하지만 본 발명은 선박 마크, 비디오 및 응용 프로그램에서의 문자, 마크 등을 인식하는 영역까지 본 발명의 기술적 사상을 해하지 않는 범위 이내에서 확장 가능하다.

또한, 차량 번호판은 각 국가별로 문자 또는/및 숫자 표현 방식도 상이합니다. 이러한 상이하고 다양한 차량 번호판에도 본 발명이 적용됨은 물론이다.

<번호판 감지 (Licenser Plate Detection)>

딥 러닝 기반 객체 감지 방법은 일반적으로 심층 신경망을 사용하여 특징을 추출하고 위치 매개변수를 회귀한다. 이러한 방법은 세 가지 범주로 나눌 수 있다.

첫째, 앵커 박스(anchor box) 기반 2단계 방식, 둘째, 앵커 박스 기반 1단계 방식, 셋째, 앵커 없는 방식. 앵커 박스는 이미지의 대상 개체가 위치할 수 있는 위치에서 특정 높이와 너비의 미리 정의된 경계 박스 세트이다. 신경망은 회귀 방법을 사용하여 앵커 박스를 다듬어 경계 박스를 예측한다.

대표적으로 RCNN (Recurrent Convolution Neural Nestwork) 시리즈와 같은 2단계 방식에서는 RPN (Region Proposal Network)이 ROI (Region of Interest)를 생성한다. 이것은 기능맵에 투영되고 풀링 단계를 거친다. 완전히 연결된 헤드는 경계 박스를 조정하는 과정을 거친다.

YOLO 시리즈와 같은 원스텝 방식은 ROI를 투영하고 풀링하는 단계를 제거하여 단일 신경망을 사용하여 수행된다.

앵커 박스를 사용하면 특히 작은 물체에 대해 높은 감지 성능과 성능을 향상시킬 수 있다. 그러나 세 가지 단점이 있다.

첫째, 앵커 박스 방법은 미리 정의된 매우 큰 경계 박스 세트가 필요하다. Retinanet 에서는 100K 이상을 사용했습니다. 이로부터 포지티브/네거티브 카테고리에 속하는 박스들 간에 불균형 문제가 발생한다.

둘째, 앵커 박스를 생성하는 과정에서 미리 정의된 박스의 매개변수를 결정해야 한다. 이는 사용자 개입을 최소화해야 하는 자동화 시스템 측면에서 단점이다.

마지막으로 앵커 기반 방법은 NMS (Non-Maximum-Suppression)로 줄여야 하는 겹치는 경계 박스를 많이 예측한다. 이러한 단점을 해결하기 위해 최근에는 앵커 프리(anchor-free) 방법을 사용하는 새로운 객체 감지 신경망이 제안되었다. 본 발명에서는 센터넷의 개념을 이용하여 차량 번호판 검출을 위해 일반적인 앵커가 없는 객체 검출 신경망이 채택된다. 이것은 차량 번호판 응용 프로그램을 확장할 뿐만 아니라 순차적 감지-인식 (detection-recognition) 접근 방식을 사용하여 다른 표시된 문자 데이터셋에도 사용할 수 있다.

이를 구체적으로 설명하면 다음과 같다.

- 차량 번호판 검출을 위한 검출 특징추출모듈 (detection feature extraction module) (1130)

본 발명에 따른 검출 헤드모듈(1150)은 픽셀 수준에서 손실 함수를 계산해야 하므로 공간 정보를 축소하지 않는 도 3의 좌측에 도시된 바와 같이 간단하고 가벼운 백본 네트워크 (light weight backbone network)를 포함한다. 검출 특징추출모듈(1130)은 ResNet18의 일부 레이어를 기능 추출기로 채택하고 컨볼루션 연산, 배치 정규화 (BN, batch normalization), 최대 풀링 (max pooling), 드롭아웃 (dropout) 및 ReLU 를 활성화 함수로 사용한다. 이러한 네트워크의 아키텍처는 <표 1>에 나타나 있다.

Input	Operator	Output
512 x 512 x 3	Conv 3x3 + BN + ReLU	512 x 512 x 64
512 x 512 x 64	Conv 3x3 + BN + ReLU	512 x 512 x 127
512 x 512 x128	MaxPool	256 x 256 x 128
256 x 256 x 128	Residual Block	256 x 256 x 128
256 x 256 x 128	MaxPool	128 x 128 x 128
128 x 128 x 128	Residual Block	128 x 128 x 128
128 x 128 x 128	Conv 3x3 + BN + ReLU	128 x 128 x 256
128 x 128 x 256	Conv 1x1	128 x 128 x 1024

차량 번호판 감지의 경우 차량 번호판 영역의 특징은 입력 차량 이미지에 대해 명확하다. 따라서 단일 규모의 단순 네트워크는 특징을 추출하기에 충분하다. <표 1>에서와 같이 입력 RGB 이미지가 주어지면 512 * 512 해상도로 크기가 조정되고 백본 네트워크를 통해 전달된다. 여기서 비선형 특징을 풍부하게 표현하기 위해 출력 특징맵의 크기를 4번 다운 샘플링하고 채널을 1024로 설정한다.

- 검출 헤드모듈 (detection head module) (1150)

본 발명에서는 앞에서 설명한 바와 같이 앵커 프리 방식을 위한 검출 헤드모듈(1150)을 포함한다. 그림 2와 같이 검출 헤드모듈(1150)은 검출 특징추출모듈(1130)의 마지막 단계를 입력으로 받아 두 개의 브랜치(branch)를 통해 출력을 예측한다.

입력 이미지 I ∈ R^W×H×3 인 경우(이하에서 특별한 설명이 없으면 ‘W’는 직사각형의 폭, ‘H’는 직사각형의 높이로 가정함), 첫 번째 브랜치(도 3의 우측 상부의 점선으로 표시된 사각 부분)는 다음의 3개의 출력 (히트맵, 박스 높이 및 너비, 오프셋)을 예측한다.

중심점 히트맵 Y _heatmap ∈ R^W/4×H/4×1, 두 번째, 박스 높이 및 너비 Y _w,h ∈ R^W/4×H/4×2, 3> 크기 오프셋 Y _offsets ∈ R^W/4×H/4×2이다. 그런 다음 출력이 디코딩되어 경계 박스를 찾는다.

또한 두 번째 브랜치(도 3의 우측 하부의 점선으로 표시된 사각 부분)는 3개의 출력 코너 포인트 히트맵 Y _corner ∈ R^W/4×H/4×4, 코너 포인트 좌표 Y _coords ∈ R^W/4×H/4×8, 좌표 오프셋 Y _offsets ∈ R^W/4×H/4×2를 예측한다. 두 번째 출력은 또한 4개의 코너 포인트를 찾기 위해 디코딩됩니다. 감지된 모서리 점을 사용하여 수정된 차량 번호판 패치 (LP Patch)를 얻을 수 있다.

<차량 번호판 인식 (License Plate Recognition)>

CNN(Convolution Neural Networks)이 풍부한 데이터의 특징 공간을 학습할 수 있음이 실험적으로 입증되었으며, CNN 기반의 다양한 광학 문자 인식 신경망이 제안된다. 기존의 방법은 차량 번호판 인식을 연속 레이블 문제로 간주하고 CTC 손실 (Connectionist Temporal Classification Loss)을 사용하여 접근한다. 차량 번호판 인식을 위해 슬라이딩 윈도우 방식의 단일 클래스 검출기(single class detector)도 사용된다. CTC loss의 단점은 네트워크의 특징 맵(feature map)이 실제 문자 시퀀스를 고려하여 재배열되어야 하고, 실제 데이터에서 발생할 수 있는 노이즈 데이터에 대해서는 성능이 좋지 않다는 점이다.

결정적으로 앞서 언급한 방법들을 다양한 레이아웃에 적용하기 위해서는 분류 모듈이나 네트워크 수정이 필요하다. 차량 번호판 인식은 현실 세계에서 높은 정확도를 요구하기 때문에 대상 데이터셋(datasets)에 대해 전이 학습 이 필수적이므로 이러한 수정 불가능한 블랙박스 유형 시스템에는 한계가 있다. 본 발명은 이러한 문제를 해결하기 위하여 잔여 디폼어블 블록 (residual deformable block)이 있는 잡음에 강하고 레이아웃 독립적인 인식 네트워크를 설계하기 위해 제시된 어텐션 기반 엔코더-디코더 (attention based encoder-decoder) 방법을 수정하여 적용하였다.

- 인식 특징추출모듈 (Recognition Feature Extraction Module) (1330)

차량 번호판 패치(LP patch)는 탐지 네트워크의 결과인 차량 번호판 위치를 사용하여 수정된다. 보정된 이미지는 I_rectified ∈ R^W×H×3이며 차량 번호판의 특성상 W = 100, H = 32의 직사각형으로 설정하였다. 특징맵에서 캐릭터 위치에 집중하고 상위 레벨 캐릭터의 특징을 추출하기 위해 앞에서 설명한 새로운 어텐션 기반 백본 네트워크(attention-based backbone network)를 설계한다. 잔여 디폼어블 블록 (Residual Deformable Block)이 있는 2개(설정되 횟수 2개의 경우)의 디폼어블 어텐션 단계 (Deformable Attention Stage)를 포함하는 새로운 백본 네트워크를 제안한다.

이 단계에서 컨볼루션 필터(convolution filter)는 그림 4와 같이 디폼어블 컨볼루션(deformable convolution)에 의한 합리적인 수용 필드를 가지므로 공간 왜곡에 강하고 지속적인 다운샘플링(downsampling)과 업샘플링(upsampling)을 통해 다단계 특성을 커버할 수 있다.

또한, 저수준 특징(두번째/중앙 부분의 사각형 박스 중 우측 영역 - 입력된 부분에서 좌측으로 분기 되는 영역 - 으로 입력된 이미지에 근접된 특징을 갖는 영역)과 고수준 특징(두 번째/중앙 부분의 사각형 박스 중 좌측 영역 - 입력된 부분에서 좌측으로 분기 되는 영역 - 으로 높은 수준의 입력인 이미지로부터 더 멀어진 특징을 갖는 영역)의 합성곱을 통해 어텐션을 수행함으로써, 문자 특징을 효율적으로 추출할 수 있다.

아울러 디폼어블 어텐션 단계에서 잔여 디폼어블 블록 (residual deformable attention)이 복수로 포함되어 있다. 이러한 잔여 디폼어블 블록은 도 4의 우측 영역에 보는 바와 같이 ‘offset’라는 과정을 거치므로 정형화된 직사각형 형태뿐만 아니라 정형화된 정사각형과 먼 영역도 포함시킬 수 있다.

즉, 잔여 디폼어블 블록을 어텐션 기반 네트워크로 인해 본 발명에 따른 문자 인식부(1300)는 여러 줄, 곡선 및 크기가 다른 단어와 같은 불규칙한 문자 또는/ 및 마크 데이터의 특징을 효율적으로 추출할 수 있다. 제안된 네트워크 아키텍처는 <표 2>와 같다.

Input	Operator	Output
32 x 100 x 3	Conv 3x3 + BN + ReLU	32 x 100 x 32
32 x 100 x 32	MaxPool	16 x 50 x 32
16 x 50 x 32	Residual Block	16 x 50 x 64
16 x 50 x 64	Deformable Attention Stage	16 x 50 x 64
16 x 50 x 64	Residual Block (S = 2)	8 x 25 x 128
8 x 25 x 128	Deformable Attention Stage	8 x 25 x 128
8 x 25 x 128	Residual Block	8 x 25 x 256
8 x 25 x 256	Residual Block	8 x 25 x 1024

<표 2>에서 보는 바와 같이 인식 특징추출모듈(1330)은, 컨블루션 연산, 맥스 풀링(Max Pooing), 잔여 블록(Residual Block), 디폼어블 어텐션 단계와 잔여 블록이 설정된 횟수(본 발명의 경우 2회)만큼 수행되고 2회에 거쳐 잔여 블록 과정을 수행한다.

여기서 컨볼류션 연산 과정은 Conv 3*3, 배치 정규화 (BN, Batch Normalization), ReLU 과정을 포함하는 것이 바람직하다.

- 인식 헤드모듈 (Character Recognition Head Module) (1350)

인식 특징추출모듈(1330)은 추출기는 완전 연결 계층(fully connected layer)을 포함하지 않기 때문에 생성된 특징맵은 공간 정보를 유지하고 있다.

여기서, c = 1024로 특징맵의 채널이고, k = W/4×H/4로 순차 기능 토큰(sequential feature token)의 갯수이다. 그리고, 인식 헤드모듈(1350)을 통과한 후 최종 디코딩된 문자를 얻는다. 인식 헤드모듈(1350)은 도 5에 도시된 바와 같이, 3개의 모듈을 포함한다.

3개의 모듈은 공간 관련 어텐션 모듈 (spacial relation attention module), 병렬 어텐션 모듈 (Parallel Attention Module) 및 문자 디코딩 모듈 (Character Decoding Module)이다. 이 단계에서 모델은 어텐션 기반 메커니즘을 통해 위치 인코딩의 유사성을 계산하고 출력 문자를 예측한다.

이 방법을 사용하면 레이아웃 독립적인 번호판과 다른 표시 문자를 인식할 수 있다는 장점을 갖는다.

공간 관련 어텐션 모듈(Attn_r) : 식 (1)-(5)에서 특징맵은 셀프 어텐션 (self attention)을 수행한다. 이 과정은 공간적 유사성을 고려하여 새로운 특징맵을 만든다. 주어진 특징맵 (feature map) I ∈ R^k×c가 공간 관련 어텐션 모듈의 입력으로 주어졌을 때(어텐션 모듈의 입력으로 특성맵이 주어진 경우), PE(Position Embedding Vector)는 연속 토큰인 MLP (Multi-Layer Perceptron), MSA (Multi-head Self-Attention), PWFF (Position Wise FeedFoward) 및 LN (Layer Normalization) 방법을 포함하고 있다. PWFF는 MLP의 또 다른 유형이다. 여기서 L을 2로 설정하였다. 출력 노드 (output node)는 독립적이며 병렬로 최적화될 수 있다.

식(1)

식(2)

식(3)

. 식(4)

식(5)

식 (2)에서 MSA의 구체적인 과정은 다음과 같다. SA는 표준 qkv(쿼리, 키, 값) 셀프 어텐션이다. 만약, X ∈ R^k×c가 임의의 순차 특징맵 (arbitrary sequential feature map)이라면, 학습 가능한 가중치 행렬 W_q, W_k, W_v ∈ R^c×c, W_o ∈ R^kh×c, h는 헤드의 수이고 ch는 c×h이다.

, , . 식(6)

. 식(7)

. 식(8)

병렬 어텐션모듈(Attn_p): 이 모듈 작동은 식 (9)를 따른다. 공간 관련 어텐션 모듈의 출력에 학습 가능한 가중치를 곱한 다음 인식 특징추출모듈(1330)의 출력 특징맵을 사용하여 어텐션을 수행한다. 이 과정에서 공간 관련어텐션을 고려한 특성과 이전 특성을 모두 사용한다. 여기서 W₁ ∈ R^c×c, W₂ ∈ R^n×c, n은 인식 가능한 최대 문자 길이이다.

식(9)

문자 디코딩 모듈(CDM): 문자 디코딩 모듈은 이전 결과를 출력 문자로 디코딩(복호화)한다. 인코더와 유사하게 디코더 레이어의 두 레이어는 출력 노드 간의 관계적 어텐션을 위해 쌓인다. 그런 후, CDM은 Softmax 연산을 통해 출력 문자를 예측한다. 이 과정은 식 (10)과 같다.

식(10)

<최적화 (Optimization)>

- 번호판 검출 단계:

경계 박스 위치를 찾는 경우 네트워크에는 입력 이미지 (I ∈ R^W×H×3)에 대한 차량 번호판의 중심 위치, 너비와 높이 및 오프셋이 필요하다.

중심점은 히트 맵 Y_xyc ∈ [0, 1]^W/4×H/4×1에서 주어진다. 이것은 객체의 중심점 P_x, P_y 좌표 (σ_p는 객체 크기 대응 표준 편차임)에 가우시안 커널 (Gaussian kernel)을 적용하여 생성한다.

중심점 손실 함수 (center point loss function)는 식(11)에 표시된 것처럼 초점 손실이 있는 패널티 감소 픽셀 와이즈 로지스틱 회귀 (penalty-reduced pixel wise logistic regression)이다. 많은 수의 쉬운 부정(배경)에 작은 가중치를 주고 소수의 어려운 긍정(키포인트)에 큰 가중치를 준다. 따라서 학습 단계에서 다수의 부정에 의해 손실이 압도되는 것을 방지한다.

식(11)

이 공식에서 N은 중심점의 수로 1로 설정하고 , α, β는 초점 손실에 대한 하이퍼파라미터 (hyperparameter)이고, 본 발명에서는 α는 2를, β는 4를 각각 적용하였다.

입력영상의 해상도를 4배율로 다운 샘플링하였기 때문에 공간 정보가 손상된다. 오프셋 항이 이를 보상한다. 오프셋 손실은 식 (12)와 같이 L1 손실을 통해 최적화된다.

. 식(12)

. 식(13)

마지막으로 경계 박스의 너비와 높이가 최적화된다. 식 (13)과 같이 L1 Loss를 이용하여 최적화하였다. 오프셋 손실 및 크기 손실은 중심점 위치에서만 계산되었다. P_xy는 다운샘플링 전의 포인트 위치이다. S_k는 경계 박스의 너비와 높이이다.

오프셋 손실과 크기 손실의 기능은 L1 손실을 사용하여 큰 오차의 경우에 큰 영향을 받지 않는다는 것이다. 마찬가지로 모서리 점에 있어서도 모서리 점 각각에 대해 식 (11)을 사용하여 손실을 계산한다. L1 손실은 코너 포인트의 좌표와 오프셋을 찾는 데 사용된다. 마지막으로 가중치를 고려하여 조인트 로스 (Joint Loss) 함수를 생성하여 6개의 손실 함수를 구축한다. 우리는 실험에서 가중치 인자 λ_size = 0.05, λ_{off, c} = 0.05, λ_coord = 1 로 설정하였다.

식(14)

- 번호판 인식 단계:

손실 함수를 인식하기 위해 식 (15)에서 크로스 엔트로피 로스 (cross entropy loss)를 채택하였다. 여기서 yj는 참값을 나타내고 Pj는 예측값을 의미한다.

. 식(15)

<실험 (Experiments)>

- 데이터셋 및 세팅 (Datasets and Setting)

CCPD(Chinese City Parking Dataset) : 감지 및 인식 성능을 향상시키기 위해서는 학습을 위한 대규모 데이터 세트가 필수적이다. 이러한 데이터를 수동으로 수집하는 것은 시간과 비용이 많이 들 수 있다. 최근 공개된 CCPD 데이터는 총 250k 크기의 차량 번호파 이미지다. 중국에서 수집된 이 데이터 세트에는 ccpd-base, ccpd-weather (눈이 오는 날씨와 같이 비정상적인 날씨에 촬영된 이미지), ccpd-tilt (차량 번호판의 이미지가 경사지게 촬영된 경우), ccpd-rotate (차량 번호판의 이미지가 회전되어 촬영된 경우), ccpd-fn, ccpd-db (어두운 곳에서 촬용 되어 채도, 명도 등이 매우 불량한 경우) 및 ccpd-challenge (인식이 어려운 경우) 의 7개 세트가 포함되어 있다. ccpd-base의 절반은 학습용으로 사용되었고 나머지 100k 및 기타 하위 데이터셋은 테스트에 사용되었다.

AOLP(Application-Oriented License Plate) : AOLP는 2,049개의 대만 번호판 이미지로 구성된다. AC (access control, 681개 이미지), LE(law enforcement, 757개 이미지) 및 RP(road patrol, 611개 이미지)의 세 가지 하위 데이터 세트로 나우어진다. 구체적으로 AC는 차량이 일정한 통로를 감속 또는 정차한 상태에서 통과하는 경우, LE는 도로변 카메라에 차량이 찍힌 경우, RP는 움직이는 다른 차량에 의해 차량이 캡처되는 경우를 의미한다. 이 데이터 세트는 제안된 네트워크가 큰 데이터셋뿐만 아니라 상대적으로 작은 데이터셋에 대해 강력하게 작동함을 입증하는 데 사용됩니다. 2k 이미지의 절반은 학습에 사용되고 나머지는 테스트에 사용되었다.

VBLPD(베트남 자전거 번호판 데이터 세트) : 제안된 네트워크의 레이아웃 독립성을 입증하기 위해 두 줄로 된 베트남 오토바이 자동차 데이터셋이 사용되었다. 숫자 영역의 위치에 대한 정답값만 제공되기 때문에 텍스트에 대한 라벨링을 수동으로 추가하였다. 주차장에서 얻은 총 2,000장의 오토바이 차량 번호판 이미지의 절반은 학습용으로, 나머지 절반은 테스트용으로 사용되었다.

KHPC(Korea Handicap Parking Card): 차량 번호판 이외의 감지-인식 순차 방식에서 표시 문자 문제에 제안된 네트워크의 적용 가능성을 검증하기 위한 데이터셋입이다. 핸디캡카드는 우리나라 장애인용 주차카드로 흰색과 노란색이 있으며 중앙부분에 0부터 9까지의 4자리 숫자가 있다. 카드 중앙에 있는 4자리 숫자를 인식하는 것이 문제이다. 실제 데이터 수집의 어려움으로 인해 20k 가상 이미지와 0.5k 수집된 실제 데이터를 사용하여 데이터 합성을 통해 학습했으며 수집된 실제 데이터 중 0.5k만 테스트용으로 사용하였다.

모든 실험은 Intel i-99900k CPU와 NVIDIA QUADRO 8000 GPU를 사용하여 수행되었다. 우리의 신경망은 Adam 옵티마이저 (Optimizer)를 사용하여 훈련되었으며 실행률은 초기에 0.001로 설정되었다가 지수 전략에 의해 감소되었다. 또한 데이터 증대 기법 (data augmentation technique)을 사용하여 과적합 (overfitting)을 방지한다. 그리고 데이터 증대 방법 (data augmentation technique)을 위해 transition, rotation (-20° ~ +20°), color jitter, blur를 적용한다(<표 3> 참조).

Sub-Dataset	Quantity	Description
CCPD-base1 (training)	100k	Images of cars in common scenes
CCPD-base2 (testing)	100k	Images of cars in common scenes
CCPD-weather	10k	Images taken on a rainy day, snow day or fog day
CCPD-tilt	30k	Images at horizontal tilt and vertical tilt
CCPD-rotate	10k	Images at horizontal rotate
CCPD-fn	20k	Images obtained from a relatively far or near
CCPD-db	10k	Images obtained in dark or extremely bright places
CCPD-challenge	50k	The most challenging image

- 평가 기준 (Evaluation Criterion)

검출 정확도 (DA, Detection Accuracy)를 측정하기 위해 IoU 를 사용하여 모델에서 예측한 실제 경계 박스와 경계 박스의 중첩 영역 값을 계산하였다. 겹치는 영역이 임계값보다 크거나 같으면 TD (True Detection)로 정의하고, 그렇지 않으면 FD (False Detection)로 정의한다. 검출 정확도의 성능은 λ = 0.7을 기준으로 평가되었다.

. 식(16)

인식 정확도 (RA, Recognition Accuracy)는 True Detection 패치에 대해서만 평가되었다. 정확도는 식 (17)과 같이 계산되었다. 일치하는 문자는 문자가 모델에 의해 올바르게 예측되었음을 의미한다.

(%). 식(17)

<결과>

- CCPD에서의 결과 (Results on CCPD

CCPD 데이터에 대한 검출 결과 및 인식 결과는 각각 <표 4> 및 <표 5>에 나타내었다. 비교를 위해 전통적인 실험도 종래 방법을 사용하여 수행하였다. 기존의 에지 감지 알고리즘 (Edge detection Algorithm)은 차량 번호판의 위치를 감지하고 자른다. 히스토그램의 피크(peak)와 밸리(valley)를 사용하여 차량 번호판 문자를 분할하고 2개의 SVM 분류기를 학습하여 차량 번호판의 대상 지방 및 기타 문자를 인식한다.

MTCNN + LPRnet은 경량의 오픈 소스 ALPR 프레임워크이다. 차량 번호판 영역은 MTCNN을 사용하여 감지되었다. 문자 인식은 LPRnet을 사용하여 수행되었다.

WPOD + OCR 은 OCRnet을 통해 인식을 수행하는 매우 새로운 신경망이다.

RPnet 은 매우 우수한 종단 간(end-to-end) 탐지 및 인식 신경망이다.

SLPnet 은 최근 제안된 suffle block 기반 LPDR 방법론이다.

플레이트 감지는 종단 간(end-to-end) 형식으로 앵커 프리 방식으로 수행된 다음 관심 영역을 잘라서 인식한다.

위의 방법들은 CCPD 데이터 중 베이스(base)에 대한 성능을 제공한다.

본 발명에 따른 번호판 인식 시스템((1000), 필요에 따라 ‘네트워크’라 함)는 98.56%의 검출 정확도와 87.36%의 인식 정확도를 기록하였다.

본 발명에 따른 번호판 인식 시스템(1000)은 하나의 이미지에 대해 하나의 예측 경계 박스를 생성하여 소수의 거짓 양성(small number of false-positives)으로 고성능을 시연하였다.

이 실험 데이터에서 알 수 있는 바와 같이 충분한 데이터를 활용할 수 있다면 어텐션 기반 문자 추론을 사용하면 CTC 손실을 사용하는 기존의 문자 추론 방법과 달리 잡음이 있거나 왜곡된 문자에서도 고성능을 얻을 수 있었다. 학습 시 소량의 하위 데이터 세트를 추가하여 학습에 전이 학습을 사용하면 더 높은 성능이 가능할 것으로 기대된다.

또한 본 발명에 따른 번호판 인식 시스템(1000)은 종단 간 방식으로 시스템을 훈련하고 비디오 또는 응용 프로그램과 같은 더 다양한 시나리오에서 사용하도록 확장할 수 있을 것이다.

Method	Base (%)	weather (%)	tilt (%)	rotate (%)	fn (%)	db (%)	challenge (%)	Avg (%)
Edge-based	91.64	91.53	90.29	90.29	90.51	90.38	89.68	90.62
MTCNN	99.69	97.16	96.47	95.14	97.33	96.35	83.27	95.06
WPOD	99.2	98.2	96.3	94.6	94.3	95.1	93.4	95.87
RPnet	99.3	83.6	93.2	94.7	85.3	89.5	92.8	91.2
Ours	99.94	99.49	99.2	99.20	98.02	99.27	94.8	98.56

Method	Base (%)	weather (%)	tilt (%)	rotate (%)	fn (%)	db (%)	challenge (%)	Avg (%)
Edge-based+SVM	81.70	81.40	57.83	53.76	71.53	62.08	61.61	67.13
MTCNN +LPRnet	90.30	91.55	79.95	56.31	90.11	86.89	60.62	79.39
WPOD + OCR	90.76	90.88	91.06	92.21	64.88	82.86	64.40	82.43
RPnet	92.36	89.53	87.83	86.51	65.16	84.43	62.25	81.15
SLPnet	88.14	88.51	83.07	84.06	63.22	75.10	62.97	77.86
Ours	99.83	97.48	88.26	94.11	83.13	73.32	75.38	87.36

Method	AOLP(%)	VBLPD (%)	KHPC (%)
MTCNN + LPRnet	91.35	-	-
WPOD + OCR	94.20	-	-
RPnet	91.85	-	-
Ours	92.30	88.00	99.99

여기서, 본 발명의 여러 실시예를 도시하여 설명하였지만, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 당업자라면 본 발명의 원칙이나 정신에서 벗어나지 않으면서 본 실시예를 변형할 수 있음을 알 수 있을 것이다. 발명의 범위는 첨부된 청구항과 그 균등물에 의해 정해질 것이다.

1000 : 번호판 인식 시스템
1100 : 번호판 검출부 1130 : 검출 특징추출모듈
1150 : 검출 헤드모듈
1300 : 문자 인식부 1330 : 인식 특징추출모듈
1350 : 인식 헤드모듈

Claims

딥러닝을 통해 차량 번호판을 포함하는 번호판 인식 시스템에 있어서,
촬영된 번호판 이미지를 입력하는 입력부와;
상기 입력된 번호판의 이미지를 직사각형 바운딩 박스 (bounding box)와 네 개 모서리의 꼭짓점 좌표를 활용하여 번호판의 경사, 회전을 포함하는 왜곡을 보정 가능하게 학습하여 번호판 위치를 검출하는 번호판 검출부와;
상기 번호판 검출부에 검출된 이미지를 분할하여 어텐션(attention) 기반의 알고리즘을 통해 번호판 내부의 문자를 인식하는 문자 인식부;를 포함하되,
상기 문자 인식부는, 잔여 블록 (Residual Block)을 포함하는 인식 특징추출모듈과, 상기 인식 특징추출모듈에서 입력된 문자의 잔여 디폼어블 블록 (ResDformable Block)을 갖는 디폼어블 어텐션 단계를 (deformable attention stage) 포함하는 인식 헤드모듈을 포함하며,
상기 인식 특징추출모듈은 컨벌루션 연산, 배치 정규화(BN), 최대 풀링, 디폼어블 주의 단계 및 잔여 블록 (Residual Block)을 설정된 인자만큼 배치하여 행렬을 포함하는 숫자로 이루어진 특징맵과 숫자를 통해 각종 연산으로 나타내어지는 신경망의 인자들이 서로 연산되고,
상기 인식 헤드모듈은 상기 인식 특징추출모듈에서 입력된 상기 인식 헤드모듈은 상기 인식 특징추출모듈에서 입력된 상기 특징맵의 정보를 쪼개서 서로간의 관계성을 파악하는 릴레이션 어텐션 (Relation Attention), 평행 어텐션 (Parallel Attention), 문자 디코딩 과정을 포함하는 것을 특징으로 하는 번호판 인식 시스템.
제1항에 있어서,
상기 번호판 검출부는,
딥러닝 신경망의 컨볼류션, 최대 풀링(Max Pooling), 배치정규화(BN), 렐루(ReLU) 함수를 포함하는 활성화함수의 조합을 포함하는 검출 특징추출모듈과,,
직사각형의 중심점, 폭 및 너비를 활용하여 번호판의 상기 바운딩 박스를 검출하는 제1브랜치와 상기 네 개 모서리의 꼭짓점 좌표를 활용하여 번호판을 검출하는 제2브랜치를 포함하는 검출 헤드모듈을 포함하는 것을 특징으로 하는 번호판 인식 시스템.
삭제
제2항에 있어서,
상기 제1브랜치는 상기 검출 특징추출모듈에서 입력된 이미지의 중심점의 히트맵을 생성하는 과정과, 상기 직사각형의 폭과 높이를 설정하는 과정과, 오프셋 (offset)을 산출하는 과정을 포함하는 것을 특징으로 하는 번호판 인식 시스템.
제2항에 있어서,
상기 제2브랜치는 상기 검출 특징추출모듈에 입력된 이미지에서 상기 직사각형의 히트맵을 생성하는 과정과, 상기 네 개의 꼭짓점 좌표를 설정된 방향에 대하여 순차적으로 검출하는 과정과, 오프셋 (offset)을 산출하는 과정을 포함하는 것을 특징으로 하는 번호판 인식 시스템.
삭제
삭제
삭제