KR102064974B1

KR102064974B1 - 블럽 기반의 문자 인식 방법 및 이를 위한 장치

Info

Publication number: KR102064974B1
Application number: KR1020170165830A
Authority: KR
Inventors: 김계경; 강상승; 김재홍; 신성웅; 조재민; 표지형
Original assignee: 한국전자통신연구원
Priority date: 2017-08-03
Filing date: 2017-12-05
Publication date: 2020-01-10
Also published as: KR20190015064A

Abstract

블럽 기반의 문자 인식 방법 및 이를 위한 장치가 개시된다. 본 발명의 일실시예에 따른 문자 인식 방법은 학습 영상을 기반으로 배경 및 조명 중 적어도 하나의 영향을 제거한 전처리 영상을 획득하고, 블럽(blob)의 기하학적 형태 분석을 기반으로 전처리 영상에서 문자 영역에 상응하는 복수개의 블럽들을 검출하고, 개별 블럽, 결합 블럽 및 분리 블럽 중 적어도 하나의 형태를 고려하여 복수개의 블럽들을 문자 유형 별로 분류하고, 학습 영상에서 인식될 것으로 예상되는 문자를 고려하여 문자 유형 별로 분류된 복수개의 블럽들 중 학습 대상 블럽을 추출하고, 학습 대상 블럽의 특징 벡터를 추출하여 문자 인식 모델을 학습시키고, 문자 인식 모델을 기반으로 입력 영상에서 문자를 인식한다.

Description

블럽 기반의 문자 인식 방법 및 이를 위한 장치 {METHOD FOR RECOGNITING CHARACTER BASED ON BLOB AND APPARATUS USING THE SAME}

본 발명은 실환경에서 입력된 영상으로부터 문자를 인식하는 기술에 관한 것으로, 특히 블럽(Blob)들의 기하학적인 형태 분석을 통해 문자 영역을 검출한 뒤 블럽들을 분할 및 결합하는 방식으로 문자를 인식하는 블럽 기반의 문자 인식 방법 및 이를 위한 장치에 관한 것이다.

실제 환경에서 획득한 각종 문서 영상에서 문자를 인식하는 기술은 개인 정보를 취급하는 각종 금융권, 공공 기관 또는 사용자에게 편의를 제공하기 위한 서비스 등의 목적으로 최근 수요가 급증하고 있다. 문서 영상 인식 기술은 개인 정보 자동 추출 및 마스킹, 보안 카드 또는 신용 카드 인식, 스팸 영상 차단과 같이 문서 영상 내에 포함된 특정 문자 영역에 대한 인식, 차단 및 분류에 사용되거나, 문서 영상 내의 문자를 인식하여 문자 인식 결과를 자동으로 저장, 편집, 분류하는 등의 다양한 분야에서 사용자의 요구가 증가하고 있다.

실 환경 문서 영상 인식 기술은 문서 영상에서 문자 영역을 정확히 추출하여 인식하는 것이 요구된다. 그러나, 실제 환경에서 제공되는 문서의 경우 문서의 구조나 형태, 문자 폰트, 크기가 다양할 뿐만 아니라 문서 영상에 복잡한 배경이 포함되어 있거나 주변 조명 영향으로 인해 원본 문서 영상 정보가 왜곡되거나 소실되는 경우가 흔히 발생한다. 그러므로, 실제 주변 환경에서 제공되는 문서 영상을 인식하여 안정된 인식 성능을 도출해 내는 것은 상당히 어렵다. 범용 문자 인식 상용 솔루션 제품이 국외에서 개발되어 국내 문자 인식을 위한 솔루션으로 사용되고 있지만 복잡한 배경, 주변 조명 영향, 다양한 문서 구조, 다양한 문자 폰트나 크기가 포함된 문서 영상에 대한 인식 결과는 여전히 저조한 편이다.

최근 개인 정보 보호 정책이 강화되면서 각 기관에서 보유하고 있는 문서에 포함된 개인 정보를 자동으로 추출하여 마스킹하는 요구가 증대되고 있지만, 각종 문서에 포함된 개인 정보는 문서의 종류에 따라 다양한 위치에 나타난다. 또한, 다양한 환경에서 획득한 문서 영상의 경우, 화질이 저조하거나 문서 정보 왜곡 또는 소실로 인하여 개인 정보 영역을 자동으로 추출하여 마스킹하는 것은 어려운 기술로 알려져 있으며 인식 성능 또한 저조한 편이다.

그러나, 금융 기관 또는 각종 공공 기관에서 보유하고 있는 개인 정보 문서는 그 양이 방대해서 수작업으로 개인 정보를 마스킹하는데 수 십년의 시간이 요구됨에 따라, 이러한 각종 문서에서 개인 정보를 자동으로 마스킹 또는 저장할 수 있는 문자 인식 기술이 요구된다. 국내에서는 개인 정보를 자동으로 추출하여 마스킹하는 상용 솔루션이 제대로 개발이 되어 있지 않아 국외 상용 제품을 사용하고 있는 실정이며, 국외 상용 솔루션 제품 중에서도 신분증에서 개인 정보를 자동으로 마스킹하는 기술은 개발되어 제공하고 있지만 다양한 형태의 각종 공문서에서 개인 정보 자동 추출 및 마스킹하는 기술은 제공되지 않고 있다. 그럼에도 불구하고 각종 금융권이나 공공 기관에서는 개인 정보 마스킹에 대한 기술 수요가 증가하여 개인 정보 자동 마스킹 기술 개발에 대한 투자가 활발히 이루어지고 있다.

따라서, 각종 공문서 자동 편집, 분류, 개인 정보 자동 추출 및 마스킹, 특정 문자가 포함된 영상의 자동 분류, 사용자 편의 제공 서비스 등에 활용할 수 있고, 다양한 형태의 각종 문서나 복잡 배경 또는 조명 변화에도 안정된 문자 인식 결과를 도출할 수 있는 문자 인식 기술에 대한 개발이 요구된다.

한국 공개 특허 제10-2012-0020711호, 2012년 3월 8일 공개(명칭: 물체 인식 시스템 및 그 물체 인식 방법)

본 발명의 목적은 배경, 조명, 문서의 형태나 구조 및 영상 획득 환경 등에 영향을 받지 않고 문자를 인식하는 것이다.

또한, 본 발명의 목적은 인식된 결과를 이용하여 각종 문서에서 개인 정보를 자동으로 마스킹함으로써 개인정보보호를 위한 작업의 효율을 증대시키는 것이다.

또한, 본 발명의 목적은 문자 인식 시스템의 인식 성능을 저하시키는 요인을 최소화하여 문자 인식 성능을 향상시키는 것이다.

또한, 본 발명의 목적은 실환경에서 획득한 문서 영상에 대한 문자 인식 시스템의 활용도를 증대시키는 것이다.

또한, 본 발명의 목적은 안정적이고 신뢰성 있는 문자 인식 결과를 사용자에게 제공함으로써 고품질의 서비스를 사용자에게 제공하는 것이다.

상기한 목적을 달성하기 위한 본 발명에 따른 문자 인식 방법은 학습을 위해 입력되는 학습 영상을 기반으로 배경 및 조명 중 적어도 하나의 영향을 제거한 전처리 영상을 획득하는 단계; 블럽(blob)의 기하학적 형태 분석을 기반으로 상기 전처리 영상에서 문자 영역에 상응하는 복수개의 블럽들을 검출하고, 개별 블럽, 결합 블럽 및 분리 블럽 중 적어도 하나의 형태를 고려하여 상기 복수개의 블럽들을 문자 유형 별로 분류하는 단계; 상기 학습 영상에서 인식될 것으로 예상되는 문자를 고려하여 상기 문자 유형 별로 분류된 복수개의 블럽들 중 학습 대상 블럽을 추출하는 단계; 및 상기 학습 대상 블럽의 특징 벡터를 추출하여 문자 인식 모델을 학습시키고, 상기 문자 인식 모델을 기반으로 문자 인식을 위해 입력되는 입력 영상에서 문자를 인식하는 단계를 포함한다.

이 때, 전처리 영상을 획득하는 단계는 상기 다중 입력 영상에 상응하게 입력되는 상기 학습 영상에 대해 그림자 영향 제거 알고리즘 및 복잡 배경 제거 알고리즘 중 적어도 하나를 적용하는 단계; 및 상기 알고리즘이 적용된 학습 영상에 대해 문자의 획을 선명하게 강조하는 영상 처리 과정을 수행하는 단계를 포함할 수 있다.

이 때, 분류하는 단계는 이진화를 기반으로 상기 전처리 영상을 블럽화하고, 문자에 상응하지 않는 블럽을 삭제하여 상기 복수개의 블럽들을 검출하는 단계를 포함할 수 있다.

이 때, 분류하는 단계는 상기 복수개의 블럽들 각각에 대해 상기 개별 블럽, 상기 결합 블럽 및 상기 분리 블럽 중 적어도 하나의 형태를 생성하는 단계; 및 상기 개별 블럽, 상기 결합 블럽 및 상기 분리 블럽 중 적어도 하나가 복수개의 문자 유형들 중 어느 유형에 상응하는지 판단하는 단계를 포함할 수 있다.

이 때, 추출하는 단계는 상기 학습 영상에서 인식될 것으로 예상되는 문자에 상응하는 문자열 길이 및 문자 유형 중 적어도 하나의 정보를 고려하여 상기 학습 대상 블럽을 추출할 수 있다.

이 때, 인식하는 단계는 상기 입력 영상에서 상기 학습 대상 블럽을 추출하는 과정과 동일한 방식으로 인식 대상 블럽을 추출하는 단계; 및 상기 문자 인식 모델을 기반으로 상기 인식 대상 블럽에서 인식한 문자를 출력하는 단계를 포함할 수 있다.

이 때, 특징 벡터는 상기 학습 대상 블럽을 기반으로 추출되는 구조적 특징 정보 및 통계적 특징 정보 중 적어도 하나를 기반으로 추출될 수 있다.

이 때, 인식하는 단계는 상기 학습 영상을 기반으로 상기 학습 대상 블럽을 반복적으로 추출하여 문자 별 학습 데이터 셋을 생성하는 단계; 및 상기 문자 별 학습 데이터 셋을 기반으로 상기 특징 벡터를 추출하여 상기 문자 인식 모델을 학습시키는 단계를 포함할 수 있다.

이 때, 문자 인식 방법은 입력 센서를 기반으로 상기 학습 영상 및 입력 영상 중 적어도 하나를 획득하는 단계를 더 포함할 수 있다.

또한, 본 발명의 일실시예에 따른 문자 인식 장치는, 학습을 위해 입력되는 학습 영상을 기반으로 배경 및 조명 중 적어도 하나의 영향을 제거한 전처리 영상을 획득하고, 블럽(blob)의 기하학적 형태 분석을 기반으로 상기 전처리 영상에서 문자 영역에 상응하는 복수개의 블럽들을 검출하고, 개별 블럽, 결합 블럽 및 분리 블럽 중 적어도 하나의 형태를 고려하여 상기 복수개의 블럽들을 문자 유형 별로 분류하고, 상기 학습 영상에서 인식될 것으로 예상되는 문자를 고려하여 상기 문자 유형 별로 분류된 복수개의 블럽들 중 학습 대상 블럽을 추출하고, 상기 학습 대상 블럽의 특징 벡터를 추출하여 문자 인식 모델을 학습시키고, 상기 문자 인식 모델을 기반으로 문자 인식을 위해 입력되는 입력 영상에서 문자를 인식하는 프로세서; 및 상기 문자 인식 모델을 저장하는 메모리를 포함한다.

본 발명에 따르면, 배경, 조명, 문서의 형태나 구조 및 영상 획득 환경 등에 영향을 받지 않고 문자를 인식할 수 있다.

또한, 본 발명은 인식된 결과를 이용하여 각종 문서에서 개인 정보를 자동으로 마스킹함으로써 개인정보보호를 위한 작업의 효율을 증대시킬 수 있다.

또한, 본 발명은 문자 인식 시스템의 인식 성능을 저하시키는 요인을 최소화하여 문자 인식 성능을 향상시킬 수 있다.

또한, 본 발명은 실환경에서 획득한 문서 영상에 대한 문자 인식 시스템의 활용도를 증대시킬 수 있다.

또한, 본 발명은 안정적이고 신뢰성 있는 문자 인식 결과를 사용자에게 제공함으로써 고품질의 서비스를 사용자에게 제공할 수 있다.

도 1은 본 발명의 일실시예에 따른 블럽 기반의 문자 인식 방법을 나타낸 동작 흐름도이다.
도 2는 본 발명의 일실시예에 따른 문자 인식 시스템의 흐름을 나타낸 도면이다.
도 3 내지 도 4는 본 발명에 따른 문자 분할 시스템과 시스템을 이용한 문자 분할 결과의 일 예를 나타낸 도면이다.
도 5는 본 발명에 따른 학습 데이터 셋의 일 예를 나타낸 도면이다.
도 6은 본 발명에 따라 블럽을 문자 유형 별로 분류하는 과정의 일 예를 나타낸 도면이다.
도 7는 본 발명에 따라 문자의 특징을 추출하는 과정의 일 예를 나타낸 도면이다.
도 8 내지 도 9는 본 발명의 일실시예에 따른 문자 인식 과정의 흐름을 나타낸 도면이다.
도 10은 본 발명의 일실시예에 따른 문자 인식 장치를 나타낸 블록도이다.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일실시예에 따른 블럽 기반의 문자 인식 방법을 나타낸 동작 흐름도이다.

도 1을 참조하면, 본 발명의 일실시예에 따른 블럽 기반의 문자 인식 방법은 학습을 위해 입력되는 학습 영상을 기반으로 배경 및 조명 중 적어도 하나의 영향을 제거한 전처리 영상을 획득한다(S110). 실제 환경에서의 배경이나 조명의 영상은 문자 인식 시스템의 성능을 저하시키는 요인으로 작용하기 때문에 인식률을 저하시키는 주변 환경 요인을 최소화하는 전처리 과정을 통해 인식 성능을 향상시킬 수 있도록 할 수 있다.

이 때, 학습 영상은 카메라나 스캐너를 통해 획득한 문서 영상 또는 컴퓨터를 통해 영상으로 저장된 각종 문서 영상에 해당할 수 있다.

이 때, 다중 입력 영상에 상응하게 입력되는 학습 영상에 대해 그림자 영향 제거 알고리즘 및 복잡 배경 제거 알고리즘 중 적어도 하나를 적용할 수 있다.

이 때, 실제 환경에서의 문서는 형태나 종류 및 재질이 다양하기 때문에 인식 성능을 향상시키기 위해서 다중 입력 영상을 획득하여 학습 영상을 생성할 수 있다. 또한, 학습 영상을 획득하는 과정에서 복잡한 배경이 포함되거나 조명에 의해 영향을 받는 경우, 문자 영역을 추출하는데 오류가 발생할 수 있으므로 이에 대한 영향을 최소화하기 위해서 다중 입력 영상을 획득할 수도 있다.

이 때, 알고리즘이 적용된 학습 영상에 대해 문자의 획을 선명하게 강조하는 영상 처리 과정을 수행할 수 있다.

이 때, 그림자 영향을 제거하기 위한 알고리즘, 복잡 배경을 제거하기 위한 알고리즘 및 문자의 획을 선명하게 강조하는 영상 처리 과정은 특정한 방법에 한정되지 않고 적용 가능한 다양한 방법을 이용할 수 있다.

또한, 본 발명의 일실시예에 따른 블럽 기반의 문자 인식 방법은 블럽(Blob)의 기하학적 형태 분석을 기반으로 전처리 영상에서 문자 영역에 상응하는 복수개의 블럽들을 검출하고, 개별 블럽, 결합 블럽 및 분리 블럽 중 적어도 하나의 형태를 고려하여 복수개의 블럽들을 문자 유형 별로 분류한다(S120).

예를 들어, 복수개의 블럽들을 숫자, 기호, 한글, 영어 등과 같은 문자의 유형 별로 분류할 수 있다.

이 때, 이진화를 기반으로 전처리 영상을 블럽화하고, 문자에 상응하지 않는 블럽을 삭제하여 복수개의 블럽들을 검출할 수 있다. 예를 들어, 전처리 영상을 블럽화한 전체 영역들 중에서 문자의 획이 검출되지 않는 문자 이외의 영역을 잡음으로 간주하여 제거할 수 있다.

이 때, 복수개의 블럽들 각각에 대해 개별 블럽, 결합 블럽 및 분리 블럽 중 적어도 하나의 형태를 생성할 수 있다.

이 때, 개별 블럽, 결합 블럽 및 분리 블럽 중 적어도 하나가 복수개의 문자 유형들 중 어느 유형에 상응하는지 판단할 수 있다.

이 때, 블럽의 기하학적인 형태, 즉 구조적인 형태를 분석하여 각 블럽의 유형을 판단할 수 있다.

예를 들어, 개별 블럽의 경우, 각각의 개별 블럽의 기하학적 형태와 이웃하는 블럽과 개별 블럽이 연결된 형태 등을 분석하여 개별 블럽의 유형을 숫자, 기호, 한글의 자음과 모음 및 영어 등으로 분류할 수 있다.

다른 예를 들어, 이웃하는 연속된 개별 블럽에 대해 결합 및 분할을 수행하여 결합 블럽이나 분리 블럽 등을 선정하고, 이들을 각각 숫자, 기호, 한글 및 영어 등의 유형으로 분류할 수 있다. 이 과정에서 이웃하는 블럽의 형태를 분석하여 개별 블럽들을 결합하거나, 개별 블럽을 여러 개의 블럽들로 분할할 수 있다.

이 때, 블럽 형태에 기반한 분석 방법은 특정 문자 영역에 해당되는 문자 인식 분야뿐만 아니라 전문 문자 인식 시스템의 문자 인식 분야에도 적용된다. 예를 들어, 한영 혼용 문자 인식과 같이 문자의 유형이 서로 혼재되어 있는 문서 인식에 있어서, 개별 블럽의 사전 블럽 유형 분류를 통해 이웃하는 블럽이 결합해야 하는 한글 블럽 인지 또는 이웃하는 문자 블럽을 서로 분리하여 인식해야 하는 영어 블럽인지를 구별하여 인식하는데 이용할 수 있다. 이와 같은 개별 블럽들의 유형 분류를 통해 한 글자에 해당하는 개별 문자 블럽으로 선택하여 문자 영역을 분할하여 인식하는데 효과적으로 적용할 수 있으므로 인식 성능을 높이는 결과를 나타낼 수 있다.

또한, 본 발명의 일실시예에 따른 블럽 기반의 문자 인식 방법은 학습 영상에서 인식될 것으로 예상되는 문자를 고려하여 문자 유형 별로 분류된 복수개의 블럽들 중 학습 대상 블럽을 추출한다(S130).

예를 들어, 학습 영상이 개인정보에 관련된 문서라고 가정한다면, 학습 영상에서 인식될 것으로 예상되는 문자는 개인의 이름이나 주민등록번호와 같은 문자일 가능성이 있다. 따라서, 한글이나 한문 또는 숫자 등의 문자를 고려하여 학습 대상 블럽을 추출할 수 있다.

다른 예를 들어, 학습 영상이 영어로 된 문서에 해당한다면, 학습 영상에서 인식될 것으로 예상되는 문자도 당연히 영어이므로, 영어로 된 학습 대상 블럽을 추출할 수 있다.

이 때, 학습 영상에서 인식될 것으로 예상되는 문자에 상응하는 문자열 길이 및 문자 유형 중 적어도 하나의 정보를 고려하여 학습 대상 블럽을 추출할 수 있다. 이와 같이 예상되는 문자의 정보를 고려하여 학습 대상 블럽을 추출함으로써 문자 인식 속도나 성능면에서 향상된 결과를 나타낼 수 있다.

예를 들어, 학습 영상에서 찾고자 하는 문자가 개인의 휴대전화번호일 경우에는 문자열 길이가 'XXX-XXXX-XXXX'에 상응하는 숫자 유형의 블럽을 학습 대상 블럽으로 추출할 수 있다.

다른 예를 들어, 학습 영상에서 찾고자 하는 문자가 주민등록번호일 경우, 문자열의 길이가 'XXXXXX-XXXXXXX'에 상응하는 숫자 유형의 블럽을 학습 대상 블럽으로 추출할 수도 있다.

또한, 본 발명의 일실시예에 따른 블럽 기반의 문자 인식 방법은 학습 대상 블럽의 특징 벡터를 추출하여 문자 인식 모델을 학습시키고, 문자 인식 모델을 기반으로 문자 인식을 위해 입력되는 입력 영상에서 문자를 인식한다(S140).

이 때, 특징 벡터는 학습 대상 블럽을 기반으로 추출되는 구조적 특징 정보 및 통계적 특징 정보 중 적어도 하나를 기반으로 추출될 수 있다.

이 때, 학습 대상 블럽에서 추출한 특징 벡터를 선택적으로 결합하여 문자 인식에 최적인 특징 벡터를 생성할 수도 있다.

이 때, 학습 영상을 기반으로 학습 대상 블럽을 반복적으로 추출하여 문자 별 학습 데이터 셋을 구성하고, 문자 별 학습 데이터 셋을 기반으로 특징 벡터를 추출하여 문자 인식 모델을 학습시킬 수 있다.

예를 들어, 실제 환경에서 스캐너나 카메라와 같은 다양한 입력 센서를 통해 각종 문서를 획득하여 다양한 학습 영상을 생성할 수 있다. 이와 같이 생성된 다양한 학습 영상을 통해 추출된 다양한 학습 대상 블럽으로 하나의 문자에 대한 학습 데이터 셋을 구성할 수 있고, 학습 데이터 셋에서 해당 문자에 대한 특징 벡터를 추출할 수 있다.

이 때, 입력 영상에서 학습 대상 블럽을 추출하는 과정과 동일한 방식으로 인식 대상 블럽을 추출할 수 있다. 이 때, 입력 영상은 문자 인식 모델을 학습시키기 위한 영상이 아니고 실제로 문자 인식이 필요해서 입력된 인식 대상 영상에 해당할 수 있다.

예를 들어, 입력 영상에 그림자 영향 제거 알고리즘, 복잡 배경 제거 알고리즘 및 문자의 획을 선명하게 강조하는 영상 처리 과정을 적용하여 전처리 영상을 생성하고, 전처리 영상에서 검출된 복수개의 블럽들을 문자 유형 별로 분류한 뒤 학습 대상 블럽과 같은 인식 대상 블럽을 추출할 수 있다.

이 때, 입력 영상에서 인식될 것으로 예상되는 문자의 유형을 본 발명의 일실시예에 따른 문자 인식 장치, 문자 인식 시스템 또는 문자 인식 어플리케이션 등에 따라 선택적으로 부여함으로써 선택적 문자 인식 기능을 수행할 수 있도록 할 수 있다.

이 때, 문자 인식 모델을 기반으로 인식 대상 블럽에서 인식한 문자를 출력할 수 있다. 예를 들어, 본 발명의 일실시예에 따른 문자 인식 장치에 포함되거나 연동된 디스플레이를 통해 인식 결과를 보여줄 수 있다.

또한, 도 1에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 블럽 기반의 문자 인식 방법은 입력 센서를 기반으로 학습 영상 및 입력 영상 중 적어도 하나를 획득할 수 있다.

예를 들어, 카메라나 스캐너 또는 문자 영상을 작성할 수 있는 컴퓨터 등이 입력 센서로 사용될 수 있다.

또한, 도 1에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 블럽 기반의 문자 인식 방법은 문자 인식을 위해 필요한 정보를 송수신할 수 있다. 특히, 본 발명에서는 문자 인식을 위해 입력 센서로부터 학습 영상 및 입력 영상 중 적어도 하나를 수신하거나, 인식 결과를 별도의 디스플레이 장치로 제공할 수도 있다.

또한, 도 1에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 블럽 기반의 문자 인식 방법은 상술한 문자 인식 과정에서 발생하는 다양한 정보를 저장한다.

본 발명에 따른 문자 인식 방법은 실제 다양한 환경에서 획득한 문서 영상이나 문자 형태 변화에 유연하게 적용할 수 있는 기술로써, 수작업으로 문서 영상에 포함된 문자를 입력하거나 개인 정보 등과 같은 특정 문자 영역을 마스킹하는데 드는 시간 및 인력을 절감할 수 있다.

이와 같은 블럽 기반의 문자 인식 방법을 통해, 배경, 조명, 문서의 형태나 구조 및 영상 획득 환경 등에 영향을 받지 않고 문자를 인식할 수 있다.

또한, 문자 인식 시스템의 인식 성능을 저하시키는 요인을 최소화하여 문자 인식 성능을 향상시킬 수 있으며, 안정적이고 신뢰성 있는 문자 인식 결과를 사용자에게 제공함으로써 고품질의 서비스를 사용자에게 제공할 수도 있다.

도 2는 본 발명의 일실시예에 따른 문자 인식 시스템의 흐름을 나타낸 도면이다.

도 2를 참조하면, 본 발명의 일실시예에 따른 문자 인식 시스템은 입력 센서(210)를 이용하여 각종 문서 영상을 획득할 수 있다.

예를 들어, 단계(S210)과 같이 문서 인식 모델의 학습을 위한 학습 영상을 획득하거나, 단계(S250)과 같이 실제 문자 인식을 수행할 대상인 입력 영상을 획득할 수 있다.

이 때, 단계(S210)에서는 주변 배경이나 조명의 영향을 최소화하기 위해, 다중 영상을 획득할 수 있고, 다중 영상 전처리 과정을 통해 다중 영상을 결합한 학습 영상을 생성할 수 있다.

이 때, 문자 영역에 해당되지 않는 영역을 잡음으로 간주하여 잡음 제거를 수행한 이후에 문자 영역에 대해 윤곽선 강조 알고리즘을 수행하여 문자 영역을 강조할 수 있다.

예를 들어, 도 3에 도시된 것과 같이, 본 발명의 일실시예에 따른 문자 인식 시스템을 통해 학습 영상이 입력되는 경우, 도 4에 도시된 것과 같이 문자 영역에 해당하는 블럽만 남기고 나머지는 삭제할 수 있다.

이 후, 단계(S220)에서는 학습 영상에서 블럽의 기하학적인 특성을 추출하여 블럽의 문자 유형 가운데 한가지 유형으로 분류하기 위해 분할 및 결합을 적용할 수 있다.

이 때, 문자 유형은 숫자, 기호, 한글의 자음 또는 모음, 영어 알파벳 등과 같은 문자에 해당할 수 있다. 개별 블럽의 구조적인 형태 특징 정보와 이웃하는 블럽의 상호 기하학적인 형태 특징 정보를 분석하여 개별 블럽들에 대한 문자 유형 분류와 개별 블럽들의 결합을 통한 문자 블럽 생성 및 개별 블럽의 분할을 통한 문자 블럽 생성 방법이 적용될 수 있다. 이 단계에서는 학습 영상에서 블럽들에 대한 구조적인 형태 특징 정보 분석 방법이 적용될 수 있다.

예를 들어, 도 6에 도시된 것과 같이 문자 영역에 해당하는 블럽의 특징을 해석하고, 문자 유형에 따라 개별 블럽들을 결합하거나 개별 블럽을 분할하여 분류할 수 있다.

이 후, 단계(S230)에서는 단계(S220)을 통해 추출된 학습 대상 블럽에 대해 문자의 구조적 형태 특징과 통계적 특징을 추출하고, 문자에 따라 특징 벡터들을 선택적으로 결합하여 문자 별 특징 벡터를 생성할 수 있다.

예를 들어, 학습 대상 블럽에 포함된 문자에 대한 특징은 도 7과 같이 추출될 수 있다. 먼저, 문자 이미지(710)와 같이 이진 이미지를 메쉬(mesh)처리하는 방식으로 특징을 추출할 수 있다. 또한, 문자 이미지(720)와 같이 문자의 윤곽선 이미지를 체인 코드(chain code) 처리하는 방식으로 특징을 추출할 수 있다. 또한, 문자 이미지(730)와 같이 이미지의 종횡비(aspect ratio)를 산출할 수 있다. 또한, 문자 이미지(740)와 같이 단순히 이진화를 수행할 수도 있고, 문자 이미지(750)와 같이 이진화 이미지의 거리를 산출할 수도 있다. 또한, 문자 이미지(760)와 같이 이미지에 포함된 홀(hole)을 인식할 수도 있다.

이 후, 단계(S240)에서는 학습 데이터 셋을 구성하여 문자 인식 모델을 학습 시킬 수 있다. 즉, 문자 인식 모델의 인식 성능을 향상 시키기 위하여 실제 환경과 같이 획득한 학습 영상을 통해 학습 대상 블럽을 추출한 이후, 이를 통해 구성된 학습 데이터 셋으로 문자 인식 모델을 학습시킬 수 있다.

예를 들어, 학습 데이터 셋은 도 5에 도시된 것과 같이 문자 별로 다양하게 추출된 학습 대상 블럽을 기반으로 구성될 수 있으며, 문자 별로 구성된 학습 데이터 셋은 데이터베이스에 저장되어 관리될 수 있다.

이 후, 단계(S250)과 같이 입력 센서(210)를 통해 획득한 입력 영상에 대해 전처리 및 블럽 유형 분석을 통한 블럽의 유형 분류를 수행할 수 있고, 단계(S260)에서는 인식 대상을 유형 별로 선택하여 단계(S270)에서 효율적으로 문자 인식을 수행할 수 있다.

이와 같이, 유형이 분류된 문자 영역의 블럽들을 대상으로 사용자의 인식 목적에 따라 선택적으로 블럽의 유형을 지정하여 문자 인식할 수 있다. 예를 들어, 다양한 문서 영상에서 개인 정보 영역을 검출하여 인식하는 경우에 연속된 숫자열의 길이나 특정 영어 또는 한글과 같은 문자 유형 정보를 이용하여, 문서 영상에 포함된 모든 문자를 인식하는 것이 아니라 선택적으로 문자를 인식하도록 함으로써 인식 속도나 성능면에서 우수한 결과를 가져올 수 있다.

도 8 내지 도 9는 본 발명의 일실시예에 따른 문자 인식 과정의 흐름을 나타낸 도면이다.

도 8 내지 도 9를 참조하면, 본 발명의 일실시예에 따른 문자 인식 과정은 먼저 도 8에 도시된 것처럼 영상을 획득하는 과정(S810)을 통해 인식 대상이 포함된 문서 영상을 획득할 수 있다. 이 때, 문서 영상은 카메라나 스캐너를 통해 획득한 이미지 영상일 수도 있고, 컴퓨터를 통해 작성된 문서파일 또는 도 8에 도시된 것과 같은 캡쳐 화면 이미지에 해당할 수도 있다.

이 후, 획득한 영상에 대해 전처리 과정(S820)을 수행하여 전처리 영상을 생성할 수 있다. 예를 들어, 카메라나 스캐너를 통해 실세계에서 획득한 영상에는 문자 인식 성능에 영향을 줄 수 있는 복잡한 배경이나 조명 효과가 포함되어 있을 수 있다. 따라서, 전처리 과정을 통해 이러한 배경이나 조명의 영향을 삭제하고, 문자의 획을 보다 선명하게 처리하는 과정을 수행함으로써 문자 인식 성능을 향상시킬 수 있다.

또한, 전처리 과정(S820)에서는 배경이나 조명의 영향이 삭제된 영상을 이진화한 뒤 블럽 처리할 수 있는데, 이 때 기하학적 블럽 형태 분석을 기반으로 문자 영역에 해당하는 블럽만을 남기고 나머지는 삭제할 수 있다. 즉, 문자에 해당하지 않는 부분은 인식 대상에서 제외시킴으로써 인식 효율을 향상시킬 수 있다.

이 때, 문자 영역에 해당하는 블럽은 다시 문자 유형에 따라 분류될 수 있는데, 예를 들어, 숫자, 기호, 한글의 모음 또는 자음 및 영어 등의 유형으로 블럽을 분류할 수 있다.

이 후, 도 9에 도시된 것과 같이 문자 영역에 해당하는 블럽을 통해서 문자의 특징을 추출하는 과정(S830)을 수행할 수 있다.

이 때, 문자의 구조적 특징이나 통계적 특징을 추출하여 각 문자에 대한 특징 벡터를 생성할 수 있다.

이 후, 생성한 특징 벡터를 통해 문자 인식 모델을 학습시키고, 학습된 문자 인식 모델을 기반으로 입력 영상에 포함된 문자를 인식하는 과정(S840)을 수행할 수 있다.

이러한 과정을 통해 기존의 문자 인식 시스템에서 주요 오류 원인이 되는 복잡 배경으로부터 문자 영역을 분할하는 문제를 해결할 수 있고, 다양한 공문서 인식 및 선택적 문자 인식을 통해 실제 환경에서 제공되는 문서 영상에 대한 인식률을 개선할 수 있다. 또한, 문서 영상에 존재하는 문자의 블럽 유형 분석을 통해 선택적으로 문자를 분류 및 인식하도록 함으로써 실환경에서 획득한 문서 영상에 대한 문자 인식 시스템의 활용도를 증대할 수 있다.

도 10은 본 발명의 일실시예에 따른 문자 인식 장치를 나타낸 블록도이다.

도 10을 참조하면, 본 발명의 일실시예에 따른 문자 인식 장치는 통신부(1010), 프로세서(1020) 및 메모리(1030)를 포함한다.

통신부(1010)는 문자 인식을 위해 필요한 정보를 송수신하는 역할을 한다. 특히, 본 발명의 일실시예에 따른 통신부(1010)는 문자 인식을 위해 입력 센서로부터 학습 영상 및 입력 영상 중 적어도 하나를 수신하거나, 인식 결과를 별도의 디스플레이 장치로 제공할 수도 있다

프로세서(1020)는 학습을 위해 입력되는 학습 영상을 기반으로 배경 및 조명 중 적어도 하나의 영향을 제거한 전처리 영상을 획득한다. 실제 환경에서의 배경이나 조명의 영상은 문자 인식 시스템의 성능을 저하시키는 요인으로 작용하기 때문에 인식률을 저하시키는 주변 환경 요인을 최소화하는 전처리 과정을 통해 인식 성능을 향상시킬 수 있도록 할 수 있다.

또한, 프로세서(1020)는 블럽(Blob)의 기하학적 형태 분석을 기반으로 전처리 영상에서 문자 영역에 상응하는 복수개의 블럽들을 검출하고, 개별 블럽, 결합 블럽 및 분리 블럽 중 적어도 하나의 형태를 고려하여 복수개의 블럽들을 문자 유형 별로 분류한다.

또한, 프로세서(1020)는 학습 영상에서 인식될 것으로 예상되는 문자를 고려하여 문자 유형 별로 분류된 복수개의 블럽들 중 학습 대상 블럽을 추출한다.

또한, 프로세서(1020)는 학습 대상 블럽의 특징 벡터를 추출하여 문자 인식 모델을 학습시키고, 문자 인식 모델을 기반으로 문자 인식을 위해 입력되는 입력 영상에서 문자를 인식한다.

또한, 프로세서(1020)는 입력 센서를 기반으로 학습 영상 및 입력 영상 중 적어도 하나를 획득할 수 있다.

메모리(1030)는 문자 인식 모델과 상술한 문자 인식 과정에서 발생하는 다양한 정보를 저장한다.

이와 같은 블럽 기반의 문자 인식 장치를 이용함으로써, 배경, 조명, 문서의 형태나 구조 및 영상 획득 환경 등에 영향을 받지 않고 문자를 인식할 수 있다.

이상에서와 같이 본 발명에 따른 블럽 기반의 문자 인식 방법 및 이를 위한 장치는 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

210: 입력 센서 710~760: 문자 이미지
1010: 통신부 1020: 프로세서
1030: 메모리

Claims

학습을 위해 입력되는 학습 영상을 기반으로 배경 및 조명 중 적어도 하나의 영향을 제거한 전처리 영상을 획득하는 단계;
블럽(blob)의 기하학적 형태 분석을 기반으로 상기 전처리 영상에서 문자 영역에 상응하는 복수개의 개별 블럽들을 검출하고, 상기 복수개의 개별 블럽들 각각에 대해 블럽 결합 및 블럽 분할을 수행하여 복수개의 블럽들을 검출하고, 상기 복수개의 블럽들을 각각 숫자, 기호, 한글의 자음 또는 모음 및 영어 알파벳 중 어느 하나의 문자 유형으로 분류하는 단계;
상기 학습 영상의 문서 종류를 고려하여 상기 학습 영상에서 인식될 것으로 예상되는 문자의 예상 문자열 길이 및 예상 문자 유형을 예측하고, 상기 예상 문자열 길이 및 예상 문자 유형을 고려하여 상기 복수개의 블럽들 중 학습 대상 블럽을 추출하는 단계; 및
상기 학습 대상 블럽의 특징 벡터를 추출하여 문자 인식 모델을 학습시키고, 상기 문자 인식 모델을 기반으로 문자 인식을 위해 입력되는 입력 영상에서 문자를 인식하는 단계
를 포함하고,
상기 분류하는 단계는
상기 복수개의 개별 블럽들 각각에 대해 상기 문자 유형, 구조적인 형태 특징 정보 및 이웃하는 블럽과의 상호 기하학적인 형태 특징 정보를 고려하여 상기 블럽 결합 및 블럽 분할을 수행하되, 상기 복수개의 개별 블럽들 중 서로 이웃하면서 상기 문자 유형이 일치하는 적어도 둘 이상의 개별 블럽들을 결합하여 상기 어느 하나의 문자 유형에 상응하는 결합 블럽을 생성하고, 상기 복수개의 개별 블럽들 중 상기 어느 하나의 문자 유형으로 분류되지 않고 혼합된 개별 블럽을 분할하여 서로 다른 문자 유형을 갖는 적어도 둘 이상의 분리 블럽들을 생성하고,
상기 복수개의 블럽들은
개별 블럽, 결합 블럽 및 분리 블럽 중 적어도 하나를 포함하고,
상기 인식하는 단계는
상기 학습 대상 블럽을 추출하는 과정과 동일한 방식으로 상기 입력 영상에서 인식 대상 블럽을 추출하고, 상기 문자 인식 모델을 기반으로 상기 인식 대상 블럽에서 인식한 문자를 출력하는 것을 특징으로 하는 문자 인식 방법.
청구항 1에 있어서,
상기 전처리 영상을 획득하는 단계는
다중 입력 영상에 상응하게 입력되는 상기 학습 영상에 대해 그림자 영향 제거 알고리즘 및 복잡 배경 제거 알고리즘 중 적어도 하나를 적용하는 단계; 및
상기 알고리즘이 적용된 학습 영상에 대해 문자의 획을 선명하게 강조하는 영상 처리 과정을 수행하는 단계를 포함하는 것을 특징으로 하는 문자 인식 방법.
청구항 1에 있어서,
상기 분류하는 단계는
이진화를 기반으로 상기 전처리 영상을 블럽화하고, 문자에 상응하지 않는 블럽을 삭제하여 상기 복수개의 블럽들을 검출하는 단계를 포함하는 것을 특징으로 하는 문자 인식 방법.
삭제
삭제
삭제
청구항 1에 있어서,
상기 특징 벡터는
상기 학습 대상 블럽을 기반으로 추출되는 구조적 특징 정보 및 통계적 특징 정보 중 적어도 하나를 기반으로 추출되는 것을 특징으로 하는 문자 인식 방법.
청구항 1에 있어서,
상기 인식하는 단계는
상기 학습 영상을 기반으로 상기 학습 대상 블럽을 반복적으로 추출하여 문자 별 학습 데이터 셋을 생성하는 단계; 및
상기 문자 별 학습 데이터 셋을 기반으로 상기 특징 벡터를 추출하여 상기 문자 인식 모델을 학습시키는 단계를 포함하는 것을 특징으로 하는 문자 인식 방법.
청구항 1에 있어서,
상기 문자 인식 방법은
입력 센서를 기반으로 상기 학습 영상 및 입력 영상 중 적어도 하나를 획득하는 단계를 더 포함하는 것을 특징으로 하는 문자 인식 방법.
학습을 위해 입력되는 학습 영상을 기반으로 배경 및 조명 중 적어도 하나의 영향을 제거한 전처리 영상을 획득하고, 블럽(blob)의 기하학적 형태 분석을 기반으로 상기 전처리 영상에서 문자 영역에 상응하는 복수개의 개별 블럽들을 검출하고, 상기 복수개의 개별 블럽들 각각에 대해 블럽 결합 및 블럽 분할을 수행하여 복수개의 블럽들을 검출하고, 상기 복수개의 블럽들을 각각 숫자, 기호, 한글의 자음 또는 모임 및 영어 알파벳 중 어느 하나의 문자 유형으로 분류하고, 상기 학습 영상의 문서 종류를 고려하여 상기 학습 영상에서 인식될 것으로 예상되는 문자의 예상 문자열 길이 및 예상 문자 유형을 예측하고, 상기 예상 문자열 길이 및 예상 문자 유형을 고려하여 상기 복수개의 블럽들 중 학습 대상 블럽을 추출하고, 상기 학습 대상 블럽의 특징 벡터를 추출하여 문자 인식 모델을 학습시키고, 상기 문자 인식 모델을 기반으로 문자 인식을 위해 입력되는 입력 영상에서 문자를 인식하는 프로세서; 및
상기 문자 인식 모델을 저장하는 메모리
를 포함하고,
상기 프로세서는
기하학적인 형태 특징 정보를 고려하여 상기 블럽 결합 및 블럽 분할을 수행하되, 상기 복수개의 개별 블럽들 중 서로 이웃하면서 상기 문자 유형이 일치하는 적어도 둘 이상의 개별 블럽들을 결합하여 상기 어느 하나의 문자 유형에 상응하는 결합 블럽을 생성하고, 상기 복수개의 개별 블럽들 중 상기 어느 하나의 문자 유형으로 분류되지 않고 혼합된 개별 블럽을 분할하여 서로 다른 문자 유형을 갖는 적어도 둘 이상의 분리 블럽들을 생성하고, 상기 학습 대상 블럽을 추출하는 과정과 동일한 방식으로 상기 입력 영상에서 인식 대상 블럽을 추출하고, 상기 문자 인식 모델을 기반으로 상기 인식 대상 블럽에서 인식한 문자를 출력하고,
상기 복수개의 블럽들은
개별 블럽, 결합 블럽 및 분리 블럽 중 적어도 하나를 포함하는 것을 특징으로 하는 문자 인식 장치.