KR100923935B1

KR100923935B1 - Ｏｃｒ을 위한 문서 영상의 자동 평가 방법 및 시스템

Info

Publication number: KR100923935B1
Application number: KR1020070121819A
Authority: KR
Inventors: 윤병훈; 강재우; 김원용
Original assignee: 엔에이치엔(주)
Priority date: 2007-11-28
Filing date: 2007-11-28
Publication date: 2009-10-29
Anticipated expiration: 2027-11-28
Also published as: KR20090055087A

Abstract

문자가 포함된 이미지 파일인 문서 영상에 대하여 영상을 인식하는 기술(Optical Character Recognition: OCR)을 사용하여 문자 인식 과정을 수행하기 전에 문자의 인식률을 예상하기 위한 방법 및 시스템으로서, OCR의 문자 인식률과 관련된 문서 영상의 속성을 나타내는 특징 데이터를 추출하여 수치화한 후, 소정의 가중치와 결합하여 예상 문자 인식률을 산출한다. 이에 의하면, 문서 영상의 품질을 인식기가 문자인식 과정을 수행하기 전에 항목별로 점수화하고 이에 해당 가중치들을 적용하여 문서 영상의 예상 인식률을 획득할 수 있으며, 이와 같이 산출된 항목별 점수 및/또는 예상 인식률을 피드백으로 사용자에게 알려주어 사용자가 스캐너의 해상도, 명도를 재설정하거나 문서의 기울임을 교정 할 수 있도록 하거나, 그 다음 단계인 OCR 과정으로 진행할 수 있도록 유도함으로써, 시행착오 없이 보다 좋은 퀄리티로 문자 인식을 수행할 수 있다.

스캐너, 문자 영상 인식, OCR(Optical Character Recognition)

Description

ＯＣＲ을 위한 문서 영상의 자동 평가 방법 및 시스템{METHOD AND SYSTEM FOR EVALUATING DOCUMENT IMAGE AUTOMATICALLY FOR OPTICAL CHARACTER RECOGNITION}

본 발명은 OCR(Optical Character Recognition)을 위한 문서 영상의 자동 평가 방법 및 시스템에 관한 것으로서, 구체적으로는, 문서 영상을 인식하기 전에 문서 영상의 특징을 추출하여 항목별로 수치화하여 평가함으로써 신속하게 문서 영상의 문자 인식률을 예측할 수 있으며, 이와 같은 항목별 점수 및 예상 인식률을 피드백으로 사용자에게 알려주어 사용자가 스캐너의 팩터들을 조정하거나 OCR 전처리 과정으로 진행될 수 있도록 유도함으로써, 시행착오 없이 간편하게 문서 영상의 문자 인식률을 향상시키기 위한 방법 및 시스템에 관한 것이다.

일반적으로, 종이에 기록되어 있는 문서를 디지털화하기 위해서 문서를 스캐닝하여 문서 영상을 인식하는 OCR(Optical Character Recognition) 기술이 사용된다. 그러나 OCR을 사용하더라도 변색 등 문서 자체의 보존 상태와 스캔 시에 생기는 잡음 등의 영향으로 완벽한 상태의 영상을 얻기 힘들기 때문에, 문서 영상에 대한 높은 문자 인식률을 기대하기는 어렵다.

국내에서 최근 수 년간 상용화된 문서 인식 시스템은 한글 인식에 초점을 맞추는 추세에 있으며, 구조적인 특성을 이용하여 한글 문자를 초성, 중성, 종성으로 분리한 후 자소 단위의 인식을 시도하는 것이 보편적인 경향이다. 이러한 시스템은 원본문서를 스캐닝 할 때 상대적으로 높은 해상도와 잡음이 없어야 제대로 기능할 수 있다는 문제점이 있다. 따라서 원본문서가 깨끗하지 않거나 스캐닝 시 문자의 크기와 스캐너의 해상도가 적합하지 않은 경우 인식이 불가능한 경우가 발생할 수 있다.

이에 따라 종래부터 문서 영상에 포함된 문자에 대한 인식을 수행하기 전에 전처리 과정을 통해 문서 영상의 잡음을 비롯한 인식에 불필요한 요소들을 제거하고자 하는 노력을 기울여 왔다. 하지만 전처리 과정을 거치더라도 인식에 방해가 되는 요소가 남아있을 수 있으며, 결국 이런 방해요소로 인해 문서의 최종 인식률은 낮아지게 되는데, 이러한 경우에는 불필요하게 많은 연산량을 허비한 상태로 재차 문서 인식을 시도해야 하므로 효율적인 프로세스를 달성할 수 없게 되었다.

따라서, 본 발명의 목적은, 종래 기술의 문제점을 해결하고 원본문서를 스캐닝 하여 생성한 문서 영상을 인식하기 전에 문서 영상의 특징을 추출하여 항목별로 수치화하여 평가함으로써 신속하게 문서 영상의 문자 인식률을 예측할 수 있으며, 이와 같은 항목별 점수를 피드백으로 사용자에게 알려주어 사용자가 스캐너의 해상도, 명도를 재설정하거나 문서의 기울임을 교정할 수 있도록 하거나 실제 OCR 전처리 과정으로 진행될 수 있도록 함으로써, 시행착오 없이 간편하게 문서 영상의 문자 인식률을 향상시키기 위함이다.

상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 기능을 수행하기 위한, 본 발명의 특징적인 구성은 하기와 같다.

본 발명의 일 태양에 따르면, 문자가 포함된 이미지 파일인 문서 영상에 대하여 OCR(Optical Character Recognition) 기술을 사용하여 인식 과정을 수행하기 전에 문자에 대한 예상 인식률을 구하기 위한 방법으로서, (a) 상기 OCR의 문자 인식률과 관련된 상기 문서 영상의 속성을 나타내는 적어도 하나의 특징 데이터를 상기 문서 영상으로부터 추출하고, 상기 추출된 특징 데이터마다 상기 특징 데이터가 상기 OCR에 의한 문자 인식에 있어서 어느 정도 적합한 상태인지를 수치화한 항목별 점수를 획득하는 단계, (b) 상기 항목별 점수마다 가중치 - 상기 가중치는 상기 특징 데이터의 속성 자체가 상기 문서 영상에 대한 문자 인식을 행함에 있어서 영 향력이 클수록 큰 수치로 결정됨 - 를 적용하는 단계, 및 (c) 상기 가중치가 적용된 항목별 점수를 가산하여 상기 예상 인식률을 제공하는 단계를 포함하는 방법을 제공한다.

본 발명에 따르면, 문서 영상의 특징을 추출하여 평가 점수와 피드백을 사용자에게 제공함으로써, 직접 스캐너를 제어하여 깨끗한 영상을 획득하도록 해 준다.

또한, 본 발명에 따르면, 상기 피드백은 추출된 특징을 항목별 수치로 나타내어 제공되기 때문에 문서 영상의 실제 OCR 전처리 과정에 도움이 되며, 평가 결과가 점수로 디스플레이되므로 영상을 인식하기 전에도 명시적으로 인식률 추정이 가능하다는 효과가 있다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된 다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일 또는 유사한 기능을 지칭한다.

이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따라, 문서 영상으로부터 OCR의 문자 인식률과 관련된 문서 영상의 속성을 나타내는 특징 데이터를 추출하고, 상기 특징 데이터를 문서 영상의 품질을 인식기가 문자인식 과정을 수행 전에 항목별로 수치화 하여 평가함으로써 빠른 시간에 문서 영상의 문자 인식률을 예측하기 위한 전체 시스템(100)의 구성도이다.

도 1을 참조하면, 전체 시스템(100)은 특징 데이터 추출부(110), 특징 데이터 수치 계산부(120), 스캐너 조절부(130), 인터페이스부(140), 통신부(150), 제어부(160) 등을 포함할 수 있다.

본 발명의 일 실시예에 따르면, 특징 데이터 추출부(110), 특징 데이터 수치 계산부(120), 스캐너 조절부(130), 인터페이스부(140), 통신부(150), 제어부(160) 는 그 중 적어도 일부가 사용자 단말 장치에 포함되거나 사용자 단말 장치와 통신하는 프로그램 모듈들일 수 있다(다만, 도 1에서는 특징 데이터 추출부(110), 특징 데이터 수치 계산부(120), 스캐너 조절부(130), 인터페이스부(140), 통신부(150), 제어부(160)가 모두 사용자 단말 장치에 포함되어 있는 것으로 예시하고 있다). 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모 듈의 형태로 사용자 단말 장치에 포함될 수 있으며, 물리적으로 여러가지 공지의 기억 장치 상에 저장될 수도 있다. 또한, 이러한 프로그램 모듈들은 사용자 단말 장치와 통신 가능한 원격 기억 장치에 저장될 수도 있다. 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.

특징 데이터 추출부(110)는 문서 영상으로부터 OCR의 문자 인식률과 관련된 문서 영상의 속성을 나타내는 특징 데이터를 추출하는 역할을 수행한다. 여기서 특징 데이터란 영상의 기울기 정도, 영상의 이진화시 클러스터링 반복 정도, 영상의 포함된 잡음의 비율, 영상의 텍스트 영역의 설정 정도, 텍스트 영역에서의 문자분할 정도, 문자분할영역에서의 명도대비 정도, 문자 세선화 과정에서의 반복 정도, ‘ㅇ’과 같은 루프 문자의 크기 등을 의미한다.

또한, 특징 데이터 수치 계산부(120)는 특징 데이터 추출부(110)에 의해 추출된 특징 데이터를 수치화하여 평가하고, 소정의 가중치와 결합하여 가중합을 생성하는 역할을 수행한다.

한편, 스캐너 조절부(130)는 상기 수치화된 특징 데이터에 따라 스캐너를 재설정하도록 사용자에게 스캐너 제어 방법을 피드백하는 역할을 수행한다.

인터페이스부(140)는 디지털 기기의 화면을 통해 상기 수치화된 특징 데이터 값 및 상기 가중합 등을 사용자에게 알려주고 사용자로부터 OCR 과정을 진행시킬지 여부에 대한 응답을 입력 받는 역할을 수행한다.

통신부(150)는 시스템(100) 내부의 각 구성 모듈 사이의 신호를 송수신하거나 다양한 외부 장치와의 데이터 송수신을 수행하는 것을 담당한다.

본 발명에 따른 제어부(160)는 특징 데이터 추출부(110), 특징 데이터 수치 계산부(120), 스캐너 조절부(130), 인터페이스부(140), 통신부(150) 간의 데이터의 흐름을 제어하는 기능을 수행한다. 즉, 본 발명에 따른 제어부(160)는 통신부(150)를 통하여 각 구성 모듈 간에 송수신되는 신호를 제어함으로써, 특징 데이터 추출부(110), 특징 데이터 수치 계산부(120), 스캐너 조절부(130), 인터페이스부(140)에서 각각의 고유의 기능을 수행하도록 제어한다.

도 2는 본 발명의 일 실시예에 따라, 문서 영상의 사전 평가 값을 이용하여 스캐너를 재설정하는 시스템이 동작하기 위한 전체적인 시계열적 흐름을 나타내는 흐름도이다.

우선, 스캐너 등과 같은 디지털 기기는 원본문서를 스캐닝하여 문서 영상을 생성한다(S210).

생성된 문서 영상으로부터 영상의 기울기 정도(Skew), 영상의 이진화시 클러스터링 반복 정도(Binarization Iteration: BI), 영상에 포함된 잡음의 비율(Noise Ratio: NR), 영상의 텍스트 영역의 설정 정도(Zone Detection: ZD), 텍스트 영역에서의 문자분할 정도(Segmentation Difficulty: SD), 문자분할영역에서의 명도대비정도(Segmentation Contrast: SC), 문자 세선화 과정에서의 반복 정도(Thinning Iteration: TI), ‘ㅇ’ 문자와 같은 루프 문자의 크기(Size of Loop Character: SLC) 등을 평가항목으로 하여 특징을 추출하고 각 항목별로 수치화하여 점수를 산 출한다(S220).

상기 산출한 각 항목별 점수는 문서 영상의 종류에 따라 최적으로 결정되는 각각의 가중치를 적용하여 합한 총 점수, 즉 예상 인식률을 사용자에게 피드백으로서 제공해 준다(S230).

그 후, 시스템(100)은 사용자로부터 OCR을 진행할 것인지에 대한 응답이 입력되는지 검출한다(S240). 사용자는 응답을 입력함에 있어서, 상기 S230 단계에서 산출된 예상 인식률 값을 참조로 할 수 있을 것이다.

만약, 상기 예상 인식률이 적절하다고 판단되어 사용자로부터 OCR을 진행하겠다는 입력이 인가되면, 시스템(100)은 OCR 과정을 진행한다(S250). OCR 과정은 (1) 회색 변환, 흑백 변환, 기울기 보정 등의 프로세스를 포함하는 전처리 과정, (2) 레이아웃 분석, 글/그림/표에 대한 구분 및 인식 등의 프로세스를 포함하는 구조 분석 과정, (3) 문자 분할(segmentation) 과정, (4) 특징 추출 프로세스를 포함하는 문자 인식 과정, (5) 후처리 등으로 이루어질 수 있으며, 이와 같은 OCR 기술 자체는 일반적으로 알려진 기술이므로 여기서는 자세한 설명을 줄이도록 한다. 이와 같은 (1)~(5)의 프로세스를 거쳐 문자 등이 인식된 결과를 바탕으로 최종 인식률이 어느 정도인지를 알 수 있을 것이다.

최종 인식률에 대한 정보가 획득되면, 상기 S230 단계에서 산출된 예상 인식률과 상기 최종 인식률 사이의 상관 관계를 살펴볼 수 있으며, 각 평가 항목에 적용되는 가중치에 따라 예상 인식률과 최종 인식률이 거의 동일해질 수 있을 것이다.

한편, S240 단계에서, 사용자는 상기 예상 인식률이 낮다고 생각할 수 있으며, 이 경우에는 OCR과정에서의 문서 영상에 대한 문자 인식률을 더욱 높게 하기 위해, OCR 진행을 시작하지 않고 스캐너의 팩터(factor)들을 조정할 수 있다. 이 경우, 제어부(160)는 S220단계에서 계산된 각 평가항목별 점수를 토대로 스캐너 제어 방법을 제시한다(S270). 예를 들어, 제어부(160)는 각 평가항목별 점수를 참고로 사용자에게 스캐너의 자동급지장치를 제어하도록 하거나 스캐너의 밝기를 조정하도록 하거나 스캐너의 해상도를 높이도록 하는 등의 구체적인 스캐너 제어 방법을 제시할 수 있다. 물론, 이에 한정되는 것은 아니며, 사용자에게 상기의 정보를 제시하지 않고 자동적으로 적절한 상태가 되도록 조정될 수 있음은 물론이다.

S260 단계에서 제공되는 정보에 따라 스캐너의 각종 팩터가 조정되고 난 후에는, S210 단계로 돌아가 또 다시 원본문서를 스캐닝하여 예상 인식률을 구해볼 수 있을 것이다.

도 3은 본 발명의 일 실시예에 따른 문서 영상의 평가를 각 항목별로 수행하는 프로세스를 나타내는 구체적인 흐름도이다.

원본문서를 스캐닝하여 생성한 문서 영상에 대해 영상의 기울기 정도(S302: 각도특성추출), 영상의 이진화시 클러스터링 반복 정도(S303: BI특성추출), 영상에 포함된 잡음의 비율(S304: NR특성추출), 영상의 텍스트 영역의 설정 정도(S305: ZD특성추출), 텍스트 영역에서의 문자분할 정도(S306: SD특성추출), 문자분할영역에서의 명도대비정도(S307: TI특성추출), 문자 세선화 과정에서의 반복 정도(S308: SC특성추출), ‘ㅇ’ 문자와 같은 루프 문자의 크기(S309: SLC특성추출)를 평가항 목으로 각각 특성 값을 계산하고(S310), 각 평가 항목들의 점수가 도출되면 인식에 중요한 영향을 미치는 순서에 따라 가중치를 부여한 후 이를 전부 합하여 가령 100점 만점의 최종 평가 점수(즉, 예상 인식률)를 산출한다(S311).

구체적으로, 문서 영상의 기울기 정도(S302)는 영상의 스캐닝 과정에서 고려되어야 하는 문제로서, 문서 영상 기울기로 인해 왜곡이 심해지면 문서인식 자체가 불가능하기 때문에 기울기에 대한 교정이 필요하다. 도 4a는 기울어진(Skew) 영상을 나타내며, 이러한 이유로 예상 인식률이 낮게 계산될 수 있으며, 이러한 경우 피드백을 통하여 도 4b와 같이 기울기를 교정한 올바른 영상으로 조정될 수 있다.

도 5의 좌측 영역은 문서 영상의 기울기 허용 범위를 나타내며, 도 5의 우측 영역은 영상의 4부분에서 각도를 추출하는 예를 보여준다.

문서 영상을 인식하기 위해서는 기울어진(Skew) 영상을 올바르게 되돌려야 한다. 문서 영상을 올바르게 되돌리려면 문서 영상의 기울어진 정도를 각도로 파악해야 한다. 이 각도는 보통 문서의 위쪽 부분의 기울어진 정도로 판단되는데, 이는 문서 전체에 대한 기울기로 활용되기에 부족한 점이 있기 때문에, 도 5의 우측 영역에 도시된 바와 같이 문서의 위, 아래, 왼쪽, 오른쪽 부분에서 각도를 검출한 다음 이들 각도들의 평균을 취하는 것이 바람직하다. 하지만, 이 때 4 부분의 각도들 중 나머지 각도들과 차이가 큰 각도는 오류가 있는 각도로 판단하고 제외시킬 수 있으며, ±5도 범위를 벗어나는 각도가 있는 경우에도 이를 제외시키고 평균 각도를 산출할 수 있다. 일반적으로 정확하게 스캐닝된 문서 영상은 기울기가 0도에 가깝다. 따라서, 각도가 1도만 기울어도 문자의 왜곡이 심해지기 때문에 ±5도 의 범위를 벗어난 문서 영상은 스캔이 잘못된 것이라고 판단하여 점수를 0으로 취급할 수 있다. 기본적으로 각도는 시계 방향이 양수 값을 나타내도록 한다. 영상의 기울기 평가에서는 0도를 기준으로 ±5도의 범위에서 0.5도씩 변화될 때마다 점수를 차등으로 산출할 수 있다.

도 3의 S303단계는 영상의 이진화시 클러스터링 반복 정도(Binarization Iteration, BI)를 의미한다. 이는 문서 영상을 인식 하기 위해 컬러(RGB) 영상을 그레이스케일(Gray-Scale) 영상으로 변환하고, 이를 다시 글자를 나타내는 검정색과 글자가 아닌 배경을 나타내는 흰색으로 구성된 이진(Binary) 영상으로 변환하는 과정이다.

0~255 단계로 구성된 그레이 영상을 이진 영상으로 변환하는 방법은 기본적으로 영상 전체의 평균을 문턱 값(Threshold)으로 사용하는 Global Thresholding이 있으나, 이진 영상은 글자색과 배경색이 뚜렷하게 구별되어야 하기 때문에 Global Thresholding의 고정적인 문턱 값만으로는 항상 좋은 결과는 얻기는 힘들다. 이와 같은 문제점을 개선하기 위해 Andreas E. Savakis가 저술하고, 1998년 IEEE Proceedings of international Conference on Image Processing(ICIP'98)에 게재된 논문인 "Adaptive Document Image Thresholding Using Foreground and Background Clustering"에 개시된 이미지의 글자색과 배경색을 클러스터링 해나가면서 유동적인 Threshold를 찾아가는 Foreground and Background Clustering(FBC) 기술을 사용하여 행하여질 수 있다.

문서의 변색이나 짙은 배경색으로 글자와 배경의 구분이 어려운 영상의 경우 에는 좋은 이진 영상을 얻기 힘들다. 상기 설명한 FBC 기술에 따르면, 글자와 배경 화소를 클러스터링 해가면서 각각 평균값을 찾아 나간다. 변색이나 짙은 배경색의 영상을 FBC방법으로 변환할 경우 클러스터링 과정이 일반 영상에 비해 많아진다. 영상의 이진화 평가는 클러스터링 과정의 반복 횟수를 근거로 점수를 산출한다.

도 6은 클러스터링 반복 횟수를 반환하는 의사코드(Pseudo Code)를 도시한다. 먼저 영상전체의 평균값을 구하고, 이를 기준으로 흑화소와 백화소를 분류한다. 그리고 흑화소로 분류된 화소들에서의 평균값과, 백화소로 분류된 화소들에서의 평균값으로 다시 흑백화소를 분류한다. 이러한 과정을 각각의 평균값이 변하지 않을 때까지 반복 실행한다. 이에 따라, FBC 반복 횟수에 반비례하여 평가를 하게 된다.

도 3의 S304단계는 영상에 포함된 잡음의 비율(Noise Ration: NR)을 의미한다.

문서 영상의 글자 부분에 잡음이 섞이면 전혀 다른 글자로 인식되는 경우가 생긴다. 이러한 잡음이 글자의 한 부분인지 판단하여 글자 부분이 아니라면 잡음을 제거해야 한다. 잡음 제거를 위해선 크게 저주파통과필터(Low Pass Filter), 미디언 필터(Median Filter), Smoothing 등이 적용될 수 있다. 이들 잡음 제거 방법 중 원본 영상의 강한 에지(Edge)와 상세한 부분을 보존하기 위해서는 미디언 필터가 효과적일 수 있지만 이에 한정되는 것은 아니다.

하지만, 미디언 필터를 사용하더라도 완벽한 잡음 제거는 할 수 없는바, 잡 음 평가 항목에서는 미디언 필터를 적용한 영상에서 잡음으로 판단된 화소들의 비율을 판단하여 점수를 산출한다. 잡음의 비율은 다음과 같이 나타낼 수 있다.

도 3의 S305단계는 영상의 텍스트 영역의 설정 정도(Zone Detection, ZD)를 의미한다.

투영 프로파일을 사용하여 문서 영상의 영역 분류를 할 경우 그림 영역은 하나의 영역으로 설정되어야 하고, 텍스트 영역은 보통 하나의 문단 이상이 하나의 영역으로 설정될 수 있다. 하지만, 불규칙한 글자 간격과 줄 간격 등으로 인해 설정된 영역이 너무 작거나 큰 경우가 생기기 마련이다. 도 7의 좌측 영역은 영역 분류 결과 너무 작게 설정된 텍스트 영역의 예를 도시하며, 도 7의 우측 영역은 올바르게 설정된 예를 도시한다.

즉, S305 단계에 따르면, 문서 영상의 전처리를 통해 문서 영상의 기울어짐이 교정된 후에 문서 영상을 의미 있는 영역들로 분할할 수 있는데, 각 영역들은 텍스트 또는 그래픽 정보(그림, 테이블, 선 등)를 포함할 수 있다. 이를 위해 S305 단계는 문서 영상으로부터 기하학적인 구조를 추출하여 문서 영상을 다양한 영역의 집합으로 분할하는 단계와 각 영역의 특성을 조사하여 텍스트와 비텍스트 영역으로 분류하는 영역 분류 단계로 구성될 수 있다. 영역 분류는 일반적으로 영상의 가로 방향과 세로 방향으로 투영하여 프로파일을 생성하고 이를 기준으로 영 역을 나눈다.

이와 같은 영역 분류를 통한 평가에서는 문서 영상의 분류 결과 설정된 영역의 폭과 높이가 기준 이하인 영역들이 전체 영역에서 차지하는 비율을 점수로 환산한다. 즉, 바르지 못하게 설정된 영역의 비율을 평가하게 된다.

도 3의 S306 단계는 텍스트 영역에서의 문자 분할 정도(Segmentation Difficulty: SD)를 의미한다.

문서 구조 분석을 통해 추출된 텍스트 영역은 인식의 대상인 문자 단위로 분할되는데, 일반적으로 투영 프로파일(Projection Profile) 방법을 적용하거나 오일석, 김수형 외 2인이 저술하고, 2002년 정보과학회지, 제 20권 제 8호, pp.24-34 에 게재된 “문서 영상 처리 기술과 디지털 도서관”에 게시된 분석(connected component analysis) 방법 등을 적용할 수 있다. 이에 대해서는 이하에서 도 8 및 도 9를 참조로 자세히 설명된다.

도 8은 텍스트 영역에서의 문자 단위의 분할 결과를 도시한다.

영역 분할에서 글자 영역으로 분할된 영역은 인식기가 인식할 수 있도록 문자 분할의 과정을 거쳐야 한다. 문자 분할은 전처리 과정의 최종 과정으로 인식에 가장 많은 영향을 미치므로 비정상적인 문자 분할로 인해 인식결과가 전혀 다르게 나올 수 있다. 한글의 문자 분할의 경우 분할된 사각형(Rectangle)은 폭과 높이의 비율이 비슷해야 한다.

도 9는 글자 간격이 너무 좁아 문자들이 합쳐진 비정상적인 문자 분할을 보여준다. '스‘와 ’피‘가 합쳐진 경우 분할 사각형의 높이와 폭의 길이가 상당한 차이를 보인다는 것을 알 수 있다.

문자 분할 평가에서는 영역 분류에서 텍스트로 설정된 영역들에 대해 문자 분할을 시도하여 비정상적으로 분할된 문자들을 파악한다. 그리고 전체 문자 분할에 대한 비정상적인 문자 분할의 비율을 계산하여 점수를 산출한다.

도 3의 S307 단계는 문자 분할 영역에서의 명도 대비 정도(Segment Contrast, SC)를 의미한다. 분할된 문자에서 명도 대비 정도를 평가하기 위해 하기 식을 이용한 값을 산출한다.

하기 식의 계산 값, 즉 명도 대비 값이 1에 가까울수록 글자와 배경이 명확히 분리됨을 의미하며, 명도 대비 값에 비례하여 문서 영상의 문자 인식률은 높아진다.

도 3의 S308 단계는 문자 세선화 과정에서의 반복 정도(Tinning Iteration, TI)를 의미하며, 이는 세선화 과정을 수행하면서 문자의 두께를 1로 만들기 위한 세선화 반복 횟수를 측정하여 평가하는 것으로 문자의 굵기를 측정하기 위한 방법 중 하나이다. 도 10는 문자 세선화 과정을 보여 준다. 도 10의 좌측 이미지는 문서 영상에서 하나의 문자를 추출한 것을 보여주며, 도 10의 중간 이미지는 상기 추출한 문자를 표준화하였고, 도 10의 우측 이미지는 상기 문자의 두께를 1로 세선화한 모습을 보여준다.

도 3의 S309 단계는 ‘ㅇ’ 과 같은 루프 모양이 들어간 문자의 크기를 측정하는 과정(Size of Loop Character: SLC)을 의미하며, 도 11은 SLC 과정을 보여준다.

도 11의 상단 영역에는 문자의 연결 요소 분석을 통해 자소 단위로 분할하는 과정이 도시되며, 도 11의 하단 영역에는 분할된 자소 중 ㅁ, ㅂ, ㅇ(ㅎ), ㅍ과 같은 루프 문자가 추출된 결과가 도시된다. 루프의 크기를 측정한 값을 근거로 SLC 특성 값을 정할 수 있다.

도 12는 도 3의 S302 단계부터 S309 단계에 해당되는 평가 항목을 적용한 자동 평가 방법을 사용하여 하나의 문서 영상을 평가한 결과 화면을 도시한 예시도이다.

도 12의 좌측 영역은 문서 영상이 두 개의 텍스트 영역과 하나의 그림 영역으로 구분된 상태를 도시한다.

본 발명에 따른 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(Floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

도 1은 OCR을 위한 문서 영상의 자동평가 시스템을 나타내는 블록도이다.

도 2는 문서 영상의 평가를 수행하는 프로세스를 나타내는 흐름도이다.

도 3은 문서 영상의 속성을 반영하는 복수의 특성 데이터를 이용하여 예상 인식률을 구하기 위한 프로세스를 나타내는 흐름도이다.

도 4a는 기울어진(Skew) 영상을 나타내고, 도 4b는 교정을 통한 올바른 영상을 도시한 도면이다.

도 5는 기울어진 영상에 대해 기울어진 정도를 판단하는 예를 나타내는 도면이다.

도 6은 클러스터링 반복 횟수를 반환하는 의사코드(Pseudo Code)를 도시한다.

도 7은 문서 영상에 대한 영역분류 결과를 나타내는 도면이다.

도 8은 문서 영상의 텍스트 영역에서의 문자 단위 분할 결과를 보여주는 도면이다.

도 9는 글자 간격이 너무 좁아 문자들이 합쳐져 비정상적으로 문자 분할이 된 예를 보여주는 도면이다.

도 10은 문자 세선화 과정을 도시한 도면이다.

도 11은 SLC 과정을 통해 루프 부분을 검출하는 예를 보여주는 도면이다.

도 12는 평가 항목을 적용한 자동 평가 방법을 사용하여 하나의 문서 영상을 평가한 결과 화면을 도시한 예시도이다.

<도면의 주요 부분에 대한 부호의 설명>

110: 특징 데이터 추출부

120: 특징 데이터 수치 계산부

130: 스캐너 조절부

140: 인터페이스부

150: 통신부

160: 제어부

Claims

문자가 포함된 이미지 파일인 문서 영상에 대하여 OCR(Optical Character Recognition) 기술을 사용하여 인식 과정을 수행하기 전에 문자에 대한 예상 인식률을 구하기 위한 방법으로서,

(a) 상기 OCR의 문자 인식률과 관련된 상기 문서 영상의 속성을 나타내는 적어도 하나의 특징 데이터를 상기 문서 영상으로부터 추출하고, 상기 추출된 특징 데이터마다 상기 특징 데이터가 상기 OCR에 의한 문자 인식에 있어서 어느 정도 적합한 상태인지를 수치화한 항목별 점수를 획득하는 단계,

(b) 상기 항목별 점수마다 가중치 - 상기 가중치는 상기 특징 데이터의 속성 자체가 상기 문서 영상에 대한 문자 인식을 행함에 있어서 영향력이 클수록 큰 수치로 결정됨 - 를 적용하는 단계, 및

(c) 상기 가중치가 적용된 항목별 점수를 가산하여 상기 예상 인식률을 제공하는 단계를 포함하는 방법.
삭제
제1항에 있어서,

상기 문서 영상은,

디지털 데이터가 아닌 원본문서를 스캐닝하여 생성되는 것을 특징으로 하는 방법.
제1항에 있어서,

(d) 상기 예상 인식률 및 상기 항목별 점수를 참조로, 상기 문서 영상을 재생성하기 위한 스캐너가 재설정되는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

(d) 상기 예상 인식률 및 상기 항목별 점수에 따라 스캐너를 재설정하도록 사용자에게 스캐너 제어 방법을 제시하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제4항 또는 제5항에 있어서,

상기 스캐너의 재설정은 상기 스캐너의 자동급지장치에 대한 제어, 상기 스캐너의 밝기에 대한 조정, 상기 스캐너의 해상도에 대한 조정 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

(d) 상기 예상 인식률이 기설정된(predetermined) 임계값 이상이면, OCR 과정이 수행되는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

(d) 상기 예상 인식률이 사용자에게 제공된 후, 상기 사용자로부터 OCR 과정 수행 여부에 대한 판단을 입력 받는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 (a) 단계에서,

상기 특징 데이터는 영상의 기울기 정도(skew), 영상의 이진화시 클러스터링 반복 정도(BI), 영상에 포함된 잡음의 비율(NR), 영상의 텍스트 영역의 설정 정도(ZD), 텍스트 영역에서의 문자분할 정도(SD), 문자분할영역에서의 명도대비 정도(SC), 문자 세선화 과정에서의 반복 정도(TI), ‘ㅇ’과 같은 루프 문자의 크기(SLC) 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 방법.
제9항에 있어서,

상기 문서 영상의 기울기 정도(skew)는 상기 문서 영상의 4 부분(Left, Right, Top, Bottom)의 각도를 검출하고 이들 각도의 평균을 참조하여 판단되는 것을 특징으로 하는 방법.
제9항에 있어서,

상기 문서 영상의 이진화시 클러스터링 반복 정도(BI)는 FBC를 이용한 이진화 과정에서 클러스터링 반복 횟수를 참조하여 판단되는 것을 특징으로 하는 방법.
제9항에 있어서,

상기 문서 영상에 포함된 잡음의 비율(NR)은 상기 문서 영상의 전체 영상 중 잡음이 차지하는 비율을 참조하여 판단되는 것을 특징으로 하는 방법.
제9항에 있어서,

상기 문서 영상의 텍스트 영역의 설정 정도(ZD)는 상기 문서 영상의 분류 결과 설정된 영역의 폭과 높이가 기준치 이하인 영역들이 전체 영역에서 차지하는 비율을 참조하여 판단되는 것을 특징으로 하는 방법.
제9항에 있어서,

상기 문서 영상의 텍스트 영역에서의 문자분할 정도(SD)는,

상기 텍스트 영역에서 문자 분할을 수행한 후, 상기 분할된 문자 영역의 폭 또는 높이가 상기 문서 영상에 포함된 문자의 평균 글자 폭 또는 높이와 비교하여 기설정된 임계치 이상의 차이를 보이면 비정상적인 문자 분할 영역으로 판단한다고 할 때, 상기 비정상적인 문자 분할 영역의 비율을 참조하여 판단되는 것을 특징으로 하는 방법.
제9항에 있어서,

상기 문서 영상의 문자분할영역에서의 명도대비 정도(SC)는,

로 표현되는 식의 계산 값을 참조하여 판단되는 것을 특징으로 하는 방법.
제9항에 있어서,

상기 문서 영상의 문자 세선화 과정에서의 반복 정도(TI)는,

문자의 두께를 1로 만들기 위해 반복되는 세선화의 횟수를 참조하여 판단되는 것을 특징으로 하는 방법.
제9항에 있어서,

상기 문서 영상의 루프 문자의 크기(SLC)는,

문자를 연결요소(connected component) 분석을 통해 자소 단위로 분할하여 상기 루프 부분을 추출한 후 판단되는 것을 특징으로 하는 방법.
제1항, 제3항 내지 제5항, 및 제7항 내지 제17항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능 매체.