KR100248384B1

KR100248384B1 - 다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템

Info

Publication number: KR100248384B1
Application number: KR1019970067558A
Authority: KR
Inventors: 오원근; 문경애
Original assignee: 정선종; 한국전자통신연구원
Priority date: 1997-12-10
Filing date: 1997-12-10
Publication date: 2000-03-15
Also published as: KR980004113A

Abstract

본 발명은 한글, 한자, 영·수·부호 문자가 혼용된 다국어 문서(multilingual document)를 대상으로 하는 개별 문자 추출(individual character extraction) 방법 및 그 인식 시스템에 관한 것이다.

본 발명은 다양한 폰트 크기, 하나의 글자가 두 조각으로 가로 분리되는 문자, 그리고 붙은 문자나 겹친 문자와 같은 다국어 문서에서 많이 발생되는 문자 분리시의 어려움을 해결한 개별 문자 추출 방법을 제공한다.

본 발명의 상기 개별 문자 추출 방법은 문자 인식기의 결과값을 이용하는 방법으로 수직 화소 투영에 의한 1차 문자 추출 과정, 두 조각 이상으로 가로 분리된 문자를 병합할지를 판정하고 병합을 수행하는 2차 문자 추출 과정, 그리고 붙은 문자나 겹친 문자를 재 분리 할지를 판정하고 재분리 대상에 대해 재분리를 수행하는 3차 문자 추출 과정으로 구성되는 방법을 제공한다. 상기 2차 문자 추출 과정과 3차 문자 추출 과정에서의 판정 단계에서는 다단계 인식기를 통해 얻어진 결과값인 두개의 인식 정합도를 이용함을 특징으로 한다.

Description

다국어 문서 인식에서 개별 문자 추출 방법 및 그 인식 시스템

본 발명은 한글, 한자, 영·수·부호 문자가 혼용된 다국어 문서 인식을 위한 전처리 단계로서 다단계 문서 인식기를 통해 얻어진 결과값을 이용한 개별 문자 추출 방법 및 그 인식 시스템에 관한 것으로, 특히 혼용 문서에서 많이 발생되는 겹친 문자 및 붙은 문자의 분리를 효과적으로 수행하여 궁극적으로 전체 인식기의 성능을 향상시키는 방법 및 그 시스템에 관한 것이다.

일번적으로 개별 문자 추출이란 연속된 문자열 혹은 단어로부터 낱개의 문자를 추출하는 기술로, 이는 문서 인식에 선행되어야 할 문제 중의 하나이다. 그러나 지난 30여 년간 진행된 문자 인식에 관한 연구 결과에 따르면 인쇄체 문자에 대해서는 상당한 수준의 낱자 단위 인식율을 가지고 있음에도 불구하고 실제적인 문서를 입력할 경우 낱자 단위 인식율 보다 훨씬 낮은 성능을 보이고 있다. 그 이유를 살펴보면 일반적인 문서에 포함된 잡영이나 기타 영상 자체의 변형 등의 원인도 있으나, 인식기로 보내지는 낱자들이 정확하게 분할되지 않는 데서 오는 문자 오인식 오류를 가장 큰 이유로 들 수 있다. 즉, 연속된 문자열, 특히 문자들 간의 접촉이 있거나 하나의 문자가 두 개 이상의 영역으로 분리된 경우 문자열에서 낱자를 분할할 때 잘못 분할되어 인식기로 보내지는 경우 정확한 인식 결과를 기대하기 어렵다.

따라서, 기존의 다국어 문서 인식시스템에 있어서의 문자 분할 문제를 해결하기 위하여 인쇄체 영·수·부호 문자의 경우 자주 발생하는 접촉 유형들을 규정하고 분할 위치를 찾는 방법, 인식 결과를 이용하여 분할 위치를 찾는 방법, 분할 위치 인식 방법 등이 제안되어 있고, 한글의 경우에는 문자의 폭과 높이와의 비와 수직 투영 값 등을 이용하여 문자를 분할하는 방법이 제안되어 있고, 한글을 구성하는 모음이나 자음을 인식함으로써 문자의 경계를 찾는 방법도 제안되어 있다.

이러한 방법들은 영문 혹은 한글로만 이루어진 문서들을 대상으로 하고 있어서 크기 및 접촉 유형이 다른 문자들이 혼용된 문서의 경우 이러한 방법들을 그대로 적용할 수 없는 문제점이 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여, 다국어 문서 입력의 자동화를 위해 인식 결과와 결합된 문자 추출 방법을 통해 접촉 유형이 다양한 한글, 한자, 영.수.부호 문자가 혼용된 다국어 문서에서 문서에서 많이 발생되는 겹친 문자 및 붙은 문자의 분리를 효과적으로 수행하여 궁극적으로 전체 인식기의 성능을 향상시키는 방법을 제공함을 목적으로 한다.

도 1은 본 발명에 관한 다국어 문서 인식 시스템의 구성도

도 2는 본 발명에 관한 다국어 문서 인식 시스템를 나타내는 흐름도

도 3은 도 2에서의 개별 문자 추출 방법을 나타내는 흐름도

도 4는 도 3에서의 1차 문자 추출 과정을 나타내는 흐름도

도 5는 도 3에서의 2차 문자 추출 과정을 나타내는 흐름도

도 6은 도 3에서의 3차 문자 추출 과정을 나타내는 흐름도

도 7는 도 6의 분리 후보 위치를 결정하는 방법을 나타내는 설명도

도 8은 도 2에서의 문자 인식 방법을 나타내는 흐름도

*도면의 주요부분에 대한 부호의 설명

10 :문서 영상

11 : 저장된 문서 영상

12 : 광학 스캐너

13 : 스캐너 제어부

14 : 문자 영역 분리부

15 : 개별 문자 분리부

16 : 문자 인식부

17 : 문서 처리부

상기 목적을 달성하기 위한 본 발명의 개별 문자 추출은 문자 인식을 위한 전처리 단계로서 문자와 비문자 영역이 복잡하게 혼합된 문서에서 영역 분리에 의해 문자 영역을 추출하고 추출된 문자 영역으로부터 개별 문자를 추출하는 것으로, 정확한 개별 문자 추출은 문자 인식 시스템의 성능 향상에 중요한 요소로서 작용한다.

본 발명의 개별 문자 인식 시스템에 의한 개별 문자 추출 방법은 문자, 도표, 그림이 혼합된 다문서의 인식을 위해, 먼저 문서 영상에서 문자 영역을 분리 추출한다. 그 다음, 문자 영역 분석을 통해 얻은 각 연결 요소들의 정보를 이용하여 문자열을 찾은 후, 수직 투영을 통해 각 문자열을 개별 문자 블럭으로 1차 분리한다. 상기 1차 분리된 개별 문자 블럭은, 몇 개의 글자가 한 문자 블럭으로 오분리되거나, 한 글자가 여러 개의 문자 블럭으로 나누어질 경우가 발생하게 되므로, 이를 교정하기 위해 한글, 한자, 영·수·부호 문자 등 각 문자들의 실험적으로 얻은 특성 정보와 인식 결과를 이용하여 문자의 병합 및 붙은 문자 처리 수행 여부를 판정하여, 그 판정 단계의 결과에 따라 최종 개별 문자를 추출하는 방법을 제공한다.

이하, 본 발명의 실시예를 첨부도면에 의거하여 상세히 설명한다.

도 1은 본 발명에 관한 다국어 문서 인식 시스템의 구성도로, 본 시스템은 입력 수단인 광학 스캐너(12)를 스캐너 제어부(13)에 의해 구동하여 한글, 한자 및 영·수·부호 문자로 구성된 다국어 문서 영상(10)을 입력하거나, 이미 압축영상 등의 형태로 저장된 다국어 문서 영상(11)을 읽어 문서 영역 분리부(14), 개별 문자 분리부(15) 및 문자 인식부(16)로 구성된 문서 처리부(17)에서 수행되는 것이다.

도 2는 본 발명에 관한 다국어 문서 인식시스템을 나타내는 흐름도로, 다국어 문서 인식을 위한 개별 문자 추출 방법은 입력된 문서 영상(20)에서 문자 영역 을 추출하는 단계(21); 상기 추출된 문자 영역에서 문자열을 추출하는 단계 22; 상기 추출된 문자열 영상에서 문자 인식기(24)의 결과값을 이용하여 개별 문자를 추출하는 단계(23)로 이루어진다.

상기 입력된 문서 영상(20)으로부터 문자 영역과 비문자 영역을 분리하기 위하여 Bottom-Up방식의 분리 방법인 연결 요소 추출 방법에 의해 문자 영역을 추출(21)한다.

상기 문자 영역 추출(21) 과정은 우선, 연결 요소의 수와 처리 시간을 줄이기 위해 입력 문서 영상을 1/6로 축소하고, 축소된 영상의 각 행별로 스캔(scan) 하면서 8-방향의 연결된 런(run)들을 병합하여 연결 요소를 추출한다. 축소된 문서 영상에서 대부분 한 단어는 서로 붙어서 하나의 연결 요소로 추출되고, 추출된 모든 연결 요소의 속성 값 즉, 높이, 폭, 연결 요소의 흑화소수 및 인접 연결 요소들과의 거리 등을 계산하여 그 값에 의해 문서의 방향이 가로체인지 세로체인지를 결정하고, 그 속성값과 실험적 지식에 의해 각 연결 요소를 병합 또는 분리하여 입력 문서 영상에서 비문자 영역과 문자 영역을 분류한다.

상기 문자 영역 추출(21) 방법으로 문자 영역으로 추출된 문자 영역에 대해 문자열 추출(22)을 수행한다. 각 문자열은 문자 영역 내의 각 연결 요소들의 최소 외접 사각형에 대한 y축 상단, 하단 좌표 값의 조회에 의해 추출된다.

상기 문자열 추출(22) 방법은 각 연결 요소의 최소 외접 사각형들의 y축 상단 좌표값에 대해 오름차순으로 정렬하고, 정렬된 모든 최소 외접 사각형들 중 y축 상단 좌표값이 가장 작은 최소 외접 사각형으로부터 순차적으로 다음과 같이 조사하여, 각 각의 최소 외접 사각형(Bi)의 y축 상단 좌표값이 이전의 최소 외접 사각형들 즉, i-1번째까지의 최소 외접 사각형의 y축 하단 좌표값 중 최대값 보다 작으면, 그 최소 외접 사각형(Bi)을 현재 문자 행으로 포함시키고, 그렇지 않으면 새로운 문자 행으로 분리하여 각 문자 행을 추출하는 방법이다.

도 3은 도 2에서의 개별 문자 추출 방법을 나타내는 흐름도이고, 도 4는 도 3에서의 1차 문자 분리 과정을 나타내는 흐름도이고, 도 5는 도 3에서의 2차 문자 분리 과정을 나타내는 흐름도이고, 도 6은 도 3에서의 3차 문자 분리 과정을 나타내는 흐름도이고, 도 7는 도 6의 분리 후보 위치를 결정하는 방법을 나타내는 설명도로, 도 3의 개별 문자 추출 방법은 문자 인식기의 결과값을 이용하는 방법으로 수직 화소 투영에 의한 1차 문자 분리 과정(30), 두 조각 이상으로 가로 분리된 문자를 병합할지를 판정하고 병합을 수행하는 2차 문자 분리 과정(31), 그리고 붙은 문자나 겹친 문자를 재 분리 할지를 판정하고 재분리 대상에 대해 재분리를 수행하는 3차 문자 분리 과정(33)으로 거쳐 이루어진다. 상기 2차 문자 분리 과정과 3차 문자 분리 과정에서의 판정 단계에서는 다단계 인식기를 통해 얻어진 결과값인 두개의 인식 정합도를 이용하고 있다.

도 2의 문자 추출 방법에 의해 추출된 각 문자열 영상에 대해, 수직 방향 화소 투영을 통하여 1차 개별 문자 분리(30)을 통해 각 문자열의 높이와 각 각의 문자 사각형의 좌표값을 구하고, 그 좌표값으로 각 문자 사각형의 높이, 폭, 인접 문자 간의 거리 등의 정보를 계산(43)한다.

상기 1차 개별 문자 분리(30)시 두 조각으로 잘못 분리되는 것은, 한글 혹은 한자가 한 개 이상의 직사각형 문자 영역으로 구성되는데, 한글의 경우는 KS완성형 2,350자의 글자 중 95%는 한 개의 문자 사각형으로 구성되고, 약 5%는 두 개의 문자 사각형으로 구성되어 있으며, 실제로 작성된 일반 문서의 경우 두 개의 문자 사각형으로 구성된 글자의 비율은 보통 10% 이상이고, 또한 한자의 경우도 주로 사용되는 5401개의 한자 중 87%는 한 개의 직사각형으로 구성되고, 11%는 두 개, 2%는 그 이상의 직사각형으로 구성되어 있기 때문이다. 상기의 이유로 단순히 수직 투영을 통한 기본적인 문자 분리로는, 하나의 직사각형으로 구성되어야 할 문자 영역을 서로 다른 여러 개의 사각형으로 분리하게 되므로, 도 5와 같은 추가적인 병합 처리(32) 과정이 필요하게 된다. 병합여부를 판정하기 위하여 판정단계(51,53)에서는 1차 분리를 통해 얻어진 문자 사각형의 정보 즉, 문자 사각형의 폭, 다음 문자 사각형과의 간격, 다음 문자 사각형과 병합한 사각형의 폭 등을 통해 우선 사전 병합 대상 문자 사각형을 선정(51)한 후, 결합된 인식기의 두 개의 인식 정합도(M₁:상세분류(81) 결과 값, M₂: 유사문자 분류(82) 결과값)을 이용하여 둘 혹은 셋의 해당 문자 사각형들을 병합할지를 결정(53)한다. 인식 결과를 이용하지 않고 문자 사각형의 실험적인 정보만을 이용한 경우, 영문자 O 과 I 는 한글의 모음 ㅇ 와 자음 ㅣ 의 문자 사각형의 크기 및 간격 등의 정보와 흡사하므로, 이 둘의 문자 사각형을 병합하는 오류를 범할 수도 있다. 또한, 폭이 좁은 여러개의 문자 사각형이 이어서 있을 경우, 한 글자의 한글 혹은 한자로 오분리되기 쉽고 폭이 좁은 여러개의 획으로 구성된 한 글자의 한자나 한글의 경우 영·수·부호 문자와 거의 흡사한 문자 사각형 정보를 갖게 되어 병합 여부를 결정하기가 매우 애매하다.

또한, 상기 1차 개별 문자 분리(30) 후 두 문자가 붙거나 겹침으로 인해 하나의 문자 사각형으로 잘못 분리된 것은 한글, 영문, 숫자 및 한자 등이 혼용된 문서에서 인쇄의 질이나 문서 영상을 입력할 때 스캐너의 해상도 또는 워드프로세서의 문자 간격 등의 문제로 인하여 붙은 문자 혹은 겹친 문자를 발생시키기 때문으로 특히, 한글, 한자, 영·수·부호 문자 등이 혼용된 다국어 문서에서는 다양한 문자폭을 갖는 문자들의 접촉이 발생할 수 있으므로 단지 투영을 통해 얻은 정보 만으로는 정확한 개별 문자 추출이 어렵고, 영·수·부호 문자의 접촉 유형과 한글의 접촉 유형이 서로 상이할 뿐만 아니라 영·수·부호 문자와 한글 및 한자와의 접촉으로 다양하고 복잡한 접촉 유형이 발생하기 때문에 인식 결과를 이용하지 않고 이러한 문제를 해결하기는 곤란하다.

본 발명의 개별 문자 추출 방법에 있어서, 붙은 문자 처리 단계인 3차 개별 문자 추출(32) 과정에서는 인식기의 결과로 얻어진 인식 정합도(M₁,M₂)를 이용하여 붙은 문자를 분리하는데, 먼저 수직 방향 화소 투영값(61)을 구하여 도 7과 같이 그 값이 실험적으로 얻은 임계값 T₁보다 작고, 임계값 T₂이상으로 증가한 시점까지의 지역적인 최소값인 경우 이 위치를 분리 후보 위치로 결정한다. 몇 개의 문자가 붙어서 하나의 문자 사각형을 이룬 경우, 그 문자 사각형(60)에 대해 수직 방향 화소 투영값(61)을 구하여, 왼쪽에서 오른쪽으로 분리 후보 위치(p₀, p₁, p₂)를 찾고(63), 분리 후보 위치에 의해 임시로 분리된 문자 사각형의 두 인식정합도 M₁과M₂를 계산(64)하고 그 값이 재분리 조건(66)을 만족하면, 이 분리 후보 위치를 실제 분리 위치로 확정하여 재분리(67)를 수행한다.

도 8은 도 2에서의 개별 문자 추출 방법에 결합된 문자 인식 방법의 흐름도로, 사용된 문자 인식 방법은 대 분류(80), 상세 분류(81), 유사문자 분류(82)의 3단계로 구성되며, 한글 1500여자, 한자 2000여자, 영.수.부호 문자 100여자를 인식 대상 문자로 하는 인식기이다. 분리된 낱자 문자 영상을 입력으로 하여 우선, 대 분류(80) 단계에서 총 3600여자의 표준 문자 패턴의 24 크기 특징 벡터들과 거리 계산을 통해 거리가 가장 가까운 순으로 150개의 후보를 선별한다. 그 다음으로 상세 분류(81) 단계에서는 선택된 150개 후보의 256 크기 특징 벡터들과 비교하여 유사도(즉 인식 정합도 M1) 계산을 통하여 유사도가 가장 큰순으로 10개의 후보를 선택한 후, 다음으로 유사문자 분류(82) 단계에서 10개의 후보 문자들의 128 크기 특징 벡터들의 서로 상이한 부분(exclusive-OR)만을 비교하여 개별 문자 분리시 붙거나 겹침으로 인해 발생되는 잡영(noise)에 상관없이 인식 정합도 M₂를 얻을 수 있다.

상술한 상세 분류와 유사 문자 분류를 통해 계산된 두 인식 정합도 M₁,M₂는 다음과 같이 수식으로 표현되며, 이는 개별 문자 추출시에 사용된다.

M₁= ∑_k d( V_in(k) , V_i(k) )

M₂= ∑_p d( V_in(p) , V_i(p) )

여기서 d는 city-block 거리 계산법을 나타내며, V_in은 입력 문자 영상의 특징벡터이고, V_i는 i번째 후보 문자의 특징벡터이고, k 는 0에서 255값의 256 크기 특징벡터의 위치값이고, p는 10개의 후보 문자간 서로 상이한 부분(exclusive-OR)을 나타낸다.

이상과 같이 본 발명에 의하면, 기존의 다양한 폰트 크기, 하나의 글자가 두 조각으로 가로 분리되는 문자, 그리고 붙은 문자나 겹친 문자와 같은 다국어 문서에서 많이 발생되는 문자 분리시의 어려움을 해결하기 위해 본 발명은 한글, 한자, 영·수·부호 문자가 혼용된 다국어 문서 인식을 위한 전처리 단계로서 다단계 문서 인식기를 통해 얻어진 결과값을 이용한 개별 문자 추출 방법 및 그 인식 시스템을 제공하므로서 혼용 문서에서 많이 발생되는 겹친 문자 및 붙은 문자의 분리를 효과적으로 수행하여 궁극적으로 전체 인식기의 성능을 향상시킬 수 있다.

Claims

입력 수단인 광학 스캐너(12)를 스캐너 제어부(13)에 의해 구동하여 한글, 한자 및 영·수·부호 문자로 구성된 다국어 문서 영상(10)을 입력하거나, 이미 압축영상 등의 형태로 저장된 다국어 문서 영상(11)을 읽어 문서 영역 분리부(14), 개별 문자 분리부(15) 및 문자 인식부(16)로 구성된 문서 처리부(17)에서 수행되는 것을 특징으로 하는 다국어 문서 인식 시스템.
입력된 문서 영상(20)에서 문자 영역을 추출하는 단계(21)와; 상기 추출된 문자 영역에서 문자열을 추출하는 단계(22)와; 상기 추출된 문자열 영상에서 문자 인식기(24)의 결과값을 이용하여 개별 문자를 추출하는 단계(23)으로 이루어지는 것을 특징으로 하는 다국어 문서 인식을 위한 개별 문자 추출 방법.
제 2항에 있어서, 개별 문자 추출 단계(23)은;

수직 방향 화소 투영 단계(41)와 문자 사각형의 정보 계산 단계로(43)로 구성되는 1차 문자 추출 과정(31)과;

두 조각 이상으로 가로 분리된 문자를 병합하기 위해 병합여부를 판정하는 판정단계(51,53)와 상기 판정 단계(51,53)의 판정 결과에 따라 인접 문자 사각형을 병합하는 단계(54)로 구성되는 2차 문자 추출과정(32)과;

붙은 문자나 겹친 문자를 재 분리하기 위해 그 여부를 판정하는 판정단계(62,66)와 그에 따라 붙은 문자/겹친 문자를 재분리하는 단계(67)로 구성되는 3차 문자 추출 과정(33)으로 수행되는 것을 특징으로 하는 다국어 문서 인식을 위한 개별 문자 추출 방법.
제 3항에 있어서, 병합 여부 판정 단계(53)와 붙은 문자 판정 단계(66)시, 대분류 단계(80), 상세 분류 단계(81), 유사문자 분류 단계(82)로 이루어지는 다단계 분류 방법의 문자 인식기(24)의 결과값을 이용하여 병합 처리와 붙은 문자 처리를 수행하는 것을 특징으로 하는 다국어 문서 인식을 위한 개별 문자 추출 방법.