KR20040038384A

KR20040038384A - 한자 영상 군집화를 통한 고문서 입력 및 교정 시스템

Info

Publication number: KR20040038384A
Application number: KR1020020067286A
Authority: KR
Inventors: 신보철
Original assignee: (주)동방에스앤씨
Priority date: 2002-10-31
Filing date: 2002-10-31
Publication date: 2004-05-08

Abstract

본 발명은 대량의 고문서로부터 한자를 인식하고 서로 유사한 한자 영상들끼리 군집화하여 입력 및 교정 작업을 군집 단위로 일괄적으로 수행할 수 있는 시스템을 개발하기 위한 것으로,

스캐닝한 고문서에 대해 잡영 제거 및 기울어짐 교정을 수행하고 각 한자의 영역을 추출하여 한자별로 분할하는 영상 전처리 및 한자 분할 모듈; 분할된 한자들을 문자 인식하고 동일한 한자들끼리 군집화하여 디스플레이하는 필기한자 인식기반 영상 군집화 모듈; 및 자동입력 모드가 설정된 경우는 군집화된 한자들에 해당하는 문자들을 키입력 없이 자동으로 텍스트 파일에 일괄 입력하고, 수동입력 모드가 설정된 경우는 군집의 선택 및 입력을 지시하는 키입력에 따라 선택된 군집에 속한 한자들에 해당하는 문자들를 텍스트 파일에 일괄 입력하는 군집 결과의 검증 및 입력 모듈;을 포함하는 것을 특징으로 하는 한자 영상 군집화를 통한 고문서 입력 및 교정 시스템을 제공함으로써,

수작업 입력으로 이루어지던 기존의 방법에 비하여 비약적인 작업 속도 향상 및 처리율 개선을 기대할 수 있다.

Description

한자 영상 군집화를 통한 고문서 입력 및 교정 시스템 {SYSTEM FOR INPUTTING AND CORRECTING ANCIENT DOCUMENTS THROUGH GROUPING IMAGES OF CHINESE CHARACTERS}

본 발명은 한자로 된 고문서를 입력하기 위한 시스템에 관한 것으로, 보다 상세하게는 대량의 고문서로부터 한자를 인식하고 서로 유사한 한자 영상들끼리 군집화하여 입력 및 교정 작업을 군집 단위로 일괄적으로 수행할 수 있는 시스템에 대한 것이다.

한자는 그 복잡한 구조로 인하여 OCR(Optical Character Reader)을 통한 인식 기술이 오랜 기간 동안 연구되어 왔으며, 현재 다양한 제품이 상용화되어 있다. 한국, 중국, 일본의 경우 모두 한자가 널리 사용되고 있으나, 각 나라마다 사용하는 한자가 상이하여 각자 독자적인 한자 코드체계 및 인식 시스템을 개발해오고 있는 실정이다.

중국의 대표적인 상용 OCR 소프트웨어는 청화대학에서 개발된 TH-OCR 2000을 비롯하여 DanQing OCR, SunmiPage, HanWang OCR 등이 있으며, 일본에서는 KanjiOCR, EZ Japanese Reader, ImageOffice 등이 사용되고 있다. 그러나, 이러한 상용 OCR 소프트웨어들은 인쇄체 한자의 인식을 주로 목표로 하며, 필기체 한자의 인식은 실용적으로 낮은 인식률이라는 장애요소 때문에 상용제품을 찾기 힘든 것이 현실이다.

특히 중국과 일본은 자국의 현대 한자, 즉 간자체(Simplified Chinese Character)에 대한 인식이 주류를 이루고 있기 때문에, 정자체(Traditional Chinese Character)를 사용하는 고문서에 대한 접근이 매우 어려운 현실이다.

국내에서는 퍼셉컴의 아르미, 하이아트의 글눈 등 다양한 소프트웨어가 개발되어 널리 사용되고 있으나, 대개 한글, 영문, 숫자 등에만 국한되어 쓰이고 있다. 또한, 가로쓰기 조판물에 대한 인식 시스템이 대부분이며, 필기체 인식에는 한계가 있다.

한국학 고문서는 붓을 이용한 필사본 혹은 판본이 대부분이며 세로쓰기를 기반으로 하는 독특한 문서 구조를 가지고 있다. 또한, 현대에는 사용되지 않는 글자들 및 다양한 형태의 이체자들이 존재한다. 따라서, 인쇄체 문서들의 인식을 주목적으로 하는 이들 상용 OCR 소프트웨어들은 고문서의 인식에는 적합하지 못하다.

필기체 문자 인식, 특히 필기체 한자 인식은 오랜 기간 동안 연구되어 왔으나, 아직도 인쇄체 문서 인식시스템과 같은 수준으로 상용화되기에는 부족하다. 이러한 이유로, 현재 진행되고 있는 고문서 전산화 작업은 대부분 전문 인력들에 의한 수작업을 통하여 이루어지고 있다. 수작업에 의한 전산화 방법들은 정확도뿐만 아니라, 엄청난 인건비 및 과다한 처리시간 등이 요구되는 것은 자명한 것으로, 방대한 양의 한국학 고문서의 디지털화에 적합하지 못하다.

따라서, 자동화에 의해 문서 전체를 완전하게 인식하지는 못하더라도 현재의 패턴인식 기술을 적절히 결합하여 입력 작업의 효율을 크게 증가시킨 시스템이 필요하다.

본 발명은 상기와 같은 문제를 해결하기 위해, 대량의 고문서로부터 서로 유사한 한자 영상들을 군집화하여 입력 및 교정 작업을 각 군집 단위로 일괄적으로 수행할 수 있도록 한 효율적인 고문서 입력 및 교정 시스템을 제공하기 위한 것이다.

구체적으로는 영상의 품질 개선, 비틀림 교정 및 개별 한자 영역 추출 기능, 필기한자 영상간의 유사도를 기반으로 하는 군집화 기능, 군집화 결과의 검증 및입력을 위한 효율적인 사용자 인터페이스, 직접 입력을 위한 음가/부수/획수별 유니코드 입력 기능을 구비한 고문서 입력 및 교정 시스템을 제공하는 것을 목적으로 한다.

도 1은 본 발명에 따른 고문서 입력 및 교정 시스템의 구성도,

도 2는 도 1의 구성을 더욱 상세히 도시한 도면,

도 3은 영상 전처리 및 한자 분할 모듈의 처리 과정을 예시한 도면,

도 4는 필기한자 인식기반 영상 군집화 모듈의 처리 결과를 예시한 도면,

도 5는 필기한자 인식 과정을 도시한 도면.

본 발명은 상기 목적을 해결하기 위해, 스캐닝한 고문서에 대해 잡영 제거 및 기울어짐 교정을 수행하고 각 한자의 영역을 추출하여 한자별로 분할하는 영상 전처리 및 한자 분할 모듈; 상기에서 분할된 한자들을 문자 인식하고 동일한 한자들끼리 군집화하여 디스플레이하는 필기한자 인식기반 영상 군집화 모듈; 및 자동입력 모드가 설정된 경우는 상기 군집화된 한자들에 해당하는 문자들을 키입력 없이 자동으로 텍스트 파일에 일괄 입력하고, 수동입력 모드가 설정된 경우는 군집의 선택 및 입력을 지시하는 키입력에 따라 상기 선택된 군집에 속한 한자들에 해당하는 문자들을 텍스트 파일에 일괄 입력하는 군집 결과의 검증 및 입력 모듈;을 포함하는 것을 특징으로 하는 한자 영상 군집화를 통한 고문서 입력 및 교정 시스템을 제공한다.

본 발명의 핵심 기술을 요약하면 다음과 같다.

먼저, 정확한 한자 추출을 위해 필기한자 문서의 영상 개선을 위한 전처리 및 낱자 분할 기술이 개발되었다. 한국학 고문서는 붓을 이용한 필사본이나 판본이 대부분이므로, 원본의 노후화 및 문서 영상의 품질 저하 등 한자 인식의 성능을저해하는 요소들이 많이 포함되어 있기 때문이다.

또한, 필기한자 인식을 통한 한자 영상 군집화 기술이 개발되었다. 고문서상의 필기한자를 동시에 대량으로 군집화하기 위해서는 필기한자 인식 기술이 전체 시스템의 성능을 좌우한다.

또한, 군집화된 한자 이미지들에 대하여 문자인식 기술을 통하여 문자를 자동으로 삽입하는 기능이 개발되어 키입력 없이도 군집된 낱자 이미지들에 문자 코드를 부여할 수 있는 기술이 개발되었다.

또한, 인식되지 못한 한자나 아주 소량의 한자를 입력할 경우 키보드를 통하여 빠르고 효율적으로 한자를 입력하기 위한 인터페이스가 개발되었다.

마지막으로, 원문과의 대조를 통한 검증 및 입력 인터페이스가 개발되었는 바, 잘못 분류된 한자 영상의 교정이나 출현 빈도가 낮아 군집화되지 않은 한자 영상들의 입력에 특히 유용하다.

이하에서는 본 발명의 실시예를 첨부된 도면을 참조하여 설명한다.

도 1은 본 발명에 따른 고문서 입력 및 교정 시스템의 전체적인 구성을 도시한 것이다. 영상 전처리 및 한자 분할 모듈(11)은 노후한 문서 또는 문서 영상의 스캐닝 과정에서 발생하는 영상의 비틀림(Skewing), 잡영(Noise)의 제거하고, 인식을 위하여 문서 영상을 개별적 한자 단위로 분할한다. 또한, 필기한자 인식기반 영상 군집화 모듈(12)은 분할된 모든 한자들을 인식한 후, 동일한 한자들끼리 군집화한다. 군집 결과의 검증 및 군집별 입력 모듈(13)은 입력자가 군집 결과를 검증하여 오류를 수정한 후, 각 군집에 대해 일괄적으로 문자를 입력한다.

도 2는 도 1의 시스템 구성을 더 상세하게 도시한 것이며, 이하에서는 상기 각 모듈에 대해 자세히 설명한다.

영상 전처리 및 한자 분할 모듈

상술한 바와 같이, 한국학 고문서는 원본이 노후한 상태이고 스캐닝 과정에서 많은 잡영이 발생하거나 문서 자체가 비틀어지는 경우가 일반적이며, 세로쓰기의 독특한 구조에서 나타나는 구분선이나 활자본에서 나타나는 잡영도 심각하다. 이러한 문제는 필기한자의 인식에 기반한 영상 군집화 모듈(12)의 심각한 오류를 유발하기 때문에, 영상의 전처리 부분에서 이러한 장애요소를 제거해야 한다. 그리고 개별적인 한자를 분류하기 위해서는 한자 영역 추출 과정이 필요하다.

도 3은 영상 전처리 및 한자 분할 모듈(11)의 처리 과정의 예를 도시한 것이다. 도시된 문서 영상의 예는 전형적인 세로쓰기의 예로, 많은 구분선에 의한 잡영이 잘 드러나 있고 문서의 스캐닝 과정에서 얻어진 영상이 비틀어져 있는 것을 쉽게 발견할 수 있다. 도 3의 영상 전처리 및 한자 분할 결과에서 볼 수 있듯이, 본 과정에서는 이러한 잡영 요소들을 모두 제거하며, 기울어짐을 교정하고 개별적인 한자의 영역을 추출한다. 만약, 이러한 전처리 및 한자 분할이 오류를 포함한다면, 한자의 내용을 분류하는 인식 과정에서는 잘못된 결과를 가져올 것이다.

필기한자 인식기반 영상 군집화 모듈

도 4는 필기한자 인식기반 영상 군집화 모듈(12)의 영상 군집화 결과를 예측한 것이다. 한자 영상의 군집화는 동일한 한자들은 같은 군집으로 분류하기 위한 것으로, 본 발명에서는 분할된 개별적인 한자에 필기한자 인식 기술을 적용한다. 대규모 문서 영상에서 분할된 각 영상들은 한자 인식 결과, 그 내용이 결정되고 동일한 한자들을 같은 군집으로 분류할 수 있다. 따라서 영상 군집화의 결과로 각 군집별로 많은 한자 영상들이 분류될 것이다. 도 4는 약 100,000자 정도의 한자를 포함하는 500개 문서 영상을 대상으로 한자 "之"를 모은 결과를 예측한 것이다.

도시된 바와 같이, 전체의 약 3%에 해당하는 약 2,700개의 한자가 "之" 군집으로 분류될 것이고, 맨 처음 집합(41)은 대표 한자 "之"와 가장 유사도 높은 그룹이고, 맨 나중의 집합(42)은 가장 유사도가 낮은 그룹으로 나타날 것이다. 또한, 약 95%의 인식 성능을 가지는 필기한자 인식은 오류(43)를 포함할 수 있다.

본 발명에 따른 필기한자 인식 과정은 도 5와 같이 분할된 한자 영상의 비선형 형태 정규화 과정(51), 특징 추출 과정(52), 유사도에 의한 군집 분류 과정(53)의 세 단계로 이루어진다.

ⅰ) 비선형 형태 정규화 (Nonlinear Shape Normalization)

필기한자는 필기자에 따른 위치, 크기, 방향 등의 많은 변이를 포함하고 있는데, 추출된 특징 값의 차이를 유사도 측정의 기준으로 삼는 패턴 매칭(pattern matching)에서는 형태상의 변이를 보상하고 위치를 고정시키는 것이 매우 중요하다. 이러한 제약을 개선하기 위한 비선형 형태 정규화 방법을 적용한다.

ⅱ) 특징 추출 (Feature Extraction)

필기한자 인식을 위한 특징 추출은 한자의 구조적 또는 통계적 정보들을 추출하여 사용한다. 기존의 문헌들에 대한 조사에서 필기한자 인식을 위한 특징들을 보면, 획의 개수(Stroke Count) 특징, 윤곽-화소 개수(Contour-Pixel Count) 특징, 윤곽-방향(Contour-Direction) 특징, 교차-회수(Crossing-Count) 특징, 투영(Projection) 특징 등, 매우 다양하다는 것을 알 수 있었다. 본 발명에서 제안하는 시스템이 목표로 하는 한국학 고문서는 붓을 이용한 필사본이나, 판본 등의 독특한 형태를 취하고 있으므로, 기존의 문헌에서 나타난 여러 가지 특징들을 직접 실험한 후에 가장 적합한 특징을 사용하였다.

ⅲ) 유사도(Similarity)에 의한 군집 분류

입력 한자의 유사도 검사는 미리 학습된 각 군집별 대표 한자들과의 특징점 비교를 통해, 입력 한자의 레이블(Label)을 가장 가까운 대표 한자의 레이블로 결정하는 과정이다. 이 때 다양한 거리 측정(Distance Measure) 방법들이 사용되는데, 실험을 통해 보다 좋은 분류 성능을 발휘하는 방법을 사용하면 된다.

군집 결과의 검증 및 입력 모듈

상기와 같이 군집 분류가 끝나면 군집 결과의 검증 및 입력 모듈이 수행된다. 컴퓨터에 의한 한자 영상 자동 군집화의 결과는 성능에 따라 분할 오류 또는 인식 오류 등을 포함한다. 따라서, 입력자는 최종적인 군집별 입력 이전에, 군집화 결과를 검증하는 단계를 수행해야 한다. 이 때 발견된 오류들은 배제 연산을 통해 군집별 일괄 입력에서 제외된다.

위에서 예측한 한자 "之"에 대한 군집화 결과의 예를 보면, 2,711개의 한자가 분류되었는데 입력자는 5개의 분류 오류를 발견하게 될 것이다. 입력 모드는 사용자가 자유로이 "자동입력 모드"와 "수동입력 모드"를 선택하여 설정할 수 있으며, "자동입력 모드"가 설정되어 있으면 문자인식을 통한 자동입력을 통해 키에 의한 입력 없이 문자를 자동으로 부여하게 되고, "수동입력 모드"가 설정되어 있으면 입력을 지시하는 1번의 키입력에 따라 한자 "之" 군집에 대한 입력이 수행된다. 입력 결과는 이와 동시에 각 한자들이 포함된 텍스트 문서에 반영된다. 또한, 5개의 오류들은 군집별 일괄 입력에서 제외된다.

이전의 수작업 환경에서는 입력자가 500개의 문서 영상에 대해 입력할 경우 한자 "之"에 대한 입력을 2,706번 수행했어야 하는데, 본 발명에 따라 한자 영상 자동 군집 시스템이 결합된 환경에서는 "수동입력 모드"인 경우 5번의 오류 제거 작업과 1번의 입력 작업이, "자동입력 모드"인 경우 5번의 오류 제거 작업만이 필요하다. 이와 같이 대용량의 한자 입력을 수 번의 수작업 입력으로 대체할 수 있는 기능이 본 발명의 핵심적인 특징이라고 할 수 있다. 동시에 처리하는 문서의 양이 늘어날수록 처리 속도에 대한 효율성은 더욱 증가하는 결과를 보일 것이다.

또한, 소량의 한자나 자동 인식되지 못한 한자의 직접 입력을 위한 모듈이 부가될 수 있으며, 한자 이외의 문자에도 적용 가능하다는 것은 당업자에게 자명한 일일 것이다.

본 발명에 의하면, 문서에 존재하는 개별적인 한자를 반복적으로 입력하는 대신 키입력 없이 자동으로 혹은 해당 군집별로 한번의 입력 과정을 통해 군집내의 모든 한자를 동시에 입력할 수 있으므로, 수작업 입력으로 이루어지던 기존의 방법에 비하여 비약적인 작업 속도 향상 및 처리율 개선을 기대할 수 있다. 본 발명의 실험 결과에 따르면 입력 작업에 소요되는 비용이 약 66% 감소하였으며, 투입 인력도 약 66% 감소하는 효과가 있었다.

본 발명은 국가기관, 대학 및 연구기관 등에 소장된 한국학 고문헌 자료의 디지털화에 사용될 수 있다. 이 경우 기존의 방법에 비해 대규모 한자 자료 입력에 대한 비용 절감 및 작업기간 단축 효과를 볼 수 있으며, 웹을 통한 한국학 고문서 컨텐츠의 열람 및 검색 서비스의 구축이 가능하다.

현재 방대한 양의 고문서 자료들이 전산화 작업을 기다리고 있다. 또한, 이러한 고문서들은 중국이나 일본등의 경우에도 상당히 유사함을 고려해볼 때, 독자적인 기술개발을 통하여 노하우를 축적할 경우 국내뿐 아니라 외국의 유사한 사업들에 진출할 수 있는 발판이 될 것이다.

Claims

한자를 포함한 고문서의 입력 및 교정 시스템에 있어서,

스캐닝한 고문서에 대해 잡영 제거 및 기울어짐 교정을 수행하고 각 한자의 영역을 추출하여 한자별로 분할하는 영상 전처리 및 한자 분할 모듈;

상기에서 분할된 한자들을 문자 인식하고 동일한 한자들끼리 군집화하여 디스플레이하는 필기한자 인식기반 영상 군집화 모듈; 및

자동입력 모드가 설정된 경우는 상기 군집화된 한자들에 해당하는 문자들을 키입력 없이 자동으로 텍스트 파일에 일괄 입력하고, 수동입력 모드가 설정된 경우는 군집의 선택 및 입력을 지시하는 키입력에 따라 상기 선택된 군집에 속한 한자들에 해당하는 문자들을 텍스트 파일에 일괄 입력하는 군집 결과의 검증 및 입력 모듈;을 포함하는 것을 특징으로 하는 한자 영상 군집화를 통한 고문서 입력 및 교정 시스템.
제 1 항에 있어서,

상기 필기한자 인식기반 영상 군집화 모듈은, 각 군집에 속하는 한자들을 유사도에 따라 복수의 그룹으로 나누어 디스플레이하는 것을 특징으로 하는 한자 영상 군집화를 통한 고문서 입력 및 교정 시스템.
제 1 항에 있어서,

상기 필기한자 인식기반 영상 군집화 모듈은, 각 한자를 비선형 형태로 정규화하는 과정, 각 한자들의 특징 추출 과정, 상기 추출된 특징을 이용하여 각 군집을 대표하는 패턴과의 유사도에 따라 군집별로 분류하는 과정을 수행하는 것을 특징으로 하는 한자 영상 군집화를 통한 고문서 입력 및 교정 시스템.
제 1 항에 있어서,

군집 결과의 검증 및 입력 모듈은, 상기 군집화된 한자 중 분류 오류가 있는 한자에 대해 배제를 지시하는 키입력이 있는 경우, 상기 일괄 입력에서 해당 한자를 제외하는 것을 특징으로 하는 한자 영상 군집화를 통한 고문서 입력 및 교정 시스템.
제 4 항에 있어서,

상기 분류 오류가 있는 한자를 개별적으로 입력할 수 있는 인터페이스를 구비한 개별 입력 모듈을 더 포함하는 것을 특징으로 하는 한자 영상 군집화를 통한 고문서 입력 및 교정 시스템.