KR102282025B1

KR102282025B1 - 컴퓨터를 이용한 문서 분류 및 문자 추출 방법

Info

Publication number: KR102282025B1
Application number: KR1020210017725A
Authority: KR
Inventors: 안태준
Original assignee: 로지스원 주식회사
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-07-28
Also published as: KR102282025B9

Abstract

본 발명의 일 실시예에 따르면, 컴퓨터 장치를 이용한 문자 추출 방법으로서, 컴퓨터로 읽을 수 있는 형태로 문서를 입력받는 단계; 및 상기 입력된 문서에서 문자를 인식하는 단계;를 포함하고, 상기 문자를 인식하는 단계는, 상기 문서에 표시된 실제 라인 또는 가상의 라인에 따른 복수개의 영역을 인식하고 인식된 각각의 영역 단위로 문자를 인식하는 것을 포함하는, 컴퓨터를 이용한 문자 추출 방법을 개시한다.

Description

컴퓨터를 이용한 문서 분류 및 문자 추출 방법 {Method for automatically sorting documents and extracting characters by using computer}

본 발명은 컴퓨터를 이용한 문서처리 장치 및 방법에 관한 것으로, 보다 상세하게는, 문서를 다수의 영역으로 구획하고 영역기반으로 문서를 분류하고 문자를 추출할 수 있는 문서처리 장치 및 방법에 관한 것이다.

일반적으로 기업과 기업 사이의 거래에서는 거래명세표와 같은 거래증빙서류가 필수적으로 사용되고 있으며, 대부분의 기업에서는 이러한 거래증빙서류를 업체별로 분류하여 관리하거나 거래품목별로 분류하여 관리하고 있다.

과거에는 물류업무 수행을 위해 기업간 교환하는 다양한 양식의 문서를 처리하기 위해 많은 인력이 수작업에 의존하였으나 최근에는 광학문자인식(Optical character recognition: OCR) 등과 같은 컴퓨터 비전 기술의 발전에 따라 문서 이미지에서 문자를 추출하고 추출한 문자에 기반하여 문서를 분류하는 기술이 사용되고 있다.

그러나 이러한 컴퓨터 비전 기술의 발달에도 불구하고 현실의 물류 업무에는 업체별로 각기 다른 양식을 정의하여 사용하는 경우가 많고 통일된 표준 문서 양식이 거의 사용되지 않으므로 각기 다른 양식의 문서를 OCR 방식으로 처리하는데 한계가 있고 문자 인식의 오차도 커서 신속한 물류 처리를 방해하는 요인이 되고 있다.

특허문헌1: 한국 공개특허 제2011-0011538호 (2011년 2월 8일 공개) 특허문헌2: 한국 공개특허 제2007-0011970호 (2007년 1월 25일 공개) 특허문헌3: 한국 등록특허 제10-1585029호 (2016년 1월 7일 등록)

본 발명은 상기 문제를 해결하기 위한 것으로, 다양한 양식의 문서를 영역 기반으로 인식하여 양식을 식별하고 문자를 추출함으로써 문서 분류 및 키워드와 밸류의 추출을 보다 정확하고 신속하고 수행할 수 있는 문서처리 방법 및 장치를 제공하는 것을 목적으로 한다.

일 실시예에서, 상기 문자를 인식하는 단계는, 인식된 영역에서 모든 문자를 추출하는 단계; 추출된 문자를 키워드와 밸류로 구분하는 단계; 및 구분된 키워드와 밸류를 각각 데이터베이스에 저장하는 단계;를 포함할 수 있다.

일 실시예에서, 상기 문자를 인식하는 단계가 인식된 문자를 검증하는 단계를 더 포함할 수 있다.

일 실시예에서, 문자 추출 방법은 상기 입력된 문서를 문서 양식에 따라 분류하는 단계를 더 포함하고, 문서 분류 결과 상기 입력된 문서가 기저장된 양식에 속하는 경우, 상기 문자를 인식하는 단계에서, 상기 기저장된 양식의 영역 정보를 참조하여 문자를 인식할 수 있다.

본 발명의 일 실시예에 따르면, 컴퓨터 장치를 이용한 문자 추출 방법으로서, 컴퓨터로 읽을 수 있는 형태로 문서를 입력받는 단계; 상기 입력된 문서의 문서 양식을 식별하는 단계; 및 상기 입력된 문서에서 문자를 인식하는 단계;를 포함하고, 상기 문서 양식을 식별하는 단계는, 상기 입력된 문서에 라인이 표시되어 있지 않은 경우, 사용자 지정에 의해 상기 문서에 가상의 라인을 설정하여 복수개의 영역으로 구획하고 상기 복수개의 영역에 기초하여 상기 입력된 문서가 기저장된 양식에 속하는지 여부를 판단하는 단계를 포함하고, 상기 문자를 인식하는 단계는, 구획된 각각의 영역 단위로 문자를 인식하는 것을 특징으로 하는, 컴퓨터를 이용한 문자 추출 방법을 개시한다.

일 실시예에서, 상기 문자를 인식하는 단계가, 상기 각 영역에 대해, 영역에서 모든 문자를 추출하는 단계; 추출된 문자를 키워드와 밸류로 구분하는 단계; 및 구분된 키워드와 밸류를 각각 데이터베이스에 저장하는 단계;를 포함할 수 있다.

일 실시예에서, 상기 문서 양식을 식별하는 단계에서 라인이 표시되어 있지 않은 상기 문서가 기저장된 양식에 속하지 않는다고 판단한 경우, 상기 문서의 양식을 신규 양식으로 등록하는 단계를 더 포함하고, 상기 신규 양식은 상기 가상의 라인에 의해 구획된 복수개의 영역에 관한 영역정보를 포함할 수 있다.

본 발명의 일 실시예에 따르면, 물류산업에서 교환되는 업체별 상이한 양식의 다수의 문서를 자동으로 식별하고 이에 따라 손쉽게 문자를 추출하여 물류 시스템과 손쉽게 연동하여 활용함으로써 물류업무 담당자가 문서를 눈으로 보고 식별하고 판단하여 시스템에 수작업 입력하던 일을 자동화하여 효율적인 업무처리가 가능해지는 이점이 있다.

도1은 본 발명의 일 실시예에 따른 문서 분류 및 문자 추출 시스템의 블록도,
도2는 일 실시예에 따른 문서 분류 및 문자 추출 방법의 흐름도,
도3 및 도4는 일 실시예에 따른 문서양식 식별 방법을 설명하는 흐름도,
도5 내지 도7은 일 실시예에 따른 문서양식 식별 방법을 설명하는 도면,
도8은 대안적 실시예에 따른 문서양식 식별 방법을 설명하는 흐름도,
도9는 일 실시예에 따른 문자 인식 방법을 설명하는 도면,
도10은 일 실시예에 따른 문자 검증 방법을 설명하는 도면이다.

이상의 본 발명의 목적들, 다른 목적들, 특징들 및 이점들은 첨부된 도면과 관련된 이하의 바람직한 실시예들을 통해서 쉽게 이해될 것이다. 그러나 본 발명은 여기서 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시예들은 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다.

본 명세서에서 제1, 제2 등의 용어가 구성요소들을 기술하기 위해서 사용된 경우, 이들 구성요소들이 이 같은 용어들에 의해서 한정되어서는 안된다. 이들 용어들은 단지 어느 구성요소를 다른 구성요소와 구별시키기 위해서 사용되었을 뿐이다. 여기에 설명되고 예시되는 실시예들은 그것의 상보적인 실시예들도 포함한다.

본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '~를 포함한다', '~로 구성된다', 및 '~으로 이루어진다'라는 표현은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.

본 명세서에서 용어 '소프트웨어'는 컴퓨터에서 하드웨어를 움직이는 기술을 의미하고, 용어 '하드웨어'는 컴퓨터를 구성하는 유형의 장치나 기기(CPU, 메모리, 입력 장치, 출력 장치, 주변 장치 등)를 의미하고, 용어 '단계'는 소정의 목을 달성하기 위해 시계열로 연결된 일련의 처리 또는 조작을 의미하고, 용어 '컴퓨터 프로그램', '프로그램‘, 또는 '알고리즘'은 컴퓨터로 처리하기에 합한 명령의 집합을 의미하고, 용어 '프로그램 기록 매체'는 프로그램을 설치하고 실행하거나 유통하기 위해 사용되는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 의미한다.

본 명세서에서 발명의 구성요소를 지칭하기 위해 사용된 '~부', '~모듈', '~유닛', '~블록', '~보드' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 물리적, 기능적, 또는 논리적 단위를 의미할 수 있고 이는 하나 이상의 하드웨어나 소프트웨어 또는 펌웨어로 구현되거나 또는 하나 이상의 하드웨어, 소프트웨어, 및/또는 펌웨어의 결합으로 구현될 수 있다.

본원 명세서에서, '처리장치', '컴퓨터', '컴퓨팅 장치', '서버 장치', '서버'는 윈도우, 맥, 또는 리눅스와 같은 운영체제, 컴퓨터 프로세서, 메모리, 응용프로그램들, 기억장치(예를 들면, HDD, SDD), 및 모니터를 구비한 장치로 구현될 수 있다. 컴퓨터는 예를 들면, 데스크톱 컴퓨터나 노트북과 같은 것일 수 있으나, 이들은 예시적인 것으로 본원 발명은 데스크톱 컴퓨터나 노트북에만 한정되는 것이 아니다. 모바일 단말기는 스마트폰, 태블릿 PC, 또는 PDA와 같은 모바일 무선통신기기 중 하나일 수 있다.

이하 도면을 참조하여 본 발명을 상세히 설명하도록 한다. 아래의 특정 실시예들을 기술하는데 있어서 여러 가지의 특정적인 내용들은 발명을 더 구체적으로 설명하고 이해를 돕기 위해 작성되었다. 하지만 본 발명을 이해할 수 있을 정도로 이 분야의 지식을 갖고 있는 독자는 이러한 여러 가지의 특정적인 내용들이 없어도 사용될 수 있다는 것을 인지할 수 있다. 또한 발명을 기술하는 데 있어서 공지 또는 주지관용 기술이면서 발명과 크게 관련 없는 부분들은 본 발명을 설명하는 데 있어 혼돈을 막기 위해 기술하지 않음을 미리 언급해 둔다.

도1은 본 발명의 일 실시예에 따른 문서 분류 및 문자 추출 시스템의 블록도이다. 도1을 참조하면, 일 실시예에 따른 문서 분류 및 문자 추출 시스템(이하 간단히 "문서처리 시스템"이라고도 함)은 문서처리장치(10) 및 이와 데이터를 주고받을 수 있는 데이터 저장부(20)를 포함한다.

문서처리장치는 통상적인 범용 컴퓨터로 구현될 수 있고 데이터 저장부(20)는 데이터베이스 시스템 등으로 구현될 수 있으나 이에 제한되는 것은 아니며, 예컨대 대안적 실시예에서 문서처리장치(10)가 문서처리 전용의 컴퓨터로 구현될 수도 있다. 문서처리장치(10)는 도2 내지 도10을 참조하여 후술할 문서처리 동작을 위한 하나 이상의 응용 프로그램을 실행할 수 있다.

일 실시예에서 문서처리장치(10)는 컴퓨터로 읽을 수 있는 형태의 문서 파일을 입력 받고 이 문서 파일에서 문자를 인식하고 추출하며 또한 문서의 양식을 인식하여 기저장된 양식과 매칭하여 문서의 양식을 식별할 수 있다. 이 때 본 명세서에서 "컴퓨터로 읽을 수 있는 형태의 문서 파일"은 컴퓨터에 입력 가능한 형태의 문서 파일로서, 예를 들어 JPG, TIF 등의 확장자를 갖는 이미지 파일 또는 PDF 등 소정 소프트웨어로 읽을 수 있는 파일일 수 있고, 또 다른 예로서, 예컨대 워드프로세서, 파워포인트 등 임의의 문서작성 프로그램으로 작성한 파일일 수도 있다.

이러한 문서(이하에서는 특별한 구별 실익이 없는 한 "문서 파일"과 "문서"를 동일한 의미로 사용한다)를 문서처리장치(10)로 입력하는 방식도 다양할 수 있다. 예를 들어 실물의 문서를 스캔하여 이미지 파일로 변환하여 문서처리장치(10)에 입력할 수 있고, 문서 파일을 이동식 저장수단(예컨대 USB 메모리 등)을 이용하여 문서처리장치(10)로 전송하거나 또는 인터넷이나 팩스 등의 유선/무선 통신망을 통해 전송할 수도 있다.

한편 본 명세서에서 문서처리장치(10)가 문서에서 인식하는 "문자"는 언어의 알파벳(자음 또는 모음을 나타내는 문자) 뿐만 아니라 숫자, 특수기호 등 다양한 식별기호도 포함함을 이해할 것이다. 또한 본 명세서에서 특별히 구별의 실익이 없는 한 문자의 "인식", "식별", "판독", "검출", 및 "추출"을 동일한 의미로 사용하기로 한다.

일 실시예에서 데이터 저장부(20)는 문서처리장치(10)와 유선 및/또는 무선으로 통신 가능하게 연결되고 데이터를 주고받을 수 있다. 일 실시예에서 데이터 저장부(20)는 문서양식 저장부(21), 문자인식 저장부(22), 및 문서 저장부(23)를 포함한다..

문서양식 저장부(21)는 다양한 문서의 각각의 양식(템플릿)을 저장한다. 각각의 문서양식은 이 양식을 다른 양식과 구별하는 고유의 식별 정보(예컨대 식별번호)를 가질 수 있다. 문서양식 저장부(21)는 각 문서양식마다 해당 양식을 정의하는 양식정보를 대응시켜 저장한다. 일 실시예에서 각 문서양식의 양식정보는 키(key) 정보와 영역정보를 포함한다.

여기서 "키"(또는 "키워드"라고도 함)는 문서 내의 각 항목을 지정하는 문자로서, 예를 들어 문서가 거래명세표, 견적서, 청구서 등의 문서들인 경우 키는 "seller"(판매자), "buyer"(구매자), "consignor"(송하인), "consignee"(수취인), "date", "departure", "address" 등 해당 문서 내에서 각 항목을 표시하는 문자이다.

각종 문서에 사용되는 전형적인 키들은 키워드 사전 형식으로 키워드 저장부에 등록될 수 있고, 문서처리장치(10)가 새로운 문서를 입력 받아 처리할 때 키워드 사전에 없는 새로운 키를 인식한 경우 이 새로운 키를 키워드 저장부에 추가하여 업데이트 할 수 있다.

영역정보는 문서 내에서 각각의 키와 이에 대응하는 밸류(value)가 기록되는 영역을 정의하는 정보이다. 여기서 "밸류"는 각각의 키 항목에 기재되는 구체적인 데이터로서, 예컨대 seller, buyer, address 등의 키에는 각각 판매자와 구매자의 성명이나 명칭 및 주소 등이 기재되는데 이러한 성명이나 명칭, 주소 등이 각각의 키에 대응하는 밸류가 된다. 영역정보는 문서내 각 영역의 위치, 크기, 각 영역에 할당된 키, 각 키들의 위치 등에 관한 정보를 포함할 수 있다.

한편 문서처리장치(10)는 문서를 처리하며 각 키에 대해 밸류를 검출할 때마다 밸류를 사전 형식으로 밸류 저장부에 등록할 수 있고, 문서처리장치(10)가 새로운 문서를 입력 받아 처리할 때 밸류 사전에 없는 새로운 밸류를 인식할 경우 이 새로운 밸류를 밸류 저장부에 추가하여 업데이트할 수 있다.

문자인식 저장부(22)는 문서처리장치(10)가 문서에서 문자를 식별하여 추출한 데이터를 저장한다. 예를 들어, 문서처리장치(10)는 광학문자인식(OCR) 방식으로 문서에서 키와 밸류에 해당하는 문자들을 추출하고 이 문자들을 문자인식 저장부(22)에 저장할 수 있다. 일 실시예에서 문서처리장치(10)는 OCR 방식으로 문서에서 문자를 추출한 후 키와 밸류를 구분하여 문자인식 저장부(22)에 저장할 수 있고, 대안적 실시예에서, 키와 밸류의 구분 없이 문자인식 저장부(22)에 저장할 수 있다.

문서 저장부(23)는 문서처리장치(10)가 처리한 문서에 관한 정보를 저장할 수 있다. 예를 들어 문서 저장부(23)는 각각의 문서에 대해 이 문서의 식별번호, 문서의 양식(예컨대, 해당 양식의 식별정보) 및 문서에서 추출한 키/밸류 데이터를 포함할 수 있다.

일 실시예에서 문서처리장치(10)는, 임의의 문서를 처리하여 문자(키와 밸류)를 모두 검출하면 검출된 키와 밸류를 문자인식 저장부(22)에 임시 저장하고, 해당 문서의 양식을 식별하여 특정 양식임을 확인하면 상기 문자인식 저장부(22)에 임시 저장되어 있는 문자를 해당 양식의 키정보와 영역정보에 기초하여 키와 밸류로 매칭시켜 최종적으로 문서 저장부(23)에 저장시킬 수 있다.

이하에서는 상술한 문서처리 시스템에 의한 예시적인 문서 분류 및 문자 추출 방법(이하 간단히 "문서처리방법"이라고도 함)을 도2 내지 도10을 참조하여 설명하기로 한다.

도2는 일 실시예에 따른 문서 분류 및 문자 추출 방법(문서처리방법)의 흐름도이다.

도2를 참조하면, 일 실시예에 따른 문서처리방법은 문서처리장치(10)가 문서를 입력받는 단계(S10), 입력된 문서를 전처리하는 단계(S15), 입력된 문서에서 문자를 추출하는 단계(S20), 입력된 문서의 양식을 식별하는 단계(S30), 문서의 양식이 기저장된 양식이 아닌 경우 해당 양식을 신규 양식으로 등록하는 단계(S50), 문서의 양식이 기저장된 양식이거나 또는 신규 양식을 등록한 경우, 추출된 문자를 영역기반 문자인식 방법에 의해 키와 밸류로 구분하여 인식하는 단계(S60), 및 해당 문서와 이 문서에서 인식된 키/밸류를 데이터 저장부(20)에 저장하는 단계(S70)를 포함할 수 있다.

이러한 문서처리방법을 구체적으로 살펴보면, 우선 단계(S10)에서, 문서처리장치(10)가 문서(이하 "처리대상 문서"라고도 함)를 입력 받는다. 이 때 문서처리장치(10)는 처리대상 문서를 예컨대 이미지 파일 등 컴퓨터가 읽을 수 있는 형태로 입력 받는다.

그 후 문서처리장치(10)는 처리대상 문서를 전처리하는 단계(S15)를 포함할 수 있다. 문서 전처리는 문서에서 문자를 가능한 오류없이 식별하고 추출할 수 있도록 사전 작업하는 것으로, 예를 들어 기울기 조정, 노이즈(도트, 배경문양 등) 제거, 음영 보정, 밝기 보정, 컬러 보정 등의 작업 중 적어도 하나를 포함할 수 있다. 이러한 전처리 작업은 당업계에 공지되었으므로 설명을 생략한다. 다음으로, 단계(S20)에서 처리대상 문서에서 문자를 추출한다. 이 단계(S20)에서 예를 들어 광학문자인식(OCR) 판독법 등의 공지의 문자판독 기술을 이용하여 문자를 추출할 수 있다.

그 후 단계(S30)에서 처리대상 문서의 문서 양식을 식별한다. 일 실시예에서 문서양식 식별 단계(S30)는 문서에서 키(키워드)를 인식하고 인식된 키에 관한 정보("키정보")에 기초하여 해당 문서가 기저장된 문서양식 중 어느 양식에 해당하는지 판단할 수 있다. 대안적으로, 문서양식 식별 단계(S30)는 문서에서 각 항목을 구별하는 라인(선)을 인식하고 문서를 각 항목의 영역별로 구획하고 이렇게 구획된 영역에 관한 정보("영역정보")에 기초하여 해당 문서가 기저장된 문서양식 중 어느 양식에 속하는지 판단할 수 있다. 또 다른 대안적 실시예에서, 문서양식 식별 단계(S30)는 문서에서 키(키워드) 및 라인(선)을 인식하여 키정보와 영역정보를 생성한 후 이를 포함하는 양식정보에 기초하여 해당 문서가 기저장된 문서양식 중 어느 양식에 속하는지 판단할 수 있고, 이 때 양식정보는 문서에서 추출한 키에 관한 키정보 및 영역에 관한 영역정보 중 적어도 하나를 포함한다. 이러한 양식 식별 단계(S30)의 예시적 방법에 대해서는 도3 내지 도8을 참조하여 후술하기로 한다.

단계(S30)에서 양식 식별 결과 처리대상 문서가 데이터 저장부(20)에 기저장된 양식인 경우(S40_Yes) 문서처리장치(10)는 처리대상 문서에서 영역기반 문자인식을 수행한다(S60). 예를 들어 이 단계(S60)에서 처리대상 문서의 양식을 데이터 저장부(20)로부터 불러와서 양식 정보를 참조하여(예컨대 문서 내에서 각 항목별 영역의 위치 및 키(키워드)의 위치 등을 참조하여) 각 영역마다 키와 밸류를 인식하고 인식한 키 또는 밸류에 오류가 있는지 여부를 검증할 수 있다. 영역기반 문자인식 단계(S60)의 예시적 방법에 대해서는 도9를 참조하여 후술하기로 한다.

단계(S30)에서 양식 식별 결과 처리대상 문서가 데이터 저장부(20)에 기저장된 양식이 아니라면(S40_No) 문서처리장치(10)는 이 처리대상 문서의 양식을 신규 문서양식으로서 데이터 저장부(20)에 등록한 후(S50) 영역기반 문자인식 단계(S60)를 수행할 수 있다. 이 때 신규 문서양식은 예컨대 단계(S30)에서 생성한 양식정보에 의해 정의될 수 있고 이 신규 문서양식에 다른 기저장된 문서양식과 구별되는 새로운 식별정보가 부여될 수 있다.

영역기반 문자인식 단계(S60)에서 처리대상 문서 내의 키와 밸류를 모두 인식하고 검증한 후, 단계(S70)에서 처리대상 문서의 처리결과를 저장한다. 예를 들어, 처리대상 문서의 양식 및 키와 밸류 등의 정보를 문서 저장부(23)에 저장하고, 또한 새로운 키나 밸류를 인식한 경우 각각 키워드 저장부와 밸류 저장부에 추가하여 키워드 저장부와 밸류 저장부를 업데이트할 수 있다.

이제 도2의 양식 식별 단계(S30)의 예시적 방법을 도3 내지 도7을 참조하여 설명하기로 한다. 도3 및 도4는 일 실시예에 따른 문서양식 식별 방법을 설명하는 흐름도이고 도5 내지 도7은 일 실시예에 따른 문서양식 식별 방법을 설명하기 위한 예시적 문서를 개략적으로 도시하였다.

도면을 참조하면, 일 실시예에 따른 양식 식별 단계(S30)는 처리대상 문서에서 인식된 키워드에 기초하여 키정보를 생성하는 단계(S310), 처리대상 문서에서 (문서에 라인이 있는 경우) 라인을 인식하는 단계(S320), 인식된 라인에 기초하여 각 항목별 영역을 정의하는 영역정보를 생성하는 단계(S330), 및 키정보와 영역정보를 포함하는 양식정보에 기초하여 기저장된 문서양식과 비교하는 단계(S340)를 포함할 수 있다.

일 실시예에서 문서처리장치(10)는 처리대상 문서에서 키정보를 생성하는 단계(S310)와 라인을 인식하여 영역정보를 생성하는 단계(S320,S330)를 동시에 또는 순차적으로 수행할 수 있고, 키정보 생성과 영역정보 생성의 실행 순서가 바뀔 수도 있다.

키정보 생성 단계(S310)에서, 문서처리장치(10)는 도2의 문자 추출 단계(S20)에서 추출한 문자들 중에서 키(키워드)를 추출한다. 예를 들어 문서처리장치(10)는 데이터 저장부(20)의 키워드 저장부를 사전으로 이용하여, 문서에서 추출한 문자들 중에서 키를 인식할 수 있고 이렇게 인식된 키에 관한 정보(키정보)를 생성한다. 키정보는 단순히 인식된 키들의 리스트일 수도 있고, 대안적으로, 인식한 각각의 키의 위치, 즉 처리대상 문서 내에서 각 키의 특정 지점(예컨대 키의 중앙 포인트 또는 키의 좌측 상단 포인트 등)의 위치에 관한 정보를 포함할 수 있다.

라인을 인식하고(S320) 인식된 라인에 의해 영역정보를 생성하는 단계(S330)에서, 문서처리장치(10)는 처리대상 문서에 표시된 라인에 따라 복수개의 영역을 인식하여 영역을 정의하고 이렇게 정의된 영역에 관한 정보(영역정보)를 생성할 수 있다.

이와 관련하여 도5 내지 도7은 처리대상 문서에 라인이 표시된 경우 라인을 식별하여 영역을 정의하는 예시적 방법을 나타내었다. 도5를 참조하면, 문서처리장치(10)가 처리대상 문서에 표시된 모든 라인을 인식하여 추출한다. 예컨대 도5에 도시한 것처럼 문서에서 수직 라인(Lv1, Lv2, Lv3, Lv4) 및 수평 라인(Lh1, Lh2, Lh3, Lh4, Lh5, Lh6, Lh7)을 인식하여 추출할 수 있고, 이렇게 추출한 라인들을 도6에 도시하였다. 그 후 문서처리장치(10)는 추출한 라인들 중 영역 정의를 위한 라인을 제외한 라인을 노이즈로 판단하여 제거한다. 예를 들어 도6에서, 인식된 라인들 중 제4 수평라인(Lh4)은 문서 제목("COMMERCIAL INVOICE")을 표시하는 라인이고, 제5 수평 라인(Lh5)은 글자들이 가깝게 붙어 있어서 글자들이 라인으로 인식된 것이고, 제6 수평 라인(Lh6)은 물품 아이템과 합계 금액 영역을 구분하는 라인이고, 그리고 제7 수평라인(Lh7)은 서명란을 표시하는 라인이며, 이들 라인(Lh4, Lh5, Lh6, Lh7)은 영역을 정의하는 라인이 아니므로 제거한다.

이 때 일 실시예에서 영역 정의를 위한 라인과 영역 정의에 사용되지 않는 라인의 구분은, 예컨대 임의의 복수개의 라인들이 서로 교차하면서 폐쇄된 영역을 형성하는 경우 상기 복수개의 라인들은 영역 정의를 위한 라인이며, 다른 라인들과 교차하지 않거나 교차하더라도 폐영역을 형성하지 않는 경우 영역 정의를 위한 라인이 아닌 것으로 판단할 수 있다. 즉, 도6에서 제4 라인(Lh4)과 제7 라인(Lh7)은 다른 라인과 교차하지 않고 단독으로 존재하고 제5 라인(Lh5)과 제6 라인(L6)은 다른 라인과 교차하더라도 폐쇄된 영역을 형성하는데 사용되지 않으므로, 영역 정의를 위한 라인이 아닌 것으로 판단하여 제거될 수 있다.

또한 대안적으로, 제5 라인(Lh5)은 글자들에 의해 라인으로 잘못 인식된 것인데, 이 경우 글자와 글자간 사이가 약간씩 떨어져 있으므로 제5 라인(Lh5)이 점선으로 표시되므로, 일 실시예에서 점선으로 인식되는 라인은 영역을 정의하지 않는 라인으로 판단할 수도 있다.

이와 같이 처리대상 문서에서 모든 라인을 추출하고 영역 정의 라인이 아닌 라인들을 제거한 후 각 영역을 정의한다. 예를 들어 도7은 도6에서 노이즈 라인(Lh4, Lh5, Lh6, Lh7)을 제거한 후 영역(A1, A2, A3,...)을 정의한 것을 나타낸다. 이 때 각 영역을 정의하는 데이터(예컨대 영역의 중심 포인트 또는 좌측 상단 포인트 등의 영역의 위치, 영역의 가로 길이, 세로 길이, 교차점 위치 등에 관한 데이터) 중 적어도 일부를 영역정보라 한다.

다시 도3을 참조하면, 이상과 같이 단계(S310 내지 S330)에서 키정보와 영역정보를 생성한 후 이 두 정보를 합한 정보(양식정보)에 기초하여 처리대상 문서의 문서양식을 데이터 저장부(20)에 기저장된 문서양식과 비교한다. 예를 들어, 처리대상 문서의 양식정보와 기저장된 각각의 문서양식의 양식정보를 비교하여 처리대상 문서가 기저장된 문서양식에 속하는지 여부를 판단할 수 있다.

도4는 상술한 단계(S310 내지 S340)의 일 실시예를 도식적으로 나타낸 것으로, 문서에서 추출한 문자에서 키워드를 인식하여 키정보를 생성하고(S310) 라인을 인식하여 영역을 정의하는 영역정보를 생성하고(S330), 그 후 키정보와 영역정보를 포함한 양식정보를 기저장된 문서양식과 비교하여 비교하여(S340) 처리대상 문서가 어느 문서양식에 속하는지를 판단한다.

대안적 실시예에서, 양식 식별 단계(S30)는 라인을 인식하여(S320) 영역정보를 생성하는 단계(S330)를 생략하고 키정보 만으로 기저장된 양식과 비교할 수도 있다. 이 경우 키정보는 문서 내에서 인식된 키의 키명(名), 및 각 키의 문서내 위치(예컨대 키워드의 중심 포인트나 좌측 상단 포인트 등)에 관한 위치정보를 포함할 수 있다.

한편, 처리대상 문서에 라인이 없는 경우가 있으며, 이 경우 문서양식을 식별하는 방법을 도8에 예시적으로 도시하였다.

도8을 참조하면, 처리대상 문서에 라인이 없을 경우 문서의 문서양식을 식별하는 단계(S30')는, 처리대상 문서에서 인식된 키에 기초하여 키정보를 생성하는 단계(S310'), 키정보를 이용하여 가상의 라인을 설정하는 단계(S320'), 설정된 가상 라인에 기초하여 각 항목별 영역을 정의하는 영역정보를 생성하는 단계(S330'), 및 키정보와 영역정보를 포함하는 양식정보에 기초하여 기저장된 문서양식과 비교하는 단계(S340')를 포함할 수 있다.

도3의 흐름도와 비교할 때 도8의 키정보 생성 단계(S310')와 양식정보 비교 단계(S340')는 도3의 각 단계(S310, S340)와 동일 또는 유사하고, 가상 라인에 기초하여 영역정보를 생성하는 단계(S330')는 도3의 실제 라인에 기초하여 영역정보를 생성하는 것(S330)과 유사하므로 자세한 설명은 생략한다.

단계(S320')에서, 처리대상 문서에 라인이 표시되지 않은 경우 문서처리장치(10)는 예컨대 키정보에 기초하여 자동으로 가상의 라인을 설정할 수 있다. 예를 들어 문서처리장치(10)가 처리대상 문서에 가상의 라인을 설정하는 기계학습 알고리즘을 포함할 수 있고, 이 알고리즘이 기계학습을 통해 다수의 샘플 문서를 인식하여 자동으로 라인을 설정하도록 훈련시킬 수 있다. 이 때 키정보 중 각각의 키의 위치값의 상관분석을 통해 각 키에 대해 가상의 라인을 설정하는 것을 학습할 수 있다. 일 실시예에서, 라인이 표시되지 않은 처리대상 문서를 입력 받으면, 이렇게 학습된 알고리즘을 이용하여 문서에 가상의 라인을 설정하고, 그 후 사용자가 디스플레이 상에서 라인을 확인하고 수정하는 보완 작업을 추가로 실행할 수 있으며, 단계(S330')에서 이렇게 표시된 가상의 라인들에 의해 영역을 정의하여 영역정보를 생성할 수 있다.

또한 상술한 문서 식별 단계(S30)에서 라인이 표시되어 있지 않은 처리대상 문서가 기저장된 양식에 속하지 않는다고 판단한 경우(도2의 S40_No) 처리대상 문서의 양식을 신규 문서양식으로 등록할 수 있고(도2의 단계 S50), 이 때 신규문서 양식의 양식정보는 키정보 및 가상의 라인에 의해 정의된 영역에 관한 영역정보를 포함함을 이해할 것이다.

도9를 참조하여 도2의 영역기반 문자인식 단계(S60)의 예시적 동작을 설명하기로 한다. 설명의 편의를 위해, 예컨대 도2의 단계(S30)에서 문서에 표시된 실제 라인 또는 가상의 라인에 따라 복수개의 영역을 정의하는 동작을 수행하여, 도9에 도시한 것처럼 처리대상 문서가 다수의 실제 또는 가상 라인들(L1 내지 L6)에 의해 정의되는 3개의 영역(A1,A2,A3)을 가진다고 가정한다.

일 실시예에서 영역기반 문자인식 단계(S60)는 해당 처리대상 문서의 양식정보를 참조하여 각 영역에 대해 해당 영역 내의 추출된 모든 문자를 키워드와 밸류로 구분하여 인식한다. 예를 들어 제1 영역(A1)을 처리하는 경우, 문서양식의 양식정보에 기초하여 제1 영역(A1)을 추출하여 제1 영역(A1)의 키("Shipper") 및 이 키의 위치정보를 알 수 있다. 즉, 문자 추출 단계(S20)에서 추출한 문자 중 제1 영역(A1)에 속하는 문자("Shipper" 및 "ABCD")를 판별할 수 있고, 그 후 키워드 사전을 참조하여 제1 영역(A1)에 속하는 문자 중 "Shipper"가 키에 해당하는지를 판단할 수 있다. 이렇게 "Shipper"가 키인 것으로 판단되면, 제1 영역(A1)에서 키를 제외한 나머지 문자, 즉 "ABCD"를 밸류로 인식할 수 있다. 그리고 이러한 동작을 제2 영역(A2), 제3 영역(A3) 등 문서의 나머지 영역에 대해 반복 수행함으로써 처리대상 문서에서 모든 키와 밸류를 추출할 수 있다.

도10은 영역기반 문자인식 단계(S60)에서 인식된 문자를 검증하는 예시적 방법을 나타낸다.

문서처리장치(10)의 문자인식 알고리즘은 각각의 문자를 확률 기반으로 식별할 수 있는데, 예컨대 각 문자를 식별할 때 소정 정확도(예를 들어 80%) 이상인 경우 문자를 정확히 식별한 것으로 판단하고 이 정확도 미만인 경우 다른 문자도 함께 추천할 수 있다.

예를 들어 도10을 참조하면, 예를 들어 문서처리장치(10)가 제1 영역(A1)에서 문자("Shipper"와 "ADCD")를 추출하고 "Shipper"를 키로 인식한 경우 나머지 문자, 즉 "ADCD"를 밸류로 판단하는데, 이 때 예를 들어 밸류의 첫번째 "D"의 인식 정확도가 기설정한 임계값(예컨대 80%) 미만인 경우, 문서처리장치(10)는 사용자에게 다른 문자들도 함께 제시할 수 있다. 일 실시예에서, 문서처리장치(10)는 데이터 저장부(20)의 밸류 저장부에 기저장된 밸류들에서 상기 제1 영역(A1)의 밸류("ADCD")에 가장 유사한 밸류를 검색하고 검색된 하나 이상의 밸류에 기초하여 사용자에게 다른 문자들(예컨대 "B" 및 "P")을 함께 제시할 수 있다. 따라서 사용자는 최초 인식된 문자("D")와 추가로 제시된 문자("B" 및 "P") 중에서 하나를 선택할 수도 있고 또는 대안적으로 사용자가 또 다른 문자를 직접 입력할 수도 있다.

상술한 검증 방법은 밸류 뿐만 아니라 키에 대해서도 동일하게 적용될 수 있으며, 이와 같이 본 발명에서는 처리대상 문서에서 추출하는 키 또는 밸류의 정확도가 낮은 경우 데이터 저장부(20)의 키워드 저장부 및 밸류 저장부에 기저장된 키와 밸류를 이용하여 사용자에게 추천 단어를 제시하고 검증할 수 있으므로 검증 절차가 쉬우면서도 검증 정확도를 높일 수 있다.

이상과 같이 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 명세서의 기재로부터 다양한 수정 및 변형이 가능함을 이해할 수 있다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

10: 문서처리장치
20: 데이터 저장부

Claims

컴퓨터 장치를 이용한 문자 추출 방법으로서,
컴퓨터로 읽을 수 있는 형태로 문서를 입력받는 단계(S10); 및
상기 입력된 문서의 문서 양식을 식별하는 단계(S30);를 포함하고,
상기 문서 양식을 식별하는 단계(S30)는,
상기 입력된 문서에서 키워드를 추출하여 키정보를 생성하는 단계(S310);
상기 입력된 문서에 표시된 라인들 중에서, 상기 각 키워드의 항목별 영역을 정의하는 영역 정의 라인을 인식하는 단계(S320);
상기 영역 정의 라인에 기초하여, 문서내 각 영역의 위치를 나타내는 영역정보를 자동으로 생성하는 단계(S330); 및
상기 키정보와 영역정보를 포함하는 양식정보를 기저장된 문서 양식의 양식 정보와 비교하는 단계(S340);를 포함하고,
상기 영역 정의 라인을 인식하는 단계는, 상기 입력된 문서에 표시된 모든 라인들을 인식하여 추출하고, 상기 추출된 모든 라인들 중 영역 정의에 사용되지 않는 라인을 노이즈로 판단하여 제거하는 단계를 포함하는 것을 특징으로 하는, 컴퓨터를 이용한 문자 추출 방법.
제 1 항에 있어서,
상기 문서 양식을 식별하는 단계 후, 양식정보에 따라 인식된 각각의 영역 단위로 문자를 인식하는 단계(S60);를 더 포함하고, 상기 단계(S60)는,
각각의 상기 영역에서 모든 문자를 추출하는 단계;
추출된 문자를 키워드와 밸류로 구분하는 단계; 및
구분된 키워드와 밸류를 각각 데이터베이스에 저장하는 단계;를 포함하는 것을 특징으로 하는, 컴퓨터를 이용한 문자 추출 방법.
제 1 항에 있어서, 상기 문자를 인식하는 단계가 인식된 문자를 검증하는 단계를 더 포함하는 것을 특징으로 하는, 컴퓨터를 이용한 문자 추출 방법.
제 2 항에 있어서,
문서 양식 식별 결과 상기 입력된 문서가 기저장된 문서 양식에 속하는 경우, 상기 영역 단위로 문자를 인식하는 단계(S60)에서, 상기 기저장된 문서 양식의 영역 정보를 참조하여 문자를 인식하는 것을 특징으로 하는, 컴퓨터를 이용한 문자 추출 방법.
컴퓨터 장치를 이용한 문자 추출 방법으로서,
컴퓨터로 읽을 수 있는 형태로 문서를 입력받는 단계(S10);
상기 입력된 문서의 문서 양식을 식별하는 단계(S30);를 포함하고,
상기 문서 양식을 식별하는 단계(S30)는, 상기 입력된 문서에 라인이 표시되어 있지 않은 경우,
상기 입력된 문서에서 키워드를 추출하여 키정보를 생성하는 단계(S310');
상기 키정보를 이용하여, 상기 각 키워드의 항목별 영역을 정의하는 가상의 영역 정의 라인을 설정하는 단계(S320');
상기 가상의 영역 정의 라인에 기초하여, 문서내 각 영역의 위치를 나타내는 영역정보를 자동으로 생성하는 단계(S330'); 및
상기 키정보와 영역정보를 포함하는 양식정보를 기저장된 문서 양식의 양식 정보와 비교하는 단계(S340');를 포함하는 것을 특징으로 하는, 컴퓨터를 이용한 문자 추출 방법.
제 5 항에 있어서,
상기 문서 양식을 식별하는 단계 후, 양식정보에 따라 인식된 각각의 영역 단위로 문자를 인식하는 단계(S60);를 더 포함하고, 상기 단계(S60)는,
상기 각 영역에 대해, 영역에서 모든 문자를 추출하는 단계;
추출된 문자를 키워드와 밸류로 구분하는 단계; 및
구분된 키워드와 밸류를 각각 데이터베이스에 저장하는 단계;를 포함하는 것을 특징으로 하는, 컴퓨터를 이용한 문자 추출 방법.
제 5 항에 있어서, 상기 문자를 인식하는 단계가 인식된 문자를 검증하는 단계를 더 포함하는 것을 특징으로 하는, 컴퓨터를 이용한 문자 추출 방법.
제 5 항에 있어서,
상기 문서 양식을 식별하는 단계에서 라인이 표시되어 있지 않은 상기 문서가 기저장된 문서 양식에 속하지 않는다고 판단한 경우, 상기 문서의 양식을 신규 문서 양식으로 등록하는 단계를 더 포함하고,
상기 신규 문서 양식은 상기 가상의 영역 정의 라인에 의해 구획된 복수개의 영역에 관한 영역정보를 포함하는 것을 특징으로 하는, 컴퓨터를 이용한 문자 추출 방법.