KR102144464B1

KR102144464B1 - 문서분류장치 및 문서분류방법

Info

Publication number: KR102144464B1
Application number: KR1020200026901A
Authority: KR
Inventors: 이승희
Original assignee: 주식회사 로민
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2020-08-14

Abstract

본 출원은 문서분류장치 및 문서분류방법에 관한 것으로서, 본 발명의 일 실시예에 의한 문서분류장치는, 입력된 문서이미지에 대한 문자인식을 수행하여 문자열을 추출하고, 상기 문자열을 이용하여 상기 문서이미지의 문서종류를 판별하며, 판별된 문서종류를 제1 예비분류로 출력하는 문자기반분류모듈; 상기 문서이미지에 포함된 시각적 객체들에 대응하는 특징벡터를 생성하고, 상기 특징벡터를 이용하여 상기 문서이미지의 종류를 판별하며, 판별된 문서종류를 제2 예비분류로 출력하는 특징기반분류모듈; 및 상기 제1 예비분류 및 제2 예비분류를 이용하여 상기 문서이미지의 문서종류를 최종결정하고, 결정된 문서종류를 상기 문서이미지의 분류정보로 출력하는 판별부를 포함할 수 있다.

Description

문서분류장치 및 문서분류방법 {Apparatus and method for classifying documents}

본 출원은 문서분류장치 및 문서분류방법에 관한 것으로, 특히 다양한 종류의 문서이미지들이 혼재되어 있는 경우, 각각의 문서이미지들을 자동으로 분류할 수 있는 문서분류장치 및 문서분류방법에 관한 것이다.

자동문서분류(Text Classification)는 주어진 문서를 이에 적합한 카테고리로 분류하는 텍스트 마이닝 기술 중의 하나로서 스팸 메일 탐지, 뉴스분류, 자동응답 등 다양한 분야에 활용되고 있다.

일반적으로 자동문서분류 시스템은 기계학습 알고리즘을 활용하며, 특히 Naive Bayes, SVM (Support Vector Machine) 등이 널리 활용되고 있다. 또한, 최근에는 딥러닝의 발전에 따라 심층 신경망(Deep Neural Network)을 이용한 자동분류 알고리즘들이 제안되고 있다.

기본적으로 자동분류를 위한 기계학습 기반 분류모델을 구축하기 위해서는 텍스트 데이터를 수치형 데이터로 변환해주어야 한다. 이를 위해 전통적으로 Bag-of-Words 방식을 활용하는데, 이는 개별 문서에 출현하는 단어에 대하여 TF (Term Frequency)를 산출하여 이를 문서 벡터의 성분 값으로 활용한다.

또한, 최근 또 하나의 변환 방법으로서 각 단어를 n차원 공간 벡터로 매핑하는 Word2Vec 등을 활용하는 방안들이 제안되고 있으나, 현재로선 이러한 최신 기법들이 아직 완벽한 수준의 문서분류에는 미치지 못하는 한계가 있다.

본 출원은 다양한 종류의 문서이미지들이 혼재되어 있는 경우, 각각의 문서이미지들을 자동으로 분류할 수 있는 문서분류장치 및 문서분류방법을 제공하고자 한다.

본 출원은 시각적 특징 기반의 문서분류와, 문자인식을 이용한 구문분석을 통한 문서분류를 동시에 활용하여, 문서분류의 정확도를 높일 수 있는 문서분류장치 및 문서분류방법을 제공하고자 한다.

본 발명의 일 실시예에 의한 문서분류장치는, 입력된 문서이미지에 대한 문자인식을 수행하여 문자열을 추출하고, 상기 문자열을 이용하여 상기 문서이미지의 문서종류를 판별하며, 판별된 문서종류를 제1 예비분류로 출력하는 문자기반분류모듈; 상기 문서이미지에 포함된 시각적 객체들에 대응하는 특징벡터를 생성하고, 상기 특징벡터를 이용하여 상기 문서이미지의 종류를 판별하며, 판별된 문서종류를 제2 예비분류로 출력하는 특징기반분류모듈; 및 상기 제1 예비분류 및 제2 예비분류를 이용하여 상기 문서이미지의 문서종류를 최종결정하고, 결정된 문서종류를 상기 문서이미지의 분류정보로 출력하는 판별부를 포함할 수 있다.

여기서 문자기반분류모듈은, 상기 문서이미지에서 문자가 위치하는 문자영역을 탐지하여 상기 문자영역을 크롭(crop)하고, 크롭된 영역에 대한 문자인식을 각각 수행하여 상기 문자열을 추출하는 문자인식부; 및 각각의 문서종류별로 미리 설정된 표지단어들과, 상기 문자열에 포함된 단어들을 비교하여, 상기 문서종류를 판별하는 매칭부를 포함할 수 있다.

여기서 상기 매칭부는, 상기 문자열 내에 포함되는 단어들과 상기 문서종류별 표지단어들을 각각 매칭시키고, 상기 매칭되는 표지단어들의 출현횟수가 가장 많은 문서종류를 상기 제1 예비분류로 출력할 수 있다.

여기서 상기 특징기반분류모듈은, 상기 문서이미지의 픽셀값을 정규화(Normalization)하고, 크기를 기 설정된 사이즈로 리사이징(resizing)하여, 대상 이미지를 생성하는 이미지 전처리부; 및 특징 추출기(feature extractor)를 이용하여 상기 대상 이미지로부터 상기 특징벡터를 추출하고, 각각의 문서종류에 대응하는 지지 이미지(support image)들의 특징벡터와의 유사도를 연산하여, 상기 문서종류를 판별하는 특징비교부를 포함할 수 있다.

여기서 상기 특징 추출기는, 동일한 문서종류에 해당하는 지지 이미지들의 특징벡터 사이의 거리를 최소화하고, 서로 다른 문서종류에 해당하는 지지 이미지들의 특징벡터 사이의 거리가 멀어지도록 학습된 것일 수 있다.

여기서 상기 특징비교부는, 상기 대상 이미지의 특징벡터와 상기 지지 이미지들의 특징벡터들 사이의 코사인 유사도(cosine similarity)를 연산하고, 상기 코사인 유사도가 가장 높은 지지 이미지들에 대응하는 문서종류를, 상기 제2 예비분류로 출력할 수 있다.

여기서 상기 특징비교부는, 상기 코사인 유사도를 이용하여 상기 제2 예비분류에 대한 신뢰도(confidence)를 연산하고, 상기 신뢰도를 더 포함하여 출력할 수 있다.

여기서 상기 판별부는, 상기 제1 예비분류와 제2 예비분류의 문서종류가 일치하면, 상기 일치된 문서종류를 상기 문서이미지의 분류정보로 출력할 수 있다.

여기서 상기 판별부는, 상기 제1 예비분류와 제2 예비분류의 문서종류가 불일치하면, 각각의 문서종류별 표지단어들의 출현횟수와, 각각의 문서종류별 신뢰도에 가중치를 설정하여 결과값을 연산하고, 상기 결과값에 따라 상기 문서이미지의 분류정보를 설정할 수 있다.

여기서 상기 판별부는 신경망(neural network)를 이용하여, 상기 가중치를 학습할 수 있다.

여기서 상기 판별부는, 상기 제1 예비분류와 제2 예비분류가 불일치하고, 상기 제2 예비분류에 대한 신뢰도가 설정값 미만이면, 상기 제1 예비분류를 상기 문서이미지의 문서종류를 최종결정하여 상기 분류정보로 출력할 수 있다.

본 발명의 일 실시예에 의한 문서분류방법은, 입력된 문서이미지에 대한 문자인식을 수행하여 문자열을 추출하고, 상기 문자열을 이용하여 상기 문서이미지의 문서종류를 판별하며, 판별된 문서종류를 제1 예비분류로 출력하는 단계; 상기 문서이미지에 포함된 시각적 객체들에 대응하는 특징벡터를 생성하고, 상기 특징벡터를 이용하여 상기 문서이미지의 종류를 판별하며, 판별된 문서종류를 제2 예비분류로 출력하는 단계; 및 상기 제1 예비분류 및 제2 예비분류를 이용하여 상기 문서이미지의 문서종류를 최종결정하고, 결정된 문서종류를 상기 문서이미지의 분류정보로 출력하는 단계를 포함할 수 있다.

덧붙여 상기한 과제의 해결수단은, 본 발명의 특징을 모두 열거한 것이 아니다. 본 발명의 다양한 특징과 그에 따른 장점과 효과는 아래의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 의한 문서분류장치 및 문서분류방법에 의하면, 시각적 특징 기반의 문서분류와, 문자인식을 이용한 구문분석을 통한 문서분류를 동시에 활용하므로, 문서분류의 정확도를 높이는 것이 가능하다.

본 발명의 일 실시예에 의한 문서분류장치 및 문서분류방법은, 퓨샷(few-shot learning) 러닝 기법을 활용하므로, 미리 학습되지 않은 문서종류에 대하여도 문서분류를 수행하는 것이 가능하다.

본 발명의 일 실시예에 의한 문서분류장치 및 문서분류방법에 의하면, 자동으로 문서분류를 수행할 수 있으므로, 문서분류를 위한 인력 및 비용을 절감할 수 있다. 또한, 작업자가 직접 문서에 접근할 필요가 없으므로, 문서 내에 포함된 개인정보 유출 등의 위험을 낮출 수 있다.

다만, 본 발명의 실시예들에 따른 문서분류장치 및 문서분류방법가 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도1은 본 발명의 일 실시예에 의한 문서분류장치의 동작을 나타내는 개략도이다.
도2는 본 발명의 일 실시예에 의한 문서분류장치를 나타내는 블록도이다.
도3은 본 발명의 일 실시예에 의한 문서이미지들을 나타내는 개략도이다.
도4 및 도5는 본 발명의 일 실시예에 의한 문서분류방법을 나타내는 순서도이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 즉, 본 발명에서 사용되는 '부'라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '부'는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부'들로 결합되거나 추가적인 구성요소들과 '부'들로 더 분리될 수 있다.

또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

도1은 본 발명의 일 실시예에 의한 문서분류장치의 동작을 나타내는 개략도이다.

도1을 참조하면, 문서분류장치(100)는 다양한 종류의 문서이미지(1)들을 입력받을 수 있으며, 입력받은 문서이미지(1)들을 각각의 문서종류(Class A, Class B, Class C)별로 분류할 수 있다. 즉, 서로 다른 종류의 문서이미지(1)들이 혼재되어 있는 경우, 사용자의 개입이나 판단없이, 문서분류장치(100)가 자동으로 각각의 문서이미지(1)들의 문서종류를 분류하는 것이 가능하다. 여기서, 문서이미지(1)들은 카메라(camera) 등으로 촬영하거나, 스캐너(scanner) 등에 의하여 스캔된 이미지일 수 있으며, jpg, gif, tif, png 등 다양한 종류의 이미지 포맷으로 압축된 것일 수 있다.

일반적으로, 문서분류시 문서이미지(1) 내에 포함된 단어나 문장을 바탕으로 구문분석을 수행하여 의미론적으로 분류하거나, 문서이미지(1) 내에 포함된 시각적 객체들의 위치나 크기, 배열 등을 비교하여 문서이미지(1)의 시각적 특징을 기반으로 분류할 수 있다.

여기서, 의미론적으로 문서종류를 분류하는 경우에는, 문자인식 오류 등에 의하여 정확한 문서분류가 어려울 수 있다. 즉, 문서이미지(1)는, 이미 종이에 출력된 문서나 팩스로 받은 문서를 재차 스캔하는 등의 방식으로 형성된 것일 수 있으며, 이 경우 문서이미지(1) 내에 다량의 잡음이 포함될 수 있다. 따라서, 문서이미지(1)에 대한 문자인식이 부정확할 수 있으며, 이로인해 구문분석이 어려워 문서분류의 정확도도 낮아질 수 있다.

또한, 통장사본이나 운전면허증 등과 같이, 전체적인 배치나, 형식, 시각적 특징이 중요한 문서의 경우에는, 문자인식을 통한 의미론적 문서분류가 어려울 수 있다. 예를들어, 운전면허증의 경우, 각각의 단어들의 위치가 서로 이격하여 있으며, 문장이 거의 존재하지 않기 때문에, 의미론적인 패턴을 추출할만큼 문장의 컨텍스트(context)가 충분히 제공되지 않는다. 따라서, 단순히 단어로부터 의미를 파악하는 것만으로는 문서종류를 분류하기 어려울 수 있다.

한편, 시각적 특징을 이용하여 분류하는 경우에는, 운전면허증이나 통장사본 등을 용이하게 분류할 수 있으나, 이를 위한 학습 데이터를 확보하기 어려운 문제점이 존재한다. 즉, 운전면허증이나 통장사본과 같이, 개인정보가 포함된 문서들에 대한 다수의 샘플을 구하기가 어려우며, 샘플을 구한 경우에도 개인정보를 마스킹하여 사용해야 하는 등 어려움이 존재한다.

또한, 문서이미지(1) 내에 포함된 문자를 인식해야만 파악할 수 있는 정보들을 활용하지 않으므로, 시각적 형태가 유사하지만 문서의 종류가 다른 경우에는, 각각의 문서들을 구별하기 어려운 문제점이 존재한다.

이를 해결하기 위하여, 본 발명의 일 실시예에 의한 문서분류장치(100)는, 시각적 특징 기반의 문서분류와, 문자인식을 이용한 구문분석을 통한 문서분류를 동시에 활용하여 문서를 분류하도록 할 수 있다. 여기서, 시각적 특징 기반의 문서분류와 문자인식 기반 문서분류는 서로 독립적으로 작동하는 별도의 심층 신경망으로 구축할 수 있으므로, 학습과 추론이 완전히 독립적으로 이루어질 수 있다. 따라서, 각각 개별적인 문서분류 결과를 얻을 수 있으며, 이후 각각의 문서분류 결과를 종합하여, 최종적으로 문서종류를 판별할 수 있다. 즉, 서로 다른 두 종류의 문서분류기법을 교차확인하여 최종적으로 문서종류를 판별하므로, 문서분류의 정확도를 보다 향상시키는 것이 가능하다. 이하, 도2를 참조하여 본 발명의 일 실시예에 의한 문서분류장치(100)를 설명한다.

도2는 본 발명의 일 실시예에 의한 문서분류장치를 나타내는 블록도이다.

도2를 참조하면, 본 발명의 일 실시예에 의한 문서분류장치(100)는 문자기반분류모듈(110), 특징기반분류모듈(120) 및 판별부(130)를 포함할 수 있다.

문자기반분류모듈(110)은 문서이미지(1)에 대한 문자인식을 수행하여 문자열을 추출할 수 있으며, 추출한 문자열을 이용하여 문서이미지의 문서종류를 판별할 수 있다. 이후, 판별된 문서종류를 제1 예비분류(r1)로 출력할 수 있다. 즉, 문자기반분류모듈(110)은 문서이미지(1)에 포함된 문자를 인식할 수 있으며, 문서이미지(1)에 포함된 문자 내용을 바탕으로 문서종류를 분류할 수 있다.

구체적으로, 문자기반분류모듈(110)은 도2에 도시한 바와 같이, 문자인식부(111) 및 매칭부(112)를 포함할 수 있다.

문자인식부(111)는 광학 문자 인식(OCR: Optical Character Reader) 알고리즘에 따라 동작할 수 있으며, 문서이미지(1) 내에 포함된 문자를 탐지(detection)하여, 인식(recognition)할 수 있다.

먼저, 문자인식부(111)는 문서이미지(1) 내에서 문자가 위치하는 각각의 문자영역을 탐지할 수 있으며, 문자영역을 둘러싸는 경계박스(boundary box)를 생성할 수 있다. 여기서, 경계박스는 볼록한 사각형(convex quadrangle)로 생성될 수 있으며, 경계박스의 4개의 꼭지점에 대응하는 2차원 좌표를 추출할 수 있다. 실시예에 따라서는, 문자인식부(111)는 각각의 단어 단위로 문자를 탐지할 수 있다.

이후, 문자인식부(111)는 경계박스의 좌표정보를 추출하여 경계박스 내에 포함된 문자영역을 크롭(crop)할 수 있으며, 크롭된 문자영역에 대한 문자인식을 수행할 수 있다. 실시예에 따라서는, 문자인식을 위한 별도의 인식 네트워크가 구비될 수 있으며, 크롭된 문자영역을 인식 네트워크에 입력하여 인식 네트워크에서 문자인식을 수행하도록 할 수 있다. 여기서, 문자인식을 위한 다양한 알고리즘 등을 활용할 수 있으며, 이를 통하여 문자영역 내에 포함된 실제 문자들을 인식하여 문자열로 나타낼 수 있다.

매칭부(112)는 문자인식을 통하여 추출한 각각의 문자열들을, 미리 설정된 표지단어들과 비교할 수 있다. 여기서, 각각의 표지단어들은 문서종류별로 미리 설정될 수 있으며, 각각의 문서종류를 특정지을 수 있는 단어들로 선정될 수 있다. 예를들어, 단어의 길이가 짧거나 여러 문서에서 동시에 쓰일 수 있는 단어들은 표지단어에서 제외될 수 있다.

이후, 매칭부(112)는 각각의 문자열과 표지단어들을 비교하여, 해당 문서이미지(1)의 문서종류를 판별할 수 있다. 즉, 매칭부(112)는 문자열 내에 포함되는 단어들과 문서종류별 표지단어들을 각각 매칭시킬 수 있으며, 이때 매칭되는 표지단어들의 출현횟수가 가장 많은 문서종류를, 해당 문서이미지(1)의 문서종류로 판별할 수 있다.

예를들어, 문서종류가 운전면허증인 경우에는 표지단어로 "자동차운전면허증", "1종 보통", "지방경찰청장", "적성검사", "갱신기간" 등이 포함되고, 문서종류가 통장사본인 경우에는 표지단어로 "예금과목", "계좌번호", "만기일", "개설일자" 등이 포함될 수 있다. 여기서, 문서이미지(1)로부터 추출한 각각의 문자열 내에, 운전면허증의 표지단어인 "자동차운전면허증", "적성검사", "지방경찰청장"이 매칭되고, 통장사본의 표지단어에 해당하는 "만기일"이 매칭되는 경우가 있을 수 있다. 이 경우, 운전면허증에 해당하는 표지단어가 3회 출현하고, 통장사본에 해당하는 표지단어가 1회 출현한 것이므로, 매칭부(112)는 해당 문자이미지(1)를 표지단어의 출현횟수가 많은 "운전면허증"으로 판별할 수 있다. 따라서, 매칭부(112)는 "운전면허증"을 제1 예비분류(r1)로 출력할 수 있다. 여기서, 문자기반분류모듈(110)은 문자열 내 표지단어의 출현횟수에 따라 문서종류를 결정하므로, 결정론적(deterministic) 결과를 제공하는 것으로 볼 수 있다.

실시예에 따라서는, 문자인식 과정에서 글자의 한획 정도가 잘못 인식되는 경우가 있을 수 있으며, 이 경우 의미가 달라져 정확한 비교가 수행되지 않을 수 있다. 이를 보정하기 위하여, 매칭부(112)는 문자인식된 각각의 문자열에 편집거리(edit distance)를 적용할 수 있으며, 문자열로부터 일정한 편집거리 내에 있는 단어가 표지단어에 해당하면, 해당 표지단어는 문자열에 매칭된 것으로 판별할 수 있다.

특징기반분류모듈(120)은 문서이미지(1)에 포함된 시각적 객체들에 대응하는 특징벡터를 생성할 수 있다. 여기서 시각적 객체는 문서이미지(1) 내에 포함된 각각의 객체들 사이의 거리나 위치, 배열 등을 포함할 수 있다. 특징기반분류모듈(120)은 문서이미지(1)의 특징벡터를 이용하여 해당 문서이미지(1)의 종류를 판별할 수 있으며, 판별된 문서종류를 제2 예비분류(r2)로 출력할 수 있다. 특징기반분류모듈(120)은 도2에 도시한 바와 같이, 이미지 전처리부(121) 및 특징비교부(130)를 더 포함할 수 있다.

이미지 전처리부(121)는 문서이미지(1)의 픽셀값을 정규화(Normalization)하고, 크기를 기 설정된 사이즈로 리사이징(resizing)하여, 대상 이미지를 생성할 수 있다. 즉, 문서이미지(1)로부터 특징벡터를 추출하기 용이하도록, 문서이미지(1)에 대한 전처리를 수행할 수 있으며, 여기서 전처리된 문서이미지(1)는 대상 이미지에 해당한다.

특징비교부(122)는 특징 추출기(feature extractor)를 이용하여 대상 이미지로부터 특징벡터를 추출할 수 있다. 특징추출기는 대상 이미지에 대한 합성곱(convolution) 연산을 수행할 수 있으며, 합성곱 연산결과로 대상 이미지 내에 포함된 시각적 객체들에 대한 특징벡터들을 생성할 수 있다. 여기서, 특징추출기는 동일한 문서종류에 해당하는 지지 이미지(Support image)들의 특징벡터 사이의 거리를 최소화하고, 서로 다른 문서종류에 해당하는 지지 이미지들의 특징벡터 사이의 거리는 멀어지도록 미리 학습된 것일 수 있다. 즉, 특징추출기를 이용하여 대상 이미지에 대한 특징벡터를 추출하면, 해당 대상 이미지와 유사한 지지 이미지의 특징벡터와의 가까이 위치하고, 상이한 지지 이미지들과는 멀리 위치하도록, 특징벡터가 생성될 수 있다.

따라서, 특징비교부(122)는 대상 이미지의 특징벡터와, 각각의 문서종류에 대응하는 지지 이미지(support image)들의 특징벡터와의 거리가 얼마나 가까운지를 비교하여, 대상 이미지의 문서종류를 판별할 수 있다. 실시예에 따라서는, 특징비교부(122)는 대상 이미지의 특징벡터와, 각각의 지지 이미지들의 특징벡터 사이의 코사인 유사도(cosine similarity)를 연산할 수 있으며, 코사인 유사도가 높을수록 지지 이미지와 대상 이미지가 유사한 것으로 판단할 수 있다. 즉, 코사인 유사도가 높을수록 대상 이미지가 해당 지지 이미지의 문서종류에 해당할 확률이 높은 것이므로, 특징비교부(122)는 각각의 문서종류에 해당할 확률분포를 계산할 수 있으며, 확률이 가장 높은 문서종류를 제2 예비분류로 출력할 수 있다.

또한, 특징비교부(122)는 코사인 유사도를 이용하여 제2 예비분류에 대한 신뢰도(confidence)를 연산할 수 있으며, 제2 예비분류와 함께 신뢰도를 더 포함하여 출력하는 것도 가능하다. 여기서, 신뢰도는 제2 예비분류가 실제 문서이미지(1)의 문서종류와 일치할 확률에 대응하는 것으로, 실시예에 따라서는 각각의 지지 이미지에 대응하는 문서종류별로 신뢰도를 연산하여 출력하는 것도 가능하다.

한편, 실시예에 따라서는, 특징비교부(122)에 퓨샷(few-shot learning) 러닝 기법을 적용하여, 문서이미지(1)를 특징 추출기 내에 미리 특정 문서종류로 학습되지 않은 문서종류 중 어느 하나로 분류하도록 하는 것도 가능하다. 이 경우, 문서이미지(1)와 함께, 분류하고자 하는 새로운 문서종류에 대응하는 신규 지지 이미지가 특징 추출기에 입력될 수 있다. 구체적으로, 특징분류기는 각각의 신규 지지 이미지들의 특징벡터와 문서 이미지(1)의 특징벡터를 특징 공간(feature space) 내에 나타낼 수 있으며, 유사한 이미지들의 특징벡터는 서로 가까이 위치하게 된다. 따라서, 특징비교부(122)는 각각의 특징벡터들 사이의 코사인 유사도를 계산한 후, 해당 문서이미지(1)와의 코사인 유사도가 가장 높은 신규 지지 이미지를 추출할 수 있다. 이후, 해당 신규 지지 이미지에 대응하는 문서종류를, 문서이미지(1)의 문서종류로 판별할 수 있다.

판별부(130)는 제1 예비분류(r1) 및 제2 예비분류(r2)를 이용하여 문서이미지의 문서종류를 최종결정할 수 있으며, 결정된 문서종류를 문서이미지(1)의 분류정보로 출력할 수 있다.

먼저, 제1 예비분류(r1)와 제2 예비분류(r2)의 문서종류가 일치하는 경우에는, 일치된 문서종류를 문서이미지(1)의 분류정보로 출력할 수 있다. 즉, 문자기반분류모듈(110)과 특징기반분류모듈(120)에서 문서이미지(1)의 문서종류를 동일하게 판단하였으므로, 해당 문서종류를 문서이미지의 분류정보로 최종결정할 수 있다.

반면에, 제1 예비분류(r1)와 제2 예비분류(r2)의 문서종류가 불일치하는 경우에는, 판별부(130)가 문서이미지(1)의 문서종류를 재판별할 수 있다. 구체적으로, 판별부(130)는 각각의 문서종류별 표지단어들의 출현횟수와, 각각의 문서종류별 신뢰도에 가중치를 설정하여 결과값을 연산할 수 있으며, 결과값에 따라 문서이미지(1)의 분류정보를 설정할 수 있다.

실시예에 따라서는, 신경망(neural network)를 이용할 수 있으며, 이 경우 각각의 입력에 대한 가중치를 적용하여, 최종적으로 각각의 문서종류에 해당할 확률을 결과값으로 연산할 수 있다. 즉, 판별부(130)는 가장 확률이 높게 나온 문서종류를 해당 문서이미지(1)의 문서종류로 재판별할 수 있다. 여기서, 신경망은 각각의 문서종류를 알고 있는 학습데이터들을 이용하여 각각의 가중치들이 미리 학습된 것일 수 있다. 실시예에 따라서는 신경망으로 완전연결신경망(fully connected neural network) 등을 활용할 수 있다.

추가적으로, 제1 예비분류(r1)와 제2 예비분류(r2)가 불일치하고, 제2 예비분류(r2)에 대한 신뢰도가 설정값(예를들어, 0.5) 미만인 경우에는, 판별부(130)가 제1 예비분류(r1)를 문서이미지(1)의 문서종류로 최종결정하여 분류정보로 출력하도록 할 수 있다. 즉, 제2 예비분류에 대한 신뢰도가 낮은 상태이므로, 상대적으로 신뢰할 수 있는 제1 예비분류를 활용하여 문서이미지(1)의 문서종류를 최종결정할 수 있다. 이 경우, 제1 예비분류(r1)와 제2 예비분류(r2)가 불일치하고, 제2 예비분류(r2)에 대한 신뢰도가 설정값 이상인 경우에 한하여, 판별부(130)가 문서종류에 대한 재판별을 수행할 수 있다.

도3을 참조하면, 도3(a)의 통장사본과 도3(b)의 외국인등록증 등 신분증의 문서이미지들이 혼재된 상태에서, 각각의 문서이미지들을 분류하는 경우를 가정할 수 있다. 이때, 통장사본이나 신분증의 경우, 일반적으로 대량의 샘플을 구하기 어려울 수 있다. 따라서, 다른 종류의 문서를 활용하여 문서분류장치(100)를 학습한 후, 그 결과를 바탕으로 문서를 분류하도록 할 수 있다. 여기서, 신분증과 통장사본의 차이점은 시각적 형태에 해당하므로, 신분증과 유사한 카드 형상의 이미지와, 통장사본과 유사한 통장 내지 등을 스캔한 이미지를 각각 지지 이미지로 이용하여, 특징분류기 등을 학습시킬 수 있다.

또한, 신분증과 통장사본에 포함된 각각의 표지단어들을 추출할 수 있다. 신분증의 경우, "외국인등록증", "외국인등록번호", "서울출입국관리사무소장", "자동차운전면허증", "1종보통", "지방경찰청장", "적성검사, "갱신기간"등을 표지단어로 활용할 수 있다. 통장표지의 경우, "예금과목", "계좌번호", "만기일", "개설일자"등을 표지단어로 활용할 수 있다.

이후, 신분증과 통장사본의 문서이미지를 문서분류장치(100)로 입력할 수 있으며, 문서분류장치(100)는 문자기반분류모듈(110)와 특징기반분류모듈(120)에서 각각 문서분류를 수행하여 각각 제1 예비분류(r1)와 제2 예비분류(r2)를 출력할 수 있다.

여기서 문자기반분류모듈(110)은 각각의 문서이미지에서 인식된 문자열 내에 나타난 표지단어의 출현횟수에 따라 문서종류를 특정하여 제1 예비분류(r1)로 출력할 수 있다.

특징기반분류모듈(120)은 각각의 문서이미지들의 특징벡터와 미리 학습한 지지 이미지들의 특징벡터 사이의 유사도를 비교하여, 문서종류를 특정할 수 있다. 여기서, 특징기반분류모듈(120)은 해당 문서이미지가 각각의 문서종류에 해당할 확률분포를 연산할 수 있으며, 보다 확률이 높은 문서종류를 제2 예비분류(r2)로 출력할 수 있다. 예를들어, 해당 문서이미지가 신분증에 해당할 확률이 0.7이고, 통장사본에 해당할 확률이 0.3으로 연산되면, 제2 예비분류(r2)로 신분증을 출력할 수 있다.

이후, 문서분류장치(100)는 판별부(130)를 통하여, 제1 예비분류(r1)와 제2 예비분류(r2)를 비교할 수 있다. 여기서, 제1 예비분류(r1)와 제2 예비분류(r2)에서 판별한 문서종류가 동일하면, 해당 문서이미지에 대한 문서종류가 정확하게 분류된 것으로 판별할 수 있다.

반면에, 제1 예비분류(r1)와 제2 예비분류(r2)에서 판별한 문서종류가 상이한 경우에는, 판별부(130)가 각각의 문서종류별 표지단어들의 출현횟수와, 각각의 문서종류별 신뢰도를 이용하여, 문서종류를 재판별할 수 있다.

도4 및 도5는 본 발명의 일 실시예에 의한 문서분류방법을 나타내는 순서도이다.

도4를 참조하면, 서로 다른 문서종류에 해당하는 복수의 문서이미지들이 문서분류장치로 입력될 수 있다(S10). 이 경우, 문서분류장치는 시각적 특징 기반의 문서분류와, 문자인식을 이용한 구문분석을 통한 문서분류를 각각 수행할 수 있다(S20, S30). 여기서, 도5에는 시각적 특징 기반의 문서분류와, 문자인식을 이용한 구문분석을 통한 문서분류가 병렬적으로 수행되는 것으로 도시되어 있으나, 이에 한정되지 않으며 순차 수행 등 다양한 방식으로 수행될 수 있다.

먼저, 문서분류장치는 입력된 문서이미지에 대한 문자인식을 수행하여 문자열을 추출할 수 있으며, 문자열을 이용하여 문서이미지의 문서종류를 판별할 수 있다. 여기서, 판별된 문서종류를 제1 예비분류로 출력할 수 있다(S20).

구체적으로, 문서분류장치는 문서이미지 내에서 문자가 위치하는 각각의 문자영역을 탐지할 수 있으며, 문자영역을 둘러싸는 경계박스(boundary box)를 생성할 수 있다. 여기서, 경계박스는 볼록한 사각형(convex quadrangle)로 생성될 수 있으며, 경계박스의 4개의 꼭지점에 대응하는 2차원 좌표를 추출할 수 있다.

이후, 경계박스의 좌표정보를 추출하여 경계박스 내에 포함된 문자영역을 크롭(crop)할 수 있으며, 크롭된 문자영역에 대한 문자인식을 수행할 수 있다. 실시예에 따라서는, 문자인식을 위한 별도의 인식 네트워크가 구비될 수 있으며, 크롭된 문자영역을 인식 네트워크에 입력하여 인식 네트워크에서 문자인식을 수행하도록 할 수 있다. 여기서, 문자인식을 위한 다양한 알고리즘 등을 활용할 수 있으며, 이를 통하여 문자영역 내에 포함된 실제 문자들을 인식하여 문자열로 나타낼 수 있다.

문자인식이 완료되면, 문자인식을 통하여 추출한 각각의 문자열들을, 미리 설정된 표지단어들과 비교할 수 있다. 여기서, 각각의 표지단어들은 문서종류별로 미리 설정될 수 있으며, 각각의 문서종류를 특정지을 수 있는 단어들로 선정될 수 있다.

이후, 각각의 문자열과 표지단어들을 비교하여, 해당 문서이미지의 문서종류를 판별할 수 있다. 즉, 문자열 내에 포함되는 단어들과 문서종류별 표지단어들을 각각 매칭시킬 수 있으며, 이때 매칭되는 표지단어들의 출현횟수가 가장 많은 문서종류를, 해당 문서이미지의 문서종류로 판별할 수 있다.

실시예에 따라서는, 문자인식 과정에서 글자의 한획 정도가 잘못 인식되는 경우가 있을 수 있으며, 이 경우 의미가 달라져 정확한 비교가 수행되지 않을 수 있다. 이를 보정하기 위하여, 문자인식된 각각의 문자열에 편집거리(edit distance)를 활용할 수 있다.

또한, 문서분류장치는 문서이미지에 포함된 시각적 객체들에 대응하는 특징벡터를 생성하고, 특징벡터를 이용하여 문서이미지의 종류를 판별하며, 판별된 문서종류를 제2 예비분류로 출력할 수 있다(S30)

먼저, 문서분류장치는 문서이미지에 대한 전처리를 수행하여, 문서이미지의 픽셀값을 정규화(Normalization)하고, 크기를 기 설정된 사이즈로 리사이징(resizing)할 수 있다. 즉, 문서이미지로부터 특징벡터를 추출하기 용이하도록 문서이미지에 대한 전처리를 수행할 수 있으며, 전처리를 통하여 대상 이미지를 생성할 수 있다.

이후, 문서분류장치는 특징 추출기(feature extractor)를 이용하여 대상 이미지의 특징벡터를 추출할 수 있다. 특징추출기는 대상 이미지에 대한 합성곱(convolution) 연산을 수행할 수 있으며, 합성곱 연산결과로 대상 이미지 내에 포함된 시각적 객체들에 대한 특징벡터들을 생성할 수 있다. 여기서, 특징추출기는 동일한 문서종류에 해당하는 지지 이미지(Support image)들의 특징벡터 사이의 거리를 최소화하고, 서로 다른 문서종류에 해당하는 지지 이미지들의 특징벡터 사이의 거리는 멀어지도록 미리 학습된 것일 수 있다. 즉, 특징추출기를 이용하여 대상 이미지에 대한 특징벡터를 추출하면, 해당 대상 이미지와 유사한 지지 이미지의 특징벡터와의 가까이 위치하고, 상이한 지지 이미지들과는 멀리 위치하도록, 특징벡터가 생성될 수 있다.

따라서, 대상 이미지의 특징벡터와, 각각의 문서종류에 대응하는 지지 이미지(support image)들의 특징벡터와의 거리가 얼마나 가까운지를 비교하여, 대상 이미지의 문서종류를 판별할 수 있다. 실시예에 따라서는, 대상 이미지의 특징벡터와, 각각의 지지 이미지들의 특징벡터 사이의 코사인 유사도(cosine similarity)를 연산할 수 있으며, 코사인 유사도가 높을수록 지지 이미지와 대상 이미지가 유사한 것으로 판단할 수 있다. 즉, 코사인 유사도가 높을수록 대상 이미지가 해당 지지 이미지의 문서종류에 해당할 확률이 높은 것이므로, 문서분류장치는 각각의 문서종류에 해당할 확률분포를 계산할 수 있다. 이후, 확률이 가장 높은 문서종류를 제2 예비분류로 출력할 수 있다.

또한, 코사인 유사도를 이용하여 제2 예비분류에 대한 신뢰도(confidence)를 연산할 수 있으며, 제2 예비분류와 함께 신뢰도를 더 포함하여 출력하는 것도 가능하다. 여기서, 신뢰도는 제2 예비분류가 실제 문서이미지의 문서종류와 일치할 확률에 대응하는 것으로, 실시예에 따라서는 각각의 지지 이미지에 대응하는 문서종류별로 신뢰도를 연산하여 출력하는 것도 가능하다.

문서분류장치는 제1 예비분류 및 제2 예비분류를 이용하여 문서이미지의 문서종류를 최종결정하고, 결정된 문서종류를 문서이미지의 분류정보로 출력할 수 있다(S40). 구체적으로, 도5를 참조하면, 먼저 제1 예비분류와 제2 예비분류의 문서종류가 일치하는지 확인할 수 있으며(S41), 일치하는 경우에는, 일치된 문서종류를 문서이미지의 분류정보로 출력할 수 있다(S42). 즉, 문서분류가 정확하게 수행된 경우에 해당하므로, 해당 문서종류를 문서이미지의 분류정보로 최종결정할 수 있다.

반면에, 제1 예비분류와 제2 예비분류의 문서종류가 불일치하는 경우에는, 제2 예비분류에 대한 신뢰도를 확인할 수 있다(S43). 즉, 제2 예비분류에 대한 신뢰도가 설정값(예를들어, 0.5) 미만인 경우에는, 제1 예비분류를 문서이미지의 문서종류로 최종결정하여 분류정보로 출력하도록 할 수 있다(S44). 제2 예비분류에 대한 신뢰도가 낮은 경우에는 제2 예비분류 결과가 틀릴 가능성이 높으므로, 상대적으로 신뢰할 수 있는 제1 예비분류로 문서이미지의 문서종류를 최종결정할 수 있다.

여기서, 예비분류에 대한 신뢰도가 설정값 이상인 경우에는 문서종류에 대한 재판별을 수행할 수 있다(S45). 구체적으로, 각각의 문서종류별 표지단어들의 출현횟수와, 각각의 문서종류별 신뢰도에 가중치를 설정하여 결과값을 연산할 수 있으며, 결과값에 따라 문서이미지의 분류정보를 설정할 수 있다. 실시예에 따라서는, 신경망(neural network)를 이용할 수 있으며, 이 경우 각각의 입력에 대한 가중치를 적용하여, 최종적으로 각각의 문서종류에 해당할 확률을 결과값으로 연산할 수 있다. 즉, 가장 확률이 높게 나온 문서종류를 해당 문서이미지의 문서종류로 재판별할 수 있다. 여기서, 신경망은 각각의 문서종류를 알고 있는 학습데이터들을 이용하여 각각의 가중치들이 미리 학습된 것일 수 있다. 실시예에 따라서는 신경망으로 완전연결신경망(fully connected neural network) 등을 활용할 수 있다.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명에 따른 구성요소를 치환, 변형 및 변경할 수 있다는 것이 명백할 것이다.

1: 문서 이미지 100: 문서분류장치
110: 문자기반분류모듈 111: 문자인식부
112: 매칭부 120: 특징기반분류모듈
121: 전처리부 122: 특징비교부
130: 판별부

Claims

입력된 문서이미지에 대한 문자인식을 수행하여 문자열을 추출하고, 상기 문자열을 이용하여 상기 문서이미지의 문서종류를 판별하며, 판별된 문서종류를 제1 예비분류로 출력하는 문자기반분류모듈;
상기 문서이미지에 포함된 시각적 객체들에 대응하는 특징벡터를 생성하고, 상기 특징벡터를 이용하여 상기 문서이미지의 종류를 판별하며, 판별된 문서종류를 제2 예비분류로 출력하는 특징기반분류모듈; 및
상기 제1 예비분류 및 제2 예비분류를 이용하여 상기 문서이미지의 문서종류를 최종결정하고, 결정된 문서종류를 상기 문서이미지의 분류정보로 출력하는 판별부를 포함하는 것으로,
상기 문자기반분류모듈은
상기 문서이미지에서 문자가 위치하는 문자영역을 탐지하여 상기 문자영역을 크롭(crop)하고, 크롭된 영역에 대한 문자인식을 각각 수행하여 상기 문자열을 추출하는 문자인식부; 및
각각의 문서종류별로 미리 설정된 표지단어들과, 상기 문자열에 포함된 단어들을 비교하여, 상기 문서종류를 판별하는 매칭부를 포함하고,
상기 특징기반분류모듈은
상기 문서이미지의 픽셀값을 정규화(Normalization)하고, 크기를 기 설정된 사이즈로 리사이징(resizing)하여, 대상 이미지를 생성하는 이미지 전처리부; 및
특징 추출기(feature extractor)를 이용하여 상기 대상 이미지로부터 상기 특징벡터를 추출하고, 각각의 문서종류에 대응하는 지지 이미지(support image)들의 특징벡터와의 유사도를 연산하여, 상기 문서종류를 판별하는 특징비교부를 포함하는 것을 특징으로 하는 문서분류장치.
삭제
제1항에 있어서, 상기 매칭부는
상기 문자열 내에 포함되는 단어들과 상기 문서종류별 표지단어들을 각각 매칭시키고, 상기 매칭되는 표지단어들의 출현횟수가 가장 많은 문서종류를 상기 제1 예비분류로 출력하는 것을 특징으로 하는 문서분류장치.
삭제
제1항에 있어서, 상기 특징 추출기는
동일한 문서종류에 해당하는 지지 이미지들의 특징벡터 사이의 거리를 최소화하고, 서로 다른 문서종류에 해당하는 지지 이미지들의 특징벡터 사이의 거리가 멀어지도록 학습된 것을 특징으로 하는 문서분류장치.
제5항에 있어서, 상기 특징비교부는
상기 대상 이미지의 특징벡터와 상기 지지 이미지들의 특징벡터들 사이의 코사인 유사도(cosine similarity)를 연산하고, 상기 코사인 유사도가 가장 높은 지지 이미지들에 대응하는 문서종류를, 상기 제2 예비분류로 출력하는 것을 특징으로 하는 문서분류장치.
제6항에 있어서, 상기 특징비교부는
상기 코사인 유사도를 이용하여 상기 제2 예비분류에 대한 신뢰도(confidence)를 연산하고, 상기 신뢰도를 더 포함하여 출력하는 것을 특징으로 하는 문서분류장치.
제7항에 있어서, 상기 판별부는
상기 제1 예비분류와 제2 예비분류의 문서종류가 일치하면, 상기 일치된 문서종류를 상기 문서이미지의 분류정보로 출력하는 것을 특징으로 하는 문서분류장치.
제8항에 있어서, 상기 판별부는
상기 제1 예비분류와 제2 예비분류의 문서종류가 불일치하면, 각각의 문서종류별 표지단어들의 출현횟수와, 각각의 문서종류별 신뢰도에 가중치를 설정하여 결과값을 연산하고, 상기 결과값에 따라 상기 문서이미지의 분류정보를 설정하는 것을 특징으로 하는 문서분류장치.
제9항에 있어서, 상기 판별부는
신경망(neural network)를 이용하여, 상기 가중치를 학습하는 것을 특징으로 하는 문서분류장치.
제8항에 있어서, 상기 판별부는
상기 제1 예비분류와 제2 예비분류가 불일치하고, 상기 제2 예비분류에 대한 신뢰도가 설정값 미만이면, 상기 제1 예비분류를 상기 문서이미지의 문서종류를 최종결정하여 상기 분류정보로 출력하는 것을 특징으로 하는 문서분류장치.
입력된 문서이미지에 대한 문자인식을 수행하여 문자열을 추출하고, 상기 문자열을 이용하여 상기 문서이미지의 문서종류를 판별하며, 판별된 문서종류를 제1 예비분류로 출력하는 단계;
상기 문서이미지에 포함된 시각적 객체들에 대응하는 특징벡터를 생성하고, 상기 특징벡터를 이용하여 상기 문서이미지의 종류를 판별하며, 판별된 문서종류를 제2 예비분류로 출력하는 단계; 및
상기 제1 예비분류 및 제2 예비분류를 이용하여 상기 문서이미지의 문서종류를 최종결정하고, 결정된 문서종류를 상기 문서이미지의 분류정보로 출력하는 단계를 포함하는 것으로,
상기 제1 예비분류로 출력하는 단계는
상기 문서이미지에서 문자가 위치하는 문자영역을 탐지하여 상기 문자영역을 크롭(crop)하고, 크롭된 영역에 대한 문자인식을 각각 수행하여 상기 문자열을 추출하는 단계; 및
각각의 문서종류별로 미리 설정된 표지단어들과, 상기 문자열에 포함된 단어들을 비교하여, 상기 문서종류를 판별하는 단계를 포함하고,
상기 제2 예비분류로 출력하는 단계는
상기 문서이미지의 픽셀값을 정규화(Normalization)하고, 크기를 기 설정된 사이즈로 리사이징(resizing)하여, 대상 이미지를 생성하는 단계; 및
특징 추출기(feature extractor)를 이용하여 상기 대상 이미지로부터 상기 특징벡터를 추출하고, 각각의 문서종류에 대응하는 지지 이미지(support image)들의 특징벡터와의 유사도를 연산하여, 상기 문서종류를 판별하는 단계를 포함하는 것을 특징으로 하는 문서분류방법.