KR102392644B1 - 유사도 기반의 문서 분류 장치 및 방법 - Google Patents

유사도 기반의 문서 분류 장치 및 방법 Download PDF

Info

Publication number
KR102392644B1
KR102392644B1 KR1020210139624A KR20210139624A KR102392644B1 KR 102392644 B1 KR102392644 B1 KR 102392644B1 KR 1020210139624 A KR1020210139624 A KR 1020210139624A KR 20210139624 A KR20210139624 A KR 20210139624A KR 102392644 B1 KR102392644 B1 KR 102392644B1
Authority
KR
South Korea
Prior art keywords
document
representative
vector
similarity
embedding
Prior art date
Application number
KR1020210139624A
Other languages
English (en)
Inventor
정민성
김태윤
장석환
Original Assignee
주식회사 애자일소다
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 애자일소다 filed Critical 주식회사 애자일소다
Priority to KR1020210139624A priority Critical patent/KR102392644B1/ko
Application granted granted Critical
Publication of KR102392644B1 publication Critical patent/KR102392644B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • G06K9/6223
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

유사도 기반의 문서 분류 장치 및 방법을 개시한다. 본 발명은 입력된 전체 문서 데이터를 문서 별로 군집화하고, 군집화된 문서 별로 자동 추출된 하나 이상의 대표 문서와 입력된 전체 문서 데이터의 유사도를 산출하여 문서 데이터를 분류할 수 있다.

Description

유사도 기반의 문서 분류 장치 및 방법{APPARATUS AND METHOD FOR CLASSIFYING DOCUMENTS BASED ON SIMILARITY}
본 발명은 유사도 기반의 문서 분류 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 입력된 전체 문서 데이터를 문서 별로 군집화하고, 군집화된 문서 별로 자동 추출된 하나 이상의 대표 문서와 입력된 전체 문서 데이터의 유사도를 산출하여 문서 데이터를 분류하는 유사도 기반의 문서 분류 장치 및 방법에 관한 것이다.
개인이나 기업은 경제 활동 중에 수집하는 영수증을 경비보고, 지출결의 등의 회계 처리 혹은 종합소득세 신고 등의 세무 처리를 위한 사후 증빙 서류로 보관하여 관리한다.
이렇게 보관 및 관리되는 영수증은 종이로 되어 있기 때문에 근본적으로 원본의 훼손 위험이 있으며, 오손, 분실, 부패에 대한 노출을 예방해야 하는 기술적, 경제적 부담이 있고, 영수증 보관량의 증대에 비례하여 영수증 보관 공간을 늘려야 하는 문제점이 있다.
또한, 개인이나 기업의 담당자는 수기 입력 방식으로 종래의 영수증으로부터 상기한 회계 처리 혹은 세무 처리에 필요한 정보를 추출하고 분류하여 장부에 기입하거나 회계관리 프로그램이 설치된 PC에 입력, 저장하기 때문에 정보 추출 작업이 불편한 문제점이 있다.
한편, 문서에 포함된 글자(텍스트) 이미지는 기계 인코딩을 통해 변환할 수 있는데, 기계 인코딩을 통해 변환된 글자는 전자적으로 편집, 검색 등이 가능하고, 변환된 글자는 파일 등의 형태로 데이터베이스에 저장할 수도 있게 된다.
이러한 기계 인코딩은 주로 광학문자인식(OCR)을 통해 수행될 수 있고, 컴퓨터 등을 이용하여 이미지 기반의 텍스트 문서를 자동으로 감지, 식별 및 인코딩할 수 있다.
또한, 광학문자인식을 통해 인식된 문서는 문서 분류과정을 통해 분류될 수 있고, 문서 분류는 다음의 방식을 이용하여 분류될 수 있다.
첫번째는 키워드 방식으로서, 임의의 키워드를 선정하여 키워드 사전을 생성하고, 인식된 문서에서 해당 키워드가 생성된 키워드 사전에 포함되었는지 검색하여 그 검색 결과에 따라 인식된 문서를 분류한다.
두번째는 모델 방식으로서, 각 문서별로 라벨링(Labeling) 작업을 수행하여 학습 데이터를 생성하고, 생성된 학습 데이터를 이용하여 인공지능 모델 학습을 수행한 다음, 학습된 인공지능 모델을 통해 인식된 문서의 분류를 수행한다.
그러나, 종래 기술에 따른 문서 분류방식은 인식 대상 문서별로 사용자가 별도의 키워드 사전을 생성해야만 하여 키워드 사전에 많은 시간과 인력이 요구되는 문제점이 있다.
또한, 종래 기술에 따른 문서 분류방식은 문서를 분류할 사이트별로 커스터마이징을 수행해야만 하여 범용적으로 사용하기 어려운 문제점이 있다.
또한, 종래 기술에 따른 문서 분류방식은 학습 데이터에 대한 라벨링 작업을 수행해야만 하고, 새로운 문서 분류 발생시 모델의 재학습과 교체 또는 신규 룰(Rule)을 생성해야 하는 문제점이 있다.
또한, 종래 기술에 따른 문서 분류방식은 광학문자인식 과정에서 발생하는 오인식 및 오탈자 등에 대하여 매우 취약한 문제점이 있다.
또한, 종래 기술에 따른 문서 분류방식은 모델 학습을 위한 GPU 리소스가 필요한 문제점이 있다.
또한, 종래 기술에 따른 문서 분류방식은 서비스 제공시 추론 시간(inference time)이 증가하는 문제점이 있다.
한국 등록특허공보 등록번호 제10-1139801호(발명의 명칭: 영수증 판독을 통한 자동 정보 수집 시스템 및 방법)
이러한 문제점을 해결하기 위하여, 본 발명은 입력된 전체 문서 데이터를 문서 별로 군집화하고, 군집화된 문서 별로 자동 추출된 하나 이상의 대표 문서와 입력된 전체 문서 데이터의 유사도를 산출하여 문서 데이터를 분류하는 유사도 기반의 문서 분류 장치 및 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 유사도 기반의 문서 분류 장치로서, 입력된 전체 문서 데이터의 임베딩 벡터를 산출하고, 상기 산출된 임베딩 벡터를 군집화하여 문서 별로 군집을 형성하며, 형성된 문서 군집 별로 대표 문서를 추출하여 등록하고, 상기 등록된 대표 문서의 임베딩 매트릭스를 생성하며, 상기 생성된 대표 문서의 임베딩 매트릭스와 입력된 전체 문서 데이터의 임베딩 매트릭스의 행렬 연산을 통해 유사도를 산출하고, 상기 유사도를 기준으로 문서 데이터를 분류하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 입력된 전체 문서 데이터는 광학문자인식(OCR)을 통해 인식된 문서 데이터인 것을 특징으로 한다.
또한, 상기 실시 예에 따른 유사도 기반의 문서 분류 장치는 광학문자인식(OCR)을 통해 인식된 전체 문서 데이터를 입력받는 문서 텍스트 입력부; 상기 입력받은 전체 문서 데이터의 임베딩 벡터를 산출하는 임베딩 벡터 변환부; 상기 산출된 임베딩 벡터를 군집화하여 문서 별로 군집을 형성하고, 상기 문서 별로 형성된 군집에서 대표 문서를 비지도 학습 기반으로 추출하여 등록하며, 상기 등록된 대표 문서의 임베딩 매트릭스를 생성하는 대표 문서 설정부; 상기 생성된 대표 문서의 임베딩 매트릭스를 입력된 전체 문서 데이터의 임베딩 매트릭스와 행렬 연산을 통해 유사도를 산출하는 유사도 분석부; 및 상기 산출된 유사도를 기준으로 문서 데이터를 분류하는 분류부;를 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 임베딩 벡터는 빈도 기반의 TF-IDF(Term Frequency - Inverse Document Frequency)를 통해 산출되는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 상기 산출된 임베딩 벡터는 K-평균 군집화(K-Means Cluster)를 통해 그루핑되는 것을 특징으로 한다.
또한, 본 발명의 일 실시 예는 유사도 기반의 문서 분류 방법으로서, a) 문서 분류 장치가 광학문자인식(OCR)을 통해 입력된 전체 문서 데이터의 임베딩 벡터를 산출하는 단계; b) 상기 문서 분류 장치가 산출된 임베딩 벡터를 군집화하여 문서 별로 군집을 형성하고, 상기 문서 별로 형성된 군집에서 대표 문서를 비지도 학습 기반으로 추출하여 등록하는 단계; c) 상기 문서 분류 장치가 등록된 대표 문서의 임베딩 매트릭스를 생성하는 단계; 및 d) 상기 문서 분류 장치가 생성된 대표 문서의 임베딩 매트릭스와 입력된 전체 문서 데이터의 임베딩 매트릭스의 행렬 연산을 통해 유사도를 산출하고, 상기 유사도를 기준으로 문서 데이터를 분류하는 단계;를 포함한다.
또한, 상기 실시 예에 따른 a) 단계의 임베딩 벡터는 빈도 기반의 TF-IDF(Term Frequency - Inverse Document Frequency)를 통해 산출되는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 b) 단계의 대표 문서는 b-1) 상기 문서 분류 장치가 문서 별로 형성된 군집에서 대표 문서를 비지도 학습 기반으로 추출하고, 사용자로부터 추출된 대표 문서의 선택을 입력받는 단계; b-2) 상기 문서 분류 장치가 추가 대표 문서의 입력 여부를 판단하는 단계; 및 b-3) 상기 판단 결과에 따라 대표 문서를 추가하고, 선택된 대표 문서를 등록하는 단계;를 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 b) 단계의 산출된 임베딩 벡터는 K-평균 군집화(K-Means Cluster)를 통해 그루핑되는 것을 특징으로 한다.
본 발명은 입력된 전체 문서 데이터를 문서 별로 군집화하고, 군집화된 문서 별로 자동 추출된 하나 이상의 대표 문서와 입력된 전체 문서 데이터의 유사도를 산출하여 문서 데이터를 분류할 수 있는 장점이 있다.
또한, 본 발명은 대표 문서의 등록을 통한 추가 커스터마이징과, 단어의 출현 빈도를 이용한 BoW(Bag of Words) 방식을 통해 문서 분류 별 키워드를 자동으로 추출함으로써, 사용자의 작업 환경을 개선할 수 있는 장점이 있다.
또한, 본 발명은 인식된 문서를 등록된 대표 문서와 비교함으로써, 학습 데이터가 필요 없어 문서 분류작업을 수행하기 위해 전처리 작업을 개선할 수 있는 장점이 있다.
또한, 본 발명은 빈도 기반의 임베딩 방식을 통해 분류에 필요한 학습시간을 대폭으로 단축시킬 수 있는 장점이 있다.
또한, 본 발명은 TF-IDF 매트릭스를 사용하여 대표 문서의 벡터 변환으로 학습을 대체하고, 새로운 TF-IDF 매트릭스를 학습하더라도 작업 공수가 발생하지 않는 장점이 있다.
또한, 본 발명은 유사도 검색 시 모델 추론(Model Inference) 없이 간단한 매트릭스 연산을 통해 산출할 수 있는 장점이 있다.
도1은 본 발명의 일 실시 예에 따른 유사도 기반의 문서 분류 장치를 개략적으로 나타낸 예시도.
도2는 도1의 실시 예에 따른 유사도 기반의 문서 분류 장치를 나타낸 블록도.
도3은 본 발명의 일 실시 예에 따른 유사도 기반의 문서 분류 방법을 설명하기 위해 나타낸 흐름도.
도4는 도3의 실시 예에 따른 유사도 기반의 문서 분류 방법의 대표 문서 추출 및 등록 과정을 설명하기 위해 나타낸 흐름도.
이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.
본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.
또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.
본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.
또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.
또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 유사도 기반의 문서 분류 장치 및 방법의 바람직한 실시예를 상세하게 설명한다.
도1은 본 발명의 일 실시 예에 따른 유사도 기반의 문서 분류 장치를 개략적으로 나타낸 예시도이고, 도2는 도1의 실시 예에 따른 유사도 기반의 문서 분류 장치를 나타낸 블록도이다.
도1 및 도2를 참고하면, 본 발명의 일 실시 예에 따른 유사도 기반의 문서 분류 장치(100)는 입력된 전체 문서 데이터를 임베딩 벡터의 군집화를 통해 문서 별로 분류하고, 분류된 문서 별로 대표 문서를 추출하여 대표 문서를 등록할 수 있다.
또한, 문서 분류 장치(100)는 등록된 대표 문서와 입력된 전체 문서 데이터의 유사도를 산출하고, 산출된 유사도를 기준으로 문서 데이터를 분류할 수 있다.
이를 위해, 문서 분류 장치(100)는 문서 텍스트 입력부(110)와, 임베딩 벡터 변환부(120)와, 대표 문서 설정부(130)와, 유사도 분석부(140)와, 분류부(150)를 포함하여 구성될 수 있다.
문서 텍스트 입력부(110)는 광학문자인식(OCR)을 통해 인식된 문서 데이터 셋(200)을 기반으로 전체 문서 데이터를 입력받을 수 있다.
여기서 전체 문서 데이터는 예를 들어, '세금계산서', '비용 청구서', '견적서', '진단서', '처방전', '납입 확인서', '사업자 등록증', '진료비 영수증' 등을 포함할 수 있다.
또한, 문서 데이터에 포함되는 문서 종류는 상기된 문서들에 한정되는 것은 아니고, 개인이나 기업이 경제 활동 중에 수집하는 증빙 문서는 모두 포함될 수 있다.
또한, 문서 텍스트 입력부(110)는 인식된 문서 데이터 셋(200) 이외에 광학문자인식(OCR)을 통해 인식된 새로운 문서 데이터들을 입력받을 수도 있다.
임베딩 벡터 변환부(120)는 입력받은 전체 문서 데이터에 대하여 문서 내의 텍스트 값들을 벡터 값으로 변환한 임베딩 벡터를 산출할 수 있다.
즉, 임베딩 벡터 변환부(120)는 문서 데이터를 임베딩 벡터로 변환함으로써,벡터 공간에 표상하여 위치될 수 있도록 한다.
이때, 임베딩 벡터는 빈도 기반의 TF-IDF(Term Frequency - Inverse Document Frequency)를 통해 산출될 수 있다.
또한, TF-IDF는 문서 분류 별 주요 키워드에 빈도 기반 가중치를 주어 자동으로 주요 키워드를 설정할 수 있고, 문서 분류 별로 등장하는 주요 키워드가 한정적인 타겟 데이터에 적절한 임베딩(Embedding)을 제공할 수 있다.
또한, 임베딩 벡터 변환부(120)는 단어의 빈도를 벡터로 사용하여 표1과 같이 단어-문서 행렬(Term-Document Matrix)로 제공할 수도 있다.
TF-IDF X0 X1 X2 Xi
Doc1 0.375 0.0861 0.0045 - 0.004
Doc2 0.245 0 0.4211 - 0
- - - - -
DocN 0 0.4562 0.6223 - 0.2113
대표 문서 설정부(130)는 산출된 임베딩 벡터를 이용하여 각 벡터의 위치에 기반한 군집화를 수행하여 문서 군집 별로 분류할 수 있다.
즉, 대표 문서 설정부(130)는 산출된 임베딩 벡터를 K-평균 군집화(K-Means Cluster)를 통해 그루핑(grouping)한다.
비지도 학습 기반인 K-평균 군집화(K-Means Cluster)는 비슷한 특성(예를 들어, 가까운 위치)을 가진 문서 데이터끼리 묶는 그루핑을 수행하여 K개의 군집을 생성한다.
또한, 대표 문서 설정부(130)는 그루핑된 문서 군집 별로 대표 문서를 추출하고, 추출된 대표 문서를 군집 별 문서의 대표 문서로 등록할 수 있다.
이를 위해, 대표 문서 설정부(130)는 각 벡터들 간에 중앙값 등을 추출하고, 추출된 중앙값에 기반하여 가장 대표성이 높은 문서(들)을 자동으로 추출할 수 있다.
또한, 대표 문서 설정부(130)는 자동으로 추출된 문서(들)을 사용자에게 제공하고, 사용자로부터 입력되는 선택 결과에 기반하여 선택된 문서를 대표 문서로 등록할 수 있다.
이때, 대표 문서는 하나 이상 등록될 수도 있는데, 예를 들어, 1000건의 문서가 입력된 경우, 대표성이 높은 10개 정도의 문서들을 자동으로 추출하여 사용자에게 제공될 수 있으며, 사용자로부터 선택된 문서를 대표 문서로 등록할 수 있다.
또한, 대표 문서 설정부(130)는 등록 대상인 대표 문서에 대하여 라벨링을 통해 표2와 같은 대표 문서의 임베딩 매트릭스를 생성할 수 있다.
대표문서번호 문서종류 임베딩 벡터
1 진단서 (0.132, 1.165, …, 0.887)
2 진단서 (0.451, 1.162, …, 0.759)
3 기타 (3.251, 0.411, …, 0.432)
4 기타 (0.147, 2.341, …, 0.223)
5 진료비 영수증 (0.441, 0.238, …, 1.147)
유사도 분석부(140)는 생성된 대표 문서의 임베딩 매트릭스를 입력된 전체 문서 데이터의 임베딩 매트릭스와 행렬 연산을 통해 각 문서와 대표 문서 간의 유사도 행렬을 산출한다.
즉, 유사도 분석부(140)는 분류 대상 문서의 임베딩 벡터값과 대표 문서의 임베딩 벡터값을 사용해 벡터간 각도의 코사인 값에 기반한 코사인 유사도를 계산하여 두 벡터가 얼마나 유사한지 측정함으로써, 어떤 대표 문서와 가장 유사한지를 판별한다.
분류부(150)는 산출된 코사인 유사도를 기준으로 표3과 같이 문서 데이터를 분류한다.
대표문서 문서1 문서2 문서3
진단서1 0.1244 0.015 0.624
진단서2 0.1042 0.113 0.114
진료비 영수증 0.4871 0.019 0.035
기타1 0.2356 0.784 0.106
분류예측 진료비 영수증 기타 진단서
즉, 분류부(150)는 추출된 대표 문서에 대한 유사도를 기준으로 최종 분류값을 자동 분류하고, 분류된 결과에 기반한 분류 예측을 통해 인식된 문서 데이터를 분류할 수 있다.
다음은 본 발명의 일 실시 예에 따른 유사도 기반의 문서 분류 방법을 설명한다.
도3은 본 발명의 일 실시 예에 따른 유사도 기반의 문서 분류 방법을 설명하기 위해 나타낸 흐름도이고, 도4는 도3의 실시 예에 따른 유사도 기반의 문서 분류 방법의 대표 문서 추출 및 등록 과정을 설명하기 위해 나타낸 흐름도이다.
도1 내지 도4를 참조하면, 본 발명의 일 실시 예에 따른 유사도 기반의 문서 분류 방법은 문서 분류 장치(100)가 광학문자인식(OCR)을 통해 입력된 전체 문서 데이터의 문서 텍스트를 입력(S100)받는다.
또한, 문서 분류 장치(100)는 S100 단계에서 입력된 전체 문서 데이터에 대하여 임베딩 벡터로 변환(S200)함으로써, 벡터 공간에 표상하여 위치될 수 있도록 한다.
또한, S200 단계에서 문서 분류 장치(100)는 문서 데이터를 빈도 기반의 TF-IDF(Term Frequency - Inverse Document Frequency)를 통해 분석하여 문서 분류 별 주요 키워드에 빈도 기반 가중치를 주어 자동으로 주요 키워드를 설정하고, 단어의 빈도를 벡터로 사용하여 단어-문서 행렬(Term-Document Matrix)로 제공할 수도 있다.
문서 분류 장치(100)는 S200 단계에서 산출된 임베딩 벡터를 이용하여 각 벡터의 위치에 기반한 군집화를 수행하여 문서 별로 군집을 형성하고, 상기 문서 별로 형성된 군집에서 대표 문서를 비지도 학습 기반으로 추출하여 등록(S300)할 수 있다.
S300 단계에서 문서 분류 장치(100)는 산출된 임베딩 벡터를 비지도 학습 기반인 K-평균 군집화(K-Means Cluster)를 통해 비슷한 특성(예를 들어, 가까운 위치)을 가진 문서 데이터끼리 묶는 그루핑을 수행하여 K개의 군집을 생성한다.
또한, S300 단계의 문서 분류 장치(100)는 그루핑된 문서 분류 별로 각 벡터들 간에 중앙값 등을 추출하고, 추출된 중앙값에 기반하여 가장 대표성이 높은 문서(들)을 자동으로 추출할 수 있다.
또한, S300 단계의 문서 분류 장치(100)는 자동으로 추출된 문서(들)을 사용자에게 제공하고, 사용자로부터 대표 문서의 선택 결과를 입력(S310)받는다.
또한, 문서 분류 장치(100)는 자동으로 추출된 문서들 중에서 추가 대표 문서가 입력되는지 판단(S320)하고, S320 단계에서 대표 문서의 추가를 수신(S321)하면, S310 단계와 S321 단계에서 선택된 문서들을 분류된 문서들의 대표 문서로 등록(S330)한다.
또한, 문서 분류 장치(100)는 등록 대상인 대표 문서에 대하여 라벨링을 수행하여 대표 문서의 임베딩 매트릭스를 생성(S400)한다.
또한, 문서 분류 장치(100)는 생성된 대표 문서의 임베딩 매트릭스를 입력된 전체 문서 데이터의 임베딩 매트릭스와 행렬 연산을 수행하여 분류 대상 문서의 임베딩 벡터값과 대표 문서의 임베딩 벡터값에 기반한 벡터간 각도의 코사인 유사도를 산출(S500)하여 두 벡터가 얼마나 유사한지 분석한다.
또한, 문서 분류 장치(100)는 S500 단계에서 산출된 코사인 유사도를 이용하여 추출된 대표 문서에 대한 유사도를 기준으로 최종 분류값을 자동 분류하고, 분류된 결과에 기반한 분류 예측을 통해 인식된 문서 데이터를 분류(S600)한다.
이후, 대표 문서만 추가해서 인식된 문서 데이터와의 유사도 비교를 수행함으로써, 별도의 학습 없이 사용자의 작업 환경과 작업과정을 개선할 수 있다.
따라서, 입력된 전체 문서 데이터를 문서 별로 군집화하고, 군집화된 문서 별로 자동 추출된 하나 이상의 대표 문서와 입력된 전체 문서 데이터의 유사도를 산출하여 문서 데이터를 분류할 수 있다.
또한, 대표 문서의 등록을 통한 추가 커스터마이징과, 단어의 출현 빈도를 이용한 BoW(Bag of Words) 방식을 통해 문서 분류 별 키워드를 자동으로 추출함으로써, 사용자의 작업 환경을 개선할 수 있다.
또한, 인식된 문서를 등록된 대표 문서와 비교함으로써, 학습 데이터가 필요 없어 문서 분류작업을 수행할 수 있다.
또한, 빈도 기반의 임베딩 방식을 통해 분류에 필요한 학습시간을 대폭으로 단축시킬 수 있다.
또한, TF-IDF 매트릭스를 사용하여 대표 문서의 벡터 변환으로 학습을 대체하고, 새로운 TF-IDF 매트릭스를 학습하더라도 작업 공수가 발생하지 않으며, 유사도 검색 시 모델 추론(Model Inference) 없이 간단한 매트릭스 연산을 통해 산출할 수 있다.
상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.
또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.
100 : 문서 분류 장치
110 : 문서 텍스트 입력부
120 : 임베딩 벡터 변환부
130 : 대표 문서 설정부
140 : 유사도 분석부
150 : 분류부
200 : 인식된 문서 데이터 셋

Claims (9)

  1. 광학문자인식(OCR)을 통해 인식된 전체 문서 데이터를 입력받는 문서 텍스트 입력부(110);
    상기 입력받은 전체 문서 데이터에 대하여 문서 내의 텍스트 값들을 벡터 공간에 위치시켜 벡터 값으로 변환한 임베딩 벡터를 산출하는 임베딩 벡터 변환부(120);
    상기 산출된 임베딩 벡터를 각 벡터의 위치에 기반하여 문서 군집 별로 분류한 벡터들과, 상기 문서 군집 별로 분류된 각 벡터들 간에 중앙값을 추출하고, 추출된 중앙값을 기반으로 가장 대표성이 높은 가까운 위치의 벡터를 추출하여 대표 문서로 등록하되, 자동으로 추출된 복수의 문서들을 사용자에게 제공하여 사용자로부터 선택되는 추가 대표 문서를 복수의 대표 문서로 등록하며, 상기 등록된 대표 문서의 임베딩 매트릭스를 생성하는 대표 문서 설정부(130);
    상기 생성된 대표 문서의 임베딩 매트릭스를 입력된 전체 문서 데이터의 임베딩 매트릭스와 행렬 연산을 통해 유사도를 산출하는 유사도 분석부(140); 및
    상기 산출된 유사도를 기준으로 문서 데이터를 분류하는 분류부(150);를 포함하고,
    상기 임베딩 벡터는 빈도 기반의 TF-IDF(Term Frequency - Inverse Document Frequency)를 통해 산출되는 것을 특징으로 하는 유사도 기반의 문서 분류 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제 1 항에 있어서,
    상기 산출된 임베딩 벡터는 K-평균 군집화(K-Means Cluster)를 통해 그루핑되는 것을 특징으로 하는 유사도 기반의 문서 분류 장치.
  6. a) 문서 분류 장치(100)가 광학문자인식(OCR)을 통해 입력된 전체 문서 데이터에 대하여 문서 내의 텍스트 값들을 벡터 공간에 위치시켜 벡터 값으로 변환한 임베딩 벡터를 산출하는 단계;
    b) 상기 문서 분류 장치(100)가 산출된 임베딩 벡터를 각 벡터의 위치에 기반하여 문서 군집 별로 분류한 벡터들과, 상기 문서 군집 별로 분류된 각 벡터들 간에 중앙값을 추출하고, 추출된 중앙값을 기반으로 가장 대표성이 높은 가까운 위치의 벡터를 추출하여 대표 문서로 등록하되, 상기 문서 분류 장치(100)가 자동으로 추출된 복수의 문서들을 사용자에게 제공하여 사용자로부터 선택되는 추가 대표 문서의 입력 여부를 판단하고, 상기 추가 대표 문서가 입력됨에 따라 입력된 추가 대표 문서를 복수의 대표 문서로 등록하는 단계;
    c) 상기 문서 분류 장치(100)가 등록된 대표 문서의 임베딩 매트릭스를 생성하는 단계; 및
    d) 상기 문서 분류 장치(100)가 생성된 대표 문서의 임베딩 매트릭스와 입력된 전체 문서 데이터의 임베딩 매트릭스의 행렬 연산을 통해 유사도를 산출하고, 상기 유사도를 기준으로 문서 데이터를 분류하는 단계;를 포함하고,
    상기 a) 단계의 임베딩 벡터는 빈도 기반의 TF-IDF(Term Frequency - Inverse Document Frequency)를 통해 산출되는 것을 특징으로 하는 유사도 기반의 문서 분류 방법.
  7. 삭제
  8. 삭제
  9. 제 6 항에 있어서,
    상기 b) 단계의 산출된 임베딩 벡터는 K-평균 군집화(K-Means Cluster)를 통해 그루핑되는 것을 특징으로 하는 유사도 기반의 문서 분류 방법.
KR1020210139624A 2021-10-19 2021-10-19 유사도 기반의 문서 분류 장치 및 방법 KR102392644B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210139624A KR102392644B1 (ko) 2021-10-19 2021-10-19 유사도 기반의 문서 분류 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210139624A KR102392644B1 (ko) 2021-10-19 2021-10-19 유사도 기반의 문서 분류 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102392644B1 true KR102392644B1 (ko) 2022-04-29

Family

ID=81429131

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210139624A KR102392644B1 (ko) 2021-10-19 2021-10-19 유사도 기반의 문서 분류 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102392644B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102607516B1 (ko) * 2023-03-24 2023-11-29 (주)유알피 딥러닝 모델 기반 입력문서의 텍스트 시퀀스 처리장치 및 그 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234670A (ja) * 1998-12-24 2008-10-02 Ricoh Co Ltd 文書分類装置、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
KR101139801B1 (ko) 2010-03-12 2012-04-30 에스케이마케팅앤컴퍼니 주식회사 영수증 판독을 통한 자동 정보 수집 시스템 및 방법
KR20210119041A (ko) * 2020-03-24 2021-10-05 경북대학교 산학협력단 군집 기반 중복문서 제거 장치 및 제거 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234670A (ja) * 1998-12-24 2008-10-02 Ricoh Co Ltd 文書分類装置、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
KR101139801B1 (ko) 2010-03-12 2012-04-30 에스케이마케팅앤컴퍼니 주식회사 영수증 판독을 통한 자동 정보 수집 시스템 및 방법
KR20210119041A (ko) * 2020-03-24 2021-10-05 경북대학교 산학협력단 군집 기반 중복문서 제거 장치 및 제거 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
강형창, 데이터 속성에 따른 초기 클러스터 결정 및 클러스터링, 제주대학교 대학원 박사학위 논문, 2008.02. *
유은순, 최건희, 김승훈, TF-IDF와 소설 텍스트의 구조를 이용한 주제어 추출 연구, 한국컴퓨터정보학회논문지 20(2), 121-129페이지. 2015.2. *
이성직, 김한준, TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법, 한국전자거래학회지 제14권 제4호, 59- 73페이지. 2009년. *
조정원, 최병욱, 특징벡터의 클러스터링 기법을 통한 2단계 내용기반 이미지검색 시스템, 전자공학회논문지-CI 40(3), 2003.5, 45-54페이지. 1부.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102607516B1 (ko) * 2023-03-24 2023-11-29 (주)유알피 딥러닝 모델 기반 입력문서의 텍스트 시퀀스 처리장치 및 그 방법

Similar Documents

Publication Publication Date Title
US11816165B2 (en) Identification of fields in documents with neural networks without templates
US20230129874A1 (en) Pre-trained contextual embedding models for named entity recognition and confidence prediction
US8897563B1 (en) Systems and methods for automatically processing electronic documents
US20220292862A1 (en) Document spatial layout feature extraction to simplify template classification
US20110249905A1 (en) Systems and methods for automatically extracting data from electronic documents including tables
Rusinol et al. Multimodal page classification in administrative document image streams
US20090116757A1 (en) Systems and methods for classifying electronic documents by extracting and recognizing text and image features indicative of document categories
US20070065011A1 (en) Method and system for collecting data from a plurality of machine readable documents
CN102165486B (zh) 图像特征提取设备
US11880435B2 (en) Determination of intermediate representations of discovered document structures
CN111914729A (zh) 凭证关联方法、装置、计算机设备及存储介质
KR102392644B1 (ko) 유사도 기반의 문서 분류 장치 및 방법
CN114971294A (zh) 数据采集方法、装置、设备及存储介质
TW202018616A (zh) 智能會計帳務系統與會計憑證的辨識入帳方法
Kumar et al. Line based robust script identification for indianlanguages
KR102347386B1 (ko) 단어 정의 기반 헤더 추출 장치 및 방법
US20230409644A1 (en) Systems and method for generating labelled datasets
US20230081511A1 (en) Systems and methods for improved payroll administration in a freelance workforce
Sushma et al. Two-Stage Word Spotting Scheme for Historical Handwritten Devanagari Documents
Madake et al. Sanskrit OCR System
Liu et al. Handwritten letter recognition using LetNET
Slavin et al. Search for Falsifications in Copies of Business Documents
CN115730074A (zh) 文件分类方法、装置、计算机设备和存储介质
Mei Computer-Aided Optically Scanned Document Information Extraction System
LAMMICHHANE et al. INFORMATION EXTRACTION FROM UNSTRUCTURED DATA

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
GRNT Written decision to grant
X701 Decision to grant (after re-examination)