KR20230143753A - 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법 - Google Patents

텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법 Download PDF

Info

Publication number
KR20230143753A
KR20230143753A KR1020220042763A KR20220042763A KR20230143753A KR 20230143753 A KR20230143753 A KR 20230143753A KR 1020220042763 A KR1020220042763 A KR 1020220042763A KR 20220042763 A KR20220042763 A KR 20220042763A KR 20230143753 A KR20230143753 A KR 20230143753A
Authority
KR
South Korea
Prior art keywords
word
document
pdf
words
pdf documents
Prior art date
Application number
KR1020220042763A
Other languages
English (en)
Inventor
여동훈
윤인용
김수현
Original Assignee
주식회사 하나금융티아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 하나금융티아이 filed Critical 주식회사 하나금융티아이
Priority to KR1020220042763A priority Critical patent/KR20230143753A/ko
Publication of KR20230143753A publication Critical patent/KR20230143753A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/20Combination of acquisition, preprocessing or recognition functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 학습 데이터의 생성 기술에 관한 것으로서, 상세하게는 이미지 내에 존재하는 텍스트를 검출 및 인식하는 모델을 학습할 때 사용되는 문서 이미지를 수집하기 위한 장치 및 방법에 관한 것이다. 이를 위해, 본 발명에 따른 문서 이미지의 수집 방법은 컴퓨팅 장치에서 수행되는 문서 이미지의 수집 방법으로서, 특정 주제와 관련된 단어를 포함하는 PDF 문서를 검색하여 복수 개 선정하는 단계와, 상기 복수 개 선정된 PDF 문서에 포함된 단어의 빈도수를 계산하여 제1 빈도 범위에 속하는 제1 단어 집합, 제2 빈도 범위에 속하는 제2 단어 집합 및 제3 빈도 범위에 속하는 제3 단어 집합을 추출하는 단계와, 상기 제1 단어 집합에 포함된 각 단어를 포함하는 PDF 문서를 검색하여 단어별로 복수 개 선정하는 단계와, 상기 제2 단어 집합에 포함된 각 단어를 포함하는 PDF 문서를 검색하여 단어별로 복수 개 선정하는 단계와, 상기 제3 단어 집합에 포함된 각 단어를 포함하는 PDF 문서를 검색하여 단어별로 복수 개 선정하는 단계를 포함한다.

Description

텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법{Apparatus and method for collecting document images used in machine-learning of text detection and recognition}
본 발명은 학습 데이터의 생성 기술에 관한 것으로서, 상세하게는 이미지 내에 존재하는 텍스트를 검출 및 인식하는 모델을 학습할 때 사용되는 문서 이미지를 수집하기 위한 장치 및 방법에 관한 것이다.
이미지 내에 있는 텍스트를 검출하기 위해서는 각 단어의 위치를 나타내는 박스의 좌표를 구해야 한다. 텍스트 검출 과정은 학습된 심층신경망(DNN)을 통해 이미지에서 각 박스의 위치(네 꼭지점의 좌표)를 유추할 수 있다. 텍스트 검출을 위한 심층신경망을 학습하기 위해서는 문서 이미지와 정답 박스의 위치가 입력 데이터로 필요하다.
텍스트 검출 과정을 통해 박스의 좌표를 구하면, 검출된 박스 이미지로부터 텍스트 인식 과정을 통해 각 박스 내의 글자를 인식할 수 있다. 텍스트 인식 과정은 학습된 심층신경망을 통해 박스 이미지 내에 있는 글자를 유추할 수 있다. 텍스트 인식을 위한 심층신경망을 학습하기 위해서는 박스 이미지와 정답 문자열이 입력 데이터로 필요하다.
이와 같이, 텍스트 검출 및 인식을 위한 심층신경망을 학습하기 위해서는 문서 이미지, 정답 박스 정보 및 정답 문자열 정보를 포함하는 학습 데이터가 필요한데, 종래에는 이러한 학습 데이터를 사람이 수작업으로 생성하였다.
즉, 학습에 사용할 글자가 포함된 다수의 문서 이미지가 주어지면 사람이 일정한 박스 기준에 맞춰 직접 박스를 설정하는 작업을 수행해야 한다.
그러나 사람이 일단 박스 기준을 정확히 지키기 어렵고 박스 기준에 따라 문서 이미지 내에서 박스를 만들 때 시간이 매우 오래 걸린다는 문제점이 있다.
(선행기술문헌 1) 한국등록특허공보 제10-1120387호
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 본 발명의 목적은 텍스트 검출 및 인식을 위한 심층신경망 학습에 사용되는 학습 데이터를 사람의 수작업 없이 자동으로 생성하는 것이다.
본 발명의 다른 목적은 사람의 수작업이 필요 없는 학습 데이터를 효율적으로 수집하는 것이다.
이를 위해, 본 발명에 따른 문서 이미지의 수집 방법은 컴퓨팅 장치에서 수행되는 문서 이미지의 수집 방법으로서, 특정 주제와 관련된 단어를 포함하는 PDF 문서를 검색하여 복수 개 선정하는 단계와, 상기 복수 개 선정된 PDF 문서에 포함된 단어의 빈도수를 계산하여 제1 빈도 범위에 속하는 제1 단어 집합, 제2 빈도 범위에 속하는 제2 단어 집합 및 제3 빈도 범위에 속하는 제3 단어 집합을 추출하는 단계와, 상기 제1 단어 집합에 포함된 각 단어를 포함하는 PDF 문서를 검색하여 단어별로 복수 개 선정하는 단계와, 상기 제2 단어 집합에 포함된 각 단어를 포함하는 PDF 문서를 검색하여 단어별로 복수 개 선정하는 단계와, 상기 제3 단어 집합에 포함된 각 단어를 포함하는 PDF 문서를 검색하여 단어별로 복수 개 선정하는 단계를 포함한다.
본 발명에 따른 문서 이미지의 수집 장치는 특정 주제와 관련된 단어를 포함하는 PDF 문서를 검색하여 상위에 랭크된 소정 개수의 PDF 문서들을 획득하는 문서 검색부와, 상기 문서 검색부로부터 입력된 각 PDF 문서에 포함된 단어를 추출하여 단어의 등장 빈도수를 계산한 후 제1 빈도 범위에 속하는 제1 단어 집합, 제2 빈도 범위에 속하는 제2 단어 집합 및 제3 빈도 범위에 속하는 제3 단어 집합을 추출하는 단어 추출부를 포함하여, 상기 문서 검색부는 상기 단어 추출부(20)로부터 상기 제1 내지 제3 단어 집합을 입력 받아 각 단어 집합에 포함된 각 단어를 포함하는 PDF 문서들을 검색하여 단어별로 복수 개 선정하는 것을 특징으로 한다.
상술한 바와 같이, 본 발명은 PDF 문서에서 문서 이미지, 단어 박스 정보 및 글자열 정보를 추출하여 학습 데이터로 사용하기 때문에 종래 사람이 수작업으로 문서 이지미와 정답 데이터를 만들 필요가 없다. 이에 따라 학습 데이터를 정확하고 빠르게 생성할 수 있는 효과가 있다.
또한 PDF 문서를 수집할 때 본 발명에 따른 검색 과정을 통해 특정 주제와 관련한 다양한 문서를 확보할 수 있고, 또한 본 발명에 따른 삭제 과정을 통해 잘못된 정보가 들어 있는 문서를 필터링할 수 있기 때문에 정확한 학습 데이터를 획득할 수 있는 효과가 있다.
도 1은 본 발명에 따른 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치의 개략적인 내부 구성을 나타낸 도면.
도 2는 본 발명에 따른 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 방법을 나타낸 순서도.
도 3은 본 발명에 따라 수집한 PDF 문서에 포함된 단어 박스 정보와 글자열 정보를 나타낸 도면.
도 4는 본 발명에 따라 수집한 PDF 문서가 외국 문서인 경우를 나타낸 도면.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
또한, 명세서에 기재된 "……부", "…… 모듈" 의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하, 도면을 참조로 하여 본 발명의 실시예에 따른 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법에 대하여 상세히 설명한다.
도 1은 본 발명에 따른 문서 이미지 수집 장치의 개략적인 구성을 나타낸 것이다.
본 발명에 따른 문서 이미지 수집 장치는 텍스트 검출 및 인식 학습을 위한 학습 데이터로서 사용되는 문서 이미지를 검색 및 수집하는 장치이다. 문서 이미지 수집 장치는 퍼스널 컴퓨터(PC)이거나 전용 컴퓨팅 장치가 될 수 있다.
도 1을 참조하면, 본 발명에 따른 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치는 문서 검색부(10), 단어 추출부(20), 문서 필터링부(30) 등을 포함한다.
문서 검색부(10)는 특정 주제와 관련된 단어를 포함하는 PDF 문서를 검색한다. 문서 검색부(10)는 검색 엔진을 통해 검색한 PDF 문서에서 상위에 랭크된 소정 개수의 PDF 문서를 단어 추출부(20)로 전달한다.
또한 문서 검색부(10)는 단어 추출부(20)로부터 단어 집합을 입력받아 단어 집합에 포함된 각 단어를 포함하는 PDF 문서를 검색한다. 문서 검색부(10)는 단어 집합에 근거해 검색한 PDF 문서를 문서 필터링부(30)로 전달한다.
단어 추출부(20)는 문서 검색부(10)로부터 입력된 PDF 문서에 포함된 단어를 추출하여 단어의 등장 빈도수를 계산한다. 단어 추출부(20)는 단어의 등장 빈도수에 따라 가장 자주 등장하는 단어들, 중간 정도로 등장하는 단어들, 가장 적게 등장하는 단어들을 묶어 단어 집합을 추출한다.
높은 빈도수를 가진 단어들은 제1 빈도 범위에 속하는 단어들로서 제1 단어 집합을 구성하고, 중간 빈도수를 가진 단어들은 제2 범위에 속하는 단어들로서 제2 단어 집합을 구성하고, 적은 빈도수를 가진 단어들은 제3 빈도 범위에 속하는 단어들로서 제3 단어 집합을 구성할 수 있다. 단어 추출부(20)는 빈도수에 따라 분류한 단어 집합을 문서 검색부(10)로 반환한다.
문서 필터링부(30)는 문서 검색부(10)로부터 입력 받은 PDF 문서들 중에서 잘못된 정보가 포함된 문서를 삭제한다. 문서 필터링부(30)에서 삭제한 문서를 제외하고 남은 PDF 문서가 텍스트 검출 및 인식 학습을 위한 학습 데이터로 사용된다. 또한 문서 필터링부(30)는 잘못된 정보가 포함된 문서에 대한 편집을 수행할 수 있다.
PDF 문서에는 띄어 쓰기 단위로 단어 박스 정보와 단어 박스 내에 들어 있는 글자열 정보를 포함하여, 문서에 사용된 폰트, 이미지 객체(이미지의 실제 파일정보, 이미지의 문서 내 위치, 이미지의 크기 등), 드로잉 객체(이미지 이외의 점, 선, 면 등의 그리기 객체 정보), 하이퍼링크 목록 등의 다양한 정보가 포함되어 있다.
도 2는 본 발명에 따른 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 방법을 나타낸 것이다.
도 2에 도시된 각 단계는 본 발명에 따른 문서 이미지 수집 장치에서 수행된다. 구체적으로 각 단계는 문서 이미지 수집 장치의 각 기능(문서 검색, 단어 추출, 문서 삭제 등)을 가진 해당 소프트웨어 또는 하드웨어에 의해 수행되나, 설명의 편의 상 문서 이미지 수집 장치가 각 단계를 수행하는 것으로 설명한다.
도 2를 참조하면, 먼저 문서 이미지 수집 장치는 특정 주제와 관련한 단어를 검색어로 받아 해당 단어를 포함하는 PDF 문서를 검색한다(S10). PDF 문서 검색 단계(S10)에서는 일반적인 크롤링(crawling) 기법을 사용하여 소정의 복수 개의 PDF 문서를 선정한다. 예를 들어, 특정 주제로 금융을 선택하고, 금융 관련 PDF 문서를 검색하여 100건의 PDF 문서를 다운 받을 수 있다.
복수 개의 PDF 문서가 확보되면, 문서 이미지 수집 장치는 각 PDF 문서를 분석하여 PDF 문서에서 등장하는 단어의 빈도수를 계산한다(S12). 단어의 빈도수에 따라 순위를 매겨 단어들을 나열할 수 있다.
단어의 빈도수에 따라 단어들을 나열한 후, 문서 이미지 수집 장치는 단어의 등장 빈도수에 따라 가장 자주 등장하는 단어들, 중간 정도로 등장하는 단어들, 가장 적게 등장하는 단어들을 묶어 단어 집합을 추출한다(S14).
예를 들어, 100건의 PDF 문서에서 가장 많이 등장하는 단어 20개, 중간 정도의 빈도로 등장하는 단어 20개, 가장 적게 등장하는 단어 20개를 선택할 수 있다. 이에 따라, 가장 많이 등장하는 단어 20개가 제1 단어 집합이 되고, 중간 정도의 빈도로 등장하는 단어 20개가 제2 단어 집합이 되고, 가장 적게 등장하는 단어 20개가 제3 단어 집합이 된다.
단어 집합이 추출되면, 문서 이미지 수집 장치는 각 단어 집합에 포함된 각 단어를 포함하는 PDF 문서를 검색하여 수집한다(S16).
예를 들어, 각 단어 집합에 속하는 20개의 단어별로 20개의 문서를 검색할 수 있다. 즉, 제1 단어 집합에 속하는 각 단어마다 해당 단어를 포함하는 20개의 문서를 검색하게 되면, 총 400개의 문서를 검색하게 되고, 이를 제2 단어 집합과 제3 단어 집합에서도 수행하면 1200개의 문서를 수집할 수 있다.
이렇게 PDF 문서가 수집되면, 이후 문서 이미지 수집 장치는 확보된 PDF 문서 중에서 잘못된 정보를 가진 PDF 문서를 삭제하는 과정을 수행한다.
먼저, 수집된 PDF 문서들을 확인하여 단어 박스에 글자가 포함되어 있지 않으면(S18), 해당 PDF 문서를 삭제한다(S34). 단어 박스 내에 색상이 통일되어 있으면 글자가 포함되어 있지 않은 것으로 판단할 수 있다.
다음, 단어 박스 내의 글자열이 인식 대상이 아닌 언어 셋에 해당하는 경우(S20), 해당 PDF 문서를 삭제한다(S34). 인식 대상이 아닌 언어 셋으로는 원하지 않는 외국어, 인코딩이 잘못된 글자, 다루는 범위 외의 특수 문자 등이 있다.
다음, 소정 개수 이상의 드로잉 객체가 존재하는 경우(S22), 해당 PDF 문서를 삭제한다(S34). 일반적으로 드로잉 객체가 많으면 다양한 효과를 내기 위해 그림을 글자로 만드는 경우가 많다. 따라서 예를 들어, 드로잉 객체가 100개 이상 포함된 경우 해당 PDF 문서를 삭제할 수 있다.
다음, 텍스트 검출 및 인식 모델의 텍스트 검출기에 의해 검출된 단어 박스와 PDF 문서에 포함된 단어 박스 간의 차이가 일정 값 이상인 경우(S24), 해당 PDF 문서를 삭제한다(S34). 예를 들어, PDF 문서에서 얻은 단어 박스 영역이 텍스트 검출기에서 검출한 단어 박스 영역을 80% 미만으로 차지하는 경우 즉, 그 차이가 20% 이상이면 해당 PDF 문서를 삭제할 수 있다.
다음, PDF 문서에서 추출한 단어 박스들이 서로 겹쳐 있는 경우(S26), 해당 PDF 문서를 삭제한다(S34).
다음, PDF 문서에서 소정 개수 이상의 단어가 포함되어 있는 경우에도(S28), 해당 PDF 문서를 삭제한다(S34). 일반적으로 너무 많은 단어가 포함되어 있는 문서는 잘못된 문서일 가능성이 높다. 예를 들어, 하나의 문서에 2000개 이상의 단어가 들어간 문서는 삭제할 수 있다.
마지막으로, 이미지 객체에 글자가 포함되어 있는지 확인하여(S30), 이미지 객체에 글자가 포함되어 있으면, 그 이미지 객체를 임의의 색상을 가진 사각형 박스로 대체하거나 글자가 포함되지 않은 이미지로 교체한다(S32). 대체되는 이미지는 텍스트 검출기에 의해 글자가 검출되지 않은 이미지만을 사용한다.
도 3은 본 발명에 따라 수집한 PDF 문서에 포함된 단어 박스 정보와 글자열 정보를 나타낸 것이고, 도 4는 본 발명에 따라 수집한 PDF 문서가 외국 문서인 경우를 나타낸 것이다.
도 3을 참조하면, PDF 문서에 단어 박스(1)와 단어 박스(1) 내에 글자열이 포함되어 있다는 것을 확인할 수 있다. 각 단어 박스는 사각형태로 네 꼭지점의 좌표(2)를 가지고 있으며, 글자로부터 일정한 픽셀 간격을 가지고 있다.
도 4를 참조하면, 아랍어 PDF 문서에도 단어 박스와 글자열 정보가 포함되어 있다는 것을 확인할 수 있다. 따라서 언어를 모르는 상태에서도 사전 지식 없이 외국어 문서에 대한 정답 데이터를 획득할 수 있다.
이와 같이 학습 데이터로 사용될 PDF 문서가 최종 선정되면 PDF 문서를 이미지로 변환하여 문서 이미지를 생성하고, PDF 문서에 포함된 단어 박스 정보 및 단어 박스 내의 글자열 정보를 추출하여 정답 데이터로 사용하게 된다. 문서 이미지, 단어 박스 정보 및 글자열 정보를 이용해 텍스트 검출 및 인식을 위한 딥러닝 모델을 학습시킨다.
학습이 완료된 딥러닝 모델에 문서 이미지를 입력하게 되면, 텍스트 검출 과정을 통해 단어 박스의 위치가 출력되고, 텍스트 인식 과정을 통해 단어 박스 내의 글자열이 출력된다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
10: 문서 검색부 20: 단어 추출부
30: 문서 필터링부

Claims (19)

  1. 컴퓨팅 장치에서 수행되는 문서 이미지의 수집 방법에 있어서,
    특정 주제와 관련된 단어를 포함하는 PDF 문서를 검색하여 복수 개 선정하는 단계와,
    상기 복수 개 선정된 PDF 문서에 포함된 단어의 빈도수를 계산하여 제1 빈도 범위에 속하는 제1 단어 집합, 제2 빈도 범위에 속하는 제2 단어 집합 및 제3 빈도 범위에 속하는 제3 단어 집합을 추출하는 단계와,
    상기 제1 단어 집합에 포함된 각 단어를 포함하는 PDF 문서를 검색하여 단어별로 복수 개 선정하는 단계와,
    상기 제2 단어 집합에 포함된 각 단어를 포함하는 PDF 문서를 검색하여 단어별로 복수 개 선정하는 단계와,
    상기 제3 단어 집합에 포함된 각 단어를 포함하는 PDF 문서를 검색하여 단어별로 복수 개 선정하는 단계를 포함하는 방법.
  2. 제1항에 있어서,
    상기 단어별로 복수 개 선정된 PDF 문서들 중에서 단어 박스에 글자가 포함되어 있지 않은 경우 해당 PDF 문서를 삭제하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서,
    상기 단어별로 복수 개 선정된 PDF 문서들 중에서 단어 박스 내 글자열 정보가 인식 대상이 아닌 언어 셋에 해당하는 경우 해당 PDF 문서를 삭제하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  4. 제3항에 있어서,
    상기 인식 대상이 아닌 언어 셋은 인식 대상이 아닌 외국어나 특수 문자 및 인코딩이 잘못된 글자를 포함하는 것을 특징으로 하는 방법.
  5. 제1항에 있어서,
    상기 단어별로 복수 개 선정된 PDF 문서들 중에서 소정 개수의 드로잉 객체가 포함되어 있는 경우 해당 PDF 문서를 삭제하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  6. 제5항에 있어서,
    상기 드로잉 객체는 PDF 문서에 그려져 있는 점, 선 또는 면인 것을 특징으로 하는 방법.
  7. 제1항에 있어서,
    상기 단어별로 복수 개 선정된 PDF 문서들 중에서 이미지 객체에 글자가 포함되어 있는 경우 그 이미지 객체를 임의의 색상을 가진 사각형 박스로 대체하거나 글자가 포함되지 않은 이미지로 교체하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  8. 제1항에 있어서,
    상기 단어별로 복수 개 선정된 PDF 문서들 중에서 텍스트 검출기에 의해 검출된 단어 박스와 PDF 문서에 포함된 단어 박스의 차이가 일정 값 이상인 경우 해당 PDF 문서를 삭제하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  9. 제1항에 있어서,
    상기 단어별로 복수 개 선정된 PDF 문서들 중에서 PDF 문서에 포함된 단어 박스가 중첩되어 있는 경우 해당 PDF 문서를 삭제하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  10. 제1항에 있어서,
    상기 단어별로 복수 개 선정된 PDF 문서들 중에서 소정 개수 이상의 단어가 포함되어 있는 경우 해당 PDF 문서를 삭제하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  11. 특정 주제와 관련된 단어를 포함하는 PDF 문서를 검색하여 상위에 랭크된 소정 개수의 PDF 문서들을 획득하는 문서 검색부와,
    상기 문서 검색부로부터 입력된 각 PDF 문서에 포함된 단어를 추출하여 단어의 등장 빈도수를 계산한 후 제1 빈도 범위에 속하는 제1 단어 집합, 제2 빈도 범위에 속하는 제2 단어 집합 및 제3 빈도 범위에 속하는 제3 단어 집합을 추출하는 단어 추출부를 포함하여,
    상기 문서 검색부는 상기 단어 추출부(20)로부터 상기 제1 내지 제3 단어 집합을 입력받아 각 단어 집합에 포함된 각 단어를 포함하는 PDF 문서들을 검색하여 단어별로 복수 개 선정하는 것을 특징으로 하는 문서 이미지의 수집 장치.
  12. 제11항에 있어서,
    상기 문서 검색부로부터 각 단어 집합에 포함된 각 단어를 포함하는 PDF 문서들을 입력받아 PDF 문서들 중에서 잘못된 정보가 포함된 PDF 문서를 삭제하는 문서 필터링부를 더 포함하는 것을 특징으로 하는 문서 이미지의 수집 장치.
  13. 제12항에 있어서,
    상기 문서 필터링부는 상기 단어별로 복수 개 선정된 PDF 문서들 중에서 단어 박스에 글자가 포함되어 있지 않은 경우 해당 PDF 문서를 삭제하는 것을 특징으로 하는 문서 이미지의 수집 장치.
  14. 제12항에 있어서,
    상기 문서 필터링부는 상기 단어별로 복수 개 선정된 PDF 문서들 중에서 단어 박스 내 글자열 정보가 인식 대상이 아닌 외국어나 특수문자 및 인코딩이 잘못된 글자에 해당하는 경우 해당 PDF 문서를 삭제하는 것을 특징으로 하는 문서 이미지의 수집 장치.
  15. 제12항에 있어서,
    상기 문서 필터링부는 상기 단어별로 복수 개 선정된 PDF 문서들 중에서 소정 개수의 드로잉 객체가 포함되어 있는 경우 해당 PDF 문서를 삭제하는 것을 특징으로 하는 문서 이미지의 수집 장치.
  16. 제12항에 있어서,
    상기 문서 필터링부는 상기 단어별로 복수 개 선정된 PDF 문서들 중에서 텍스트 검출기에 의해 검출된 단어 박스와 PDF 문서에 포함된 단어 박스의 차이가 일정 값 이상인 경우 해당 PDF 문서를 삭제하는 것을 특징으로 하는 문서 수집 장치.
  17. 제12항에 있어서,
    상기 문서 필터링부는 상기 단어별로 복수 개 선정된 PDF 문서들 중에서 PDF 문서에 포함된 단어 박스가 중첩되어 있는 경우 해당 PDF 문서를 삭제하는 것을 특징으로 하는 문서 이미지의 수집 장치.
  18. 제12항에 있어서,
    상기 문서 필터링부는 상기 단어별로 복수 개 선정된 PDF 문서들 중에서 소정 개수 이상의 단어가 포함되어 있는 경우 해당 PDF 문서를 삭제하는 것을 특징으로 하는 문서 이미지의 수집 장치.
  19. 제12항에 있어서,
    상기 문서 필터링부는 상기 단어별로 복수 개 선정된 PDF 문서들 중에서 이미지 객체에 글자가 포함되어 있는 경우 그 이미지 객체를 임의의 색상을 가진 사각형 박스로 대체하거나 글자가 포함되지 않은 이미지로 교체하는 것을 특징으로 하는 문서 이미지의 수집 장치.
KR1020220042763A 2022-04-06 2022-04-06 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법 KR20230143753A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220042763A KR20230143753A (ko) 2022-04-06 2022-04-06 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220042763A KR20230143753A (ko) 2022-04-06 2022-04-06 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20230143753A true KR20230143753A (ko) 2023-10-13

Family

ID=88290025

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220042763A KR20230143753A (ko) 2022-04-06 2022-04-06 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20230143753A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101120387B1 (ko) 2010-06-24 2012-03-09 엔에이치엔(주) 문서 수집 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101120387B1 (ko) 2010-06-24 2012-03-09 엔에이치엔(주) 문서 수집 시스템 및 방법

Similar Documents

Publication Publication Date Title
Shen et al. A large dataset of historical japanese documents with complex layouts
Dunst et al. The graphic narrative corpus (GNC): design, annotation, and analysis for the digital humanities
WO2007117334A2 (en) Document analysis system for integration of paper records into a searchable electronic database
CN109993040A (zh) 文本识别方法及装置
Valy et al. A new khmer palm leaf manuscript dataset for document analysis and recognition: Sleukrith set
Prusty et al. Indiscapes: Instance segmentation networks for layout parsing of historical indic manuscripts
KR19990036515A (ko) 문자 인식/수정 방법 및 장치
CN112434690A (zh) 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质
Yalniz et al. Ottoman archives explorer: A retrieval system for digital Ottoman archives
CN111753120A (zh) 一种搜题的方法、装置、电子设备和存储介质
CN113326797A (zh) 一种pdf文档提取的表格信息转换为结构化知识的方法
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
Kasar et al. Table information extraction and structure recognition using query patterns
KR101118628B1 (ko) 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
De Nardin et al. Few-shot pixel-precise document layout segmentation via dynamic instance generation and local thresholding
Xu et al. Cross-browser differences detection based on an empirical metric for web page visual similarity
Khan et al. A holistic approach to Urdu language word recognition using deep neural networks
Yurtsever et al. Figure search by text in large scale digital document collections
KR20230143753A (ko) 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법
CN115050025A (zh) 基于公式识别的知识点抽取方法及装置
Xu et al. Estimating similarity of rich internet pages using visual information
CN114417860A (zh) 一种信息检测方法、装置及设备
CN115481370B (zh) 一种动漫卡通形象侵权的监控方法及装置