KR102516560B1 - Managing system for handwritten document - Google Patents

Managing system for handwritten document Download PDF

Info

Publication number
KR102516560B1
KR102516560B1 KR1020220085727A KR20220085727A KR102516560B1 KR 102516560 B1 KR102516560 B1 KR 102516560B1 KR 1020220085727 A KR1020220085727 A KR 1020220085727A KR 20220085727 A KR20220085727 A KR 20220085727A KR 102516560 B1 KR102516560 B1 KR 102516560B1
Authority
KR
South Korea
Prior art keywords
unit
topic
handwritten
folder name
text data
Prior art date
Application number
KR1020220085727A
Other languages
Korean (ko)
Inventor
백진성
Original Assignee
망고클라우드 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 망고클라우드 주식회사 filed Critical 망고클라우드 주식회사
Priority to KR1020220085727A priority Critical patent/KR102516560B1/en
Application granted granted Critical
Publication of KR102516560B1 publication Critical patent/KR102516560B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Discrimination (AREA)

Abstract

The present invention relates to a system for managing handwritten documents. The system comprises: a preprocessing unit; a model generation unit; a character recognition unit; a keyword extraction unit; and a document management unit. According to the present invention, even handwritten characters in various handwritings can be recognized with excellent accuracy.

Description

수기로 작성된 문서의 관리 시스템{MANAGING SYSTEM FOR HANDWRITTEN DOCUMENT}Handwritten document management system {MANAGING SYSTEM FOR HANDWRITTEN DOCUMENT}

본 발명은 문서 관리 시스템에 관한 것으로서, 수기로 작성된 문서의 문자들을 인식한 뒤 이를 분석하여 문서들을 유사 토픽군으로 분류함으로써, 보다 효율적으로 관리할 수 있는 수기로 작성된 문서의 관리 시스템에 관한 것이다.The present invention relates to a document management system, and relates to a management system for handwritten documents capable of more efficiently managing by recognizing and analyzing characters of handwritten documents and classifying documents into similar topic groups.

전사적 콘텐츠 관리 시스템인 ECM(Enterprise Content Management)은 조직 내의 처리 업무에 관한 콘텐츠나 문서를 보관ㆍ전달ㆍ관리에 이용하는 기술을 의미한다.ECM (Enterprise Content Management), an enterprise-wide content management system, refers to a technology used to store, deliver, and manage content or documents related to processing tasks within an organization.

최근 ECM은 기업 내부의 콘텐츠의 양과 종류가 급격한 속도로 증가하는 상황에서, 이에 대한 체계적인 관리가 기업 경쟁력 강화 및 생산성 향상에 크게 기여한다는 점에서 주목받고 있다.Recently, ECM is attracting attention in that the systematic management of it greatly contributes to strengthening corporate competitiveness and improving productivity in a situation where the amount and type of content inside a company is rapidly increasing.

전 산업에 걸쳐서 정보 기술화가 진행되면서, 기업들은 자사가 보유하고 있는 파일 시스템, DM/XML, 문서, 미디어, ERP(Enterprise Resource Planning) 등의 디지털 콘텐츠에 대한 효율적인 관리에 대한 고민을 하고 있다.As information technology progresses across all industries, companies are thinking about efficient management of their digital contents such as file systems, DM/XML, documents, media, and ERP (Enterprise Resource Planning).

한편, 개인이나 기업은 경제 활동 중에 수집하는 영수증을 경비보고, 지출결의 등의 회계 처리 혹은 종합소득세 신고 등의 세무 처리를 위한 사후 증빙 서류로 보관하여 관리한다.On the other hand, individuals or companies store and manage receipts collected during economic activities as post-documentary documents for accounting processing such as expense reports and expenditure resolutions, or tax processing such as global income tax returns.

물류 등의 유통 과정에서 발생하는 각종 영수증, 증빙자료(인수증, 인수확인서 등)는 빠르게 움직여야 하는 물류/유통 산업 특성 상 종이 형태로 다양한 서류를 주고받고 있다.Due to the nature of the logistics/distribution industry, various receipts and supporting materials (receipt, receipt, etc.) generated in the distribution process such as logistics are exchanged in paper form.

이렇게 보관 및 관리되는 영수증은 종이로 되어 있기 때문에 근본적으로 원본의 훼손 위험이 있으며, 분실, 부패에 대한 노출을 예방해야 하는 기술적, 경제적 부담이 있고, 영수증 보관량의 증대에 비례하여 영수증 보관 공간을 늘려야 하는 문제점이 있다.Since the receipts stored and managed in this way are made of paper, there is a fundamental risk of damage to the original, there is a technical and economic burden to prevent exposure to loss and corruption, and the storage space for receipts must be increased in proportion to the increase in the amount of receipts stored. There is a problem with

또한, 개인이나 기업의 담당자는 수기 입력 방식으로 종래의 영수증으로부터 회계 처리 혹은 세무 처리에 필요한 정보를 추출하고 분류하여 장부에 기입하거나 회계관리 프로그램이 설치된 PC에 입력, 저장하기 때문에 정보 추출 작업이 불편한 문제점이 있다.In addition, the person in charge of an individual or company extracts and classifies information necessary for accounting or tax processing from a conventional receipt by handwriting input method, records it in a book, or inputs and stores it in a PC where an accounting management program is installed, making it inconvenient to extract information. There is a problem.

이에 따라, 수기로 작성된 문서를 자동으로 인식하고 분류할 수 있는 기술의 개발이 필요한 실정이다.Accordingly, it is necessary to develop a technology capable of automatically recognizing and classifying handwritten documents.

대한민국 공개특허 제10-2012-0092931호 (2012.08.22) "이씨엠 시스템 및 그 시스템의 어플리케이션 데이터 관리 방법"Republic of Korea Patent Publication No. 10-2012-0092931 (2012.08.22) "ECM system and application data management method of the system" 대한민국 등록특허 제10-2149050호(2020.08.21.) "인공지능을 이용한 ocr 기반 문서 분석 시스템 및 방법"Korean Registered Patent No. 10-2149050 (2020.08.21.) "OCR-based document analysis system and method using artificial intelligence"

본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템은, 수기로 작성된 문서를 이미지화한 뒤 문서에 표시된 문자들을 인식할 수 있는 문서 관리 시스템을 제공하는 것을 목적으로 한다.An object of a handwritten document management system according to an embodiment of the present invention is to provide a document management system capable of recognizing characters displayed on a document after imaging a handwritten document.

또한, 본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템은, 어학 데이터로부터 손글씨 문자 이미지를 생성하여 학습한 뒤, 이로부터 수기 문자들을 인식할 수 있는 문서 관리 시스템을 제공하는 것을 목적으로 한다.In addition, a handwritten document management system according to an embodiment of the present invention aims to provide a document management system that can recognize handwritten characters after generating and learning handwritten character images from language data. do.

또한, 본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템은, 수기 문자들이 인식된 문서 이미지들의 토픽을 선정하고 이를 사용자들에게 제공함으로써, 문서들을 보다 효율적으로 관리할 수 있는 문서 관리 시스템을 제공하는 것을 목적으로 한다.In addition, the handwritten document management system according to an embodiment of the present invention is a document management system capable of more efficiently managing documents by selecting topics of document images in which handwritten characters are recognized and providing them to users. is intended to provide

본 발명의 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The tasks of the present invention are not limited to the technical tasks mentioned above, and other technical tasks not mentioned will be clearly understood by those skilled in the art from the following description.

본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템은, 어학 데이터로부터 텍스트 데이터를 수신하고, 상기 텍스트 데이터를 자연어 처리하여 생성한 학습 텍스트 데이터를 저장하는 전처리부; 상기 학습 텍스트 데이터를 이미지화한 학습 이미지를 인공 신경망에 입력하여 손글씨 문자 이미지를 생성하는 모델 생성부; 상기 손글씨 문자 이미지를 학습하는 학습부; 입력 이미지를 수신하여 상기 학습부의 학습 데이터를 기반으로 문자 정보를 인식하여 출력하는 문자 인식부; 복수의 입력 이미지로부터 출력된 상기 문자 정보로부터 특정 명사의 비율을 산정한 뒤 키워드를 추출하는 키워드 추출부; 및 상기 키워드 추출부에서 추출된 키워드로부터 토픽을 선정하고, 동일한 토픽을 갖는 상기 입력 이미지를 상기 토픽과 동일한 폴더명을 갖는 폴더에 저장하는 문서 관리부;를 포함하며, 상기 문서 관리부는, 상기 입력 이미지가 저장된 상기 폴더명의 변경 정보를 수신하고, 제안된 상기 토픽과 동일한 폴더명을 사용하는 사용자의 수가 제안된 상기 토픽과 동일하지 않은 폴더명을 사용하는 사용자의 수보다 많은 경우, 다시 제안된 상기 토픽과 동일한 폴더명을 제안된 상기 토픽과 동일하지 않은 폴더명을 사용하는 사용자에게 제안하며, 제안된 상기 토픽과 동일한 폴더명을 사용하는 사용자의 수가 제안된 상기 토픽과 동일하지 않은 폴더명을 사용하는 사용자의 수보다 적은 경우, 추출된 키워드 중에서 제안된 상기 토픽과 동일하지 않은 폴더명에 매칭되는 키워드를 상기 토픽으로 재선정한 뒤 사용자에게 상기 입력 이미지가 저장될 폴더명으로 다시 제안한다.
여기서, 상기 인공 신경망은, 상기 학습 이미지를 입력받아 차원을 줄여나가며 특징을 추출하는 인코더 및 상기 특징과 스타일 벡터를 이용하여 차원을 늘려나가며 상기 학습 이미지와 다른 상기 손글씨 문자 이미지를 생성하는 디코더를 포함하는 오토 인코더 및 판별자를 포함하는 적대적 신경망인 것을 특징으로 할 수 있다.
A handwritten document management system according to an embodiment of the present invention includes a pre-processing unit that receives text data from language data and stores learning text data generated by processing the text data in natural language; a model generating unit generating a handwritten character image by inputting a training image obtained by converting the training text data into an artificial neural network; a learning unit learning the handwritten character image; a character recognition unit that receives an input image and recognizes and outputs character information based on the learning data of the learning unit; a keyword extraction unit for extracting a keyword after calculating a ratio of a specific noun from the text information output from a plurality of input images; and a document management unit that selects a topic from the keyword extracted by the keyword extraction unit and stores the input image having the same topic in a folder having the same folder name as the topic, wherein the document management unit includes the input image Receives the change information of the folder name where is stored, and if the number of users using the same folder name as the proposed topic is greater than the number of users using a folder name that is not the same as the proposed topic, the topic proposed again The same folder name is proposed to users who use folder names that are not identical to the proposed topic, and the number of users who use folder names that are not identical to the proposed topic is If the number of users is less than the number of users, a keyword matching a folder name that is not the same as the proposed topic among extracted keywords is reselected as the topic, and then the folder name in which the input image is to be saved is proposed to the user again.
Here, the artificial neural network includes an encoder that receives the training image and extracts features by reducing dimensions, and a decoder that generates the handwritten character image different from the training image by increasing dimensions using the features and style vectors. It can be characterized in that it is an adversarial neural network including an auto-encoder and a discriminator.

삭제delete

삭제delete

여기서, 상기 키워드 추출부는, TF-IDF 알고리즘을 적용하여 키워드를 도출할 수 있다.Here, the keyword extraction unit may derive keywords by applying a TF-IDF algorithm.

여기서, 상기 전처리부는, 상기 어학 데이터로부터 XML 파싱을 통해 상기 텍스트 데이터를 추출하고, 상기 텍스트 데이터를 형태소 별로 구분한 뒤 정규화하고, 상기 자연어 처리를 통해 명사만 분류하여 저장할 수 있다.Here, the pre-processing unit may extract the text data from the language data through XML parsing, classify the text data according to morphemes, normalize the text data, and classify and store only nouns through the natural language processing.

본 발명의 실시예들에 의하면 적어도 다음과 같은 효과가 있다.According to embodiments of the present invention, at least the following effects are obtained.

본 발명에 따른 수기로 작성된 문서의 관리 시스템에 의하면, 수기로 작성된 문서를 이미지화한 뒤 문서에 표시된 문자들을 인식할 수 있다.According to the handwritten document management system according to the present invention, after imaging a handwritten document, characters displayed on the document can be recognized.

또한, 어학 데이터로부터 손글씨 문자 이미지를 생성하여 학습함으로써 다양한 필체의 수기 문자도 우수한 정확도로 인식할 수 있다.In addition, by generating and learning handwritten character images from language data, handwritten characters in various handwritings can be recognized with excellent accuracy.

또한, 수기 문서의 토픽을 선정하고, 동일/유사한 토픽이 부여된 수기로 작성된 문서들을 분류하여 저장하고 관리함으로써 효율적인 관리가 가능하다.In addition, efficient management is possible by selecting the topic of handwritten documents and classifying, storing, and managing handwritten documents to which the same/similar topics are assigned.

또한, 사용자들의 토픽 사용여부를 피드백 받아 토픽 개선이 가능하여 문서들을 보다 효율적으로 관리할 수 있다.In addition, it is possible to improve the topic by receiving feedback on whether users use the topic, so that documents can be managed more efficiently.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.Effects according to the present invention are not limited by the contents exemplified above, and more various effects are included in the present specification.

도 1은 본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템의 개념도
도 2는 본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템의 구성도
도 3 및 도 4는 본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템의 전처리부 설명도
도 5는 본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템의 모델 생성부의 구성도
도 6은 본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템의 문서 관리부의 설명도이다.
1 is a conceptual diagram of a management system for handwritten documents according to an embodiment of the present invention.
2 is a block diagram of a management system for handwritten documents according to an embodiment of the present invention.
3 and 4 are explanatory diagrams of a pre-processing unit of a handwritten document management system according to an embodiment of the present invention.
5 is a block diagram of a model generation unit of a management system for handwritten documents according to an embodiment of the present invention.
6 is an explanatory diagram of a document management unit of a management system for handwritten documents according to an embodiment of the present invention.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예를 도면에 예시하고 이에 대해 상세한 설명에 상세하게 설명한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 다양한 형태로 구현될 수 있으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. Since the present invention can apply various transformations and have various embodiments, specific embodiments are illustrated in the drawings and described in detail in the detailed description. Effects and features of the present invention, and methods for achieving them will become clear with reference to the embodiments described later in detail together with the drawings. However, it should be understood that the present invention is not limited to the embodiments disclosed below, but may be implemented in various forms, and includes all modifications, equivalents, and substitutes included in the spirit and technical scope of the present invention.

설명에 앞서 상세한 설명에 기재된 용어에 대해 설명한다. 이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다. 또한, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. Prior to the description, the terms described in the detailed description will be described. In the following embodiments, terms such as first and second are used for the purpose of distinguishing one component from another component without limiting meaning. Accordingly, it goes without saying that the first element mentioned below may also be the second element within the technical spirit of the present invention. Also, expressions in the singular number include plural expressions unless the context clearly dictates otherwise. In addition, terms such as 'include' or 'have' mean that features, numbers, steps, operations, components, parts, or combinations thereof described in the specification exist, and that one or more other features or components are present. It does not preclude the possibility of being added.

또한, 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.In addition, in the drawings, the size of components may be exaggerated or reduced for convenience of description. For example, since the size and thickness of each component shown in the drawings are arbitrarily shown for convenience of description, the present invention is not necessarily limited to the illustrated bar.

이하, 본 발명에 따른 일 실시예를 첨부된 도면을 참조하여 상세히 설명한다. 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면 부호를 부여하고 이에 대해 중복되는 설명은 생략한다.Hereinafter, an embodiment according to the present invention will be described in detail with reference to the accompanying drawings. In the description with reference to the accompanying drawings, the same or corresponding components are assigned the same reference numerals, and overlapping descriptions thereof will be omitted.

본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템은, 수기로 작성된 문서의 문자들을 인식한 뒤 이를 분석하여 문서들을 유사 토픽군으로 분류함으로써, 보다 효율적으로 관리할 수 있는 수기로 작성된 문서의 관리 시스템에 관한 것이다.The handwritten document management system according to an embodiment of the present invention recognizes the characters of the handwritten document, analyzes them, and classifies the documents into similar topic groups, thereby enabling more efficient management of handwritten documents. of management system.

도 1은 본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템의 개념도이며, 도 2는 본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템의 구성도이다.1 is a conceptual diagram of a handwritten document management system according to an embodiment of the present invention, and FIG. 2 is a configuration diagram of a handwritten document management system according to an embodiment of the present invention.

본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템(1000)은, 전처리부(100)와, 모델 생성부(200)와, 학습부(300)와, 문자 인식부(400)와, 키워드 추출부(500) 및 문서 관리부(600)를 포함한다.The handwritten document management system 1000 according to an embodiment of the present invention includes a pre-processing unit 100, a model generating unit 200, a learning unit 300, a character recognition unit 400, A keyword extraction unit 500 and a document management unit 600 are included.

전처리부(100)는 웹사이트 상에서 텍스트 데이터를 수신하여 학습 텍스트 데이터를 저장하는 구성이다.The pre-processing unit 100 is a component that receives text data on a website and stores learning text data.

구체적으로 전처리부(100)는 어학 사전, 학술지, 뉴스 스크립터 중 하나 이상으로부터 텍스트 데이터를 수신한다. 본 실시예에서 어학 사전, 학술지, 뉴스 스크립터에 포함된 텍스트들을 어학 데이터라고 정의한다.Specifically, the pre-processing unit 100 receives text data from one or more of a language dictionary, academic journal, and news scripter. In this embodiment, texts included in language dictionaries, journals, and news scripts are defined as language data.

본 실시예는 종이 문서를 디지털 형식으로 변환한 뒤 문자를 인식하는데, 여기서 종이 문서는 수기(필기체)로 작성된 문자들이 포함된다. 이에 따라 수기 문자가 기재된 종이 문서를 디지털 형식으로 변환 시 필기체 인식의 정확도 향상을 위해 공공 데이터를 활용하며, 이에 따라 상기 어학 데이터로부터 텍스트 데이터를 수신한다.In this embodiment, characters are recognized after converting a paper document into a digital format, where the paper document includes handwritten (handwritten) characters. Accordingly, when converting a paper document with handwritten characters into a digital format, public data is used to improve the accuracy of handwriting recognition, and thus text data is received from the language data.

일반적으로 영어의 경우 총 26자에 불과하지만, 한글은 초성, 중성, 종성으로 조합할 경우 조합 가능한 음절이 11,172자가 되기 때문에 전체 철자에 대한 데이터 수집이 쉽지 않다. 이로 인해 웹사이트 상에서 존재하는 모든 텍스트들을 수집하여 분석하는데는 상당한 기간이 소요되고, 정형/비정형 데이터를 수집하여 분석하는 것이 용이하지 않기 때문에, 본 실시예에서는 데이터셋을 구성하기 위해 어학 사전, 학술지, 뉴스 스크립터 중 하나 이상으로부터 선택되는 어학 데이터로부터 텍스트 데이터를 수신한다.In general, English has only 26 letters in total, but in Korean, it is not easy to collect data on the entire spelling because the number of syllables that can be combined is 11,172 when combined with initial, neutral, and final consonants. As a result, it takes a considerable period of time to collect and analyze all the texts that exist on the website, and it is not easy to collect and analyze structured/unstructured data. , receive text data from language data selected from one or more of the news scripters.

도 3 및 도 4는 본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템의 전처리부 설명도이다.3 and 4 are explanatory diagrams of a pre-processing unit of a handwritten document management system according to an embodiment of the present invention.

전처리부(100)는 텍스트 수집부(110)와, 정규화부(120)와, 토큰화부(130) 및 자연어 처리부(140)를 포함한다.The pre-processing unit 100 includes a text collection unit 110, a normalization unit 120, a tokenization unit 130, and a natural language processing unit 140.

텍스트 수집부(110)는 어학 데이터로부터 텍스트를 추출하여 데이터베이스에 저장한다. 어학 데이터는 확장가능 마크업 언어(Extensible Mark-up Language; XML) 포맷으로 제공될 수 있으며, XML포맷의 어학 데이터에 대해 XML 파싱(parsing)을 수행하여 텍스트들을 추출할 수 있다.The text collection unit 110 extracts text from language data and stores it in a database. The language data may be provided in an Extensible Mark-up Language (XML) format, and texts may be extracted by performing XML parsing on the language data in the XML format.

정규화부(120)는 추출된 텍스트들 중 검색과 관련없는 정보 예를 들어 특수 문자(-, + 등)와 같은 구문을 제거한다.The normalization unit 120 removes phrases such as special characters (-, +, etc.), for example, information not related to search, among the extracted texts.

그리고 토큰화부(130)는 정규화 처리 된 텍스트들에 대해 형태소 단위로 토큰화 처리를 수행한다. 이 때 토큰화부(130)는 형태소이지만 한 단어로 이루어진 의존명사(예컨대, '것', '수', '때' 등)를 제외한다.The tokenization unit 130 performs tokenization processing on the normalized texts in units of morphemes. At this time, the tokenization unit 130 excludes dependent nouns (eg, 'thing', 'number', 'time', etc.) composed of one word, even though they are morphemes.

자연어 처리부(140)는 각 형태소들에 대해 자연어를 처리하는 구문 분석기인 자연어 처리 파서(Parser)를 사용하여 각각의 토큰에 품사를 붙이는 품사(Part of Speech, POS) 태깅을 수행한다. 즉 정규화 처리 및 형태소 단위로 토큰화 처리가 수행 된 텍스트들에 대해 품사 태깅을 수행한 뒤, 명사를 제외한 다른 품사들이 태깅된 텍스트들은 제외하고 명사들만 데이터베이스의 명사 저장부에 저장한다. 이를 본 실시예에서는 학습 텍스트 데이터라고 한다. 명사들만 학습 텍스트 데이터로 함으로써 텍스트 데이터가 너무 방대해지는 것을 줄일 수 있으면서도, 물류/유통 구조에서 사용되는 수기 종이 문서의 판독에 효율적이다.The natural language processing unit 140 performs Part of Speech (POS) tagging by attaching a part of speech to each token using a natural language processing parser, which is a syntax analyzer that processes natural language for each morpheme. That is, after performing part-of-speech tagging on texts that have been normalized and tokenized in units of morphemes, only nouns are stored in the noun storage of the database, excluding texts tagged with other parts of speech other than nouns. This is referred to as learning text data in this embodiment. By using only nouns as learning text data, it is possible to reduce text data from becoming too voluminous, but it is also efficient in reading handwritten paper documents used in logistics/distribution structures.

그리고 데이터베이스의 이미지 생성부는 학습 텍스트 데이터를 이미지화한 학습 이미지를 생성하여 이미지 저장부에 저장한다.Also, the image generator of the database generates a learning image obtained by converting the training text data into an image, and stores it in an image storage unit.

도 5는 본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템의 모델 생성부의 구성도이다.5 is a block diagram of a model generating unit of a management system for handwritten documents according to an embodiment of the present invention.

모델 생성부(200)는 학습 텍스트 데이터를 이미지화한 학습 이미지를 인공 신경망에 입력하여 손글씨 문자 이미지를 생성하는 구성이다.The model generation unit 200 is a component that generates a handwritten character image by inputting a training image of training text data into an artificial neural network.

인공 신경망은 적대적 생성 신경망(GAN, Generative Adversarial Network)으로서, 오토 인코더(210)와 판별자(240)를 포함한다. 오토 인코더(210)(Auto Encoder)는 인코더(220)와, 디코더(230)를 포함한다.The artificial neural network is a Generative Adversarial Network (GAN) and includes an auto encoder 210 and a discriminator 240 . The auto encoder 210 includes an encoder 220 and a decoder 230.

구체적으로 인코더(220)는 학습 이미지를 입력받아 차원을 줄여나가면서 이미지의 특징을 추출한다. 그리고 디코더(230)는 인코더(220)에서 추출된 특징과, 스타일 벡터를 이용하여 다시 차원을 늘려나가면서 학습 이미지와는 다른 손글씨 문자 이미지를 생성한다. 손글씨 문자 이미지란 수기로 작성된 문자 이미지를 의미한다.Specifically, the encoder 220 receives the training image and extracts the features of the image while reducing the dimensions. Then, the decoder 230 generates a handwritten character image different from the training image while increasing the dimensions again by using the features extracted by the encoder 220 and the style vector. The handwritten text image refers to a text image written by hand.

다시 말해, 인코더(220)는 디지털 문자가 표시된 학습 이미지로부터 차원을 줄여나가면서 특징을 추출하는데 이 특징은 디지털 문자의 특징을 의미한다. 그리고 디코더(230)는 추출된 디지털 문자의 특징을 반영하여 스타일 벡터를 각 스타일에 따라 차원을 늘려나가면서 이미지를 재구성한다. 이 이미지는 디지털 문자가 아닌 수기로 작성된 문자 이미지인 손글씨 문자 이미지이다.In other words, the encoder 220 extracts a feature while reducing the dimensions from the training image in which the digital character is displayed, and this feature means a feature of the digital character. Then, the decoder 230 reconstructs the image while increasing the dimension of the style vector according to each style by reflecting the characteristics of the extracted digital character. This image is a handwritten character image, which is a character image written by hand rather than a digital character.

정리하면, 본 실시예에서는 전처리부(100)에서 어학 데이터로부터 생성된 학습 텍스트 데이터를 이미지화한 학습 이미지로부터, 모델 생성부(200)를 통해 손글씨 문자 이미지를 생성한다.In summary, in this embodiment, a handwritten character image is generated through the model generator 200 from a learning image obtained by imaging the learning text data generated from the language data in the preprocessing unit 100.

학습부(300)는 손글씨 문자 이미지를 입력받아 학습한다. 학습부(300)는 컨볼루션 신경망(Convolutional Neural Network, CNN)을 이용하여 학습하여 학습 데이터를 생성한다.The learning unit 300 receives and learns handwritten character images. The learning unit 300 generates learning data by learning using a convolutional neural network (CNN).

컨볼루션 신경망은 합성곱 연산을 통해 이미지의 특징 중 문자 예측에 유용한 정보들을 추출할 수 있으며, 추출된 특징을 기반으로 입력된 이미지에 포함되는 문자의 판별이 가능하다. 컨볼루션 신경망은 공지된 것이므로 자세한 설명은 생략한다.The convolutional neural network can extract useful information for character prediction among the features of an image through a convolution operation, and can discriminate characters included in an input image based on the extracted features. Since the convolutional neural network is well known, a detailed description thereof will be omitted.

문자 인식부(400)는 입력 이미지를 수신한 뒤, 학습부(300)의 학습 데이터를 기반으로 입력 이미지에 포함된 문자 및 숫자 정보를 인식하여 출력한다. 여기서 입력 이미지는 수기 문자가 포함된 것으로서, 종이 간이 영수증, 종이 세금계산서, 인수증, 인수확인서 등을 촬영한 이미지 파일을 의미한다.After receiving the input image, the character recognition unit 400 recognizes and outputs character and number information included in the input image based on the learning data of the learning unit 300 . Here, the input image includes handwritten characters, and means an image file obtained by photographing a simple paper receipt, a paper tax invoice, a receipt of receipt, a receipt confirmation, and the like.

문자 인식부(400)는 광학문자인식(OCR : Optical character recognition)을 통해 문자를 인식하는데, 학습부(300)에서 손글씨 문자 이미지를 입력받아 학습한 학습 데이터를 기반으로 문자를 인식한다.The character recognition unit 400 recognizes a character through Optical Character Recognition (OCR). The learning unit 300 receives a handwritten character image and recognizes the character based on the learned learning data.

입력 이미지에는 디지털 문자와 수기 문자가 함께 포함되며, 디지털 문자의 경우 이미지마다 폰트나 크기가 다를 수 있고, 수기 문자의 경우에도 필체가 서로 상이하지만, 본 실시예에서는 모델 생성부(200)에서 손글씨 문자 이미지를 생성하며, 학습부(300)에서 손글씨 문자 이미지를 학습한 학습 데이터를 기반으로 문자 인식부(400)가 입력 이미지의 문자를 인식하므로 인식률이 매우 높다.The input image includes both digital characters and handwritten characters, and in the case of digital characters, each image may have a different font or size, and even in the case of handwritten characters, the handwriting is different from each other. The character image is generated, and the character recognition unit 400 recognizes the character of the input image based on the learning data obtained by learning the handwritten character image in the learning unit 300, so the recognition rate is very high.

키워드 추출부(500)는 문자 인식부(400)에서 인식된 문자들로부터 입력 이미지의 주제를 선정할 수 있는 키워드를 추출하는 구성이다. 일반적으로 유통/물류 과정에서 발생되는 종이 문서는 그 양이 방대하며, 동일한 개인/기업이 보유하는 종이 문서는 대부분 종류가 비슷하다. 예를 들어, 간이 영수증, 세금계산서, 인수증 등으로 구분될 수 있다.The keyword extraction unit 500 is a component that extracts keywords capable of selecting a subject of an input image from characters recognized by the character recognition unit 400 . In general, the amount of paper documents generated in the distribution/logistics process is vast, and most of the paper documents possessed by the same individual/company are similar in type. For example, it may be classified into a simple receipt, a tax invoice, a receipt, and the like.

문자 인식부(400)에 다수 개의 입력 이미지들이 입력되어 문자가 인식되면, 키워드 추출부(500)는 인식된 문자들로부터 주요 키워드들을 추출한다.When a plurality of input images are input to the character recognition unit 400 and characters are recognized, the keyword extraction unit 500 extracts main keywords from the recognized characters.

키워드 추출부(500)는 키워드 추출을 위해 TF-IDF 알고리즘을 사용한다. TF-IDF 알고리즘이란 사용자들이 작성한 문서들이 있을 때 특정 단어가 특정 문서 내에서 얼마나 중요한 지를 수치적으로 나타내기 위한 알고리즘이다. 즉, 해당 키워드는 문자 인식부가 인식한 문자들 내에서 중요한 비중을 차지하는 단어들이다. TF-IDF 알고리즘 자체는 공지된 것이므로 이에 대한 자세한 설명은 생략한다.The keyword extraction unit 500 uses the TF-IDF algorithm for keyword extraction. The TF-IDF algorithm is an algorithm that numerically indicates how important a specific word is in a specific document when there are documents written by users. That is, the corresponding keywords are words occupying an important weight in the texts recognized by the text recognition unit. Since the TF-IDF algorithm itself is known, a detailed description thereof will be omitted.

도 6은 본 발명의 일 실시예에 따른 수기로 작성된 문서의 관리 시스템의 문서 관리부의 설명도이다.6 is an explanatory diagram of a document management unit of a management system for handwritten documents according to an embodiment of the present invention.

문서 관리부(600)는 키워드 추출부(500)에서 추출된 키워드로부터 토픽을 선정하여 분류하고 각 토픽으로 분류된 입력 이미지들을 토픽 별로 저장하는 구성이다. The document management unit 600 selects and classifies topics from the keywords extracted by the keyword extraction unit 500, and stores input images classified into each topic for each topic.

이 때 문서 관리부(600)는, 처음 토픽을 선정하는 경우, 키워드 추출부(500)에서 추출된 키워드 중 최고 비율을 갖는 키워드를 토픽으로 선정한다.At this time, when selecting a topic for the first time, the document management unit 600 selects a keyword having the highest ratio among keywords extracted by the keyword extraction unit 500 as a topic.

그리고 문서 관리부(600)는, 해당 토픽과 동일한 폴더명(디렉토리명)을 갖는 폴더(디렉토리)를 생성하여, 각 토픽 별로 입력 이미지들을 해당 폴더에 저장하여 관리할 수 있다.In addition, the document management unit 600 may create a folder (directory) having the same folder name (directory name) as the corresponding topic, store input images for each topic in the corresponding folder, and manage them.

한편, 문서 관리부(600)는 해당 폴더명의 변경 정보를 수신한다. 문서 관리부(600)는 토픽을 선정하고 이와 동일한 폴더명을 갖는 폴더를 생성하여 입력 이미지들을 저장하는데, 만일 사용자가 해당 폴더명이 적절하지 않다고 판단하고 다른 폴더명으로 수정하는 경우 해당 정보를 수신한다. 나아가, 동일한 폴더명 즉 동일한 토픽을 제안한 다른 사용자들의 폴더명도 수신할 수 있다.Meanwhile, the document management unit 600 receives change information of the corresponding folder name. The document management unit 600 selects a topic and creates a folder having the same folder name to store input images. If the user determines that the folder name is not appropriate and modifies it to another folder name, the corresponding information is received. Furthermore, folder names of other users who suggested the same folder name, that is, the same topic, can also be received.

문서 관리부(600)는 제안된 토픽과 동일한 토픽을 사용하는 사용자의 수가 수정된 폴더명을 사용하는 사용자보다 많은 경우, 수정된 폴더명을 사용하는 사용자에게 다시 해당 토픽을 폴더명으로 제안한다.If the number of users using the same topic as the proposed topic is greater than the number of users using the modified folder name, the document management unit 600 proposes the corresponding topic as a folder name to the users using the modified folder name.

만일 사용자들 중 제안된 토픽을 사용하는 사용자의 수가 수정된 폴더명을 사용하는 사용자보다 적거나, 또는 없는 경우, 문서 관리부(600)는 추출된 키워드들 중에서 변경된 폴더명과 매칭되는 키워드가 있는지 여부를 검토한다. 추출된 키워드들 중에서 변경된 폴더명과 매칭되는 키워드가 있는 경우 문서 관리부(600)는 해당 키워드를 토픽으로 재선정한 뒤 이를 입력 이미지가 저장될 폴더명으로 다시 제안한다. 만일 추출된 키워드들 중에서 변경된 폴더명과 매칭되는 키워드가 없는 경우 문서 관리부(600)는 변경된 폴더명 중 가장 많이 공통되는 단어를 토픽으로 선정하고 이와 동일한 폴더명으로 다시 제안한다. If the number of users using the proposed topic among the users is less than the number of users using the modified folder name, or there is no user, the document management unit 600 determines whether there is a keyword matching the changed folder name among the extracted keywords. Review. If there is a keyword that matches the changed folder name among the extracted keywords, the document management unit 600 re-selects the keyword as a topic and proposes it again as the folder name in which the input image will be saved. If there is no keyword that matches the changed folder name among the extracted keywords, the document management unit 600 selects the most common word among the changed folder names as a topic and proposes the same folder name again.

이를 통해 다수의 사용자들이 보유 하는 입력 이미지들 중에서 동일한 토픽으로 제안된 입력 이미지들은 종국적으로 동일한 폴더명에 저장될 수 있다. 따라서 기업 내에서 전자문서의 저장, 관리 및 검색의 효율이 매우 우수해진다. Through this, among input images possessed by multiple users, input images suggested for the same topic can be ultimately saved in the same folder name. Therefore, the efficiency of storing, managing, and searching for electronic documents within a company becomes very good.

상술한 바와 같이 본 발명에 의하면, 수기로 작성된 문서의 문자들을 인식한 뒤 이를 분석하여 문서들을 유사 토픽군으로 분류함으로써, 보다 효율적으로 관리할 수 있는 수기로 작성된 문서의 관리 시스템이 제공된다.As described above, according to the present invention, a handwritten document management system capable of more efficiently managing is provided by recognizing and analyzing characters of handwritten documents and classifying the documents into similar topic groups.

본 발명에서 모든 예들 또는 예시적인 용어(예를 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한 해당 기술 분야의 통상의 기술자는 다양한 수정, 조합 및 변경이 부가된 청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터(factor)에 따라 구성될 수 있음을 알 수 있다.The use of all examples or exemplary terms (eg, etc.) in the present invention is simply to explain the present invention in detail, and the scope of the present invention is limited due to the examples or exemplary terms unless limited by the claims. it is not going to be In addition, those skilled in the art will know that various modifications, combinations and changes can be made according to design conditions and factors within the scope of the appended claims or equivalents thereof.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 청구범위 뿐만 아니라, 이 청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.Therefore, the spirit of the present invention should not be limited to the above-described embodiments, and not only the claims to be described later, but also all ranges equivalent to or equivalent to these claims shall fall within the scope of the spirit of the present invention. would be said to belong.

1000 : 수기로 작성된 문서의 관리 시스템
100 : 전처리부 110 : 텍스트 수집부
120 : 정규화부 130 : 토큰화부
140 : 자연어 처리부 200 : 모델 생성부
210 : 오토 인코더 220 : 인코더
230 : 디코더 240 : 판별자
300 : 학습부 400 : 문자 인식부
500 : 키워드 추출부 600 : 문서 관리부
1000: Management system for handwritten documents
100: pre-processing unit 110: text collection unit
120: normalization unit 130: tokenization unit
140: natural language processing unit 200: model generation unit
210: auto encoder 220: encoder
230: decoder 240: discriminator
300: learning unit 400: character recognition unit
500: keyword extraction unit 600: document management unit

Claims (5)

어학 데이터로부터 텍스트 데이터를 수신하고, 상기 텍스트 데이터를 자연어 처리하여 생성한 학습 텍스트 데이터를 저장하는 전처리부;
상기 학습 텍스트 데이터를 이미지화한 학습 이미지를 인공 신경망에 입력하여 손글씨 문자 이미지를 생성하는 모델 생성부;
상기 손글씨 문자 이미지를 학습하는 학습부;
입력 이미지를 수신하여 상기 학습부의 학습 데이터를 기반으로 문자 정보를 인식하여 출력하는 문자 인식부;
복수의 입력 이미지로부터 출력된 상기 문자 정보로부터 특정 명사의 비율을 산정한 뒤 키워드를 추출하는 키워드 추출부; 및
상기 키워드 추출부에서 추출된 키워드로부터 토픽을 선정하고, 동일한 토픽을 갖는 상기 입력 이미지를 상기 토픽과 동일한 폴더명을 갖는 폴더에 저장하는 문서 관리부;를 포함하며,
상기 문서 관리부는,
상기 입력 이미지가 저장된 상기 폴더명의 변경 정보를 수신하고,
제안된 상기 토픽과 동일한 폴더명을 사용하는 사용자의 수가 제안된 상기 토픽과 동일하지 않은 폴더명을 사용하는 사용자의 수보다 많은 경우, 다시 제안된 상기 토픽과 동일한 폴더명을 제안된 상기 토픽과 동일하지 않은 폴더명을 사용하는 사용자에게 제안하며,
제안된 상기 토픽과 동일한 폴더명을 사용하는 사용자의 수가 제안된 상기 토픽과 동일하지 않은 폴더명을 사용하는 사용자의 수보다 적은 경우, 추출된 키워드 중에서 제안된 상기 토픽과 동일하지 않은 폴더명에 매칭되는 키워드를 상기 토픽으로 재선정한 뒤 사용자에게 상기 입력 이미지가 저장될 폴더명으로 다시 제안하는
수기로 작성된 문서의 관리 시스템.
a pre-processing unit that receives text data from language data and stores learning text data generated by natural language processing of the text data;
a model generating unit generating a handwritten character image by inputting a training image obtained by converting the training text data into an artificial neural network;
a learning unit learning the handwritten character image;
a character recognition unit that receives an input image and recognizes and outputs character information based on the learning data of the learning unit;
a keyword extraction unit for extracting a keyword after calculating a ratio of a specific noun from the text information output from a plurality of input images; and
A document management unit that selects a topic from the keywords extracted by the keyword extraction unit and stores the input image having the same topic in a folder having the same folder name as the topic;
The document management department,
Receiving change information of the folder name in which the input image is stored;
If the number of users using the same folder name as the proposed topic is greater than the number of users using a folder name that is not the same as the proposed topic, again the folder name identical to the proposed topic is the same as the proposed topic. Suggest to users who use undefined folder names,
If the number of users using the same folder name as the proposed topic is smaller than the number of users using a folder name different from the proposed topic, matching with the folder name not identical to the proposed topic among the extracted keywords After re-selecting the keyword as the topic, suggesting it to the user as the folder name in which the input image will be saved
A management system for handwritten documents.
삭제delete 제1항에 있어서,
상기 인공 신경망은,
상기 학습 이미지를 입력받아 차원을 줄여나가며 특징을 추출하는 인코더 및 상기 특징과 스타일 벡터를 이용하여 차원을 늘려나가며 상기 학습 이미지와 다른 상기 손글씨 문자 이미지를 생성하는 디코더를 포함하는 오토 인코더 및 판별자를 포함하는 적대적 신경망인 것을 특징으로 하는
수기로 작성된 문서의 관리 시스템.
According to claim 1,
The artificial neural network,
An auto-encoder including an encoder receiving the training image and extracting features by reducing dimensions, and a decoder generating the handwritten character image different from the training image by increasing dimensions using the features and style vectors, and a discriminator. Characterized in that it is an adversarial neural network that
A management system for handwritten documents.
제3항에 있어서,
상기 키워드 추출부는, TF-IDF 알고리즘을 적용하여 키워드를 도출하는
수기로 작성된 문서의 관리 시스템.
According to claim 3,
The keyword extraction unit derives keywords by applying the TF-IDF algorithm
A management system for handwritten documents.
제4항에 있어서,
상기 전처리부는,
상기 어학 데이터로부터 XML 파싱을 통해 상기 텍스트 데이터를 추출하고, 상기 텍스트 데이터를 정규화한 뒤 형태소 별로 구분하고, 상기 자연어 처리를 통해 명사만 분류하여 저장하는
수기로 작성된 문서의 관리 시스템.
According to claim 4,
The pre-processing unit,
Extracting the text data from the language data through XML parsing, normalizing the text data, classifying the text data by morpheme, and classifying and storing only nouns through the natural language processing
A management system for handwritten documents.
KR1020220085727A 2022-07-12 2022-07-12 Managing system for handwritten document KR102516560B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220085727A KR102516560B1 (en) 2022-07-12 2022-07-12 Managing system for handwritten document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220085727A KR102516560B1 (en) 2022-07-12 2022-07-12 Managing system for handwritten document

Publications (1)

Publication Number Publication Date
KR102516560B1 true KR102516560B1 (en) 2023-03-31

Family

ID=86005650

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220085727A KR102516560B1 (en) 2022-07-12 2022-07-12 Managing system for handwritten document

Country Status (1)

Country Link
KR (1) KR102516560B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102610242B1 (en) 2023-09-18 2023-12-07 주식회사 마커키퍼 Method, device and system for recognizing irregular handwriting based on artificial intelligence optical character recognition

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120092931A (en) 2011-02-14 2012-08-22 (주)유와이즈원 Enterprise content management system and application data management method therein
KR101593371B1 (en) * 2015-05-27 2016-02-16 중앙대학교 산학협력단 Propensity classification device for text data and Decision support systems using the same
KR101800975B1 (en) * 2016-10-27 2017-11-23 주식회사 매직핑거 Sharing method and apparatus of the handwriting recognition is generated electronic documents
KR102003221B1 (en) * 2018-01-03 2019-07-24 엔에이치엔 주식회사 System for generating note data and method for generating note data using the system
KR102149050B1 (en) 2020-04-24 2020-08-28 주식회사 애자일소다 System and method for analyzing document using artificial intelligence based on ocr
KR20220034069A (en) * 2021-09-09 2022-03-17 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 Model training method and apparatus, font library establishment method and apparatus, and storage medium

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120092931A (en) 2011-02-14 2012-08-22 (주)유와이즈원 Enterprise content management system and application data management method therein
KR101593371B1 (en) * 2015-05-27 2016-02-16 중앙대학교 산학협력단 Propensity classification device for text data and Decision support systems using the same
KR101800975B1 (en) * 2016-10-27 2017-11-23 주식회사 매직핑거 Sharing method and apparatus of the handwriting recognition is generated electronic documents
KR102003221B1 (en) * 2018-01-03 2019-07-24 엔에이치엔 주식회사 System for generating note data and method for generating note data using the system
KR102149050B1 (en) 2020-04-24 2020-08-28 주식회사 애자일소다 System and method for analyzing document using artificial intelligence based on ocr
KR20220034069A (en) * 2021-09-09 2022-03-17 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 Model training method and apparatus, font library establishment method and apparatus, and storage medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102610242B1 (en) 2023-09-18 2023-12-07 주식회사 마커키퍼 Method, device and system for recognizing irregular handwriting based on artificial intelligence optical character recognition

Similar Documents

Publication Publication Date Title
US20210157984A1 (en) Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
CN108614898B (en) Document analysis method and device
Singh et al. Full page handwriting recognition via image to sequence extraction
CN114616572A (en) Cross-document intelligent writing and processing assistant
US20150278195A1 (en) Text data sentiment analysis method
US20180060306A1 (en) Extracting facts from natural language texts
US20200057807A1 (en) Systems and methods providing a cognitive augmented memory network
Rahman Understanding the logical and semantic structure of large documents
KR20200139008A (en) User intention-analysis based contract recommendation and autocomplete service using deep learning
US20230028664A1 (en) System and method for automatically tagging documents
KR102516560B1 (en) Managing system for handwritten document
Engin et al. Multimodal deep neural networks for banking document classification
CN115934926A (en) Information extraction method and device, computer equipment and storage medium
Thammarak et al. Automated data digitization system for vehicle registration certificates using google cloud vision API
US20170154029A1 (en) System, method, and apparatus to normalize grammar of textual data
US20230004830A1 (en) AI-Based Cognitive Cloud Service
Tarride et al. Large-scale genealogical information extraction from handwritten Quebec parish records
Dell et al. American stories: A large-scale structured text dataset of historical us newspapers
Tiwari et al. Applicant tracking and scoring system
Vafaie et al. Handwritten and printed text identification in historical archival documents
EP4141818A1 (en) Document digitization, transformation and validation
Tanaka et al. Corpus Construction for Historical Newspapers: A Case Study on Public Meeting Corpus Construction Using OCR Error Correction
US20200159571A1 (en) Automatic data transformations for process automations
Alzuru et al. Quality-Aware Human-Machine Text Extraction for Biocollections using Ensembles of OCRs
Tüselmann et al. Named entity linking on handwritten document images

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant