KR20230023906A - Excel document ai conversion system - Google Patents

Excel document ai conversion system Download PDF

Info

Publication number
KR20230023906A
KR20230023906A KR1020210105767A KR20210105767A KR20230023906A KR 20230023906 A KR20230023906 A KR 20230023906A KR 1020210105767 A KR1020210105767 A KR 1020210105767A KR 20210105767 A KR20210105767 A KR 20210105767A KR 20230023906 A KR20230023906 A KR 20230023906A
Authority
KR
South Korea
Prior art keywords
document
line
excel
excel document
classification
Prior art date
Application number
KR1020210105767A
Other languages
Korean (ko)
Other versions
KR102563961B1 (en
Inventor
이상진
지원호
Original Assignee
주식회사 루다소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 루다소프트 filed Critical 주식회사 루다소프트
Priority to KR1020210105767A priority Critical patent/KR102563961B1/en
Publication of KR20230023906A publication Critical patent/KR20230023906A/en
Application granted granted Critical
Publication of KR102563961B1 publication Critical patent/KR102563961B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/16Automatic learning of transformation rules, e.g. from examples
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

Disclosed is an artificial intelligence (AI)-based Excel document conversion system. According to the present invention, the AI-based Excel document conversion system comprises: an Excel document input module receiving an Excel document; an Excel document pre-processing module performing pre-processing on the Excel document input from the Excel document input module; and an item classification prediction module classifying key values of the Excel document into a predetermined item names on the basis of a pre-processing result of the Excel document performed in the Excel document preprocessing module to perform prediction. Accordingly, the system is configured to automatically convert Excel documents in various formats created by each company into Excel documents in other standardized formats, thereby providing an effect of increasing the accuracy and efficiency of converting the Excel documents. In particular, the system is configured to perform automatic mapping between existing formats and report formats through linguistic analysis, morphological analysis, character analysis, and the like, thereby providing an effect of correctly converting various corporate inventory management documents used separately by each company without a separate manual mapping process.

Description

엑셀 문서 인공 지능 변환 시스템{EXCEL DOCUMENT AI CONVERSION SYSTEM} Excel document artificial intelligence conversion system {EXCEL DOCUMENT AI CONVERSION SYSTEM}

본 발명은 엑셀(excel) 문서 변환 시스템에 관한 것으로서, 구체적으로는 엑셀 문서 인공 지능 변환 시스템에 관한 것이다.The present invention relates to an Excel document conversion system, and more specifically to an Excel document artificial intelligence conversion system.

기업은 재고 관리나 세무 관리를 위해 기업 자체 포맷에 따른 엑셀 문서를 작성하여 관리하는 경우가 많다. 이러한 경우, 도 1에서와 같이 송장이나 세관 등의 다양한 무역, 외환, 보고 등의 목적을 위한 정형화된 문서로 변환하는 과정이 요구된다.In many cases, companies create and manage Excel documents in their own format for inventory management or tax management. In this case, as shown in FIG. 1, a process of converting the documents into standardized documents for various trade, foreign exchange, and reporting purposes such as invoices or customs is required.

이러한 과정에서 일일이 수기 변환하는 경우가 많으며, 변환 과정에서 당연히 오류가 많을 수밖에 없으며, 효율성이 떨어지게 된다.In this process, there are many cases in which handwriting is converted one by one, and there are naturally many errors in the conversion process, and efficiency is reduced.

이에, 기존의 기업이 보유한 다양한 포맷의 재고 관리, 세무 관리 등을 위한 엑셀 문서를 세관 신고나 세무 신고 등을 위한 정형화된 문서로 자동 변환하여 그 오류를 줄이고 효율성을 높일 필요가 있다.Accordingly, there is a need to reduce errors and increase efficiency by automatically converting Excel documents for inventory management and tax management in various formats possessed by existing companies into standardized documents for customs declaration and tax reporting.

등록특허공보 10-0591474Registered Patent Publication 10-0591474 등록특허공보 10-0990846Registered Patent Publication 10-0990846

본 발명의 목적은 엑셀 문서 인공 지능 변환 시스템을 제공하는 데 있다.An object of the present invention is to provide an artificial intelligence conversion system for Excel documents.

상술한 본 발명의 목적에 따른 엑셀 문서 인공 지능 변환 시스템은, 엑셀 문서를 입력받는 엑셀 문서 입력 모듈; 상기 엑셀 문서 입력 모듈에서 입력받은 엑셀 문서에 대해 전처리를 수행하는 엑셀 문서 전처리 모듈; 상기 엑셀 문서 전처리 모듈에서 수행된 엑셀 문서의 전처리 결과에 기반하여 상기 엑셀 문서의 라인을 미리 정해진 라인 분류의 하나로 분류하는 라인 분류기; 상기 엑셀 문서 전처리 모듈에서 수행된 엑셀 문서의 전처리 결과에 기반하여 상기 엑셀 문서를 미리 정해진 문서 분류의 하나로 분류하는 문서 분류기; 상기 엑셀 문서 전처리 모듈에서 수행된 엑셀 문서의 전처리 결과에 기반하여 상기 엑셀 문서의 항목을 미리 정해진 항목 분류의 하나로 분류하는 항목 분류기를 포함하도록 구성될 수 있다.Excel document artificial intelligence conversion system according to the object of the present invention described above, Excel document input module for receiving an input Excel document; an Excel document pre-processing module that performs pre-processing on the Excel document input from the Excel document input module; a line classifier for classifying lines of the Excel document into one of predetermined line classifications based on a result of pre-processing the Excel document performed by the Excel document pre-processing module; a document classifier for classifying the Excel document into one of a predetermined document classification based on a preprocessing result of the Excel document performed by the Excel document preprocessing module; It may be configured to include an item classifier that classifies an item of the Excel document into one of a predetermined item classification based on a result of preprocessing the Excel document performed by the Excel document preprocessing module.

여기서, 상기 엑셀 문서는, 기업의 자체 포맷에 따른 엑셀(excel) 파일로 구성될 수 있다.Here, the Excel document may be composed of an Excel file according to a company's own format.

그리고 상기 미리 정해진 항목명은, 수책 신고를 위한 항목명으로 구성될 수 있다.In addition, the predetermined item name may be configured as an item name for reporting a fault.

그리고 상기 라인 분류기는, 상기 엑셀 문서 전처리 모듈에서 수행된 엑셀 문서의 전처리 결과에 기반하여 엑셀 문서의 각 라인을 분류하여 제외 라인, 항목 라인 및 데이터 라인 중 어느 하나로 예측하는 라인 분류 예측 모듈; 상기 라인 분류 예측 모듈의 예측 결과에 따른 라인 분류 결과를 사용자의 입력에 따라 수정하여 선정하는 라인 분류 선정 모듈; 상기 라인 분류 선정 모듈에서 선정된 라인 분류 결과에 따라 각 라인을 분류하는 라인 분류 모델을 학습하여 생성하는 라인 분류 모델 생성 모듈을 더 포함하도록 구성될 수 있다.The line classifier may include a line classification prediction module that classifies each line of the Excel document based on the preprocessing result of the Excel document performed by the Excel document preprocessing module and predicts one of an excluded line, an item line, and a data line; a line classification selection module for modifying and selecting a line classification result according to a prediction result of the line classification prediction module according to a user's input; It may be configured to further include a line classification model generation module for learning and generating a line classification model for classifying each line according to the line classification result selected by the line classification selection module.

그리고 상기 문서 분류기는, 상기 엑셀 문서 전처리 모듈에서 수행된 엑셀 문서의 전처리 결과에 기반하여 엑셀 문서를 분류하여 예측하는 문서 분류 예측 모듈; 상기 문서 분류 예측 모듈의 예측 결과에 따른 문서 분류 결과를 사용자의 입력에 따라 수정하여 선정하는 문서 분류 선정 모듈; 상기 문서 분류 선정 모듈에서 선정된 문서 분류 결과에 따라 각 문서를 분류하는 문서 분류 모델을 학습하여 생성하는 문서 분류 모델 생성 모듈을 더 포함하도록 구성될 수 있다.The document classifier may include a document classification prediction module for classifying and predicting an Excel document based on a preprocessing result of the Excel document performed by the Excel document preprocessing module; a document classification selection module that modifies and selects a document classification result according to a prediction result of the document classification prediction module according to a user's input; It may be configured to further include a document classification model generation module for learning and generating a document classification model for classifying each document according to the document classification result selected by the document classification selection module.

그리고 상기 항목 분류기는, 상기 엑셀 문서 전처리 모듈에서 수행된 엑셀 문서의 전처리 결과에 기반하여 엑셀 문서의 키(KEY) 값을 미리 정해진 항목명으로 분류하여 예측하는 항목 분류 예측 모듈; 상기 항목 분류 예측 모듈의 예측 결과에 따른 항목 분류 결과를 사용자의 입력에 따라 수정하여 선정하는 항목 분류 선정 모듈; 상기 항목 분류 선정 모듈에서 선정된 항목 분류 결과에 따라 키 값을 미리 정해진 항목에 대응시켜 분류하는 항목 분류 모델을 학습하여 생성하는 항목 분류 모델 생성 모듈을 포함하도록 구성될 수 있다.The item classifier may include an item classification prediction module that classifies and predicts a key value of an Excel document into a predetermined item name based on a result of preprocessing the Excel document performed by the Excel document preprocessing module; an item classification selection module that modifies and selects an item classification result according to a prediction result of the item classification prediction module according to a user's input; It may be configured to include an item classification model generation module for learning and generating an item classification model for classifying key values corresponding to predetermined items according to the item classification result selected by the item classification selection module.

그리고 상기 엑셀 문서 전처리 모듈은, 상기 엑셀 문서의 언어를 파악하고, 파악된 언어의 형태소를 분석하여 캐릭터(character) 단위로 문자를 인식하도록 구성될 수 있다.The Excel document pre-processing module may be configured to identify the language of the Excel document, analyze morphemes of the identified language, and recognize characters in units of characters.

그리고 상기 라인 분류 예측 모듈은, 상기 라인 모델 생성 모듈에서 생성된 라인 분류 모델을 이용하여 각 라인을 분류하여 제외 라인, 항목 라인 및 데이터 라인 중 어느 하나로 예측하도록 구성될 수 있다.The line classification prediction module may be configured to classify each line using the line classification model generated by the line model generation module and predict one of an excluded line, an item line, and a data line.

그리고 상기 라인 모델 생성 모듈은, 상기 엑셀 문서의 각 라인에 출현하는 단어의 출현 빈도에 따라 각 라인을 분류하는 라인 분류 모델을 학습하여 생성하도록 구성될 수 있다.The line model generation module may be configured to learn and generate a line classification model for classifying each line according to the frequency of occurrence of words appearing in each line of the Excel document.

그리고 상기 문서 분류 예측 모듈은, 상기 문서 분류 모델 생성 모듈에서 생성된 문서 분류 모델을 이용하여 각 엑셀 문서를 분류하여 수출 신고장, 송장, 매출 거래 명세서, 매입 거래 명세서 중 어느 하나로 분류하여 예측하도록 구성될 수 있다.And the document classification prediction module is configured to classify each Excel document by using the document classification model generated in the document classification model generation module, classify and predict it as one of export declaration, invoice, sales transaction statement, and purchase transaction statement. It can be.

그리고 상기 항목 분류 예측 모듈은, 상기 항목 분류 모델 생성 모듈에서 생성된 항목 분류 모델을 이용하여 상기 엑셀 문서의 키 값을 미리 정해진 항목명으로 분류하여 예측하도록 구성될 수 있다.The item classification prediction module may be configured to classify and predict the key value of the Excel document into a predetermined item name using the item classification model generated by the item classification model generation module.

상술한 엑셀 문서 인공 지능 변환 시스템에 의하면, 각 기업에서 작성되는 다양한 포맷의 엑셀 문서를 정형화된 다른 형식의 엑셀 문서로 자동 변환하도록 구성됨으로써, 엑셀 문서의 변환에 대한 정확성과 효율성을 높일 수 있는 효과가 있다.According to the above-mentioned Excel document artificial intelligence conversion system, it is configured to automatically convert Excel documents of various formats created in each company into Excel documents of other standardized formats, thereby increasing the accuracy and efficiency of Excel document conversion. there is

구체적으로는 언어 분석, 형태소 분석, 문자 분석 등을 통한 기존 포맷과 신고 포맷 간의 자동 맵핑을 수행하도록 구성됨으로써, 각 기업에서 별도로 사용하는 제각각의 다양한 기업 재고 관리 문서 등을 별도의 수동 맵핑 과정없이도 정확하게 변환할 수 있는 효과가 있다.Specifically, it is configured to perform automatic mapping between the existing format and the reporting format through language analysis, morpheme analysis, character analysis, etc., so that various corporate inventory management documents used separately by each company can be accurately and without a separate manual mapping process. There is a transformative effect.

도 1은 종래 방식에 따른 엑셀 문서의 수기 변환 방식을 나타내는 모식도이다.
도 2는 본 발명에 따른 엑셀 문서의 자동 변환 방식을 나타내는 모식도이다.
도 3은 본 발명의 일 실시예에 따른 엑셀 문서 인공 지능 변환 시스템의 블록 구성도이다.
도 4 내지 도 10은 본 발명의 실시예에 따른 엑셀 문서 인공 지능 변환 시스템의 화면 예시도이다.
1 is a schematic diagram showing a handwriting conversion method of an Excel document according to a conventional method.
2 is a schematic diagram showing an automatic conversion method of an Excel document according to the present invention.
3 is a block diagram of an artificial intelligence conversion system for Excel documents according to an embodiment of the present invention.
4 to 10 are exemplary screen views of an AI conversion system for Excel documents according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 발명을 실시하기 위한 구체적인 내용에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.Since the present invention can make various changes and have various embodiments, specific embodiments will be illustrated in the drawings and described in detail in specific contents for practicing the invention. However, this is not intended to limit the present invention to specific embodiments, and should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention. Like reference numerals have been used for like elements throughout the description of each figure.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.Terms such as first, second, A, and B may be used to describe various components, but the components should not be limited by the terms. These terms are only used for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element, without departing from the scope of the present invention. The terms and/or include any combination of a plurality of related recited items or any of a plurality of related recited items.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.It is understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, but other elements may exist in the middle. It should be. On the other hand, when an element is referred to as “directly connected” or “directly connected” to another element, it should be understood that no other element exists in the middle.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Terms used in this application are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly dictates otherwise. In this application, the terms "include" or "have" are intended to designate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, but one or more other features It should be understood that the presence or addition of numbers, steps, operations, components, parts, or combinations thereof is not precluded.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in the present application, they should not be interpreted in an ideal or excessively formal meaning. don't

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings.

도 2는 본 발명에 따른 엑셀 문서의 자동 변환 방식을 나타내는 모식도이다.2 is a schematic diagram showing an automatic conversion method of an Excel document according to the present invention.

도 2를 참조하면, 기업의 ERP나 기업 자체 포맷의 엑셀 문서를 인공 지능을 이용하여 자동으로 무역, 외환, 보고를 위한 엑셀 문서로 변환하도록 구성될 수 있다.Referring to Figure 2, it can be configured to automatically convert the ERP of the company or the Excel document in the company's own format into an Excel document for trade, foreign exchange, and reporting using artificial intelligence.

도 3은 본 발명의 일 실시예에 따른 엑셀 문서 인공 지능 변환 시스템의 블록 구성도이고, 도 4 내지 도 10은 본 발명의 실시예에 따른 엑셀 문서 인공 지능 변환 시스템의 화면 예시도이다.3 is a block diagram of an artificial intelligence conversion system for Excel documents according to an embodiment of the present invention, and FIGS. 4 to 10 are screen views of an artificial intelligence conversion system for Excel documents according to an embodiment of the present invention.

먼저 도 3을 참조하면, 본 발명의 일 실시예에 따른 엑셀 문서 인공 지능 변환 시스템(100)은 엑셀 문서 입력 모듈(101), 엑셀 문서 전처리 모듈(102), 라인 분류 예측 모듈(103), 라인 분류 선정 모듈(104), 라인 분류 모델 생성 모듈(105), 문서 분류 예측 모듈(106), 문서 분류 선정 모듈(107), 문서 분류 모델 생성 모듈(108), 항목 분류 예측 모듈(109), 항목 분류 선정 모듈(110), 항목 분류 모델 생성 모듈(111)을 포함하도록 구성될 수 있다.First, referring to FIG. 3, the Excel document artificial intelligence conversion system 100 according to an embodiment of the present invention includes an Excel document input module 101, an Excel document preprocessing module 102, a line classification prediction module 103, a line Classification selection module (104), line classification model generation module (105), document classification prediction module (106), document classification selection module (107), document classification model generation module (108), item classification prediction module (109), item It may be configured to include a classification selection module 110 and an item classification model generation module 111 .

이하, 세부적인 구성에 대하여 설명한다.Hereinafter, a detailed configuration will be described.

엑셀 문서 입력 모듈(101)은 엑셀 문서를 입력받도록 구성될 수 있다.The Excel document input module 101 may be configured to receive an Excel document.

여기서, 엑셀 문서는 기업의 재고 관리 문서, 세무 관리 문서, 인사 관리 문서, 수출 신고장, 송장, 매출 거래 명세서, 매입 거래 명세서 등이 될 수 있으며, 그 종류에는 제한이 없다.Here, the Excel document may be a company's inventory management document, tax management document, personnel management document, export declaration, invoice, sales transaction statement, purchase transaction statement, etc., and there is no limit to the type thereof.

엑셀 문서 전처리 모듈(102)은 엑셀 문서 입력 모듈(101)에서 입력받은 엑셀 문서에 대해 전처리를 수행하도록 구성될 수 있다.The Excel document pre-processing module 102 may be configured to perform pre-processing on the Excel document input from the Excel document input module 101 .

구체적으로는 엑셀 문서 전처리 모듈(102)은 엑셀 문서의 언어를 파악하고, 파악된 언어의 형태소를 분석하여 캐릭터(character) 단위로 문자를 인식하도록 구성될 수 있다. 즉, 언어, 형태소, 문자의 순서로 분석을 할 수 있다.Specifically, the Excel document pre-processing module 102 may be configured to identify the language of the Excel document, analyze morphemes of the identified language, and recognize characters in units of characters. That is, analysis can be performed in the order of language, morpheme, and character.

다음의 표 1은 엑셀 문서의 전처리 결과를 예시하고 있다.Table 1 below illustrates the preprocessing result of an Excel document.

Figure pat00001
Figure pat00001

표 1을 참조하면, 엑셀 문서의 원본 내용의 언어를 베트남어, 영어, 한국어 등으로 파악하고, 그 언어에 따른 각 항목의 형태소를 분석한 후, 각 문자를 인식하도록 구성될 수 있다. 엑셀 문서의 각 항목은 "Im.-Ex. Product Code"와 같이 자체적으로만 사용되는 단어를 사용하는 경우가 많기 때문에 형태소 분석 및 문자 인식을 통해 이 단어들이 뜻하는 것을 정확하게 파악될 필요가 있다.Referring to Table 1, the language of the original content of the Excel document may be identified as Vietnamese, English, Korean, etc., and after analyzing the morpheme of each item according to the language, it may be configured to recognize each character. Since each item in an Excel document often uses words that are only used by itself, such as "Im.-Ex. Product Code", it is necessary to accurately understand the meaning of these words through morphological analysis and character recognition.

라인 분류기는 엑셀 문서의 각 라인을 제외 라인, 항목 라인, 데이터 라인으로 분류하도록 구성되며, 라인 분류는 해당 엑셀 문서의 종류와 문서 상의 각 항목을 파악하는 데 이용될 수 있다.The line classifier is configured to classify each line of the Excel document into an exclusion line, an item line, and a data line, and the line classification can be used to identify the type of the corresponding Excel document and each item on the document.

라인 분류기는 라인 분류 예측 모듈(103), 라인 분류 선정 모듈(104), 라인 분류 모델 생성 모듈(105)로 구성될 수 있다.The line classifier may include a line classification prediction module 103 , a line classification selection module 104 , and a line classification model generation module 105 .

라인 분류 예측 모듈(103)은 엑셀 문서 전처리 모듈(102)에서 수행된 엑셀 문서의 전처리 결과에 기반하여 엑셀 문서의 각 라인을 분류하여 제외 라인, 항목 라인 및 데이터 라인 중 어느 하나로 예측하도록 구성될 수 있다.The line classification prediction module 103 may be configured to classify each line of the Excel document based on the preprocessing result of the Excel document performed by the Excel document preprocessing module 102 and predict one of an excluded line, an item line, and a data line. there is.

도 4는 엑셀 문서의 각 라인을 제외 라인, 항목 라인, 데이터 라인으로 분류한 것을 예시하고 있다. 제외 라인은 전혀 의미없는 내용들로 구성되며, 항목 라인은 엑셀의 키(key) 값에 해당되며, 데이터 라인은 해당 키 값의 밸류(value)에 해당한다고 볼 수 있다. 예를 들어, 항목 라인은 "부품 #1 입고 수량"이고, 해당 데이터 라인은 "120개"와 같이 표시되어 있을 수 있다. 그리고 도 5는 도 4의 예측에 따른 예측 결과를 예시하고 있다.4 illustrates classification of each line of the Excel document into an exclusion line, an item line, and a data line. It can be seen that the exclusion line consists of completely meaningless contents, the item line corresponds to the key value of Excel, and the data line corresponds to the value of the corresponding key value. For example, an item line may be “received quantity of part #1” and a corresponding data line may be displayed as “120 pieces”. And FIG. 5 illustrates a prediction result according to the prediction of FIG. 4 .

라인 분류 선정 모듈(104)은 라인 분류 예측 모듈(103)의 예측 결과에 따른 라인 분류 결과를 사용자의 입력에 따라 수정하여 선정하도록 구성될 수 있다. 라인 분류 예측 모듈(103)의 예측에는 오류가 있을 수 있으므로, 라인 분류 선정 모듈(104)은 사용자의 입력에 따라 예측 결과를 수정하여 라인 분류를 선정할 수 있다. 도 6은 라인 분류 선정 화면을 예시하고 있다. 도 6의 라인 1은 항목 라인으로 예측되어 분류되어 있고 라인 2-10은 제외 라인으로 예측되어 분류되어 으나, 사용자가 수동으로 라인 2-10을 항목 라인이나 데이터 라인으로 변경할 수 있음을 예시하고 있다.The line classification selection module 104 may be configured to modify and select the line classification result according to the prediction result of the line classification prediction module 103 according to a user's input. Since there may be errors in the prediction of the line classification prediction module 103, the line classification selection module 104 may select a line classification by modifying the prediction result according to the user's input. 6 illustrates a line classification selection screen. Line 1 of FIG. 6 is predicted and classified as an item line and lines 2-10 are predicted and classified as an excluded line, but it illustrates that the user can manually change lines 2-10 to item lines or data lines. .

라인 분류 모델 생성 모듈(105)은 라인 분류 선정 모듈(104)에서 선정된 라인 분류 결과에 따라 각 라인을 분류하는 라인 분류 모델을 학습하여 생성하도록 구성될 수 있다. 라인 분류 모델 생성 모듈(105)은 인공 지능 특히, 머신 러닝을 이용하여 각 라인을 분류하기 위한 라인 분류 모델을 생성할 수 있다. 라인 분류의 예측과 사용자의 수정에 의한 분류 작업이 누적 수행됨에 따라 라인 분류 모델의 정확도가 높아지게 된다.The line classification model generation module 105 may be configured to learn and generate a line classification model for classifying each line according to the line classification result selected in the line classification selection module 104 . The line classification model generation module 105 may generate a line classification model for classifying each line using artificial intelligence, particularly machine learning. Accuracy of the line classification model increases as line classification prediction and classification work by user modification are cumulatively performed.

이처럼 라인 분류 모델 생성 모듈(105)에서 생성된 라인 분류 모델을 이용하여 라인 분류 예측 모듈(103)은 각 라인을 분류하고 제외 라인, 항목 라인 및 데이터 라인 중 어느 하나로 예측하도록 구성될 수 있다.In this way, using the line classification model generated in the line classification model generation module 105, the line classification prediction module 103 may be configured to classify each line and predict one of an excluded line, an item line, and a data line.

라인 분류 모델 생성 모듈(105)은 엑셀 문서의 각 라인에 출현하는 단어의 출현 빈도에 따라 각 라인을 분류하는 라인 분류 모델을 학습하여 생성하도록 구성될 수 있다. 특정 항목 라인에 자주 출현하는 단어가 있을 수 있으며, 그러한 단어의 출현 빈도는 해당 라인이 항목 라인인지 그리고 어떠한 항목 라인인지를 가늠하게 할 수 있다.The line classification model generation module 105 may be configured to learn and generate a line classification model for classifying each line according to the occurrence frequency of words appearing in each line of the Excel document. There may be a word that frequently appears in a specific item line, and the frequency of occurrence of such word can determine whether the corresponding line is an item line and which item line it is.

라인 분류 모델 생성 모듈(105)은 전처리에 의한 형태소 분석 결과에 기반하여 분류 기준인 데이터 셋(data set)을 생성하도록 구성될 수 있다. 아래 표 2는 형태소 분석 결과에 따른 데이터 셋과 해당 라인 분류 항목을 나타내고 있다.The line classification model generation module 105 may be configured to generate a data set that is a classification criterion based on a result of morpheme analysis through preprocessing. Table 2 below shows data sets according to the results of morpheme analysis and corresponding line classification items.

Figure pat00002
Figure pat00002

이러한 데이터 셋의 단어의 각 라인의 출현 빈도는 해당 라인을 분류하기 위한 중요한 기준이 될 수 있다.The appearance frequency of each line of words in this data set may be an important criterion for classifying the corresponding line.

그 기준은 아래 표 3과 같이 각 라인 분류에 특정 단어가 포함될 확률을 계산하기 위한 DTM(Document Term Matrix)으로 나타낼 수 있다.As shown in Table 3 below, the criterion can be expressed as a document term matrix (DTM) for calculating the probability that a specific word is included in each line classification.

Figure pat00003
Figure pat00003

그리고 아래 표 4는 표 3의 DTM 을 기반으로 단어별 출현 빈도 테이블을 생성한 것을 나타낸다.And Table 4 below shows that the occurrence frequency table for each word is generated based on the DTM of Table 3.

Figure pat00004
Figure pat00004

표 3을 통해 GUIDANCE, 주소, 제품, COTTON, FABRIC 등의 특정 단어들이 각 라인에 포함되는지 빈도를 계산할 수 있고, 각 단어의 라인별 출현에 따라 해당 라인이 제외 라인인지, 항목 라인인지, 데이터 라인인지 알 수 있다. 결과적으로 표 3의 DTM을 이용하여 표 4를 생성할 수 있고, 궁극적으로는 표 2와 같이 각 라인이 분류될 수 있다.Through Table 3, it is possible to calculate the frequency of whether specific words such as GUIDANCE, ADDRESS, PRODUCT, COTTON, and FABRIC are included in each line, and depending on the line appearance of each word, whether the line is an exclusion line, an item line, or a data line can know whether As a result, Table 4 can be generated using the DTM of Table 3, and each line can ultimately be classified as shown in Table 2.

그리고 라인 분류 모델 생성 모듈(105)은 아래 수학식 1에 의해 각 라인에 포함된 특정 단어를 기준으로 특정 라인 분류에 해당할 확률을 계산할 수 있다.Further, the line classification model generation module 105 may calculate a probability corresponding to a specific line classification based on a specific word included in each line by Equation 1 below.

Figure pat00005
Figure pat00005

여기서, P(B/A)는 특정 단어(A)가 포함된 경우 항목 분류(B)일 확률이고, P(B)는 특정 분류(B)일 확률이고, P(A/B)는 특정 분류(B)일 때 특정 단어(A)가 포함될 확률이고, P(A)는 특정 단어(A)가 포함될 확률이다.Here, P(B/A) is the probability of item classification (B) when a specific word (A) is included, P(B) is the probability of a specific category (B), and P(A/B) is a specific category (B) is the probability that a specific word (A) is included, and P(A) is the probability that a specific word (A) is included.

라인 분류 모델 생성 모듈(105)은 위와 같은 DTM의 생성 및 확률 계산을 통한 분류의 과정을 거치면서 머신 러닝 모델을 학습하고 확립할 수 있다.The line classification model generation module 105 may learn and establish a machine learning model while passing through the above process of generation of DTM and classification through probability calculation.

이러한 라인 분류 모델 생성 모듈(105)의 머신 러닝 모델의 교차 검증을 수행한 결과는 다음 표 5와 같이 높은 정확도를 나타내었다.The results of cross-validation of the machine learning model of the line classification model generation module 105 showed high accuracy as shown in Table 5 below.

Figure pat00006
Figure pat00006

위 표 4의 단어별 출현 빈도 테이블을 기준으로 할 때, “제품”이라는 단어를 가진 엑셀의 라인이 항목 분류에 속하는지의 확률은 다음 수학식 2에 의해 구해질 수 있다. 표 4의 경우, 전체 빈도는 6, 항목 분류 빈도는 2, “제품” 단어 출현 빈도는 2이기 때문에 계산 확률은 다음과 같다.Based on the table of occurrence frequency by word in Table 4 above, the probability of whether the Excel line having the word “product” belongs to the item classification can be obtained by Equation 2 below. In the case of Table 4, the total frequency is 6, the item classification frequency is 2, and the frequency of occurrence of the word “product” is 2, so the calculation probability is as follows.

Figure pat00007
Figure pat00007

여기서, P(B)는 항목 분류일 확률로서 2 / 6이고, P(A/B)는 항목 분류일 때 제품 단어가 포함될 확률로서 2 / 2이며, P(A)는 "제품" 단어가 포함될 확률로서 2 / 6가 된다.Here, P(B) is 2/6 as the probability of item classification, P(A/B) is 2/2 as the probability that the product word is included in the item class, and P(A) is the probability that the word "product" will be included. The probability is 2/6.

문서 분류기는 엑셀 문서의 종류를 파악하여 분류하도록 구성될 수 있다.The document classifier may be configured to identify and classify types of Excel documents.

문서 분류기는 문서 분류 예측 모듈(106), 문서 분류 선정 모듈(107), 문서 분류 모델 생성 모듈(108)로 구성될 수 있다.The document classifier may include a document classification prediction module 106, a document classification selection module 107, and a document classification model generation module 108.

문서 분류 예측 모듈(106)은 엑셀 문서 전처리 모듈(102)에서 수행된 엑셀 문서의 전처리 결과에 기반하여 엑셀 문서의 종류를 분류하여 예측하도록 구성될 수 있다. 즉, 문서 분류 예측 모듈(106)은 수출 신고장, 송장, 매출 거래 명세서, 매입 거래 명세서 등의 다양한 엑셀 문서의 종류를 분류 및 예측하는 구성이다. 도 7은 문서의 종류를 예측 결과한 결과이며, 이러한 예측 결과는 후술할 문서 분류 모델을 통해 이루어질 수 있다.The document classification prediction module 106 may be configured to classify and predict the type of the Excel document based on the preprocessing result of the Excel document performed by the Excel document preprocessing module 102 . That is, the document classification prediction module 106 is a component that classifies and predicts the types of various Excel documents such as export declarations, invoices, sales transaction statements, and purchase transaction statements. 7 is a result of predicting the type of document, and this prediction result can be achieved through a document classification model to be described later.

문서 분류 선정 모듈(107)은 문서 분류 예측 모듈(106)의 예측 결과에 따른 문서 분류 결과를 사용자의 입력에 따라 수정하여 선정하도록 구성될 수 있다. 도 8은 문서 분류 선정 화면을 예시하고 있다.The document classification selection module 107 may be configured to modify and select a document classification result according to a prediction result of the document classification prediction module 106 according to a user's input. 8 illustrates a document classification selection screen.

문서 분류 모델 생성 모듈(108)은 문서 분류 선정 모듈(107)에서 선정된 문서 분류 결과에 따라 각 문서를 분류하는 문서 분류 모델을 학습하여 생성하도록 구성될 수 있다.The document classification model generation module 108 may be configured to learn and generate a document classification model for classifying each document according to the document classification result selected by the document classification selection module 107 .

그리고 문서 분류 예측 모듈(106)은 문서 분류 모델 생성 모듈(108)에서 생성된 문서 분류 모델을 이용하여 각 엑셀 문서를 분류하여 수출 신고장, 송장, 매출 거래 명세서, 매입 거래 명세서 중 어느 하나로 분류하여 예측하도록 구성될 수 있다.And the document classification prediction module 106 classifies each Excel document using the document classification model generated in the document classification model generation module 108 and classifies it into one of export declaration, invoice, sales transaction statement, and purchase transaction statement It can be configured to predict.

문서 분류 모델 생성 모듈(108)은 라인 분류 선정 모듈(104)에서 최종 선정된 항목 라인에 포함되는 형태소 분석 결과에 따라 문서를 분류하는 문서 분류 모델을 생성할 수 있다. 다음의 표 6은 최종 항목 라인의 형태소 분석 결과에 대응되는 데이터 세트와 해당 문서 분류를 예시하고 있다.The document classification model generation module 108 may generate a document classification model for classifying documents according to a morphological analysis result included in the item line finally selected in the line classification selection module 104 . Table 6 below illustrates a data set corresponding to the morphological analysis result of the final item line and a corresponding document classification.

Figure pat00008
Figure pat00008

그리고 다음 표 7은 각 문서에서 특정 단어가 포함될 확률을 계산하기 위한 DTM(Document Term Matrix)을 예시하고 있다.Table 7 below illustrates a Document Term Matrix (DTM) for calculating the probability that a specific word is included in each document.

Figure pat00009
Figure pat00009

그리고 다음 표 8은 표 7의 DTM 을 기반으로 생성한 단어별 출현 빈도 테이블을 예시하고 있다.Table 8 below illustrates an appearance frequency table for each word generated based on the DTM of Table 7.

Figure pat00010
Figure pat00010

다음 수학식 3을 통해 각 형태소에 포함된 단어를 기준으로 특정 단어가 포함된 경우 특정 문서일 확률을 계산할 수 있다.Based on the words included in each morpheme, the probability of a specific document when a specific word is included can be calculated through Equation 3 below.

Figure pat00011
Figure pat00011

여기서, P(B/A)는 특정 단어(A)가 포함된 경우 특정 문서(B)일 확률이고, P(B)는 특정 문서(B)일 확률이고, P(A/B)는 특정 문서(B) 일 때 특정 단어(A)가 포함될 확률이고, P(A)는 특정 단어(A)가 포함될 확률이다.Here, P(B/A) is the probability of a specific document (B) when a specific word (A) is included, P(B) is the probability of a specific document (B), and P(A/B) is a specific document (B) is the probability that a specific word (A) is included, and P(A) is the probability that a specific word (A) is included.

다음 표 9는 위 알고리즘에 대한 교차 검증의 결과를 나타내며, 93.59%의 높은 정확도를 나타내고 있다.Table 9 below shows the results of cross-validation for the above algorithm, showing a high accuracy of 93.59%.

Figure pat00012
Figure pat00012

항목 분류기는 엑셀 문서의 항목을 미리 정해진 항목 분류 중의 하나로 분류하도록 구성될 수 있다.The item classifier may be configured to classify the items of the Excel document into one of the predetermined item classifications.

항목 분류기는 항목 분류 예측 모듈(109), 항목 분류 선정 모듈(110), 항목 분류 모델 생성 모듈(111)을 포함하도록 구성될 수 있다.The item classifier may be configured to include an item classification prediction module 109 , an item classification selection module 110 , and an item classification model generation module 111 .

항목 분류 예측 모듈(109)은 엑셀 문서 전처리 모듈(102)에서 수행된 엑셀 문서의 전처리 결과에 기반하여 엑셀 문서의 키(KEY) 값을 미리 정해진 항목명으로 분류하여 예측하도록 구성될 수 있다. 엑셀 문서는 키(key)와 밸류(value)의 세트로 구성될 수 있다고 볼 수 있는데, 엑셀 문서의 키는 항목으로 볼 수 있고, 밸류를 데이터로 볼 수 있다. 그런데, 엑셀 문서의 키의 명칭은 각각 별도로 지정하여 사용하고 있어서 다양한 키의 명칭을 미리 지정된 세관 신고용 항목 또는 다른 용도의 지정된 항목으로 변환하도록 구성될 수 있다. 도 9는 키 값 즉, 항목코드를 미리 정해진 항목명으로 대응시켜 맵핑한 것을 나타내고 있다. 도 9에서는 엑셀 문서의 항목은 창고번호이지만, 이를 미리 지정된 항목명인 입고번호로 맵핑하고 있다. 즉, 기업들의 엑셀 문서마다 창고번호, 창고입고번호 등 다양하게 사용될 수 있는 항목명이 창고번호라는 하나의 항목명으로 맵핑될 수 있다.The item classification prediction module 109 may be configured to classify and predict a key value of an Excel document into a predetermined item name based on a result of preprocessing the Excel document performed by the Excel document preprocessing module 102 . An Excel document can be viewed as being composed of a set of keys and values. Keys in an Excel document can be viewed as items, and values can be viewed as data. However, since the names of the keys in the Excel document are separately designated and used, the names of various keys may be configured to be converted into previously designated items for customs declaration or designated items for other purposes. 9 shows that key values, that is, item codes are mapped by corresponding to predetermined item names. In FIG. 9, the item of the Excel document is a warehouse number, but it is mapped to a pre-designated item name, a warehouse number. That is, item names that can be used in various ways, such as a warehouse number and a warehouse receipt number, can be mapped to one item name called a warehouse number for each excel document of companies.

항목 분류 선정 모듈(110)은 항목 분류 예측 모듈(109)의 예측 결과에 따른 항목 분류 결과를 사용자의 입력에 따라 수정하여 선정하도록 구성될 수 있다. 항목 분류 예측에 오류가 있을 수 있으므로, 사용자에 의해 항목 분류 예측 결과를 수정하여 최종적으로 항목 분류를 선정하도록 구성될 수 있다. 도 10은 사용자의 항목 분류 선정 화면을 예시하고 있다. 도 10은 위 표와 달리 한국어가 아닌 영어로 된 항목 분류로 선정하는 동작을 나타내는 화면이다. 엑셀 문서 항목(Excel field)인 입고번호는 In-Warehouse No.라는 항목(Standard field)로 최종 선정되는 동작을 예시하고 있다.The item classification selection module 110 may be configured to modify and select the item classification result according to the predicted result of the item classification prediction module 109 according to a user's input. Since there may be errors in item classification prediction, the item classification prediction result may be modified by the user to finally select the item classification. 10 illustrates an item classification selection screen of a user. 10 is a screen showing an operation of selecting an item classification in English, not Korean, unlike the table above. Receipt number, which is an Excel field, exemplifies the operation of being finally selected as an In-Warehouse No. field (Standard field).

항목 분류 모델 생성 모듈(111)은 항목 분류 선정 모듈(110)에서 선정된 항목 분류 결과에 따라 키 값을 미리 정해진 항목에 대응시켜 분류하는 항목 분류 모델을 학습하여 생성하도록 구성될 수 있다.The item classification model generation module 111 may be configured to learn and generate an item classification model for classifying key values corresponding to predetermined items according to the item classification result selected by the item classification selection module 110 .

그리고 항목 분류 예측 모듈(109)은 항목 분류 모델 생성 모듈(111)에서 생성된 항목 분류 모델을 이용하여 상기 엑셀 문서의 키 값을 미리 정해진 항목명으로 분류하여 예측하도록 구성될 수 있다.The item classification prediction module 109 may be configured to classify and predict the key value of the Excel document into a predetermined item name using the item classification model generated by the item classification model generation module 111 .

한편, 항목 분류 모델 생성 모듈(111)의 항목 분류 모델은 다음과 같이 생성될 수 있다.Meanwhile, the item classification model of the item classification model generation module 111 may be generated as follows.

먼저 표 10은 항목 분류 모델 생성 모듈(111)이 라인 분류 선정 모듈(104)에서 선정한 항목 라인에 포함된 각 형태소 분석 결과와 문서 분류 선정 모듈(107)에서 선정된 문서를 기반으로 데이터 세트를 생성한 것을 예시하고 있다.First, Table 10 shows that the item classification model generation module 111 generates a data set based on the results of morpheme analysis included in the item line selected by the line classification selection module 104 and the document selected by the document classification selection module 107. foreshadowing one thing.

Figure pat00013
Figure pat00013

그리고 표 11은 분류의 정확도를 위해 셀 문자 단위 분해 결과를 추가적으로 적용하여 데이터 셋을 생성한 것을 예시하고 있다.And Table 11 illustrates that a data set is created by additionally applying cell character unit decomposition results for classification accuracy.

Figure pat00014
Figure pat00014

표 11에서는 엑셀 문서에 기재된 셀 값(예: 창고번호), 이를 형태소 분석한 셀 형태로 분석 결과(예: 창고 번호), 그리고 셀 형태소 분석 결과를 문자 단위로 분해한 셀 문자 단위 분해 결과(예: 창 고 번 호), 그리고 이를 미리 지정된 항목으로 맵핑한 문서 항목(예: 입고번호)을 순서대로 표시하고 있다.Table 11 shows the cell value (eg warehouse number) described in the Excel document, the analysis result in the form of a cell obtained by morphologically analyzing it (eg warehouse number), and the cell character unit decomposition result obtained by decomposing the cell morphological analysis result into character units (eg, warehouse number). : warehouse number), and document items (eg, receipt number) mapped to pre-specified items are displayed in order.

다음 수학식 4를 통해 각 형태소에 포함된 단어를 기준으로 특정 단어가 포함된 경우 특정 항목일 확률을 계산할 수 있다.Based on the words included in each morpheme, the probability of being a specific item when a specific word is included can be calculated through Equation 4 below.

Figure pat00015
Figure pat00015

여기서, P(B/A)는 특정 단어(A)가 포함된 경우 특정 항목(B)일 확률이고, P(B)는 특정 항목(B)일 확률이고, P(A/B)는 특정 항목(B) 일 때 특정 단어(A)가 포함될 확률이고, P(A)는 특정 단어(A)가 포함될 확률이다.Here, P(B/A) is the probability of a specific item (B) when a specific word (A) is included, P(B) is the probability of a specific item (B), and P(A/B) is a specific item (B) is the probability that a specific word (A) is included, and P(A) is the probability that a specific word (A) is included.

항목 분류 모델의 경우에는 단어 출현 빈도에 대한 확률에 문자 출현 빈도에 대한 확률도 계산해야 하며, 그 계산은 다음 수학식 5에 의해 산출될 수 있다.In the case of the item classification model, the probability of word appearance frequency must be calculated in addition to the probability of word appearance frequency, and the calculation can be calculated by Equation 5 below.

Figure pat00016
Figure pat00016

여기서, C(B/A)는 특정 문자(A)가 포함된 경우 해당 문서의 특정 항목(B)일 확률이고, C(B)는 해당 문서에서 특정 항목(B)일 확률이고, C(A/B)는 해당 문서에서 특정 항목(B)일 때, 특정 문자(A)가 포함될 확률이고, C(A)는 해당 문서에서 특정 문자(A)가 포함될 확률이다.Here, C(B/A) is the probability of being a specific item (B) in the document if a specific character (A) is included, C(B) is the probability of being a specific item (B) in the document, and C(A /B) is the probability that a specific character (A) is included in a specific item (B) in the document, and C(A) is the probability that a specific character (A) is included in the document.

최종적으로 해당 문서에서 특정 항목일 확률은 다음 수학식 6과 같다.Finally, the probability of being a specific item in the document is shown in Equation 6 below.

Figure pat00017
Figure pat00017

다음 표 12는 위 알고리즘에 대한 교차 검증의 결과를 나타낸다. 즉, 문서 분류 예측과 그 예측된 문서에서의 항목 분류 예측을 모두 실행하였을 때의 확률이 89.23프로로 높게 나타남을 알 수 있다. 앞서 언급한 바와 같이 항목 분류는 특정 단어가 포함될 확률 P(B/A)뿐만 아니라 특정 문자가 포함될 확률 C(B/A)를 모두 계산하여 그 곱을 최종적인 항목 예측에 대한 확률로서 산출하는데, 이러한 2가지 확률의 곱의 결과도 매우 높은 값으로 나타나고 있음을 알 수 있다.Table 12 below shows the results of cross-validation for the above algorithm. That is, it can be seen that the probability of executing both document classification prediction and item classification prediction in the predicted document is high at 89.23%. As mentioned above, item classification calculates both the probability P(B/A) of a specific word and the probability C(B/A) of a specific letter, and calculates the product as the probability of final item prediction. It can be seen that the result of the product of the two probabilities is also a very high value.

Figure pat00018
Figure pat00018

한편, 라인 분류기의 라인 분류 결과값을 이용하여 문서 분류기가 문서 분류를 하고, 문서 분류기의 문서 분류 결과값을 이용하여 항목 분류를 하는 것이 분류 예측의 정확도가 가장 높은 최적의 실시예가 될 수 있다. 즉, 라인 분류를 통해 항목 라인을 찾아내고, 그 항목 라인을 기준으로 문서 분류와 항목 분류를 하는 것이 가장 정확할 수 있다.Meanwhile, an optimal embodiment with the highest classification prediction accuracy may be a document classifier classifying documents using the line classification result value of the line classifier and item classification using the document classification result value of the document classifier. That is, it may be most accurate to find an item line through line classification, and to perform document classification and item classification based on the item line.

그러나, 정확도가 더 떨어질 수는 있지만, 엑셀 문서 전처리 결과를 이용하여 라인 분류기, 문서 분류기, 항목 분류기가 각각 분류 동작을 하는 실시예도 있을 수 있다. 항목 라인을 별도로 분류하지 않고서도 문서 전체의 형태소 분석 등을 통해 숫자 데이터는 모두 무시하고 항목 라인에 해당되는 단어들을 추려낼 수 있고, 이를 통해 문서 분류나 항목 분류를 하는 것도 가능하다.However, although the accuracy may be lower, there may be an embodiment in which the line classifier, the document classifier, and the item classifier each perform a classification operation using the Excel document preprocessing result. Without separately classifying the item line, it is possible to sort out words corresponding to the item line ignoring all numerical data through morphological analysis of the entire document, and through this, it is possible to classify the document or item.

이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although described with reference to the above embodiments, those skilled in the art can understand that the present invention can be variously modified and changed without departing from the spirit and scope of the present invention described in the claims below. There will be.

101: 엑셀 문서 입력 모듈
102: 엑셀 문서 전처리 모듈
103: 라인 분류 예측 모듈
104: 라인 분류 선정 모듈
105: 라인 분류 모델 생성 모듈
106: 문서 분류 예측 모듈
107: 문서 분류 선정 모듈
108: 문서 분류 모델 생성 모듈
109: 항목 분류 예측 모듈
110: 항목 분류 선정 모듈
111: 항목 분류 모델 생성 모듈
101: Excel document input module
102: Excel document pre-processing module
103: line classification prediction module
104: line classification selection module
105: line classification model generation module
106: document classification prediction module
107: document classification selection module
108: document classification model generation module
109: item classification prediction module
110: item classification selection module
111: item classification model generation module

Claims (11)

엑셀 문서를 입력받는 엑셀 문서 입력 모듈;
상기 엑셀 문서 입력 모듈에서 입력받은 엑셀 문서에 대해 전처리를 수행하는 엑셀 문서 전처리 모듈;
상기 엑셀 문서 전처리 모듈에서 수행된 엑셀 문서의 전처리 결과에 기반하여 상기 엑셀 문서의 라인을 미리 정해진 라인 분류의 하나로 분류하는 라인 분류기;
상기 엑셀 문서 전처리 모듈에서 수행된 엑셀 문서의 전처리 결과에 기반하여 상기 엑셀 문서를 미리 정해진 문서 분류의 하나로 분류하는 문서 분류기;
상기 엑셀 문서 전처리 모듈에서 수행된 엑셀 문서의 전처리 결과에 기반하여 상기 엑셀 문서의 항목을 미리 정해진 항목 분류의 하나로 분류하는 항목 분류기를 포함하는 엑셀 문서 인공 지능 변환 시스템.
An Excel document input module that receives input of an Excel document;
an Excel document pre-processing module that performs pre-processing on the Excel document input from the Excel document input module;
a line classifier for classifying lines of the Excel document into one of predetermined line classifications based on a result of pre-processing the Excel document performed by the Excel document pre-processing module;
a document classifier for classifying the Excel document into one of a predetermined document classification based on a preprocessing result of the Excel document performed by the Excel document preprocessing module;
An artificial intelligence conversion system for an Excel document comprising an item classifier for classifying an item of the Excel document into one of a predetermined item classification based on a preprocessing result of the Excel document performed by the Excel document preprocessing module.
제1항에 있어서, 상기 엑셀 문서는,
기업의 자체 포맷에 따른 엑셀(excel) 파일로 구성되는 것을 특징으로 하는 엑셀 문서 인공 지능 변환 시스템.
The method of claim 1, wherein the Excel document,
Excel document artificial intelligence conversion system, characterized in that composed of Excel (Excel) file according to the company's own format.
제1항에 있어서, 상기 미리 정해진 항목명은,
수책 신고를 위한 항목명으로 구성되는 엑셀 문서 인공 지능 변환 시스템.
The method of claim 1, wherein the predetermined item name,
Excel document artificial intelligence conversion system composed of item names for reporting faults.
제1항에 있어서, 상기 라인 분류기는,
상기 엑셀 문서 전처리 모듈에서 수행된 엑셀 문서의 전처리 결과에 기반하여 엑셀 문서의 각 라인을 분류하여 제외 라인, 항목 라인 및 데이터 라인 중 어느 하나로 예측하는 라인 분류 예측 모듈;
상기 라인 분류 예측 모듈의 예측 결과에 따른 라인 분류 결과를 사용자의 입력에 따라 수정하여 선정하는 라인 분류 선정 모듈;
상기 라인 분류 선정 모듈에서 선정된 라인 분류 결과에 따라 각 라인을 분류하는 라인 분류 모델을 학습하여 생성하는 라인 분류 모델 생성 모듈을 더 포함하도록 구성되는 것을 특징으로 하는 엑셀 문서 인공 지능 변환 시스템.
The method of claim 1, wherein the line classifier,
a line classification prediction module that classifies each line of the Excel document based on the preprocessing result of the Excel document performed by the Excel document preprocessing module and predicts one of an excluded line, an item line, and a data line;
a line classification selection module for modifying and selecting a line classification result according to a prediction result of the line classification prediction module according to a user's input;
Excel document artificial intelligence conversion system, characterized in that it is configured to further include a line classification model generation module for learning and generating a line classification model for classifying each line according to the line classification result selected by the line classification selection module.
제1항에 있어서, 상기 문서 분류기는,
상기 엑셀 문서 전처리 모듈에서 수행된 엑셀 문서의 전처리 결과에 기반하여 엑셀 문서를 분류하여 예측하는 문서 분류 예측 모듈;
상기 문서 분류 예측 모듈의 예측 결과에 따른 문서 분류 결과를 사용자의 입력에 따라 수정하여 선정하는 문서 분류 선정 모듈;
상기 문서 분류 선정 모듈에서 선정된 문서 분류 결과에 따라 각 문서를 분류하는 문서 분류 모델을 학습하여 생성하는 문서 분류 모델 생성 모듈을 더 포함하도록 구성되는 것을 특징으로 하는 엑셀 문서 인공 지능 변환 시스템.
The method of claim 1, wherein the document classifier,
a document classification prediction module for classifying and predicting an Excel document based on a preprocessing result of the Excel document performed by the Excel document preprocessing module;
a document classification selection module that modifies and selects a document classification result according to a prediction result of the document classification prediction module according to a user's input;
Excel document artificial intelligence conversion system, characterized in that it is configured to further include a document classification model generation module for learning and generating a document classification model for classifying each document according to the document classification result selected by the document classification selection module.
제1항에 있어서, 상기 항목 분류기는,
상기 엑셀 문서 전처리 모듈에서 수행된 엑셀 문서의 전처리 결과에 기반하여 엑셀 문서의 키(KEY) 값을 미리 정해진 항목명으로 분류하여 예측하는 항목 분류 예측 모듈;
상기 항목 분류 예측 모듈의 예측 결과에 따른 항목 분류 결과를 사용자의 입력에 따라 수정하여 선정하는 항목 분류 선정 모듈;
상기 항목 분류 선정 모듈에서 선정된 항목 분류 결과에 따라 키 값을 미리 정해진 항목에 대응시켜 분류하는 항목 분류 모델을 학습하여 생성하는 항목 분류 모델 생성 모듈을 포함하도록 구성되는 것을 특징으로 하는 엑셀 문서 인공 지능 변환 시스템.
The method of claim 1, wherein the item classifier,
an item classification prediction module that classifies and predicts a key value of an Excel document into a predetermined item name based on a preprocessing result of the Excel document performed by the Excel document preprocessing module;
an item classification selection module that modifies and selects an item classification result according to a prediction result of the item classification prediction module according to a user's input;
An artificial intelligence excel document, characterized in that it is configured to include an item classification model generation module for learning and generating an item classification model for classifying key values corresponding to predetermined items according to the item classification result selected by the item classification selection module. conversion system.
제1항에 있어서, 상기 엑셀 문서 전처리 모듈은,
상기 엑셀 문서의 언어를 파악하고, 파악된 언어의 형태소를 분석하여 캐릭터(character) 단위로 문자를 인식하도록 구성되는 것을 특징으로 하는 엑셀 문서 인공 지능 변환 시스템.
The method of claim 1, wherein the Excel document pre-processing module,
Excel document artificial intelligence conversion system, characterized in that configured to identify the language of the Excel document, analyze the morpheme of the identified language, and recognize characters in character units.
제4항에 있어서, 상기 라인 분류 예측 모듈은,
상기 라인 모델 생성 모듈에서 생성된 라인 분류 모델을 이용하여 각 라인을 분류하여 제외 라인, 항목 라인 및 데이터 라인 중 어느 하나로 예측하도록 구성되는 것을 특징으로 하는 엑셀 문서 인공 지능 변환 시스템.
The method of claim 4, wherein the line classification prediction module,
Excel document artificial intelligence conversion system, characterized in that configured to classify each line using the line classification model generated by the line model generation module and predict one of an excluded line, an item line, and a data line.
제4항에 있어서, 상기 라인 모델 생성 모듈은,
상기 엑셀 문서의 각 라인에 출현하는 단어의 출현 빈도에 따라 각 라인을 분류하는 라인 분류 모델을 학습하여 생성하도록 구성되는 것을 특징으로 하는 엑셀 문서 인공 지능 변환 시스템.
The method of claim 4, wherein the line model generation module,
Excel document artificial intelligence conversion system, characterized in that configured to learn and generate a line classification model for classifying each line according to the frequency of occurrence of words appearing in each line of the Excel document.
제5항에 있어서, 상기 문서 분류 예측 모듈은,
상기 문서 분류 모델 생성 모듈에서 생성된 문서 분류 모델을 이용하여 각 엑셀 문서를 분류하여 수출 신고장, 송장, 매출 거래 명세서, 매입 거래 명세서 중 어느 하나로 분류하여 예측하도록 구성되는 것을 특징으로 하는 엑셀 문서 인공 지능 변환 시스템.
The method of claim 5, wherein the document classification prediction module,
Using the document classification model generated by the document classification model generation module, each Excel document is classified and classified into one of export declaration, invoice, sales transaction statement, and purchase transaction statement, characterized in that for prediction. intelligent conversion system.
제6항에 있어서, 상기 항목 분류 예측 모듈은,
상기 항목 분류 모델 생성 모듈에서 생성된 항목 분류 모델을 이용하여 상기 엑셀 문서의 키 값을 미리 정해진 항목명으로 분류하여 예측하도록 구성되는 것을 특징으로 하는 엑셀 문서 인공 지능 변환 시스템.
The method of claim 6, wherein the item classification prediction module,
Excel document artificial intelligence conversion system, characterized in that configured to predict by classifying the key value of the Excel document into a predetermined item name using the item classification model generated by the item classification model generation module.
KR1020210105767A 2021-08-11 2021-08-11 Excel document ai conversion system KR102563961B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210105767A KR102563961B1 (en) 2021-08-11 2021-08-11 Excel document ai conversion system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210105767A KR102563961B1 (en) 2021-08-11 2021-08-11 Excel document ai conversion system

Publications (2)

Publication Number Publication Date
KR20230023906A true KR20230023906A (en) 2023-02-20
KR102563961B1 KR102563961B1 (en) 2023-08-07

Family

ID=85329056

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210105767A KR102563961B1 (en) 2021-08-11 2021-08-11 Excel document ai conversion system

Country Status (1)

Country Link
KR (1) KR102563961B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100591474B1 (en) 2006-04-13 2006-06-20 대한민국 System and method for customs clearance and storage medium recording that method program
KR100990846B1 (en) 2010-05-10 2010-11-01 대한민국 System for customs clearance using chemicals search program and method using the same
KR20120059935A (en) * 2010-12-01 2012-06-11 경북대학교 산학협력단 Text classification device and classification method thereof
KR20160086255A (en) * 2015-01-09 2016-07-19 한국과학기술원 Entity boundary detection apparatus in text by usage-learning on the entity's surface string candidates and mtehod thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100591474B1 (en) 2006-04-13 2006-06-20 대한민국 System and method for customs clearance and storage medium recording that method program
KR100990846B1 (en) 2010-05-10 2010-11-01 대한민국 System for customs clearance using chemicals search program and method using the same
KR20120059935A (en) * 2010-12-01 2012-06-11 경북대학교 산학협력단 Text classification device and classification method thereof
KR20160086255A (en) * 2015-01-09 2016-07-19 한국과학기술원 Entity boundary detection apparatus in text by usage-learning on the entity's surface string candidates and mtehod thereof

Also Published As

Publication number Publication date
KR102563961B1 (en) 2023-08-07

Similar Documents

Publication Publication Date Title
US11734328B2 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
CN109685056B (en) Method and device for acquiring document information
US10755045B2 (en) Automatic human-emulative document analysis enhancements
US11763321B2 (en) Systems and methods for extracting requirements from regulatory content
CN110457676B (en) Evaluation information extraction method and device, storage medium and computer equipment
Duwairi et al. Sentiment analysis for Arabizi text
US11734782B2 (en) Automated document analysis for varying natural languages
CN109376247B (en) Automatic software defect classification method based on association rules
CN112231431B (en) Abnormal address identification method and device and computer readable storage medium
Singh et al. A decision tree based word sense disambiguation system in Manipuri language
Kashmira et al. Generating entity relationship diagram from requirement specification based on nlp
US20230028664A1 (en) System and method for automatically tagging documents
Ha et al. Information extraction from scanned invoice images using text analysis and layout features
JP2022151838A (en) Extraction of open information from low resource language
CN107577738A (en) A kind of FMECA method by SVM text mining processing datas
Panchapagesan et al. Hindi text normalization
Klein et al. smartFIX: An adaptive system for document analysis and understanding
KR102563961B1 (en) Excel document ai conversion system
Heidari et al. Financial footnote analysis: developing a text mining approach
CN115482075A (en) Financial data anomaly analysis method and device, electronic equipment and storage medium
US20220164705A1 (en) Method and apparatus for providing information based on machine learning
CN114780577A (en) SQL statement generation method, device, equipment and storage medium
CN114118098A (en) Contract review method, equipment and storage medium based on element extraction
JP2018120284A (en) Settlement analysis system and settlement analysis program
Denisiuk et al. Feature Extraction for Polish Language Named Entities Recognition in Intelligent Office Assistant.

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant