KR102507534B1 - Method and apparatus for accounting management using ocr recognition based on artificial intelligence - Google Patents
Method and apparatus for accounting management using ocr recognition based on artificial intelligence Download PDFInfo
- Publication number
- KR102507534B1 KR102507534B1 KR1020220032222A KR20220032222A KR102507534B1 KR 102507534 B1 KR102507534 B1 KR 102507534B1 KR 1020220032222 A KR1020220032222 A KR 1020220032222A KR 20220032222 A KR20220032222 A KR 20220032222A KR 102507534 B1 KR102507534 B1 KR 102507534B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- accounting
- document image
- detected
- item
- Prior art date
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 6
- 238000000034 method Methods 0.000 title abstract description 20
- 239000000203 mixture Substances 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 10
- 238000003702 image correction Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 35
- 238000007726 management method Methods 0.000 description 34
- 230000006870 function Effects 0.000 description 15
- 238000009826 distribution Methods 0.000 description 11
- 238000012015 optical character recognition Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012946 outsourcing Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19107—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/196—Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
- G06V30/1983—Syntactic or structural pattern recognition, e.g. symbolic string recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Character Input (AREA)
Abstract
Description
본 발명은 인공지능 기반의 OCR 인식을 이용한 회계 관리 방법 및 장치에 관한 것으로, 더욱 상세하게는 문서 이미지에 포함된 문자 및 숫자를 인식하고, 문서의 종류를 결정하고, 문서의 종류에 따른 회계 산출식을 결정하여 회계를 수행하는 방법 및 장치에 관한 것이다.The present invention relates to an accounting management method and apparatus using artificial intelligence-based OCR recognition, and more particularly, recognizes letters and numbers included in a document image, determines the type of document, and calculates accounting according to the type of document. It relates to a method and apparatus for performing accounting by determining an expression.
본 명세서에서 달리 표시되지 않는 한, 이 섹션에 설명되는 내용들은 이 출원의 청구항들에 대한 종래 기술이 아니며, 이 섹션에 포함된다고 하여 종래 기술이라고 인정되는 것은 아니다.Unless otherwise indicated herein, material described in this section is not prior art to the claims in this application, and inclusion in this section is not an admission that it is prior art.
개인이나 기업은 경제 활동 중에 수집하는 각종 문서들을 경비보고, 지출결의 등의 회계 처리 혹은 종합소득세 신고 등의 세무 처리를 위한 사후 증빙 서류로 보관하여 관리한다. 이렇게 보관 및 관리되는 문서들은 종이로 되어 있기 때문에 근본적으로 원본의 훼손 위험이 있으며, 오손, 분실, 부패에 대한 노출을 예방해야 하는 기술적, 경제적 부담이 있고, 문서들의 보관량 증대에 비례하여 문서 보관 공간을 늘려야 하는 문제점이 있다.Individuals or companies store and manage various documents collected during economic activities as post-documentary documents for accounting processing such as expense reports and expenditure resolutions, or tax processing such as global income tax returns. Since the documents stored and managed in this way are made of paper, there is a fundamental risk of damage to the original, there is a technical and economic burden to prevent exposure to contamination, loss, and corruption, and document storage space is proportional to the increase in the amount of documents stored. There is a problem that needs to be increased.
또한, 개인이나 기업의 담당자는 수기 입력 방식으로 종래의 문서들로부터 상기한 회계 처리 혹은 세무 처리에 필요한 정보를 추출하고 분류하여 장부에 기입하거나 회계관리 프로그램이 설치된 PC에 입력, 저장하기 때문에 정보 추출 작업이 불편한 문제점이 있다.In addition, the person in charge of an individual or company extracts and classifies the information necessary for the above-mentioned accounting or tax processing from conventional documents in a handwritten input method, records it in a book, or inputs and stores it in a PC where an accounting management program is installed, so information is extracted. There are problems with working.
한편, 문서 이미지에 포함된 문자는 인코딩을 통해 변환할 수 있는데, 인코딩을 통해 변환된 문자는 전자적으로 편집, 검색 등이 가능하고, 변환된 문자는 파일 등의 형태로 데이터베이스에 저장할 수도 있게 된다. 이러한 기계 인코딩은 주로 이미지에서 문자 위치를 찾고, 어떤 문자인지 알아내는 기술인 광학문자인식(OCR; optical character recognition)을 통해 수행될 수 있고, 컴퓨터 등을 이용하여 이미지 기반의 텍스트 문서를 자동으로 감지, 식별 및 인코딩할 수 있다.Meanwhile, the text included in the document image can be converted through encoding. The text converted through encoding can be edited and searched electronically, and the converted text can be stored in a database in the form of a file. This mechanical encoding can be performed mainly through optical character recognition (OCR), a technology that finds the position of a character in an image and finds out what character it is, and automatically detects an image-based text document using a computer, etc. can be identified and encoded.
다만, 종래 기술에 따른 정보 수집 방법은 OCR을 통해 수집된 정보에 대하여 검사자가 인식된 정보에 대하여 이상 유/무를 검수해야만 하는 문제점이 있고, 모든 문서 이미지에 대하여 동일한 OCR 인식 코드를 적용하면 다른 결과가 나오는 문제점이 있어왔다. 따라서, 문서 타이틀이 없이 스캔 내지 촬영된 임의의 문서 이미지에서 인식된 문자들만으로 문서 타입을 결정하고, 문서 타입에 따른 회계 산출 방법을 추천해주는 것에 대한 방안이 마련될 필요가 있다. However, the information collection method according to the prior art has a problem in that the inspector has to inspect the information collected through OCR to determine whether or not there is an abnormality in the recognized information, and when the same OCR recognition code is applied to all document images, different results are obtained. There has been a problem with the Therefore, it is necessary to prepare a method for determining a document type only with characters recognized from a document image scanned or photographed without a document title and recommending an accounting calculation method according to the document type.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 획득된 이미지에 기초하여 문서의 종류를 예측하는 방법을 제공하는데 있다.An object of the present invention to solve the above problems is to provide a method for predicting a document type based on an acquired image.
상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 문서의 종류에 따라 미리 정의된 회계 산출식을 신속하게 결정하여 회계 수행을 보조하는 방법을 제공하는데 있다.Another object of the present invention to solve the above problems is to provide a method for quickly determining a predefined accounting formula according to the type of document and assisting in accounting.
상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 본 문서를 통해 직접적 또는 간접적으로 파악되는 목적들을 추가로 제공할 수 있다.Another object of the present invention for solving the above problems may further provide objects directly or indirectly identified through this document.
다양한 실시 예에 따르면, 인공지능 기반의 OCR 인식을 이용한 회계 관리 서버는, 사용자 단말로부터 문서 이미지를 획득하는 DB 관리부; 획득된 상기 문서 이미지를 스캔하여 문서 이미지들 각각에 포함된 문자 및 숫자를 인식하는 문자 인식부; 획득된 상기 문서 이미지에 대응하는 문서의 문서 타입을 예측하는 문서 타입 예측부; 상기 문자 인식부를 통해 인식된 상기 문자, 상기 숫자 및 예측된 상기 문서 타입에 기초하여 상기 문서 이미지에 대한 회계를 수행하기 위한 회계 산출식을 추측하는 문서 회계 분석부를 포함하고, 상기 문서 타입 예측부는, 미리 학습된 가우시안 혼합 모델을 이용하여, 다수의 문서 이미지들로부터 획득된 학습 데이터들 각각에 대응하는 상기 문서 이미지들을 클러스터링함으로써, 상기 문서 이미지들 각각에 대응하는 클러스터(cluster)를 결정하고, 결정된 클러스터에 부여된 문서 타입을 해당 클러스터에 속하는 문서 이미지에 대응하는 문서의 문서 타입으로 예측하는 문서 타입 예측 모델을 포함할 수 있다.According to various embodiments, an accounting management server using artificial intelligence-based OCR recognition includes a DB management unit that acquires a document image from a user terminal; a character recognizing unit that scans the acquired document images and recognizes letters and numbers included in each of the document images; a document type prediction unit that predicts a document type of a document corresponding to the acquired document image; a document accounting analysis unit for estimating an accounting calculation formula for accounting for the document image based on the character, the number, and the predicted document type recognized through the character recognition unit; A cluster corresponding to each of the document images is determined by clustering the document images corresponding to each of training data obtained from a plurality of document images using a pre-learned Gaussian mixture model, and the determined cluster It may include a document type prediction model that predicts a document type assigned to the document type of a document corresponding to a document image belonging to a corresponding cluster.
다양한 실시 예에 따르면, 상기 문자 인식부는, 상기 문서 이미지를 그레이(gray) 스케일로 변환하고, 그레이 스케일로 변환된 상기 문서 이미지에 대하여 이진화를 실시하되, 상기 문서 이미지에 포함된 픽셀들 각각의 픽셀값을 검출하고, 검출된 상기 픽셀값이 제1 임계값보다 낮은 제1 영역과 상기 제1 임계값보다 높은 값인 제2 임계값보다 높은 제2 영역을 결정하고, 상기 제1 영역의 픽셀값을 상기 제1 임계값과 상기 제2 임계값 간 차이값만큼 더 낮추고, 상기 제2 영역의 픽셀값을 상기 차이값만큼 더 높이는 이미지 보정을 수행할 수 있다.According to various embodiments of the present disclosure, the text recognition unit converts the document image into a gray scale and performs binarization on the document image converted into a gray scale, but each pixel of pixels included in the document image A value is detected, a first area in which the detected pixel value is lower than a first threshold value, and a second area in which the detected pixel value is higher than a second threshold value which is higher than the first threshold value are determined, and the pixel value of the first area is determined. Image correction may be performed by lowering the value by a difference value between the first threshold value and the second threshold value and by increasing the pixel value of the second area by the difference value.
다양한 실시 예에 따르면, 상기 문자 인식부는, 이미지 보정이 수행되어 전처리된 상기 문서 이미지에 기초하여 개별 문자 및 개별 숫자를 검출하고, 검출된 개별 문자들 간 거리를 계산하여 미리 정의된 거리 이하인 개별 문자들을 문자열로 그룹화하고, 검출된 개별 숫자들 간 거리를 계산하여 미리 정의된 거리 이하인 개별 숫자들을 숫자열로 그룹화하고, 상기 DB 관리부에 저장된 회계 항목 리스트와 상기 문자열을 매칭하여, 상기 문자열에 대응하는 회계 항목을 결정할 수 있다.According to various embodiments of the present disclosure, the character recognition unit detects individual characters and individual numbers based on the preprocessed document image after image correction is performed, calculates a distance between the detected individual characters, and calculates a distance between the individual characters that is less than or equal to a predefined distance. Group them into a string, calculate the distance between the detected individual numbers, group individual numbers that are less than a predefined distance into a string of numbers, and match the string with an accounting item list stored in the DB management unit to correspond to the string. Accounting items can be determined.
다양한 실시 예에 따르면, 상기 문자 인식부는, 결정된 상기 회계 항목에 대응하는 숫자열을 결정하되, 상기 미리 결정된 회계 항목들을 검출한 경우, 상기 회계 항목을 기준으로 제1 방향으로 스캔하여 상기 숫자열을 검출하고, 상기 스캔 결과 상기 숫자열이 검출되지 않고 상기 회계 항목과 구별되는 다른 문자열이 검출된 경우, 상기 회계 항목을 기준으로 제2 방향으로 스캔하여 상기 숫자열을 검출하며, 여기서 상기 제1 방향과 상기 제2 방향은 서로 수직한 방향일 수 있다.According to various embodiments of the present disclosure, the character recognition unit determines a sequence of numbers corresponding to the determined accounting item, and scans the sequence of numbers in a first direction based on the accounting item when the predetermined accounting items are detected. and, as a result of the scanning, when the sequence of numbers is not detected and another character string distinguished from the accounting item is detected, the sequence of numbers is detected by scanning in a second direction based on the accounting item, wherein the sequence of numbers is detected in the first direction. and the second direction may be directions perpendicular to each other.
다양한 실시 예에 따르면, 상기 문서 회계 분석부는, 상기 회계 항목과 상기 회계 항목에 대응되는 상기 숫자열에 기초하여 상기 문서 이미지에 대한 회계 처리를 수행하되, 상기 숫자열에 대응하는 금액들이 적용될 회계 산출액의 종류를 결정하고, 상기 금액들이 적용될 회계 산출식에 상기 금액들을 입력하고, 상기 회계 산출식의 출력값에 기초하여 상기 문서 이미지에 대한 회계 처리를 수행할 수 있다.According to various embodiments of the present disclosure, the document accounting analysis unit performs accounting processing on the document image based on the accounting item and the number sequence corresponding to the accounting item, and types of accounting calculation amounts to which amounts corresponding to the number sequence are to be applied. , input the amounts into an accounting formula to which the amounts are applied, and perform accounting processing on the document image based on an output value of the accounting formula.
다양한 실시 예에 따르면, 상기 문서 타입 예측 모델은, 가우시안 혼합 모델 기반으로 동작하는 클러스터링 모델이며, 상기 다수의 문서 이미지들별로 수집되는 학습 데이터들을 이용하여 문자열의 수, 숫자열의 수, 회계 항목의 수, 문서 구성 형식 식별 기호를 포함하는 전처리 학습 데이터를 획득하고, 상기 전처리 학습 데이터에 포함된 지표들 중 적어도 상기 문자열의 수, 상기 숫자열의 수, 상기 회계 항목의 수, 사기 문서 구성 형식 식별 기호 각각을 성분값으로 하는 제1 학습 특징 벡터를 생성하고, 상기 제1 학습 특징 벡터를 이용하여 상기 문서 이미지를 다수의 클러스터들 중 하나로 분류하되, 상기 가우시안 혼합 모델의 K개의 가우시안 분포들 중에서 가우시안 분포 선택함수의 결과값이 가장 높은 가우시안 분포를 선정하고, 선정된 가우시안 분포를 상기 문서 이미지에 대응하는 문서의 문서 타입으로 결정하고, 상기 K는 1보다 큰 자연수일 수 있다.According to various embodiments, the document type prediction model is a clustering model that operates based on a Gaussian mixture model, and uses learning data collected for each of the plurality of document images to determine the number of character strings, number sequences, and accounting items. , obtaining pre-processing learning data including a document configuration format identifier, and at least the number of character strings, the number of numeric sequences, the number of accounting items, and fraudulent document configuration format identifiers among indices included in the preprocessing learning data, respectively. Generating a first learning feature vector having as a component value, classifying the document image into one of a plurality of clusters using the first learning feature vector, selecting a Gaussian distribution among K Gaussian distributions of the Gaussian mixture model A Gaussian distribution having the highest result value of the function is selected, the selected Gaussian distribution is determined as a document type of a document corresponding to the document image, and K may be a natural number greater than 1.
다양한 실시 예에 따르면, 상기 문서 회계 분석부는, 예측된 상기 문서 이미지들 각각에 대응하는 문서 타입 및 상기 학습 데이터들과 대응하는 훈련 입력값 및 상기 회계 산출식을 구성하는 변수들 및 기호들에 관한 특징값들을 훈련 출력값으로 구성되는 훈련 데이터를 이용하여 지도학습(supervised-learning)되고, 딥러닝 기반으로 상기 회계 산출식을 추측하는 회계 산출식 추측 모델을 포함하며, 상기 회계 산출식 추측 모델은 상기 다수의 문서 이미지들을 대상으로 얻어진 문자열의 수, 숫자열의 수, 회계 항목의 수, 문서 타입 식별 기호, 문서 구성 형식 식별 기호 등에 관한 특징값들을 변환하여 얻어지는 제2 학습 특징 벡터를 입력값으로 하고, 상기 회계 산출식을 구성하는 변수들 및 기호들에 관한 특징값들을 변환하여 얻어지는 특징 벡터를 출력값으로 하는 훈련 데이터를 이용하여 미리 지도학습(supervised learning)될 수 있다.According to various embodiments, the document accounting analysis unit may determine a document type corresponding to each of the predicted document images, a training input value corresponding to the learning data, and variables and symbols constituting the accounting formula. and an accounting calculation formula estimation model in which feature values are supervised-learned using training data composed of training output values and the accounting calculation formula is estimated based on deep learning, wherein the accounting calculation formula estimation model includes the accounting calculation formula estimation model. A second learning feature vector obtained by converting feature values related to the number of character strings, the number of numeric strings, the number of accounting items, the document type identification symbol, and the document composition type identification symbol obtained from a plurality of document images as an input value, Supervised learning may be performed in advance using training data having a feature vector obtained by converting feature values of the variables and symbols constituting the accounting formula as an output value.
다양한 실시 예에 따르면, 상기 문자 인식부는, 상기 문서 이미지에 포함된 상기 개별 문자에 대응하는 언어의 종류를 식별하고, 식별된 언어의 종류에 따라, 상기 문자열에 대응하는 회계 항목을 결정하되, 상기 문자열에 포함된 개별 문자들이 제1 언어의 문자인 경우, 상기 개별 문자들 중 개별 문자의 폭과 높이의 합이 미리 설정된 제1 임계 범위 내에 있고, 상기 폭과 높이의 비율이 미리 설정된 제1 비율 내에 있는 개별 문자에 기초하여 상기 문자열에 대응하는 상기 회계 항목을 결정하고, 상기 문자열에 포함된 개별 문자들이 상기 제1 언어와 다른 제2 언어의 문자인 경우, 상기 개별 문자들 중 개별 문자의 폭과 높이의 합이 미리 설정된 제2 임계 범위 내에 있고, 상기 폭과 상기 높이의 비율이 미리 설정된 제2 비율 내에 있는 개별 문자에 기초하여 상기 문자열에 대응하는 상기 회계 항목을 결정하며, 상기 제2 임계 범위는 상기 제1 임계 범위와 다르고, 상기 제2 비율은 상기 제1 비율과 다를 수 있다.According to various embodiments of the present disclosure, the character recognition unit identifies a type of language corresponding to the individual character included in the document image, and determines an accounting item corresponding to the character string according to the type of the identified language. When the individual characters included in the string are characters of the first language, the sum of the width and height of the individual characters is within a preset first critical range, and the ratio of the width and height is a preset first ratio. The accounting item corresponding to the character string is determined based on individual characters in the character string, and when the individual characters included in the character string are characters of a second language different from the first language, the width of each character among the individual characters. determining the accounting item corresponding to the character string based on individual characters in which a sum of the height and the width are within a preset second threshold range, and a ratio of the width and the height is within a preset second threshold range; The range may be different from the first threshold range, and the second ratio may be different from the first ratio.
다양한 실시 예에 따르면, 상기 문자 인식부는, 상기 회계 항목보다 이전에 스캔했던 회계 항목들의 숫자열 검출에 성공한 스캔 방향을 저장하고, 저장된 스캔 방향에 기초하여 상기 스캔 방향의 비율을 결정하고, 이전에 스캔했던 상기 회계 항목들마다 다르게 가중치를 적용하고, 결정된 상기 스캔 방향의 비율 및 상기 가중치에 기초하여 상기 회계 항목에 대응하는 스캔 방향을 결정하되, 이하 수학식에 기초하여 스캔 지수를 산정하고,According to various embodiments of the present disclosure, the character recognition unit stores a scan direction in which the number sequence of accounting items scanned prior to the accounting item has been successfully detected, determines a ratio of the scan direction based on the stored scan direction, and A different weight is applied to each of the scanned accounting items, and a scan direction corresponding to the accounting item is determined based on the determined ratio of the scan direction and the weight, and a scan index is calculated based on the following equation,
상기 수학식에서, S는 상기 스캔 지수, rn은 상기 제1 방향으로 스캔하여 숫자열을 검출한 n번째 회계 항목에 대한 가중치, dm-은 상기 제2 방향으로 스캔하여 숫자열을 검출한 m번째 회계 항목에 대한 가중치를 의미하고, 상기 rn-은 n번째 회계 항목과 기준 회계 항목 간 거리가 짧을수록 커지고, n이 커질수록 커지며, 상기 dm은 m번째 회계 항목과 기준 회계 항목 간 거리가 짧을수록 커지고, m이 커질수록 커지며, 상기 회계 항목 간 거리는 회계 항목을 둘러싸는 바운더리 박스의 중앙점의 좌표를 기준으로 산정되고, 산정된 상기 스캔 지수가 미리 설정된 임계 지수 이상인 경우, 상기 제1 방향으로 먼저 스캔을 시작하고, 산정된 상기 스캔 지수가 미리 설정된 임계 지수보다 작은 경우, 상기 제2 방향으로 먼저 스캔을 시작할 수 있다.In the above equation, S is the scan index, r n is a weight for the n-th accounting item in which the number sequence is detected by scanning in the first direction, d m- is m in which the number sequence is detected by scanning in the second direction Means a weight for the th accounting item, r n- increases as the distance between the n th accounting item and the standard accounting item becomes shorter, and increases as n increases, and d m is the distance between the m th accounting item and the standard accounting item increases as m becomes shorter and increases as m increases, the distance between the accounting items is calculated based on the coordinates of the central point of the boundary box surrounding the accounting items, and when the calculated scan index is greater than or equal to a preset critical index, the first Scanning may be started first in the direction, and when the calculated scan index is smaller than a preset threshold index, scanning may be started first in the second direction.
본 문서에 개시되는 다양한 실시 예들에 따르면, 문서 이미지의 제목이 없어도 문서 이미지 자체를 통해 문서 타입을 알 수 있다.According to various embodiments disclosed in this document, a document type may be known through a document image itself without a title of the document image.
또한, 다양한 실시 예들에 따르면, 문서 이미지의 문서 타입을 라벨링하고 라벨링된 훈련데이터에 기반하여 회계 산출식을 빠르게 도출할 수 있다.Also, according to various embodiments, a document type of a document image may be labeled and an accounting formula may be rapidly derived based on the labeled training data.
이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.In addition to this, various effects identified directly or indirectly through this document may be provided.
도 1은 일 실시 예에 따른 회계 관리 시스템을 도시한 도면이다.
도 2는 회계 관리 서버의 주요 구성 요소를 나타낸 도면이다.
도 3은 클러스터링 모델을 통해 문자 이미지에 대응하는 문서의 문서 타입을 결정하는 것에 관한 도면이다.
도 4는 문서 이미지의 문서 타입이 결정된 경우, 문서 타입을 지시하는 식별 기호를 포함하여 회계 산출식 추측 모델에 입력될 특징 벡터를 생성하고, 이를 통해 문서 이미지에 대응하여 적용될 회계 산출식을 추측하는 것에 관한 도면이다.
도 5는 일 실시 예에 따른 회계 항목에 대응하는 숫자열에 대한 검토를 진행하는 과정을 나타낸 흐름도이다.
도 6은 도 1에 따른 회계 관리 서버의 하드웨어 구성을 나타낸 도면이다.1 is a diagram illustrating an accounting management system according to an embodiment.
Figure 2 is a diagram showing the main components of the accounting management server.
3 is a diagram for determining a document type of a document corresponding to a text image through a clustering model.
4 is a method for generating a feature vector to be input to an accounting formula estimation model including an identification symbol indicating the document type when the document type of a document image is determined, and estimating an accounting formula to be applied in response to the document image through the feature vector. It is a drawing about
5 is a flowchart illustrating a process of reviewing a sequence of numbers corresponding to an accounting item according to an exemplary embodiment.
6 is a diagram showing the hardware configuration of the accounting management server according to FIG. 1 .
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.Since the present invention can make various changes and have various embodiments, specific embodiments will be illustrated in the drawings and described in detail in the detailed description. However, this is not intended to limit the present invention to specific embodiments, and should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention. Like reference numerals have been used for like elements throughout the description of each figure.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.Terms such as first, second, A, and B may be used to describe various components, but the components should not be limited by the terms. These terms are only used for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element, without departing from the scope of the present invention. The terms and/or include any combination of a plurality of related recited items or any of a plurality of related recited items.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.It is understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, but other elements may exist in the middle. It should be. On the other hand, when an element is referred to as “directly connected” or “directly connected” to another element, it should be understood that no other element exists in the middle.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Terms used in this application are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly dictates otherwise. In this application, the terms "include" or "have" are intended to designate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, but one or more other features It should be understood that the presence or addition of numbers, steps, operations, components, parts, or combinations thereof is not precluded.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in the present application, they should not be interpreted in an ideal or excessively formal meaning. don't
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings.
도 1은 일 실시 예에 회계 관리 시스템(10)을 도시한 도면이다. 도 1을 참조하면, 회계 관리 시스템(10)은 회계 관리 서버(100), 사용자 단말(200) 등을 포함할 수 있다. 이하 설명되는 동작들은 회계 관리 서버(100)에 의하여 제어되는 플랫폼(예: 웹 페이지 및/또는 일종의 어플리케이션)을 통해 수행될 수 있다. 1 is a diagram illustrating an
회계 관리 서버(100)는 사용자 단말(200)로부터 문서 이미지를 획득할 수 있고, 획득된 문서 이미지를 판독하여 상기 문서 이미지에 대응하는 문서의 문서 타입을 예측할 수 있다. 회계 관리 서버(100)는 문서 이미지에 대응하는 문서의 문서 타입을 예측한 후, 예측된 문서 타입, 문서 이미지 내에서 검출된 문자 및/또는 숫자에 기초하여 적용시킬 회계 산출식을 결정하고, 결정된 회계 산출식에 회계 항목 및 회계 항목에 대응하는 숫자를 입력하여 회계를 수행할 수 있다.The
사용자 단말(200)은 통신 가능한 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 노트북(notebook), 스마트폰(smart phone), 태블릿 PC(tablet PC), 모바일폰(mobile phone), 스마트 워치(smart watch), 스마트 글래스(smart glass), e-book 리더기, PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 디지털 카메라(digital camera), DMB(digital multimedia broadcasting) 재생기, 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player), 및 PDA(Personal Digital Assistant) 등 일 수 있다.The
회계 관리 서버(100), 사용자 단말(200)은 각각 통신 네트워크(50)에 연결되어, 통신 네트워크(50)를 통해 서로간 데이터를 송수신할 수 있다. 예를 들어, 통신 네트워크(50)는 LAN(Local Area Network), MAN(Metropolitan Area Network), GSM(Global System for Mobile Network), EDGE(Enhanced Data GSM Environment), HSDPA(High Speed Downlink Packet Access), W-CDMA(Wideband Code Division Multiple Access), CDMA(Code Division Multiple Access), TDMA(Time Division Multiple Access), 블루투스(Bluetooth), 지그비(Zigbee), 와이-파이(Wi-Fi), VoIP(Voice over Internet Protocol), LTE Advanced, IEEE802.16m, WirelessMAN-Advanced, HSPA+, 3GPP Long Term Evolution (LTE), Mobile WiMAX(IEEE 802.16e), UMB(formerly EV-DO Rev. C), Flash-OFDM, iBurst and MBWA (IEEE 802.20) systems, HIPERMAN, Beam-Division Multiple Access (BDMA), Wi-MAX(World Interoperability for Microwave Access), 5G 등 다양한 종류의 유선 또는 무선 네트워크가 사용될 수 있다.The
도 2는 회계 관리 서버(100)의 주요 구성 요소를 나타낸 도면이다. 회계 관리 서버(100)는 DB 관리부(101), 문자 인식부(102), 문서 타입 예측부(103), 문서 회계 분석부(104) 등을 포함할 수 있다.Figure 2 is a diagram showing the main components of the accounting management server (100). The
DB 관리부(101)는 사용자 단말(200)로부터 다수의 문서 이미지들을 획득할 수 있다. 상기 문서 이미지들은 네트워크를 통해 접속된 사용자 단말(200) 및/또는 외부 서버로부터 전송된 이미지 및/또는 스캐너 등을 통해 스캐닝된 이미지 등을 포함할 수 있다. DB 관리부(101)는 문자 인식부(102)를 통해서 인식 내지 검출된 문자를 OCR 데이터로써 저장할 수 있다. 예를 들어, DB 관리부(101)는 문서 이미지에서 검출된 문자열 및/또는 숫자열을 OCR 데이터로써 저장할 수 있다.The
DB 관리부(101)는 문서 타입 별로 인식 항목을 저장할 수 있다. 인식 항목은 문서의 종류별로 문서에서 필요한 필수적 내지 중요 항목을 의미할 수 있다. 인식 항목은 국어뿐만 아니라, 다른 나라 언어의 형식으로도 저장될 수 있다. 예를 들어, 임대차 계약서 내에서의 인식 항목은 임대인 성명, 임차인 성명, 임차인의 사업자등록번호, 임차인의 주민등록번호, 임차인 연락처, 보증금, 월 임대료, 월세 입금일, 월 관리비, 월 관리비 입금일, 계약 시작일, 계약 종료일 등에 관한 항목을 포함할 수 있다. 예를 들어, 외주 계약서 내에서의 인식 항목은 상호, 사업자등록번호, 계약 시작일, 계약 종료일, 월 용역 수수료, 납부일자 등에 관한 항목을 포함할 수 있다. 예를 들어, 세금계산서 내에서의 인식 항목은 상호, 사업자등록번호, 작성일자, 공급가액, 세액 등에 관한 항목을 포함할 수 있다. 예를 들어, 간이영수증 내에서의 인식 항목은 상호, 사업자등록번호, 작성일자, 금액 등에 관한 항목을 포함할 수 있다. 예를 들어, 공과금 고지서 내에서의 인식 항목은 공과금 종류, 발급기관, 고지금액, 납부기한, 납부계좌, 납부방법 등에 관한 항목을 포함할 수 있다.The
DB 관리부(101)는 문서 타입 별로 회계 항목을 저장할 수 있다. 회계 항목은 회계 산정에 필요한 항목을 의미하며, 상기 인식 항목들 중 일부일 수 있다. 회계 항목은 국어뿐만 아니라, 다른 나라 언어의 형식으로도 저장될 수 있다. 회계 항목은 특정 숫자 내지 금액과 연관된 항목일 수 있다. 예를 들어, 임대차 계약서 내에서의 회계 항목은 월 임대료, 월세 입금일, 월 관리비, 월 관리비 입금일, 계약 시작일, 계약 종료일 등에 관한 항목을 포함할 수 있다. 예를 들어, 외주 계약서 내에서의 회계 항목은 계약 시작일, 계약 종료일, 월 용역 수수료, 납부일자 등에 관한 항목을 포함할 수 있다. 예를 들어, 세금계산서 내에서의 인식 항목은 공급가액, 세액 등에 관한 항목을 포함할 수 있다. 예를 들어, 영수증 내에서의 회계 항목은 물품별 공급 가액, 부가세 등에 관한 항목을 포함할 수 있다. 예를 들어, 공과금 고지서 내에서의 회계 항목은 고지금액, 납부기한 등에 관한 항목을 포함할 수 있다.The
문자 인식부(102)는 입력된 문서 이미지를 통해 문자 및/또는 숫자 등을 검출하기 위하여 상기 문서 이미지를 보정 및 정규화하여 이미지를 전처리할 수 있다. 예를 들어, 문자 인식부(102)는 상기 문서 이미지를 그레이(gray) 스케일로 변환하고, 문자 인식부(102)는 그레이 스케일로 변환된 상기 문서 이미지에 대하여 이진화를 실시하되, 상기 문서 이미지에 포함된 픽셀들 각각의 픽셀값을 검출하고, 검출된 상기 픽셀값이 미리 설정된 제1 임계값보다 낮은 제1 영역과 상기 제1 임계값보다 높은 값인 미리 설정된 제2 임계값보다 높은 제2 영역을 결정할 수 있다. 문자 인식부(102)는 상기 제1 영역의 픽셀값을 상기 제1 임계값과 상기 제2 임계값 간 차이값만큼 더 낮추고, 상기 제2 영역의 픽셀값을 상기 차이값만큼 더 높이는 이미지 보정을 수행할 수 있다.The
문자 인식부(102)는 이미지 보정이 수행되어 전처리된 상기 문서 이미지에 기초하여 개별 문자 및/또는 개별 숫자를 검출할 수 있다. 예를 들어, 개별 문자는 한글 기준으로 음절 성분을 의미하고, 영어 기준으로는 개별 알파벳을 의미할 수 있다.The
문자 인식부(102)는 개별 문자 및/또는 개별 숫자를 검출하고, 검출된 개별 문자들 간 거리를 계산하여 인접하는 개별 문자들을 문자열로 그룹화할 수 있다. 문자 인식부(102)는 검출된 개별 숫자들 간 거리를 계산하여 인접하는 개별 숫자들을 숫자열로 그룹화할 수 있다. 문자 인식부(102)는 그룹화된 문자열을 유효한 문자열로 등록하고, 그룹화된 숫자열을 유효한 숫자열로 등록할 수 있다. The
문자 인식부(102)는 유효한 문자열 및/또는 숫자열을 포함하는 바운더리 박스를 생성하고, 생성된 바운더리 박스의 네 꼭지점의 좌표를 결정할 수 있다. 문자 인식부(102)는 결정된 상기 바운더리 박스의 네 꼭지점의 좌표에 기초하여 상기 바운더리 박스의 기울어진 각도를 산출할 수 있다. 문자 인식부(102)는 산출된 상기 각도만큼 회전시켜 상기 문자열 및/또는 상기 숫자열을 인식 내지 식별할 수 있다. 다시 말해서, 문자 인식부(102)는 문서 이미지의 판독을 정확히 하기 위하여 기울어진 부분만을 보정하여 문자열 및/또는 숫자열을 인식 내지 식별할 수 있다.The
문자 인식부(102)는 문서 이미지에 포함된 개별 문자에 대응하는 언어의 종류를 식별하고, 식별된 언어의 종류에 따라, 문자열에 대응하는 회계 항목을 결정할 수 있다. 예를 들어, 문자 인식부(102)는 상기 문자열에 포함된 개별 문자들이 제1 언어의 문자인 경우, 검출된 상기 개별 문자 중 개별 문자의 폭과 높이의 합이 미리 설정된 제1 임계 범위 내에 있고, 상기 폭과 높이의 비율이 미리 설정된 제1 비율 내에 있는 개별 문자에 기초하여 상기 문자열에 대응하는 회계 항목을 결정할 수 있다.The
문자 인식부(102)는 검출된 상기 개별 문자가 제1 언어와 다른 제2 언어의 문자인 경우, 검출된 상기 개별 문자 중 개별 문자의 폭과 높이의 합이 미리 설정된 제2 임계 범위 내에 있고, 상기 폭과 상기 높이의 비율이 미리 설정된 제2 비율 내에 있는 개별 문자에 기초하여 상기 문자열에 대응하는 회계 항목을 결정할 수 있다. 상기 제2 임계 범위는 상기 제1 임계 범위와 다르고, 상기 제2 비율은 상기 제1 비율과 다를 수 있다.The
문자 인식부(102)는 회계 관리에 필요한 것으로 미리 결정된 회계 항목들 각각에 대응하는 금액들을 결정할 수 있다. 문자 인식부(102)는 상기 미리 결정된 회계 항목을 검출한 경우, 상기 회계 항목을 기준으로 제1 방향으로 스캔하여 숫자열을 검출하고, 상기 스캔 결과 숫자열이 검출되지 않고 상기 회계 항목과 구별되는 다른 회계 항목이 검출된 경우, 상기 회계 항목을 기준으로 제2 방향으로 스캔하여 숫자열을 검출할 수 있다. 문자 인식부(102)는 검출된 상기 숫자열을 회계 항목에 대응하는 금액으로 결정할 수 있다.The
문자 인식부(102)는 상기 회계 항목보다 먼저 스캔했던 회계 항목에 대응하는 스캔 방향에 기초하여, 상기 회계 항목에 대응하는 스캔 방향을 결정할 수 있다. 문자 인식부(102)는 상기 회계 항목보다 먼저 스캔했던 회계 항목들의 숫자열 검출에 성공한 스캔 방향을 기록하고, 스캔 방향의 비율을 결정할 수 있다. 문자 인식부(102)는 결정된 스캔 방향의 비율에 기초하여 상기 회계 항목에 대응하는 스캔 방향을 결정할 수 있다. 예를 들어, 문자 인식부(102)는 상기 먼저 스캔했던 회계 항목들에서 순서대로 제1 방향, 제2 방향, 제2 방향으로 숫자열 검출에 성공한 경우, 제2 방향으로 스캔했을 때 숫자열을 검출한 비율이 높으므로, 상기 회계 항목에 대응하는 스캔 방향을 제2 방향으로 결정할 수 있다.The
문자 인식부(102)는 단순히 이전 스캔 방향들의 횟수만을 고려하는 것이 아니라, 이전 스캔 방향들(또는, 스캔 방향에 대응하는 회계 항목)마다 다르게 가중치를 두어 상기 회계 항목에 대응하는 스캔 방향을 결정할 수 있다. 현재 회계 항목에 대하여 스캔하려고 할 때, 직전에 스캔했던 회계 항목에 대한 구성이 현재 회계 항목에 대한 구성과 가장 유사할 수 있으므로, 이전 스캔 방향들마다 다르게 가중치가 부여될 수 있다. 현재 회계 항목은 기준 회계 항목으로 지칭될 수 있다.The
문자 인식부(102)는 이전 스캔 방향들에 기초하여 스캔 지수를 산정하고, 산정된 스캔 지수가 미리 설정된 임계 지수 이상인 경우, 제1 방향으로 먼저 스캔을 시작하고, 산정된 상기 스캔 지수가 미리 설정된 임계 지수보다 작은 경우, 제2 방향으로 먼저 스캔을 시작할 수 있다. 이를 통해 회계 항목에 대응하는 숫자열(예: 금액)을 더 효율적이고 빠르게 결정할 수 있는 효과가 있다.The
문자 인식부(102)는 이하 수학식 1에 기초하여 상기 스캔 지수를 산정할 수 있다.The
상기 수학식 1에서, S는 스캔 지수, rn은 제1 방향으로 스캔하여 숫자열을 검출한 n번째 회계 항목에 대한 가중치, dm-은 제2 방향으로 스캔하여 숫자열을 검출한 m번째 회계 항목에 대한 가중치를 의미하고, 상기 rn-은 n번째 회계 항목과 기준 회계 항목 간 거리가 짧을수록 커지고, n이 커질수록 커지며, 상기 dm은 m번째 회계 항목과 기준 회계 항목 간 거리가 짧을수록 커지고, m이 커질수록 커질 수 있다. 상기 회계 항목 간 거리는 회계 항목을 둘러싸는 바운더리 박스의 중앙점의 좌표를 기준으로 산정될 수 있다.In Equation 1, S is the scan index, r n is the weight for the n-th accounting item in which the number sequence is detected by scanning in the first direction, and d m- is the m-th number sequence in which the number sequence is detected by scanning in the second direction. Means a weight for an accounting item, r n- increases as the distance between the n-th accounting item and the standard accounting item becomes shorter, and increases as n increases, and d m is the distance between the m-th accounting item and the standard accounting item The shorter it is, the larger it is, and the larger m is, the larger it can be. The distance between the accounting items may be calculated based on coordinates of a central point of a boundary box surrounding the accounting items.
문서 타입 예측부(103)는 다수의 문서 이미지들을 이용하여 문서 이미지들 각각과 대응하는 문서들의 문서 타입을 예측할 수 있다. 문서 타입 예측부(103)는 사용자 단말(200)로부터 획득된 문서 이미지에 기반하여 문서의 구성 형식을 식별할 수 있다. 문서 타입 예측부(103)는 상기 문서 이미지가 테이블(표) 형식으로 구성되어 있는지, 문서가 테이블 없이 목차 형식으로 구성되어 있는지, 문서가 레터(편지) 형식으로 구성되어 있는지 등을 식별할 수 있다. 문서 타입 예측부(103)는 문서 이미지 및/또는 문서 이미지 내에서 검출된 문자/숫자, 상기 문자/숫자의 위치, 문서의 구성 형식 등에 기초하여 상기 문서의 문서 타입을 예측할 수 있다. 예를 들어, 문서 타입은 임대차 계약서, 외주 계약서, 세금 계산서, 영수증, 간이 영수증, 청구서, 공과금 고지서, 거래 명세서 등을 포함할 수 있다. 문서 타입 예측부(103)를 통해 문서 이미지에 대응하는 문서의 문서 타입을 예측하는 경우, 문서 타입을 사용자가 직접 입력하지 않아도 되며, 문서 타입이 결정된 상태에서 문서에 따른 문서 회계 분석이 진행되므로 더 정확한 회계 처리가 가능하다.The document
문서 타입 예측부(103)는 문서 이미지에 따른 학습 데이터에 기초하여 문서 이미지 대응하는 문서의 문서 타입을 예측할 수 있다. 문서 타입 예측부(103)는 문서 타입 예측 모델(예: 클러스터링 모델)을 이용하여 문서 이미지와 대응하는 클러스터를 결정하고, 결정된 클러스터에 부여된 문서 타입을 상기 문서 이미지에 대응하는 문서의 문서 타입으로 예측할 수 있다. 상기 클러스터링 모델은 머신러닝 기반의 가우시안 혼합 모델을 이용하여 구현되므로 클러스터링 모델을 통해 라벨링된 출력값을 회계 산출식 추측 모델에 사용함으로 문서 이미지에 따른 회계 산출식 추측 정확도가 비교적 정확하게 구현될 수 있다.The document
문서 회계 분석부(104)는 문서 이미지 내에서 결정된 회계 항목과 상기 회계 항목에 대응되는 숫자열에 기초하여 상기 문서 이미지에 대한 회계 처리를 수행할 수 있다.The document
문서 회계 분석부(104)는 상기 숫자열에 대응하는 금액들이 적용될 회계 산출액의 종류를 결정할 수 있다. 문서 회계 분석부(104)는 상기 금액들이 적용될 회계 산출식에 상기 금액들을 입력할 수 있다. 문서 회계 분석부(104)는 상기 회계 산출식의 출력값에 기초하여 상기 문서 이미지에 대한 회계를 수행할 수 있다.The document
도 3은 클러스터링 모델을 통해 문자 이미지에 대응하는 문서의 문서 타입을 결정하는 것에 관한 도면이다.3 is a diagram for determining a document type of a document corresponding to a text image through a clustering model.
문서 타입 예측 모델은, 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 기반으로 동작하는 클러스터링 모델을 포함할 수 있다. 클러스터링 모델은 가우시안 혼합 모델(GMM)을 소프트웨어 상으로 구현한 일종의 소스코드 또는 소스코드의 동작 프로그램에 해당할 수 있다. 각 문서 이미지마다 검출된 회계 항목의 종류, 회계 항목의 수 등이 상이하기 때문에, 특정 회계 항목이 포함되어 있다고 하더라도 동일한 문서 타입이 아닐 수 있다. 예를 들어, 문서 이미지에 계약금이라는 회계 항목이 동일하게 포함되어 있다고 하더라도, 계약금이라는 회계 항목을 포함하는 문서의 종류는 엄청나게 다양할 수 있다. 따라서, 문서 이미지마다 포함된 회계 항목의 종류 및 회계 항목의 수 등에 기초하여 문서 타입을 예측할 필요가 있다.The document type prediction model may include a clustering model that operates based on a Gaussian Mixture Model (GMM). The clustering model may correspond to a kind of source code that implements a Gaussian Mixture Model (GMM) in software or an operation program of the source code. Since the types of accounting items and the number of accounting items detected are different for each document image, even if a specific accounting item is included, it may not be the same document type. For example, even if the document image includes the same accounting item called down payment, the types of documents including the accounting item called down payment can be extremely diverse. Therefore, it is necessary to predict the document type based on the type and number of accounting items included in each document image.
본 발명의 일 실시예에서는 이처럼 문서 이미지마다 문서의 타입이 상이한 점을 고려하여, 문서 타입에 따라 가장 적합한 회계 산출식을 추측하고, 추측된 회계 산출식에 기반하여 회계 산정을 할 수 있도록, 문서 이미지들을 클러스터링하여 다수의 클러스터들(clusters)을 구성하고, 구성된 클러스터들 각각에 대응하는 문서 타입을 결정한다. 여기서, 문서 타입은 문서 이미지가 속한 클러스터마다 개별적으로 부여되는 일종의 식별 기호로서 예를 들어, 1, 2, 3 등과 같이 우열 없이 결정되는 식별 번호로 표현되거나 그밖에 다양한 형태의 고유 식별 기호로 표현될 수 있다.In an embodiment of the present invention, in consideration of the fact that the document type is different for each document image, the most suitable accounting formula is estimated according to the document type, and the accounting calculation is performed based on the estimated accounting formula. A plurality of clusters are formed by clustering the images, and a document type corresponding to each of the formed clusters is determined. Here, the document type is a kind of identification symbol individually assigned to each cluster to which the document image belongs, and may be expressed as an identification number determined without superiority or inferiority, such as 1, 2, 3, etc., or may be expressed in various types of unique identification symbols. there is.
클러스터링을 통해 문서 이미지들 각각에 대응하는 문서 타입이 결정되면, 문서 회계 분석부(104)는, 문서 이미지들에 대한 학습 데이터들을 문서 타입에 따라 분류하고 전처리함으로써 회계 산출식 추측 모델에 입력될 벡터에 관한 값들을 결정할 수 있다.When the document type corresponding to each of the document images is determined through clustering, the document
클러스터링 모델은 다수의 문서 이미지별로 수집되는 학습 데이터들을 이용하여 학습 특징 벡터를 생성할 수 있다. 예를 들어, 클러스터링 모델은, 문서 이미지별로 수집되는 학습 데이터들을 이용하여 문자열의 수, 숫자열의 수, 회계 항목의 수, 문서 구성 형식 식별 기호를 포함하는 전처리 학습 데이터를 획득할 수 있다. 클러스터링 모델은 획득된 전처리 학습 데이터에 포함된 지표들 중 적어도 일부를 이용하여 사용자에 대응하는 제1 학습 특징 벡터를 생성할 수 있다. 예를 들어, 클러스터링 모델은, 문서 이미지를 통해 검출 내지 인식된 문자열의 수, 숫자열의 수, 회계 항목의 수, 문서 구성 형식 식별 기호 각각을 성분값으로 하는 제1 학습 특징 벡터를 생성할 수 있다.The clustering model may generate a learning feature vector using training data collected for each document image. For example, the clustering model may obtain pre-processing learning data including the number of character strings, the number of numeric strings, the number of accounting items, and the document configuration format identification symbol using training data collected for each document image. The clustering model may generate a first learning feature vector corresponding to a user by using at least some of indicators included in the obtained preprocessing learning data. For example, the clustering model may generate a first learning feature vector having each of the number of character strings detected or recognized through a document image, the number of numeric strings, the number of accounting items, and the document composition type identification symbol as component values. .
클러스터링 모델은 문서 이미지들 각각의 제1 학습 특징 벡터를 이용하여 문서 이미지들 각각을 다수의 클러스터들 중 하나로 분류(classify)할 수 있다. 예를 들어, 가우시안 혼합 모델(GMM)의 경우, 미리 지정된 K(K는 1보다 큰 자연수)개의 가우시안 분포들 각각이 클러스터와 대응하며. 문서 이미지들을 K개의 가우시안 분포들 중 하나로 분류하도록 동작할 수 있다.The clustering model may classify each of the document images into one of a plurality of clusters using the first training feature vector of each of the document images. For example, in the case of a Gaussian Mixture Model (GMM), each of a predetermined K (K is a natural number greater than 1) Gaussian distributions corresponds to a cluster. It may operate to classify document images into one of K Gaussian distributions.
구체적으로, 클러스터링 모델의 경우, 베이즈 정리(Bayes' theorem)를 이용하여 K개의 가우시안 분포들 중에서 이하 수학식 2에 따른 가우시안 분포 선택함수(γ)의 결과값이 가장 높은 가우시안 분포를 선정하고, 선정된 가우시안 분포를 해당 문서 이미지에 대응하는 문서의 문서 타입으로 결정할 수 있다.Specifically, in the case of the clustering model, a Gaussian distribution having the highest result value of the Gaussian distribution selection function (γ) according to Equation 2 below is selected among K Gaussian distributions using Bayes' theorem, The selected Gaussian distribution may be determined as a document type of a document corresponding to a corresponding document image.
상기 수학식 2에서 (γ)는 선택함수이고, xn은 n번째 문서 이미지에 따른 제1 학습 특징 벡터이고, znk는 제1 학습 특징 벡터가 주어졌을 때 가우시안 혼합 모델에서 k(k는 1과 K 사이의 자연수)번째 가우시안 분포가 선택되면 1이고, 아니면 0의 값을 갖는 2진 변수이다. 또한 수학식 2에서 μ와 Σ는 가우시안 혼합 모델에 따른 파라미터로서 미리 가우시안 혼합 모델에 대한 학습 과정을 통해 확정되는 값이다. 가우시안 혼합 모델에 따른 파라미터를 결정하기 위한 학습 과정에 대해서는 Christopher Bishop의 Pattern Recognition and Machine Learning, 2008.03.18 을 참조하면 이해할 수 있으므로 구체적인 설명은 생략한다.In Equation 2, (γ) is a selection function, x n is the first learning feature vector according to the nth document image, and z nk is k in the Gaussian mixture model when the first learning feature vector is given (k is 1 and K)th Gaussian distribution is selected and is 1, otherwise it is a binary variable with a value of 0. Also, μ and Σ in Equation 2 are parameters according to the Gaussian mixture model, and are values determined through a learning process for the Gaussian mixture model in advance. The learning process for determining the parameters according to the Gaussian mixture model can be understood by referring to Christopher Bishop's Pattern Recognition and Machine Learning, 2008.03.18, so a detailed description is omitted.
도 4는 문서 이미지의 문서 타입이 결정된 경우, 문서 타입을 지시하는 식별 기호를 포함하여 회계 산출식 추측 모델에 입력될 특징 벡터를 생성하고, 이를 통해 문서 이미지에 대응하여 적용될 회계 산출식을 추측하는 것에 관한 도면이다.4 is a method for generating a feature vector to be input to an accounting formula estimation model including an identification symbol indicating the document type when the document type of a document image is determined, and estimating an accounting formula to be applied in response to the document image through the feature vector. It is a drawing about
문서 회계 분석부(104)는 회계 산출식 추측 모델을 이용하여, 상기 회계 산출식을 결정 내지 추측할 수 있다. 상기 회계 산출식 추측 모델은 다수의 문서 이미지들을 대상으로 얻어진 문자열의 수, 숫자열의 수, 회계 항목의 수, 문서 타입, 문서 구성 형식 식별 기호 등에 관한 특징값들을 변환하여 얻어지는 제2 학습 특징 벡터를 입력값으로 하고, 상기 회계 산출식을 구성하는 변수들 및 기호들에 관한 특징값들을 변환하여 얻어지는 특징 벡터를 출력값으로 하는 훈련 데이터를 이용하여 미리 지도학습(supervised learning)될 수 있다.The document
문서 회계 분석부(104)는 지도학습된 상기 회계 산출식 추측 모델에 상기 문서 이미지를 대상으로 얻어진 문자열의 수, 숫자열의 수, 회계 항목의 수, 문서 타입 식별 기호, 문서 구성 형식 식별 기호 등에 관한 특징값들을 입력 벡터로 변환하여 상기 회계 산출식 추측 모델에 입력하고, 상기 회계 산출식 추측 모델의 출력으로 얻어지는 출력 벡터를 변환하여 회계 산출식을 구성하는 변수들 및 기호들에 관한 특징값들을 획득하고, 상기 변수들 및 기호들에 관한 특징값들을 이용하여 상기 회계 산출식을 추측할 수 있다.The document
다시 말해서, 회계 산출식 추측 모델은, 입력받은 문서 이미지 및/또는 문서의 구성 형식, 문서 타입, 상기 문서 이미지 및/또는 문서에 포함된 회계 항목의 수, 문자열의 수, 숫자열의 수, 회계 항목의 위치를 지시하는 좌표값 등을 포함하는 학습 데이터의 특성값을 입력값으로 하고, 상기 문서 이미지의 문서 타입을 지시하는 식별 기호를 출력값으로 하는 훈련 데이터(training data)를 이용하여 미리 정의된 손실함수의 결과값이 최소화되도록 지도학습될 수 있다.In other words, the accounting calculation formula estimation model, the input document image and / or document composition format, document type, the number of accounting items included in the document image and / or document, the number of character strings, the number of numeric strings, and accounting items A predefined loss using training data that takes as input values characteristic values of training data including coordinate values indicating the location of , and outputs identification symbols indicating the document type of the document image. It can be supervised so that the output value of the function is minimized.
예를 들어, 상기 구성 형식은 테이블 형식, 레터 형식, 목차 형식 등을 포함할 수 있고, 회계 항목은, 수치 내지 금액과 연관된 항목인 사업자등록번호, 보증금, 월 임대료, 계약 시작일, 계약 종료일, 월 용역 수수료, 납부 일자, 공급가액, 세액 등에 관한 항목을 포함할 수 있다. 상기 회계 항목의 위치를 지시하는 좌표값은 상기 회계 항목을 포함하는 바운더리 박스의 중앙점에 대응하는 좌표값(예: 픽셀 위치값)을 의미할 수 있다.For example, the configuration format may include a table format, a letter format, a table of contents format, and the like, and the accounting item is a business registration number, deposit, monthly rent, contract start date, contract end date, and month Items such as service fee, payment date, supply value, tax amount, etc. can be included. The coordinate value indicating the position of the accounting item may mean a coordinate value (eg, a pixel position value) corresponding to a central point of a boundary box including the accounting item.
딥러닝 기반의 회계 산출식 추측 모델은, 훈련 데이터를 구성하는 훈련 입력값으로 문서 이미지별 제2 학습 특징 벡터들을 순차적으로 입력받았을 때, 회계 산출식 추측 모델의 출력값으로 얻어지는 문서 타입을 훈련 출력값과 서로 비교하고, 비교 결과에 따라 회계 산출식 추측 모델을 구성하는 파라미터들(parameters)을 조정(tuning)하는 방식으로 지도학습된다. 구체적으로, 딥러닝 기반의 회계 산출식 추측 모델은, 회계 산출식 추측 모델의 출력값으로 얻어지는 문서 타입을 지시하는 출력벡터와 훈련출력값에 따른 문서 타입을 지시하는 훈련출력벡터를 이용하여 미리 정의된 손실함수(loss function)에 따라 산출하고, 산출된 손실함수의 결과값이 최소화되도록 회계 산출식 추측 모델을 구성하는 파라미터들을 조정할 수 있다. 이때, 손실함수는 크로스 엔트로피(Cross Entropy) 함수일 수 있다.The deep learning-based accounting formula estimation model, when the second learning feature vectors for each document image are sequentially input as training input values constituting the training data, the document type obtained as the output value of the accounting calculation estimation model is combined with the training output value. It is supervised learning by comparing each other and tuning the parameters constituting the accounting formula estimation model according to the comparison result. Specifically, the deep learning-based accounting formula estimation model uses a predefined loss using an output vector indicating the document type obtained as an output value of the accounting formula estimation model and a training output vector indicating the document type according to the training output value. It is calculated according to a loss function, and parameters constituting an accounting formula estimation model may be adjusted so that a resultant value of the calculated loss function is minimized. In this case, the loss function may be a cross entropy function.
회계 산출식 추측 모델은, 제2 학습 특징 벡터(X)를 입력받고, 입력받은 제2 학습 특징 벡터의 성분값 개수와 동일한 개수(N)의 입력 노드들로 구성되는 입력층, 입력층으로부터 전달받은 출력값들을 이용하여 산출된 출력 벡터(Y`)를 출력층에 전달하는 은닉층, 및 출력 벡터(Y`)에 활성화 함수를 적용하여 출력 벡터(Y`)에 대응하는 확률(p)을 결정하고, 결정된 확률(p)이 가장 높은 출력 벡터(Y`)를 출력하는 출력층을 포함할 수 있다. 본 발명에서 회계 산출식 추측 모델을 구성하는 노드들 각각은 본 발명이 속하는 기술분야에서 흔히 사용하는 표현인 뉴런(neuron)이라는 용어로도 혼용하여 지칭될 수 있다.The accounting formula estimation model receives a second learning feature vector (X), and is transmitted from an input layer composed of input nodes of the same number (N) as the number of component values of the second learning feature vector input, and the input layer. Determine the probability (p) corresponding to the output vector (Y`) by applying an activation function to the hidden layer and the output vector (Y`) that delivers the output vector (Y`) calculated using the received output values to the output layer, An output layer outputting an output vector Y′ having the highest determined probability p may be included. In the present invention, each of the nodes constituting the accounting formula estimation model may be interchangeably referred to as a neuron, which is an expression commonly used in the technical field to which the present invention belongs.
구체적으로, 회계 산출식 추측 모델은, 훈련 입력값으로 제공된 제2 학습 특징 벡터(X)를 입력받으면, 은닉층의 출력으로서 획득되는 출력 벡터(Y`)와 훈련 출력값으로 제공받은 문서 타입을 지시하는 훈련출력벡터(Y)를 사용하여 손실함수(loss function)을 연산하고, 연산된 손실함수의 결과값이 최소화되도록 지도학습된다. Specifically, the accounting formula guess model receives the second learning feature vector (X) provided as a training input value, the output vector (Y`) obtained as an output of the hidden layer and the document type provided as the training output value Indicating A loss function is calculated using the training output vector (Y), and supervised learning is performed so that the resulting value of the calculated loss function is minimized.
예를 들어, 손실 함수(H(Y,Y`))는, 크로스 엔트로피(Cross Entropy) 함수일 수 있다. 출력 벡터(Y`)와 훈련출력벡터(Y) 사이의 크로스 엔트로피(H(Y,Y`))는 이하 수학식 3과 같이 정의될 수 있다.For example, the loss function H(Y,Y′) may be a cross entropy function. The cross entropy (H(Y,Y`)) between the output vector (Y`) and the training output vector (Y) can be defined as in
상기 수학식 3에서 Ym은 훈련출력벡터(Y)의 m(m은 1 이상의 자연수)번째 성분이고, Y`m은 출력 벡터(Y`)의 m번째 성분일 수 있다.In
도 5는 일 실시 예에 따른 회계 항목에 대응하는 숫자열에 대한 검토를 진행하는 과정을 나타낸 흐름도이다.5 is a flowchart illustrating a process of reviewing a sequence of numbers corresponding to an accounting item according to an exemplary embodiment.
DB 관리부(101)는 촬영된 문서 이미지를 획득하고, 획득된 문서 이미지를 저장할 수 있다(S510).The
문자 인식부(102)는 문서 이미지에 포함된 문자를 인공지능 기반의 OCR을 이용하여 인식할 수 있다(S520). 문자 인식부(102)는 문서 이미지 내에서 문자열, 및 숫자열을 검출하고, 검출된 문자열 및 숫자열에 기초하여 회계 항목을 식별할 수 있다. 문자 인식부(102)는 회계 항목 별로 회계 항목을 포함하도록 바운더리 박스를 생성하고, 바운더리 박스의 좌표값을 기초로 회계 항목의 위치를 인식할 수 있다.The
문자 인식부(102)는 항목 허용값 biz rule에 기반하여 인식 항목(예: 회계 항목) 위치를 인식할 수 있다(S530). 문자 인식부(102)는 인식 항목(예: 회계 항목)에 대응하는 항목값(예: 숫자열, 금액)을 인식할 수 있다(S540).The
문서 회계 분석부(104)는 사용자 단말(200)에 촬영된 문서 이미지에 포함된 회계 항목별 금액인 제1 금액과 문자 인식부(102)를 통해서 인식된 회계 항목별 금액인 제2 금액이 일치하는지 확인 요청할 수 있다(S550).The document
S550에 따라 사용자가 상기 제1 금액과 상기 제2 금액이 다른 오류를 발견한 경우, 문서 회계 분석부(104)는 사용자 단말(200)로부터 획득된 보정 사항에 관한 정보에 기초하여 수정이 필요한 항목에 대하여 항목값을 수정할 수 있다(S560).If the user finds an error in which the first amount and the second amount are different in step S550, the document
문서 회계 분석부(104)는 사용자 단말(200)로부터 상기 제1 금액과 상기 제2 금액이 일치한다는 답변 신호를 획득한 경우, 항목값을 DB 관리부(101)에 저장할 수 있다(S570).When the document
도 6은 도 1에 따른 회계 관리 서버(100)의 하드웨어 구성을 나타낸 도면이다.FIG. 6 is a diagram showing the hardware configuration of the
도 6을 참조하면, 회계 관리 서버(100)는 적어도 하나의 프로세서(110) 및 상기 적어도 하나의 프로세서(110)가 적어도 하나의 동작(operation)을 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory)를 포함할 수 있다.Referring to FIG. 6, the
상기 적어도 하나의 동작은, 전술한 회계 관리 서버(100)의 동작이나 기능 중 적어도 일부를 포함하고 명령어들 형태로 구현되어 프로세서(110)에 의하여 수행될 수 있다.The at least one operation may include at least some of the above-described operations or functions of the
여기서 적어도 하나의 프로세서(110)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예들에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(120) 및 저장 장치(160) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(120)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중 하나일 수 있고, 저장 장치(160)는, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD), 솔리드 스테이트 드라이브(SSD), 또는 각종 메모리 카드(예를 들어, micro SD 카드) 등일 수 있다.Here, the at least one
또한, 회계 관리 서버(100)는 무선 네트워크를 통해 통신을 수행하는 송수신 장치(transceiver)(130)를 포함할 수 있다. 또한, 서버(100)는 입력 인터페이스 장치(140), 출력 인터페이스 장치(150), 저장 장치(160) 등을 더 포함할 수 있다. 회계 관리 서버(100)에 포함된 각각의 구성 요소들은 버스(bus)(170)에 의해 연결되어 서로 통신을 수행할 수 있다. 도 6에서는 회계 관리 서버(100)를 예로 들어 설명하였으나, 이에 한정되는 것은 아니다. 예를 들어, 복수 개의 사용자 단말들은 도 6에 따른 구성요소를 포함할 수 있다.In addition, the
본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.The methods according to the present invention may be implemented in the form of program instructions that can be executed by various computer means and recorded on a computer readable medium. Computer readable media may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on a computer readable medium may be specially designed and configured for the present invention or may be known and usable to those skilled in computer software.
컴퓨터 판독 가능 매체의 예에는 롬(ROM), 램(RAM), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Examples of computer readable media may include hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions may include not only machine language codes generated by a compiler but also high-level language codes that can be executed by a computer using an interpreter and the like. The hardware device described above may be configured to operate with at least one software module to perform the operations of the present invention, and vice versa.
또한, 상술한 방법 또는 장치는 그 구성이나 기능의 전부 또는 일부가 결합되어 구현되거나, 분리되어 구현될 수 있다.In addition, the above-described method or device may be implemented by combining all or some of its components or functions, or may be implemented separately.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although the above has been described with reference to preferred embodiments of the present invention, those skilled in the art will variously modify and change the present invention within the scope not departing from the spirit and scope of the present invention described in the claims below. You will understand that it can be done.
100: 회계 관리 서버 200: 사용자 단말100: accounting management server 200: user terminal
Claims (5)
사용자 단말로부터 문서 이미지를 획득하는 DB 관리부;
획득된 상기 문서 이미지를 스캔하여 문서 이미지들 각각에 포함된 문자 및 숫자를 인식하는 문자 인식부;
획득된 상기 문서 이미지에 대응하는 문서의 문서 타입을 예측하는 문서 타입 예측부;
상기 문자 인식부를 통해 인식된 상기 문자, 상기 숫자 및 예측된 상기 문서 타입에 기초하여 상기 문서 이미지에 대한 회계를 수행하기 위한 회계 산출식을 추측하는 문서 회계 분석부를 포함하고,
상기 문서 타입 예측부는,
미리 학습된 가우시안 혼합 모델을 이용하여, 다수의 문서 이미지들로부터 획득된 학습 데이터들 각각에 대응하는 상기 문서 이미지들을 클러스터링함으로써, 상기 문서 이미지들 각각에 대응하는 클러스터(cluster)를 결정하고, 결정된 클러스터에 부여된 문서 타입을 해당 클러스터에 속하는 문서 이미지에 대응하는 문서의 문서 타입으로 예측하는 문서 타입 예측 모델을 포함하고,
상기 문자 인식부는,
상기 문서 이미지를 그레이(gray) 스케일로 변환하고,
그레이 스케일로 변환된 상기 문서 이미지에 대하여 이진화를 실시하되, 상기 문서 이미지에 포함된 픽셀들 각각의 픽셀값을 검출하고, 검출된 상기 픽셀값이 제1 임계값보다 낮은 제1 영역과 상기 제1 임계값보다 높은 값인 제2 임계값보다 높은 제2 영역을 결정하고,
상기 제1 영역의 픽셀값을 상기 제1 임계값과 상기 제2 임계값 간 차이값만큼 더 낮추고, 상기 제2 영역의 픽셀값을 상기 차이값만큼 더 높이는 이미지 보정을 수행하는, 회계 관리 서버.In the accounting management server using artificial intelligence-based OCR recognition,
DB management unit for obtaining a document image from the user terminal;
a character recognizing unit that scans the acquired document images and recognizes letters and numbers included in each of the document images;
a document type prediction unit that predicts a document type of a document corresponding to the acquired document image;
a document accounting analyzer for estimating an accounting calculation formula for accounting for the document image based on the character, the number, and the predicted document type recognized through the character recognition unit;
The document type prediction unit,
A cluster corresponding to each of the document images is determined by clustering the document images corresponding to each of training data obtained from a plurality of document images using a pre-learned Gaussian mixture model, and the determined cluster A document type prediction model predicting a document type assigned to a document type corresponding to a document image belonging to a corresponding cluster;
The text recognition unit,
Converting the document image to gray scale;
Binarization is performed on the document image converted to gray scale, a pixel value of each of pixels included in the document image is detected, and a first area in which the detected pixel value is lower than a first threshold value and the first Determining a second region higher than a second threshold value that is higher than the threshold value;
and performs image correction by lowering a pixel value of the first area by a difference value between the first threshold value and the second threshold value and by increasing a pixel value of the second area by the difference value.
상기 문자 인식부는,
이미지 보정이 수행되어 전처리된 상기 문서 이미지에 기초하여 개별 문자 및 개별 숫자를 검출하고,
검출된 개별 문자들 간 거리를 계산하여 미리 정의된 거리 이하인 개별 문자들을 문자열로 그룹화하고, 검출된 개별 숫자들 간 거리를 계산하여 미리 정의된 거리 이하인 개별 숫자들을 숫자열로 그룹화하고,
상기 DB 관리부에 저장된 회계 항목 리스트와 상기 문자열을 매칭하여, 상기 문자열에 대응하는 회계 항목을 결정하는, 회계 관리 서버.In claim 1,
The text recognition unit,
Image correction is performed to detect individual characters and individual numbers based on the preprocessed document image;
By calculating the distance between the detected individual characters, individual characters that are less than a predefined distance are grouped into a string, and the individual numbers that are less than the predefined distance are grouped into a number string by calculating the distance between the detected individual numbers,
Accounting management server for determining an accounting item corresponding to the string by matching the string with the accounting item list stored in the DB management unit.
상기 문자 인식부는,
결정된 상기 회계 항목에 대응하는 숫자열을 결정하되,
미리 결정된 회계 항목들을 검출한 경우, 상기 회계 항목을 기준으로 제1 방향으로 스캔하여 상기 숫자열을 검출하고,
상기 스캔 결과 상기 숫자열이 검출되지 않고 상기 회계 항목과 구별되는 다른 문자열이 검출된 경우, 상기 회계 항목을 기준으로 제2 방향으로 스캔하여 상기 숫자열을 검출하며, 여기서 상기 제1 방향과 상기 제2 방향은 서로 수직한 방향인, 회계 관리 서버.In claim 3,
The text recognition unit,
Determine a sequence of numbers corresponding to the determined accounting item,
When predetermined accounting items are detected, detecting the sequence of numbers by scanning in a first direction based on the accounting items;
As a result of the scanning, when the number sequence is not detected and another character string distinguished from the accounting item is detected, the number sequence is detected by scanning in a second direction based on the accounting item, wherein the number sequence is detected in the first direction and the first direction. Accounting server, where the two directions are perpendicular to each other.
상기 문서 회계 분석부는,
상기 회계 항목과 상기 회계 항목에 대응되는 상기 숫자열에 기초하여 상기 문서 이미지에 대한 회계 처리를 수행하되,
상기 숫자열에 대응하는 금액들이 적용될 회계 산출액의 종류를 결정하고,
상기 금액들이 적용될 회계 산출식에 상기 금액들을 입력하고, 상기 회계 산출식의 출력값에 기초하여 상기 문서 이미지에 대한 회계 처리를 수행하는, 회계 관리 서버.
In claim 4,
The document accounting analysis unit,
Perform accounting processing on the document image based on the accounting item and the sequence of numbers corresponding to the accounting item;
Determine the type of accounting calculation to which amounts corresponding to the sequence of numbers will be applied;
and inputting the amounts into an accounting formula to which the amounts are applied, and performing accounting processing on the document image based on an output value of the accounting formula.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220032222A KR102507534B1 (en) | 2022-03-15 | 2022-03-15 | Method and apparatus for accounting management using ocr recognition based on artificial intelligence |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220032222A KR102507534B1 (en) | 2022-03-15 | 2022-03-15 | Method and apparatus for accounting management using ocr recognition based on artificial intelligence |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102507534B1 true KR102507534B1 (en) | 2023-03-08 |
Family
ID=85508416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220032222A KR102507534B1 (en) | 2022-03-15 | 2022-03-15 | Method and apparatus for accounting management using ocr recognition based on artificial intelligence |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102507534B1 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130073709A (en) * | 2011-12-23 | 2013-07-03 | 주식회사 케이티 | Method and apparatus of recognizing business card using image and voice information |
KR20140068505A (en) * | 2012-11-28 | 2014-06-09 | (주)유비쿼터스통신 | Apparatus for calculating automatically accounting document |
KR20150099116A (en) * | 2014-02-21 | 2015-08-31 | 엘지전자 주식회사 | Method for recognizing a color character using optical character recognition and apparatus thereof |
KR20180057262A (en) * | 2016-11-22 | 2018-05-30 | 노은경 | Accounting system using a receipt |
KR102149050B1 (en) * | 2020-04-24 | 2020-08-28 | 주식회사 애자일소다 | System and method for analyzing document using artificial intelligence based on ocr |
-
2022
- 2022-03-15 KR KR1020220032222A patent/KR102507534B1/en active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130073709A (en) * | 2011-12-23 | 2013-07-03 | 주식회사 케이티 | Method and apparatus of recognizing business card using image and voice information |
KR20140068505A (en) * | 2012-11-28 | 2014-06-09 | (주)유비쿼터스통신 | Apparatus for calculating automatically accounting document |
KR20150099116A (en) * | 2014-02-21 | 2015-08-31 | 엘지전자 주식회사 | Method for recognizing a color character using optical character recognition and apparatus thereof |
KR20180057262A (en) * | 2016-11-22 | 2018-05-30 | 노은경 | Accounting system using a receipt |
KR102149050B1 (en) * | 2020-04-24 | 2020-08-28 | 주식회사 애자일소다 | System and method for analyzing document using artificial intelligence based on ocr |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11455525B2 (en) | Method and apparatus of open set recognition and a computer readable storage medium | |
US11170248B2 (en) | Video capture in data capture scenario | |
US10867171B1 (en) | Systems and methods for machine learning based content extraction from document images | |
US11663817B2 (en) | Automated signature extraction and verification | |
Shanker et al. | Off-line signature verification using DTW | |
CN111626124B (en) | OCR image sample generation and printing experience verification method, device, equipment and medium | |
AU2019419888A1 (en) | System and method for information extraction with character level features | |
US20240221004A1 (en) | Fraud detection via automated handwriting clustering | |
EP3918512A1 (en) | System and method for spatial encoding and feature generators for enhancing information extraction | |
Akinbade et al. | An adaptive thresholding algorithm-based optical character recognition system for information extraction in complex images | |
CN114140649A (en) | Bill classification method, bill classification device, electronic apparatus, and storage medium | |
CA3186697A1 (en) | Classifying pharmacovigilance documents using image analysis | |
CN113642569A (en) | Unstructured data document processing method and related equipment | |
Arslan | End to end invoice processing application based on key fields extraction | |
Kumar Rai et al. | Medical prescription and report analyzer | |
Rani et al. | 2d morphable feature space for handwritten character recognition | |
KR102507534B1 (en) | Method and apparatus for accounting management using ocr recognition based on artificial intelligence | |
WO2022156088A1 (en) | Fingerprint signature generation method and apparatus, and electronic device and computer storage medium | |
US11699297B2 (en) | Image analysis based document processing for inference of key-value pairs in non-fixed digital documents | |
Ren et al. | A transformer-based decoupled attention network for text recognition in shopping receipt images | |
CN114625872A (en) | Risk auditing method, system and equipment based on global pointer and storage medium | |
CN111027325B (en) | Model generation method, entity identification device and electronic equipment | |
Banerjee et al. | Quote examiner: verifying quoted images using web-based text similarity | |
Kotwal et al. | Android app for meter reading | |
Ramakrishnan et al. | KannadaPado: Mobile-based recognition and cross-lingual transcription of camera captured text in Kannada |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GRNT | Written decision to grant |