KR100707943B1 - System and Method for recognition of financial statement using optical character recognition - Google Patents

System and Method for recognition of financial statement using optical character recognition Download PDF

Info

Publication number
KR100707943B1
KR100707943B1 KR1020050035222A KR20050035222A KR100707943B1 KR 100707943 B1 KR100707943 B1 KR 100707943B1 KR 1020050035222 A KR1020050035222 A KR 1020050035222A KR 20050035222 A KR20050035222 A KR 20050035222A KR 100707943 B1 KR100707943 B1 KR 100707943B1
Authority
KR
South Korea
Prior art keywords
standard word
financial
standard
character recognition
optical character
Prior art date
Application number
KR1020050035222A
Other languages
Korean (ko)
Other versions
KR20060114097A (en
Inventor
최철규
Original Assignee
최철규
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 최철규 filed Critical 최철규
Priority to KR1020050035222A priority Critical patent/KR100707943B1/en
Publication of KR20060114097A publication Critical patent/KR20060114097A/en
Application granted granted Critical
Publication of KR100707943B1 publication Critical patent/KR100707943B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

광학문자인식(OCR) 기능을 이용하여 재무제표를 인식하고, 인식된 재무제표 정보를 DB화하는 방법 및 그 시스템이 개시된다. 본 발명에 따른 재무제표 분석 시스템은, 재무제표를 스캐닝 하고, 스캐닝된 이미지에서 문자를 추출하는 OCR 처리부, 추출된 문자를 재무제표에서 사용되는 표준 단어와 패턴매칭 하여 추출된 문자에 대한 정확한 단어를 판단하는 표준 단어 판단부, 및 판단 결과에 따라 OCR 처리된 데이터를 재 정렬하는 데이터 정렬부를 구비한다. 이러한 재무제표 분석 시스템에 의하면, 광학문자인식의 정확성을 높여 회계장부 처리를 자동화 함으로서 기존에 수작업으로 처리되는 시간을 대폭 감소시킨다. 또한, 본 발명은 회계원리를 이용하여 OCR 처리된 이미지의 각 영역별로 오류를 검수 함으로서 회계장부 처리에 대한 신뢰성을 높일 수 있다.Disclosed are a method and a system for recognizing financial statements using an optical character recognition (OCR) function, and databaseting the recognized financial statement information. Financial statement analysis system according to the present invention, the OCR processing unit for scanning the financial statements, extracting the characters from the scanned image, pattern matching the extracted characters with the standard words used in the financial statements to determine the correct words for the extracted characters A standard word judging unit for judging, and a data arranging unit for rearranging the OCR processed data according to the determination result. According to such a financial statement analysis system, the accuracy of the optical character recognition is increased, thereby automating the accounting book processing, thereby greatly reducing the time required for manual processing. In addition, the present invention can increase the reliability of the bookkeeping process by inspecting the error for each region of the OCR processed image using the accounting principle.

광학문자인식, 재무제표, 패턴매칭 Optical Character Recognition, Financial Statements, Pattern Matching

Description

광학문자인식 기능을 활용한 재무제표인식 방법 및 그 시스템{System and Method for recognition of financial statement using optical character recognition}System and Method for recognition of financial statement using optical character recognition}

도 1은 본 발명에 따른 재무제표 분석 시스템의 일 예에 따른 개념도,1 is a conceptual diagram according to an example of a financial statement analysis system according to the present invention;

도 2는 대차대조표의 일 예를 나타내는 도면,2 is a diagram illustrating an example of a balance sheet;

도 3은 도 1에 도시된 표준 단어 판단부의 일 예에 따른 블록개념도,3 is a block diagram according to an example of the standard word determination unit illustrated in FIG. 1;

도 4는 도 1에 도시된 검산부의 일 예에 따른 블록개념도,4 is a block diagram according to an example of the check unit shown in FIG. 1;

도 5는 본 발명의 다른 실시예에 따른 블록개념도, 그리고5 is a block diagram according to another embodiment of the present invention, and

도 6은 본 발명의 일 실시예에 따른 흐름도를 나타낸다.6 shows a flowchart according to an embodiment of the present invention.

*도면의 주요 부분에 대한 부호의 설명** Description of the symbols for the main parts of the drawings *

OCR 처리부 : 10 스캐너 : 11OCR Processing Unit: 10 Scanner: 11

문자인식 프로그램 : 12 표준 단어 판단부 : 20 Character Recognition Program: 12 Standard Word Decision Unit: 20

검산부 : 30 데이터 정렬부 : 40Checker: 30 Data sorter: 40

본 발명은 광학문자인식(OCR) 기능을 이용하여 재무제표를 인식하고, 인식된 재무제표 정보를 DB화하는 방법 및 시스템에 관한 것으로서, 더욱 자세하게는 광학문자인식 기능의 불완전성을 보정하여 재무제표의 광학문자인식 과정에서 오류의 가능성을 최소한으로 줄여 인식된 재무제표 정보의 정확성을 향상시켜 그 인식된 재무제표 정보를 DB화하는 방법 및 시스템에 관한 것이다.The present invention relates to a method and system for recognizing a financial statement using an optical character recognition (OCR) function, and a database of the recognized financial statement information, and more specifically, correcting the imperfection of the optical character recognition function. The present invention relates to a method and system for DBing the recognized financial statement information by improving the accuracy of recognized financial statement information by minimizing the possibility of error in optical character recognition.

통상적으로 광학문자인식은 광학적으로 스캔된 이미지에서 문자 정보를 추출하는 것을 목적으로 한다. 문자의 인식은 스캔된 이미지를 소정의 구성 단위로 분리한 다음, 그 분리된 이미지를 소정의 알고리즘으로 임의의 문자에 대응시키는 방식으로 수행된다.Typically optical character recognition aims at extracting character information from an optically scanned image. Recognition of a character is performed by dividing the scanned image into predetermined units, and then mapping the separated image to an arbitrary character by a predetermined algorithm.

일반적으로 광학문자인식의 정확성을 높이기 위해 다양한 문자 인식 알고리즘이 개발되고 있으며, 문자 인식률을 높이기 위해 다양한 시도들이 있어 왔다. 이러한 문자 인식 알고리즘 중 대표적으로 것으로 패턴매칭(pattern matching) 등의 방식이 있다.In general, various character recognition algorithms have been developed to increase the accuracy of optical character recognition, and various attempts have been made to increase the character recognition rate. Among such character recognition algorithms, there is a method of pattern matching.

하지만, 광학문자인식의 정확성은 100%완전할 수 없으며, 이는 인식해야 하는 문자의 종류가 많거나, 폰트 등이 특이할 경우, 인식률이 크게 떨어져 오히려 수동으로 직접 입력하는 것 보다도 입력 효율이 떨어지게 된다. 또한, 스캔된 이미지의 품질이 열악할 경우, 더욱 더 인식 효율은 떨어지게 된다. 특히, 숫자나 알파벳처럼 10자 또는 52자의 패턴만을 인식하는 경우 그 인식의 정확도는 상대적으로 높으나, 한자나 한글처럼 인식해야 하는 글자의 종류가 많을 경우, 인식도는 상대적으로 떨어지게 된다.However, the accuracy of optical character recognition cannot be 100% perfect, which means that when there are many kinds of characters to be recognized or fonts are unusual, the recognition rate is greatly reduced and the input efficiency is lower than that of manual input. . In addition, when the quality of the scanned image is poor, the recognition efficiency is further lowered. In particular, when only 10 or 52 characters are recognized, such as numbers or alphabets, the recognition accuracy is relatively high. However, when there are many kinds of letters to be recognized, such as Chinese characters or Korean characters, the recognition degree is relatively low.

재무제표는 회계, 세무, 금융 등에서 광범위하게 사용되는 기업의 실적 지표 로서 그 형식 및 내용의 중요 부분은 법제화 내지 관행화 되어 있으며, 재무 제표의 분석을 통해서 분석 대상 기업의 재무 건전성, 대출 시의 안전성 및 투자 적격성 등을 판단할 수 있다. 통상적으로 증권거래소에 등록된 기업 등은 그 기업의 재무 제표가 온라인 상에서 디지털화된 자료로서 입수할 수 있어, 그 입수된 정보를 바탕으로 손쉽게 DB(Data Base)화 할 수 있다.Financial statements are the performance indicators of companies widely used in accounting, taxation, finance, etc., and important parts of the form and content are legislated or customary.The analysis of financial statements shows the financial soundness, safety of loans, and Eligibility for investment can be determined. Typically, a company registered on the stock exchange can obtain the financial statements of the company as digitalized data online, and can easily make a DB (Data Base) based on the obtained information.

하지만, 디지털화된 자료가 아닌, 종이에 출력된 기업 재무제표의 경우, 다양한 분석을 위해서는 이를 일일이 입력하여 디지털화하여야 한다. 이러한 입력과정은 많은 시간을 소모하며, 재무제표 분석의 능력을 크게 떨어뜨리는 직접적인 요인이 된다.However, in the case of corporate financial statements printed on paper rather than digitized data, it must be digitized by inputting them for various analysis. This input process is time consuming and is a direct factor that significantly reduces the ability to analyze financial statements.

그러므로, 광학문자인식 방식으로 재무제표를 신속 정확하게 인식하여 재무제표의 분석에 사용하기 위한 기술 개발이 시급하게 요구되어져 오고 있다.Therefore, there is an urgent need to develop a technique for quickly and accurately recognizing financial statements using optical character recognition methods for use in analyzing financial statements.

따라서, 본 발명의 목적은 광학문자인식의 정확성을 높이기 위해서 재무제표를 구성하는 각종 필드명을 광학문자인식 과정에서 예약어로 등록시켜 놓은 다음, 인식된 이미지와 예약어를 대조하는 방법에 의해 광학문자인식의 정확성을 높이는 재무제표 인식 방법 및 시스템을 제공함에 있다 또한, 본 발명의 또다른 목적은 인식된 재무제표에서 인식 오류를 찾아내기 위해서, 재무제표만의 특수한 검정식을 사용하여, 재무제표의 인식 성능을 높이는 재무제표 인식 방법 및 시스템을 제공함에 있다.Therefore, an object of the present invention is to register the various field names constituting the financial statement in the optical character recognition process in order to increase the accuracy of the optical character recognition, and then optical character recognition by a method of contrasting the recognized image with the reserved word. The present invention also provides a method and system for recognizing financial statements to increase the accuracy of the financial statements. Further, another object of the present invention is to recognize financial statements by using a special test formula unique to the financial statements in order to find recognition errors in the recognized financial statements. To provide a method and system for recognizing financial statements that improves performance.

상기한 목적은 본 발명에 따라, 재무제표를 스캐닝 하고, 스캐닝된 이미지에서 문자열을 추출하는 OCR 처리부, 상기 추출된 문자열을 상기 재무제표에서 사용되는 표준 단어와 대조하여 상기 추출된 문자열에 대한 정확한 단어를 선택하는 표준 단어 판단부, 및 상기 선택된 표준 단어에 따라, 상기 OCR 처리된 데이터를 재 정렬하는 데이터 정렬부에 의해 달성된다. The above object is an OCR processing unit for scanning a financial statement, extracting a character string from the scanned image, and comparing the extracted character string with a standard word used in the financial statement according to the present invention. And a data sorting unit for rearranging the OCR-processed data according to the selected standard word.

바람직하게는, 상기 OCR 데이터에서 적어도 하나의 숫자열을 추출하고, 상기 추출된 표준 단어와 연계된 숫자열에 대해 회계 처리하여 검산하는 검산부를 더 포함한다. Preferably, the apparatus further includes a checker that extracts at least one numeric string from the OCR data, and accounts for and checks the numeric string associated with the extracted standard word.

바람직하게는, 상기 검산부는, 상기 숫자열이 배치된 위치에 따라 상기 스캐닝된 이미지를 적어도 둘 이상의 영역으로 구획하고, 구획된 각 영역의 숫자열을 가감 처리하는 산술처리부를 더 포함한다.Preferably, the checker further includes an arithmetic processing unit that divides the scanned image into at least two areas according to the position where the number string is arranged, and adds or subtracts the number string of each partitioned area.

상기 표준 단어는, 상기 대차대조표, 손익계산서, 이익 잉여금 처분계산서, 및 현금흐름표에서 사용되는 단어인 것이 바람직하다.The standard word is preferably a word used in the balance sheet, the income statement, the statement of retained earnings, and the cash flow statement.

상기 표준 단어 판단부는, 상기 표준 단어에 대한 정보를 구비하는 표준 단어 저장부, 및 상기 표준 단어와 상기 OCR 처리되어 추출된 문자열을 대조하여 상기 표준 단어 저장부에 저장된 표준 단어들 중 가장 유사한 표준 단어를 선택하는 표준 단어 선택부를 포함하는 것이 바람직하다.The standard word determination unit may include a standard word storage unit having information on the standard word, and a standard word most similar to the standard words stored in the standard word storage unit by comparing the standard word and the extracted OCR string. It is preferable to include a standard word selection unit for selecting.

상기 재무제표는, 대차대조표, 손익계산서, 이익 잉여금 처분계산서, 및 현금흐름표 중 어느 하나인 것이 바람직하다.The financial statement is preferably one of a balance sheet, an income statement, a statement of retained earnings, and a cash flow statement.

상기 데이터 정렬부는, 상기 표준 단어와 상기 숫자열을 연계시킨 파일을 생 성하는 것이 바람직하다.Preferably, the data sorting unit generates a file in which the standard word and the numeric string are linked.

상기 파일은, 엑셀 파일인 것이 바람직하다.It is preferable that the said file is an Excel file.

상기한 목적은 본 발명에 따라, 재무제표를 스캐닝 하여 이미지를 추출하는 스캐닝부, 상기 이미지를 상기 재무제표에서 사용되는 표준 단어와 패턴매칭 하여 상기 추출된 문자에 대한 정확한 단어를 선정하는 표준 단어 판단부, 및 상기 판단 결과에 따른 표준 단어로 구성되는 파일을 생성하는 파일생성부에 의해 달성된다.According to the present invention, the scanning unit for extracting the image by scanning the financial statement, the standard word judgment for selecting the correct word for the extracted character by pattern matching the image with the standard word used in the financial statement And a file generation unit that generates a file consisting of standard words according to the determination result.

상기 표준 단어 판단부는, 상기 스캐닝된 이미지를 임시 저장하는 제1메모리, 상기 표준 단어, 및 상기 표준 단어에 대한 이미지를 구비하는 표준 단어 저장부, 및 상기 임시 저장된 이미지와 상기 표준 단어에 대한 이미지를 패턴 매칭하여 가장 근접한 표준 단어를 선택하는 표준 단어 선택부를 포함하는 것이 바람직하다.The standard word determination unit may include a first memory configured to temporarily store the scanned image, a standard word storage unit including an image of the standard word, and the standard word, and an image of the temporary stored image and the standard word. It is preferable to include a standard word selector that selects the closest standard word by pattern matching.

바람직하게는, 상기 재무재표는 표준 대차대조표 이고, 상기 표준 단어 저장부는, 상기 표준 대차대조표에 기재되는 단어를 표준 단어로서 구비한다.Preferably, the financial statement is a standard balance sheet, and the standard word storage unit includes a word described in the standard balance sheet as a standard word.

바람직하게는, 상기 스캐닝된 이미지에서 적어도 하나의 숫자열을 추출하고, 상기 선택된 표준 단어와 연계된 숫자열에 대해 회계 처리하여 검산하는 검산부를 더 포함한다.Preferably, the apparatus further includes a checker that extracts at least one string of numbers from the scanned image, and accounts for and checks the string of numbers associated with the selected standard word.

상기 표준 단어는, 상기 대차대조표, 손익계산서, 이익 잉여금 처분계산서, 및 현금흐름표에서 사용되는 단어인 것이 바람직하다.The standard word is preferably a word used in the balance sheet, the income statement, the statement of retained earnings, and the cash flow statement.

상기 파일생성부는, 상기 표준 단어와 상기 숫자열을 연계시킨 파일을 생성하는 것이 바람직하다.Preferably, the file generation unit generates a file in which the standard word and the number string are linked.

상기한 목적은 본 발명에 따라, 재무제표를 스캐닝 하는 단계, 상기 스캐닝 된 재무제표를 OCR 처리하여 문자 및 숫자열을 추출하는 단계, 상기 추출된 문자열을 재무제표에서 사용되는 복수의 표준 단어와 대조하여 가장 근접한 표준 단어를 선택하는 단계, 및 상기 선택된 표준 단어를 포함한 재무제표 파일을 생성하는 단계에 의해 달성된다.According to the present invention, the object of the present invention is to scan a financial statement, OCR processing the scanned financial statement to extract a string of letters and numbers, and compare the extracted string with a plurality of standard words used in the financial statement. Selecting the closest standard word, and generating a financial statement file containing the selected standard word.

바람직하게는, 상기 추출된 숫자열 중, 상기 표준 단어와 연계된 숫자열에 대해 회계원리를 이용한 검산을 수행하는 단계를 더 포함한다.Preferably, the method further includes performing a check using an accounting principle on the numeric string associated with the standard word among the extracted numeric strings.

상기 검산을 수행하는 단계는, 상기 숫자열을 상기 재무제표에 배치된 위치에 따라 구획하고, 구획된 각 영역의 숫자를 회계처리 방법에 따라 가감 처리하는 단계, 및 상기 가감 처리된 결과값의 양부를 판단하는 단계를 포함하는 것이 바람직하다.The performing of the checking may include: dividing the sequence of numbers according to the positions arranged in the financial statements, and subtracting the numbers of the divided regions according to an accounting method, and transferring the resultant values. It is preferable to include the step of determining.

바람직하게는, 상기 처리된 결과값이 정상인 경우, 상기 표준 단어와 상기 숫자열이 매칭된 파일을 생성하는 단계를 더 포함한다.The method may further include generating a file in which the standard word and the string of numbers are matched when the processed result value is normal.

이하, 도면을 참조하여 본 발명을 상세히 설명하도록 한다. Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명에 따른 재무제표 분석 시스템의 일 예에 따른 개념도를 나타낸다. 1 is a conceptual diagram according to an example of a financial statement analysis system according to the present invention.

도시된 바와 같이 본 실시예에 따른 재무제표 분석 시스템은, 은행과 같은 금융기관에 제출되는 A4지 크기의 재무제표를 OCR(Optical Character Recognition) 처리하기 위한 OCR 처리부(10), OCR 처리된 문서에서 추출된 문자(또는 문자열) 및 숫자(또는 숫자열)를 회계장부(예컨데 재무제표(대차대조표, 손익계산서, 이익 잉여금 처분계산서, 및 현금흐름표등))에서 통상적으로 사용되는 표준 단어와 비교하 기 위한 표준 단어 판단부(20), OCR 처리된 문서에서 추출된 숫자열(또는 숫자)을 가산 및 감산하여 OCR 처리된 각 숫자열의 양부를 판단하는 검산부(30), 및 표준 단어와 숫자열을 매칭하여 파일로 생성하는 데이터 정렬부(40)를 구비한다. 통상 OCR 처리부(10)는 재무제표를 광학판독 시, 문자(또는 문자열)나 숫자(또는 숫자열)에 대한 판독률이 90% 대에 머물고 있으며, 재무제표에 기재된 문자의 폰트, 크기, 및 인쇄상태에 따라 판독률이 변동되는 단점이 있다. 따라서, 본 실시예는 OCR 처리된 데이터를 회계장부에서 통상 사용되는 단어, 예컨데, 차변, 대변, 자산총계, 유동자산, 고정자산, 및 당좌자산과 같은 단어를 표준 단어로 하여 등록하고, 이 등록어와 OCR 처리되어 추출된 텍스트 데이터를 대조하여 가장 근접한 문자(또는 문자열) 및 숫자열(또는 숫자)을 파악 후, 하나의 파일로 병합한다. 예컨데, 스캐너(11)에서 스캐닝 된 이미지에 대해 문자인식 프로그램(12)을 적용하여 얻은 문자(또는 문자열, 이하 생략하도록 한다.)가 "유몽자산"이고, 표준 단어 판단부(20)에 등록된 표준 단어가 "유동자산"인 경우, 표준 단어 판단부(20)는 OCR 처리된 "유몽자산"을 회계장부에서 표준적으로 사용되는 "유동자산"으로 판단한다. 즉, 표준 단어 판단부(20)는 회계장부에서 통용되는 단어들을 등록해 두고 이를 OCR 처리된 문자와 비교 함으로서 OCR 처리 시 발생되는 오류를 감소시킨다.As shown, the financial statement analysis system according to the present embodiment includes an OCR processing unit 10 for processing OCR (Optical Character Recognition) of A4 paper size financial statements submitted to a financial institution such as a bank. To compare the extracted letters (or strings) and numbers (or strings of numbers) with the standard words commonly used in accounting books (for example, financial statements (balance sheets, income statements, statement of retained earnings, and cash flow statements). A standard word determination unit 20, a checker 30 that adds and subtracts numeric strings (or numbers) extracted from an OCR processed document to determine whether each OCR processed numeric string is correct, and matches a standard word and a numeric string. And a data alignment unit 40 to generate a file. In general, the OCR processing unit 10 reads the financial statements optically, and the read rate of the letters (or strings) or numbers (or strings) is in the 90% range, and the font, size, and printing of the characters described in the financial statements are maintained. There is a disadvantage that the read rate is changed depending on the state. Accordingly, the present embodiment registers the OCR processed data as a standard word with words such as debits, credits, total assets, current assets, fixed assets, and current assets, which are commonly used in bookkeeping. And OCR are processed to compare the extracted text data to find the closest character (or string) and numeric string (or number) and merge them into one file. For example, a character (or a character string, which will be omitted hereinafter) obtained by applying the character recognition program 12 to the image scanned by the scanner 11 is "illusion asset" and registered in the standard word determination unit 20. When the standard word is "current asset", the standard word determination unit 20 determines that the "CRIM" is processed as "current assets" used in the accounting book. That is, the standard word determination unit 20 registers words commonly used in the account book and compares them with the OCR-processed characters to reduce errors generated during OCR processing.

검산부(30)는 OCR 처리된 문자 또는 숫자들 중 숫자에 대해 회계 처리하여 인식된 숫자(또는 숫자열)의 양부를 판단한다. 모든 회계장부는 입금된 내역과 출금된 내역간에 일정한 관계를 갖는다. 이는 도 2를 함께 참조하여 설명하도록 한다. 도 2는 대차대조표의 일 예를 나타낸다. 도시된 바와 같이, 대차대조표는 모 든 자산을 차변(借邊)에 배치하고, 부채 및 자본을 대변(貸邊)에 배치하며, 차변과 대변의 총 합계는 동일하다. 통상 대차대조표는 좌우로 양분되며, 양분된 좌측은 차편, 우측은 대변이 된다. 이에 따라, 검산부(30)는 좌변의 숫자열과 우측의 숫자열을 각각 합산 후, 양측이 같은 값을 갖는지의 여부를 판단함으로서 OCR 처리된 숫자(또는 숫자열, 이하 생략하도록 한다.)의 양부를 판단할 수 있다. 이 외에도 검산부(30)는 아래와 같은 회계 원리, 예컨데 자산을 나타내는 차변과 부채와 자본의 합을 나타내는 대변은 동일한 값을 갖는다는 대차 평균의 원리, 를 이용하여 OCR 처리된 숫자(또는 숫자열)의 양부를 판정할 수 있다.The checker 30 determines whether or not the recognized number (or string of numbers) is accounted for the number among the OCR processed letters or numbers. All books of account have a certain relationship between deposits and withdrawals. This will be described with reference to FIG. 2 together. 2 shows an example of a balance sheet. As shown, the balance sheet debits all assets, the liabilities and capital on credit, and the sum of the debit and credit is equal. Normally, the balance sheet is divided into left and right, the divided left side is the vehicle and the right side is the credit. Accordingly, the checker 30 adds the numeric strings on the left side and the numeric strings on the right side, respectively, and then determines whether the two sides have the same value. Can be determined. In addition, the checker 30 performs an OCR process using the following accounting principles, for example, the debit representing the asset and the balance average of the credit representing the sum of the debt and the capital, and using the same value. Can be determined.

1) 자산 총계 = 부채 총계 + 자본 총계1) Total Assets = Total Liabilities + Total Capital

2) 자산 총계 = 유동 자산 + 고정 자산2) Total Assets = Current Assets + Fixed Assets

3) 부채 총계 = 유동 부채 + 고정 부채3) Total liabilities = Current liabilities + Fixed liabilities

4) 유동 자산 = 당좌 자산 + 재고 자산4) Current Asset = Quick Asset + Inventory

5) 고정 자산 = 투자 자산 + 유형 자산 + 무형 자산5) Fixed Assets = Investment Assets + Tangible Assets + Intangible Assets

또한, 검산부(30)는 대차대조표의 회계 원리를 이용하여 아래와 같은 검산식을 사용하여 OCR 처리된 숫자의 양부를 판정할 수 있다.In addition, the checker 30 may determine whether the OCR has been processed by using the following check equation using the accounting principle of the balance sheet.

6) 매출총이익 = 매출액 - 매출원가6) Gross profit = revenue-cost of sales

7) 영업이익 = 매출 총이익 - 판매비와 관리비7) Operating Income = Gross Profit-Sales and Maintenance

8) 경상이익 = 영업이익 - 영업외 비용 + 영업비용8) Recurring Income = Operating Income-Non-operating Cost + Operating Cost

9) 법인세 차감전 이익 = 경상 이익 + 특별 이익 - 특별 손실9) Profit before Income Tax = Ordinary Income + Special Income-Special Loss

10)당기 순이익 = 법인세 차감전 이익 - 법인세10) Net income = Profit before income tax-Income tax

이 외에도 재무제표에서 당좌자산이 현금, 보통예금, 외상 매출금, 부가세 대급금으로 구성되는 경우 당좌자산 = 현금 + 보통 예금 + 외상 매출금 + 부가세 대급금이 되며, 검산부(30)가 이러한 회계 원리를 적용하여 OCR 처리된 숫자의 양부를 판정할 수도 있다. 본 실시예는 상기한 10가지의 회계원리를 열거하고 있으나 이 외에도 대차대조표, 손익계산서, 이익 잉여금 처분계산서, 및 현금흐름표에서 사용되는 회계 원리는 모두 적용될 수 있다. 이에 더불어 상기 언급된 바와 같은 회계 원리를 스캐너(11)에 의해 스캐닝되는 영역별로 적용하여 각 영역에 대한 OCR 처리결과의 양부를 판정할 수도 있다. 데이터 정렬부(40)는 표준 단어 판단부(20)에서 판단된 단어와 검산부(30)에서 회계원리에 따라 검산된 숫자를 하나로 병합하여 엑셀과 같은 형식의 파일로 변환한다. 물론, 변환되는 파일의 형식은 엑셀 이외에도 다양한 파일 포멧이 될 수 있음은 물론이다. 이와 같은 파일 생성은 은행과 같은 금융기관에서 회계장부를 전산 처리하고 이를 데이터베이스(data base)화 하는데 유용하게 사용될 수 있다.In addition, if the checking assets consist of cash, ordinary deposits, accounts receivables, and VAT payments in the financial statements, the checking assets = cash + ordinary deposits + accounts receivables + VAT payments. It is also possible to determine whether or not the OCR processed number is applied. This embodiment enumerates the above ten accounting principles, but in addition, the accounting principles used in the balance sheet, the income statement, the retained earnings statement, and the cash flow statement can be applied. In addition, the accounting principle as described above may be applied for each area scanned by the scanner 11 to determine whether the OCR processing result for each area is good or bad. The data sorter 40 merges the word determined by the standard word determiner 20 and the number checked according to the accounting principle by the checker 30 into one file and converts the file into an Excel-like format. Of course, the format of the converted file can be a variety of file formats in addition to Excel. Such a file generation can be usefully used to computerize the accounting book and make it into a database in a financial institution such as a bank.

도 3은 도 1에 도시된 표준 단어 판단부의 일 예에 따른 블록개념도를 나타낸다. FIG. 3 is a block diagram illustrating an example of the standard word determiner illustrated in FIG. 1.

도시된 표준 단어 판단부(20)는 표준 단어 저장부(21), 및 표준 단어 선택부(22)를 구비한다. 표준 단어 저장부(21)는 램(RAM), 롬(ROM), 하드디스크 드라이 브(Hard Disk Drive)와 같은 저장매체에 의해 구현되며, 현재 정형화된 회계장부상에 존재하는 단어(예컨데 자산 총계, 부채 총계, 자본 총계, 유동자산, 고정자산, 당좌자산, 재고자산 매출액, 매출원가, 순이익 등등)를 구비한다. 이때, 표준 단어 저장부(21)는 등록된 표준 단어 이외에도 추가적으로 표준 단어를 더 등록 가능한 것이 바람직하다. 표준 단어 선택부(22)는 OCR 처리부(10)로부터 OCR 처리되어 인가되는 문자, 및 숫자를 표준 단어 저장부(21)에 등록된 표준 단어와 비교하여 가장 일치되는 표준 단어를 선택한다. 표준 단어 선택부(22)에서 선택된 표준 단어는 OCR 처리부(10)에서 OCR 처리되어 제공된 문자, 숫자를 대체하고 이를 데이터 정렬부(40)로 제공하게 된다. 이에 따라, 데이터 정렬부(40)는 표준 단어 선택부(22)에서 오류가 정정된 문자와 숫자를 제공받고 이를 하나의 파일로 머지(merge) 하게 된다. The illustrated standard word determiner 20 includes a standard word store 21 and a standard word selector 22. The standard word storage unit 21 is implemented by a storage medium such as RAM, ROM, and Hard Disk Drive, and currently exists in a standardized account book (eg, asset total, Total liabilities, total capital, current assets, fixed assets, current assets, inventory sales, cost of sales, net income, etc.). In this case, the standard word storage unit 21 may additionally register a standard word in addition to the registered standard word. The standard word selector 22 selects the best matched word by comparing the letters and numbers that are subjected to OCR processing from the OCR processor 10 with the standard words registered in the standard word storage 21. The standard word selected by the standard word selector 22 replaces the letters and numbers provided by the OCR processing unit 10 and is provided to the data sorter 40. Accordingly, the data sorter 40 is provided with the letters and numbers corrected by the error in the standard word selector 22 and merges them into a single file.

도 4는 도 1에 도시된 검산부의 일 예에 따른 블록개념도를 나타낸다.4 is a block diagram illustrating an example of a check unit shown in FIG. 1.

도시된 검산부(30)는 버퍼(31), 및 산술처리부(32)로 구성되며, 산술처리부(32)는 구획 설정부(32a), 및 연산부(32b)를 포함한다. 버퍼(31)는 OCR 처리부(10)에서 숫자에 대해 출력된 이미지를 임시 저장한다. 버퍼(31)에 저장된 숫자는 구획 설정부(32a)로 인가되고, 구획 설정부(32a)는 회계장부(예컨데 대차대조표)의 특성에 따라 숫자들을 몇개로 구획한다. 예컨데, 구획 설정부(32a)는 도 2와 같은 이미지의 좌우를 50:50 으로 양분할 수 있다. 연산부(32b)는 구획 설정부(32a)에 의해 양분된 이미지의 좌측 및 우측에 대해 각각 연산하고, 연산된 결과의 동일성을 판단한다. 판단결과 동일한 경우 좌측과 우측에 기재된 숫자가 정확하다고 판 단할 수 있으며, 반대의 경우 숫자 인식에 오류가 발생한 것으로 판단할 수 있다. 이는 대차대조표의 좌측과 우측 각각에 기재된 숫자들의 합이 동일하다는 회계원리를 이용한 것이다. The illustrated check unit 30 is composed of a buffer 31 and an arithmetic processing unit 32, and the arithmetic processing unit 32 includes a partition setting unit 32a and an arithmetic unit 32b. The buffer 31 temporarily stores the image output for the number from the OCR processing unit 10. The numbers stored in the buffer 31 are applied to the division setting unit 32a, and the division setting unit 32a divides the numbers into several numbers according to the characteristics of the account book (for example, the balance sheet). For example, the partition setting unit 32a may divide the left and right of the image as shown in FIG. 2 into 50:50. The calculation unit 32b calculates the left and right sides of the image divided by the partition setting unit 32a, respectively, and determines the identity of the calculated result. As a result of the determination, it may be determined that the numbers written on the left and right sides are correct, and in the opposite case, an error may occur in the number recognition. This is based on the accounting principle that the sum of the numbers on each of the left and right sides of the balance sheet is the same.

한편, 구획 설정부(32a)는 표준 단어 판단부(20)에서 판단된 단어를 참조하여 OCR 처리된 이미지를 구획할 수 있다. 도 2에 도시된 바와 같은 회계장부를 예로 들면, 회계원리상 유동자산은 당좌자산 + 재고자산이 되며, 이를 이용하여 표준 단어 판단부(20)에서 판단된 단어 중 "유동자산", "당좌자산", 및 "재고자산"의 우측에 기재된 숫자, "61,419,500", "57,419,500", 및 "4,000,000"을 하나의 구획으로 설정하고, 이 구획에 마련된 숫자를 산술 처리하여 검산을 수행할 수도 있다. 이 경우, 유동자산이 당좌자산 + 재고자산이므로 이들 단어와 연계된 숫자는61,419,500 = 57,419,500 + 4,000,000을 만족하여야 한다. Meanwhile, the partition setting unit 32a may partition the OCR processed image by referring to the word determined by the standard word determination unit 20. Taking the accounting book as shown in FIG. 2 as an example, in accordance with the accounting principle, the current asset is a current asset + inventory, using the term "current assets" and "current assets" among the words determined by the standard word determination unit 20. It is also possible to set the numbers on the right side of "and" the "inventory assets", "61,419,500", "57,419,500", and "4,000,000" to one compartment, and perform arithmetic processing on the numbers provided in this compartment. In this case, since current assets are quick assets + inventories, the numbers associated with these words must satisfy 61,419,500 = 57,419,500 + 4,000,000.

도 5는 본 발명의 다른 실시예에 따른 블록개념도를 나타낸다.5 is a block diagram according to another embodiment of the present invention.

도시된 실시예에 따른 광학문자인식 기능을 이용한 재무제표 분석 시스템은 스캐너(50), 표준 단어 선택부(61), 검산부(70), 및 데이터 정렬부(80)를 구비하며, 표준 단어 선택부(61)는 버퍼(61a), 스케일러(61b), 및 패턴 매칭부(61c)룰 포함한다. 표준 이미지 저장부(62)는 회계장부(예컨데 재무제표(대차대조표, 손익계산서, 이익 잉여금 처분계산서, 및 현금흐름표등))에서 통용되는 단어(예컨데, 자산 총계, 부채 총계, 자본 총계, 유동자산, 고정자산, 당좌자산, 재고자산 매출액, 매출원가, 순이익등)와, 단어에 대응되는 이미지를 구비한다. 버퍼(61a)는 스캐너(50)에서 전송된 이미지 데이터를 임시 저장한다. 스케일러(61b)는 버퍼(61a)에 임시 저장된 문자 또는 숫자를 표준 이미지 저장부(62)에 저장된 문자 및 숫자와 동일한 크기로 정규화 한다. 패턴매칭부(61c)는 스케일러(61b)에서 정규화된 문자 또는 숫자에 대한 이미지와 표준 이미지 저장부(62)에 기 저장된 이미지 데이터를 패턴 매칭하여 가장 유사한 이미지를 판단한다. 예컨데, 스케일러(61b)가 "두자자산"이라고 인식된 이미지 데이터를 제공하는 경우, 패턴매칭부(61c)는 표준 이미지 저장부(62)에 저장된 이미지들을 "두자자산"과 패턴 매칭 비교하여 그 중 가장 유사한 "투자자산"을 선택함으로서 스캐닝된 이미지 데이터의 오류를 감소시킨다.The financial statement analysis system using the optical character recognition function according to the illustrated embodiment includes a scanner 50, a standard word selector 61, a checker 70, and a data sorter 80, and select a standard word. The unit 61 includes a buffer 61a, a scaler 61b, and a pattern matching unit 61c. The standard image storage 62 is a word commonly used in an accounting book (e.g., financial statements (balance sheet, income statement, statement of retained earnings, and cash flow statement) (e.g., total assets, total liabilities, total capital, current assets). , Fixed assets, checking assets, inventory sales, cost of sales, net income, etc.) and images corresponding to words. The buffer 61a temporarily stores image data transmitted from the scanner 50. The scaler 61b normalizes the letters or numbers temporarily stored in the buffer 61a to the same size as the letters and numbers stored in the standard image storage 62. The pattern matching unit 61c determines a most similar image by pattern matching the image of letters or numbers normalized by the scaler 61b and image data previously stored in the standard image storage unit 62. For example, when the scaler 61b provides image data recognized as "two-sided assets", the pattern matching section 61c performs a pattern matching comparison of the images stored in the standard image storage section 62 with the "two-sided assets". Selecting the most similar "investment asset" reduces errors in the scanned image data.

한편, 스캐너(50)에 인가되는 재무제표가 국가에서 정한 양식에 따른 표준 제무제표(예컨데 표준 대차대조표)인 경우, 표준 제무제표에서 사용되는 계정과목(예컨데, 유동자산, 당좌자산, 단기금융상품, 단기 대여금, 미수금, 선급금, 재고자산, 가설재, 저장품, 용지, 고정자산, 투자자산, 사채발행비, 구축물, 장기성 매출채권, 장기 대여금, 및 개업비등등)은 어느 누구의 것이든지 동일하다. 이에 따라, 표준 이미지 저장부(62)에는 표준 재무제표에 기재된 계정과목에 대한 이미지 데이터가 포함되는 것이 바람직하다. 표준 재무제표에는 각 계정과목의 명칭 및 배치되는 위치가 정해져 있다. 따라서, 패턴매칭부(61c)는 추출된 문자와 이미지 데이터를 비교 시, 문자가 스캐닝된 위치정보를 함께 참조하여 패턴 매칭을 수행하고, 이를 통해 패턴 매칭에 따른 오류를 감소시킬 수 있다.On the other hand, if the financial statements authorized by the scanner 50 are standard financial statements (for example, standard balance sheet) according to the form set by the country, the account subjects used in the standard financial statements (for example, current assets, current assets, short-term financial instruments, short-term) Loans, receivables, advance payments, inventory, temporary goods, stores, land, fixed assets, investment assets, debentures, constructs, long-term trade receivables, long-term loans, and opening expenses, etc. Accordingly, it is preferable that the standard image storage 62 include image data of the account subject described in the standard financial statement. Standard financial statements define the name and location of each accounting subject. Therefore, when comparing the extracted character and the image data, the pattern matching unit 61c performs pattern matching by referring to the position information where the characters are scanned, thereby reducing the error due to the pattern matching.

도 6은 본 발명의 일 실시예에 따른 흐름도를 나타낸다.6 shows a flowchart according to an embodiment of the present invention.

먼저, 금융기관, 또는 회계 사무소에 제출된 회계장부는 스캐너(11)를 통해 스캐닝된다(S101). 회계장부에 대해 스캐닝된 이미지는 OCR 프로그램에 의해 패턴 매칭되어 문자 및 숫자가 판독된다(S102). 이때 스캐너(11)를 통해 획득된 이미지에 대해 패턴 매칭을 수행하는 OCR 프로그램은 스캐너(11)와 연결되는 별도의 컴퓨터에 설치됨이 바람직하다. 다음으로, OCR 프로그램에 의해 패턴 매칭되어 획득된 문자 및 숫자는 표준문자 선택부(24)에 의해 정확한 단어가 선택된다. 이때, 문자 및 숫자를 판단하는 방법은 아래의 두 가지가 적용될 수 있다. First, the account book submitted to a financial institution or an accounting office is scanned through the scanner 11 (S101). The scanned image for the book is pattern matched by the OCR program to read letters and numbers (S102). In this case, the OCR program for performing pattern matching on the image acquired through the scanner 11 is preferably installed in a separate computer connected to the scanner 11. Next, the correct word is selected by the standard letter selection unit 24 for letters and numbers obtained by pattern matching by the OCR program. In this case, the following two methods may be used to determine letters and numbers.

1) OCR 처리된 후 획득된 문자, 및 숫자를 기 저장된 표준 단어와 비교하여 가장 유사한 단어를 선택하는 방법.1) A method of selecting the most similar word by comparing letters and numbers obtained after OCR processing with previously stored standard words.

2) OCR 처리된 후 획득된 문자에 대한 이미지와 기 저장된 표준 단어에 대한 이미지를 패턴 매칭하여 가장 유사한 단어를 선택하는 방법.2) A method of pattern matching between an image of a character obtained after OCR processing and an image of a pre-stored standard word to select the most similar word.

문자 및 숫자가 선택된 후(S103), 숫자는 소정 개수로 구획되고, 각 구획별로 연산 처리하여 선택된 숫자의 오류 여부를 판단한다. 이는 앞서 상세히 설명되었는 바, 상세한 설명은 생략하도록 한다. 다음으로, 검산 결과가 정상인 경우(S104), 표준 단어와 숫자는 최초 스캐너(11)에 의해 스캐닝된 위치에 따라 재 정렬되며, 엑셀과 같은 형식의 파일로 변환된다(S105). 변환된 파일은 대용량 저장매체를 구비하는 은행, 회계사, 및 기타 회계장부를 처리하는 기관의 데이터 베이스에 저장될 수 있다(S106). After the letters and numbers are selected (S103), the numbers are partitioned into a predetermined number, and arithmetic processing is performed for each section to determine whether the selected number is in error. Since this has been described in detail above, a detailed description thereof will be omitted. Next, when the check result is normal (S104), the standard words and numbers are rearranged according to the position scanned by the original scanner 11, and converted into a file of an Excel-like format (S105). The converted file may be stored in a database of a bank, an accountant having a mass storage medium, and an organization processing other account books (S106).

상기한 바와 같이, 본 발명은 광학문자인식의 정확성을 높여 회계장부 처리를 자동화 함으로서 기존에 수작업으로 처리되는 시간을 대폭 감소시킨다. 이에 따라, 종이와 같은 매체에 인자된 재무제표에 대해서도 디지털화 된 데이터의 생성 및 축적이 가능하다. 또한, 본 발명은 회계원리를 이용하여 OCR 처리된 이미지의 각 영역별로 오류를 검수 함으로서 회계장부 처리에 대한 신뢰성을 높인다. As described above, the present invention significantly reduces the time that is manually processed by automating the accounting book by increasing the accuracy of optical character recognition. Accordingly, it is possible to generate and accumulate digitized data even on financial statements printed on media such as paper. In addition, the present invention improves the reliability of the accounting book process by inspecting errors for each area of the OCR processed image using the accounting principle.

Claims (18)

재무제표를 스캐닝 하고, 스캐닝된 이미지에서 문자열을 추출하는 OCR 처리부;An OCR processor for scanning the financial statements and extracting character strings from the scanned image; 상기 추출된 문자열을 상기 재무제표에서 사용되는 표준 단어와 대조하여 상기 추출된 문자열에 대한 정확한 단어를 선택하는 표준 단어 판단부;A standard word determination unit selecting a correct word for the extracted string by comparing the extracted character string with a standard word used in the financial statement; 상기 선택된 표준 단어에 따라, 상기 OCR 처리된 데이터를 재 정렬하는 데이터 정렬부; 및A data sorting unit for rearranging the OCR processed data according to the selected standard word; And 상기 OCR 데이터에서 적어도 하나의 숫자열을 추출하고, 상기 추출된 표준 단어와 연계된 숫자열에 대해 회계 처리하여 검산하는 검산부;를 포함하는 것을 특징으로 하는 광학문자인식 기능을 이용한 재무제표 분석 시스템.And a checker for extracting at least one numeric string from the OCR data and performing an accounting process on the extracted numeric string associated with the extracted standard word. The financial statement analysis system comprising an optical character recognition function. 삭제delete 제1항에 있어서,The method of claim 1, 상기 검산부는,The checker unit, 상기 숫자열이 배치된 위치에 따라 상기 스캐닝된 이미지를 적어도 둘 이상의 영역으로 구획하고, 구획된 각 영역의 숫자열을 가감 처리하는 산술처리부;를 더 포함하는 것을 특징으로 하는 광학문자인식 기능을 이용한 재무제표 분석 시스템.An arithmetic processing unit for dividing the scanned image into at least two regions according to the position where the sequence of numbers is arranged, and adding or subtracting the sequence of numbers of each segmented region; and using an optical character recognition function. Financial Statement Analysis System. 제1항에 있어서,The method of claim 1, 상기 표준 단어는,The standard word is 상기 대차대조표, 손익계산서, 이익 잉여금 처분계산서, 및 현금흐름표에서 사용되는 단어인 것을 특징으로 하는 광학문자인식 기능을 이용한 재무제표 분석 시스템.Financial statement analysis system using the optical character recognition, characterized in that the words used in the balance sheet, income statement, statement of retained earnings and cash flow statement. 제1항에 있어서,The method of claim 1, 상기 표준 단어 판단부는,The standard word determination unit, 상기 표준 단어에 대한 정보를 구비하는 표준 단어 저장부; 및A standard word storage unit having information about the standard word; And 상기 표준 단어와 상기 OCR 처리되어 추출된 문자열을 대조하여 상기 표준 단어 저장부에 저장된 표준 단어들 중 가장 유사한 표준 단어를 선택하는 표준 단어 선택부;를 포함하는 것을 특징으로 하는 광학문자인식 기능을 이용한 재무제표 분석 시스템. A standard word selector which selects the most similar standard word among the standard words stored in the standard word storage unit by comparing the standard word and the string extracted by the OCR process and using the optical character recognition function Financial Statement Analysis System. 제1항에 있어서,The method of claim 1, 상기 재무제표는,The financial statements, 대차대조표, 손익계산서, 이익 잉여금 처분계산서, 및 현금흐름표 중 어느 하나인 것을 특징으로 하는 광학문자인식 기능을 이용한 재무제표 분석 시스템.A financial statement analysis system using optical character recognition, characterized in that the balance sheet, income statement, retained earnings statement, and cash flow statement. 제6항에 있어서,The method of claim 6, 상기 데이터 정렬부는,The data sorting unit, 상기 표준 단어와 상기 숫자열을 연계시킨 파일을 생성하는 것을 특징으로 하는 광학문자인식 기능을 이용한 재무제표 분석 시스템.A financial statement analysis system using the optical character recognition function, characterized in that for generating a file associated with the standard word and the numeric string. 제7항에 있어서,The method of claim 7, wherein 상기 파일은,The file is 엑셀 파일인 것을 특징으로 하는 광학문자인식 기능을 이용한 재무제표 분석 시스템.Financial statement analysis system using optical character recognition, characterized in that the Excel file. 재무제표를 스캐닝 하여 이미지를 추출하는 스캐닝부;A scanning unit which scans the financial statement and extracts an image; 상기 이미지를 상기 재무제표에서 사용되는 표준 단어와 패턴매칭 하여 상기 추출된 문자에 대한 정확한 단어를 선정하는 표준 단어 판단부; A standard word determination unit for pattern matching the image with a standard word used in the financial statement to select an exact word for the extracted character; 상기 판단 결과에 따른 표준 단어로 구성되는 파일을 생성하는 파일생성부; 및 A file generation unit generating a file composed of standard words according to the determination result; And 상기 스캐닝된 이미지에서 적어도 하나의 숫자열을 추출하고, 상기 선택된 표준 단어와 연계된 숫자열에 대해 회계 처리하여 검산하는 검산부;를 포함하는 것을 특징으로 하는 광학문자인식 기능을 이용한 재무제표 분석 시스템.And a checker for extracting at least one numeric string from the scanned image and performing an accounting process on the numeric string associated with the selected standard word. The financial statement analysis system comprising an optical character recognition function. 제9항에 있어서,The method of claim 9, 상기 표준 단어 판단부는,The standard word determination unit, 상기 스캐닝된 이미지를 임시 저장하는 제1메모리;A first memory for temporarily storing the scanned image; 상기 표준 단어, 및 상기 표준 단어에 대한 이미지를 구비하는 표준 단어 저장부; 및A standard word storage unit having the standard word and an image of the standard word; And 상기 임시 저장된 이미지와 상기 표준 단어에 대한 이미지를 패턴 매칭하여 가장 근접한 표준 단어를 선택하는 표준 단어 선택부;를 포함하는 것을 특징으로 하는 광학문자인식 기능을 이용한 재무제표 분석 시스템.And a standard word selector configured to select the closest standard word by pattern matching the temporarily stored image and the image for the standard word. 제10항에 있어서,The method of claim 10, 상기 재무재표는 표준 대차대조표 이고, The financial statements are standard balance sheets, 상기 표준 단어 저장부는,The standard word storage unit, 상기 표준 대차대조표에 기재되는 단어를 표준 단어로서 구비하는 것을 특징으로 하는 광학문자인식 기능을 이용한 재무제표 분석 시스템.A financial statement analysis system using the optical character recognition function, characterized in that the word described in the standard balance sheet as a standard word. 삭제delete 제10항에 있어서,The method of claim 10, 상기 표준 단어는,The standard word is 상기 대차대조표, 손익계산서, 이익 잉여금 처분계산서, 및 현금흐름표에서 사용되는 단어인 것을 특징으로 하는 광학문자인식 기능을 이용한 재무제표 분석 시스템.Financial statement analysis system using the optical character recognition, characterized in that the words used in the balance sheet, income statement, statement of retained earnings and cash flow statement. 제10항에 있어서,The method of claim 10, 상기 파일생성부는,The file generation unit, 상기 표준 단어와 상기 숫자열을 연계시킨 파일을 생성하는 것을 특징으로 하는 광학문자인식 기능을 이용한 재무제표 분석 시스템.A financial statement analysis system using the optical character recognition function, characterized in that for generating a file associated with the standard word and the numeric string. 재무제표를 스캐닝 하는 단계;Scanning the financial statements; 상기 스캐닝 된 재무제표를 OCR 처리하여 문자 및 숫자열을 추출하는 단계;Extracting a string of letters and numbers by OCRing the scanned financial statements; 상기 추출된 문자열을 재무제표에서 사용되는 복수의 표준 단어와 대조하여 가장 근접한 표준 단어를 선택하는 단계;Selecting the closest standard word by comparing the extracted character string with a plurality of standard words used in financial statements; 상기 선택된 표준 단어를 포함한 재무제표 파일을 생성하는 단계; 및 Generating a financial statement file including the selected standard word; And 상기 추출된 숫자열 중, 상기 표준 단어와 연계된 숫자열에 대해 회계원리를 이용한 검산을 수행하는 단계;를 포함하는 것을 특징으로 하는 광학문자인식 기능을 이용한 재무제표 분석방법.Performing a check using an accounting principle on the numeric string associated with the standard word among the extracted numeric strings; and analyzing the financial statements using the optical character recognition function. 삭제delete 제15항에 있어서,The method of claim 15, 상기 검산을 수행하는 단계는,The step of performing the check, 상기 숫자열을 상기 재무제표에 배치된 위치에 따라 구획하고, 구획된 각 영역의 숫자를 회계처리 방법에 따라 가감 처리하는 단계; 및Dividing the sequence of numbers according to the positions arranged in the financial statements, and adding or subtracting the numbers of the divided regions according to an accounting method; And 상기 가감 처리된 결과값의 양부를 판단하는 단계;를 포함하는 것을 특징으로 하는 광학문자인식 기능을 이용한 재무제표 분석방법.Determining whether or not the result of the subtraction process result; Financial statement analysis method using an optical character recognition function comprising a. 제17항에 있어서,The method of claim 17, 상기 처리된 결과값이 정상인 경우, 상기 표준 단어와 상기 숫자열이 매칭된 파일을 생성하는 단계;를 더 포함하는 것을 특징으로 하는 광학문자인식 기능을 이용한 재무제표 분석방법.If the processed result is normal, generating a file in which the standard word and the string of numbers are matched; and analyzing the financial statement using the optical character recognition function.
KR1020050035222A 2005-04-27 2005-04-27 System and Method for recognition of financial statement using optical character recognition KR100707943B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050035222A KR100707943B1 (en) 2005-04-27 2005-04-27 System and Method for recognition of financial statement using optical character recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050035222A KR100707943B1 (en) 2005-04-27 2005-04-27 System and Method for recognition of financial statement using optical character recognition

Publications (2)

Publication Number Publication Date
KR20060114097A KR20060114097A (en) 2006-11-06
KR100707943B1 true KR100707943B1 (en) 2007-04-18

Family

ID=37651906

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050035222A KR100707943B1 (en) 2005-04-27 2005-04-27 System and Method for recognition of financial statement using optical character recognition

Country Status (1)

Country Link
KR (1) KR100707943B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10402163B2 (en) 2017-02-14 2019-09-03 Accenture Global Solutions Limited Intelligent data extraction
KR20230062065A (en) 2021-10-29 2023-05-09 삼성에스디에스 주식회사 Method, apparatus, system and computer program for adjusting table coordinates information

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101139801B1 (en) * 2010-03-12 2012-04-30 에스케이마케팅앤컴퍼니 주식회사 Automatic data gathering system using by reading receipt and method thereof
KR102149051B1 (en) * 2020-04-24 2020-08-28 주식회사 애자일소다 System and method for analyzing document using self confidence based on ocr
KR102149052B1 (en) * 2020-04-24 2020-08-28 주식회사 애자일소다 System and method for analyzing document using natural language processing based on ocr
WO2021215589A1 (en) * 2020-04-24 2021-10-28 주식회사 애자일소다 Ocr-based document analysis system and method
CN113158988B (en) * 2021-05-19 2024-04-05 上海云从企业发展有限公司 Financial statement processing method, device and computer readable storage medium
CN113177551A (en) * 2021-05-21 2021-07-27 中国工商银行股份有限公司 Report processing method and device
KR102485095B1 (en) * 2022-06-03 2023-01-06 프라임경영기술(주) Apparatus for financial diagnosis and control method of thereof

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287188A (en) * 1995-04-17 1996-11-01 Nec Corp Character string recognition device
JPH1097606A (en) 1996-09-19 1998-04-14 Toshiba Corp Filing system connected with ocr device and filing method
JPH11120293A (en) 1997-10-16 1999-04-30 Fujitsu Ltd Character recognition/correction system
JP2000194775A (en) * 1998-12-25 2000-07-14 Mitsui Knowledge Industry Kk Method for generating client data and computer readable recording medium recording program for computer to execute the method
JP2004280514A (en) 2003-03-17 2004-10-07 Toppan Forms Co Ltd Pdf file and system for forming pdf file
JP2005100079A (en) * 2003-09-25 2005-04-14 Casio Comput Co Ltd Form data inputting device and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287188A (en) * 1995-04-17 1996-11-01 Nec Corp Character string recognition device
JPH1097606A (en) 1996-09-19 1998-04-14 Toshiba Corp Filing system connected with ocr device and filing method
JPH11120293A (en) 1997-10-16 1999-04-30 Fujitsu Ltd Character recognition/correction system
JP2000194775A (en) * 1998-12-25 2000-07-14 Mitsui Knowledge Industry Kk Method for generating client data and computer readable recording medium recording program for computer to execute the method
JP2004280514A (en) 2003-03-17 2004-10-07 Toppan Forms Co Ltd Pdf file and system for forming pdf file
JP2005100079A (en) * 2003-09-25 2005-04-14 Casio Comput Co Ltd Form data inputting device and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10402163B2 (en) 2017-02-14 2019-09-03 Accenture Global Solutions Limited Intelligent data extraction
KR20230062065A (en) 2021-10-29 2023-05-09 삼성에스디에스 주식회사 Method, apparatus, system and computer program for adjusting table coordinates information

Also Published As

Publication number Publication date
KR20060114097A (en) 2006-11-06

Similar Documents

Publication Publication Date Title
KR100707943B1 (en) System and Method for recognition of financial statement using optical character recognition
US7366339B2 (en) System and method for detecting cheque fraud
US7020320B2 (en) Extracting text written on a check
US7545959B2 (en) Systems and methods for handwriting analysis in documents
US20050281448A1 (en) Method of creating a substitute check and an apparatus therefor
EP0772142A1 (en) A method for electronically recognizing and parsing information contained in a financial statement
US8387862B2 (en) Electronic image cash letter validation
US6038351A (en) Apparatus and method for multi-entity, mixed document environment document identification and processing
JPH07110841A (en) Method and apparatus for processing of securities
US20060210138A1 (en) Verification of authenticity of check data
US20050018896A1 (en) System and method for verifying legibility of an image of a check
US20030172030A1 (en) Payee match positive pay banking
CN110785773A (en) Bill recognition system
US20160379186A1 (en) Element level confidence scoring of elements of a payment instrument for exceptions processing
US7480403B2 (en) Apparatus, system, and method for fraud detection using multiple scan technologies
KR100846688B1 (en) Joined front end and back end document processing
US4864111A (en) Promissory note
US6769615B2 (en) Multi-pass merge process for the check processing control system
JP4356908B2 (en) Automatic financial statement input device
JP3946043B2 (en) Form identification device and identification method
JP4418823B2 (en) Form identification device and identification method thereof
JP3513806B2 (en) Real estate registration information filing system
TWI807467B (en) Key-item detection model building method, business-oriented key-value identification system and method
US11699021B1 (en) System for reading contents from a document
CN118193596A (en) Form recognition result processing method, device, equipment, medium and product

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee