KR100707943B1 - System and Method for recognition of financial statement using optical character recognition - Google Patents
System and Method for recognition of financial statement using optical character recognition Download PDFInfo
- Publication number
- KR100707943B1 KR100707943B1 KR1020050035222A KR20050035222A KR100707943B1 KR 100707943 B1 KR100707943 B1 KR 100707943B1 KR 1020050035222 A KR1020050035222 A KR 1020050035222A KR 20050035222 A KR20050035222 A KR 20050035222A KR 100707943 B1 KR100707943 B1 KR 100707943B1
- Authority
- KR
- South Korea
- Prior art keywords
- standard word
- financial
- standard
- character recognition
- optical character
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
광학문자인식(OCR) 기능을 이용하여 재무제표를 인식하고, 인식된 재무제표 정보를 DB화하는 방법 및 그 시스템이 개시된다. 본 발명에 따른 재무제표 분석 시스템은, 재무제표를 스캐닝 하고, 스캐닝된 이미지에서 문자를 추출하는 OCR 처리부, 추출된 문자를 재무제표에서 사용되는 표준 단어와 패턴매칭 하여 추출된 문자에 대한 정확한 단어를 판단하는 표준 단어 판단부, 및 판단 결과에 따라 OCR 처리된 데이터를 재 정렬하는 데이터 정렬부를 구비한다. 이러한 재무제표 분석 시스템에 의하면, 광학문자인식의 정확성을 높여 회계장부 처리를 자동화 함으로서 기존에 수작업으로 처리되는 시간을 대폭 감소시킨다. 또한, 본 발명은 회계원리를 이용하여 OCR 처리된 이미지의 각 영역별로 오류를 검수 함으로서 회계장부 처리에 대한 신뢰성을 높일 수 있다.Disclosed are a method and a system for recognizing financial statements using an optical character recognition (OCR) function, and databaseting the recognized financial statement information. Financial statement analysis system according to the present invention, the OCR processing unit for scanning the financial statements, extracting the characters from the scanned image, pattern matching the extracted characters with the standard words used in the financial statements to determine the correct words for the extracted characters A standard word judging unit for judging, and a data arranging unit for rearranging the OCR processed data according to the determination result. According to such a financial statement analysis system, the accuracy of the optical character recognition is increased, thereby automating the accounting book processing, thereby greatly reducing the time required for manual processing. In addition, the present invention can increase the reliability of the bookkeeping process by inspecting the error for each region of the OCR processed image using the accounting principle.
광학문자인식, 재무제표, 패턴매칭 Optical Character Recognition, Financial Statements, Pattern Matching
Description
도 1은 본 발명에 따른 재무제표 분석 시스템의 일 예에 따른 개념도,1 is a conceptual diagram according to an example of a financial statement analysis system according to the present invention;
도 2는 대차대조표의 일 예를 나타내는 도면,2 is a diagram illustrating an example of a balance sheet;
도 3은 도 1에 도시된 표준 단어 판단부의 일 예에 따른 블록개념도,3 is a block diagram according to an example of the standard word determination unit illustrated in FIG. 1;
도 4는 도 1에 도시된 검산부의 일 예에 따른 블록개념도,4 is a block diagram according to an example of the check unit shown in FIG. 1;
도 5는 본 발명의 다른 실시예에 따른 블록개념도, 그리고5 is a block diagram according to another embodiment of the present invention, and
도 6은 본 발명의 일 실시예에 따른 흐름도를 나타낸다.6 shows a flowchart according to an embodiment of the present invention.
*도면의 주요 부분에 대한 부호의 설명** Description of the symbols for the main parts of the drawings *
OCR 처리부 : 10 스캐너 : 11OCR Processing Unit: 10 Scanner: 11
문자인식 프로그램 : 12 표준 단어 판단부 : 20 Character Recognition Program: 12 Standard Word Decision Unit: 20
검산부 : 30 데이터 정렬부 : 40Checker: 30 Data sorter: 40
본 발명은 광학문자인식(OCR) 기능을 이용하여 재무제표를 인식하고, 인식된 재무제표 정보를 DB화하는 방법 및 시스템에 관한 것으로서, 더욱 자세하게는 광학문자인식 기능의 불완전성을 보정하여 재무제표의 광학문자인식 과정에서 오류의 가능성을 최소한으로 줄여 인식된 재무제표 정보의 정확성을 향상시켜 그 인식된 재무제표 정보를 DB화하는 방법 및 시스템에 관한 것이다.The present invention relates to a method and system for recognizing a financial statement using an optical character recognition (OCR) function, and a database of the recognized financial statement information, and more specifically, correcting the imperfection of the optical character recognition function. The present invention relates to a method and system for DBing the recognized financial statement information by improving the accuracy of recognized financial statement information by minimizing the possibility of error in optical character recognition.
통상적으로 광학문자인식은 광학적으로 스캔된 이미지에서 문자 정보를 추출하는 것을 목적으로 한다. 문자의 인식은 스캔된 이미지를 소정의 구성 단위로 분리한 다음, 그 분리된 이미지를 소정의 알고리즘으로 임의의 문자에 대응시키는 방식으로 수행된다.Typically optical character recognition aims at extracting character information from an optically scanned image. Recognition of a character is performed by dividing the scanned image into predetermined units, and then mapping the separated image to an arbitrary character by a predetermined algorithm.
일반적으로 광학문자인식의 정확성을 높이기 위해 다양한 문자 인식 알고리즘이 개발되고 있으며, 문자 인식률을 높이기 위해 다양한 시도들이 있어 왔다. 이러한 문자 인식 알고리즘 중 대표적으로 것으로 패턴매칭(pattern matching) 등의 방식이 있다.In general, various character recognition algorithms have been developed to increase the accuracy of optical character recognition, and various attempts have been made to increase the character recognition rate. Among such character recognition algorithms, there is a method of pattern matching.
하지만, 광학문자인식의 정확성은 100%완전할 수 없으며, 이는 인식해야 하는 문자의 종류가 많거나, 폰트 등이 특이할 경우, 인식률이 크게 떨어져 오히려 수동으로 직접 입력하는 것 보다도 입력 효율이 떨어지게 된다. 또한, 스캔된 이미지의 품질이 열악할 경우, 더욱 더 인식 효율은 떨어지게 된다. 특히, 숫자나 알파벳처럼 10자 또는 52자의 패턴만을 인식하는 경우 그 인식의 정확도는 상대적으로 높으나, 한자나 한글처럼 인식해야 하는 글자의 종류가 많을 경우, 인식도는 상대적으로 떨어지게 된다.However, the accuracy of optical character recognition cannot be 100% perfect, which means that when there are many kinds of characters to be recognized or fonts are unusual, the recognition rate is greatly reduced and the input efficiency is lower than that of manual input. . In addition, when the quality of the scanned image is poor, the recognition efficiency is further lowered. In particular, when only 10 or 52 characters are recognized, such as numbers or alphabets, the recognition accuracy is relatively high. However, when there are many kinds of letters to be recognized, such as Chinese characters or Korean characters, the recognition degree is relatively low.
재무제표는 회계, 세무, 금융 등에서 광범위하게 사용되는 기업의 실적 지표 로서 그 형식 및 내용의 중요 부분은 법제화 내지 관행화 되어 있으며, 재무 제표의 분석을 통해서 분석 대상 기업의 재무 건전성, 대출 시의 안전성 및 투자 적격성 등을 판단할 수 있다. 통상적으로 증권거래소에 등록된 기업 등은 그 기업의 재무 제표가 온라인 상에서 디지털화된 자료로서 입수할 수 있어, 그 입수된 정보를 바탕으로 손쉽게 DB(Data Base)화 할 수 있다.Financial statements are the performance indicators of companies widely used in accounting, taxation, finance, etc., and important parts of the form and content are legislated or customary.The analysis of financial statements shows the financial soundness, safety of loans, and Eligibility for investment can be determined. Typically, a company registered on the stock exchange can obtain the financial statements of the company as digitalized data online, and can easily make a DB (Data Base) based on the obtained information.
하지만, 디지털화된 자료가 아닌, 종이에 출력된 기업 재무제표의 경우, 다양한 분석을 위해서는 이를 일일이 입력하여 디지털화하여야 한다. 이러한 입력과정은 많은 시간을 소모하며, 재무제표 분석의 능력을 크게 떨어뜨리는 직접적인 요인이 된다.However, in the case of corporate financial statements printed on paper rather than digitized data, it must be digitized by inputting them for various analysis. This input process is time consuming and is a direct factor that significantly reduces the ability to analyze financial statements.
그러므로, 광학문자인식 방식으로 재무제표를 신속 정확하게 인식하여 재무제표의 분석에 사용하기 위한 기술 개발이 시급하게 요구되어져 오고 있다.Therefore, there is an urgent need to develop a technique for quickly and accurately recognizing financial statements using optical character recognition methods for use in analyzing financial statements.
따라서, 본 발명의 목적은 광학문자인식의 정확성을 높이기 위해서 재무제표를 구성하는 각종 필드명을 광학문자인식 과정에서 예약어로 등록시켜 놓은 다음, 인식된 이미지와 예약어를 대조하는 방법에 의해 광학문자인식의 정확성을 높이는 재무제표 인식 방법 및 시스템을 제공함에 있다 또한, 본 발명의 또다른 목적은 인식된 재무제표에서 인식 오류를 찾아내기 위해서, 재무제표만의 특수한 검정식을 사용하여, 재무제표의 인식 성능을 높이는 재무제표 인식 방법 및 시스템을 제공함에 있다.Therefore, an object of the present invention is to register the various field names constituting the financial statement in the optical character recognition process in order to increase the accuracy of the optical character recognition, and then optical character recognition by a method of contrasting the recognized image with the reserved word. The present invention also provides a method and system for recognizing financial statements to increase the accuracy of the financial statements. Further, another object of the present invention is to recognize financial statements by using a special test formula unique to the financial statements in order to find recognition errors in the recognized financial statements. To provide a method and system for recognizing financial statements that improves performance.
상기한 목적은 본 발명에 따라, 재무제표를 스캐닝 하고, 스캐닝된 이미지에서 문자열을 추출하는 OCR 처리부, 상기 추출된 문자열을 상기 재무제표에서 사용되는 표준 단어와 대조하여 상기 추출된 문자열에 대한 정확한 단어를 선택하는 표준 단어 판단부, 및 상기 선택된 표준 단어에 따라, 상기 OCR 처리된 데이터를 재 정렬하는 데이터 정렬부에 의해 달성된다. The above object is an OCR processing unit for scanning a financial statement, extracting a character string from the scanned image, and comparing the extracted character string with a standard word used in the financial statement according to the present invention. And a data sorting unit for rearranging the OCR-processed data according to the selected standard word.
바람직하게는, 상기 OCR 데이터에서 적어도 하나의 숫자열을 추출하고, 상기 추출된 표준 단어와 연계된 숫자열에 대해 회계 처리하여 검산하는 검산부를 더 포함한다. Preferably, the apparatus further includes a checker that extracts at least one numeric string from the OCR data, and accounts for and checks the numeric string associated with the extracted standard word.
바람직하게는, 상기 검산부는, 상기 숫자열이 배치된 위치에 따라 상기 스캐닝된 이미지를 적어도 둘 이상의 영역으로 구획하고, 구획된 각 영역의 숫자열을 가감 처리하는 산술처리부를 더 포함한다.Preferably, the checker further includes an arithmetic processing unit that divides the scanned image into at least two areas according to the position where the number string is arranged, and adds or subtracts the number string of each partitioned area.
상기 표준 단어는, 상기 대차대조표, 손익계산서, 이익 잉여금 처분계산서, 및 현금흐름표에서 사용되는 단어인 것이 바람직하다.The standard word is preferably a word used in the balance sheet, the income statement, the statement of retained earnings, and the cash flow statement.
상기 표준 단어 판단부는, 상기 표준 단어에 대한 정보를 구비하는 표준 단어 저장부, 및 상기 표준 단어와 상기 OCR 처리되어 추출된 문자열을 대조하여 상기 표준 단어 저장부에 저장된 표준 단어들 중 가장 유사한 표준 단어를 선택하는 표준 단어 선택부를 포함하는 것이 바람직하다.The standard word determination unit may include a standard word storage unit having information on the standard word, and a standard word most similar to the standard words stored in the standard word storage unit by comparing the standard word and the extracted OCR string. It is preferable to include a standard word selection unit for selecting.
상기 재무제표는, 대차대조표, 손익계산서, 이익 잉여금 처분계산서, 및 현금흐름표 중 어느 하나인 것이 바람직하다.The financial statement is preferably one of a balance sheet, an income statement, a statement of retained earnings, and a cash flow statement.
상기 데이터 정렬부는, 상기 표준 단어와 상기 숫자열을 연계시킨 파일을 생 성하는 것이 바람직하다.Preferably, the data sorting unit generates a file in which the standard word and the numeric string are linked.
상기 파일은, 엑셀 파일인 것이 바람직하다.It is preferable that the said file is an Excel file.
상기한 목적은 본 발명에 따라, 재무제표를 스캐닝 하여 이미지를 추출하는 스캐닝부, 상기 이미지를 상기 재무제표에서 사용되는 표준 단어와 패턴매칭 하여 상기 추출된 문자에 대한 정확한 단어를 선정하는 표준 단어 판단부, 및 상기 판단 결과에 따른 표준 단어로 구성되는 파일을 생성하는 파일생성부에 의해 달성된다.According to the present invention, the scanning unit for extracting the image by scanning the financial statement, the standard word judgment for selecting the correct word for the extracted character by pattern matching the image with the standard word used in the financial statement And a file generation unit that generates a file consisting of standard words according to the determination result.
상기 표준 단어 판단부는, 상기 스캐닝된 이미지를 임시 저장하는 제1메모리, 상기 표준 단어, 및 상기 표준 단어에 대한 이미지를 구비하는 표준 단어 저장부, 및 상기 임시 저장된 이미지와 상기 표준 단어에 대한 이미지를 패턴 매칭하여 가장 근접한 표준 단어를 선택하는 표준 단어 선택부를 포함하는 것이 바람직하다.The standard word determination unit may include a first memory configured to temporarily store the scanned image, a standard word storage unit including an image of the standard word, and the standard word, and an image of the temporary stored image and the standard word. It is preferable to include a standard word selector that selects the closest standard word by pattern matching.
바람직하게는, 상기 재무재표는 표준 대차대조표 이고, 상기 표준 단어 저장부는, 상기 표준 대차대조표에 기재되는 단어를 표준 단어로서 구비한다.Preferably, the financial statement is a standard balance sheet, and the standard word storage unit includes a word described in the standard balance sheet as a standard word.
바람직하게는, 상기 스캐닝된 이미지에서 적어도 하나의 숫자열을 추출하고, 상기 선택된 표준 단어와 연계된 숫자열에 대해 회계 처리하여 검산하는 검산부를 더 포함한다.Preferably, the apparatus further includes a checker that extracts at least one string of numbers from the scanned image, and accounts for and checks the string of numbers associated with the selected standard word.
상기 표준 단어는, 상기 대차대조표, 손익계산서, 이익 잉여금 처분계산서, 및 현금흐름표에서 사용되는 단어인 것이 바람직하다.The standard word is preferably a word used in the balance sheet, the income statement, the statement of retained earnings, and the cash flow statement.
상기 파일생성부는, 상기 표준 단어와 상기 숫자열을 연계시킨 파일을 생성하는 것이 바람직하다.Preferably, the file generation unit generates a file in which the standard word and the number string are linked.
상기한 목적은 본 발명에 따라, 재무제표를 스캐닝 하는 단계, 상기 스캐닝 된 재무제표를 OCR 처리하여 문자 및 숫자열을 추출하는 단계, 상기 추출된 문자열을 재무제표에서 사용되는 복수의 표준 단어와 대조하여 가장 근접한 표준 단어를 선택하는 단계, 및 상기 선택된 표준 단어를 포함한 재무제표 파일을 생성하는 단계에 의해 달성된다.According to the present invention, the object of the present invention is to scan a financial statement, OCR processing the scanned financial statement to extract a string of letters and numbers, and compare the extracted string with a plurality of standard words used in the financial statement. Selecting the closest standard word, and generating a financial statement file containing the selected standard word.
바람직하게는, 상기 추출된 숫자열 중, 상기 표준 단어와 연계된 숫자열에 대해 회계원리를 이용한 검산을 수행하는 단계를 더 포함한다.Preferably, the method further includes performing a check using an accounting principle on the numeric string associated with the standard word among the extracted numeric strings.
상기 검산을 수행하는 단계는, 상기 숫자열을 상기 재무제표에 배치된 위치에 따라 구획하고, 구획된 각 영역의 숫자를 회계처리 방법에 따라 가감 처리하는 단계, 및 상기 가감 처리된 결과값의 양부를 판단하는 단계를 포함하는 것이 바람직하다.The performing of the checking may include: dividing the sequence of numbers according to the positions arranged in the financial statements, and subtracting the numbers of the divided regions according to an accounting method, and transferring the resultant values. It is preferable to include the step of determining.
바람직하게는, 상기 처리된 결과값이 정상인 경우, 상기 표준 단어와 상기 숫자열이 매칭된 파일을 생성하는 단계를 더 포함한다.The method may further include generating a file in which the standard word and the string of numbers are matched when the processed result value is normal.
이하, 도면을 참조하여 본 발명을 상세히 설명하도록 한다. Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명에 따른 재무제표 분석 시스템의 일 예에 따른 개념도를 나타낸다. 1 is a conceptual diagram according to an example of a financial statement analysis system according to the present invention.
도시된 바와 같이 본 실시예에 따른 재무제표 분석 시스템은, 은행과 같은 금융기관에 제출되는 A4지 크기의 재무제표를 OCR(Optical Character Recognition) 처리하기 위한 OCR 처리부(10), OCR 처리된 문서에서 추출된 문자(또는 문자열) 및 숫자(또는 숫자열)를 회계장부(예컨데 재무제표(대차대조표, 손익계산서, 이익 잉여금 처분계산서, 및 현금흐름표등))에서 통상적으로 사용되는 표준 단어와 비교하 기 위한 표준 단어 판단부(20), OCR 처리된 문서에서 추출된 숫자열(또는 숫자)을 가산 및 감산하여 OCR 처리된 각 숫자열의 양부를 판단하는 검산부(30), 및 표준 단어와 숫자열을 매칭하여 파일로 생성하는 데이터 정렬부(40)를 구비한다. 통상 OCR 처리부(10)는 재무제표를 광학판독 시, 문자(또는 문자열)나 숫자(또는 숫자열)에 대한 판독률이 90% 대에 머물고 있으며, 재무제표에 기재된 문자의 폰트, 크기, 및 인쇄상태에 따라 판독률이 변동되는 단점이 있다. 따라서, 본 실시예는 OCR 처리된 데이터를 회계장부에서 통상 사용되는 단어, 예컨데, 차변, 대변, 자산총계, 유동자산, 고정자산, 및 당좌자산과 같은 단어를 표준 단어로 하여 등록하고, 이 등록어와 OCR 처리되어 추출된 텍스트 데이터를 대조하여 가장 근접한 문자(또는 문자열) 및 숫자열(또는 숫자)을 파악 후, 하나의 파일로 병합한다. 예컨데, 스캐너(11)에서 스캐닝 된 이미지에 대해 문자인식 프로그램(12)을 적용하여 얻은 문자(또는 문자열, 이하 생략하도록 한다.)가 "유몽자산"이고, 표준 단어 판단부(20)에 등록된 표준 단어가 "유동자산"인 경우, 표준 단어 판단부(20)는 OCR 처리된 "유몽자산"을 회계장부에서 표준적으로 사용되는 "유동자산"으로 판단한다. 즉, 표준 단어 판단부(20)는 회계장부에서 통용되는 단어들을 등록해 두고 이를 OCR 처리된 문자와 비교 함으로서 OCR 처리 시 발생되는 오류를 감소시킨다.As shown, the financial statement analysis system according to the present embodiment includes an
검산부(30)는 OCR 처리된 문자 또는 숫자들 중 숫자에 대해 회계 처리하여 인식된 숫자(또는 숫자열)의 양부를 판단한다. 모든 회계장부는 입금된 내역과 출금된 내역간에 일정한 관계를 갖는다. 이는 도 2를 함께 참조하여 설명하도록 한다. 도 2는 대차대조표의 일 예를 나타낸다. 도시된 바와 같이, 대차대조표는 모 든 자산을 차변(借邊)에 배치하고, 부채 및 자본을 대변(貸邊)에 배치하며, 차변과 대변의 총 합계는 동일하다. 통상 대차대조표는 좌우로 양분되며, 양분된 좌측은 차편, 우측은 대변이 된다. 이에 따라, 검산부(30)는 좌변의 숫자열과 우측의 숫자열을 각각 합산 후, 양측이 같은 값을 갖는지의 여부를 판단함으로서 OCR 처리된 숫자(또는 숫자열, 이하 생략하도록 한다.)의 양부를 판단할 수 있다. 이 외에도 검산부(30)는 아래와 같은 회계 원리, 예컨데 자산을 나타내는 차변과 부채와 자본의 합을 나타내는 대변은 동일한 값을 갖는다는 대차 평균의 원리, 를 이용하여 OCR 처리된 숫자(또는 숫자열)의 양부를 판정할 수 있다.The
1) 자산 총계 = 부채 총계 + 자본 총계1) Total Assets = Total Liabilities + Total Capital
2) 자산 총계 = 유동 자산 + 고정 자산2) Total Assets = Current Assets + Fixed Assets
3) 부채 총계 = 유동 부채 + 고정 부채3) Total liabilities = Current liabilities + Fixed liabilities
4) 유동 자산 = 당좌 자산 + 재고 자산4) Current Asset = Quick Asset + Inventory
5) 고정 자산 = 투자 자산 + 유형 자산 + 무형 자산5) Fixed Assets = Investment Assets + Tangible Assets + Intangible Assets
또한, 검산부(30)는 대차대조표의 회계 원리를 이용하여 아래와 같은 검산식을 사용하여 OCR 처리된 숫자의 양부를 판정할 수 있다.In addition, the
6) 매출총이익 = 매출액 - 매출원가6) Gross profit = revenue-cost of sales
7) 영업이익 = 매출 총이익 - 판매비와 관리비7) Operating Income = Gross Profit-Sales and Maintenance
8) 경상이익 = 영업이익 - 영업외 비용 + 영업비용8) Recurring Income = Operating Income-Non-operating Cost + Operating Cost
9) 법인세 차감전 이익 = 경상 이익 + 특별 이익 - 특별 손실9) Profit before Income Tax = Ordinary Income + Special Income-Special Loss
10)당기 순이익 = 법인세 차감전 이익 - 법인세10) Net income = Profit before income tax-Income tax
이 외에도 재무제표에서 당좌자산이 현금, 보통예금, 외상 매출금, 부가세 대급금으로 구성되는 경우 당좌자산 = 현금 + 보통 예금 + 외상 매출금 + 부가세 대급금이 되며, 검산부(30)가 이러한 회계 원리를 적용하여 OCR 처리된 숫자의 양부를 판정할 수도 있다. 본 실시예는 상기한 10가지의 회계원리를 열거하고 있으나 이 외에도 대차대조표, 손익계산서, 이익 잉여금 처분계산서, 및 현금흐름표에서 사용되는 회계 원리는 모두 적용될 수 있다. 이에 더불어 상기 언급된 바와 같은 회계 원리를 스캐너(11)에 의해 스캐닝되는 영역별로 적용하여 각 영역에 대한 OCR 처리결과의 양부를 판정할 수도 있다. 데이터 정렬부(40)는 표준 단어 판단부(20)에서 판단된 단어와 검산부(30)에서 회계원리에 따라 검산된 숫자를 하나로 병합하여 엑셀과 같은 형식의 파일로 변환한다. 물론, 변환되는 파일의 형식은 엑셀 이외에도 다양한 파일 포멧이 될 수 있음은 물론이다. 이와 같은 파일 생성은 은행과 같은 금융기관에서 회계장부를 전산 처리하고 이를 데이터베이스(data base)화 하는데 유용하게 사용될 수 있다.In addition, if the checking assets consist of cash, ordinary deposits, accounts receivables, and VAT payments in the financial statements, the checking assets = cash + ordinary deposits + accounts receivables + VAT payments. It is also possible to determine whether or not the OCR processed number is applied. This embodiment enumerates the above ten accounting principles, but in addition, the accounting principles used in the balance sheet, the income statement, the retained earnings statement, and the cash flow statement can be applied. In addition, the accounting principle as described above may be applied for each area scanned by the
도 3은 도 1에 도시된 표준 단어 판단부의 일 예에 따른 블록개념도를 나타낸다. FIG. 3 is a block diagram illustrating an example of the standard word determiner illustrated in FIG. 1.
도시된 표준 단어 판단부(20)는 표준 단어 저장부(21), 및 표준 단어 선택부(22)를 구비한다. 표준 단어 저장부(21)는 램(RAM), 롬(ROM), 하드디스크 드라이 브(Hard Disk Drive)와 같은 저장매체에 의해 구현되며, 현재 정형화된 회계장부상에 존재하는 단어(예컨데 자산 총계, 부채 총계, 자본 총계, 유동자산, 고정자산, 당좌자산, 재고자산 매출액, 매출원가, 순이익 등등)를 구비한다. 이때, 표준 단어 저장부(21)는 등록된 표준 단어 이외에도 추가적으로 표준 단어를 더 등록 가능한 것이 바람직하다. 표준 단어 선택부(22)는 OCR 처리부(10)로부터 OCR 처리되어 인가되는 문자, 및 숫자를 표준 단어 저장부(21)에 등록된 표준 단어와 비교하여 가장 일치되는 표준 단어를 선택한다. 표준 단어 선택부(22)에서 선택된 표준 단어는 OCR 처리부(10)에서 OCR 처리되어 제공된 문자, 숫자를 대체하고 이를 데이터 정렬부(40)로 제공하게 된다. 이에 따라, 데이터 정렬부(40)는 표준 단어 선택부(22)에서 오류가 정정된 문자와 숫자를 제공받고 이를 하나의 파일로 머지(merge) 하게 된다. The illustrated standard word determiner 20 includes a
도 4는 도 1에 도시된 검산부의 일 예에 따른 블록개념도를 나타낸다.4 is a block diagram illustrating an example of a check unit shown in FIG. 1.
도시된 검산부(30)는 버퍼(31), 및 산술처리부(32)로 구성되며, 산술처리부(32)는 구획 설정부(32a), 및 연산부(32b)를 포함한다. 버퍼(31)는 OCR 처리부(10)에서 숫자에 대해 출력된 이미지를 임시 저장한다. 버퍼(31)에 저장된 숫자는 구획 설정부(32a)로 인가되고, 구획 설정부(32a)는 회계장부(예컨데 대차대조표)의 특성에 따라 숫자들을 몇개로 구획한다. 예컨데, 구획 설정부(32a)는 도 2와 같은 이미지의 좌우를 50:50 으로 양분할 수 있다. 연산부(32b)는 구획 설정부(32a)에 의해 양분된 이미지의 좌측 및 우측에 대해 각각 연산하고, 연산된 결과의 동일성을 판단한다. 판단결과 동일한 경우 좌측과 우측에 기재된 숫자가 정확하다고 판 단할 수 있으며, 반대의 경우 숫자 인식에 오류가 발생한 것으로 판단할 수 있다. 이는 대차대조표의 좌측과 우측 각각에 기재된 숫자들의 합이 동일하다는 회계원리를 이용한 것이다. The illustrated
한편, 구획 설정부(32a)는 표준 단어 판단부(20)에서 판단된 단어를 참조하여 OCR 처리된 이미지를 구획할 수 있다. 도 2에 도시된 바와 같은 회계장부를 예로 들면, 회계원리상 유동자산은 당좌자산 + 재고자산이 되며, 이를 이용하여 표준 단어 판단부(20)에서 판단된 단어 중 "유동자산", "당좌자산", 및 "재고자산"의 우측에 기재된 숫자, "61,419,500", "57,419,500", 및 "4,000,000"을 하나의 구획으로 설정하고, 이 구획에 마련된 숫자를 산술 처리하여 검산을 수행할 수도 있다. 이 경우, 유동자산이 당좌자산 + 재고자산이므로 이들 단어와 연계된 숫자는61,419,500 = 57,419,500 + 4,000,000을 만족하여야 한다. Meanwhile, the
도 5는 본 발명의 다른 실시예에 따른 블록개념도를 나타낸다.5 is a block diagram according to another embodiment of the present invention.
도시된 실시예에 따른 광학문자인식 기능을 이용한 재무제표 분석 시스템은 스캐너(50), 표준 단어 선택부(61), 검산부(70), 및 데이터 정렬부(80)를 구비하며, 표준 단어 선택부(61)는 버퍼(61a), 스케일러(61b), 및 패턴 매칭부(61c)룰 포함한다. 표준 이미지 저장부(62)는 회계장부(예컨데 재무제표(대차대조표, 손익계산서, 이익 잉여금 처분계산서, 및 현금흐름표등))에서 통용되는 단어(예컨데, 자산 총계, 부채 총계, 자본 총계, 유동자산, 고정자산, 당좌자산, 재고자산 매출액, 매출원가, 순이익등)와, 단어에 대응되는 이미지를 구비한다. 버퍼(61a)는 스캐너(50)에서 전송된 이미지 데이터를 임시 저장한다. 스케일러(61b)는 버퍼(61a)에 임시 저장된 문자 또는 숫자를 표준 이미지 저장부(62)에 저장된 문자 및 숫자와 동일한 크기로 정규화 한다. 패턴매칭부(61c)는 스케일러(61b)에서 정규화된 문자 또는 숫자에 대한 이미지와 표준 이미지 저장부(62)에 기 저장된 이미지 데이터를 패턴 매칭하여 가장 유사한 이미지를 판단한다. 예컨데, 스케일러(61b)가 "두자자산"이라고 인식된 이미지 데이터를 제공하는 경우, 패턴매칭부(61c)는 표준 이미지 저장부(62)에 저장된 이미지들을 "두자자산"과 패턴 매칭 비교하여 그 중 가장 유사한 "투자자산"을 선택함으로서 스캐닝된 이미지 데이터의 오류를 감소시킨다.The financial statement analysis system using the optical character recognition function according to the illustrated embodiment includes a
한편, 스캐너(50)에 인가되는 재무제표가 국가에서 정한 양식에 따른 표준 제무제표(예컨데 표준 대차대조표)인 경우, 표준 제무제표에서 사용되는 계정과목(예컨데, 유동자산, 당좌자산, 단기금융상품, 단기 대여금, 미수금, 선급금, 재고자산, 가설재, 저장품, 용지, 고정자산, 투자자산, 사채발행비, 구축물, 장기성 매출채권, 장기 대여금, 및 개업비등등)은 어느 누구의 것이든지 동일하다. 이에 따라, 표준 이미지 저장부(62)에는 표준 재무제표에 기재된 계정과목에 대한 이미지 데이터가 포함되는 것이 바람직하다. 표준 재무제표에는 각 계정과목의 명칭 및 배치되는 위치가 정해져 있다. 따라서, 패턴매칭부(61c)는 추출된 문자와 이미지 데이터를 비교 시, 문자가 스캐닝된 위치정보를 함께 참조하여 패턴 매칭을 수행하고, 이를 통해 패턴 매칭에 따른 오류를 감소시킬 수 있다.On the other hand, if the financial statements authorized by the
도 6은 본 발명의 일 실시예에 따른 흐름도를 나타낸다.6 shows a flowchart according to an embodiment of the present invention.
먼저, 금융기관, 또는 회계 사무소에 제출된 회계장부는 스캐너(11)를 통해 스캐닝된다(S101). 회계장부에 대해 스캐닝된 이미지는 OCR 프로그램에 의해 패턴 매칭되어 문자 및 숫자가 판독된다(S102). 이때 스캐너(11)를 통해 획득된 이미지에 대해 패턴 매칭을 수행하는 OCR 프로그램은 스캐너(11)와 연결되는 별도의 컴퓨터에 설치됨이 바람직하다. 다음으로, OCR 프로그램에 의해 패턴 매칭되어 획득된 문자 및 숫자는 표준문자 선택부(24)에 의해 정확한 단어가 선택된다. 이때, 문자 및 숫자를 판단하는 방법은 아래의 두 가지가 적용될 수 있다. First, the account book submitted to a financial institution or an accounting office is scanned through the scanner 11 (S101). The scanned image for the book is pattern matched by the OCR program to read letters and numbers (S102). In this case, the OCR program for performing pattern matching on the image acquired through the
1) OCR 처리된 후 획득된 문자, 및 숫자를 기 저장된 표준 단어와 비교하여 가장 유사한 단어를 선택하는 방법.1) A method of selecting the most similar word by comparing letters and numbers obtained after OCR processing with previously stored standard words.
2) OCR 처리된 후 획득된 문자에 대한 이미지와 기 저장된 표준 단어에 대한 이미지를 패턴 매칭하여 가장 유사한 단어를 선택하는 방법.2) A method of pattern matching between an image of a character obtained after OCR processing and an image of a pre-stored standard word to select the most similar word.
문자 및 숫자가 선택된 후(S103), 숫자는 소정 개수로 구획되고, 각 구획별로 연산 처리하여 선택된 숫자의 오류 여부를 판단한다. 이는 앞서 상세히 설명되었는 바, 상세한 설명은 생략하도록 한다. 다음으로, 검산 결과가 정상인 경우(S104), 표준 단어와 숫자는 최초 스캐너(11)에 의해 스캐닝된 위치에 따라 재 정렬되며, 엑셀과 같은 형식의 파일로 변환된다(S105). 변환된 파일은 대용량 저장매체를 구비하는 은행, 회계사, 및 기타 회계장부를 처리하는 기관의 데이터 베이스에 저장될 수 있다(S106). After the letters and numbers are selected (S103), the numbers are partitioned into a predetermined number, and arithmetic processing is performed for each section to determine whether the selected number is in error. Since this has been described in detail above, a detailed description thereof will be omitted. Next, when the check result is normal (S104), the standard words and numbers are rearranged according to the position scanned by the
상기한 바와 같이, 본 발명은 광학문자인식의 정확성을 높여 회계장부 처리를 자동화 함으로서 기존에 수작업으로 처리되는 시간을 대폭 감소시킨다. 이에 따라, 종이와 같은 매체에 인자된 재무제표에 대해서도 디지털화 된 데이터의 생성 및 축적이 가능하다. 또한, 본 발명은 회계원리를 이용하여 OCR 처리된 이미지의 각 영역별로 오류를 검수 함으로서 회계장부 처리에 대한 신뢰성을 높인다. As described above, the present invention significantly reduces the time that is manually processed by automating the accounting book by increasing the accuracy of optical character recognition. Accordingly, it is possible to generate and accumulate digitized data even on financial statements printed on media such as paper. In addition, the present invention improves the reliability of the accounting book process by inspecting errors for each area of the OCR processed image using the accounting principle.
Claims (18)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050035222A KR100707943B1 (en) | 2005-04-27 | 2005-04-27 | System and Method for recognition of financial statement using optical character recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050035222A KR100707943B1 (en) | 2005-04-27 | 2005-04-27 | System and Method for recognition of financial statement using optical character recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060114097A KR20060114097A (en) | 2006-11-06 |
KR100707943B1 true KR100707943B1 (en) | 2007-04-18 |
Family
ID=37651906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050035222A KR100707943B1 (en) | 2005-04-27 | 2005-04-27 | System and Method for recognition of financial statement using optical character recognition |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100707943B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10402163B2 (en) | 2017-02-14 | 2019-09-03 | Accenture Global Solutions Limited | Intelligent data extraction |
KR20230062065A (en) | 2021-10-29 | 2023-05-09 | 삼성에스디에스 주식회사 | Method, apparatus, system and computer program for adjusting table coordinates information |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101139801B1 (en) * | 2010-03-12 | 2012-04-30 | 에스케이마케팅앤컴퍼니 주식회사 | Automatic data gathering system using by reading receipt and method thereof |
KR102149051B1 (en) * | 2020-04-24 | 2020-08-28 | 주식회사 애자일소다 | System and method for analyzing document using self confidence based on ocr |
KR102149052B1 (en) * | 2020-04-24 | 2020-08-28 | 주식회사 애자일소다 | System and method for analyzing document using natural language processing based on ocr |
WO2021215589A1 (en) * | 2020-04-24 | 2021-10-28 | 주식회사 애자일소다 | Ocr-based document analysis system and method |
CN113158988B (en) * | 2021-05-19 | 2024-04-05 | 上海云从企业发展有限公司 | Financial statement processing method, device and computer readable storage medium |
CN113177551A (en) * | 2021-05-21 | 2021-07-27 | 中国工商银行股份有限公司 | Report processing method and device |
KR102485095B1 (en) * | 2022-06-03 | 2023-01-06 | 프라임경영기술(주) | Apparatus for financial diagnosis and control method of thereof |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08287188A (en) * | 1995-04-17 | 1996-11-01 | Nec Corp | Character string recognition device |
JPH1097606A (en) | 1996-09-19 | 1998-04-14 | Toshiba Corp | Filing system connected with ocr device and filing method |
JPH11120293A (en) | 1997-10-16 | 1999-04-30 | Fujitsu Ltd | Character recognition/correction system |
JP2000194775A (en) * | 1998-12-25 | 2000-07-14 | Mitsui Knowledge Industry Kk | Method for generating client data and computer readable recording medium recording program for computer to execute the method |
JP2004280514A (en) | 2003-03-17 | 2004-10-07 | Toppan Forms Co Ltd | Pdf file and system for forming pdf file |
JP2005100079A (en) * | 2003-09-25 | 2005-04-14 | Casio Comput Co Ltd | Form data inputting device and program |
-
2005
- 2005-04-27 KR KR1020050035222A patent/KR100707943B1/en not_active IP Right Cessation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08287188A (en) * | 1995-04-17 | 1996-11-01 | Nec Corp | Character string recognition device |
JPH1097606A (en) | 1996-09-19 | 1998-04-14 | Toshiba Corp | Filing system connected with ocr device and filing method |
JPH11120293A (en) | 1997-10-16 | 1999-04-30 | Fujitsu Ltd | Character recognition/correction system |
JP2000194775A (en) * | 1998-12-25 | 2000-07-14 | Mitsui Knowledge Industry Kk | Method for generating client data and computer readable recording medium recording program for computer to execute the method |
JP2004280514A (en) | 2003-03-17 | 2004-10-07 | Toppan Forms Co Ltd | Pdf file and system for forming pdf file |
JP2005100079A (en) * | 2003-09-25 | 2005-04-14 | Casio Comput Co Ltd | Form data inputting device and program |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10402163B2 (en) | 2017-02-14 | 2019-09-03 | Accenture Global Solutions Limited | Intelligent data extraction |
KR20230062065A (en) | 2021-10-29 | 2023-05-09 | 삼성에스디에스 주식회사 | Method, apparatus, system and computer program for adjusting table coordinates information |
Also Published As
Publication number | Publication date |
---|---|
KR20060114097A (en) | 2006-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100707943B1 (en) | System and Method for recognition of financial statement using optical character recognition | |
US7366339B2 (en) | System and method for detecting cheque fraud | |
US7020320B2 (en) | Extracting text written on a check | |
US7545959B2 (en) | Systems and methods for handwriting analysis in documents | |
US20050281448A1 (en) | Method of creating a substitute check and an apparatus therefor | |
EP0772142A1 (en) | A method for electronically recognizing and parsing information contained in a financial statement | |
US8387862B2 (en) | Electronic image cash letter validation | |
US6038351A (en) | Apparatus and method for multi-entity, mixed document environment document identification and processing | |
JPH07110841A (en) | Method and apparatus for processing of securities | |
US20060210138A1 (en) | Verification of authenticity of check data | |
US20050018896A1 (en) | System and method for verifying legibility of an image of a check | |
US20030172030A1 (en) | Payee match positive pay banking | |
CN110785773A (en) | Bill recognition system | |
US20160379186A1 (en) | Element level confidence scoring of elements of a payment instrument for exceptions processing | |
US7480403B2 (en) | Apparatus, system, and method for fraud detection using multiple scan technologies | |
KR100846688B1 (en) | Joined front end and back end document processing | |
US4864111A (en) | Promissory note | |
US6769615B2 (en) | Multi-pass merge process for the check processing control system | |
JP4356908B2 (en) | Automatic financial statement input device | |
JP3946043B2 (en) | Form identification device and identification method | |
JP4418823B2 (en) | Form identification device and identification method thereof | |
JP3513806B2 (en) | Real estate registration information filing system | |
TWI807467B (en) | Key-item detection model building method, business-oriented key-value identification system and method | |
US11699021B1 (en) | System for reading contents from a document | |
CN118193596A (en) | Form recognition result processing method, device, equipment, medium and product |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |