KR20080006422A - Business form recognition apparatus, and business form recognition program - Google Patents

Business form recognition apparatus, and business form recognition program Download PDF

Info

Publication number
KR20080006422A
KR20080006422A KR1020060074608A KR20060074608A KR20080006422A KR 20080006422 A KR20080006422 A KR 20080006422A KR 1020060074608 A KR1020060074608 A KR 1020060074608A KR 20060074608 A KR20060074608 A KR 20060074608A KR 20080006422 A KR20080006422 A KR 20080006422A
Authority
KR
South Korea
Prior art keywords
item name
detected
frame
character string
unrecognized
Prior art date
Application number
KR1020060074608A
Other languages
Korean (ko)
Inventor
히로시 신조
다께시 나가사끼
가쯔미 마루까와
가즈끼 나까시마
Original Assignee
히다찌 컴퓨터 기끼 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 히다찌 컴퓨터 기끼 가부시끼가이샤 filed Critical 히다찌 컴퓨터 기끼 가부시끼가이샤
Publication of KR20080006422A publication Critical patent/KR20080006422A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area

Abstract

A device and a program for recognizing business forms are provided to recognize the business form having a different size/position of a frame and different order of items even if the business forms have the same kind. A processor detects the frame and character lines from image information of the inputted business form(110). The processor detects the character lines in the detected frame, recognizes an item name of the business form from the detected character line, and detects the frame having the recognized item name as an item name frame(140). The processor detects a data frame corresponding to the recognized item frame based on the recognized item name(150). The processor recognizes the character line included in the detected data frame(160). The processor determines whether the item name having the item name unrecognized in character recognition is found(210). The processor detects the data frame corresponding to the unrecognized item name again based on the unrecognized item name when the unrecognized item name is found(700). The processor recognizes the character line of the detected data frame.

Description

장표 인식 장치 및 장표 인식 프로그램{BUSINESS FORM RECOGNITION APPARATUS, AND BUSINESS FORM RECOGNITION PROGRAM} Book recognition device and book recognition program {BUSINESS FORM RECOGNITION APPARATUS, AND BUSINESS FORM RECOGNITION PROGRAM}

도 1은 본 발명의 실시예의 장표 인식 시스템의 구성도.1 is a block diagram of a book recognition system according to an embodiment of the present invention.

도 2는 본 발명의 실시예의 장표 인식 장치에 의해 실행되는 장표 처리의 개략을 도시하는 플로우차트.Fig. 2 is a flowchart showing an outline of a book processing executed by the book recognition apparatus of the embodiment of the present invention.

도 3은 본 발명의 실시예의 장표 인식 장치에 의해 실행되는 장표 처리의 상세 내용을 도시하는 플로우차트. Fig. 3 is a flowchart showing details of a book processing executed by the book recognition apparatus of the embodiment of the present invention.

도 4는 본 발명의 실시예의 장표의 일례를 도시하는 도면.4 shows an example of a chart of an embodiment of the present invention.

도 5는 본 발명의 실시예의 장표의 불판독 영역을 도시하는 도면.Fig. 5 is a diagram showing an unread region of a charge of an embodiment of the present invention.

도 6은 본 발명의 실시예의 항목명 틀 사이의 인접 관계의 일례를 도시하는 도면. Fig. 6 is a diagram showing an example of adjacency relation between item name frames of the embodiment of the present invention.

도 7은 본 발명의 실시예의 장표의 일례를 도시하는 도면.7 is a diagram showing an example of a chart of an embodiment of the present invention.

도 8은 본 발명의 실시예의 항목명 틀 사이의 인접 관계의 일례를 도시하는 도면. Fig. 8 is a diagram showing an example of adjacency relation between item name frames of the embodiment of the present invention.

도 9는 본 발명의 실시예의 장표의 일례를 도시하는 도면.9 is a diagram showing an example of a chart of an embodiment of the present invention.

도 10은 본 발명의 실시예의 항목명 틀 사이의 인접 관계의 일례를 도시하는 도면. Fig. 10 is a diagram showing an example of adjacency relation between item name frames of the embodiment of the present invention.

도 11은 본 발명의 실시예의 항목명 사전을 도시하는 도면.Fig. 11 is a diagram showing an item name dictionary in an embodiment of the present invention.

도 12는 본 발명의 실시예의 장표의 일례를 도시하는 도면.12 is a diagram showing an example of a chart of an embodiment of the present invention.

도 13은 본 발명의 실시예의 장표의 일례를 도시하는 도면.Fig. 13 is a diagram showing an example of a chart of an embodiment of the present invention.

도 14는 본 발명의 실시예의 항목별 이용 지식을 도시하는 도면.Fig. 14 is a diagram showing itemized usage knowledge of an embodiment of the present invention.

<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>

10:입력 장치10: input device

20:화상 입력 장치20: image input device

30:장표 인식 장치30: Book recognition device

40:인식 사전40: Recognition dictionary

50:표시 장치50: display device

60:화상 데이터베이스60: Image database

[특허 문헌1] 일본 특개2004-139484호 공보 [Patent Document 1] Japanese Patent Application Laid-Open No. 2004-139484

[특허 문헌2] 일본 특개평9-319824호 공보 [Patent Document 2] Japanese Patent Application Laid-Open No. 9-319824

[비특허 문헌1] 「히타치 OCR 솔루션 Imaging OCR」카탈로그, 주식회사 히타치 제작소, 2005년 12월판, P5∼6 [Non-Patent Document 1] The Hitachi OCR Solution Imaging OCR Catalog, Hitachi, Ltd., December 2005 Edition, P5-6

본 발명은, 장표 화상의 처리 기술에 관한 것으로, 특히 장표 기재된 정보의 속성 및 장표에 기재된 문자를 인식하는 기술에 관한 것이다. BACKGROUND OF THE INVENTION Field of the Invention The present invention relates to a technology for processing a book image, and more particularly, to a technique for recognizing attributes of information described in a book and letters described in the book.

종래의 OCR(Optical Character Reader)에 의해 장표를 인식하는 방식에서는, 미리 판독 위치가 정해져 있는 정형된 장표만 인식할 수 있는 방식이 많다. 이러한 정형된 장표가 인식하는 종래 기술로서, 「포맷 제너레이터」가 있다(예를 들면, 비특허 문헌1 참조). 비특허 문헌1에 기재된 기술에서는, 판독 대상의 문자가 기입되는 위치는 0.1mm 단위로 엄밀하게 지정된다. 기존의 OCR은, 포맷 제너레이터와 마찬가지의 서식 정보를 채용하고 있는 기종이 많다.In the conventional method of recognizing a book by an OCR (Optical Character Reader), there are many methods that can recognize only a formatted book having a predetermined reading position. As a conventional technique recognized by such a formal list, there is a "format generator" (see Non-Patent Document 1, for example). In the technique described in Non-Patent Document 1, the position at which the character to be read is written is strictly specified in 0.1 mm units. Many existing OCRs employ the same format information as the format generator.

한편, 종래의 방식에서는, 급여 지불 보고서 및 처방전 등과 같이, 동일한 종류의 장표이어도 1매마다 괘선의 개수, 틀의 위치, 및 틀의 크기 등이 미묘하게 서로 다른 장표는, 인식되지 않는다. 이러한 장표에서는, 각 항목 사이의 배치 관계가 거의 일정한 것을 이용하여, 미리 등록된 틀 구조와 장표 화상으로부터 해석한 틀 구조를 대조함으로써, 틀의 위치 및 틀의 크기 등이 1매마다 서로 다른 장표의 판독 영역을 특정하는 방식이 있다(예를 들면, 특허 문헌1 참조).On the other hand, in the conventional system, even if the same kind of slips, such as a salary payment report and a prescription, slips, the number of ruled lines, the position of the frame, the size of the frame, etc., are slightly different from each other. In such a book, the arrangement relationship between the items is almost constant, and the frame structure and the size of the frame, etc., which are different from each other, are compared with each other by comparing the frame structure registered in advance with the frame structure analyzed from the book image. There is a method of specifying the read area (see Patent Document 1, for example).

급여 지불 보고서 및 처방전 등 보다 자유도가 높은 장표로서 등기필 통지서 등이 있다. 등기필 통지서 등의 장표는, 동일한 종류의 장표이면 항목명은 거의 동일하지만, 1매마다 장표의 틀의 크기 및 틀의 수가 서로 다르다. 또한, 항목 사이의 배치 관계도 서로 다른 경우가 있다.More free forms such as payroll reports and prescriptions are written notices of registration. In the case of a registered notice or the like, the item names are almost the same as long as they are of the same type, but the size and number of the frames of the different forms are different for each sheet. In addition, arrangement | positioning relationship between items may also differ.

이러한 장표에 대하여, 우선 표 구조를 해석하고, 틀 내의 문자를 인식하여, 항목명이 기재되어 있는 틀을 검출하고, 항목명이 기재된 틀의 우측 또는 아래의 틀이 판독 대상의 데이터 영역이라고 판단하여, 인식하는 방식이 있다(예를 들면, 특허 문헌2 참조). 특허 문헌2에 기재된 방식에서는, 항목명의 문자 열 및 항목명 틀과 데이터 틀의 대응 관계를 OCR에 미리 저장해야만 한다.Regarding such a list, first, the table structure is analyzed, the characters in the frame are recognized, the frame in which the item name is described is detected, the right or the bottom of the frame in which the item name is written is judged to be the data area to be read, (For example, refer patent document 2). In the method described in Patent Document 2, the character string of the item name and the correspondence between the item name frame and the data frame must be stored in the OCR in advance.

본 발명의 장표 인식 장치는, 특허 문헌2에 기재된 기술로 인식할 수 있는 장표를 인식 대상으로 삼는다. 즉, 본 발명은, 동일한 종류의 장표이어도, 틀의 크기 및 틀의 위치가 서로 다르고, 또한 항목의 순서도 서로 다를 가능성이 있는 장표를 인식할 수 있는 장표 인식 장치를 제공한다. The book recognition device of the present invention uses a book that can be recognized by the technology described in Patent Document 2 as an object of recognition. That is, the present invention provides a book recognition apparatus capable of recognizing a book in which the size and position of the frame are different from each other and the order of the items may be different even with the same kind of book.

전술한 틀의 위치 및 틀의 크기 등이 동일한 종류이어도 서로 다른 장표에 대하여, 비특허 문헌1의 방식을 적용하면, 모든 장표의 서식 정보를 작성하고, OCR 에 작성된 모든 서식 정보가 저장되고, OCR은, 입력된 장표마다 어느 서식 정보를 적용할지를 식별해야만 한다. 서식 정보를 작성하는 코스트 및 식별의 정밀도의 관점면에서, 비특허 문헌1에 기재된 방식이고 틀의 위치 및 틀의 크기 등이 동일한 종류이어도 서로 다른 장표를 인식하는 것은 현실적이지 않다.Even if the position of the frame, the size of the frame, and the like are the same, when the method of Non-Patent Document 1 is applied to different forms, the form information of all the forms is created, and all the form information created in the OCR is stored, and the OCR Must identify which form information to apply to each entered document. In view of the cost of creating the form information and the precision of identification, it is not practical to recognize different forms even if the method described in Non Patent Literature 1 is the same type as the position and size of the frame.

또한, 특허 문헌1에 기재된 방식도, 장표의 항목 사이의 배치가 동일한 것이 전제 조건이므로, 틀의 위치 및 틀의 크기 등이 동일한 종류이어도 서로 다른 장표에 적용할 수 없다.In addition, the method described in Patent Document 1 is also a prerequisite that the arrangement between the items in the list is the same, and therefore, even if the position of the frame, the size of the frame, and the like are the same type, they cannot be applied to different lists.

특허 문헌2에 기재된 방식은, 틀의 위치 및 틀의 크기 등이 동일한 종류이어도 서로 다른 장표에 적용할 수 있지만, 실제로 운용할 때에 이하의 3개의 과제가 있다. Although the system described in patent document 2 can be applied to different forms even if the position of a frame, the size of a frame, etc. are the same kind, there exist three subjects at the time of actual operation.

제1 과제는, 장표의 항목명의 문자가 정확하게 인식되지 않은 경우, 데이터 틀은 검출되지 않는 것이다. 제2 과제는, 예를 들면, 「성명」과 「이름」과 같이, 동일한 항목을 나타내는 문자 열이어도, 표기가 서로 다른 경우, 항목명 틀이 검출되지 않는 것이다. 제3 과제는, 노이즈 및 괘선의 끊김 등 때문에, 장표의 틀 또는 문자 행을 검출할 수 없는 경우, 항목명 틀이 검출되지 않는 것이다.The first problem is that the data frame is not detected when the letter of the item name of the payload is not recognized correctly. The second problem is that, even if it is a character string indicating the same item, for example, "name" and "name", the item name frame is not detected when the notation is different. The third problem is that the item name frame is not detected when it is impossible to detect the form of the table of cards or the line of characters due to noise, broken lines, or the like.

특히, 제1 과제는, 실제의 운용 상에서는, 큰 문제이다. 일반적으로 항목명이 기재되어 있는 문자는, 작고, 또한 문자와 문자 사이 및 문자와 괘선 사이에서 접촉이 빈발하기 때문에, 문자가 인식될 확률은 낮다. 또한, 뭉개짐, 끊김, 및 노이즈를 포함하는 저품질의 화상의 문자가 인식될 확률은, 더욱 저하된다. In particular, the first problem is a big problem in actual operation. In general, the letter in which the item name is described is small, and since the contact is frequent between the letter and the letter and between the letter and the ruled line, the probability of the letter being recognized is low. In addition, the probability of recognizing characters of low quality images including crushing, breaking, and noise is further reduced.

본 발명의 대표적인 1형태에 따르면, 연산 처리를 하는 프로세서와, 상기 프로세서에 접속되는 기억부와, 장표의 화상 정보를 장표 인식 장치에 입력하는 화상 입력 장치에 접속되는 인터페이스를 구비하고, 상기 화상 입력 장치에 의해 입력된 장표의 화상 정보를 인식하는 장표 인식 장치에 있어서, 상기 프로세서는, 상기 입력된 장표의 화상 정보의 틀 및 문자 행을 검출하고, 상기 검출된 틀 내의 문자 열을 검출하고, 상기 검출된 문자 열로부터 장표 내의 항목명을 인식하고, 상기 인식된 항목명이 존재하는 틀을 항목명 틀로서 검출하고, 상기 인식된 항목명에 기초하여, 상기 인식된 항목명에 대응하는 데이터 틀을 검출하고, 상기 검출된 데이터 틀 내의 문자 열을 인식하는 인식 처리를 실행하고, 상기 인식 처리에서 문자 열이 인식되지 않은 항목명이 있는지의 여부를 판정하여, 상기 인식되지 않은 항목명이 있다고 판정된 경우, 상기 인식되지 않은 항목명에 기초하여, 상기 인식되지 않은 항 목명에 대응하는 데이터 틀을 다시 검출하고, 상기 검출된 데이터 틀의 문자 열을 인식하는 것을 특징으로 하는 것을 특징으로 한다. According to one typical aspect of the present invention, there is provided a processor for performing arithmetic processing, a storage unit connected to the processor, and an interface connected to an image input device for inputting image information of a document to a document recognition device. In a book recognition device for recognizing image information of a book entered by a device, the processor detects a frame and a character line of the image information of the book entered, detects a character string in the detected frame, and Recognizing the item name in the list from the detected character string, detecting the frame in which the recognized item name exists as an item name frame, detecting a data frame corresponding to the recognized item name, based on the recognized item name, and detecting the An item of recognition processing for recognizing a character string in the data frame, wherein the character string is not recognized in the recognition process. Or not, and if it is determined that there is the unrecognized item name, the data frame corresponding to the unrecognized item name is detected again based on the unrecognized item name, and Characterized in that the character string is recognized.

본 발명을 도면을 이용하여 설명한다. 또한, 본 발명은, 이하의 설명에 의해 한정되는 것은 아니다. The present invention will be described with reference to the drawings. In addition, this invention is not limited by the following description.

도 1은, 본 발명의 실시예의 장표 인식 시스템의 구성을 도시하는 도면이다. 1 is a diagram illustrating a configuration of a book recognition system according to an embodiment of the present invention.

장표 인식 시스템은, 입력 장치(10), 화상 입력 장치(20), 장표 인식 장치(30), 인식 사전(40), 표시 장치(50), 및 화상 데이터베이스(DB)(60)를 구비한다.The book recognition system includes an input device 10, an image input device 20, a book recognition device 30, a recognition dictionary 40, a display device 50, and an image database (DB) 60.

입력 장치(10)는, 장표 인식 장치(30)에 커맨드 및 코드 데이터 등을 입력하기 위한 키보드 및 마우스 등의 장치이다.The input device 10 is a device such as a keyboard and a mouse for inputting commands, code data, and the like into the book recognition device 30.

화상 입력 장치(20)는, 장표를 화상 데이터로 하여, 장표 인식 장치(30)에 입력하기 위한 스캐너 등의 장치이다.The image input device 20 is a device such as a scanner for inputting a document to the document recognition device 30 using the document as image data.

장표 인식 장치(30)는, 화상 입력 장치(20)에 의해 입력된 장표의 판독 영역을 검출하고, 그 장표의 문자를 인식하는 계산기로서, 도시하지 않은 CPU, 메모리, 및 기억 장치를 구비한다. The book recognition device 30 is a calculator for detecting a reading area of a book input by the image input device 20 and recognizing the letters of the book, and includes a CPU, a memory, and a storage device (not shown).

인식 사전(40)은, 장표 인식 장치(30)가 장표를 인식할 때에 참조하는 사전 데이터베이스이다. 인식 사전(40)은, 구체적으로는, 장표 인식 장치(30)가 문자 인식할 때에 참조하는 문자 인식 사전(610)을 저장하고, 또한, 장표 인증 장치(30)는, 장표의 판독 영역을 검출할 때에 참조하는 장표 정보 등을 저장한다.The recognition dictionary 40 is a dictionary database referred to when the book recognition device 30 recognizes a book. Specifically, the recognition dictionary 40 stores a character recognition dictionary 610 which is referred to when the book recognition device 30 recognizes letters, and the book authentication device 30 detects a book reading area. It stores the book information and the like to be referred to.

표시 장치(50)는, 장표 인식 장치(30)에 의해 장표가 인식된 결과를 표시하 는 디스플레이 등의 장치이다.The display device 50 is a device such as a display that displays the result of the book recognition by the book recognition device 30.

화상 DB(60)는, 화상 입력 장치(20)에 의해 장표 인식 장치(30)에 입력된 화상 데이터를 저장한다. 또한, 화상 DB(60)에는, 화상 입력 장치(20)에 의해 장표 인식 장치(30)가 인식하는 대상으로 되는 화상 데이터가 미리 저장되어 있어도 된다. The image DB 60 stores image data input to the document recognition device 30 by the image input device 20. In addition, the image DB 60 may store in advance image data that is an object recognized by the document recognition device 30 by the image input device 20.

또한, 본 발명은, 장표 인식 장치(30)와 동일한 기능을 구비하는 소프트웨어에 의해 통상의 계산기에 실장되어도 된다.In addition, the present invention may be mounted on an ordinary calculator by software having the same function as the book recognition device 30.

다음으로, 본 발명의 개요와 효과에 대해 설명한다.Next, the outline | summary and effect of this invention are demonstrated.

본 발명의 개요는, 장표 인식 장치(30)가 서식의 자유도가 높은 장표를 인식하는 경우, 적은 종류의 장표에 기초한 특징(항목명, 항목명 틀 사이의 배치, 및 항목명 틀과 데이터 틀과의 배치 관계 등)을 참조하여, 입력된 장표의 항목명을 인식하고, 데이터 틀의 위치 및 속성을 해석하면서 인식하는 것이다. 또한, 본 발명의 개요는, 항목명의 문자 열이 잘못 인식된 경우, 동일한 내용의 항목명이 서로 다르게 표기되어 있는 경우, 및 틀이 잘못 검출된 경우 등, 장표 인식 장치(30)가 정확하게 데이터 틀이 검출되지 않는 상황을 구제하는 것이다.The summary of the present invention is based on the characteristics (item name, arrangement between item name frames, and arrangement relationship between item name frames and data frames) based on a small number of types of books when the book recognition device 30 recognizes a high degree of freedom of formatting. Etc.), and recognizes the item name of the entered document and analyzes the position and attributes of the data frame. In addition, the summary of the present invention is that when the character strings of the item names are incorrectly recognized, when the item names with the same contents are differently displayed, and when the frames are incorrectly detected, the book recognition device 30 may not accurately display the data frames. It is to remedy the situation which is not detected.

구체적으로는, 항목명이 인식되고, 인식된 항목명으로부터 데이터 틀이 검출된다. 그리고, 검출된 데이터 틀의 문자 열이 인식된다. 이 일련의 처리에서 검출되지 않는 항목이 있는 경우, 이하의 방침으로 리트라이 처리를 반복함으로써, 검출할 수 없었던 항목을 구제한다. Specifically, the item name is recognized, and a data frame is detected from the recognized item name. Then, the character string of the detected data frame is recognized. If there is an item that is not detected in this series of processing, the retry process is repeated in the following manner to save the item that could not be detected.

먼저, 검출된 항목명 틀 및 데이터 틀을 리트라이 처리의 대상으로부터 제외 하고, 그 밖의 영역을 리트라이 처리의 대상으로 하여, 리트라이 처리가 실행된다. 다음으로, 장표에 포함되는 모든 항목명이 등록된 항목명 사전과 인식된 항목명이 비교되어, 인식되어 있지 않은 항목명이 특정된다. 다음으로, 특정된 항목명을 대상으로, 리트라이 처리가 실행된다.First, the detected item name frame and data frame are excluded from the object of the retry process, and the retry process is executed with the other area as the object of the retry process. Next, all the item names included in the table are compared with the registered item name dictionary and the recognized item name, thereby specifying an unrecognized item name. Next, a retry process is performed for the specified item name.

항목명이 인식되지 않는 영역의 문자 열이 인식되고, 인식된 영역의 문자 열의 데이터의 속성에 기초하여, 항목명이 인식된다.The character string of the area where the item name is not recognized is recognized, and the item name is recognized based on the attribute of the data of the character string of the recognized area.

이들 리트라이 처리의 일부 또는 전부가, 직렬 또는 병렬로 실행됨으로써, 인식될 가능성이 높은 장표 인식 장치(30)를 제공할 수 있다. Part or all of these retry processes can be performed in series or in parallel to provide a book recognition device 30 that is highly likely to be recognized.

도 2는, 본 발명의 실시예의 장표 인식 장치(30)에 의해 실행되는 장표 처리(100)의 개략을 도시하는 플로우차트이다. 또한, 장표 처리(100)는, 도 3에서 상세 내용을 설명한다. FIG. 2 is a flowchart showing the outline of the book processing 100 executed by the book recognition device 30 of the embodiment of the present invention. In addition, the book process 100 demonstrates the detail in FIG.

장표 인식 장치(30)에 의해 실행되는 장표 처리(100)는, 인식 처리(110), 리트라이 전처리(200), 및 리트라이 처리(700)로 대별된다. The book processing 100 executed by the book recognition device 30 is roughly divided into a recognition process 110, a retry preprocess 200, and a retry process 700.

인식 처리(110)는, 장표 인식 장치(30)에 입력된 장표의 화상 데이터로부터 항목명과 데이터를 대응지어, 장표의 문자를 인식한다.The recognition processing 110 associates item names and data from the image data of the pay book input to the pay book recognition device 30 to recognize the letters of the pay book.

리트라이 전처리(200)는, 인식 처리(110)에서 인식할 수 없었던 항목명을 검출한다.The retry preprocessing 200 detects an item name that could not be recognized by the recognition processing 110.

리트라이 처리(700)는, 리트라이 전처리(200)에서 검출된 항목명을 다시 인식한다. 또한, 리트라이 처리(700)는, 도 3에서의 리트라이 처리 A(300), 리트라이 처리 B(400), 및 리트라이 처리 C(500)의 총칭이다. The retry process 700 recognizes the item name detected by the retry preprocess 200 again. The retry process 700 is a generic term for the retry process A 300, the retry process B 400, and the retry process C 500 in FIG. 3.

다음으로, 도 3을 이용하여 장표 처리(100)의 상세 내용을 설명한다.Next, the details of the book processing 100 will be described with reference to FIG. 3.

도 3은, 본 발명의 실시예의 장표 인식 장치(30)에 의해 실행되는 장표 처리(100)의 상세 내용을 도시하는 플로우차트이다.FIG. 3 is a flowchart showing the details of the book processing 100 executed by the book recognition device 30 of the embodiment of the present invention.

우선, 인식 사전(40)에 대해 설명한다. 인식 사전(40)에는, 문자 인식 사전(610), 항목명 사전(620), 항목명 틀-데이터 틀 배치(630), 항목명 틀 사이의 인접 관계(640), 및 항목별 이용 지식(650)이 저장된다.First, the recognition dictionary 40 will be described. In the recognition dictionary 40, the character recognition dictionary 610, the item name dictionary 620, the item name frame-data frame arrangement 630, the adjacency relationship 640 between the item name frame, and the item-specific usage knowledge 650 are stored. do.

문자 인식 사전(610)에는, 장표 인식 장치(30)에 입력된 장표의 화상 데이터로부터 문자를 검출하기 위한 문자 정보가 등록된다. 항목명 사전(620)에는, 각 장표에 포함되는 모든 항목명이 장표마다 등록된다.In the character recognition dictionary 610, character information for detecting a character from the image data of the journal input to the journal recognition device 30 is registered. In the item name dictionary 620, all the item names included in each book are registered for each book.

항목명 틀-데이터 틀 배치(630)에는, 항목명 틀과 데이터 틀의 배치 관계가 저장된다. 구체적으로는, 항목명 틀-데이터 틀 배치(630)에는, 항목명 틀의 하측에 데이터 틀이 배치되어 있는지, 및 항목명 틀의 좌측에 데이터 틀이 배치되어 있는지 등의 배치 관계가 저장된다. The item name frame-data frame arrangement 630 stores the arrangement relationship between the item name frame and the data frame. Specifically, the item name frame-data frame arrangement 630 stores arrangement relationships such as whether the data frame is disposed below the item name frame and the data frame is arranged on the left side of the item name frame.

항목명 사이의 인접 관계(640)에는, 임의의 항목명과 그 항목명에 인접하는 항목명의 관계가 저장된다. 또한, 항목명 사이의 인접 관계(640)는, 도 6, 도 8, 및 도 10에서 상세 내용을 설명한다.In the adjacent relationship 640 between the item names, the relationship between any item name and the item name adjacent to the item name is stored. In addition, the adjacent relationship 640 between item names demonstrates the detail in FIG. 6, FIG. 8, and FIG.

항목별 이용 지식(650)은, 장표 인식 장치(30)가 데이터 틀의 문자 열로부터 항목명을 검출할 때에 참조된다. 또한, 항목별 이용 지식(650)은, 도 14에 도시한 바와 같이, 항목별 이용 지식(650)은, 도 14에 도시한 바와 같이, 항목명(6501)과 기재 내용(6502)을 포함한다. 항목명(6501)에는, 장표에 포함되는 항목명이 등록 된다. 기재 내용(6502)에는, 각 항목명(6501)에 대응하는 데이터에 기재된 내용이 등록된다. The item usage knowledge 650 is referred to when the book recognition device 30 detects an item name from a character string of a data frame. As shown in FIG. 14, the item-use knowledge 650 includes the item name 6501 and the description content 6502 as shown in FIG. 14. In the item name 6501, the item name included in the table is registered. In the description content 6502, the content described in the data corresponding to each item name 6501 is registered.

또한, 항목별 이용 지식(650)에 포함되는 항목명(6501)「성명」에 대응하는 기재 내용(6502)은, 성과 이름을 따로따로 등록해도 되고, 항목명(6501)「주소」에 대응하는 기재 내용(6502)은, 도도후켄(광역 자치 단체) 또는 시초손(기초 자치 단체) 등에 의해 계층적으로 등록하여도 된다. 또한, 항목명(6501)「전화 번호」 및 「금액」에 대응하는 기재 내용(6502)에 포함되는 「N」은, 0 내지 9까지의 숫자를 나타낸다. In addition, the description content 6502 corresponding to the item name 6501 "name" included in the item-specific use knowledge 650 may register the first and last name separately, and the description content corresponding to the item address 6501 "address". 6502 may be registered hierarchically by Dodofuken (regional self-government), a municipality (basic self-government), or the like. In addition, "N" contained in description content 6502 corresponding to item name 6501 "telephone number" and "amount of money" represents a number from 0 to 9.

다음으로, 장표 처리(100)의 상세 내용을 설명한다. Next, the detail content of the book process 100 is demonstrated.

전술한 바와 같이, 장표 처리(100)는, 인식 처리(110), 리트라이 전처리(200), 리트라이 처리 A(300), 리트라이 처리 B(400), 및 리트라이 처리 C(500)를 구비한다. 또한, 리트라이 처리 A(300), 리트라이 처리 B(400), 및 리트라이 처리 C(500)의 모두가 실행되지 않아도 된다. 또한, 장표 인식 장치(30)가, 리트라이 처리 A(300), 리트라이 처리 B(400), 및 리트라이 처리 C(500)를 직렬로 실행하는 경우, 리트라이 처리 A(300), 리트라이 처리 B(400), 및 리트라이 처리 C(500)를 실행하는 순서는 임의이다. 또한, 장표 인식 장치(30)는, 리트라이 처리 A(300), 리트라이 처리 B(400), 및 리트라이 처리 C(500)를 병렬로 실행하고, 실행한 결과를 통합하여도 된다. As described above, the document processing 100 includes a recognition process 110, a retry preprocess 200, a retry process A 300, a retry process B 400, and a retry process C 500. Equipped. In addition, all of the retry processing A 300, the retry processing B 400, and the retry processing C 500 may not be executed. In addition, when the book recognition device 30 executes the retry processing A 300, the retry processing B 400, and the retry processing C 500 in series, the retry processing A 300 and re The order of executing the try processing B 400 and the retry processing C 500 is arbitrary. In addition, the book recognition device 30 may execute the retry processing A 300, the retry processing B 400, and the retry processing C 500 in parallel, and integrate the results of the execution.

또한, 리트라이 처리 C(500)가 실행되지 않으면, 인식 사전(40)에는, 항목별 이용 지식(650)은 저장되지 않아도 된다.If the retry process C 500 is not executed, the item usage knowledge 650 may not be stored in the recognition dictionary 40.

우선, 장표의 화상 데이터가 장표 인식 장치(30)에 입력되면, 장표 인식 장치(30)는, 전처리를 실행한다(120). 전처리는, 장표 인식 장치(30)에, 입력된 화상 데이터로부터 표를 인식시키고, 인식된 표로부터 문자 행을 검출시키는 처리이다.First, when the image data of a book is input to the book recognition device 30, the book recognition device 30 performs preprocessing (120). The preprocess is a process in which the ticket recognition device 30 recognizes a table from the input image data and detects a character row from the recognized table.

여기서, 「표를 인식한다」란, 장표 인식 장치(30)에 입력된 화상 데이터로부터 틀의 위치를 검출하는 것이다. 또한, 「틀」이란, 장표의 세로 괘선과 가로괘선으로 둘러싸여진 직사각형 영역이다. 장표 인식 장치(30)가, 표를 인식하는 방법에 대해서는, 일본 특개평11-53466호 공보에 기재된 방법을 적용할 수 있다. Here, "recognizing a table" means to detect the position of a frame from image data input to the book recognition device 30. In addition, a "frame" is a rectangular area enclosed by the vertical ruled line and the horizontal ruled line of the long list. The method described in JP-A 11-53466 can be applied to the method in which the book recognition device 30 recognizes a table.

또한, 장표 인식 장치(30)가 문자 행을 검출하는 방법으로서 연결 성분을 분석하는 방법이 있다. 여기에서, 연결 성분을 분석하는 방법이란, 장표 장치(30)가 틀 내의 인접하는 연결 성분(흑 화소가 연속하고 있는 덩어리)을 가로 방향 또는 세로 방향으로 통합함으로써, 가로 방향의 문자 행 또는 세로 방향의 문자 행의 화상을 검출하는 방법이다. In addition, there is a method of analyzing the connection component as a method in which the book recognition device 30 detects a character line. Here, the method of analyzing the connection component means that the text device 30 integrates adjacent connection components (lumps in which black pixels are continuous) in the frame in the horizontal direction or the vertical direction, so that the character line in the horizontal direction or the vertical direction is used. Is a method of detecting an image of a character line.

다음으로, 장표 인식 장치(30)는, 스텝 120의 처리에서 검출된 틀에 포함되는 문자 열로부터 항목명의 문자 열을 인식한다(130). 구체적으로는, 장표 인식 장치(30)는, 스텝 120의 처리에서 검출된 문자 행의 화상으로부터 1문자마다의 영역을 잘라낸다. 그리고, 장표 인식 장치(30)는, 문자 인식 사전(610)을 참조하여, 잘라내어진 1문자마다의 영역의 패턴을 인식하고, 각 문자를 특정함으로써, 틀에 포함되는 문자 열을 특정한다. 그리고, 장표 인식 장치(30)는, 특정된 문자 열과 항목명 사전(620)에 등록된 항목명의 문자 열을 대조하여, 특정된 문자 열이 항목 명 사전(620)에 등록된 항목명의 문자 열과 일치하면, 그 특정된 문자 열을 항목명으로 인식한다.Next, the book recognition apparatus 30 recognizes the character string of the item name from the character string contained in the frame detected by the process of step 120 (130). Specifically, the book recognition apparatus 30 cuts out the area | region for every character from the image of the character line detected by the process of step 120. FIG. And the book recognition apparatus 30 references the character recognition dictionary 610, recognizes the pattern of the area | region cut out, and specifies each character, and specifies the character string contained in a frame. Then, the book recognition apparatus 30 compares the specified character string with the character string registered in the item name dictionary 620, and if the specified character string matches the character string registered in the item name dictionary 620, The specified string is recognized as the item name.

또한, 장표 인식 장치(30)가 항목명을 잘못 인식하는 것을 방지하기 위해, 특정된 문자 열과 항목명 사전(620)에 등록된 항목명의 문자 열이 완전하게 일치하지 않으면, 항목명과 인식되지 않도록 하면 된다.In addition, in order to prevent the book recognition apparatus 30 from erroneously recognizing the item name, if the specified character string and the character string registered in the item name dictionary 620 do not completely match, the recognition may not be performed with the item name.

또한, 장표 인식 장치(30)가 틀에 포함되는 문자 열을 특정하는 방법은, 일본 특개2004-171316호 공보에 기재된 방법을 적용할 수 있다. In addition, the method of Unexamined-Japanese-Patent No. 2004-171316 can be applied to the method of specifying the character string contained in a template by the book recognition apparatus 30. As shown in FIG.

다음으로, 장표 인식 장치(30)는, 스텝 120의 처리에서 항목명과 인식된 문자 열을 포함하는 틀을 항목명 틀로서 검출한다(140).Next, the book recognition device 30 detects the frame including the item name and the recognized character string in the process of step 120 as the item name frame (140).

그리고, 장표 인식 장치(30)는, 항목명 틀-데이터 틀 배치(630)를 참조하여, 각 항목명 틀에 대응하는 데이터 틀을 검출한다(150). 또한, 장표 인식 장치(30)는, 항목명 틀-데이터 틀 배치(630)를 참조하지 않고, 항목명 틀과 데이터 틀의 배치 정보로부터, 각 항목명 틀에 대응하는 데이터 틀을 검출하여도 된다. 장표 인식 장치(30)는, 항목명 틀-데이터 틀 배치(630)를 참조하지 않는 경우, 항목명 틀의 주위(일반적으로는, 항목명 틀 아래 또는 오른쪽)에 존재하는 항목명 틀로서 검출되지 않는 틀을 데이터 틀로서 검출한다.In operation 150, the book recognition apparatus 30 detects a data frame corresponding to each item name frame with reference to the item name frame-data frame arrangement 630. In addition, the book recognition apparatus 30 may detect the data frame corresponding to each item name frame from the item name frame and the arrangement information of the data frame without referring to the item name frame-data frame arrangement 630. When the book recognition apparatus 30 does not refer to the item name frame-data frame arrangement 630, the data is stored in a frame not detected as an item name frame existing around the item name frame (typically, below or to the right of the item name frame). Detects as a template.

다음으로, 장표 인식 장치(30)는, 스텝 150의 처리에서 검출된 데이터 틀에 포함되는 문자 열을 인식한다(160).Next, the book recognition apparatus 30 recognizes the character string contained in the data frame detected by the process of step 150 (160).

여기서, 장표 인식 장치(30)는, 항목별 이용 지식(650)을 참조하여, 데이터 틀에 포함되는 문자 열을 인식하여도 된다. Here, the book recognition device 30 may recognize the character string included in the data frame with reference to the item-specific usage knowledge 650.

구체적으로는, 장표 인식 장치(30)는, 항목명마다 기재 내용(6502)에 관한 정보를 절환하고, 각 항목명에 대응하는 기재 내용에 관한 정보와 대조하면서, 데이터 틀에 포함되는 문자 열을 인식한다. 즉, 장표 인식 장치(30)는, 각 항목명의 기재 내용(6502)에 등록된 정보로부터 데이터 틀에 포함될 문자 열의 종류(예를 들면, 숫자 등)를 예상하여, 데이터 틀에 포함되는 문자 열을 인식한다.Specifically, the book recognition device 30 recognizes a character string included in the data frame while switching the information on the description content 6502 for each item name and comparing it with the information about the description content corresponding to each item name. . That is, the book recognition device 30 estimates the type (eg, number) of character strings to be included in the data frame from the information registered in the description content 6502 of each item name, and calculates the character strings included in the data frame. Recognize.

예를 들면, 장표 인식 장치(30)는, 항목명 「금액」에 대응하는 데이터 틀에 포함되는 문자 열을 인식하는 경우, 항목명(6501)「금액」의 기재 내용(6502)을 참조하여, 항목명 「금액」에 대응하는 데이터 틀에 포함되는 문자 열은, 숫자인 것을 전제로, 데이터 틀에 포함되는 문자 열을 인식한다. For example, when the book recognition apparatus 30 recognizes the character string contained in the data frame corresponding to the item name "amount", it refers to the description content 6502 of "amount" of the item name, and the item name " The character string included in the data frame corresponding to "amount of money" recognizes the character string included in the data frame on the premise that it is a number.

한편, 데이터 틀에 대응하는 항목명이 항목별 이용 지식(650)에 등록되어 있지 않은 경우, 또는, 항목별 이용 지식(650)이 인식 사전(40)에 저장되어 있지 않은 경우, 장표 인식 장치(30)는, 각 항목명에 대응하는 데이터 틀에 포함되는 문자 열을 그대로 인식한다. On the other hand, when the item name corresponding to the data frame is not registered in the item-use knowledge 650, or when the item-use knowledge 650 is not stored in the recognition dictionary 40, the book recognition device 30 ) Recognizes the character string contained in the data frame corresponding to each item name as it is.

그리고, 장표 인식 장치(30)는, 모든 문자 행에 대해서 인식 처리(110)를 실행한다. Then, the book recognition device 30 executes the recognition processing 110 for all character lines.

인식 처리(110)가 실행되면, 장표 인식 장치(30)는, 인식 처리(110)에서 인식되어 있지 않은 항목명이 있는지의 여부를 판정한다. 실행된 결과, 항목명 사전(620)에 등록된 항목명 중 인식되어 있지 않은 항목명이 있는 경우, 장표 인식 장치(30)는 리트라이 전처리(200)를 실행한다. 또한, 장표 인식 장치(30)는, 인식 처리(110)가 실행된 결과, 모든 항목명이 인식되었을 경우에는, 장표 처리(100)를 종료한다. When the recognition process 110 is executed, the book recognition device 30 determines whether there is an item name that is not recognized in the recognition process 110. As a result of the execution, when there is an item name that is not recognized among the item names registered in the item name dictionary 620, the book recognition device 30 executes the retry preprocessing 200. In addition, when all item names are recognized as a result of the recognition processing 110 being executed, the book recognition device 30 ends the book processing 100.

다음으로, 인식 처리(110)가 실행된 결과, 항목명이 인식되지 않은 경우에 장표 인식 장치(30)에 의해 실행되는 리트라이 전처리(200)에 대해서 설명한다.Next, the retry preprocessing 200 executed by the book recognition apparatus 30 when the item name is not recognized as a result of the recognition processing 110 is described.

리트라이 전처리(200)는, 리트라이 처리(700)가 실행되기 전에 실행되는 처리에서, 인식 처리(110)가 실행된 결과, 인식할 수 없었던 항목명 및 그 항목명에 대응하는 데이터가 특정된다.In the retry preprocessing 200, in the processing executed before the retry processing 700 is executed, as a result of the recognition processing 110, an unrecognized item name and data corresponding to the item name are specified.

장표 인식 장치(30)는, 인식 처리(110)가 실행됨으로써, 검출된 항목명 틀 및 데이터 틀을 제외한 영역(이하, 불판독 영역이라고 함)을 검출한다(210). 또한, 검출되지 않은 항목명 틀이 불판독 영역에 존재한다. By performing the recognition process 110, the book recognition apparatus 30 detects the area | region (henceforth an unread area | region) except the detected item name frame and data frame (210). In addition, an undetected item name frame exists in the unread area.

다음으로, 장표 인식 장치(30)는, 스텝 210의 처리에서 검출된 불판독 영역으로부터, 인식되어 있지 않은 항목명을 특정한다(220). 구체적으로는, 장표 인식 장치(30)는, 항목명 사전(620)에 등록된 항목명과 인식된 항목명을 비교하고, 항목명 사전(620)에 등록된 항목명 중 인식된 항목명을 제외함으로써, 인식되어 있지 않은 항목명을 특정한다. 또한, 장표 인식 장치(30)는, 스텝 220의 처리를, 인식 처리(110)에서 검출되어 있지 않은 항목명이 있는지의 여부를 판정하는 경우에, 실행하여도 된다.Next, the book recognition apparatus 30 specifies the item name which is not recognized from the unread area detected by the process of step 210 (220). Specifically, the book recognition apparatus 30 compares the item name registered in the item name dictionary 620 with the recognized item name, and excludes the recognized item name among the item names registered in the item name dictionary 620, thereby not being recognized. Specifies the item name. In addition, the book recognition device 30 may execute the process of step 220 when it is determined whether there is an item name that is not detected in the recognition process 110.

그리고, 장표 인식 장치(30)는, 항목명 틀 사이의 인접 관계(640)를 참조하여, 인식되어 있지 않은 항목명의 항목명 틀의 위치를 검출한다(230). 또한, 항목명 틀 사이의 인접 관계(640)가 인식 사전(40)에 저장되어 있지 않은 경우, 스텝 230의 처리를 생략하여도 된다.Then, the book recognition device 30 detects the position of the item name frame of the unrecognized item name with reference to the adjacent relationship 640 between the item name frames (230). In addition, when the adjacent relationship 640 between item name frames is not stored in the recognition dictionary 40, the process of step 230 may be abbreviate | omitted.

여기서, 검출되어 있지 않은 항목명 틀이 복수 검출된 경우, 및 항목 틀 사이의 인접 관계(640)가 인식 사전(40)에 저장되어 있지 않은 경우 등, 즉 검출되어 있지 않은 항목명 틀의 위치가 일의로 검출되지 않은 경우, 장표 인식 장치(30)는, 리트라이 처리(700)를 실행한다. 한편, 인식되어 있지 않은 항목명이 1개 검출된 경우, 장표 인식 장치(30)는, 스텝 140 처리로 되돌아간다.Here, when a plurality of item name frames which are not detected are detected, and when the adjacent relationship 640 between the item frames is not stored in the recognition dictionary 40, that is, the position of the item name frames which are not detected is unique. If it is not detected, the book recognition device 30 executes the retry process 700. On the other hand, when one item name which is not recognized is detected, the book recognition apparatus 30 returns to step 140 process.

다음으로, 인식 처리(110) 및 리트라이 전처리(200)에 대해서 구체적인 예를 이용하여 설명한다.Next, the recognition processing 110 and the retry preprocessing 200 will be described using specific examples.

도 4는, 본 발명의 실시예의 장표 자체의 일례를 도시하는 도면이다. 4 is a diagram showing an example of the list itself of the embodiment of the present invention.

도 4에 도시한 장표가 장표 인식 장치(30)에 입력되면, 장표 인식 장치(30)는, 인식 처리(110)를 실행한다. 그러나, 도 4에 도시한 장표에는, 「전화 번호」의 「번」의 문자에 인쇄 시에 발생한 노이즈가 있다. 장표 인식 장치(30)는, 스텝 130의 처리에서, 입력된 장표에 노이즈가 있는 문자 열을 인식할 수 없다. 한편, 장표 인식 장치(30)는, 「성명」, 「주소」, 및 「금액」의 항목명에 포함되는 문자 열을 인식한다. 그리고, 장표 인식 장치(30)는, 스텝 140의 처리에서, 항목명 사전(620)을 참조하여, 이들의 항목명을 특정한다. 그리고, 장표 인식 장치(30)는, 스텝 150의 처리에서, 항목명 틀-데이터 틀 배치(630)를 참조하여, 「성명」, 「주소」, 및 「금액」의 항목명 틀 아래에 배치되는 틀을 데이터 틀로서 검출하고, 검출된 데이터 틀의 문자 열을 스텝 160의 처리에서 인식한다. When the book shown in FIG. 4 is input to the book recognition device 30, the book recognition device 30 executes the recognition process 110. However, in the table shown in Fig. 4, there is noise generated at the time of printing on the character of "number" of "telephone number". In the process of step 130, the book recognition device 30 cannot recognize a character string with noise in the input book. On the other hand, the book recognition apparatus 30 recognizes the character string contained in the item name of "name", "address", and "money amount". And the book recognition apparatus 30 references these item name dictionary 620, and specifies these item names in the process of step 140. FIG. In addition, in the process of step 150, the book recognition apparatus 30 refers to the item name frame-data frame arrangement 630 and forms a frame arranged under the item name frame of "name", "address", and "amount". It detects as a data frame and recognizes the character string of the detected data frame in the process of step 160.

장표 인식 장치(30)는, 항목명 사전(620)에 등록된 항목명 중 인식되어 있지 않은 항목명이 있으므로, 리트라이 전처리(200)를 실행한다.The book recognition device 30 executes the retry preprocessing 200 because there is an item name not recognized among the item names registered in the item name dictionary 620.

장표 인식 장치(30)는, 스텝 210의 처리에서, 도 5에 도시한 굵은 선으로 둘러싸인 영역(500)을 불판독 영역으로서 검출한다. 다음으로, 장표 인식 장치(30)는, 스텝 220의 처리에서, 항목명 사전(620)을 참조하여, 인식되어 있지 않은 항목명을 특정한다. 여기에서, 항목명 사전(620)에는, 「성명」, 「주소」, 「전화 번호」, 및 「금액」이 등록되어 있다. 「성명」, 「주소」, 및 「금액」은 스텝 130의 처리에서 항목명으로서 인식되어 있으므로, 장표 인식 장치(30)는, 인식되어 있지 않은 항목명은 「전화 번호」라고 특정한다. In the process of step 210, the book recognition apparatus 30 detects the area | region 500 enclosed by the thick line shown in FIG. 5 as an unread area | region. Next, in the process of step 220, the book recognition apparatus 30 refers to the item name dictionary 620, and specifies the item name which is not recognized. Here, "name", "address", "telephone number", and "amount of money" are registered in the item name dictionary 620. Since the "name", "address", and "amount" are recognized as the item name in the processing of Step 130, the book recognition device 30 specifies that the item name that is not recognized is "phone number".

다음으로, 장표 인식 장치(30)는, 스텝 230의 처리에서, 도 6에 도시한 항목명 틀 사이의 인접 관계(640)를 참조하여, 「전화 번호」의 위치가 「주소」의 항목명 틀과 「금액」의 항목명 틀 사이에 배치되어 있는 것을 검출한다.Next, in the process of step 230, the book recognition apparatus 30 refers to the adjacency relationship 640 between the item name frames shown in FIG. It is detected that it is arranged between the item name frames of the "money amount".

또한, 도 6에 도시한 항목명 틀 사이의 인접 관계(640)는, 항목명(6401) 및 인접 항목명 틀(6402)을 포함한다. 항목명(6401)에는, 각 장표의 항목명 사전(620)에 등록된 항목명이 등록된다. 인접 항목명 틀(6402)은, 항목명(6401)에 등록된 항목명의 틀과 그 틀에 인접하는 항목명과의 인접 관계를 나타내는 「좌」, 「우」, 「상」, 및 「하」를 포함한다. In addition, the adjacency relationship 640 between the item name frames shown in FIG. 6 includes an item name 6401 and an adjacent item name frame 6402. In the item name 6401, the item name registered in the item name dictionary 620 of each book is registered. The adjacent item name frame 6402 includes "left", "right", "upper", and "lower" indicating an adjacent relationship between the item name frame registered in the item name 6401 and the item name adjacent to the frame. .

또한, 항목명(6401)에 등록된 항목명에 인접하는 항목명이 없는 경우에는, 인접 항목명 틀에 「―」가 등록된다.When there is no item name adjacent to the item name registered in the item name 6401, "-" is registered in the adjacent item name frame.

다음으로, 스텝 210의 처리에서 인식되어 있지 않은 항목명으로서 특정된 항목명 「전화 번호」의 위치의 검출 방법에 대해서 설명한다.Next, a method of detecting the position of the item name "telephone number" specified as the item name not recognized in the process of step 210 will be described.

우선, 장표 인식 장치(30)는, 인접 항목명 틀(6402)을 참조하여, 「전화 번 호」에 인접하는 항목명을 검출한다. 여기에서는, 「주소」와 「금액」이 검출된다. 즉, 「전화 번호」는 「주소」와 「금액」 사이에 존재한다. First, the book recognition apparatus 30 refers to the adjacent item name frame 6402 and detects an item name adjacent to the "telephone number". Here, the "address" and the "money amount" are detected. That is, the "phone number" exists between "address" and "amount".

또한, 스텝 140의 처리에서 「주소」와 「금액」의 항목명 틀은 검출되어 있으므로, 「전화 번호」의 항목명 틀의 위치가 일의로 검출된다.In addition, since the item name frame of "address" and "amount" is detected in the process of step 140, the position of the item name frame of "telephone number" is uniquely detected.

따라서, 「전화 번호」의 항목명 틀의 위치가 일의로 검출되었으므로, 장표 인식 장치(30)는, 스텝 140의 처리로 되돌아가, 다시 항목명 틀을 결정하고, 스텝 150의 처리 이후에 의해 데이터 틀을 인식한다. Therefore, since the position of the item name frame of "telephone number" was uniquely detected, the book recognition device 30 returns to the process of step 140, determines the item name frame again, and then, after the process of step 150, the data frame. Recognize.

항목명의 인접 관계가 서로 다른 장표(예를 들면, 도 4에 도시한 장표와 도 7에 도시한 장표)가 혼재하여 장표 인식 장치(30)에 입력된 경우, 항목명 틀 사이의 인접 관계(640)는, 도 8에 도시한 바와 같이, 1개의 항목명에 대하여 복수의 인접 관계를 등록하면 된다.Adjacent relations between the item name frames in the case where a list of documents having different adjacencies in item names (for example, a document shown in FIG. 4 and a document shown in FIG. 7) are input to the document recognition device 30 in a mixed manner. As shown in Fig. 8, a plurality of adjacent relations may be registered for one item name.

또한, 도 9에 도시한 장표와 같이, 각 항목명이 상하로 인접하는 경우, 항목명 틀 사이의 인접 관계(640)는, 도 10에 도시한 바와 같이, 인접 항목명 틀(6402)의 「상」과 「하」의 란에 항목명의 인접 관계가 등록된다. In addition, as shown in the table shown in FIG. 9, when each item name is adjacent to each other up and down, the adjacency relationship 640 between the item name frames is, as shown in FIG. Adjacent relationships of item names are registered in the "bottom" column.

전술한 바와 같이, 인식되어 있지 않은 항목명 틀의 위치가 일의로 검출되지 않은 경우, 장표 인식 장치(30)는, 리트라이 처리(700)를 실행한다. As described above, when the position of the item name frame which is not recognized is uniquely detected, the book recognition device 30 executes the retry process 700.

우선, 리트라이 처리 A(300)에 대해서 설명한다.First, the retry process A 300 will be described.

장표 인식 장치(30)는, 불판독 영역의 틀의 문자 열을 인식하고, 항목명 사전(620)을 참조하여, 항목명을 인식한다(310). 장표 인식 장치(30)가 항목명을 인식하면, 장표 인식 장치(30)는, 스텝 140의 처리로 되돌아간다.The book recognition apparatus 30 recognizes the character string of the frame of the unread area, and recognizes the item name with reference to the item name dictionary 620 (310). When the book recognition device 30 recognizes the item name, the book recognition device 30 returns to the process of step 140.

스텝 310의 처리에 대해 구체적인 예를 이용하여 설명한다. The process of step 310 is demonstrated using a specific example.

여기에서는, 도 4에 도시하는 장표가 장표 인식 장치(30)에 입력된 경우, 스텝 210의 처리에서 불판독 영역의 틀로서 검출된 도 5에 도시한 장표의 굵은 선 틀(500)이 스텝 310의 처리의 대상이다.Here, when the form shown in FIG. 4 is input into the form recognition device 30, the thick line frame 500 of the form shown in FIG. 5 detected as a frame of the unread area | region by the process of step 210 is step 310. Is the subject of processing.

또한, 스텝 230의 처리에서, 굵은 선 틀(500) 내의 가장 위의 틀이 항목명 틀로서 검출되었지만, 여기서는 굵은 선 틀(500) 내에서 항목명 틀이 검출되지 않은 경우에 대해 설명한다. 또한, 이 경우, 스텝 220의 처리에서, 검출되어 있지 않은 항목명이 「전화 번호」라고 특정되어 있는 것으로 한다.In addition, in the process of step 230, although the uppermost frame in the thick line frame 500 was detected as an item name frame, the case where the item name frame was not detected in the thick line frame 500 is demonstrated. In this case, it is assumed that the item name not detected in the processing in step 220 is specified as "phone number".

장표 인식 장치(30)는, 검출되어 있지 않은 항목명이 「전화 번호」라고 특정되어 있으므로, 스텝 310의 처리에서, 불판독 영역의 틀 내에서 인식된 문자 열과 항목명 사전(620)에 등록된 「전화 번호」를 대조하여, 불판독 영역의 틀 내에서 인식된 문자 열 중에서 가장 「전화 번호」에 가까운 문자 열을, 항목명 「전화 번호」로서 인식한다.Since the item recognition device 30 specifies that the item name that has not been detected is "telephone number", the "telephone" registered in the text string recognized in the frame of the unread area and the item name dictionary 620 in the process of step 310. By comparing the number, the character string closest to the "telephone number" among the character strings recognized within the frame of the unread area is recognized as the item name "telephone number".

또한, 검출되어 있지 않은 항목명이 복수 존재하는 경우, 인식되어 있지 않은 모든 항목명을 대조의 대상으로 하면 된다.In addition, when there exists a plurality of item names that are not detected, all item names that are not recognized may be used as the target of verification.

즉, 장표 인식 장치(30)는, 인식되어 있지 않은 항목명을 특정하고, 불판독 영역의 틀 내에서 인식된 문자 열과 대조하는 항목명 사전(620)에 등록된 항목명을 줄여, 항목명을 인식한다. 이것에 의해, 장표 인식 장치(30)는, 불판독 영역의 틀 내에서 인식된 문자 열과 항목명 사전(620)에 등록된 항목명을 대조하는 조건을 완화시켜도, 항목명을 잘못 인식할 가능성이 적어진다. That is, the book recognition apparatus 30 recognizes the item name by specifying the unrecognized item name, reducing the item name registered in the item name dictionary 620 matching with the recognized character string in the frame of the unread area. As a result, even if the condition for recognizing the item string is matched with the character string recognized in the frame of the unread area and the item name registered in the item name dictionary 620, the book recognition device 30 is less likely to recognize the item name incorrectly.

다음으로, 대조 조건을 완화시키는 방법에 대해, 구체적으로 설명한다.Next, the method of alleviating a control condition is demonstrated concretely.

제1 대조 조건을 완화시키는 방법을 설명한다. 장표 인식 장치(30)는, 불판독 영역의 틀 내에서 인식된 문자 열이, 항목명 사전(620)에 등록된 항목명과 1 문자 상위해도, 불판독 영역의 틀 내에서 인식된 문자 열을 항목명 사전(620)에 등록된 항목명으로 인식한다. 이것에 의해, 도 5에 도시한 굵은 선 틀(500) 내의 불판독 영역의 「전화 번호」의 「번」이, 노이즈 때문에 인식되지 않아도, 장표 인식 장치(30)는, 불판독 영역의 「전화 번호」를 항목명으로 인식할 수 있다. A method of mitigating the first control condition will be described. Even if the character string recognized in the frame of the unread area is one character different from the item name registered in the item name dictionary 620, the book recognition device 30 sets the character string recognized in the frame of the unread area in the item name dictionary. Recognized as an item name registered in (620). Thereby, even if the "number" of the "telephone number" of the unread area | region in the thick line frame 500 shown in FIG. 5 is not recognized because of noise, the ticket recognition apparatus 30 is "the telephone of the unread area | region. Number ”can be recognized as an item name.

제2 대조 조건을 완화시키는 방법을 설명한다. 장표 인식 장치(30)는, 불판독 영역의 틀 내에서 인식된 문자 열이, 항목명 사전(620)에 등록된 항목명의 문자 열 이외의 문자를 포함하는 경우에도, 불판독 영역의 틀 내에서 인식된 문자 열을 항목명 사전(620)에 등록된 항목명으로 인식한다. 이것에 의해, 예를 들면, 불판독 영역의 틀 내에서 인식된 문자 열이 「ご住所」로서, 항목명 사전(620)에 등록된 항목명이 「住所」이어도, 장표 인식 장치(30)는, 불판독 영역의 틀 내에서 인식된 문자 열 「ご住所」를 항목명 「住所」로 인식할 수 있다. 이 결과, 장표 인식 장치(30)는, 항목명 사전(620)에 등록되어 있지 않은 항목명도 인식할 수 있다. A method of mitigating the second control condition will be described. The book recognition apparatus 30 recognizes within the frame of the unread area even when the character string recognized within the frame of the unread area includes characters other than the string of item names registered in the item name dictionary 620. The recognized character string is recognized as an item name registered in the item name dictionary 620. Thus, for example, even if the character string recognized in the frame of the unread area is "」 所 ", and the item name registered in the item name dictionary 620 is" 住所 ", the book recognition device 30 is not allowed. The character string "ご 住所" recognized in the frame of the reading area can be recognized as the item name "住所". As a result, the book recognition device 30 can also recognize the item name not registered in the item name dictionary 620.

제3 대조 조건을 완화시키는 방법을 설명한다. 장표 인식 장치(30)는, 불판독 영역의 틀 내에서 인식된 문자 열과 항목명 사전(620)에 등록된 항목명이 서로 다른 표기이어도, 불판독 영역의 틀 내에서 인식된 문자 열을 항목명으로 인식한다.A method of mitigating the third control condition will be described. The book recognition apparatus 30 recognizes the character string recognized in the frame of the unread area as the item name even if the character string recognized in the frame of the unread area and the item name registered in the item name dictionary 620 are different from each other. .

구체적으로는, 장표 인식 장치(30)의 인식 사전(40)은, 도 11에 도시한 항목명 사전(620)을 저장한다. 도 11에 도시하는 항목명 사전(620)은, 항목명(6201) 및 표기(6202)를 포함한다. 항목명(6201)에는, 장표에 포함되는 항목명이 등록된다. 표기(6202)에는, 장표 인식 장치(30)가 항목명으로 인식하는 문자 열이 등록된다. 또한, 표기(6202)에 등록되는 문자 열에는, 항목명이 나타내는 의미와 동일한 의미의 문자 열이 등록되어도 된다. 예를 들면, 항목명(6201) 「성명」의 표기(6202)에는, 「성명」 및 「이름」이 등록되고, 항목(6201) 「주소」의 표기(6202)에는, 「住所」 및 「ご住所」이 등록된다. Specifically, the recognition dictionary 40 of the book recognition device 30 stores the item name dictionary 620 shown in FIG. The item name dictionary 620 shown in FIG. 11 includes an item name 6201 and notation 6202. In the item name 6201, the item name included in the book is registered. In the notation 6202, a character string recognized by the book recognition device 30 as an item name is registered. In the character string registered in the notation 6202, a character string having the same meaning as that indicated by the item name may be registered. For example, "name" and "name" are registered in notation 6202 of "name" in item name 6201, and "住所" and "ご 住所" in notation 6202 of item "6201". Is registered.

이것에 의해, 장표 인식 장치(30)는, 불판독 영역의 틀 내에서 인식된 문자 열과 항목명 사전(620)에 등록된 항목명이 서로 다른 경우이어도, 불판독 영역의 틀에서 인식된 문자 열이 항목명 사전(620)의 표기(6202)에 포함될 경우에는, 그 표기(6202)에 대응하는 항목명으로 인식할 수 있다.As a result, even if the character string recognized in the frame of the unread area and the item name registered in the item name dictionary 620 are different from each other, the book recognition device 30 displays the character string recognized in the frame of the unread area. When included in the notation 6202 of the dictionary 620, it may be recognized as an item name corresponding to the notation 6202.

또한, 제3 대조 조건을 완화시키는 방법은, 스텝 130의 처리에 적용하여도 된다. In addition, the method of alleviating the 3rd control condition may be applied to the process of step 130.

대조 조건을 완화시켜 항목명의 문자 열을 인식하는 스텝 310의 처리는, 스텝 130의 처리에 적용할 수 있다. 그러나, 최초의 항목명의 문자 열을 인식하는 처리에, 제1 및 제2 대조 조건을 완화시키는 방법을 적용하면, 장표 인식 장치(30)에 입력된 장표에 유사한 항목명이 포함되는 경우 등, 장표 인식 장치(30)는, 항목명을 잘못 인식하게 될 가능성이 높다. 한편, 제3 대조 조건을 완화시키는 방법을 스텝 130의 처리에 적용해도, 장표 인식 장치(30)가 항목명을 인식하게 될 가능성은, 완전 일치의 대조 조건인 경우와 마찬가지이다.The processing of step 310 for relieving the matching condition and recognizing the character string of the item name can be applied to the processing of step 130. However, when the method of alleviating the first and second collation conditions is applied to the process of recognizing the character string of the first item name, the book recognition, such as a case where a similar item name is included in the book input to the book recognition device 30, is applied. The device 30 is likely to misrecognize the item name. On the other hand, even if the method of alleviating the third matching condition is applied to the process of step 130, the possibility that the book recognition device 30 recognizes the item name is the same as that of the matching condition of perfect match.

대조 조건을 완화시켜 항목명의 문자 열을 인식하는 처리는, 인식 처리(110)에서 인식된 항목명을 제외하고, 인식하는 항목명을 한정하고나서, 실행된다. 따라서, 장표 인식 장치(30)는, 항목명을 잘못 인식할 가능성이 보다 낮아진다. The process of recognizing the character string of the item name by alleviating the matching condition is executed after limiting the recognized item name except for the item name recognized in the recognition process 110. Therefore, the book recognition device 30 is less likely to misrecognize the item name.

다음에 리트라이 처리 B(400)에 대해서 설명한다. Next, the retry processing B 400 will be described.

장표 인식 장치(30)는, 입력된 화상 데이터로부터 틀 및 문자 행을 재검출하고(410), 항목명의 문자 열을 인식한다(420). 또한, 스텝 420의 처리는, 스텝 310의 처리와 동일하다. 그리고, 스텝 420의 처리에서 항목명의 문자 열이 검출된 경우에는, 스텝 140의 처리로 되돌아간다. The book recognition device 30 redetects the frame and the text line from the input image data (410), and recognizes the text string of the item name (420). In addition, the process of step 420 is the same as the process of step 310. When the character string of the item name is detected in the processing of step 420, the processing returns to the processing of step 140.

또한, 리트라이 처리 B(400)는, 장표 인식 장치(30)에 의해 항목명이 인식되지 않은 경우, 스텝 120의 처리에서 틀 또는 문자 행이 잘못 검출되어 있는 경우가 있으므로, 장표의 화상 데이터로부터 틀 및 문자 행을 재검출한다. 이것에 의해, 틀 또는 문자 행이 잘못 검출됨으로써, 항목명 또는 데이터가 잘못 인식되는 것이 구제된다.In addition, when the item name is not recognized by the book recognition device 30, the retry processing B 400 may incorrectly detect a frame or character line in the process of Step 120. And rediscover character lines. As a result, the frame or character line is incorrectly detected, and the item name or data is incorrectly recognized.

리트라이 처리 B(400)에 대해서, 구체적인 예를 이용하여 설명한다.The retry process B 400 will be described using a specific example.

장표 인식 장치(30)에 도 12에 도시한 장표가 입력된 경우, 도 12에 도시한 장표는, 「주소」의 틀에 세로선의 예를 들면 인쇄 시에 발생한 노이즈가 있으므로, 장표 인식 장치(30)는, 스텝 120의 처리에서, 이 틀을 세로선으로 2개로 분할하여 검출하게 되어, 「주소」의 문자 행을 검출할 수 없다.When the book shown in FIG. 12 is input to the book recognition device 30, the book shown in FIG. 12 has noise generated when printing, for example, a vertical line in the frame of the “address”. ) Detects the frame by dividing the frame into two vertical lines in the processing of Step 120, and cannot detect the character line of "address".

따라서, 장표 인식 장치(30)는, 스텝 210의 처리에서, 도 12에 도시한 바와 같이, 「주소」의 항목명을 포함하는 굵은 선 틀(1200)을 불판독 영역으로서 검출한다.Therefore, in the process of step 210, the book recognition apparatus 30 detects the thick line frame 1200 containing the item name of "address" as an unread area | region as shown in FIG.

그리고, 스텝 210의 처리에서 검출된 불판독 영역 내에서, 세로선에 의해 분할된 틀만이 틀의 폭이 서로 다르기 때문에, 장표 인식 장치(30)는, 폭이 서로 다른 틀을 다른 틀의 폭에 맞추어, 틀을 재검출하고, 문자 행을 재검출한다(410).In the unread area detected by the processing in step 210, only the frames divided by the vertical lines have different widths of the frames, so the book recognition device 30 adjusts the frames having different widths to the widths of the different frames. , The frame is redetected and the text lines are redetected (410).

스텝 410의 처리가 실행됨으로써, 장표 인식 장치(30)는, 「주소」의 문자 행을 검출하고, 스텝 310의 처리와 동일하게, 대조 조건을 완화시켜 항목명의 문자 열을 인식한다. By performing the process of step 410, the book recognition apparatus 30 detects the character line of "address", and similarly to the process of step 310, the matching condition is relaxed to recognize the character string of the item name.

도 12에 도시한 장표에서는, 「주소」의 「주」자에 세로선의 노이즈가 있지만, 장표 인식 장치(30)는, 대조 조건을 완화시키기 때문에, 항목명을 「주소」로 인식할 수 있다.In the table shown in FIG. 12, although the "note" of "address" has a vertical line noise, the book recognition device 30 can recognize the item name as "address" because the check condition is relaxed.

또한, 문자의 일부가 괘선으로서 인식되고, 틀이 잘못 검출된 경우, 장표 인식 장치(30)는, 괘선으로서 검출된 문자의 일부는, 괘선이 아니라고 해도, 틀을 재검출하여도 된다.In addition, when a part of the character is recognized as a ruled line and the frame is incorrectly detected, the book recognition device 30 may redetect the frame even if a part of the character detected as the ruled line is not a ruled line.

다음으로, 장표 인식 장치(30)에 도 13에 도시한 장표가 입력된 경우에 대해 설명한다. 도 13에 도시한 장표는, 「전화 번호」의 문자 열이 2행으로 되어 있고, 「전화」와 「번호」의 행간이 좁기 때문에, 장표 인식 장치(30)는, 스텝 120의 처리에서 「전화 번호」를 1행의 문자 행으로서 검출한다. 이 때문에, 장표 인식 장치(30)는, 스텝 130의 처리에서, 「전화 번호」의 항목명을 인식할 수 없다. 그리고, 장표 인식 장치(30)는, 스텝 210의 처리에서 「전화 번호」의 항목명을 포 함하는 굵은 선 틀(1300) 내를 불판독 영역으로서 검출한다.Next, the case where the book form shown in FIG. 13 is input to the book form recognition apparatus 30 is demonstrated. In the book shown in Fig. 13, since the character string of "phone number" has two lines, and the line of "telephone" and "number" is narrow, the book recognition device 30 performs the "telephone" in the process of step 120. Number "is detected as one character line. For this reason, in the process of step 130, the book recognition apparatus 30 cannot recognize the item name of "telephone number." In addition, in the process of step 210, the book recognition device 30 detects the inside of the thick line frame 1300 including the item name of "telephone number" as an unread area.

장표 인식 장치(30)는, 스텝 410의 처리에서, 불판독 영역의 틀의 문자 행의 높이가 다른 문자 행의 높이보다 높은지의 여부를 판정하여, 다른 문자 행의 높이보다 불판독 영역의 틀의 문자 행의 높이가 높은 불판독 영역의 틀의 문자 행을 분할하여, 문자 행을 재검출한다. In the process of step 410, the book recognition apparatus 30 determines whether the height of the character line of the frame of an unread area | region is higher than the height of another character line, and determines the height of the frame of an unread area | region than the height of another character line. The character line of the frame of the unread area | region of which the height of a character line is high is divided, and a character line is redetected.

구체적으로는, 도 13에 도시한 장표의 2행인 「전화 번호」가 1행으로서 인식된 경우, 「전화 번호」의 문자 행의 높이가 다른 문자 행보다 높으므로, 장표 인식 장치(30)는, 「전화」와 「번호」의 2행을 검출한다. 그리고, 장표 인식 장치(30)는, 「전화」와 「번호」를 연결하고, 항목명 사전(620)과 대조하여, 항목명 「전화 번호」를 인식한다. Specifically, when the "telephone number" which is two lines of the book shown in FIG. 13 is recognized as one line, since the height of the text line of "phone number" is higher than other text lines, the book recognition device 30 is Two lines of "telephone" and "number" are detected. And the book recognition apparatus 30 connects "telephone" and "number", and recognizes the item name "telephone number" in contrast with the item name dictionary 620.

또한, 전술한 리트라이 처리 B(400)는, 항목명을 인식하는 예를 설명하였지만, 장표 인식 장치(30)가 데이터의 틀 및 문자 행을 잘못 검출한 경우에도, 적용할 수 있다. In addition, although the above-described retry processing B 400 has described an example of recognizing the item name, the retry processing B 400 can be applied even when the book recognition device 30 incorrectly detects a frame and a character line of data.

다음으로 리트라이 처리 C(500)에 대해서 설명한다. Next, the retry process C 500 will be described.

장표 인식 장치(30)는, 리트라이 처리 A(300) 및 리트라이 처리 B(400)를 실행해도, 항목명을 인식할 수 없는 경우, 데이터의 문자 열을 인식하고(510), 인식된 문자 열에 기초하여, 항목명을 인식하고(520), 항목명 틀을 검출한다(530). 그리고, 장표 인식 장치(30)는, 항목명 틀을 검출한 경우, 스텝 160으로 되돌아간다. When the item recognition device 30 cannot execute the retry process A 300 and the retry process B 400 even if the item name cannot be recognized, the book recognition device 30 recognizes the character string of the data (510). On the basis of this, the item name is recognized (520), and the item name frame is detected (530). And when the item recognition apparatus 30 detects an item name frame, it returns to step 160. FIG.

리트라이 처리 C(500)에 대해서 구체적인 예를 이용하여 설명한다.The retry process C 500 will be described using a specific example.

리트라이 처리 C(500)가 실행되는 경우, 장표 인식 장치(30)의 인식 사 전(40)에는, 도 14에 도시한 항목별 이용 지식(650)이 저장된다.When the retry process C 500 is executed, the item-specific usage knowledge 650 shown in FIG. 14 is stored in the recognition dictionary 40 of the book recognition device 30.

장표 인식 장치(30)에 도 13에 도시한 장표가 입력된 경우, 도 13에 도시한 장표는, 「전화 번호」의 문자가 괘선에 접촉하고 있으므로, 장표 인식 장치(30)는, 「전화 번호」의 문자 열을 인식할 수 없다. 그리고, 장표 인식 장치(30)는, 스텝 210의 처리에서, 도 13에 도시한 바와 같이, 「전화 번호」의 항목명을 포함하는 굵은 선 틀(1300)을 불판독 영역으로서 검출한다. When the book shown in FIG. 13 is input to the book recognition device 30, in the book shown in FIG. 13, since the letter of "phone number" contacts a ruled line, the book recognition device 30 is a "phone number." Character string cannot be recognized. And the book recognition apparatus 30 detects the thick line frame 1300 which contains the item name of "telephone number" as an unread area | region in the process of step 210 as shown in FIG.

장표 인식 장치(30)는, 스텝 510의 처리에서, 불판독 영역의 문자 열을 인식한다. 그리고, 장표 인식 장치(30)는, 항목별 이용 지식(650)을 참조하여, 인식된 문자 열이 기재 내용(6502)에 포함되는 항목명(6501)을 검출하고, 검출된 항목명을 항목명으로서 인식한다. In the process of step 510, the book recognition apparatus 30 recognizes the character string of an unread area | region. The book recognition device 30 then detects the item name 6501 in which the recognized character string is included in the description content 6502 by referring to the item-specific knowledge 650, and recognizes the detected item name as the item name. .

도 13에 도시한 장표에서는, 불판독 영역의 2행째 및 3행째의 문자 열은 숫자와 하이픈뿐으로, 자릿수 및 기재 형식이 한정되므로, 장표 인식 장치(30)는, 항목별 이용 지식(650)을 참조하여, 전화 번호를 항목명으로서 인식한다. 특정한 형식을 갖는 숫자 열의 대조에 대해서는, 일본 특개평8-243505호 공보에 기재된 기술을 적용할 수 있다.In the book shown in FIG. 13, the character strings of the second and third lines of the unread area are only numbers and hyphens, and the number of digits and the description form are limited. Reference is made to the telephone number as an item name. The technique described in Japanese Patent Laid-Open No. 8-243505 can be applied to collation of a string of numbers having a specific format.

그리고, 장표 인식 장치(30)는, 스텝 530의 처리에서, 불판독 영역의 상단의 틀 또는 숫자 이외의 문자 열을 포함하는 틀을, 항목명 「전화 번호」의 틀로서 검출한다. 또한, 불판독 영역의 상단을 항목명 틀로 검출한 것은, 일반적으로 표의 상단 또는 좌단에 항목명이 존재하는 경우가 많기 때문이다.In addition, in the process of step 530, the book recognition apparatus 30 detects the frame of the upper end of an unread area | region, or the frame containing a character string other than a number as a frame of an item name "telephone number". In addition, the upper end of the unread area is detected by the item name frame because the item name usually exists at the upper end or the left end of the table.

또한, 장표 인식 장치(30)는, 스텝 530의 처리를 실행하기 전에, 스텝 310의 처리를 다시 실행하여도 된다.In addition, before performing the process of step 530, the book recognition apparatus 30 may perform the process of step 310 again.

또한, 전술한 실시예에서는, 인식 처리(110)가 실행됨으로써, 인식되지 않는 항목이 단수인 경우의 예를 들었지만, 복수의 항목이 인식되지 않는 경우에도, 리트라이 처리(700)가 실행됨으로써, 장표 인식 장치(30)를 인식할 수 있는 항목을 늘려나감으로써, 적용할 수 있다. 또한, 리트라이 처리(700)가 반복하여 실행되어도, 항목이 인식되지 않는 경우, 장표 인식 장치(30)는, 그 인식되지 않는 항목을 인식할 수 없는 것으로 하여, 인식할 수 없다는 취지를 표시 장치(50)에 출력한다. In the above-described embodiment, the recognition process 110 is executed to give an example of the case where the number of items that are not recognized is singular. However, even when a plurality of items are not recognized, the retry process 700 is executed. It can apply by increasing the item which can recognize the book recognition apparatus 30. If the item is not recognized even if the retry process 700 is repeatedly executed, the book recognition device 30 cannot recognize the unrecognized item, and thus cannot display the item. Output to 50.

본 발명의 일 형태에 따르면, 유사하지만 서식이 서로 다른 장표를, 엄밀한 정의없이 인식할 수 있다. 또한, 항목명의 문자가 인식될 확률이 낮은 경우에도, 정밀도 좋게 장표의 속성을 해석하면서, 인식할 수 있다. According to one embodiment of the present invention, a similar but different form can be recognized without a strict definition. In addition, even when the character of the item name is unlikely to be recognized, it can be recognized while analyzing the attribute of the table with high precision.

Claims (16)

연산 처리를 하는 프로세서와, 상기 프로세서에 접속되는 기억부와, 장표의 화상 정보를 장표 인식 장치에 입력하는 화상 입력 장치에 접속되는 인터페이스를 구비하고, 상기 화상 입력 장치에 의해 입력된 장표의 화상 정보를 인식하는 장표 인식 장치에 있어서, A processor for performing arithmetic processing, a storage unit connected to the processor, and an interface connected to an image input device for inputting the image information of the document to the document recognition device, wherein the image information of the document entered by the image input device is provided. In the book recognition device for recognizing, 상기 프로세서는, The processor, 상기 입력된 장표의 화상 정보의 틀 및 문자 행을 검출하고, Detecting a frame and a character line of the image information of the input list; 상기 검출된 틀 내의 문자 열을 검출하고, 상기 검출된 문자 열로부터 장표 내의 항목명을 인식하고, Detecting a character string in the detected frame, recognizing an item name in a table from the detected character string, 상기 인식된 항목명이 존재하는 틀을 항목명 틀로서 검출하고, A frame in which the recognized item name exists is detected as an item name frame, 상기 인식된 항목명에 기초하여, 상기 인식된 항목명에 대응하는 데이터 틀을 검출하고,Based on the recognized item name, detecting a data frame corresponding to the recognized item name, 상기 검출된 데이터 틀 내의 문자 열을 인식하는 인식 처리를 실행하고, Perform a recognition process of recognizing a character string in the detected data frame, 상기 인식 처리에서 문자 열이 인식되지 않은 항목명이 있는지의 여부를 판정하여, In the recognition processing, it is determined whether there is an item name for which a character string is not recognized, 상기 인식되지 않은 항목명이 있다고 판정된 경우, 상기 인식되지 않은 항목명에 기초하여, 상기 인식되지 않은 항목명에 대응하는 데이터 틀을 다시 검출하고, If it is determined that the unrecognized item name is found, the data frame corresponding to the unrecognized item name is detected again based on the unrecognized item name, 상기 검출된 데이터 틀의 문자 열을 인식하는 것을 특징으로 하는 장표 인식 장치. And recognizes a character string of the detected data frame. 제1항에 있어서,The method of claim 1, 상기 프로세서는, 상기 입력된 화상 정보로부터 상기 검출된 항목명 틀 및 상기 검출된 데이터 틀을 제외함으로써, 상기 인식되지 않은 영역을 검출하는 것을 특징으로 하는 장표 인식 장치. And the processor detects the unrecognized area by excluding the detected item name frame and the detected data frame from the input image information. 제1항에 있어서,The method of claim 1, 상기 기억부에는, 상기 장표에 포함될 항목명이 등록된 항목명 사전이 저장되고, The storage unit stores an item name dictionary in which item names to be included in the table are registered. 상기 프로세서는, The processor, 상기 인식 처리를 실행하면, 상기 항목명 사전에 등록된 항목명과 상기 인식된 항목명을 비교하여, When the recognition processing is executed, the item name registered in the item name dictionary is compared with the recognized item name. 상기 항목명 사전에 등록된 항목명 중 상기 인식된 항목명을 제외함으로써, 상기 인식되지 않은 항목명을 특정하는 것을 특징으로 하는 장표 인식 장치. And recognizing the unrecognized item name by excluding the recognized item name among the item names registered in the item name dictionary. 제1항에 있어서,The method of claim 1, 상기 프로세서는, The processor, 상기 인식되지 않은 항목명이 있다고 판정된 경우, 상기 입력된 장표의 화상 정보로부터 상기 검출된 항목명 틀 및 상기 검출된 데이터 틀을 제외하고, 인식되 지 않은 영역을 검출하고, If it is determined that there is an unrecognized item name, an unrecognized area is detected from the image information of the input list except for the detected item name frame and the detected data frame, 상기 인식되지 않은 영역 내의 문자 열을 검출하고, Detect a character string in the unrecognized region, 상기 인식 처리에서의 항목명을 인식하는 스텝과 서로 다른 조건에서, 상기 검출된 문자 열로부터 상기 인식되지 않은 항목명을 인식하는 것을 특징으로 하는 장표 인식 장치. And recognizing the unrecognized item name from the detected character string under conditions different from the step of recognizing the item name in the recognition processing. 제4항에 있어서,The method of claim 4, wherein 상기 프로세서는, The processor, 상기 인식 처리에서의 항목명을 인식하는 스텝에서, 상기 검출된 문자 열과 상기 항목명 사전에 등록된 항목명을 대조하여, 상기 장표 내의 항목명을 인식하고, In the step of recognizing the item name in the recognition process, by comparing the detected character string with the item name registered in the item name dictionary, the item name in the table is recognized, 상기 인식되지 않은 항목명이 있다고 판정된 경우, If it is determined that the item name is not recognized, 상기 인식되지 않은 영역 내의 문자 열을 검출하고, Detect a character string in the unrecognized region, 상기 검출된 문자 열과 상기 항목명 사전에 등록된 항목명을 대조하는 조건을, 상기 인식 처리에서의 상기 검출된 문자 열과 상기 항목명 사전에 등록된 항목명을 대조하는 조건보다 완화시켜, 상기 인식되지 않은 항목명을 인식하는 것을 특징으로 하는 장표 인식 장치. The condition for matching the detected character string with the item name registered in the item name dictionary is relaxed than the condition for matching the detected character string in the recognition process with the item name registered in the item name dictionary to recognize the unrecognized item name. A book recognition device, characterized in that. 제4항에 있어서,The method of claim 4, wherein 상기 프로세서는, The processor, 상기 검출된 틀에서, 상기 인식되지 않은 영역 내에 포함되는 틀을 다시 검출하고, Detecting the frame included in the unrecognized region again from the detected frame, 상기 다시 검출된 틀 내의 문자 열을 검출하고, Detecting a character string in the again detected frame, 상기 검출된 문자 열로부터 상기 인식되지 않은 항목명을 인식하는 것을 특징으로 하는 장표 인식 장치. And recognize the unrecognized item name from the detected character string. 제4항에 있어서,The method of claim 4, wherein 상기 프로세서는, The processor, 상기 검출된 문자 행에서, 상기 인식되지 않은 영역 내에 포함되는 문자 행을 다시 검출하고,In the detected character line, detecting a character line included in the unrecognized area again, 상기 다시 검출된 문자 행에 기초하여 문자 열을 검출하고, Detect a character string based on the again detected character line, 상기 검출된 문자 열로부터 상기 인식되지 않은 항목명을 인식하는 것을 특징으로 하는 장표 인식 장치. And recognize the unrecognized item name from the detected character string. 제4항에 있어서,The method of claim 4, wherein 상기 프로세서는, The processor, 상기 인식되지 않은 영역으로부터 문자 열을 인식하고, Recognize a character string from the unrecognized area, 상기 인식된 문자 열로부터 가장 확실한 항목명을 인식하는 것을 특징으로 하는 장표 인식 장치. And recognizes the most reliable item name from the recognized character string. 연산 처리를 하는 프로세서와, 상기 프로세서에 접속되는 기억부와, 장표의 화상 정보를 장표 인식 장치에 입력하는 화상 입력 장치에 접속되는 인터페이스를 구비하는 장표 인식 장치에, 상기 화상 입력 장치에 의해 입력된 장표의 화상 정보를 인식시키는 프로그램으로서, The image recognition device is inputted to the document recognition device having a processor for performing arithmetic processing, a storage unit connected to the processor, and an interface connected to an image input device for inputting image information of the document to the document recognition device. As a program for recognizing image information of a book, 상기 프로그램은, 상기 장표 인식 장치에, The program is stored in the ticket recognition device. 상기 입력된 장표의 화상 정보의 틀 및 문자 행을 검출시키고, Detecting a frame and a character line of the image information of the input list; 상기 검출된 틀 내의 문자 열을 검출시켜, 상기 검출된 문자 열로부터 장표 내의 항목명을 인식시키고, Detecting a character string in the detected frame to recognize an item name in a table from the detected character string, 상기 인식된 항목명이 존재하는 틀을 항목명 틀로서 검출시키고, Detecting a frame in which the recognized item name exists, as an item name frame, 상기 인식된 항목명에 기초하여, 상기 인식된 항목명에 대응하는 데이터 틀을 검출시키고, Based on the recognized item name, detecting a data frame corresponding to the recognized item name, 상기 검출된 데이터 틀 내의 문자 열을 인식시키는 인식 처리를 실행시키고,Perform a recognition process of recognizing a character string in the detected data frame, 상기 인식 처리에서 문자 열이 인식되지 않은 항목명이 있는지의 여부를 판정시키고, In the recognition processing, it is determined whether there is an item name for which a character string is not recognized, 상기 인식되지 않은 항목명에 기초하여, 상기 인식되지 않은 항목명에 대응하는 데이터 틀을 다시 검출시키고, Based on the unrecognized item name, again detecting a data frame corresponding to the unrecognized item name, 상기 검출된 데이터 틀의 문자 열을 인식시키는 것을 특징으로 하는 프로그램. And a character string of the detected data frame. 제9항에 있어서,The method of claim 9, 상기 프로그램은 상기 장표 인식 장치에, 상기 입력된 화상 정보로부터 상기 검출된 항목명 틀 및 상기 검출된 데이터 틀을 제외시킴으로써, 상기 인식되지 않은 영역을 검출시키는 것을 특징으로 하는 프로그램. And the program detects the unrecognized area by excluding the detected item name frame and the detected data frame from the input image information. 제9항에 있어서,The method of claim 9, 상기 장표 인식 장치에 구비되는 상기 기억부에는, 상기 장표에 포함될 항목명이 등록된 항목명 사전이 등록되고, In the storage unit provided in the book recognition device, an item name dictionary in which an item name to be included in the book is registered is registered, 상기 프로그램은 상기 장표 인식 장치에, The program is in the ticket recognition device, 상기 인식 처리를 실행시키면, 상기 항목명 사전에 등록된 항목명과 상기 인식된 항목명을 비교시키고, When the recognition processing is executed, the item name registered in the item name dictionary is compared with the recognized item name, 상기 항목명 사전에 등록된 항목명 중 상기 인식된 항목명을 제외시킴으로써, 상기 인식되지 않은 항목명을 특정시키는 것을 특징으로 하는 프로그램. And recognizing the unrecognized item name by excluding the recognized item name from the item names registered in the item name dictionary. 제9항에 있어서,The method of claim 9, 상기 프로그램은 상기 장표 인식 장치에, The program is in the ticket recognition device, 상기 인식되지 않은 항목명이 있다고 판정된 경우, 상기 입력된 장표의 화상 정보로부터 상기 검출된 항목명 틀 및 상기 검출된 데이터 틀을 제외시켜, 인식되지 않은 영역을 검출시키고, If it is determined that there is an unrecognized item name, the detected item name frame and the detected data frame are excluded from the image information of the input list to detect an unrecognized area, 상기 인식되지 않은 영역 내의 문자 열을 검출시키고, Detect a character string in the unrecognized region, 상기 인식 처리에서의 항목명을 인식시키는 스텝과 서로 다른 조건에서, 상 기 검출된 문자 열로부터 상기 인식되지 않은 항목명을 인식시키는 것을 특징으로 하는 프로그램. And recognizing the unrecognized item name from the detected character string under conditions different from the step of recognizing the item name in the recognition processing. 제12항에 있어서,The method of claim 12, 상기 프로그램은 상기 장표 인식 장치에, The program is in the ticket recognition device, 상기 인식 처리에서의 항목명을 인식하는 스텝에서, 상기 검출된 문자 열과 상기 항목명 사전에 등록된 항목명을 대조시켜, 상기 장표 내의 항목명을 인식시키고, In the step of recognizing the item name in the recognition process, by contrasting the detected character string with the item name registered in the item name dictionary, the item name in the table is recognized, 상기 인식되지 않은 항목명이 있다고 판정된 경우, If it is determined that the item name is not recognized, 상기 인식되지 않은 영역 내의 문자 열을 검출시키고, Detect a character string in the unrecognized region, 상기 검출된 문자 열과 상기 항목명 사전에 등록된 항목명을 대조하는 조건을, 상기 인식 처리에서의 상기 검출된 문자 열과 상기 항목명 사전에 등록된 항목명을 대조하는 조건보다도 완화시켜, 상기 인식되지 않은 항목명을 인식시키는 것을 특징으로 하는 프로그램. The condition for matching the detected character string with the item name registered in the item name dictionary is relaxed than the condition for matching the detected character string in the recognition process with the item name registered in the item name dictionary to recognize the unrecognized item name. The program characterized in that the. 제12항에 있어서,The method of claim 12, 상기 프로그램은 상기 장표 인식 장치에,The program is in the ticket recognition device, 상기 검출된 틀에서, 상기 인식되지 않은 영역 내에 포함되는 틀을 다시 검출시키고, In the detected frame, the frame included in the unrecognized area is detected again, 상기 다시 검출된 틀 내의 문자 열을 검출시키고, Detect a character string in the again detected frame, 상기 검출된 문자 열로부터 상기 인식되지 않은 항목명을 인식시키는 것을 특징으로 하는 프로그램. And recognize the unrecognized item name from the detected character string. 제12항에 있어서,The method of claim 12, 상기 프로그램은 상기 장표 인식 장치에, The program is in the ticket recognition device, 상기 검출된 문자 행에서, 상기 인식되지 않은 영역 내에 포함되는 문자 행을 다시 검출시키고, In the detected character line, detecting a character line included in the unrecognized area again, 상기 다시 검출된 문자 행에 기초하여 문자 열을 검출시키고, Detect a character string based on the again detected character line, 상기 검출된 문자 열로부터 상기 인식되지 않은 항목명을 인식시키는 것을 특징으로 하는 프로그램. And recognize the unrecognized item name from the detected character string. 제12항에 있어서,The method of claim 12, 상기 프로그램은 상기 장표 인식 장치에, The program is in the ticket recognition device, 상기 인식되지 않은 영역으로부터 문자 열을 인식시키고, Recognize a string from the unrecognized region, 상기 인식된 문자 열로부터 가장 확실한 항목명을 인식시키는 것을 특징으로 하는 프로그램. And recognizing the most reliable item name from the recognized character string.
KR1020060074608A 2006-07-12 2006-08-08 Business form recognition apparatus, and business form recognition program KR20080006422A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2006-00191324 2006-07-12
JP2006191324A JP4733577B2 (en) 2006-07-12 2006-07-12 Form recognition device and form recognition program

Publications (1)

Publication Number Publication Date
KR20080006422A true KR20080006422A (en) 2008-01-16

Family

ID=39076957

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060074608A KR20080006422A (en) 2006-07-12 2006-08-08 Business form recognition apparatus, and business form recognition program

Country Status (2)

Country Link
JP (1) JP4733577B2 (en)
KR (1) KR20080006422A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230074182A (en) * 2020-10-29 2023-05-26 닛폰세이테츠 가부시키가이샤 Identification device, identification method and program

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5216985B2 (en) * 2010-04-13 2013-06-19 寛 江川 Data processing apparatus and insurance card verification system
JP5674615B2 (en) * 2011-09-28 2015-02-25 株式会社日立情報通信エンジニアリング Character recognition device and character recognition method
JP5703191B2 (en) * 2011-11-02 2015-04-15 株式会社日立製作所 Document recognition support apparatus, document search apparatus, and document management method
JP6373664B2 (en) * 2014-07-09 2018-08-15 株式会社東芝 Electronic device, method and program
JP6364051B2 (en) * 2016-09-15 2018-07-25 株式会社アイエスピー Document information acquisition method with guidance, program, and portable terminal device
JP6900164B2 (en) * 2016-09-27 2021-07-07 キヤノン株式会社 Information processing equipment, information processing methods and programs
JP6736012B2 (en) * 2018-07-23 2020-08-05 日本生命保険相互会社 Information processing apparatus, information processing method, program, and form reading system
JP7275617B2 (en) * 2019-02-06 2023-05-18 日本電信電話株式会社 Information processing device, discrimination method and discrimination program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2848560B2 (en) * 1988-09-29 1999-01-20 キヤノン株式会社 Image recognition method and apparatus
JPH10207981A (en) * 1997-01-20 1998-08-07 Ricoh Co Ltd Document recognition method
JP2002366893A (en) * 2001-06-08 2002-12-20 Hitachi Ltd Document recognizing method
JP4347677B2 (en) * 2003-12-08 2009-10-21 富士フイルム株式会社 Form OCR program, method and apparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230074182A (en) * 2020-10-29 2023-05-26 닛폰세이테츠 가부시키가이샤 Identification device, identification method and program

Also Published As

Publication number Publication date
JP4733577B2 (en) 2011-07-27
JP2008021068A (en) 2008-01-31

Similar Documents

Publication Publication Date Title
US10943105B2 (en) Document field detection and parsing
KR20080006422A (en) Business form recognition apparatus, and business form recognition program
KR101122854B1 (en) Method and apparatus for populating electronic forms from scanned documents
US9552516B2 (en) Document information extraction using geometric models
JP6528147B2 (en) Accounting data entry support system, method and program
JP4996940B2 (en) Form recognition device and program thereof
US10606933B2 (en) Method and system for document image layout deconstruction and redisplay
US20070027749A1 (en) Advertisement detection
US7668814B2 (en) Document management system
CN110785773B (en) Bill identification system
US8340425B2 (en) Optical character recognition with two-pass zoning
US9047533B2 (en) Parsing tables by probabilistic modeling of perceptual cues
US20060104498A1 (en) Apparatus, system, and method for fraud detection using multiple scan technologies
WO2023038722A1 (en) Entry detection and recognition for custom forms
JP5041775B2 (en) Character cutting method and character recognition device
Kumar et al. Line based robust script identification for indianlanguages
JP2008257543A (en) Image processing system and program
EP4133410A1 (en) Text classification
CN112101356A (en) Method and device for positioning specific text in picture and storage medium
JP3732254B2 (en) Format information generation method and format information generation apparatus
JPS63146187A (en) Character recognizing device
JPH07114619A (en) Document recognizing device
Loke et al. A software application for survey form design and processing for scientific use
JP7206644B2 (en) Character recognition device, character recognition method, and program
JP2002366893A (en) Document recognizing method

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid